7.4 奇异值分解的例子和应用 极分解和奇异值分解有许多应用。一些应用在习题中给出,而一些应用在下述例子中讨论。
7.4.1 例 如果 A ∈ M n A \in M_{n} A ∈ M n 是给定的可逆矩阵,则(关于任一范数)与 A A A 充分接近的所有矩阵也是可逆的。在某些统计模型问题中,需要求一个在最小二乘意义下与 A A A “最接近的奇异矩阵”;也就是希望求矩阵 B B B 使得 A + B A + B A + B 是奇异矩阵,而 ∥ B ∥ 2 \|B\|_{2} ∥ B ∥ 2 越小越好。
设 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 是任一矩阵范数,考虑 A + B = A ( I + A − 1 B ) A + B = A(I + A^{-1}B) A + B = A ( I + A − 1 B ) ,假定它是奇异矩阵。假如 ∥ A − 1 B ∥ < 1 \| A^{-1}B \| < 1 ∥ A − 1 B ∥ < 1 ,由(5.6.16)可知, I + A − 1 B I + A^{-1}B I + A − 1 B ,因而 A + B A + B A + B 是可逆的。于是 1 ⩽ ∥ A − 1 B ∥ ⩽ ∥ A − 1 ∥ ∥ B ∥ 1 \leqslant \| A^{-1}B \| \leqslant \| A^{-1} \| \| B \| 1 ⩽ ∥ A − 1 B ∥ ⩽ ∥ A − 1 ∥∥ B ∥ ,因此,如果 A + B A + B A + B 是奇异矩阵而 A A A 是可逆矩阵,我们就一定有 ∥ B ∥ ⩾ 1 / ∥ A − 1 ∥ \| B \| \geqslant 1 / \| A^{-1} \| ∥ B ∥ ⩾ 1/∥ A − 1 ∥ 。如果选 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 为谱范数,又如果 A = V Σ W ′ A = V\Sigma W' A = V Σ W ′ 是 A A A 的奇异值分解,则 ∥ A − 1 ∥ 2 = ∥ W Σ − 1 V ∗ ∥ 2 = ∥ Σ − 1 ∥ 2 = 1 / σ n \| A^{-1} \|_2 = \| W\Sigma^{-1} V^* \|_2 = \| \Sigma^{-1} \|_2 = 1 / \sigma_n ∥ A − 1 ∥ 2 = ∥ W Σ − 1 V ∗ ∥ 2 = ∥ Σ − 1 ∥ 2 = 1/ σ n ,其中 σ n \sigma_n σ n 是 A A A 的最小奇异值。于是,使得 A + B A + B A + B 是奇异矩阵的任何 B B B 必须适合 ∥ B ∥ 2 ⩾ σ n ( A ) \| B \|_2 \geqslant \sigma_n(A) ∥ B ∥ 2 ⩾ σ n ( A ) 。但是,如果选择 B B B 为矩阵 B = V E W ′ B = VEW' B = V E W ′ ,其中 E = d i a g ( 0 , 0 , … , 0 , − σ n ) E = \mathrm{diag}(0, 0, \dots, 0, -\sigma_n) E = diag ( 0 , 0 , … , 0 , − σ n ) ,则 ∥ B ∥ 2 = ∥ E ∥ 2 = σ n = ∥ E ∥ 2 = ∥ B ∥ 2 \| B \|_2 = \| E \|_2 = \sigma_n = \| E \|_2 = \| B \|_2 ∥ B ∥ 2 = ∥ E ∥ 2 = σ n = ∥ E ∥ 2 = ∥ B ∥ 2 ,且 A + B A + B A + B 就是奇异矩阵(有秩 n − 1 n - 1 n − 1 )。
更一般地,如果关于 Frobenius 范数需要求一个与某个奇异或非奇异矩阵 A A A “最接近的秩 k k k 矩阵”,可以这样选择 A + B A + B A + B ,其中 B = V E W ∗ B = V E W^{*} B = V E W ∗ 如前,但是 E = d i a g ( 0 , ⋯ , 0 , − σ k − 1 , ⋯ , − σ n ) E = \mathrm{diag}(0, \cdots, 0, -\sigma_{k-1}, \cdots, -\sigma_n) E = diag ( 0 , ⋯ , 0 , − σ k − 1 , ⋯ , − σ n ) . 关于这个结果从 Frobenius 范数到所有酉不变范数的推广,可参看本节末习题 1 的有关证明以及例 (7.4.52).
k = 1 k = 1 k = 1 的情形经常出现在一些应用中,这是值得特别提出来的。用秩1矩阵 X ∈ M n X \in M_{n} X ∈ M n 对某个矩阵 A = V Σ W ∧ ∈ M n A = V\Sigma W^{\wedge} \in M_{n} A = V Σ W ∧ ∈ M n 的最佳最小二乘逼近是 X = A + B = V ( Σ + E ) W ⋆ = V d i a g ( σ 1 , 0 , … , 0 ) X = A + B = V(\Sigma + E)W^{\star} = V\mathrm{diag}(\sigma_{1}, 0, \dots, 0) X = A + B = V ( Σ + E ) W ⋆ = V diag ( σ 1 , 0 , … , 0 ) , W ∗ = σ 1 v w ∗ W^{*} = \sigma_{1}vw^{*} W ∗ = σ 1 v w ∗ ,其中, σ 1 \sigma_{1} σ 1 是 A A A 的最大奇异值,而 v v v 和 w w w 分别是 A A A 的奇异值分解中的酉矩阵 V V V 和 W W W 的第1列。关于 v v v 和 w w w 的一个有用的论断是, v v v 和 w w w 是--对Hermite特征值--特征向量问题
A A − v − σ 1 2 v , A ∗ A w = σ 1 2 w A A ^ {-} v - \sigma_ {1} ^ {2} v, \quad A ^ {*} A w = \sigma_ {1} ^ {2} w A A − v − σ 1 2 v , A ∗ A w = σ 1 2 w 的单位向量解,其中 σ 1 2 \sigma_{1}^{2} σ 1 2 是半正定矩阵 A ′ A A^{\prime}A A ′ A (和 A A ∗ AA^{*} A A ∗ )的最大特征值。这个论断当然不唯一确定 v \pmb{v} v 和 w \pmb{w} w ;一个困难是相应于 σ 1 2 \sigma_{1}^{2} σ 1 2 的特征空间不一定是一维的。但是,如果 σ 1 2 \sigma_{1}^{2} σ 1 2 是 A ′ A A^{\prime}A A ′ A (因而是 A A ∗ AA^{*} A A ∗ )的单特征值,则向量 v \pmb{v} v 和 w \pmb{w} w 可确定到相差模为1的纯量因子,因此, v \pmb{v} v 和 w \pmb{w} w 一定是奇异值分解 A = V Σ W ∗ A = V\Sigma W^{*} A = V Σ W ∗ 中西矩阵 V V V 和 W W W 的相应第1列的纯量倍。在这个意义下,关于单位特征向量 v \pmb{v} v 和 w \pmb{w} w 的确定选择, A A A 的最佳秩1逼近必定是形式 e θ σ 1 v w ∗ e^{\theta} \sigma_{1} v w^{*} e θ σ 1 v w ∗ ,其中 θ ∈ R \theta \in \mathbb{R} θ ∈ R 是某个实数。我们必须选取纯量因子 e θ e^{\theta} e θ 使得 ∥ A − e θ σ 1 v w ∗ ∥ 2 2 = ∥ A ∥ 2 2 − 2 σ 1 Re [ tr e − θ A ( v w ∗ ) ∗ ] + σ 1 2 ∥ v ∥ 2 2 ∥ w ∥ 2 2 \| A - e^{\theta} \sigma_{1} v w^{*} \|_{2}^{2} = \| A \|_{2}^{2} - 2 \sigma_{1} \operatorname{Re}[\operatorname{tr} e^{-\theta} A(v w^{*})^{*}] + \sigma_{1}^{2} \| v \|_{2}^{2} \| w \|_{2}^{2} ∥ A − e θ σ 1 v w ∗ ∥ 2 2 = ∥ A ∥ 2 2 − 2 σ 1 Re [ tr e − θ A ( v w ∗ ) ∗ ] + σ 1 2 ∥ v ∥ 2 2 ∥ w ∥ 2 2 为极小,问题等价于使 Re [ tr e − θ A ( v w ∗ ) ∗ ] = Re [ e − θ v ⋅ A w ] \operatorname{Re}[\operatorname{tr} e^{-\theta} A(v w^{*})^{*}] = \operatorname{Re}[e^{-\theta} v \cdot A w] Re [ tr e − θ A ( v w ∗ ) ∗ ] = Re [ e − θ v ⋅ A w ] 为极大。但是, A w = V Σ W ∗ w = e θ σ 1 v A w = V\Sigma W^{*} w = e^{\theta} \sigma_{1} v A w = V Σ W ∗ w = e θ σ 1 v 对某个 ϕ ∈ R \phi \in \mathbb{R} ϕ ∈ R 成立[见(7.3)节习题5],因而 ∣ v ∗ A w ∣ = σ 1 > 0 |v^{*} A w| = \sigma_{1} > 0 ∣ v ∗ A w ∣ = σ 1 > 0 。因此,最佳纯量因子是 e θ = v ∗ A w / ∣ v ∗ A w ∣ = v ∗ A w / σ 1 e^{\theta} = v^{*} A w / |v^{*} A w| = v^{*} A w / \sigma_{1} e θ = v ∗ A w /∣ v ∗ A w ∣ = v ∗ A w / σ 1 ,而对 A A A 的最佳秩1逼近是
e ϕ σ 1 v w ∗ = ( v ∗ A w ) v w ∗ . e ^ {\phi} \sigma_ {1} v w ^ {*} = (v ^ {*} A w) v w ^ {*}. e ϕ σ 1 v w ∗ = ( v ∗ A w ) v w ∗ . 这说明,如果 A ⋆ A A^{\star}A A ⋆ A 的最大特征值是单的,则对 A A A 的最佳秩1最小二乘逼近可以毫不费力地通过两个Hermite特征值问题的解构造出来。例如,使 A A T AA^T A A T 为正矩阵,或更一般地为不可约矩阵的任一非负矩阵 A ∈ M n ( R ) A \in M_{n}(\mathbf{R}) A ∈ M n ( R ) 就适合 A ⋆ A A^{\star}A A ⋆ A 的最大单特征值的条件[见(8.4)节习题17)。
7.4.2 例 在定理(5.7.17)中已经证明, M n M_{n} M n 上的向量范数 G ( ⋅ ) G(\cdot) G ( ⋅ ) 能使条件
G ( A 1 ) G ( A 2 ) … G ( A k ) ⩾ ρ ( A 1 … A k ) G \left(A _ {1}\right) G \left(A _ {2}\right) \dots G \left(A _ {k}\right) \geqslant \rho \left(A _ {1} \dots A _ {k}\right) G ( A 1 ) G ( A 2 ) … G ( A k ) ⩾ ρ ( A 1 … A k ) 对所有 A 1 , A 2 , ⋯ , A k ∈ M n A_{1}, A_{2}, \cdots, A_{k} \in M_{n} A 1 , A 2 , ⋯ , A k ∈ M n 和所有 k = 1 , 2 , ⋯ k = 1, 2, \cdots k = 1 , 2 , ⋯ 成立,当且仅当 G ( ⋅ ) G(\cdot) G ( ⋅ ) 在 C n \mathbf{C}^{n} C n 上有相容向量范数。在这个证明中,决定性的一步是证明,如果 G ( ⋅ ) G(\cdot) G ( ⋅ ) 满足这个关于谱半径的不等式,则有某个有限常数 c > 0 c > 0 c > 0 ,使得 G ( A 1 ) G ( A 2 ) ⋯ G ( A k ) ⩾ c ∥ A 1 A 2 ⋯ A k ∥ 2 G(A_{1})G(A_{2}) \cdots G(A_{k}) \geqslant c \|A_{1}A_{2} \cdots A_{k}\|_{2} G ( A 1 ) G ( A 2 ) ⋯ G ( A k ) ⩾ c ∥ A 1 A 2 ⋯ A k ∥ 2 ,而证明它的关键是乘积 A 1 A 2 ⋯ A k A_{1}A_{2} \cdots A_{k} A 1 A 2 ⋯ A k 的奇异值分解。其细节在引理(5.7.16)中。
7.4.3 例 假定想解线性方程组 A x = b A x = b A x = b ,其中, A ∈ M m , n A \in M_{m,n} A ∈ M m , n 和 b ∈ C m b \in \mathbf{C}^m b ∈ C m 是已知的,且有秩 k k k 。如果 A = V Σ W ∗ A = V\Sigma W^* A = V Σ W ∗ 是 A A A 的奇异值分解,则 V Σ W ∗ x = b V\Sigma W^* x = b V Σ W ∗ x = b ,或
Σ ( W ∗ x ) = V ∗ b (7.4.4) \Sigma \left(W ^ {*} x\right) = V ^ {*} b \tag {7.4.4} Σ ( W ∗ x ) = V ∗ b ( 7.4.4 ) [428]
如果 m > k m > k m > k ,则 Σ \Sigma Σ 的后 m − k m - k m − k 行是 0,因此,如果在这种情形下有解,则必须(同时也只须)使 V ′ b V^{\prime}b V ′ b 的后 m − k m - k m − k 个元为零。于是,方程组在 m > k m > k m > k 时有解,当且仅当 b b b 与 A A A 的后 m − k m - k m − k 个左奇异向量正交。如果 b b b 满足这个相容条件,又如果 V = [ v 1 … v m ] V = [v_{1}\dots v_{m}] V = [ v 1 … v m ] 和 W = [ w 1 … w n ] W = [w_{1}\dots w_{n}] W = [ w 1 … w n ] ,则(7.4.4)说明
( W ∗ x ) ∗ = [ b ∗ v 1 σ 1 , … , b ∗ v k σ k , 0 , … , 0 ] ∗ , \left(W ^ {*} x\right) ^ {*} = \left[ \frac {b ^ {*} v _ {1}}{\sigma_ {1}}, \dots , \frac {b ^ {*} v _ {k}}{\sigma_ {k}}, 0, \dots , 0 \right] ^ {*}, ( W ∗ x ) ∗ = [ σ 1 b ∗ v 1 , … , σ k b ∗ v k , 0 , … , 0 ] ∗ , 因而向量
x = ∑ i = 1 k v i ∗ b σ i w i (7.4.5) x = \sum_ {i = 1} ^ {k} \frac {v _ {i} ^ {*} b}{\sigma_ {i}} w _ {i} \tag {7.4.5} x = i = 1 ∑ k σ i v i ∗ b w i ( 7.4.5 ) 是解。因为对所有 j > k j > k j > k , A ω j = V ( Σ W ∗ ω j ) = 0 A\omega_{j} = V(\Sigma W^{*}\omega_{j}) = 0 A ω j = V ( Σ W ∗ ω j ) = 0 ,所以, A A A 的后 n − k n - k n − k 个右奇异向量(如果有的话)的任意线性组合都在 A A A 的零空间中,因而对任意 c k − 1 , ⋯ , c n ∈ C c_{k-1}, \cdots, c_{n} \in \mathbf{C} c k − 1 , ⋯ , c n ∈ C ,向量
x = ∑ r = 1 k v r ∗ b σ r w 1 + ∑ r − k − 1 n c r w r x = \sum_ {r = 1} ^ {k} \frac {v _ {r} ^ {*} b}{\sigma_ {r}} w _ {1} + \sum_ {r - k - 1} ^ {n} c _ {r} w _ {r} x = r = 1 ∑ k σ r v r ∗ b w 1 + r − k − 1 ∑ n c r w r 都是 A x = b A_{x} = b A x = b 的解;当然,如果 n = k n = k n = k ,就不会出现这后一个和式.因为向量组 { w i } \{w_{i}\} { w i } 是标准正交组,所以当所有 c 1 = 0 c_{1} = 0 c 1 = 0 时,就得到具有极小 l 2 l_{2} l 2 范数的解.值得指出的是, A A A 的后 m − k m - k m − k 个左奇异向量张成 A A ′ AA^{\prime} A A ′ 的零空间,它与 A ′ A^{\prime} A ′ 的零空间相同,因此,要求 b b b 与 A A A 的后 m − k m - k m − k 个奇异向量正交与要求 b b b 与 A ′ x = 0 A^{\prime}x = 0 A ′ x = 0 的每个解正交是一回事.
练习 如果 V ′ b V^{\prime}b V ′ b 的后 m − k m - k m − k 个元不全为零,则方程组 A x = b Ax = b A x = b 是不相容的,因而根本没有解,但是,为了某些目的,只需要有“最小二乘”解就可以了,这个解是使 ∥ A x − b ∥ 2 \| Ax - b\|_{2} ∥ A x − b ∥ 2 达到极小的,具有极小 l 2 l_{2} l 2 范数的向量 x x x 。证明(7.4.5)给出这样一个最小二乘解。
7.4.6 例用酉矩阵的纯量倍对某个矩阵 A ∈ M n A \in M_{n} A ∈ M n 的最佳最小二乘逼近是什么?我们知道, M n M_{n} M n 上的 l 1 l_{1} l 1 范数是由内积 [ A , B ] = tr A B ∗ [A, B] = \operatorname{tr} AB^{*} [ A , B ] = tr A B ∗ 诱导的,还知道,如果 U U U 是酉矩阵,则
∥ U ∥ 2 2 = [ U , U ] = tr U U ∗ = tr I = n \| U \| _ {2} ^ {2} = [ U, U ] = \operatorname {t r} U U ^ {*} = \operatorname {t r} I = n ∥ U ∥ 2 2 = [ U , U ] = tr U U ∗ = tr I = n 对任意 c ∈ C c \in \mathbb{C} c ∈ C 和任意酉矩阵 U ∈ M n U \in M_{n} U ∈ M n ,有
∥ A − c U ∥ 2 p = [ A − c U , A − c U ] = ∥ A ∥ 2 2 − 2 Re { c ˉ [ A , U ] } + n ∣ c ∣ 2 , \| A - c U \| _ {2} ^ {p} = [ A - c U, A - c U ] = \| A \| _ {2} ^ {2} - 2 \operatorname {R e} \{\bar {c} [ A, U ] \} + n | c | ^ {2}, ∥ A − c U ∥ 2 p = [ A − c U , A − c U ] = ∥ A ∥ 2 2 − 2 Re { c ˉ [ A , U ]} + n ∣ c ∣ 2 , 当 c = [ A , U ] / n c = [A, U] / n c = [ A , U ] / n 时它达到极小,因而
429
∥ Λ − c U ∥ 2 2 ⩾ ∥ Λ ∥ 2 2 − 1 n ! [ A , U ] ∣ 2 . \| \Lambda - c U \| _ {2} ^ {2} \geqslant \| \Lambda \| _ {2} ^ {2} - \frac {1}{n}! [ A, U ] | ^ {2}. ∥Λ − c U ∥ 2 2 ⩾ ∥Λ ∥ 2 2 − n 1 ! [ A , U ] ∣ 2 . 如果定义
u ( A ) ≡ max 内 质 体 U ∈ M n ∣ [ A , U ] ∣ . (7.4.7) u (A) \equiv \max _ {\text {内 质 体} U \in M _ {n}} | [ A, U ] |. \tag {7.4.7} u ( A ) ≡ 内 质 体 U ∈ M n max ∣ [ A , U ] ∣. ( 7.4.7 ) 就得到一个与数值半径 r ( A ) r(A) r ( A ) 类似的量。对于 r ( A ) r(A) r ( A ) ,内积的极大值不是针对酉矩阵来取的,而是取遍所有 Frobenius 范数为 1 的秩 1 Hermite 矩阵。但是,与数值半径不同的是,函数 u ( A ) u(A) u ( A ) 是 M n M_n M n 上的矩阵范数[见习题 5 和例 (7.4.54)]。
要确定 u ( A ) u(A) u ( A ) 的值与欲求的酉矩阵并不困难。设 A A A 的奇异值分解是 A = V Σ W ⋆ A = V\Sigma W^{\star} A = V Σ W ⋆ ,则
u ( A ) − max 西 矩 块 U ∣ [ A , U ] ∣ = max 西 矩 块 U ′ ∣ [ V Σ W ∗ , U ] ∣ − max 西 知 阵 ′ ∣ tr V Σ W ∗ U ∗ ∣ = max 西 知 阵 ′ ∣ tr Σ ( W ∗ U ∗ V ) ∣ = max 内 知 识 i ′ ∣ [ tr Σ U ∣ = max 西 南 阳 1 ′ − [ u i j ] ′ ∣ ∑ r = 1 n σ i u i ∣ ⩽ max 内 即 阵 [ u i j ] ∑ i = 1 n σ i ∣ u i ∣ ⩽ ∑ i = 1 n σ i . \begin{array}{l} u (A) - \max _ {\text {西 矩 块} U} | [ A, U ] | = \max _ {\text {西 矩 块} U ^ {\prime}} | [ V \Sigma W ^ {*}, U ] | \\ - \max _ {\text {西 知 阵} ^ {\prime}} | \operatorname {t r} V \Sigma W ^ {*} U ^ {*} | = \max _ {\text {西 知 阵} ^ {\prime}} | \operatorname {t r} \Sigma (W ^ {*} U ^ {*} V) | \\ = \max _ {\text {内 知 识} i ^ {\prime}} | [ \operatorname {t r} \Sigma U | = \max _ {\text {西 南 阳} 1 ^ {\prime} - \left[ u _ {i j} \right] ^ {\prime}} \left| \sum_ {r = 1} ^ {n} \sigma_ {i} u _ {i} \right| \\ \leqslant \max _ {\text {内 即 阵} [ u _ {i j} ]} \sum_ {i = 1} ^ {n} \sigma_ {i} | u _ {i} | \leqslant \sum_ {i = 1} ^ {n} \sigma_ {i}. \\ \end{array} u ( A ) − max 西 矩 块 U ∣ [ A , U ] ∣ = max 西 矩 块 U ′ ∣ [ V Σ W ∗ , U ] ∣ − max 西 知 阵 ′ ∣ tr V Σ W ∗ U ∗ ∣ = max 西 知 阵 ′ ∣ tr Σ ( W ∗ U ∗ V ) ∣ = max 内 知 识 i ′ ∣ [ tr Σ U ∣ = max 西 南 阳 1 ′ − [ u ij ] ′ ∣ ∑ r = 1 n σ i u i ∣ ⩽ max 内 即 阵 [ u ij ] ∑ i = 1 n σ i ∣ u i ∣ ⩽ ∑ i = 1 n σ i . 但是,如果 A = P U A = PU A = P U 是 A A A 的极形式,则
[ A , U ] = tr P U U ∗ = tr P = ∑ i n σ i . [ A, U ] = \operatorname {t r} P U U ^ {*} = \operatorname {t r} P = \sum_ {i} ^ {n} \sigma_ {i}. [ A , U ] = tr P U U ∗ = tr P = i ∑ n σ i . 因此,所给出的 u ( A ) u(A) u ( A ) 的上界是可以达到的, u ( A ) = σ 1 ( A ) + ⋯ + σ n ( A ) u(A) = \sigma_1(A) + \dots + \sigma_n(A) u ( A ) = σ 1 ( A ) + ⋯ + σ n ( A ) ,又如果 A = P U A = PU A = P U 是 A A A 的极形式,且 σ 1 , … , σ n \sigma_1, \dots, \sigma_n σ 1 , … , σ n 是它的奇异值,则用一个酉矩阵的倍数对 A A A 的最佳最小二乘逼近可由
I n ( σ 1 + ⋯ + σ n ) U \underset {n} {\operatorname {I}} \left(\sigma_ {1} + \dots + \sigma_ {n}\right) U n I ( σ 1 + ⋯ + σ n ) U 给出.如果给定奇异值分解 A = V Σ W ∗ A = V\Sigma W^{*} A = V Σ W ∗ ,则 U = V W ∗ U = VW^{*} U = V W ∗ ,该逼近的误差是
∥ A − u ( A ) n U ∥ 2 ′ = ∥ A ∥ 2 2 − 1 n ∣ [ A , U ] ∣ 2 = ∑ i = 1 n σ i 2 − 1 n ( ∑ i = 1 n σ i ) 2 , \left\| A - \frac {u (A)}{n} U \right\| _ {2} ^ {\prime} = \| A \| _ {2} ^ {2} - \frac {1}{n} | [ A, U ] | ^ {2} = \sum_ {i = 1} ^ {n} \sigma_ {i} ^ {2} - \frac {1}{n} \left(\sum_ {i = 1} ^ {n} \sigma_ {i}\right) ^ {2}, A − n u ( A ) U 2 ′ = ∥ A ∥ 2 2 − n 1 ∣ [ A , U ] ∣ 2 = i = 1 ∑ n σ i 2 − n 1 ( i = 1 ∑ n σ i ) 2 , 只有当Cauchy-Schwarz不等式
( ∑ i = 1 n σ i 1 ) 2 ⩽ ( ∑ i = 1 n 1 2 ) ( ∑ i = 1 n σ i 2 ) \left(\sum_ {i = 1} ^ {n} \sigma_ {i} 1\right) ^ {2} \leqslant \left(\sum_ {i = 1} ^ {n} 1 ^ {2}\right) \left(\sum_ {i = 1} ^ {n} \sigma_ {i} ^ {2}\right) ( i = 1 ∑ n σ i 1 ) 2 ⩽ ( i = 1 ∑ n 1 2 ) ( i = 1 ∑ n σ i 2 ) 是等式时误差才为0.因此,只有当 A A A 的所有奇异值都相同时, A A A 才可以用一个酉矩阵的倍数来完全逼近.
7.4.8 例 假定 A , B ∈ M m , n A, B \in M_{m,n} A , B ∈ M m , n 是给定的矩阵,而我们想知道,是否可以通过“旋转” B B B 来得到 A A A ;即 A = U B A = UB A = U B 对某个酉矩阵 U ∈ M m U \in M_m U ∈ M m 成立吗?更一般地,如果考虑已知矩阵 B B B 的所有可能的“旋转” U B UB U B ,在最小二乘意义下,可以怎样充分地逼近 A A A ?这个问题在因子分析中称为求 B B B 的一个“强行(procrustean)变换”问题。
要做的计算与上例中的计算是类似的;我们试图选择 U U U 使 ∥ A − U B ∥ 2 \| A - UB\|_{2} ∥ A − U B ∥ 2 达到极小,如前,计算
∥ A ⋅ U B ∥ 2 2 = [ A − U B , A − U B ] = ∥ A ∥ 2 2 − 2 Re [ A , U B ] + ∥ B ∥ 2 2 . \| A \cdot U B \| _ {2} ^ {2} = [ A - U B, A - U B ] = \| A \| _ {2} ^ {2} - 2 \operatorname {R e} [ A, U B ] + \| B \| _ {2} ^ {2}. ∥ A ⋅ U B ∥ 2 2 = [ A − U B , A − U B ] = ∥ A ∥ 2 2 − 2 Re [ A , U B ] + ∥ B ∥ 2 2 . 于是,必须求使 Re [ A , U B ] = Re tr A B ∗ U ∗ \operatorname{Re}[A, UB] = \operatorname{Re} \operatorname{tr} AB^{*} U^{*} Re [ A , U B ] = Re tr A B ∗ U ∗ 为极大的两矩阵 U U U 。如果 A B ∗ = V Σ W ∗ AB^{*} = V \Sigma W^{*} A B ∗ = V Σ W ∗ 是 A B AB A B 的奇异值分解,则
430
Re tr A B ∗ U ∗ = Re tr V Σ W ∗ U ∗ = Re tr Σ W ∗ U ∗ V = Re ∑ i = 1 m σ i ( A B ∗ ) t i , \begin{array}{l} \operatorname {R e} \operatorname {t r} A B ^ {*} U ^ {*} = \operatorname {R e} \operatorname {t r} V \Sigma W ^ {*} U ^ {*} = \operatorname {R e} \operatorname {t r} \Sigma W ^ {*} U ^ {*} V \\ = \operatorname {R e} \sum_ {i = 1} ^ {m} \sigma_ {i} (A B ^ {*}) t _ {i}, \\ \end{array} Re tr A B ∗ U ∗ = Re tr V Σ W ∗ U ∗ = Re tr Σ W ∗ U ∗ V = Re ∑ i = 1 m σ i ( A B ∗ ) t i , 其中 T = ⌊ t i j ⌋ − W ′ U ′ V T = \left\lfloor t_{ij}\right\rfloor -W^{\prime}U^{\prime}V T = ⌊ t ij ⌋ − W ′ U ′ V 是酉矩阵.当所有 t i i = 1 t_{ii} = 1 t ii = 1 ,即当 U = V W ∗ U = VW^{*} U = V W ∗ 时,这个和取极大; V W ∗ VW^{*} V W ∗ 正好是 A B ∗ AB^{*} A B ∗ 的极分解的酉部分.
因此,用形如 U B UB U B 的矩阵对 A ∈ M m , n A \in M_{m,n} A ∈ M m , n 的最佳最小二乘逼近由 U B = ( V W ∗ ) B UB = (VW^{*})B U B = ( V W ∗ ) B 给出,其中 B ∈ M m , n B \in M_{m,n} B ∈ M m , n ,而 U ∈ M m U \in M_{m} U ∈ M m 是酉矩阵, A B ∗ = V Σ W ∗ AB^{*} = V\Sigma W^{*} A B ∗ = V Σ W ∗ 是 A B ∗ AB^{*} A B ∗ 的奇异值分解,或 A B ∗ = P ( V W ∗ ) AB^{*} = P(VW^{*}) A B ∗ = P ( V W ∗ ) 是 A B ∗ AB^{*} A B ∗ 的极分解;我们并不需要分别知道 V V V 和 W W W 。这个逼近的误差由
min { ∥ A − U B ∥ 2 : U ∈ M m \min \{\| A - UB\|_{2}:U\in M_{m} min { ∥ A − U B ∥ 2 : U ∈ M m 是酉矩阵 } = ∣ A − ( V W ∗ ) B ∣ \} = |A - (VW^{*})B| } = ∣ A − ( V W ∗ ) B ∣
= [ ∥ A ∥ 2 2 + ∥ B ∥ 2 2 − 2 ∑ i = 1 m σ i ( A B ∗ ) ] 1.7 = \left[ \| A \| _ {2} ^ {2} + \| B \| _ {2} ^ {2} - 2 \sum_ {i = 1} ^ {m} \sigma_ {i} (A B ^ {*}) \right] ^ {1. 7} = [ ∥ A ∥ 2 2 + ∥ B ∥ 2 2 − 2 i = 1 ∑ m σ i ( A B ∗ ) ] 1.7 给出,其中 { σ i ( A B ∗ ) } \{\sigma_{i}(AB^{*})\} { σ i ( A B ∗ )} 是 A B ∗ AB^{*} A B ∗ 的奇异值的集合.
如果想知道 A A A 是否恰好是 B B B 的转动,则一个明显的必要条件是 ∥ A ∥ 2 = ∥ B ∥ 2 \| A \|_2 = \| B \|_2 ∥ A ∥ 2 = ∥ B ∥ 2 ,而其必要充分条件是
∥ A ∥ 2 2 = ∥ B ∥ 2 2 − ∑ i = 1 m σ i ( A B ∗ ) , \| A \| _ {2} ^ {2} = \| B \| _ {2} ^ {2} - \sum_ {i = 1} ^ {m} \sigma_ {i} (A B ^ {*}), ∥ A ∥ 2 2 = ∥ B ∥ 2 2 − i = 1 ∑ m σ i ( A B ∗ ) , 其中 { σ t ( A B ∗ ) } \{\sigma_{t}(AB^{*})\} { σ t ( A B ∗ )} 是 A B ∗ AB^{*} A B ∗ 的奇异值的集合.
最后,如果考虑 m = n m = n m = n 及 B = I B = I B = I 的特殊情形,便有以下事实:用酉矩阵 U ∈ M n U \in M_{n} U ∈ M n 对给定矩阵 A ∈ M n A \in M_{n} A ∈ M n 的最佳最小二乘逼近由 U = V W ∗ U = VW^{*} U = V W ∗ 给出。其中 A = V Σ W ∗ A = V\Sigma W^{*} A = V Σ W ∗ 是 A A A 的奇异值分解或 A = P U = P ( V W ∗ ) A = PU = P(VW^{*}) A = P U = P ( V W ∗ ) 是 A A A 的极分解;逼近的误差是
∥ A − V W ′ ∥ 2 2 − ∥ A ∥ 2 2 + ∥ I ∥ 2 2 − 2 ∑ i = 1 n σ i ( A ) = ∑ i = 1 n σ i 2 ( A ) + n − 2 ∑ i = 1 n σ i ( A ) = ∑ i = 1 n ( σ i ( A ) − 1 ) 2 , \begin{array}{l} \| A - V W ^ {\prime} \| _ {2} ^ {2} - \| A \| _ {2} ^ {2} + \| I \| _ {2} ^ {2} - 2 \sum_ {i = 1} ^ {n} \sigma_ {i} (A) \\ = \sum_ {i = 1} ^ {n} \sigma_ {i} ^ {2} (A) + n - 2 \sum_ {i = 1} ^ {n} \sigma_ {i} (A) = \sum_ {i = 1} ^ {n} (\sigma_ {i} (A) - 1) ^ {2}, \\ \end{array} ∥ A − V W ′ ∥ 2 2 − ∥ A ∥ 2 2 + ∥ I ∥ 2 2 − 2 ∑ i = 1 n σ i ( A ) = ∑ i = 1 n σ i 2 ( A ) + n − 2 ∑ i = 1 n σ i ( A ) = ∑ i = 1 n ( σ i ( A ) − 1 ) 2 , 其中 { σ i ( A ) } \{\sigma_{i}(A)\} { σ i ( A )} 是 A A A 的奇异值的集合.
如同上例中的讨论部分,在所有两矩阵 U U U 上求使 Re tr A U \operatorname{Re} \operatorname{tr} A U Re tr A U 为极大的问题的解。为了以后参考方便,把这个结果概括成下述定理。
7.4.9 定理 设 A ∈ M n A \in M_{n} A ∈ M n 是给定的矩阵,且 A = V Σ W ∗ A = V\Sigma W^{*} A = V Σ W ∗ 是 A A A 的奇异值分解。那么,(a)问题
max{Re tr AU:U∈M,是酉矩阵}
有解 U = W V ∗ U = W V^{*} U = W V ∗ , 且极大值是 σ 1 ( A ) + ⋯ + σ n ( A ) \sigma_{1}(A) + \dots + \sigma_{n}(A) σ 1 ( A ) + ⋯ + σ n ( A ) , 其中 { σ i ( A ) } \{\sigma_{i}(A)\} { σ i ( A )} 是 A A A 的奇异值集合. (b) 存在酉矩阵 U ∈ M n U \in M_{n} U ∈ M n 使得 A U ∈ M n A U \in M_{n} A U ∈ M n 是半正定 Hermite 矩阵. 西矩阵 U U U 是使(a) 中问题达到极大的矩阵, 当且仅当 A U A U A U 是半正定矩阵; 如果 A A A 是非奇异矩阵, 则 U U U 是唯一确定的. A U A U A U 的特征值是 A A A 的奇异值.
证明:计算
Re tr A U = Re tr V Σ W ∗ U = Re tr Σ ( W ∗ U V ) = ∑ i = 1 n Re σ i ( W ∗ U V ) i , \operatorname {R e} \operatorname {t r} A U = \operatorname {R e} \operatorname {t r} V \Sigma W ^ {*} U = \operatorname {R e} \operatorname {t r} \Sigma (W ^ {*} U V) = \sum_ {i = 1} ^ {n} \operatorname {R e} \sigma_ {i} (W ^ {*} U V) _ {i}, Re tr A U = Re tr V Σ W ∗ U = Re tr Σ ( W ∗ U V ) = i = 1 ∑ n Re σ i ( W ∗ U V ) i , 它只有当所有 ( W ∗ U V ) n = 1 (W^{*}UV)_{n} = 1 ( W ∗ U V ) n = 1 时才取极大值,因为 W ∗ U V W^{*}UV W ∗ U V 是酉矩阵,这又当且仅当 W ∗ U V = I W^{*}UV = I W ∗ U V = I
或 U = W V ′ U = W V' U = W V ′ 时才成立。对于 U U U 的这个选择, A U = V Σ W ∗ W V ∗ = V Σ V ′ A U = V \Sigma W^{*} W V^{*} = V \Sigma V' A U = V Σ W ∗ W V ∗ = V Σ V ′ ,又因为 Σ = diag ( σ 1 , … , σ n ) \Sigma = \operatorname{diag}(\sigma_{1}, \dots, \sigma_{n}) Σ = diag ( σ 1 , … , σ n ) 且所有 σ i ⩾ 0 \sigma_{i} \geqslant 0 σ i ⩾ 0 ,所以 A U A U A U 是半正定 Hermite 矩阵。如果 U 1 ∈ M n U_{1} \in M_{n} U 1 ∈ M n 是使 A U 1 A U_{1} A U 1 为半正定矩阵的任一酉矩阵,因为奇异值是酉不变的,所以 A U 1 A U_{1} A U 1 的特征值是 A A A 的奇异值。对 A A A 是非奇异的情形, U U U 的唯一性可由 (7.3.3) 的唯一性部分推出。□
对于任意矩阵 A ∈ M m , n A \in M_{m,n} A ∈ M m , n , A A ∗ AA^* A A ∗ 以及 A ∗ A A^*A A ∗ A 都是半正定矩阵, 并且 tr A A ∗ = tr A ∗ A = σ 1 2 ( A ) + ⋯ + σ min ( m , n ) 2 ( A ) \operatorname{tr} AA^* = \operatorname{tr} A^*A = \sigma_1^2(A) + \dots + \sigma_{\min(m,n)}^2(A) tr A A ∗ = tr A ∗ A = σ 1 2 ( A ) + ⋯ + σ m i n ( m , n ) 2 ( A ) , 因 A ∗ A^* A ∗ 与 A A A 有相同的奇异值, 所以 tr A A ∗ \operatorname{tr} AA^* tr A A ∗ 可看作 A A A 和 A ∗ A^* A ∗ 的相应奇异值的乘积之和. 这个简单的论断可以推广到任意一对矩阵 A A A 和 B B B , 只要乘积 A B AB A B 和 B A BA B A 有定义且为半正定矩阵. 这个结果对研究几种类型的矩阵最优化问题有用.
7.4.10 定理 设 A ∈ M m , n A \in M_{m,n} A ∈ M m , n , B ∈ M n , m B \in M_{n,m} B ∈ M n , m , 且 q = min { m , n } q = \min \{m, n\} q = min { m , n } . 设 σ 1 ( A ) , … , σ q ( A ) \sigma_1(A), \dots, \sigma_q(A) σ 1 ( A ) , … , σ q ( A ) 和 σ 1 ( B ) , … , σ q ( B ) \sigma_1(B), \dots, \sigma_q(B) σ 1 ( B ) , … , σ q ( B ) 分别表示 A A A 和 B B B 按递减顺序排列的奇异值. 如果 A B ∈ M m AB \in M_m A B ∈ M m 和 B A ∈ M n BA \in M_n B A ∈ M n 是半正定矩阵, 则存在整数 1 , 2 , … , q 1, 2, \dots, q 1 , 2 , … , q 的一个排列 τ \tau τ , 使得
tr A B = tr B A = ∑ i = 1 q σ i ( A ) σ r ( i ) ( B ) . (7.4.11) \operatorname {t r} A B = \operatorname {t r} B A = \sum_ {i = 1} ^ {q} \sigma_ {i} (A) \sigma_ {r (i)} (B). \tag {7.4.11} tr A B = tr B A = i = 1 ∑ q σ i ( A ) σ r ( i ) ( B ) . ( 7.4.11 ) 证明:如果 m = n m = n m = n ,且 A A A 和 B B B 都是半正定矩阵,又如果 A A A 与 B B B 可交换,则它们可以同时西对角化为 A = U A U ′ A = U A U^{\prime} A = U A U ′ 和 B = U M U ′ B = U M U^{\prime} B = U M U ′ ,其中, U ∈ M m U \in M_{m} U ∈ M m 是酉矩阵, Λ − diag ( λ 1 , … , λ m ) \Lambda - \operatorname{diag}(\lambda_1, \dots, \lambda_m) Λ − diag ( λ 1 , … , λ m ) , M = diag ( μ 1 , … , μ m ) M = \operatorname{diag}(\mu_1, \dots, \mu_m) M = diag ( μ 1 , … , μ m ) ,且所有 λ i , μ i \lambda_i, \mu_i λ i , μ i 都是非负的。这时,有
tr A B = tr ( U A U ∗ ) ( U M U ∗ ) = tr U A M U ∗ = tr A M = ∑ i = 1 m λ i μ i . \operatorname {t r} A B = \operatorname {t r} \left(U A U ^ {*}\right) \left(U M U ^ {*}\right) = \operatorname {t r} U A M U ^ {*} = \operatorname {t r} A M = \sum_ {i = 1} ^ {m} \lambda_ {i} \mu_ {i}. tr A B = tr ( U A U ∗ ) ( U M U ∗ ) = tr U A M U ∗ = tr A M = i = 1 ∑ m λ i μ i . 因为特征值 λ i \lambda_{i} λ i , μ i \mu_{i} μ i 也是 A A A 和 B B B 的奇异值,所以在 m = n m = n m = n 的特殊情形,定理得证
不失一般性,假定 m ⩽ n m \leqslant n m ⩽ n ,因为,如果 m > n m > n m > n ,只要在定理的叙述中互换 Λ \Lambda Λ 和 B B B 就可以了.
为了证明定理的一般情形,只须证明,对任意一对使得 m ⩽ n m \leqslant n m ⩽ n 以及 A B AB A B 和 B A BA B A 都是半正定矩阵的 A ∈ M n , n A \in M_{n,n} A ∈ M n , n 和 B ∈ M n , m B \in M_{n,m} B ∈ M n , m ,存在酉矩阵 V ∈ M n V \in M_n V ∈ M n 和有标准正交行的矩阵 Y ∈ M n , n Y \in M_{n,n} Y ∈ M n , n 使得变换
A ^ − Y ∗ A V 和 B ^ = V ∗ B Y (7.4.12) \hat {A} - Y ^ {*} A V \quad \text {和} \quad \hat {B} = V ^ {*} B Y \tag {7.4.12} A ^ − Y ∗ A V 和 B ^ = V ∗ B Y ( 7.4.12 ) 能得到一对可交换的 n × n n \times n n × n 半正定矩阵 A ^ \hat{A} A ^ 和 B ^ \hat{B} B ^ . 在这种情形, 由上述结论可知
tr A B = tr A B Y Y ∗ = tr Y ∗ A B Y = tr ( Y ∗ A V ) ( V ∗ B Y ) = ∑ i = 1 m σ i ( Y ∗ A V ) σ r ( i ) ( V ∗ B Y ) = ∑ i = 1 m σ i ( A ˙ ) σ r ( i ) ( B ˙ ) . \begin{array}{l} \operatorname {t r} A B = \operatorname {t r} A B Y Y ^ {*} = \operatorname {t r} Y ^ {*} A B Y = \operatorname {t r} (Y ^ {*} A V) (V ^ {*} B Y) \\ = \sum_ {i = 1} ^ {m} \sigma_ {i} (Y ^ {*} A V) \sigma_ {r (i)} (V ^ {*} B Y) = \sum_ {i = 1} ^ {m} \sigma_ {i} (\dot {A}) \sigma_ {r (i)} (\dot {B}). \\ \end{array} tr A B = tr A B Y Y ∗ = tr Y ∗ A B Y = tr ( Y ∗ A V ) ( V ∗ B Y ) = ∑ i = 1 m σ i ( Y ∗ A V ) σ r ( i ) ( V ∗ B Y ) = ∑ i = 1 m σ i ( A ˙ ) σ r ( i ) ( B ˙ ) . 注意到 A ^ ′ A ^ = V ∗ A ∗ Y Y ∗ A V = V ∗ A ∗ A V = ( A V ) ∗ ( A V ) \hat{A}^{\prime}\hat{A} = V^{*}A^{*}YY^{*}AV = V^{*}A^{*}AV = (AV)^{*}(AV) A ^ ′ A ^ = V ∗ A ∗ Y Y ∗ A V = V ∗ A ∗ A V = ( A V ) ∗ ( A V ) ,于是, A ^ \hat{A} A ^ 的奇异值与 A V AV A V 相同,因为 ( A V ) ( A V ) ∗ = A A ∗ (AV)(AV)^{*} = AA^{*} ( A V ) ( A V ) ∗ = A A ∗ ,所以它又与 Λ \Lambda Λ 的奇异值相同。同理可证 B ^ \hat{B} B ^ 的奇异值与 B B B 相同,由此可得
tr A B = ∑ i = 1 m σ r ( A ) σ r ( i ) ( B ) (433) \operatorname {t r} A B = \sum_ {i = 1} ^ {m} \sigma_ {r} (A) \sigma_ {r (i)} (B) \tag {433} tr A B = i = 1 ∑ m σ r ( A ) σ r ( i ) ( B ) ( 433 ) 这正是所要求的。现在分三步来证明,存在形如(7.4.12)的变换,且具有所要求的性质。
(1) 设 A A A 和 B B B 适合定理的假设。由 (1.3.20) 可知, B A BA B A 的特征值与 A B AB A B 的相同(重特征值按重数计算),再加上 n − m n - m n − m 个零特征值。如果 λ 1 , … , λ m \lambda_1, \dots, \lambda_m λ 1 , … , λ m 是 A B AB A B 的特征值,且 Λ = diag ( λ 1 , … , λ m ) \Lambda = \operatorname{diag}(\lambda_1, \dots, \lambda_m) Λ = diag ( λ 1 , … , λ m ) ,因为由假定可知, A B AB A B 和 B A BA B A 都是 Hermite 矩阵,所以有酉矩阵 U ∈ M m U \in M_m U ∈ M m 和 V ∈ M n V \in M_n V ∈ M n 使得
A B = U A U ⋅ 和 B A = V [ A 0 0 0 ] V ⋅ . A B = U A U ^ {\cdot} \qquad \text {和} \qquad B A = V \Big [ \begin{array}{c c} {{A}} & {{0}} \\ {{0}} & {{0}} \end{array} \Big ] V ^ {\cdot}. A B = U A U ⋅ 和 B A = V [ A 0 0 0 ] V ⋅ . 若 V V V 写成分块形式 V = [ V 1 ∣ V 2 ] V = [V_{1} \mid V_{2}] V = [ V 1 ∣ V 2 ] ,其中 V 1 ∈ M n , m V_{1} \in M_{n,m} V 1 ∈ M n , m 且 V 2 ∈ M n , n − m V_{2} \in M_{n,n-m} V 2 ∈ M n , n − m ,则 V 1 V_{1} V 1 是具有标准正交列的矩阵,因而 V 1 ′ V 1 = I ∈ M m V_{1}^{\prime} V_{1} = I \in M_{m} V 1 ′ V 1 = I ∈ M m 。于是 Λ = U ∗ A B U \Lambda = U^{*} A B U Λ = U ∗ A B U 且 B A = V 1 Λ V 1 ∗ B A = V_{1} \Lambda V_{1}^{*} B A = V 1 Λ V 1 ∗ ,故 B A = ( V 1 U ∗ ) A B ( U V 1 ∗ ) B A = (V_{1} U^{*}) A B (U V_{1}^{*}) B A = ( V 1 U ∗ ) A B ( U V 1 ∗ ) 。设 Y = U V 1 ∗ ∈ M m , n Y = U V_{1}^{*} \in M_{m,n} Y = U V 1 ∗ ∈ M m , n ,并且注意到 Y Y ∗ = U V 1 ∗ V 1 U ∗ = U U ∗ = I Y Y^{*} = U V_{1}^{*} V_{1} U^{*} = U U^{*} = I Y Y ∗ = U V 1 ∗ V 1 U ∗ = U U ∗ = I ,则 Y Y Y 有标准正交行且 B A = Y ∗ A B Y B A = Y^{*} A B Y B A = Y ∗ A B Y 。令 A ^ = Y ∗ A ∈ M n \hat{A} = Y^{*} A \in M_{n} A ^ = Y ∗ A ∈ M n 和 B ^ = B Y ∈ M n \hat{B} = B Y \in M_{n} B ^ = B Y ∈ M n ,算出 A ^ B ^ = Y ∗ A B Y = B A \hat{A} \hat{B} = Y^{*} A B Y = B A A ^ B ^ = Y ∗ A B Y = B A 及 B ^ A ^ = B Y Y ∗ A = B A \hat{B} \hat{A} = B Y Y^{*} A = B A B ^ A ^ = B Y Y ∗ A = B A :根据假定,乘积 B A B A B A 是半正定矩阵。因此有形如(7.4.12)的变换(其中 V = I V = I V = I ),它使我们得到一对可交换的 n × n n \times n n × n 矩阵,且它们的乘积是半正定矩阵。但是,单项 A ^ \hat{A} A ^ 和 B ^ \hat{B} B ^ 可能不是半正定矩阵;不过,我们可以进一步要求形如(7.4.12)的变换达到这个条件。
(2)不失一般性,现在可以假定, m = n m = n m = n , A A A , B ∈ M n B \in M_{n} B ∈ M n 可交换,且乘积 A B AB A B 是半正定矩阵。如果 ( A B ) x = λ x (AB)x = \lambda x ( A B ) x = λ x ,且 x ≠ 0 x \neq 0 x = 0 ,则 ( A B ) ( A x ) = A B A x − A A B x = A ( A B x ) = A λ x = λ ( A x ) (AB)(Ax) = ABAx - AABx = A(ABx) = A\lambda x = \lambda (Ax) ( A B ) ( A x ) = A B A x − AA B x = A ( A B x ) = A λ x = λ ( A x ) ,所以Hermite矩阵 A B AB A B 的每个特征空间在 A A A 作用下不变。同理可证,这每一个特征空间也在 B B B 的作用下不变。因此,如果 U = [ u 1 ⋯ u n ] U = [u_1 \cdots u_n] U = [ u 1 ⋯ u n ] 是以 A B AB A B 的特征向量为列构成的两矩阵,且相应于 A B AB A B 的同一特征值的所有特征向量相邻地排放在一起,则 U ∗ A U U^*AU U ∗ A U 和 U ∗ B U U^*BU U ∗ B U 一定都是分块对角矩阵,且
A ^ = U ∗ A U = diag ( A 1 , A 2 , … , A r ) , B ^ = U ∗ B U = diag ( B 1 , B 2 , … , B r ) , \hat {A} = U ^ {*} A U = \operatorname {d i a g} \left(A _ {1}, A _ {2}, \dots , A _ {r}\right), \quad \hat {B} = U ^ {*} B U = \operatorname {d i a g} \left(B _ {1}, B _ {2}, \dots , B _ {r}\right), A ^ = U ∗ A U = diag ( A 1 , A 2 , … , A r ) , B ^ = U ∗ B U = diag ( B 1 , B 2 , … , B r ) , 其中, Λ i \Lambda_{i} Λ i , B i ∈ M k i B_{i} \in M_{k_{i}} B i ∈ M k i , 1 ⩽ k i ⩽ n 1 \leqslant k_{i} \leqslant n 1 ⩽ k i ⩽ n , k 1 + ⋯ + k r = n k_{1} + \cdots + k_{r} = n k 1 + ⋯ + k r = n ,且每个 A i B i = B i A i = λ i I ∈ M k i A_{i} B_{i} = B_{i} A_{i} = \lambda_{i} I \in M_{k_{i}} A i B i = B i A i = λ i I ∈ M k i ,另外 λ 1 , λ 2 , ⋯ , λ r \lambda_{1}, \lambda_{2}, \cdots, \lambda_{r} λ 1 , λ 2 , ⋯ , λ r 是半正定矩阵 A B AB A B 的不同(非负)特征值。
(3)不失一般性,现在可以假定, m = n m = n m = n , A A A , B ∈ M n B\in M_{n} B ∈ M n 可交换, A B = λ I AB = \lambda I A B = λ I ,且 λ ⩾ 0 \lambda \geqslant 0 λ ⩾ 0 ,如果 λ > 0 \lambda >0 λ > 0 ,则 A A A 和 B B B 都是非奇异矩阵,且 B = λ A − 1 B = \lambda A^{-1} B = λ A − 1 ,利用(7.4.9)求酉矩阵 U ∈ M n U\in M_{n} U ∈ M n 使得 A ^ ≡ A U \hat{A}\equiv AU A ^ ≡ A U 是半正定矩阵.另一方面,因为 λ > 0 \lambda >0 λ > 0 ,所以 B ^ ≡ U ∗ B = λ U ∗ A − 1 = λ ( A U ) − 1 \hat{B}\equiv U^{*}B = \lambda U^{*}A^{-1} = \lambda (AU)^{-1} B ^ ≡ U ∗ B = λ U ∗ A − 1 = λ ( A U ) − 1 也是半正定矩阵,因而 ( A U ) − 1 (AU)^{-1} ( A U ) − 1 是半正定矩阵.此外, ( U ∗ B ) ( A U ) = U ∗ λ I U = λ I = A B = ( A U ) ( U ∗ B ) (U^{*}B)(AU) = U^{*}\lambda I U = \lambda I = AB = (AU)(U^{*}B) ( U ∗ B ) ( A U ) = U ∗ λ I U = λ I = A B = ( A U ) ( U ∗ B ) ,所以 A ^ \hat{A} A ^ 与 B ^ \hat{B} B ^ 可交换.这是形如(7.4.12)的变换,因此,如果 λ > 0 \lambda >0 λ > 0 ,就完成了证明.
如果 λ = 0 \lambda = 0 λ = 0 ,则 A B = B A = 0 AB = BA = 0 A B = B A = 0 ,再选择酉矩阵 U U U 使得 A U AU A U 是半正定矩阵.于是 0 = A B = ( A U ) ( U ∗ B ) = ( U ∗ B ) ( A U ) = U ∗ 0 U = 0 0 = AB = (AU)(U^{*}B) = (U^{*}B)(AU) = U^{*}0U = 0 0 = A B = ( A U ) ( U ∗ B ) = ( U ∗ B ) ( A U ) = U ∗ 0 U = 0 ,因而 A U AU A U 和 U ∗ B U^{*}B U ∗ B 可交换,且Hermite矩阵 A U AU A U 的每个特征空间在 U ∗ B U^{*}B U ∗ B 作用下不变,若 W = [ w 1 … w n ] W = [w_{1}\dots w_{n}] W = [ w 1 … w n ] 是以 A U AU A U 的特征向量为列构成的酉矩阵,且相应于 A U AU A U 的同一特征值的所有特征向量相邻地排放在一起,则 W ∗ ( A U ) W W^{*}(AU)W W ∗ ( A U ) W 和 W ∗ ( U ∗ B ) W W^{*}(U^{*}B)W W ∗ ( U ∗ B ) W 都是分块对角矩阵,且
W ∗ ( A U ) W = diag ( Λ 1 , … , Λ r ) , W ∗ ( U ∗ B ) W = diag ( B 1 , … , B r ) , W ^ {*} (A U) W = \operatorname {d i a g} \left(\Lambda_ {1}, \dots , \Lambda_ {r}\right), W ^ {*} (U ^ {*} B) W = \operatorname {d i a g} \left(B _ {1}, \dots , B _ {r}\right), W ∗ ( A U ) W = diag ( Λ 1 , … , Λ r ) , W ∗ ( U ∗ B ) W = diag ( B 1 , … , B r ) , Λ i \Lambda_{i} Λ i 和 B i B_{i} B i 是同阶矩阵,而 Λ i = λ i I \Lambda_{i} = \lambda_{i}I Λ i = λ i I , i = 1 , 2 , … , r i = 1,2,\dots,r i = 1 , 2 , … , r ,其是 λ 1 , λ 2 , … , λ r \lambda_{1},\lambda_{2},\dots,\lambda_{r} λ 1 , λ 2 , … , λ r 是半正定矩阵 A U AU A U 的不同(非负)特征值.对所有 i = 1 , … , r i = 1,\dots,r i = 1 , … , r ,我们有 Λ i B i = B i Λ i = 0 \Lambda_{i}B_{i} = B_{i}\Lambda_{i} = 0 Λ i B i = B i Λ i = 0 ,如果 λ i ≠ 0 \lambda_{i}\neq 0 λ i = 0 ,则 Λ i = λ i I \Lambda_{i} = \lambda_{i}I Λ i = λ i I 和 B i = 0 B_{i} = 0 B i = 0 是一对可交换的半正定矩阵,这正是所要求的.如果 λ i = 0 \lambda_{i} = 0 λ i = 0 ,则 B i B_{i} B i 不一定是零矩阵,但是,存在酉矩阵 U i U_{i} U i 使得 U i ∗ B i U_{i}^{*}B_{i} U i ∗ B i 是半正定矩阵[应用(7.4.9)于 B ∗ B^{*} B ∗ ],因而,在这种情形, Λ i U i = 0 \Lambda_{i}U_{i} = 0 Λ i U i = 0 和 U i ∗ B i U_{i}^{*}B_{i} U i ∗ B i 构成一对由形如(7.4.12)的变换得到的可交换半正定矩阵.这样,对所有可能情形都进行了验证. □
7.4.13 例 作为(7.4.8)中旋转问题的变形,设 A , B ∈ M m , n A, B \in M_{m,n} A , B ∈ M m , n 是给定的矩阵,并且我们希望确
定,是否可以通过 B B B 的两侧“旋转”来得到 A A A ;也就是 A = U B V A = UBV A = U B V 对某两个两矩阵 U ∈ M m U \in M_{m} U ∈ M m , V ∈ M n V \in M_{n} V ∈ M n 成立吗?更一般地,如果考虑已知矩阵 B B B 的所有可能的两侧“旋转” U B V UBV U B V ,在最小二乘意义下,可以怎样充分地逼近 A A A ?
如前,我们试图选择使 ∥ A − U B V ∥ 2 \| A - UBV\|_{2} ∥ A − U B V ∥ 2 为极小的酉矩阵 U ∈ M m U\in M_{m} U ∈ M m 和 V ∈ M n V\in M_{n} V ∈ M n ,还和前面一样,算出
∥ A − U B V ∥ 2 2 = [ A − U B V , A − U B V ] = ∥ A ∥ 2 2 − 2 Re [ A , U B V ] + ∥ B ∥ 2 2 . \| A - U B V \| _ {2} ^ {2} = [ A - U B V, A - U B V ] = \| A \| _ {2} ^ {2} - 2 \operatorname {R e} [ A, U B V ] + \| B \| _ {2} ^ {2}. ∥ A − U B V ∥ 2 2 = [ A − U B V , A − U B V ] = ∥ A ∥ 2 2 − 2 Re [ A , U B V ] + ∥ B ∥ 2 2 . 因此,必须求使 Re [ A , U B V ] = Re tr A V ∗ B ∗ U ∗ \operatorname{Re}[A, UBV] = \operatorname{Re} \operatorname{tr}AV^*B^*U^* Re [ A , U B V ] = Re tr A V ∗ B ∗ U ∗ 为极大的酉矩阵 U ∈ M m U \in M_m U ∈ M m 和 V ∈ M n V \in M_n V ∈ M n 。使这个问题有极大值的酉矩阵 U 0 , V 0 U_0, V_0 U 0 , V 0 一定存在(但不一定唯一),这是因为 M n M_n M n 中和 M m M_m M m 中酉矩阵的集合是紧集,又紧集的笛卡儿乘积也是紧集。使上述问题为极大的矩阵 U 0 , V 0 U_0, V_0 U 0 , V 0 对任意酉矩阵 U ∈ M m U \in M_m U ∈ M m 有性质
Re tr ( A V 0 ∗ B ∗ ) U 0 ∗ ⩾ Re tr ( A V 0 ∗ B ∗ ) U , \operatorname {R e} \operatorname {t r} \left(A V _ {0} ^ {*} B ^ {*}\right) U _ {0} ^ {*} \geqslant \operatorname {R e} \operatorname {t r} \left(A V _ {0} ^ {*} B ^ {*}\right) U, Re tr ( A V 0 ∗ B ∗ ) U 0 ∗ ⩾ Re tr ( A V 0 ∗ B ∗ ) U , 于是,由(7.4.9)可知, A V 0 ∗ B ∗ U 0 ∗ AV_{0}^{*}B^{*}U_{0}^{*} A V 0 ∗ B ∗ U 0 ∗ 是半正定矩阵,同理可证,对任意酉矩阵 V ∈ M n V\in M_n V ∈ M n
Re tr A V 0 ∗ B ∗ U 0 ∗ = Re tr ( B ∗ U 0 ∗ A ) V 0 ∗ ⩾ Re tr B ∗ U 0 ∗ A V \operatorname {R e} \operatorname {t r} A V _ {0} ^ {*} B ^ {*} U _ {0} ^ {*} = \operatorname {R e} \operatorname {t r} (B ^ {*} U _ {0} ^ {*} A) V _ {0} ^ {*} \geqslant \operatorname {R e} \operatorname {t r} B ^ {*} U _ {0} ^ {*} A V Re tr A V 0 ∗ B ∗ U 0 ∗ = Re tr ( B ∗ U 0 ∗ A ) V 0 ∗ ⩾ Re tr B ∗ U 0 ∗ A V 于是,仍由(7.4.9)可知, B ∗ U 0 ∗ A V 0 ∗ B^{*}U_{0}^{*}AV_{0}^{*} B ∗ U 0 ∗ A V 0 ∗ 是半正定矩阵,这样,两个矩阵 A V 0 ∗ ∈ M m , n AV_{0}^{*}\in M_{m,n} A V 0 ∗ ∈ M m , n 和 B ∗ U 0 ∗ ∈ B^{*}U_{0}^{*}\in B ∗ U 0 ∗ ∈ M n , m M_{n,m} M n , m 都适合定理(7.4.10)的假设,因为奇异值是两不变的,因此,如果 q = min { m , n } q = \min \{m,n\} q = min { m , n } ,则对整数1,…, q q q 的某个置换 τ \pmb{\tau} τ ,有
max { Re tr A V ∗ B ∗ U ∗ : U ∈ M m \max \{\operatorname{Re} \operatorname{tr} A V^{*} B^{*} U^{*}: U \in M_{m} max { Re tr A V ∗ B ∗ U ∗ : U ∈ M m 和 V ∈ M n V \in M_{n} V ∈ M n 是西矩阵}
− Re tr A V 0 ∗ B ∗ U 0 ∗ = ∑ i = 1 q σ i ( A V 0 ∗ ) σ r ( i ) ( B ∗ U 0 ∗ ) = ∑ i = 1 q σ i ( A ) σ r ( i ) ( B ) . - \operatorname {R e} \operatorname {t r} A V _ {0} ^ {*} B ^ {*} U _ {0} ^ {*} = \sum_ {i = 1} ^ {q} \sigma_ {i} \left(A V _ {0} ^ {*}\right) \sigma_ {\mathrm {r} (i)} \left(B ^ {*} U _ {0} ^ {*}\right) = \sum_ {i = 1} ^ {q} \sigma_ {i} (A) \sigma_ {\mathrm {r} (i)} (B). − Re tr A V 0 ∗ B ∗ U 0 ∗ = i = 1 ∑ q σ i ( A V 0 ∗ ) σ r ( i ) ( B ∗ U 0 ∗ ) = i = 1 ∑ q σ i ( A ) σ r ( i ) ( B ) . 不失一般性,我们把奇异值 σ 1 ( A ) , … , σ q ( A ) \sigma_{1}(A),\dots ,\sigma_{q}(A) σ 1 ( A ) , … , σ q ( A ) 和 σ 3 ( B ) , … , σ q ( B ) \sigma_{3}(B),\dots ,\sigma_{q}(B) σ 3 ( B ) , … , σ q ( B ) 按递减顺序排列.如果置换 τ \pmb{\tau} τ 不是恒等置换,则有适合 1 ⩽ i 1 < i 2 ⩽ q 1\leqslant i_1 < i_2\leqslant q 1 ⩽ i 1 < i 2 ⩽ q 的指标使 σ r ( i 1 ) ( B ) ⩽ σ r ( i 2 ) ( B ) \sigma_{r(i_1)}(B)\leqslant \sigma_{r(i_2)}(B) σ r ( i 1 ) ( B ) ⩽ σ r ( i 2 ) ( B ) ,并且容易验证,如果所作置换互换这两个奇异值的位置,则和
∑ i = 1 q σ i ( A ) σ r ( i ) ( B ) \sum_ {i = 1} ^ {q} \sigma_ {i} (A) \sigma_ {r (i)} (B) i = 1 ∑ q σ i ( A ) σ r ( i ) ( B ) 不会减小,事实上,新和值与旧和值之差是
[ σ t 1 ( A ) − σ t 2 ( A ) ] [ σ τ ( t 2 ) , ( B ) − σ τ ( t 1 ) ( B ) ] ⩾ 0. \left[ \sigma_ {t _ {1}} (A) - \sigma_ {t _ {2}} (A) \right] \left[ \sigma_ {\tau (t _ {2})}, (B) - \sigma_ {\tau (t _ {1})} (B) \right] \geqslant 0. [ σ t 1 ( A ) − σ t 2 ( A ) ] [ σ τ ( t 2 ) , ( B ) − σ τ ( t 1 ) ( B ) ] ⩾ 0. 因此,对恒等置换 τ \tau τ ,上述和达到极大值,并且可以得出
max { R e t r A V ∙ B ∙ U ∙ : U ∈ M m , V ∈ M n 是 西 矩 阵 } = ∑ i = 1 q σ i ( A ) σ i ( B ) , ( 7.4.14 ) \max \{\mathrm {R e} \mathrm {t r} A V ^ {\bullet} B ^ {\bullet} U ^ {\bullet}: U \in M _ {m}, V \in M _ {n} \text {是 西 矩 阵} \} = \sum_ {i = 1} ^ {q} \sigma_ {i} (A) \sigma_ {i} (B), \quad (7. 4. 1 4) max { Re tr A V ∙ B ∙ U ∙ : U ∈ M m , V ∈ M n 是 西 矩 阵 } = i = 1 ∑ q σ i ( A ) σ i ( B ) , ( 7.4.14 ) 其中 A A A 和 B B B 的奇异值都按递减顺序排列.
把这个结果用到当初求极小值的问题中,对 A A A , B ∈ M m , n B\in M_{m,n} B ∈ M m , n , q = min { m , n } q = \min \{m,n\} q = min { m , n } ,求得
min { ∥ A ⋅ U B V ∥ 2 : U ∈ M n 和 V ∈ M n 是 西 矩 阵 } = − [ ∥ A ∥ 2 2 − 2 ∑ i = 1 q σ i ( A ) σ i ( B ) + ∥ B ∥ 2 2 ] 1.2 = [ ∑ i = 1 q σ i 2 ( A ) − 2 ∑ i − 1 q σ i ( A ) σ i ( B ) + ∑ i = 1 q σ i 2 ( B ) ] 1 , 2 \begin{array}{l} \min \{\parallel A \cdot U B V \parallel_ {2}: U \in M _ {n} \text {和} V \in M _ {n} \text {是 西 矩 阵} \} \\ = - \left[ \| A \| _ {2} ^ {2} - 2 \sum_ {i = 1} ^ {q} \sigma_ {i} (A) \sigma_ {i} (B) + \| B \| _ {2} ^ {2} \right] ^ {1. 2} \\ = \left[ \sum_ {i = 1} ^ {q} \sigma_ {i} ^ {2} (A) - 2 \sum_ {i - 1} ^ {q} \sigma_ {i} (A) \sigma_ {i} (B) + \sum_ {i = 1} ^ {q} \sigma_ {i} ^ {2} (B) \right] ^ {1, 2} \\ \end{array} min { ∥ A ⋅ U B V ∥ 2 : U ∈ M n 和 V ∈ M n 是 西 矩 阵 } = − [ ∥ A ∥ 2 2 − 2 ∑ i = 1 q σ i ( A ) σ i ( B ) + ∥ B ∥ 2 2 ] 1.2 = [ ∑ i = 1 q σ i 2 ( A ) − 2 ∑ i − 1 q σ i ( A ) σ i ( B ) + ∑ i = 1 q σ i 2 ( B ) ] 1 , 2 435
= [ ∑ i = 1 q [ σ i ( A ) − σ i ( B ) ] 2 ] 1 / 2 . (7.4.15) = \left[ \sum_ {i = 1} ^ {q} \left[ \sigma_ {i} (A) - \sigma_ {i} (B) \right] ^ {2} \right] ^ {1 / 2}. \tag {7.4.15} = [ i = 1 ∑ q [ σ i ( A ) − σ i ( B ) ] 2 ] 1/2 . ( 7.4.15 ) 特别是, A A A 是 B B B 的两侧“旋转”,当且仅当 A A A 和 B B B 有相同的奇异值集合.
练习 如果 B = I B = I B = I ,(7.4.15) 说明什么?试与例(7.4.8) 末尾的结果相比较。如果 B B B 是秩 k k k 的对角矩阵,(7.4.15) 说明什么?试与例(7.4.1) 中的有关说明作一比较。
7.4.16 例 作为利用奇异值的另一个例子,我们考虑刻划矩阵的酉不变范数的问题,它是在(5.6)节中提出来的。
定义 M m , n M_{m,n} M m , n 上的向量范数 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 称为酉不变的,是指
∥ U A V ∥ = ∥ A ∥ \| U A V \| = \| A \| ∥ U A V ∥ = ∥ A ∥ 对所有 A ∈ M m , n A \in M_{m,n} A ∈ M m , n 和所有两矩阵 U ∈ M m , V ∈ M n U \in M_{m}, V \in M_{n} U ∈ M m , V ∈ M n 成立.
如果 A ∈ M m , n A \in M_{m,n} A ∈ M m , n 是给定的矩阵,且 A = V Σ W ∗ A = V\Sigma W^{*} A = V Σ W ∗ 是 A A A 的奇异值分解,则 ∥ A ∥ = ∥ V Σ W ∗ ∥ = ∥ Σ ∥ \| A \| = \| V\Sigma W^{*} \| = \| \Sigma \| ∥ A ∥ = ∥ V Σ W ∗ ∥ = ∥Σ∥ 对任意酉不变范数 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 成立。因此,某个阶数的矩阵的酉不变范数只与该矩阵的奇异值集合有关。
两个熟知的两不变范数的例子是 Frobenius(Euclid) 范数和谱范数。如果 X = [ x i j ] ∈ M m , n X = [x_{ij}] \in M_{m,n} X = [ x ij ] ∈ M m , n 的奇异值是 σ 1 ⩾ σ 2 ⩾ ⋯ ⩾ σ q ⩾ 0 \sigma_{1} \geqslant \sigma_{2} \geqslant \dots \geqslant \sigma_{q} \geqslant 0 σ 1 ⩾ σ 2 ⩾ ⋯ ⩾ σ q ⩾ 0 ( q = min { m , n } q = \min\{m, n\} q = min { m , n } ), 则
∥ X ∥ 2 = ( ∑ j = 1 n ∑ r = 1 m ∣ x r j ∣ 2 ) 1 2 = ( ∑ i = 1 q σ i 2 ) 1 / 2 , \| X \| _ {2} = \left(\sum_ {j = 1} ^ {n} \sum_ {r = 1} ^ {m} | x _ {r j} | ^ {2}\right) ^ {\frac {1}{2}} = \left(\sum_ {i = 1} ^ {q} \sigma_ {i} ^ {2}\right) ^ {1 / 2}, ∥ X ∥ 2 = ( j = 1 ∑ n r = 1 ∑ m ∣ x r j ∣ 2 ) 2 1 = ( i = 1 ∑ q σ i 2 ) 1/2 , H
∥ X ∥ 2 = max v ≠ 0 ∥ X y ∥ 2 ∥ y ∥ 2 = [ ρ ( X ∗ X ) ] 1 2 = σ 1 = max { σ 1 , … , σ q } . \left\| X \right\| _ {2} = \max _ {v \neq 0} \frac {\left\| X y \right\| _ {2}}{\left\| y \right\| _ {2}} = \left[ \rho (X ^ {*} X) \right] ^ {1 ^ {2}} = \sigma_ {1} = \max \left\{\sigma_ {1}, \dots , \sigma_ {q} \right\}. ∥ X ∥ 2 = v = 0 max ∥ y ∥ 2 ∥ X y ∥ 2 = [ ρ ( X ∗ X ) ] 1 2 = σ 1 = max { σ 1 , … , σ q } . 对于 M m , n M_{m,n} M m , n 上的一般酉不变范数 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ ,它对其自变量的奇异值的依赖关系是容易确定的。为方便起见,假定 m ⩽ n m \leqslant n m ⩽ n ,设 A = d i a g ( x 1 , x 2 , … , x m ) ∈ M m A = \mathrm{diag}(x_1, x_2, \dots, x_m) \in M_m A = diag ( x 1 , x 2 , … , x m ) ∈ M m ,然后定义分块矩阵
X = [ A ⋮ 0 ] , A ∈ M m , 0 ∈ M m , n − m . X = [ A \vdots 0 ], \quad A \in M _ {m}, \quad 0 \in M _ {m, n - m}. X = [ A ⋮ 0 ] , A ∈ M m , 0 ∈ M m , n − m . 因为 X X ∗ = d i a g ( ∣ x 1 ∣ 2 , ∣ x 2 ∣ 2 , … , ∣ x m ∣ 2 ) XX^{*} = \mathrm{diag}(|x_{1}|^{2}, |x_{2}|^{2}, \dots, |x_{m}|^{2}) X X ∗ = diag ( ∣ x 1 ∣ 2 , ∣ x 2 ∣ 2 , … , ∣ x m ∣ 2 ) ,所以 X X X 的奇异值集合是 { σ i } = { ∣ x i ∣ } \{\sigma_{i}\} = \{\mid x_{i}\mid\} { σ i } = { ∣ x i ∣ } 。如果定义函数 g : C m → R 1 g: \mathbf{C}^{m} \to \mathbf{R}^{1} g : C m → R 1 为
g ( x ) = g ( [ x 1 , … , x m ] ′ ) ≡ ∥ X ∥ , g (x) = g ([ x _ {1}, \dots , x _ {m} ] ^ {\prime}) \equiv \| X \|, g ( x ) = g ([ x 1 , … , x m ] ′ ) ≡ ∥ X ∥ , 则函数 g ( ⋅ ) g(\cdot) g ( ⋅ ) 从范数 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 继承了某些性质:
(7.4.17) g ( x ) ⩾ 0 g(x) \geqslant 0 g ( x ) ⩾ 0 对所有 x ∈ C m x \in \mathbf{C}^m x ∈ C m 成立,因为 ∥ X ∥ ⩾ 0 \|X\| \geqslant 0 ∥ X ∥ ⩾ 0 对所有 X ∈ M m , n X \in M_{m,n} X ∈ M m , n 成立。
(7.4.18) g ( x ) = 0 g(x) = 0 g ( x ) = 0 当且仅当 r = 0 r = 0 r = 0 ,因为 ∥ X ∥ = 0 \| X \| = 0 ∥ X ∥ = 0 当且仅当 X = 0 X = 0 X = 0 .
(7.4.19) g ( α x ) = ∣ α ∣ g ( x ) g(\alpha x) = |\alpha| g(x) g ( αx ) = ∣ α ∣ g ( x ) 对所有 x ∈ C m x \in \mathbb{C}^m x ∈ C m 和所有 α ∈ C \alpha \in \mathbb{C} α ∈ C 成立,因为 ∥ α X ∥ = ∣ α ∣ ∣ X ∣ \|\alpha X\| = |\alpha||X| ∥ α X ∥ = ∣ α ∣∣ X ∣ 对所有 α ∈ C \alpha \in \mathbb{C} α ∈ C 和所有 X ∈ M m , n X \in M_{m,n} X ∈ M m , n 成立。
(7.4.20) g ( x + y ) ⩽ g ( x ) + g ( y ) g(x + y) \leqslant g(x) + g(y) g ( x + y ) ⩽ g ( x ) + g ( y ) 对所有 x , y ∈ C m x, y \in \mathbf{C}^m x , y ∈ C m 成立,因为 ∥ X + Y ∥ ⩽ ∥ X ∥ + ∥ Y ∥ \|X + Y\| \leqslant \|X\| + \|Y\| ∥ X + Y ∥ ⩽ ∥ X ∥ + ∥ Y ∥ 对所有 X , Y ∈ M m , n X, Y \in M_{m,n} X , Y ∈ M m , n 成立。
这四个性质说明 g ( ⋅ ) g(\cdot) g ( ⋅ ) 一定是 C m \mathbf{C}^{m} C m 上的向量范数,但是 g ( ⋅ ) g(\cdot) g ( ⋅ ) 另有两个附加性质:
(7.4.21)正如(5.5.9)中所定义的那样, g ( ⋅ ) g(\cdot) g ( ⋅ ) 是 C m \mathbf{C}^{m} C m 上的绝对范数;也就是说,如果 x = [ x i ] ∈ C m x = [x_{i}] \in \mathbf{C}^{m} x = [ x i ] ∈ C m ,且 y = [ y i ] ≡ [ ∣ x i ∣ ] ∈ C m y = [y_{i}] \equiv [|x_{i}|] \in \mathbf{C}^{m} y = [ y i ] ≡ [ ∣ x i ∣ ] ∈ C m ,则 g ( x ) = g ( y ) g(x) = g(y) g ( x ) = g ( y ) 。这是因为 g ( x ) = ∥ X ∥ g(x) = \|X\| g ( x ) = ∥ X ∥ 只与 X X X
上的奇异值 σ i = ∣ x i \sigma_{i} = |x_{i} σ i = ∣ x i 有关.
(7.4.22)如果 P ∈ M m P \in M_{m} P ∈ M m 是置换矩阵,则 g ( P x ) − g ( x ) g(Px) - g(x) g ( P x ) − g ( x ) 对所有 x ∈ C m x \in \mathbf{C}^{m} x ∈ C m 成立,这是因为 X = [ A ∣ 0 ] X = [A|0] X = [ A ∣0 ] 的奇异值集合与 [ P A 0 ] [PA 0] [ P A 0 ] 相同,这又因为 ( P A ) ∗ ( P A ) = A ∗ P T P A = A ∗ A (PA)^{*}(PA) = A^{*}P^{T}PA = A^{*}A ( P A ) ∗ ( P A ) = A ∗ P T P A = A ∗ A 。函数 g ( x ) g(x) g ( x ) 只是 x x x 的各分量绝对值的集合的函数,无需考虑它们的顺序。
练习 试计算矩阵 X = [ A ∣ 0 ] ∈ M m , n X = [A \mid 0] \in M_{m,n} X = [ A ∣ 0 ] ∈ M m , n 的一个明显的奇异值分解,其中 A = diag ( x 1 , … , x m ) A = \operatorname{diag}(x_1, \dots, x_m) A = diag ( x 1 , … , x m ) ,刚才讨论了这样的奇异值分解。
练习 如果 m ⩾ n m \geqslant n m ⩾ n ,设 X = [ A ∣ 0 ] r X = [A \mid 0]^r X = [ A ∣ 0 ] r ,其中 A = diag ( x 1 , … , x n ) ∈ M n A = \operatorname{diag}(x_1, \dots, x_n) \in M_n A = diag ( x 1 , … , x n ) ∈ M n ,且定义 g ( x ) = ∣ X ∣ g(x) = |X| g ( x ) = ∣ X ∣ , x ∈ C n x \in \mathbb{C}^n x ∈ C n 。如果 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 是 M m , n M_{m,n} M m , n 上的两不变范数,证明, g ( ⋅ ) g(\cdot) g ( ⋅ ) 是 C n \mathbf{C}^n C n 上的绝对向量范数,且 g ( P x ) = g ( x ) g(Px) = g(x) g ( P x ) = g ( x ) 对所有 x ∈ C n x \in \mathbb{C}^n x ∈ C n 和每个置换矩阵 P ∈ M n P \in M_n P ∈ M n 成立。
练习 直接证明,由 Frobenius 范数和谱范数诱导的向量范数适合上述 (7.4.17) (7.4.22) 六个性质。
7.4.23 定义 函数 g ( ⋅ ) : C q → R − g(\cdot): \mathbf{C}^q \to \mathbf{R}^- g ( ⋅ ) : C q → R − 称为对称度规函数,当且仅当它适合上述(7.4.17)(7.4.22)六个性质,即当且仅当 g ( ⋅ ) g(\cdot) g ( ⋅ ) 是绝对向量范数日 g ( ⋅ ) g(\cdot) g ( ⋅ ) 是其自变量的诸坐标的置换不变函数。
我们已经看到, M m , n M_{m,n} M m , n 上的每个酉不变范数诱导一个对称度规函数;更有趣的是其逆命题也成立。下面的定理说明, M m , n M_{m,n} M m , n 上的函数 N ( ⋅ ) N(\cdot) N ( ⋅ ) 是酉不变范数,当且仅当 N ( A ) N(A) N ( A ) 是 A A A 的奇异值的对称度规函数。
7.4.24 定理 设 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 是 M m , n M_{m,n} M m , n 上的酉不变范数,并且 q = min { m , n } q = \min \{m, n\} q = min { m , n } ,设 x − [ x i ] ∈ C q x - [x_i] \in \mathbf{C}^q x − [ x i ] ∈ C q 和 X 1 = d i a g ( x 1 , ⋯ , x q ) X_1 = \mathrm{diag}(x_1, \cdots, x_q) X 1 = diag ( x 1 , ⋯ , x q ) ,当 m ⩽ n m \leqslant n m ⩽ n 时,设 X ≡ [ X 1 , 0 ] ∈ M m , n X \equiv [X_1, 0] \in M_{m,n} X ≡ [ X 1 , 0 ] ∈ M m , n ,或当 m ⩾ n m \geqslant n m ⩾ n 时设 X ≡ [ X 1 , 0 ] T ∈ M m , n X \equiv [X_1, 0]^T \in M_{m,n} X ≡ [ X 1 , 0 ] T ∈ M m , n 。设 g : C q − 1 → R + g: \mathbf{C}^{q-1} \to \mathbf{R}^+ g : C q − 1 → R + 定义为 g ( x ) ≡ ∥ X ∥ g(x) \equiv \|X\| g ( x ) ≡ ∥ X ∥ ,则 g ( ⋅ ) g(\cdot) g ( ⋅ ) 是对称度规函数。反之,如果 g : C q − 1 → R + g: \mathbf{C}^{q-1} \to \mathbf{R}^+ g : C q − 1 → R + 是给定的对称度规函数,又如果 ∥ ⋅ ∥ : M m , n → R + \|\cdot\|: M_{m,n} \to \mathbf{R}^+ ∥ ⋅ ∥ : M m , n → R + 用 ∥ A ∥ = g ( [ σ 1 , ⋯ , σ q ] T ) \|A\| = g([\sigma_1, \cdots, \sigma_q]^T) ∥ A ∥ = g ([ σ 1 , ⋯ , σ q ] T ) 来定义,其中 σ 1 , ⋯ , σ q \sigma_1, \cdots, \sigma_q σ 1 , ⋯ , σ q 是 A A A 的奇异值,则 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 是 M m , n M_{m,n} M m , n 上的酉不变范数。
证明:前一个论断已经证明。关于逆命题,我们注意到,因为 g ( ⋅ ) g(\cdot) g ( ⋅ ) 是其变量的诸分量的置换不变函数,所以 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 是 M m , n M_{m,n} M m , n 上有明确定义的函数。由于矩阵的奇异值集合是酉不变的,所以,对于所有酉矩阵 U ∈ M m U \in M_m U ∈ M m 和 V ∈ M n V \in M_n V ∈ M n ,还有 ∥ U A V ∥ − ∥ A ∥ \| UAV \| - \| A \| ∥ U A V ∥ − ∥ A ∥ ,因为 g ( ⋅ ) g(\cdot) g ( ⋅ ) 是向量范数,所以,对所有 A ∈ M m , n A \in M_{m,n} A ∈ M m , n 都有 ∣ A ∣ ≥ 0 |A| \geq 0 ∣ A ∣ ≥ 0 ,并且 ∥ A ∥ = 0 \| A \| = 0 ∥ A ∥ = 0 当且仅当 g ( [ σ 1 , … , σ q ] ) = 0 g([\sigma_1, \dots, \sigma_q]) = 0 g ([ σ 1 , … , σ q ]) = 0 ,而这又当且仅当所有 σ i = 0 \sigma_i = 0 σ i = 0 才能成立。这是因为 g ( ⋅ ) g(\cdot) g ( ⋅ ) 是正定的(7.4.18)。但是零矩阵是所有奇异值都是零的仅有矩阵,因而函数 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 是正定的(见5.1.1(a))。因为 σ i ( c A ) = ∣ c ∣ σ i ( A ) \sigma_i(cA) = |c| \sigma_i(A) σ i ( c A ) = ∣ c ∣ σ i ( A ) ,所以 ∥ c A ∥ = g ( [ c ∣ σ 1 , … , ∣ c ∣ σ q ] ) = ∣ c ∣ g ( [ c ∣ σ 1 , … , σ q ] ) ÷ ∣ c ∣ ∥ A ∥ \| cA \| = g([c| \sigma_1, \dots, |c| \sigma_q]) = |c| g([c| \sigma_1, \dots, \sigma_q]) \div |c| \| A\| ∥ c A ∥ = g ([ c ∣ σ 1 , … , ∣ c ∣ σ q ]) = ∣ c ∣ g ([ c ∣ σ 1 , … , σ q ]) ÷ ∣ c ∣∥ A ∥ ,因而 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 也是齐次的。至此,已经证明了,用对称度规函数这种方式诱导的任意函数 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 是 M m , n M_{m,n} M m , n 上的准范数[见(5.4)]。剩下要证明的是 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 适合三角不等式,为此,只需证明 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 是准范数的对偶范数,[参看(5.4.12)下面的讨论]因而它实际上也是范数。
考虑 C n \mathbf{C}^n C n 上范数 g ( ⋅ ) g(\cdot) g ( ⋅ ) 的对偶范数 g D ( ⋅ ) g^{D}(\cdot) g D ( ⋅ )
g b ( y ) ≡ max g ( 1 ) = 1 Re y ∗ x (7.4.25) g ^ {b} (y) \equiv \max _ {g (1) = 1} \operatorname {R e} y ^ {*} x \tag {7.4.25} g b ( y ) ≡ g ( 1 ) = 1 max Re y ∗ x ( 7.4.25 ) 因为 g ( ⋅ ) g(\cdot) g ( ⋅ ) 是(准)范数,所以函数 g D ( ⋅ ) g^{\mathrm{D}}(\cdot) g D ( ⋅ ) 一定是范数;因为 g ( ⋅ ) g(\cdot) g ( ⋅ ) 适合(7.4.21),所以,
(7.4.21)如果 E = d i a g ( e i θ 1 , … , e i θ 9 ) E = \mathrm{diag}(e^{i\theta_1},\dots ,e^{i\theta_9}) E = diag ( e i θ 1 , … , e i θ 9 ) ,且所有 θ i ∈ R \theta_{i}\in \mathbb{R} θ i ∈ R ,则
g D ( E y ) = max g ( x ) = 1 Re ( E y ) ∗ x = max g ( y ) = 1 Re y ∗ ( E x ) = max g ( E x ) − 1 Re y ∗ x = max g ( x ) Re y ∗ x = g p ( y ) . \begin{array}{l} g ^ {D} (E y) = \max _ {g (x) = 1} \operatorname {R e} (E y) ^ {*} x = \max _ {g (y) = 1} \operatorname {R e} y ^ {*} (E x) = \max _ {g (E x) - 1} \operatorname {R e} y ^ {*} x \\ = \max _ {g (x)} \operatorname {R e} y ^ {*} x = g ^ {p} (y). \\ \end{array} g D ( E y ) = max g ( x ) = 1 Re ( E y ) ∗ x = max g ( y ) = 1 Re y ∗ ( E x ) = max g ( E x ) − 1 Re y ∗ x = max g ( x ) Re y ∗ x = g p ( y ) . 因此 g ν ( ⋅ ) g^{\nu}(\cdot) g ν ( ⋅ ) 也是对称度规函数,从而 g ν ( ⋅ ) g^{\nu}(\cdot) g ν ( ⋅ ) 也适合(7.4.21).
(7.4.22') 同理可证,如果 P ∈ M α P \in M_{\alpha} P ∈ M α 是置换矩阵,因为 g ( ⋅ ) g(\cdot) g ( ⋅ ) 适合(7.4.22),所以
g D ( P y ) = max k ( i ) Re ( P y ) ∗ x = max k ( i ) Re y ∗ P T x = max k ( P x ) = 1 Re y ∗ x = max g ( x ) = 1 R e y 4 x 12 g D ( y ) . \begin{array}{l} g ^ {D} (P y) = \max _ {k (i)} \operatorname {R e} (P y) ^ {*} x = \max _ {k (i)} \operatorname {R e} y ^ {*} P ^ {T} x = \max _ {k (P x) = 1} \operatorname {R e} y ^ {*} x \\ = \max _ {g (x) = 1} R e y ^ {4} x ^ {1 2} g ^ {D} (y). \\ \end{array} g D ( P y ) = max k ( i ) Re ( P y ) ∗ x = max k ( i ) Re y ∗ P T x = max k ( P x ) = 1 Re y ∗ x = max g ( x ) = 1 R e y 4 x 12 g D ( y ) . 这样,我们可以在 M n M_{n} M n 上定义与对称度规函数 g D ( ⋅ ) g^{D}(\cdot) g D ( ⋅ ) 相关联的函数 ∥ ⋅ ∥ D \| \cdot \| ^D ∥ ⋅ ∥ D
∥ A ∥ D ≡ g D ( [ σ 1 , … , σ q ] T ) , \| A \| ^ {D} \equiv g ^ {D} ([ \sigma_ {1}, \dots , \sigma_ {q} ] ^ {T}), ∥ A ∥ D ≡ g D ([ σ 1 , … , σ q ] T ) , 其中 σ 1 , ⋯ , σ q \sigma_{1}, \cdots, \sigma_{q} σ 1 , ⋯ , σ q 是 A A A 的奇异值. [这里, 有意泛用了一个记号: ∥ ⋅ ∥ p \| \cdot \|^{p} ∥ ⋅ ∥ p 通常表示范数 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 的对偶范数; 尽管还不知道 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 是范数, 不过将证明 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 是范数, 并且证明, 当 ∥ ⋅ ∥ p \| \cdot \|^{p} ∥ ⋅ ∥ p 用对称度规范数定义时, 它就是对偶范数.] 我们已经证明这个函数 ∥ ⋅ ∥ p \| \cdot \|^{p} ∥ ⋅ ∥ p 是 M q M_{q} M q 上的准范数, 因为它是用对称度规函数 g D ( ⋅ ) g^{D}(\cdot) g D ( ⋅ ) 定义的.
现在计算 ∥ ⋅ ∥ D \| \cdot \|^{D} ∥ ⋅ ∥ D 的对偶,根据(5.4.12), ∣ ⋅ ∣ D |\cdot |^D ∣ ⋅ ∣ D 肯定是 M m , n M_{m,n} M m , n 上的范数。我们知道,矩阵 B ∈ M m , n B \in M_{m,n} B ∈ M m , n 适合 ∥ B ∥ D = 1 \| B \|^{D} = 1 ∥ B ∥ D = 1 ,当且仅当 B B B 的奇异值分解是 B = V Σ W ∗ B = V\Sigma W^{*} B = V Σ W ∗ [其中,酉矩阵 V ∈ M m V \in M_{m} V ∈ M m 和 W ∈ M n W \in M_{n} W ∈ M n , Σ = d i a g ( σ 1 , … , σ q ) \Sigma = \mathrm{diag}(\sigma_{1}, \dots, \sigma_{q}) Σ = diag ( σ 1 , … , σ q ) 且 g D ( [ σ 1 , … , σ q ] T ) = 1 g^{D}([\sigma_{1}, \dots, \sigma_{q}]^{T}) = 1 g D ([ σ 1 , … , σ q ] T ) = 1 。对于每个给定的矩阵 A ∈ M m , n A \in M_{m,n} A ∈ M m , n ,有
( ∥ A ∥ p ) D = max ∥ B p − 1 Re [ A , B ] ÷ max ∥ B ∥ D − 1 Re tr A B ′ = max { Re tr A ( V Σ W ∗ ) ∗ : V ∈ M m 和 W ∈ M n 是 酉 矩 阵 , Σ = diag ( s 1 , … , s q ) , [ ] g D ( [ s 1 , … , s q ] T ) = 1 } . \begin{array}{l} \left(\| A \| ^ {p}\right) ^ {D} = \max _ {\| B ^ {p - 1}} \operatorname {R e} [ A, B ] \div \max _ {\| B \| ^ {D - 1}} \operatorname {R e} \operatorname {t r} A B ^ {\prime} \\ = \max \left\{\operatorname {R e} \operatorname {t r} A \left(V \Sigma W ^ {*}\right) ^ {*} \colon V \in M _ {m} \text {和} W \in M _ {n} \text {是 酉 矩 阵 ,} \right. \\ \Sigma = \operatorname {d i a g} \left(s _ {1}, \dots , s _ {q}\right), [ ] \\ g ^ {D} \left(\left[ s _ {1}, \dots , s _ {q} \right] ^ {T}\right) = 1 \}. \\ \end{array} ( ∥ A ∥ p ) D = max ∥ B p − 1 Re [ A , B ] ÷ max ∥ B ∥ D − 1 Re tr A B ′ = max { Re tr A ( V Σ W ∗ ) ∗ : V ∈ M m 和 W ∈ M n 是 酉 矩 阵 , Σ = diag ( s 1 , … , s q ) , [ ] g D ( [ s 1 , … , s q ] T ) = 1 } . 对于适合上述约束条件的每个对角矩阵 Σ \Sigma Σ ,我们可以利用(7.4.14)计算这个极大值,并且能在酉矩阵 V V V , W W W 的所有选择上达到极大值:
( ∥ A ∥ D ) D = max { ∑ i − 1 q σ i ( A ) ∣ s i ∣ : g D ( [ s 1 , … , s q ] T ) = 1 } . \left(\left\| A \right\| ^ {D}\right) ^ {D} = \max \left\{\sum_ {i - 1} ^ {q} \sigma_ {i} (A) \mid s _ {i} \mid : g ^ {D} \left([ s _ {1}, \dots , s _ {q} ] ^ {T}\right) = 1 \right\}. ( ∥ A ∥ D ) D = max { i − 1 ∑ q σ i ( A ) ∣ s i ∣: g D ( [ s 1 , … , s q ] T ) = 1 } . 但是,因为所有 σ i ( A ) ⩾ 0 \sigma_{i}(A) \geqslant 0 σ i ( A ) ⩾ 0 ,由定义(5.4.12)显然可知,这个最大值正好就是在点 [ σ 1 ( A ) , … , σ 9 ( A ) ] T [\sigma_{1}(A), \dots, \sigma_{9}(A)]^{T} [ σ 1 ( A ) , … , σ 9 ( A ) ] T 取值的 g D ( ⋅ ) g^{D}(\cdot) g D ( ⋅ ) 的对偶范数。然而,对偶定理(5.5.14)保证,范数的对偶的对偶是原范数,因而
( ∥ A ∥ D ) D = ( g D ) D ( [ σ 1 ( A ) , … , σ q ( A ) ] T ) = g ( [ σ 1 ( A ) , … , σ q ( A ) ] I ) ≡ ∥ A ∥ . \left(\left\| A \right\| ^ {D}\right) ^ {D} = \left(g ^ {D}\right) ^ {D} \left(\left[ \sigma_ {1} (A), \dots , \sigma_ {q} (A) \right] ^ {T}\right) = g \left(\left[ \sigma_ {1} (A), \dots , \sigma_ {q} (A) \right] ^ {I}\right) \equiv \| A \|. ( ∥ A ∥ D ) D = ( g D ) D ( [ σ 1 ( A ) , … , σ q ( A ) ] T ) = g ( [ σ 1 ( A ) , … , σ q ( A ) ] I ) ≡ ∥ A ∥. 于是,对所有 A ∈ M m , n A \in M_{m,n} A ∈ M m , n , ∥ A ∥ = ( ∥ A n ∥ D ) D \| A \| = (\| A_{n} \|^{D})^{D} ∥ A ∥ = ( ∥ A n ∥ D ) D ,它保证 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 实际上是范数,因而它适合三角不等式。这个结论也说明泛用这个记号是合理的,这是因为,由对偶定理可知, ( ∥ A ∥ ) D = ( ( ∥ A ∥ D ) D ) D = ∥ A ∥ D (\| A \|)^{D} = ((\| A \|^{D})^{D})^{D} = \| A \|^{D} ( ∥ A ∥ ) D = (( ∥ A ∥ D ) D ) D = ∥ A ∥ D 。因此,用对称度规函数 g D ( ⋅ ) g^{D}(\cdot) g D ( ⋅ ) 定义的 ∥ ⋅ ∥ D \|\cdot\|^{D} ∥ ⋅ ∥ D 确实与范数 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 的对偶范数相同。
C n \mathbf{C}^n C n 上的对称度规函数的一个熟知的重要例子是 l p l_{p} l p 范数族(5.2.4)
g ( [ x 1 , … , x n ] T ) = ∥ x ∥ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 p , 1 ⩽ p < ∞ . g \left(\left[ x _ {1}, \dots , x _ {n} \right] ^ {T}\right) = \| x \| _ {p} = \left(\sum_ {i = 1} ^ {n} | x _ {i} | ^ {p}\right) ^ {1 p}, \quad 1 \leqslant p < \infty . g ( [ x 1 , … , x n ] T ) = ∥ x ∥ p = ( i = 1 ∑ n ∣ x i ∣ p ) 1 p , 1 ⩽ p < ∞. 当它应用于矩阵的奇异值时,正如定理(7.4.24)中所描述的,各种 l p l_{p} l p 范数诱导了 M m , n M_{m,n} M m , n 上的各种酉不变范数,称为Schatten p \pmb{p} p 范数, p = 2 p = 2 p = 2 的情形是Frobenius(Euclidean)范数
∣ A ∣ 2 = [ ∑ 1 σ 1 ( A ) 2 ] 12 . \left| A \right| _ {2} = \left[ \sum_ {1} \sigma_ {1} (A) ^ {2} \right] ^ {1 2}. ∣ A ∣ 2 = [ 1 ∑ σ 1 ( A ) 2 ] 12 . p − → ( x ) p^{-\rightarrow (x)} p − → ( x ) 的极限情形是谱范数
∣ A i 2 = max { σ i ( A ) } , \left| A _ {i 2} = \max \left\{\sigma_ {i} (A) \right\}, \right. ∣ A i 2 = max { σ i ( A ) } , 而 p − 1 p - 1 p − 1 的情形是迹范数
∥ A ∥ 1 r − ∑ i σ i ( A ) . \left\| A \right\| _ {1 r} - \sum_ {i} \sigma_ {i} (A). ∥ A ∥ 1 r − i ∑ σ i ( A ) . 在例(7.4.6)中,当考虑用一个酉矩阵的纯量倍来逼近方阵的问题时自然要出现迹范数。
C ′ ′ \mathbf{C}^{\prime \prime} C ′′ 上的另一类对称度规函数族在(7.4.44)中给出,它们也诱导出迹范数和谐范数。
7.4.26 例 奇异值在推导 Wielandt 不等式中起着重要作用,这个不等式给出了非奇异方阵关于谱范数的条件数的几何意义。
设 A ∈ M n A \in M_{n} A ∈ M n 是非奇异矩阵,设 B = A ′ A ∈ M n B = A^{\prime}A \in M_{n} B = A ′ A ∈ M n ,且用 σ 1 ⩾ ⋯ ⩾ σ n > 0 \sigma_{1} \geqslant \dots \geqslant \sigma_{n} > 0 σ 1 ⩾ ⋯ ⩾ σ n > 0 表示 A A A 的奇异值。正定矩阵 B B B 的奇异值(按约定的递增顺序排列)是 0 < σ n 2 ⩽ σ n 2 − 1 ⩽ ⋯ ⩽ σ 1 2 0 < \sigma_{n}^{2} \leqslant \sigma_{n}^{2} - 1 \leqslant \dots \leqslant \sigma_{1}^{2} 0 < σ n 2 ⩽ σ n 2 − 1 ⩽ ⋯ ⩽ σ 1 2 。设 x , y ∈ C n x, y \in \mathbf{C}^{n} x , y ∈ C n 是任意一对标准正交向量,定义 C = [ x y ] ∗ B [ x y ] ∈ M 2 C = [xy]^{*} B[xy] \in M_{2} C = [ x y ] ∗ B [ x y ] ∈ M 2 ,且用 0 < γ 1 ⩽ γ 2 0 < \gamma_{1} \leqslant \gamma_{2} 0 < γ 1 ⩽ γ 2 表示 C C C 的特征值。 r = 2 r = 2 r = 2 的Poincaré分离定理(4.3.16)说明
λ k ( B ) = σ n + k + 1 2 ⩽ λ k ( C ) = γ k ⩽ λ n + k − 2 ( B ) − σ 3 2 , k = 1 , 2 , \lambda_ {k} (B) = \sigma_ {n + k + 1} ^ {2} \leqslant \lambda_ {k} (C) = \gamma_ {k} \leqslant \lambda_ {n + k - 2} (B) - \sigma_ {3} ^ {2}, k = 1, 2, λ k ( B ) = σ n + k + 1 2 ⩽ λ k ( C ) = γ k ⩽ λ n + k − 2 ( B ) − σ 3 2 , k = 1 , 2 , 或
σ n 2 ⩽ γ 1 ⩽ σ 2 2 和 σ n − 1 2 ⩽ γ 2 ⩽ σ 1 2 . \sigma_ {n} ^ {2} \leqslant \gamma_ {1} \leqslant \sigma_ {2} ^ {2} \quad \text {和} \quad \sigma_ {n - 1} ^ {2} \leqslant \gamma_ {2} \leqslant \sigma_ {1} ^ {2}. σ n 2 ⩽ γ 1 ⩽ σ 2 2 和 σ n − 1 2 ⩽ γ 2 ⩽ σ 1 2 . 对实际应用来说,在这些不等式中,值得注意的关系是
σ n 2 ⩽ γ 1 ⩽ γ 2 ⩽ σ 1 2 , (7.4.27) \sigma_ {n} ^ {2} \leqslant \gamma_ {1} \leqslant \gamma_ {2} \leqslant \sigma_ {1} ^ {2}, \tag {7.4.27} σ n 2 ⩽ γ 1 ⩽ γ 2 ⩽ σ 1 2 , ( 7.4.27 ) 其中,如果 x x x 和 y y y 是 B B B 的相应于其特征值分别是 A A A 的最大和最小奇异值的平方的标准正交特征向量,则第一个和最后一个不等式是等式。
经计算,
1 − ∣ x ∗ B y ∣ 2 ( x ∗ B x ) ( y ∗ B y ) − 4 ( x ∗ B x ) ( y ∗ B y ) − ∣ x ∗ B y ∣ 2 ( x ∗ B x ) + y ∗ B y ) 2 − ( x ∗ B r − y ∗ B y ) 2 = 4 det C ( tr C ) 2 − ( x ∗ B x − y ∗ B y ) 2 = 4 γ 1 γ 2 ( γ 1 + γ 2 ) 2 − ( x ∗ B r − y ∗ B y ) 2 ⩾ 4 γ 1 γ 2 ( γ 1 + γ 2 ) 2 , (7.4.28) \begin{array}{l} 1 - \frac {\left| x ^ {*} B y \right| ^ {2}}{\left(x ^ {*} B x\right) \left(y ^ {*} B y\right)} - 4 \frac {\left(x ^ {*} B x\right) \left(y ^ {*} B y\right) - \left| x ^ {*} B y \right| ^ {2}}{\left(x ^ {*} B x\right) + \left. y ^ {*} B y\right) ^ {2} - \left(x ^ {*} B r - y ^ {*} B y\right) ^ {2}} \\ = \frac {4 \det C}{(\operatorname {t r} C) ^ {2} - (x ^ {*} B x - y ^ {*} B y) ^ {2}} \tag {7.4.28} \\ = \frac {4 \gamma_ {1} \gamma_ {2}}{(\gamma_ {1} + \gamma_ {2}) ^ {2} - (x ^ {*} B r - y ^ {*} B y) ^ {2}} \geqslant \frac {4 \gamma_ {1} \gamma_ {2}}{(\gamma_ {1} + \gamma_ {2}) ^ {2}}, \\ \end{array} 1 − ( x ∗ B x ) ( y ∗ B y ) ∣ x ∗ B y ∣ 2 − 4 ( x ∗ B x ) + y ∗ B y ) 2 − ( x ∗ B r − y ∗ B y ) 2 ( x ∗ B x ) ( y ∗ B y ) − ∣ x ∗ B y ∣ 2 = ( tr C ) 2 − ( x ∗ B x − y ∗ B y ) 2 4 d e t C = ( γ 1 + γ 2 ) 2 − ( x ∗ B r − y ∗ B y ) 2 4 γ 1 γ 2 ⩾ ( γ 1 + γ 2 ) 2 4 γ 1 γ 2 , ( 7.4.28 ) 其中等式成立当且仅当 x , y ∈ C n x, y \in \mathbf{C}^n x , y ∈ C n 是标准正交向量 ∏ i x i B i = y i B i \prod_{i} x^{i} B_{i} = y^{i} B_{i} ∏ i x i B i = y i B i . 我们把这个不等式变成等价的不等式
∣ x ∗ B y ∣ 2 ( x ∗ B x ) ( y ∗ B y ) ⩽ 1 4 γ 1 γ 2 ( γ 1 + γ 2 ) 2 = ( γ 1 − γ 2 γ 1 + γ 2 ) 2 = ( γ 2 / γ 1 − 1 γ 2 / γ 1 + 1 ) 2 . (7.4.29) \frac {\mid x ^ {*} B y \mid^ {2}}{\left(x ^ {*} B x\right) \left(y ^ {*} B y\right)} \leqslant 1 \quad \frac {4 \gamma_ {1} \gamma_ {2}}{\left(\gamma_ {1} + \gamma_ {2}\right) ^ {2}} = \left(\frac {\gamma_ {1} - \gamma_ {2}}{\gamma_ {1} + \gamma_ {2}}\right) ^ {2} = \left(\frac {\gamma_ {2} / \gamma_ {1} - 1}{\gamma_ {2} / \gamma_ {1} + 1}\right) ^ {2}. \tag {7.4.29} ( x ∗ B x ) ( y ∗ B y ) ∣ x ∗ B y ∣ 2 ⩽ 1 ( γ 1 + γ 2 ) 2 4 γ 1 γ 2 = ( γ 1 + γ 2 γ 1 − γ 2 ) 2 = ( γ 2 / γ 1 + 1 γ 2 / γ 1 − 1 ) 2 . ( 7.4.29 ) (7.4.29)中的上界是比值 γ 2 / γ 1 \gamma_2 / \gamma_1 γ 2 / γ 1 的单增函数[这可用当 t > 0 t > 0 t > 0 时函数 f ( t ) = ( t − 1 ) / ( t + 1 ) f(t) = (t - 1) / (t + 1) f ( t ) = ( t − 1 ) / ( t + 1 ) 的导数为正的事实来证明]. 根据(7.4.27),这个比值有上界 σ 1 2 / σ n 2 \sigma_1^2 / \sigma_n^2 σ 1 2 / σ n 2 ,因而
∣ x ∗ B y ∣ 2 ( x ∗ B x ) ( y ∗ B y ) ⩽ ( σ 1 2 / σ n 2 − 1 σ 1 2 / σ n 2 + 1 ) 2 = ( κ 2 − 1 κ 2 + 1 ) 2 , (7.4.30) \frac {\left| x ^ {*} B y \right| ^ {2}}{\left(x ^ {*} B x\right) \left(y ^ {*} B y\right)} \leqslant \left(\frac {\sigma_ {1} ^ {2} / \sigma_ {n} ^ {2} - 1}{\sigma_ {1} ^ {2} / \sigma_ {n} ^ {2} + 1}\right) ^ {2} = \left(\frac {\kappa^ {2} - 1}{\kappa^ {2} + 1}\right) ^ {2}, \tag {7.4.30} ( x ∗ B x ) ( y ∗ B y ) ∣ x ∗ B y ∣ 2 ⩽ ( σ 1 2 / σ n 2 + 1 σ 1 2 / σ n 2 − 1 ) 2 = ( κ 2 + 1 κ 2 − 1 ) 2 , ( 7.4.30 ) 其中,引进了正参数 κ = κ ( A ) = σ 1 / σ n = ∥ A ∥ 2 ∥ A − 1 ∥ 2 ⩾ 1 \kappa = \kappa(A) = \sigma_1 / \sigma_n = \left\| A \right\|_2 \left\| A^{-1} \right\|_2 \geqslant 1 κ = κ ( A ) = σ 1 / σ n = ∥ A ∥ 2 A − 1 2 ⩾ 1 ,它是 A A A 关于谱范数的条件数,如果 u 1 , u n ∈ C n u_1, u_n \in \mathbf{C}^n u 1 , u n ∈ C n 分别是相应于特征值 σ 1 2 \sigma_1^2 σ 1 2 和 σ n 2 \sigma_n^2 σ n 2 的标准正交特征向量,又如果 x = ( u 1 + u n ) / 2 x = (u_1 + u_n) / \sqrt{2} x = ( u 1 + u n ) / 2 , y = ( u 1 − u n ) / 2 y = (u_1 - u_n) / \sqrt{2} y = ( u 1 − u n ) / 2 ,则 { x , y } \{x, y\} { x , y } 是标准正交组, x ∗ B x = y ∗ B y = ( σ 1 2 + σ n 2 ) / 2 x^* Bx = y^* By = (\sigma_1^2 + \sigma_n^2) / 2 x ∗ B x = y ∗ B y = ( σ 1 2 + σ n 2 ) /2 ,且 x ∗ B y = ( σ 1 2 − σ n 2 ) / 2 x^* By = (\sigma_1^2 - \sigma_n^2) / 2 x ∗ B y = ( σ 1 2 − σ n 2 ) /2 ,这时(7.4.30)中取等号。
用 cot ( θ / 2 ) = κ \cot (\theta /2) = \kappa cot ( θ /2 ) = κ 定义第一象限中的角 θ \theta θ ,于是
κ 2 − 1 κ 2 + 1 = cot 2 ( θ / 2 ) − 1 cot 2 ( θ / 2 ) + 1 = cos 2 ( θ / 2 ) ⋯ sin 2 ( θ / 2 ) cos 2 ( θ / 2 ) + sin 2 ( θ / 2 ) = cos θ , \frac {\kappa^ {2} - 1}{\kappa^ {2} + 1} = \frac {\cot^ {2} (\theta / 2) - 1}{\cot^ {2} (\theta / 2) + 1} = \frac {\cos^ {2} (\theta / 2) \cdots \sin^ {2} (\theta / 2)}{\cos^ {2} (\theta / 2) + \sin^ {2} (\theta / 2)} = \cos \theta , κ 2 + 1 κ 2 − 1 = cot 2 ( θ /2 ) + 1 cot 2 ( θ /2 ) − 1 = cos 2 ( θ /2 ) + sin 2 ( θ /2 ) cos 2 ( θ /2 ) ⋯ sin 2 ( θ /2 ) = cos θ , 并且(7.4.30)可写成形式
∣ x ∗ B y ∣ 2 ( x ∗ B r ) ( y ∗ B y ) ⩽ cos 2 θ . (7.4.31) \frac {\left| x ^ {*} B y \right| ^ {2}}{\left(x ^ {*} B r\right) \left(y ^ {*} B y\right)} \leqslant \cos^ {2} \theta . \tag {7.4.31} ( x ∗ B r ) ( y ∗ B y ) ∣ x ∗ B y ∣ 2 ⩽ cos 2 θ . ( 7.4.31 ) 如果我们注意到这个不等式的左边关于 x x x 和 y y y 是零次齐次的,那么最后可以用两种等价的形式叙述 Wielandt 不等式:
442
7.4.32 定理 设 A ∈ M n A \in M_{n} A ∈ M n 是具有谱条件数 κ \kappa κ 的某个非奇异矩阵,且用 cot ( θ / 2 ) = κ \cot (\theta / 2) = \kappa cot ( θ /2 ) = κ 定义第一象限中的角 θ \theta θ ,则
∣ ⟨ A x , A y ⟩ ∣ ⩽ cos θ ∥ A r ∥ 2 ∥ A y ∥ 2 (7.4.33) \left| \langle A x, A y \rangle \right| \leqslant \cos \theta \| A r \| _ {2} \| A y \| _ {2} \tag {7.4.33} ∣ ⟨ A x , A y ⟩ ∣ ⩽ cos θ ∥ A r ∥ 2 ∥ A y ∥ 2 ( 7.4.33 ) 对每对正交向量 x , y ∈ C n x, y \in \mathbb{C}^n x , y ∈ C n 成立,其中 ⟨ u , v ⟩ ≡ v ∗ u \langle u, v \rangle \equiv v^* u ⟨ u , v ⟩ ≡ v ∗ u 表示 Euclid 内积,而 ∥ u ∥ 2 = ( u ′ u ) 1.7 \|u\|_2 = (u' u)^{1.7} ∥ u ∥ 2 = ( u ′ u ) 1.7 表示 Euclid 范数。另外,存在一对标准正交向量 x , y ∈ C n x, y \in \mathbb{C}^n x , y ∈ C n 使(7.4.33)中的等式成立。
7.4.34 定理 设 B ∈ M n B \in M_{n} B ∈ M n 是具有特征值 0 < λ 1 ⩽ λ 2 ⩽ ⋯ ⩽ λ n 0 < \lambda_{1} \leqslant \lambda_{2} \leqslant \dots \leqslant \lambda_{n} 0 < λ 1 ⩽ λ 2 ⩽ ⋯ ⩽ λ n 的某个正定矩阵. 则
∣ x ∗ B y ∣ 2 ⩽ ( λ n − λ 1 λ n + λ 1 ) 2 ( x ∗ B x ) ( y ∗ B y ) (7.4.35) \mid x ^ {*} B y \mid^ {2} \leqslant \left(\frac {\lambda_ {n} - \lambda_ {1}}{\lambda_ {n} + \lambda_ {1}}\right) ^ {2} (x ^ {*} B x) (y ^ {*} B y) \tag {7.4.35} ∣ x ∗ B y ∣ 2 ⩽ ( λ n + λ 1 λ n − λ 1 ) 2 ( x ∗ B x ) ( y ∗ B y ) ( 7.4.35 ) 对每对正交向量 x , y ∈ C n x, y \in \mathbb{C}^n x , y ∈ C n 成立。此外,存在一对标准正交向量 x , y ∈ C n x, y \in \mathbb{C}^n x , y ∈ C n 使得(7.4.35)中等式成立。
证明:在(7.4.31)中作代换 B = A ∗ A B = A^{*}A B = A ∗ A 便得到不等式(7.4.33),在(7.4.30)中作代换 σ i 2 = λ n − i \sigma_{i}^{2} = \lambda_{n - i} σ i 2 = λ n − i ,并且考虑到每个正定矩阵 B B B 具有形式 B = A ∗ A B = A^{*}A B = A ∗ A ,其中 A ∈ M n A \in M_{n} A ∈ M n 为某个非奇异矩阵,由此得到不等式(7.4.35);可以取 A = B 12 A = B^{12} A = B 12 。我们已经知道(7.4.30)中的等式对一对标准正交向量成立。
练习 证明,(7.4.35)是一般的 Cauchy-Schwarz 不等式的改进,它是 ∣ x ∗ B y ∣ = ∣ ⟨ C y , C x ⟩ ∣ ⩽ ∥ C x ∥ 2 ∥ C y ∥ 2 |x^{*}By| = |\langle Cy, Cx \rangle| \leqslant \|Cx\|_{2} \|Cy\|_{2} ∣ x ∗ B y ∣ = ∣ ⟨ C y , C x ⟩ ∣ ⩽ ∥ C x ∥ 2 ∥ C y ∥ 2 ,其中 C = B 1 / 2 C = B^{1/2} C = B 1/2 。不过 Cauchy-Schwarz 不等式适应于所有向量偶 x , y x, y x , y ,而(7.4.35)只适用于正交向量偶。如果 λ 1 = λ n \lambda_{1} = \lambda_{n} λ 1 = λ n ,会出现什么情况?
Wielandt 不等式的形式 (7.4.33) 直接导出谱条件数的一个有用的几何解释。如果 x , y ∈ C n x, y \in \mathbf{C}^n x , y ∈ C n 是任意一对标准正交向量,则不等式
∣ ⟨ A x , A y ⟩ ∣ ∥ A x ∥ 2 ∥ A y ∥ 2 ⩽ cos θ (7.4.36) \frac {\left| \langle A x , A y \rangle \right|}{\| A x \| _ {2} \| A y \| _ {2}} \leqslant \cos \theta \tag {7.4.36} ∥ A x ∥ 2 ∥ A y ∥ 2 ∣ ⟨ A x , A y ⟩ ∣ ⩽ cos θ ( 7.4.36 ) 左边是非零向量 A x Ax A x 与 A y Ay A y 间的较小的Euclid角的通常余弦。这个界说明, A x Ax A x 与 A y Ay A y 间的较小角至多是 θ = θ ( A ) \theta = \theta(A) θ = θ ( A ) ,其中 θ ( A ) \theta(A) θ ( A ) 用 cot [ θ ( A ) / 2 ] = κ ( A ) \cot[\theta(A)/2] = \kappa(A) cot [ θ ( A ) /2 ] = κ ( A ) 来定义。因为在这个界中可以取等式,所以已经证实,当 x x x 和 y y y 取遍所有可能的标准正交向量时, θ ( A ) \theta(A) θ ( A ) 可几何地解释为 A x Ax A x 与 A y Ay A y 间的
最小角. 这一论点已在(5.8)节和(6.3)节讨论过.
众所周知的 Kantorovich 不等式容易从 Wielandt 不等式推出。对任意 x ∈ C n x \in \mathbf{C}^{n} x ∈ C n ,定义
y ≡ ∥ x ∥ 2 2 ( B − 1 x ) − ( x ∗ B − 1 x ) x , (7.4.37) y \equiv \| x \| _ {2} ^ {2} (B ^ {- 1} x) - (x ^ {*} B ^ {- 1} x) x, \tag {7.4.37} y ≡ ∥ x ∥ 2 2 ( B − 1 x ) − ( x ∗ B − 1 x ) x , ( 7.4.37 ) 并且注意到 x ∗ y = 0 x^{*}y = 0 x ∗ y = 0 ,经计算,
B y = ∥ x ∥ 2 2 x − ( x ∗ B − 1 x ) B x , B y = \| x \| _ {2} ^ {2} x - \left(x ^ {*} B ^ {- 1} x\right) B x, B y = ∥ x ∥ 2 2 x − ( x ∗ B − 1 x ) B x , x ∗ B y − ∥ x ∥ 2 4 ⋅ ( x ∗ B 1 x ) ( x ∗ B x ) , x ^ {*} B y - \left\| x \right\| _ {2} ^ {4} \cdot \left(x ^ {*} B ^ {1} x\right) \left(x ^ {*} B x\right), x ∗ B y − ∥ x ∥ 2 4 ⋅ ( x ∗ B 1 x ) ( x ∗ B x ) , y ∗ B y = − ( x ∗ B − 1 x ) ( y ∗ B x ) . y ^ {*} B y = - \left(x ^ {*} B ^ {- 1} x\right) \left(y ^ {*} B x\right). y ∗ B y = − ( x ∗ B − 1 x ) ( y ∗ B x ) . 因为 B B B ,因而 B − 1 B^{-1} B − 1 都是正定矩阵,我们一定有 y ∗ B y ⩾ 0 y^{*}By\geqslant 0 y ∗ B y ⩾ 0 ,因而 y ∗ B x = x ∗ B y ⩽ 0 y^{*}Bx = x^{*}By\leqslant 0 y ∗ B x = x ∗ B y ⩽ 0 ,把不等式(7.4.31)写成形式
∣ x ∗ B y ∣ 2 ⩽ cos 2 θ ( x ∗ B r ) ( y ∗ B y ) . \left| x ^ {*} B y \right| ^ {2} \leqslant \cos^ {2} \theta \left(x ^ {*} B r\right) \left(y ^ {*} B y\right). ∣ x ∗ B y ∣ 2 ⩽ cos 2 θ ( x ∗ B r ) ( y ∗ B y ) . 然后特意选择适合(7.4.37)的一对 x , y x, y x , y 代入上式便得
∣ x ∗ B y ∣ 2 ⩽ ( cos 2 θ ) ( x ∗ B x ) ( x ∗ B − 1 x ) ( − x ∗ B y ) . \left| x ^ {*} B y \right| ^ {2} \leqslant \left(\cos^ {2} \theta\right) \left(x ^ {*} B x\right) \left(x ^ {*} B ^ {- 1} x\right) \left(- x ^ {*} B y\right). ∣ x ∗ B y ∣ 2 ⩽ ( cos 2 θ ) ( x ∗ B x ) ( x ∗ B − 1 x ) ( − x ∗ B y ) . 在 x ∗ B y < 0 x^{*}By < 0 x ∗ B y < 0 或 x ∗ B y = 0 x^{*}By = 0 x ∗ B y = 0 两种可能情形,这蕴涵,对任意 x ∈ C n x \in \mathbb{C}^n x ∈ C n ,有
− x ∗ B y = − [ ∥ x ∥ 2 2 ( x ∗ B − 1 x ) ( x ∗ B x ) ] ⩽ ( cos 2 θ ) ( x ∗ B x ) ( x ∗ B − 1 x ) , - x ^ {*} B y = - \left[ \| x \| _ {2} ^ {2} \quad \left(x ^ {*} B ^ {- 1} x\right) \left(x ^ {*} B x\right) \right] \leqslant \left(\cos^ {2} \theta\right) \left(x ^ {*} B x\right) \left(x ^ {*} B ^ {- 1} x\right), − x ∗ B y = − [ ∥ x ∥ 2 2 ( x ∗ B − 1 x ) ( x ∗ B x ) ] ⩽ ( cos 2 θ ) ( x ∗ B x ) ( x ∗ B − 1 x ) , 或 ( sin 2 θ ) ( x ∗ B x ) ( x ∗ B − 1 x ) ⩽ ∥ x ∥ 2 4 . (\sin^2\theta)(x^* B x)(x^* B^{-1} x) \leqslant \| x \|_2^4. ( sin 2 θ ) ( x ∗ B x ) ( x ∗ B − 1 x ) ⩽ ∥ x ∥ 2 4 . (7.4.38)
应指出的是,如果 x = u 1 + u n x = u_{1} + u_{n} x = u 1 + u n 是 B \pmb{B} B 的相应于它的最小特征值和最大特征值的单位正交特征向量的和,则(7.4.38)是等式.这就诱导出Kantorovich不等式的两种形式,它们与Wielandt不等式的两种形式相对应.
7.4.39 定理 设 A ∈ M n A \in M_{n} A ∈ M n 是具有谱条件数 κ \kappa κ 的某个非奇异矩阵,且用 cot ( θ / 2 ) = κ \cot (\theta / 2) = \kappa cot ( θ /2 ) = κ 定义第一象限的角 θ \theta θ 。则
∥ x ∥ 2 2 ⩾ sin θ ∥ Λ x ∥ 2 ∥ ( A ∗ ) − 1 x ∥ 2 (7.4.40) \| x \| _ {2} ^ {2} \geqslant \sin \theta \| \Lambda x \| _ {2} \| (A ^ {*}) ^ {- 1} x \| _ {2} \tag {7.4.40} ∥ x ∥ 2 2 ⩾ sin θ ∥Λ x ∥ 2 ∥ ( A ∗ ) − 1 x ∥ 2 ( 7.4.40 ) 对所有 x ∈ C n x \in \mathbf{C}^n x ∈ C n 成立。此外,存在单位向量 x x x 使(7.4.40)为等式。
7.4.41 定理 设 B ∈ M n B \in M_{n} B ∈ M n 是具有特征值 0 < λ 1 ⩽ λ 2 ⩽ ⋯ ⩽ λ n 0 < \lambda_{1} \leqslant \lambda_{2} \leqslant \dots \leqslant \lambda_{n} 0 < λ 1 ⩽ λ 2 ⩽ ⋯ ⩽ λ n 的某个正定矩阵, 则
∥ x ∥ 2 4 ⩾ 4 λ 1 λ n ( λ 1 + λ n ) 2 ( x ∗ B x ) ( x ∗ B − 1 x ) (7.4.42) \| x \| _ {2} ^ {4} \geqslant \frac {4 \lambda_ {1} \lambda_ {n}}{\left(\lambda_ {1} + \lambda_ {n}\right) ^ {2}} \left(x ^ {*} B x\right) \left(x ^ {*} B ^ {- 1} x\right) \tag {7.4.42} ∥ x ∥ 2 4 ⩾ ( λ 1 + λ n ) 2 4 λ 1 λ n ( x ∗ B x ) ( x ∗ B − 1 x ) ( 7.4.42 ) 对所有 x ∈ C n x \in \mathbf{C}^n x ∈ C n 成立。此外,存在单位向量 x x x 使(7.4.42)为等式。
证明:将 B = A ⋅ A B = A \cdot A B = A ⋅ A 代入(7.4.38),并且能想到
sin 2 θ = 1 − cos 2 θ = 1 − ( λ n − λ 1 λ n + λ 1 ) 2 = 4 λ λ 1 λ n ( λ 1 + λ n ) 2 \sin^ {2} \theta = 1 - \cos^ {2} \theta = 1 - \left(\frac {\lambda_ {n} - \lambda_ {1}}{\lambda_ {n} + \lambda_ {1}}\right) ^ {2} = \frac {4 \lambda \lambda_ {1} \lambda_ {n}}{(\lambda_ {1} + \lambda_ {n}) ^ {2}} sin 2 θ = 1 − cos 2 θ = 1 − ( λ n + λ 1 λ n − λ 1 ) 2 = ( λ 1 + λ n ) 2 4 λ λ 1 λ n 便可从(7.4.38)推出这两个结论.(7.4.40)和(7.4.42)中可能取等式的事实可以从(4.4.38)中取等式的情形推出. □
7.4.43 例 有时可能要证明某些对所有酉不变范数都成立的关于矩阵的范数不等式,证明的关键在于认识到用
g k ( x ) − max { ∣ x i 1 ∣ + ⋯ + ∣ x i k ∣ : 1 ⩽ i 1 < i 2 < ⋯ < i k ⩽ n } , k = 1 , … , n . (7.4.44) g _ {k} (x) - \max \left\{\left| x _ {i _ {1}} \right| + \dots + \left| x _ {i _ {k}} \right|: 1 \leqslant i _ {1} < i _ {2} < \dots < i _ {k} \leqslant n \right\}, \quad k = 1, \dots , n. \tag {7.4.44} g k ( x ) − max { ∣ x i 1 ∣ + ⋯ + ∣ x i k ∣ : 1 ⩽ i 1 < i 2 < ⋯ < i k ⩽ n } , k = 1 , … , n . ( 7.4.44 ) 443
定义的 C n \mathbf{C}^n C n 上的特殊对称度规函数 g k ( [ x 1 , … , x n ] T ) g_{k}([x_{1},\dots ,x_{n}]^{T}) g k ([ x 1 , … , x n ] T ) 的基本作用。当把它应用于矩阵的奇异值时,正如定理(7.4.24)中所描述的,这个特殊的对称度规函数族诱导出 M m , n M_{m,n} M m , n 上的酉不变范数族,称之为樊戴 k k k 范数。 k = 1 k = 1 k = 1 的情形是谱范数,而 k = min { m , n } k = \min \{m,n\} k = min { m , n } 的情形是迹范数。
7.4.45 定理 设 x = [ x i ] x = [x_i] x = [ x i ] , y = [ y i ] ∈ C n y = [y_i] \in \mathbf{C}^n y = [ y i ] ∈ C n 是给定的向量,则 g ( x ) ≤ g ( y ) g(x) \leq g(y) g ( x ) ≤ g ( y ) 对 C n \mathbf{C}^n C n 上的所有对称度规函数 g ( ⋅ ) g(\cdot) g ( ⋅ ) 成立,当且仅当 g k ( x ) ≤ g k ( y ) g_k(x) \leq g_k(y) g k ( x ) ≤ g k ( y ) 对 k = 1 , 2 , … , n k = 1, 2, \dots, n k = 1 , 2 , … , n 成立;其中 g k ( ⋅ ) g_k(\cdot) g k ( ⋅ ) 是(7.4.44)中所定义的特殊对称度规函数。
证明:因为每个 g k ( ⋅ ) g_{k}(\cdot) g k ( ⋅ ) 是对称度规函数,条件的必要性是显然的。为了证明充分性,假定 g k ( x ) ≤ g k ( y ) g_{k}(x) \leq g_{k}(y) g k ( x ) ≤ g k ( y ) 对 k = 1 , 2 , … , n k = 1, 2, \dots, n k = 1 , 2 , … , n 成立,且设 g ( ⋅ ) g(\cdot) g ( ⋅ ) 是给定的对称度规函数。由于对称度规函数是其自变量的分量的置换不变函数(7.4.22),为方便起见,不失一般性,我们可以假定 x x x 和 y y y 的分量的绝对值都排成递增顺序:
∣ x 1 ∣ ⩽ ∣ x 2 ∣ ⩽ ⋯ ⩽ ∣ x n ∣ , ∣ y 1 ∣ ⩽ ∣ y 2 ∣ ⩽ ⋯ ⩽ ∣ y n ∣ . \left| x _ {1} \right| \leqslant \left| x _ {2} \right| \leqslant \dots \leqslant \left| x _ {n} \right|, \quad \left| y _ {1} \right| \leqslant \left| y _ {2} \right| \leqslant \dots \leqslant \left| y _ {n} \right|. ∣ x 1 ∣ ⩽ ∣ x 2 ∣ ⩽ ⋯ ⩽ ∣ x n ∣ , ∣ y 1 ∣ ⩽ ∣ y 2 ∣ ⩽ ⋯ ⩽ ∣ y n ∣ . 445 于是 g k ( x ) ⩽ g k ( y ) g_{k}(x) \leqslant g_{k}(y) g k ( x ) ⩽ g k ( y ) 对所有 k = 1 , 2 , … , n k = 1, 2, \dots, n k = 1 , 2 , … , n 成立的假定等价于 n n n 个不等式的组
∣ x n ∣ ⩽ ∣ y n ∣ , \left| x _ {n} \right| \leqslant \left| y _ {n} \right|, ∣ x n ∣ ⩽ ∣ y n ∣ , ∣ x n − 1 ∣ + ∣ x n ∣ ⩽ ∣ y n − 1 ∣ + ∣ y n ∣ , \left| x _ {n - 1} \right| + \left| x _ {n} \right| \leqslant \left| y _ {n - 1} \right| + \left| y _ {n} \right|, ∣ x n − 1 ∣ + ∣ x n ∣ ⩽ ∣ y n − 1 ∣ + ∣ y n ∣ , (7.4.46)
∣ x 2 ∣ + ⋯ + ∣ x n ∣ ⩽ ∣ y 2 ∣ + ⋯ + ∣ y n ∣ , \left| x _ {2} \right| + \dots + \left| x _ {n} \right| \leqslant \left| y _ {2} \right| + \dots + \left| y _ {n} \right|, ∣ x 2 ∣ + ⋯ + ∣ x n ∣ ⩽ ∣ y 2 ∣ + ⋯ + ∣ y n ∣ , ∣ x 1 ∣ + ∣ x 2 ∣ + ⋯ + ∣ x n ∣ ⩽ ∣ y 1 ∣ − 1 ∣ y 2 ∣ ∣ ⋯ + ∣ y n ∣ ∣ . \left. \left| x _ {1} \right| + \left| x _ {2} \right| + \dots + \left| x _ {n} \right| \leqslant \left| y _ {1} \right| ^ {- 1} \left| y _ {2} \right| \left| \dots + \left| y _ {n} \right| \right|. \right. ∣ x 1 ∣ + ∣ x 2 ∣ + ⋯ + ∣ x n ∣ ⩽ ∣ y 1 ∣ − 1 ∣ y 2 ∣ ∣ ⋯ + ∣ y n ∣ ∣ . 这些不等式与关于优化概念定义的不等式组(4.3.24)间的类似之处不仅仅是表面的。
如果这些不等式中的最后一个不等式 ( ∗ ) (\ast) ( ∗ ) 不是等式,通过缩小分量 y 1 y_{1} y 1 的绝对值来修改 y y y 直到或者 ( a ) (a) ( a ) 不等式 ( ∗ ) (\ast) ( ∗ ) 是等式,或者 ( b ) ∣ y 1 (b) \mid y_{1} ( b ) ∣ y 1 缩小成零。如果 ( b ) (b) ( b ) 出现在 ( a ) (a) ( a ) 之前,对下一个分量 y 2 y_{2} y 2 重复这个步骤,如此做下去直到 ( a ) (a) ( a ) 出现。其结果将产生一个修正向量 y ′ − [ y i ′ ] y' - [y'_i] y ′ − [ y i ′ ] ,使得对 i = 1 , ⋯ , n i = 1, \cdots, n i = 1 , ⋯ , n 有 ∣ y i ′ ∣ ⩽ ∣ y i ∣ |y_i'| \leqslant |y_i| ∣ y i ′ ∣ ⩽ ∣ y i ∣ ,对所有 k = 1 , ⋯ , n k = 1, \cdots, n k = 1 , ⋯ , n ,有 g k ( x ) ≤ g k ( y ′ ) g_k(x) \leq g_k(y') g k ( x ) ≤ g k ( y ′ ) ,且 ( ∗ ) (\ast) ( ∗ ) 中等式成立。由于绝对范数也是单调范数(5.5.10),我们有 g ( y ′ ) ≤ g ( y ) g(y') \leq g(y) g ( y ′ ) ≤ g ( y ) 。因此,如果我们能证明 g ( x ) ≤ g ( y ) g(x) \leq g(y) g ( x ) ≤ g ( y ) 对适合不等式组(7.4.46)(其中的 ( ∗ ) (\ast) ( ∗ ) 是等式)的任意 x x x , y ∈ C n y \in \mathbf{C}^n y ∈ C n 成立,那么可以得知, g ( x ) ≤ g ( y ) g(x) \leq g(y) g ( x ) ≤ g ( y ) 对适合一般的(7.4.46)的任意 x x x , y ∈ C n y \in \mathbf{C}^n y ∈ C n 也成立。
假定 ( ∗ ) (\ast) ( ∗ ) 为等式的(7.4.46)成立就是假定向量 − ∣ x ∣ = [ − ∣ x i ∣ ] ∈ R n -|x| = [-|x_i|] \in \mathbb{R}^n − ∣ x ∣ = [ − ∣ x i ∣ ] ∈ R n 优化向量 − ∣ y ∣ = [ − ∣ y i ∣ ] ∈ R n -|y| = [-|y_i|] \in \mathbb{R}^n − ∣ y ∣ = [ − ∣ y i ∣ ] ∈ R n (4.3.24),而在这种情形,我们知道存在双随机矩阵 S ∈ M n S \in M_n S ∈ M n 使得 − ∣ x ∣ = S ( − ∣ y ∣ ) -|x| = S(-|y|) − ∣ x ∣ = S ( − ∣ y ∣ ) 或 ∣ x ∣ = S ; y ∣ |x| = S; y| ∣ x ∣ = S ; y ∣ (4.3.33). 因每个双随机矩阵是有限多个置换矩阵的凸组合(8.7.1),我们可以把 S S S 写成 S = α 1 P 1 + ⋯ + α N P N S = \alpha_1 P_1 + \dots + \alpha_N P_N S = α 1 P 1 + ⋯ + α N P N ,其中, α i ⩾ 0 , α 1 + ⋯ + α N = 1 \alpha_i \geqslant 0, \alpha_1 + \dots + \alpha_N = 1 α i ⩾ 0 , α 1 + ⋯ + α N = 1 ,且每个 P i ∈ M n P_i \in M_n P i ∈ M n 是置换矩阵.这时,有
g ( x ) = g ( ∣ x ∣ ) = g ( S ∣ y ∣ ) = g ( ∑ i = 1 N α i P i ∣ y ∣ ) ⩽ ∑ i = 1 n g ( α i P i ∣ y ∣ ) = ∑ i = 1 N α i g ( ∣ y ∣ ) = g ( ∣ y ∣ ) = g ( y ) , \begin{array}{l} g (x) = g (| x |) \\ = g (S \mid y \mid) = g \left(\sum_ {i = 1} ^ {N} \alpha_ {i} P _ {i} \mid y \mid\right) \leqslant \sum_ {i = 1} ^ {n} g \left(\alpha_ {i} P _ {i} \mid y \mid\right) = \sum_ {i = 1} ^ {N} \alpha_ {i} g (\mid y \mid) = g (\mid y \mid) \\ = g (y), \\ \end{array} g ( x ) = g ( ∣ x ∣ ) = g ( S ∣ y ∣ ) = g ( ∑ i = 1 N α i P i ∣ y ∣ ) ⩽ ∑ i = 1 n g ( α i P i ∣ y ∣ ) = ∑ i = 1 N α i g ( ∣ y ∣ ) = g ( ∣ y ∣ ) = g ( y ) , 这是因为 g ( ⋅ ) g(\cdot) g ( ⋅ ) 是绝对向量范数,且 g ( ⋅ ) g(\cdot) g ( ⋅ ) 是其自变量的分量的置换不变函数。
定理的意义在于,为了使 M m , n M_{m,n} M m , n 上的每个酉不变范数 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 有 ∥ A ∥ ⩽ ∥ B ∥ \| A \| \leqslant \| B \| ∥ A ∥ ⩽ ∥ B ∥ ,必须而且只须
这个等式对樊巍 k k k 范数成立, k = 1 , 2 , … , min { m , n } k = 1,2,\dots ,\min \{m,n\} k = 1 , 2 , … , min { m , n }
7.4.47 推论 设 A , B ∈ M m , n A, B \in M_{m,n} A , B ∈ M m , n 是分别具有奇异值 σ 1 ( A ) ⩾ ⋯ ⩾ σ q ( A ) ⩾ 0 \sigma_1(A) \geqslant \dots \geqslant \sigma_q(A) \geqslant 0 σ 1 ( A ) ⩾ ⋯ ⩾ σ q ( A ) ⩾ 0 和 σ 1 ( B ) ⩾ ⋯ ⩾ σ q ( B ) ⩾ 0 \sigma_1(B) \geqslant \dots \geqslant \sigma_q(B) \geqslant 0 σ 1 ( B ) ⩾ ⋯ ⩾ σ q ( B ) ⩾ 0 的某两个矩阵,其中 q = min { m , n } q = \min\{m, n\} q = min { m , n } ,要使 ∥ A ∥ ⩽ ∥ B ∥ \|A\| \leqslant \|B\| ∥ A ∥ ⩽ ∥ B ∥ 对 M m , n M_{m,n} M m , n 上的每个酉不变范数 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 成立,其充分条件是对所有 i = 1 , 2 , … , q i = 1, 2, \dots, q i = 1 , 2 , … , q 有
σ t ( A ) ⩽ σ 1 ( B ) , (7.4.48) \sigma_ {t} (A) \leqslant \sigma_ {1} (B), \tag {7.4.48} σ t ( A ) ⩽ σ 1 ( B ) , ( 7.4.48 ) 而其必要充分条件是
σ 1 ( A ) ⩽ σ 1 ( B ) , \sigma_ {1} (A) \leqslant \sigma_ {1} (B), σ 1 ( A ) ⩽ σ 1 ( B ) , σ 1 ( A ) + σ 2 ( A ) ⩽ σ 1 ( B ) + σ 2 ( B ) , \sigma_ {1} (A) + \sigma_ {2} (A) \leqslant \sigma_ {1} (B) + \sigma_ {2} (B), σ 1 ( A ) + σ 2 ( A ) ⩽ σ 1 ( B ) + σ 2 ( B ) , ⋮ (7.4.49) \vdots \tag {7.4.49} ⋮ ( 7.4.49 ) σ 1 ( A ) + σ 2 ( A ) + ⋯ + σ q ( A ) ⩽ σ 1 ( B ) + ⋯ + σ q ( B ) . \sigma_ {1} (A) + \sigma_ {2} (A) + \dots + \sigma_ {q} (A) \leqslant \sigma_ {1} (B) + \dots + \sigma_ {q} (B). σ 1 ( A ) + σ 2 ( A ) + ⋯ + σ q ( A ) ⩽ σ 1 ( B ) + ⋯ + σ q ( B ) . 证明:所需要的关键论断是, M m , n M_{m,n} M m , n 上的酉不变范数是其自变量的奇异值的对称度规函数(7.4.24). (7.4.48)的充分性只要求对称度规函数是单调范数的事实(5.5.10),而关于不等式组(7.4.49)的更为明确的论断正是前一个定理的内容. □
为了应用推论(7.4.47)证明范数不等式,重述下面的事实常常是有用的:诸Hermite矩阵之和的有序特征值组成的向量优化各矩阵的有序特征值组成的向量之和。
7.4.50 引理 设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是具有有序特征值 λ 1 ( A ) ⩽ ⋯ ⩽ λ n ( A ) \lambda_{1}(A) \leqslant \cdots \leqslant \lambda_{n}(A) λ 1 ( A ) ⩽ ⋯ ⩽ λ n ( A ) 和 λ 1 ( B ) ⩽ ⋯ ⩽ λ n ( B ) \lambda_{1}(B) \leqslant \cdots \leqslant \lambda_{n}(B) λ 1 ( B ) ⩽ ⋯ ⩽ λ n ( B ) 的 Hermite 矩阵,又设 λ 1 ( A − B ) ⩽ ⋯ ⩽ λ n ( A − B ) \lambda_{1}(A - B) \leqslant \cdots \leqslant \lambda_{n}(A - B) λ 1 ( A − B ) ⩽ ⋯ ⩽ λ n ( A − B ) 表示 A − B A - B A − B 的有序特征值。则向量
λ ( A ) − λ ( B ) = [ λ , ( A ) λ , ( B ) ] \lambda (A) - \lambda (B) = \left[ \begin{array}{l l} \lambda , (A) & \lambda , (B) \end{array} \right] λ ( A ) − λ ( B ) = [ λ , ( A ) λ , ( B ) ] 优化向量 λ ( A − B ) = ⌊ λ i ( A − B ) ⌋ \lambda (A - B) = \lfloor \lambda_{i}(A - B)\rfloor λ ( A − B ) = ⌊ λ i ( A − B )⌋ 即
min { ∑ i = 1 k [ λ i j ( A ) − λ i j ( B ) ] : 1 ⩽ i 1 < i 2 < ⋯ < i k ⩽ n } ⩾ ∑ i = 1 k λ i ( A − B ) \min \left\{\sum_ {i = 1} ^ {k} \left[ \lambda_ {i j} (A) - \lambda_ {i j} (B) \right]: 1 \leqslant i _ {1} < i _ {2} < \dots < i _ {k} \leqslant n \right\} \geqslant \sum_ {i = 1} ^ {k} \lambda_ {i} (A - B) min { i = 1 ∑ k [ λ ij ( A ) − λ ij ( B ) ] : 1 ⩽ i 1 < i 2 < ⋯ < i k ⩽ n } ⩾ i = 1 ∑ k λ i ( A − B ) 对 k = 1 , 2 , … , n k = 1,2,\dots ,n k = 1 , 2 , … , n 成立,其中等式对 k = n k = n k = n 成立.
证明:定理(4.3.27)说明,由 A − B + B = A A - B + B = A A − B + B = A 的特征值组成的向量 λ ( A ) = λ ( ( A − B ) + B ) = [ λ 1 ( ( A − B ) + B ) ] \lambda(A) = \lambda((A - B) + B) = [\lambda_1((A - B) + B)] λ ( A ) = λ (( A − B ) + B ) = [ λ 1 (( A − B ) + B )] 优化向量 λ ( A − B ) + λ ( B ) = [ λ 1 ( A − B ) + λ 1 ( B ) ] \lambda(A - B) + \lambda(B) = [\lambda_1(A - B) + \lambda_1(B)] λ ( A − B ) + λ ( B ) = [ λ 1 ( A − B ) + λ 1 ( B )] ,它等价于向量 λ ( A ) − λ ( B ) \lambda(A) - \lambda(B) λ ( A ) − λ ( B ) 优化向量 λ ( A − B ) \lambda(A - B) λ ( A − B ) . □
以(7.4.47)中的条件及上述引理为工具,常常可以把关于范数或谱范数的逼近定理或不等式推广到整个酉不变范数类。
例如,(7.4.15)说明,如果 A A A , B ∈ M m , n B\in M_{m,n} B ∈ M m , n 是分别具有有序奇异值 σ 1 ( A ) ⩾ ⋯ ⩾ σ q ( A ) ⩾ 0 \sigma_1(A)\geqslant \dots \geqslant \sigma_q(A)\geqslant 0 σ 1 ( A ) ⩾ ⋯ ⩾ σ q ( A ) ⩾ 0 和 σ 1 ( B ) ⩾ ⋯ ⩾ σ q ( B ) ⩾ 0 \sigma_1(B)\geqslant \dots \geqslant \sigma_q(B)\geqslant 0 σ 1 ( B ) ⩾ ⋯ ⩾ σ q ( B ) ⩾ 0 的某两个矩阵,且 q = min { m , n } q = \min \{m,n\} q = min { m , n } ,则
∥ A − B ∥ 2 ⩾ ( ∑ i = 1 q [ σ i ( A ) − σ i ( B ) ] 2 ) 1 ′ \left\| A - B \right\| _ {2} \geqslant \left(\sum_ {i = 1} ^ {q} \left[ \sigma_ {i} (A) - \sigma_ {i} (B) \right] ^ {2}\right) ^ {1 ^ {\prime}} ∥ A − B ∥ 2 ⩾ ( i = 1 ∑ q [ σ i ( A ) − σ i ( B ) ] 2 ) 1 ′ 表示这个下界的另一种方式是
∥ A − B ∥ 2 ⩾ ∥ Σ ( A ) − Σ ( B ) ∥ 2 , \| A - B \| _ {2} \geqslant \| \Sigma (A) - \Sigma (B) \| _ {2}, ∥ A − B ∥ 2 ⩾ ∥Σ ( A ) − Σ ( B ) ∥ 2 , 其中, A = V 1 Σ ( A ) W 1 ∗ A = V_{1}\Sigma(A)W_{1}^{*} A = V 1 Σ ( A ) W 1 ∗ 和 B = V 2 Σ ( B ) W 2 ∗ B = V_{2}\Sigma(B)W_{2}^{*} B = V 2 Σ ( B ) W 2 ∗ 是奇异值分解, Σ ( A ) \Sigma(A) Σ ( A ) 和 Σ ( B ) \Sigma(B) Σ ( B ) 的“对角线”上的相应奇异值按从最大到最小的顺序排列。这种不等式的另一个例子是(7.3.8(a)),它是关于谱范数的。(7.4.15)推广到所有酉不变范数就是取这种形式。
446
7.4.51 定理 设 A , B ∈ M m , n A, B \in M_{m,n} A , B ∈ M m , n 是具有奇异值分解 A − V 1 Σ ( A ) W 1 ∗ A - V_1\Sigma(A)W_1^* A − V 1 Σ ( A ) W 1 ∗ 和 B = V 2 Σ ( B ) W 2 ∗ B = V_2\Sigma(B)W_2^* B = V 2 Σ ( B ) W 2 ∗ 的某两个矩阵,其中, V 1 , V 2 ∈ M m V_1, V_2 \in M_m V 1 , V 2 ∈ M m 和 W 1 , W 2 ∈ M n W_1, W_2 \in M_n W 1 , W 2 ∈ M n 是两矩阵,而 Σ ( A ) \Sigma(A) Σ ( A ) 和 Σ ( B ) \Sigma(B) Σ ( B ) 的“对角元”都按递减顺序排列,则 ∥ A − B ∥ ⩾ ∥ Σ ( A ) − Σ ( B ) ∥ \| A - B \| \geqslant \| \Sigma(A) - \Sigma(B) \| ∥ A − B ∥ ⩾ ∥Σ ( A ) − Σ ( B ) ∥ 对 M m , n M_{m,n} M m , n 上的每个酉不变范数 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 成立。
证明:设 q = min { m , n } q = \min \{m, n\} q = min { m , n } 。利用(7.3.7)把 A A A 的奇异值
σ 1 ( A ) ⩾ ⋯ ⩾ σ q ( A ) ⩾ 0 \sigma_ {1} (A) \geqslant \dots \geqslant \sigma_ {q} (A) \geqslant 0 σ 1 ( A ) ⩾ ⋯ ⩾ σ q ( A ) ⩾ 0 与Hermite矩阵
A ~ − [ 0 A A ⋅ 0 ] ∈ M m − n \widetilde {A} - \left[ \begin{array}{l l} 0 & A \\ A ^ {\cdot} & 0 \end{array} \right] \in M _ {m - n} A − [ 0 A ⋅ A 0 ] ∈ M m − n 前 q q q 个非正特征值对应起来, A ~ \widetilde{A} A 的 m + n m + n m + n 个有序特征值是
σ 1 ( A ) ⩽ σ 2 ( A ) ⩽ ⋯ ⩽ − σ q ( A ) ⩽ 0 = ⋯ − 0 ⩽ σ q ( A ) ⩽ ⋯ ⩽ σ 1 ( A ) , \sigma_ {1} (A) \leqslant \sigma_ {2} (A) \leqslant \dots \leqslant - \sigma_ {q} (A) \leqslant 0 = \dots - 0 \leqslant \sigma_ {q} (A) \leqslant \dots \leqslant \sigma_ {1} (A), σ 1 ( A ) ⩽ σ 2 ( A ) ⩽ ⋯ ⩽ − σ q ( A ) ⩽ 0 = ⋯ − 0 ⩽ σ q ( A ) ⩽ ⋯ ⩽ σ 1 ( A ) , 对 B ~ \tilde{B} B ~ 和 A ~ − B ~ \tilde{A} -\tilde{B} A ~ − B ~ 也可以作类似的对应, A ~ \tilde{A} A ~ 与 B ~ \tilde{B} B ~ 的有序特征值的差是 ⊥ [ σ 1 ( A ) − σ 1 ( B ) ] , … \perp [\sigma_{1}(A) - \sigma_{1}(B)],\dots ⊥ [ σ 1 ( A ) − σ 1 ( B )] , … ± ⌊ σ q ( A ) − σ q ( B ) ⌋ \pm \lfloor \sigma_q(A) - \sigma_q(B)\rfloor ± ⌊ σ q ( A ) − σ q ( B )⌋ 以及( ∣ m − n ∣ |m - n| ∣ m − n ∣ 项)0.虽然如何排出这个序列的顺序一般是不清楚的,但是,按照这个序列的顺序, q q q 个最小的元是 { − ∣ σ t ( A ) − σ t ( B ) ∣ } \{-\mid \sigma_t(A) - \sigma_t(B)\mid \} { − ∣ σ t ( A ) − σ t ( B ) ∣ } ,把引理(7.4.50)应用于 A ~ \tilde{A} A ~ 中 B ~ \tilde{B} B ~ 和 A ~ − B ~ \tilde{A} -\tilde{B} A ~ − B ~ 便使我们确信
∑ i = 1 k − σ i ( A − B ) ⩽ min { ∑ j = 1 k ′ σ i j ( A ) − σ j ( B ) ∣ : 1 ⩽ i 1 < ⋯ < i k ⩽ n } \sum_ {i = 1} ^ {k} - \sigma_ {i} (A - B) \leqslant \min \left\{\sum_ {j = 1} ^ {k} \quad^ {\prime} \sigma_ {i _ {j}} (A) - \sigma_ {j} (B) \mid : 1 \leqslant i _ {1} < \dots < i _ {k} \leqslant n \right\} i = 1 ∑ k − σ i ( A − B ) ⩽ min { j = 1 ∑ k ′ σ i j ( A ) − σ j ( B ) ∣: 1 ⩽ i 1 < ⋯ < i k ⩽ n } 对 k = 1 , ⋯ , q k = 1, \cdots, q k = 1 , ⋯ , q 成立,它等价于
∑ i = 1 k σ i ( A B ) ⩾ max { ∑ j = 1 k ∣ σ i j ( A ) − σ i j ( B ) ∣ : 1 ⩽ i 1 < ⋯ < i k ⩽ n } \sum_ {i = 1} ^ {k} \sigma_ {i} (A \quad B) \geqslant \max \left\{\sum_ {j = 1} ^ {k} | \sigma_ {i _ {j}} (A) - \sigma_ {i _ {j}} (B) |: 1 \leqslant i _ {1} < \dots < i _ {k} \leqslant n \right\} i = 1 ∑ k σ i ( A B ) ⩾ max { j = 1 ∑ k ∣ σ i j ( A ) − σ i j ( B ) ∣ : 1 ⩽ i 1 < ⋯ < i k ⩽ n } 对 k − 1 , ⋯ , q k-1, \cdots, q k − 1 , ⋯ , q 成立。因为 { ∣ σ i ( A ) − σ i ( B ) } \{\mid \sigma_{i}(A) - \sigma_{i}(B)\} { ∣ σ i ( A ) − σ i ( B )} 是 Σ ( A ) − Σ ( B ) \Sigma(A) - \Sigma(B) Σ ( A ) − Σ ( B ) 的奇异值的集合,推论(7.4.47)保证 ∥ A − B ∥ ⩾ ∥ Σ ( A ) − Σ ( B ) ∥ \|A-B\| \geqslant \|\Sigma(A)-\Sigma(B)\| ∥ A − B ∥ ⩾ ∥Σ ( A ) − Σ ( B ) ∥ 对任何酉不变范数 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 成立。
7.4.52 例 定理(7.4.51)的一个推论是,对于在例(7.4.1)中所考虑的关于Frobenius范数求某个矩阵 A ∈ M n A \in M_{n} A ∈ M n 的(在最小二乘意义下的)最佳秩 k k k 邻近问题作推广。如果 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 是两不变范数,又如果 B ∈ M n B \in M_{n} B ∈ M n 有秩 k k k ,则 σ 1 ( B ) ⩾ ⋯ ⩾ σ k ( B ) > 0 − σ k − 1 ( B ) = ⋯ = σ n ( B ) \sigma_{1}(B) \geqslant \cdots \geqslant \sigma_{k}(B) > 0 - \sigma_{k-1}(B) = \cdots = \sigma_{n}(B) σ 1 ( B ) ⩾ ⋯ ⩾ σ k ( B ) > 0 − σ k − 1 ( B ) = ⋯ = σ n ( B ) 。于是,
∥ A B ∥ ⩾ ∥ Σ ( A ) − Σ ( B ) ∥ = ∥ diag ( σ 1 ( A ) − σ 1 ( B ) , … , σ k ( A ) − σ k ( B ) , σ k + 1 ( A ) , … , σ n ( A ) ) ∥ ⩾ ∥ diag ( 0 , … , 0 , σ k + 1 ( A ) , … , σ n ( A ) ) ∥ , \begin{array}{l} \| A \quad B \| \geqslant \| \Sigma (A) - \Sigma (B) \| \\ = \left\| \operatorname {d i a g} \left(\sigma_ {1} (A) - \sigma_ {1} (B), \dots , \sigma_ {k} (A) - \sigma_ {k} (B), \sigma_ {k + 1} (A), \dots , \sigma_ {n} (A)\right) \right\| \\ \geqslant \left\| \operatorname {d i a g} (0, \dots , 0, \sigma_ {k + 1} (A), \dots , \sigma_ {n} (A)) \right\|, \\ \end{array} ∥ A B ∥ ⩾ ∥Σ ( A ) − Σ ( B ) ∥ = ∥ diag ( σ 1 ( A ) − σ 1 ( B ) , … , σ k ( A ) − σ k ( B ) , σ k + 1 ( A ) , … , σ n ( A ) ) ∥ ⩾ ∥ diag ( 0 , … , 0 , σ k + 1 ( A ) , … , σ n ( A )) ∥ , 其中,我们用到了对角矩阵的酉不变范数是单调范数的事实,这是因为它是诸对角元的对称度规函数。另外,当 B = V E W ∗ B = V E W^{*} B = V E W ∗ 时可能取等式,其中, A = V Σ ( A ) W ∗ A = V \Sigma(A) W^{*} A = V Σ ( A ) W ∗ 是 A A A 的奇异值分解,而 E = diag [ σ 1 ( A ) , … , σ 6 ( A ) , 0 , … , 0 ] E = \operatorname{diag}[\sigma_{1}(A), \dots, \sigma_{6}(A), 0, \dots, 0] E = diag [ σ 1 ( A ) , … , σ 6 ( A ) , 0 , … , 0 ] 。
因此,对任意 A ∈ M n A \in M_{n} A ∈ M n 和秩为 k k k 的任意 B ∈ M n B \in M_{n} B ∈ M n ,关于任意两不变范数有下界
∣ A − B ∣ ⩾ ∣ diag ( 0 , … , 0 , σ k ′ 1 ( A ) , … , σ n ( A ) ) ∣ ⩾ σ n ( A ) ∥ diag ( 0 , … , 0 , 1 , … , 1 ) ∥ \begin{array}{l} \left| A - B \right| \geqslant \left| \operatorname {d i a g} (0, \dots , 0, \sigma_ {k ^ {\prime} 1} (A), \dots , \sigma_ {n} (A)) \right| \\ \geqslant \sigma_ {n} (A) \| \operatorname {d i a g} (0, \dots , 0, 1, \dots , 1) \| \\ \end{array} ∣ A − B ∣ ⩾ ∣ diag ( 0 , … , 0 , σ k ′ 1 ( A ) , … , σ n ( A )) ∣ ⩾ σ n ( A ) ∥ diag ( 0 , … , 0 , 1 , … , 1 ) ∥ (最后一个表示式的对角线上有 k k k 项零),其中,第一个不等式可以是等式,而第二个不等式一般不取等式。第二个不等式(如果 A A A 是非奇异矩阵,该不等式完全可以从对称度规函数的单调性推出,而如果 A A A 是奇异矩阵,则结论是明显的)有以下优点:它对范数的依赖关系只是 k k k 的
函数而不是 A A A 的函数。特别是,这说明,对任意非奇异矩阵 A ∈ M n A \in M_n A ∈ M n 和任意酉不变范数 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 有最大下界
∥ A − B ∥ ⩾ σ n ( Λ ) ∥ diag ( 0 , … , 0 , 1 ) ∥ . (7.4.53) \| A - B \| \geqslant \sigma_ {n} (\Lambda) \| \operatorname {d i a g} (0, \dots , 0, 1) \|. \tag {7.4.53} ∥ A − B ∥ ⩾ σ n ( Λ ) ∥ diag ( 0 , … , 0 , 1 ) ∥. ( 7.4.53 ) 它对 A A A 与任意奇异矩阵 B B B 间的距离成立:即 A A A 到奇异矩阵所组成的闭集的最小距离(关于酉不变范数 ∥ ⋅ ∥ ) \|\cdot\|) ∥ ⋅ ∥ ) 是 σ n ( A ) \sigma_{n}(A) σ n ( A ) ∥ d i a g ( 0 , … , 0 , 1 ) ∥ \| \mathrm{diag}(0,\dots ,0,1)\| ∥ diag ( 0 , … , 0 , 1 ) ∥
7.4.54 例 我们可以利用对称度规函数的性质给出 M n M_{n} M n 上的酉不变范数是矩阵范数的简单特征。如果 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 是 M n M_{n} M n 上的酉不变矩阵范数,则从推论(5.6.35)得知, ∥ A ∥ ⩾ σ 1 ( A ) \|A\| \geqslant \sigma_{1}(A) ∥ A ∥ ⩾ σ 1 ( A ) 对所有 A ∈ M n A \in M_{n} A ∈ M n 成立。利用定理(5.6.9)和 M n M_{n} M n 上的每个酉不变范数是自伴范数的事实(见习题2),用论断 [ σ 1 ( A ) ] 2 = ρ ( A ′ A ) ⩽ ∥ A ′ A ∥ ⩽ A ′ A ∥ A ∣ − ∥ A ∥ 2 [\sigma_{1}(A)]^{2} = \rho(A^{\prime}A) \leqslant \|A^{\prime}A\| \leqslant A^{\prime}A \|A| - \|A\|^2 [ σ 1 ( A ) ] 2 = ρ ( A ′ A ) ⩽ ∥ A ′ A ∥ ⩽ A ′ A ∥ A ∣ − ∥ A ∥ 2 也可以直接证明上述结论。另一方面,设 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 是使 ∥ A ∥ ⩾ σ 1 ( A ) \|A\| \geqslant \sigma_{1}(A) ∥ A ∥ ⩾ σ 1 ( A ) 对所有 A ∈ M n A \in M_{n} A ∈ M n 都成立的 M n M_{n} M n 上的酉不变范数,又设 g g g 是由 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 诱导的 C n \mathbf{C}^{n} C n 上的对称度规函数。利用7.3节习题18中给出的类似于Weyl不等式的关于奇异值的乘法不等式以及 g g g 是单调范数的事实便可推出
∥ A B ∥ = g ( σ 1 ( A B ) , σ 2 ( A B ) , … , σ n ( A B ) ) ⩽ g ( σ 1 ( A ) σ 1 ( B ) , σ 1 ( A ) σ 2 ( B ) , … , σ 1 ( A ) σ n ( B ) ) = σ 1 ( A ) g ( σ 1 ( B ) , σ 2 ( B ) , … , σ n ( B ) ) − σ 1 ( A ) ⋅ B ∥ ⩽ ∣ A ∥ ∣ B ∣ . \begin{array}{l} \| A B \| = g \left(\sigma_ {1} (A B), \sigma_ {2} (A B), \dots , \sigma_ {n} (A B)\right) \\ \leqslant g \left(\sigma_ {1} (A) \sigma_ {1} (B), \sigma_ {1} (A) \sigma_ {2} (B), \dots , \sigma_ {1} (A) \sigma_ {n} (B)\right) \\ = \sigma_ {1} (A) g (\sigma_ {1} (B), \sigma_ {2} (B), \dots , \sigma_ {n} (B)) \\ - \sigma_ {1} (A) \cdot B \| \leqslant | A \| | B |. \\ \end{array} ∥ A B ∥ = g ( σ 1 ( A B ) , σ 2 ( A B ) , … , σ n ( A B ) ) ⩽ g ( σ 1 ( A ) σ 1 ( B ) , σ 1 ( A ) σ 2 ( B ) , … , σ 1 ( A ) σ n ( B ) ) = σ 1 ( A ) g ( σ 1 ( B ) , σ 2 ( B ) , … , σ n ( B )) − σ 1 ( A ) ⋅ B ∥ ⩽ ∣ A ∥∣ B ∣. 因此, M n M_{n} M n 上的酉不变范数 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 是矩阵范数,当且仅当 ∥ A ∥ ⩾ σ 1 ( A ) = ∥ A ∥ 2 \| A \| \geqslant \sigma_{1}(A) = \| A \|_{2} ∥ A ∥ ⩾ σ 1 ( A ) = ∥ A ∥ 2 对所有 A ∈ M n A \in M_{n} A ∈ M n 成立,特别是,所有樊戴 k k k 范数, k − 1 , 2 , … , n k - 1, 2, \dots, n k − 1 , 2 , … , n ,以及所有 Schatten p p p 范数, p ⩾ 1 p \geqslant 1 p ⩾ 1 、 ⌊ \lfloor ⌊ 它们分别是由(7.4.4)中的对称度规函数及(5.2.4)诱导的]是矩阵范数。这个特征的另一个推论是, M n M_{n} M n 上的酉不变矩阵范数所组成的集合是凸集, M n M_{n} M n 上的所有矩阵范数所组成的集合不是凸集[参看(5.6)节习题9].
习题 设 A ∈ M m , n A \in M_{m,n} A ∈ M m , n 的秩 k > 0 k > 0 k > 0 。假定求一个秩为 k 1 < k k_1 < k k 1 < k 的矩阵 A 1 ∈ M m , n A_1 \in M_{m,n} A 1 ∈ M m , n 要求能按 Frobenius 范数最伟逼近 A A A ,说明这可以按下述方式进行: 设 A = V Σ W ∗ A = V\Sigma W^{*} A = V Σ W ∗ 是 A \pmb{A} A 的奇异值分解.设 Σ 1 \Sigma_{1} Σ 1 除了仅取 σ 1 , … , σ k 1 \sigma_{1},\dots ,\sigma_{k_{1}} σ 1 , … , σ k 1 而其所余下 n − k 1 n - k_{1} n − k 1 个“对角”元为零以外, Σ 1 \Sigma_{1} Σ 1 与 Σ \boldsymbol{\Sigma} Σ 是相同的.于是 A 1 ≡ V Σ 1 W ∗ A_{1}\equiv V\Sigma_{1}W^{*} A 1 ≡ V Σ 1 W ∗ 有所要求的性质.提示:利用(7.4.15).注意到(7.4.52)证明了所给逼近不仅关于Frobenius范数是“最佳”的,而且关于所有酉不变范数也是“最佳”的.
M n M_{n} M n 上的范数称为自伴范数,是指 ∥ A ∥ − ∥ A ⋆ ∥ \| A\| -\| A^{\star}\| ∥ A ∥ − ∥ A ⋆ ∥ 对每个 A ∈ M n A\in M_n A ∈ M n 成立。试用定理(7.4.24)证明, M n M_{n} M n 上的每个酉不变范数是自伴范数。试给一个是自伴范数而不是酉不变范数的例子。
试用定理(7.4.10)和例(7.4.6)的方法来确定,用一个具有标准正交行的矩阵 Y ∈ M m , n Y \in M_{m,n} Y ∈ M m , n 的纯量倍对一个给定矩阵 A ∈ M m , n A \in M_{m,n} A ∈ M m , n (其中 m ⩽ n m \leqslant n m ⩽ n ) 的最佳最小二乘逼近。提示:证明,这样的矩阵 Y Y Y 一定有形式 Y = V D W Y = VDW Y = V D W ,其中 V ∈ M m V \in M_m V ∈ M m 和 W ∈ M n W \in M_n W ∈ M n 是两矩阵, D = [ I 0 ] ∈ M m , n D = [I0] \in M_{m,n} D = [ I 0 ] ∈ M m , n , I ∈ M m I \in M_m I ∈ M m ,而 0 ∈ M m , n , m 0 \in M_{m,n,m} 0 ∈ M m , n , m 。极小化 ∥ A − c Y ∥ 2 2 \| A - cY \|_2^2 ∥ A − c Y ∥ 2 2 的问题与极小化 ∥ A ∥ 2 2 − ( Re t r A Y ∗ ) 2 / m \| A \|_2^2 - (\operatorname{Re} tr A Y^*)^2 / m ∥ A ∥ 2 2 − ( Re t r A Y ∗ ) 2 / m 是相同的。如果
4.9
450
A = V 1 Σ W 1 ∗ A = V_{1}\Sigma W_{1}^{*} A = V 1 Σ W 1 ∗ 是 A A A 的奇异值分解,说明这个极小化问题变为求
max Retr { Σ W D ∗ V : W ∈ M n 和 V ∈ M m 是 西 矩 阵 } , \max \operatorname {R e t r} \{\Sigma W D ^ {*} V: W \in M _ {n} \text {和} V \in M _ {m} \text {是 西 矩 阵} \}, max Retr { Σ W D ∗ V : W ∈ M n 和 V ∈ M m 是 西 矩 阵 } , 然后利用定理(7.4.10)解这个如同例(7.4.13)中的问题。说明这种情形下的误差值与例(7.4.6)有相同的形式。
考虑对角矩阵 A A A , B ∈ M n B \in M_{n} B ∈ M n ,证明所有可能的排列 τ \tau τ 可以出现在(7.4.11)中。
考虑(7.4.7)中定义的函数 u ( A ) u(A) u ( A ) . 证明
u ( A ) ⩽ n ∥ A ∥ 2 u (A) \leqslant \sqrt {n} \| A \| _ {2} u ( A ) ⩽ n ∥ A ∥ 2 对所有 A ∈ M n A \in M_{n} A ∈ M n 成立,且这个界是可达到的。试用定义直接证明 u ( A ) u(A) u ( A ) 是 M n M_{n} M n 上的向量范数,并且说明为什么 u ( A ) u(A) u ( A ) 实际上是 M n M_{n} M n 上的矩阵范数。提示:参看例(7.4.54)。
证明,如果 A ∈ M n A \in M_n A ∈ M n 是非奇异矩阵,且 κ ( A ) = ∥ A ∥ 2 ∥ A ∥ 1 \kappa(A) = \left\| A \right\|_2 \left\| A \right\|^1 κ ( A ) = ∥ A ∥ 2 ∥ A ∥ 1 是 A A A 关于谱范数的条件数,则 κ ( A ) = σ 1 / σ n \kappa(A) = \sigma_1 / \sigma_n κ ( A ) = σ 1 / σ n ,最大奇异值和最小奇异值之比。这如何同估计 κ ( A ) ⩾ ∣ λ 1 / λ n ∣ \kappa(A) \geqslant |\lambda_1 / \lambda_n| κ ( A ) ⩾ ∣ λ 1 / λ n ∣ 作比较?
证明 Kantorovich 不等式 (7.4.42) 中的常量是 λ 1 \lambda_{1} λ 1 和 λ n \lambda_{n} λ n 的几何平均值与 λ 1 \lambda_{1} λ 1 和 λ n \lambda_{n} λ n 的算术平均值之比的平方.
设 A ∈ M n A \in M_{n} A ∈ M n 是非奇异Hermite矩阵。试用Kantorovich不等式(7.4.40)证明
max x ≠ 0 ∥ A x ∥ 2 ∥ A − 1 x ∥ 2 ∥ x ∥ 2 3 − σ 1 o + σ n 2 2 σ 1 σ n = 1 2 ( σ 1 σ n + σ n σ 1 ) , \max _ {x \neq 0} \frac {\| A x \| _ {2} \| A ^ {- 1} x \| _ {2}}{\| x \| _ {2} ^ {3}} - \frac {\sigma_ {1} ^ {o} + \sigma_ {n} ^ {2}}{2 \sigma_ {1} \sigma_ {n}} = \frac {1}{2} \left(\frac {\sigma_ {1}}{\sigma_ {n}} + \frac {\sigma_ {n}}{\sigma_ {1}}\right), x = 0 max ∥ x ∥ 2 3 ∥ A x ∥ 2 ∥ A − 1 x ∥ 2 − 2 σ 1 σ n σ 1 o + σ n 2 = 2 1 ( σ n σ 1 + σ 1 σ n ) , 其中 σ 1 ⩾ ⋯ ⩾ σ n > 0 \sigma_{1} \geqslant \cdots \geqslant \sigma_{n} > 0 σ 1 ⩾ ⋯ ⩾ σ n > 0 是 A A A 的奇异值。证明 σ 1 \sigma_{1} σ 1 和 σ n \sigma_{n} σ n 分别是 A A A 的诸特征值的最大绝对值和最小绝对值,并且证明
1 2 ( σ 1 σ n + σ n σ 1 ) − 1 2 ( κ + κ − 1 ) , \frac {1}{2} \left(\frac {\sigma_ {1}}{\sigma_ {n}} + \frac {\sigma_ {n}}{\sigma_ {1}}\right) - \frac {1}{2} (\kappa + \kappa^ {- 1}), 2 1 ( σ n σ 1 + σ 1 σ n ) − 2 1 ( κ + κ − 1 ) , 其中 κ \kappa κ 是 A A A 的谱条件数。给出一个向量 x x x 使上述极大值可达到。利用谱条件数以及它与上面所定义的极大值的关系,说明为什么有
1 2 ( σ 1 σ n + σ n σ 1 ) ⩽ σ 1 σ n \frac {1}{2} \left(\frac {\sigma_ {1}}{\sigma_ {n}} + \frac {\sigma_ {n}}{\sigma_ {1}}\right) \leqslant \frac {\sigma_ {1}}{\sigma_ {n}} 2 1 ( σ n σ 1 + σ 1 σ n ) ⩽ σ n σ 1 直接证明这个不等式. 提示: 证明对于 x ⩾ 1 x \geqslant 1 x ⩾ 1 , f ( x ) = x − [ x + ( 1 / x ) ] / 2 f(x) = x - [x + (1/x)]/2 f ( x ) = x − [ x + ( 1/ x )] /2 是增函数.
设 λ 1 , λ 2 , ⋯ , λ n \lambda_1, \lambda_2, \cdots, \lambda_n λ 1 , λ 2 , ⋯ , λ n 是 n n n 个给定的正实数。试用 Kantorovich 不等式(7.4.42)证明,如果 α 1 , ⋯ , α n \alpha_1, \cdots, \alpha_n α 1 , ⋯ , α n 是非负的,且其和为 1,则
( ∑ i = 1 n α i λ i ) ( ∑ i , 1 n α i λ i ) ⩽ ( λ max + λ min ) 2 4 λ max λ min . \left(\sum_ {i = 1} ^ {n} \alpha_ {i} \lambda_ {i}\right) \left(\sum_ {i, 1} ^ {n} \frac {\alpha_ {i}}{\lambda_ {i}}\right) \leqslant \frac {\left(\lambda_ {\max } + \lambda_ {\min }\right) ^ {2}}{4 \lambda_ {\max } \lambda_ {\min }}. ( i = 1 ∑ n α i λ i ) ( i , 1 ∑ n λ i α i ) ⩽ 4 λ m a x λ m i n ( λ m a x + λ m i n ) 2 . 证明(属于Greub和Rheinboldt的)Kantorovich不等式(7.4.42)的下述推广:设 B , C ∈ M n B, C \in M_{n} B , C ∈ M n 是交换的正定矩阵,分别有特征值 0 < λ 1 ⩽ ⋯ ⩽ λ n 0 < \lambda_{1} \leqslant \cdots \leqslant \lambda_{n} 0 < λ 1 ⩽ ⋯ ⩽ λ n 和 0 < μ 1 ⩽ ⋯ ⩽ μ n 0 < \mu_{1} \leqslant \cdots \leqslant \mu_{n} 0 < μ 1 ⩽ ⋯ ⩽ μ n ,则
( x ∗ B C x ) 2 ⩾ 4 λ 1 λ n μ 1 μ n ( λ 1 μ 1 + λ n f t n ) 2 ( x ∗ B 2 x ) ( x ∗ C 2 x ) (x ^ {*} B C x) ^ {2} \geqslant \frac {4 \lambda_ {1} \lambda_ {n} \mu_ {1} \mu_ {n}}{(\lambda_ {1} \mu_ {1} + \lambda_ {n} f t _ {n}) ^ {2}} (x ^ {*} B ^ {2} x) (x ^ {*} C ^ {2} x) ( x ∗ BC x ) 2 ⩾ ( λ 1 μ 1 + λ n f t n ) 2 4 λ 1 λ n μ 1 μ n ( x ∗ B 2 x ) ( x ∗ C 2 x ) 对所有 x ∈ C n x \in \mathbb{C}^n x ∈ C n 都成立。提示:因为对某个两矩阵 U ∈ M n U \in M_n U ∈ M n 有 B = U Λ U ∗ B = U\Lambda U^* B = U Λ U ∗ 和 C = U M U ∗ C = UMU^* C = U M U ∗ ,先用 y = U ∗ x y = U^* x y = U ∗ x 写所要求的不等式,然后用 z = ( Λ M ) 1 / 2 y z = (\Lambda M)^{1/2} y z = ( Λ M ) 1/2 y 写不等式。于是代 B = Λ M 1 B = \Lambda M^1 B = Λ M 1 应用(7.4.41)可证明所要求的不等式成立(且可取等式),并且对于指标 1 ⩽ j ≠ k ⩽ n 1 \leqslant j \neq k \leqslant n 1 ⩽ j = k ⩽ n 的某个选择有形如
( λ 1 μ j + λ n μ k ) 2 \left(\lambda_ {1} \mu_ {j} + \lambda_ {n} \mu_ {k}\right) ^ {2} ( λ 1 μ j + λ n μ k ) 2 的常数。证明这个形式的最小常数当 j = − 1 j = -1 j = − 1 和 k = n k = n k = n 时出现,但是,这最后的推广不等式不可能取等号。
简化 Kantorovich 不等式 (7.4.42),证明,若 B ∈ M n B \in M_{n} B ∈ M n 是正定矩阵,则对所有 x ∈ C n x \in \mathbf{C}^{n} x ∈ C n 有
( x ∗ B x ) ( x ∗ B − 1 x ) ⩾ ∥ x ∥ 2 4 . (x ^ {*} B x) (x ^ {*} B ^ {- 1} x) \geqslant \| x \| _ {2} ^ {4}. ( x ∗ B x ) ( x ∗ B − 1 x ) ⩾ ∥ x ∥ 2 4 . 更一般地,若 B ∈ M n B \in M_n B ∈ M n 是正定矩阵,证明,则对所有 x , y ∈ C n x, y \in \mathbf{C}^n x , y ∈ C n 有
( x ∗ B x ) ( y ∗ B ′ y ) ⩾ ( x ∗ y ) 2 , (x ^ {*} B x) (y ^ {*} B ^ {\prime} y) \geqslant (x ^ {*} y) ^ {2}, ( x ∗ B x ) ( y ∗ B ′ y ) ⩾ ( x ∗ y ) 2 , 其中等式对 x = B − 1 y x = B^{-1}y x = B − 1 y 成立,由此得出对所有 x ∈ C n x \in \mathbf{C}^n x ∈ C n 有
( x ∗ x ) 2 ⩽ ( x ∗ B r ) ( x ∗ B − 1 r ) ⩽ [ ( λ 1 + λ n ) / 2 ] 2 λ 1 λ n ( x ∗ x ) 2 . (x ^ {*} x) ^ {2} \leqslant (x ^ {*} B r) (x ^ {*} B ^ {- 1} r) \leqslant \frac {\left[ (\lambda_ {1} + \lambda_ {n}) / 2 \right] ^ {2}}{\lambda_ {1} \lambda_ {n}} (x ^ {*} x) ^ {2}. ( x ∗ x ) 2 ⩽ ( x ∗ B r ) ( x ∗ B − 1 r ) ⩽ λ 1 λ n [ ( λ 1 + λ n ) /2 ] 2 ( x ∗ x ) 2 . 提示:如果 λ r > 0 \lambda_{r} > 0 λ r > 0 ,证明
∣ ∑ i = 1 n x i y ˉ i ∣ 2 = − ∣ ∑ i = 1 n ( λ i x i ) ( y ˉ i λ i ) ∣ 2 ⩽ ( ∑ i = 1 n λ i ∣ x i ∣ 2 ) ( ∑ i = 1 n ∣ y i ∣ 2 λ i ) . \left| \sum_ {i = 1} ^ {n} x _ {i} \bar {y} _ {i} \right| ^ {2} = - \left| \sum_ {i = 1} ^ {n} \left(\sqrt {\lambda_ {i}} x _ {i}\right) \left(\frac {\bar {y} _ {i}}{\sqrt {\lambda_ {i}}}\right) \right| ^ {2} \leqslant \left(\sum_ {i = 1} ^ {n} \lambda_ {i} | x _ {i} | ^ {2}\right) \left(\sum_ {i = 1} ^ {n} \frac {| y _ {i} | ^ {2}}{\lambda_ {i}}\right). i = 1 ∑ n x i y ˉ i 2 = − i = 1 ∑ n ( λ i x i ) ( λ i y ˉ i ) 2 ⩽ ( i = 1 ∑ n λ i ∣ x i ∣ 2 ) ( i = 1 ∑ n λ i ∣ y i ∣ 2 ) . 然后记 B = U A U ∗ B = U A U^{*} B = U A U ∗
设 B ∈ M n B \in M_{n} B ∈ M n 是正定矩阵, y ∈ C n y \in \mathbb{C}^{n} y ∈ C n 是任一非零向量,且定义
f ( B , y ) ≡ min { x ′ B x ( x ′ y ) 2 : x ∈ C n , x ′ y ≠ 0 } . f (B, y) \equiv \min \left\{\frac {x ^ {\prime} B x}{(x ^ {\prime} y) ^ {2}}: x \in \mathbf {C} ^ {n}, \quad x ^ {\prime} y \neq 0 \right\}. f ( B , y ) ≡ min { ( x ′ y ) 2 x ′ B x : x ∈ C n , x ′ y = 0 } . 证明 f ( B , y ) f(B, y) f ( B , y ) 是有意义的,然后利用习题11证明 f ( B , y ) = 1 / y ∗ B − 1 y f(B, y) = 1 / y^{*}B^{-1}y f ( B , y ) = 1/ y ∗ B − 1 y 。证明 f f f 具有超加性性质,即对所有 y ∈ C n y \in \mathbf{C}^{n} y ∈ C n 和所有正定矩阵 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 有
f ( A + B , y ) ⩾ f ( A , y ) + f ( B , y ) f (A + B, y) \geqslant f (A, y) + f (B, y) f ( A + B , y ) ⩾ f ( A , y ) + f ( B , y ) 现在设 y − e i , e i y - e_{i}, e_{i} y − e i , e i 是第 i i i 个标准单位基向量,然后推出Bergstrom不等式
det ( A + B ) det ( A i + B i ) ⩾ det A det A i + det B det B i . i = 1 , … , n \frac {\det (A + B)}{\det \left(A _ {i} + B _ {i}\right)} \geqslant \frac {\det A}{\det A _ {i}} + \frac {\det B}{\det B _ {i}}. i = 1, \dots , n det ( A i + B i ) det ( A + B ) ⩾ det A i det A + det B i det B . i = 1 , … , n 对任何正定矩阵 A A A , B ∈ M n B \in M_{n} B ∈ M n 成立,其中 Λ i ∈ M n − 1 \Lambda_{i} \in M_{n-1} Λ i ∈ M n − 1 表示划去 A A A 的第 i i i 行和第 i i i 列得到的 A A A 的主子矩阵, B i B_{i} B i 的意义类似。这种接近于Bergstrom不等式的方法是有着广泛用途的所谓拟线性化方法的一个应用实例;拟线性化是把一个所考虑的量的非线性函数表示成另一个函数的约束极值,而这个新函数线性地(或许只是加性地)依赖于所考虑的量。在(7.4.24)中的关键步骤(证明用奇异值的对称度规函数定义的 M m , n M_{m,n} M m , n 上的准范数实际是一个范数)是用(5.4.12)中的拟线性化完成的。
对于任一复数 z z z ,不等式 ∣ z − Re z ∣ ⩽ ∣ z − x ∣ \left|z - \operatorname{Re} z\right| \leqslant \left|z - x\right| ∣ z − Re z ∣ ⩽ ∣ z − x ∣ 对任何实数 x x x 成立。这个不等式到方阵 A ∈ M n A \in M_{n} A ∈ M n 的看似合理的推广是
∥ A − 1 2 ( A + A ∗ ) ∥ ⩽ ∥ A − H ∥ \left\| A - \frac {1}{2} (A + A ^ {*}) \right\| \leqslant \| A - H \| A − 2 1 ( A + A ∗ ) ⩽ ∥ A − H ∥ 对所有Hermite矩阵 H ∈ M n H \in M_{n} H ∈ M n 成立。证明,这个不等式对所有酉不变范数 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 以及更一般地对所有自伴范数成立。由此得出,(关于 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ )从一个给定矩阵 A ∈ M n A \in M_{n} A ∈ M n 到由 M n M_{n} M n 中的Hermite矩阵组成的闭集的距离是 1 2 ∥ A − A ′ ∥ \frac{1}{2} \| A - A' \| 2 1 ∥ A − A ′ ∥ ,提示: A − 1 2 ( A + A ′ ) = 1 2 ( A − H ) + 1 2 ( H − A ′ ) A - \frac{1}{2} (A + A') = \frac{1}{2} (A - H) + \frac{1}{2} (H - A') A − 2 1 ( A + A ′ ) = 2 1 ( A − H ) + 2 1 ( H − A ′ ) ,因
452
∥ A − 1 2 ( A + A ∗ ) ∥ ⩽ 1 2 ∥ A − H ∥ + 1 2 ∥ H − A ∗ ∥ \left\| A - \frac{1}{2} (A + A^{*})\right\| \leqslant \frac{1}{2}\left\| A - H\right\| +\frac{1}{2}\left\| H - A^{*}\right\| A − 2 1 ( A + A ∗ ) ⩽ 2 1 ∥ A − H ∥ + 2 1 ∥ H − A ∗ ∥
对任意复数 z z z ,有不等式 ∣ Re z ∣ ⩽ ∣ z ∣ \left|\operatorname{Re} z\right| \leqslant \left|z\right| ∣ Re z ∣ ⩽ ∣ z ∣ 。证明它的明显推广 ∥ ( A + A ∗ ) / 2 ∥ ⩽ ∥ A ∥ \left\| (A + A^{*}) / 2\right\| \leqslant \| A\| ∥ ( A + A ∗ ) /2 ∥ ⩽ ∥ A ∥ 对所有 A ∈ M n A \in M_{n} A ∈ M n 和所有酉不变(甚至自伴)范数 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 成立。
设 Λ ∈ M n \Lambda \in M_{n} Λ ∈ M n 是给定的, λ 1 ⩽ ⋯ ⩽ λ n \lambda_{1} \leqslant \cdots \leqslant \lambda_{n} λ 1 ⩽ ⋯ ⩽ λ n 是 1 2 ( Λ + A ′ ) \frac{1}{2} (\Lambda + A^{\prime}) 2 1 ( Λ + A ′ ) 的有序特征值,又设 σ 1 ⩾ ⋯ ⩾ σ n \sigma_{1} \geqslant \cdots \geqslant \sigma_{n} σ 1 ⩾ ⋯ ⩾ σ n 是 A A A 的有序奇异值。说明为什么不等式
λ n k − 1 ( 1 2 − A + A ∗ ⊥ ) ⩽ σ k ( A ) , k = 1 , … , n \lambda_ {n k - 1} \left(\frac {1}{2} ^ {-} A + A ^ {*} \perp\right) \leqslant \sigma_ {k} (A), \quad k = 1, \dots , n λ nk − 1 ( 2 1 − A + A ∗ ⊥ ) ⩽ σ k ( A ) , k = 1 , … , n 可以看作关于复数的不等式 Re z ⩽ ∣ z ∣ \operatorname{Re} z \leqslant |z| Re z ⩽ ∣ z ∣ 的一个推广。这个不等式是说, A A A 的第 k k k 个最大奇异值大于或等于 1 2 ( A + A x ) \frac{1}{2}(A + A^x) 2 1 ( A + A x ) 的第 k k k 个最大特征值。提示:若 y y y 是 Euclid 单位向量,则
1 2 y ∗ ( A + A ∗ ) y = Re y ∗ A y ⩽ ∥ A y ∥ 2 . \frac {1}{2} y ^ {*} (A + A ^ {*}) _ {y} = \operatorname {R e} y ^ {*} A _ {y} \leqslant \| A _ {y} \| _ {2}. 2 1 y ∗ ( A + A ∗ ) y = Re y ∗ A y ⩽ ∥ A y ∥ 2 . 用Courant Fischer定理(4.2.11)表示 λ n \lambda_{n} λ n ,然后用这个不等式和(7.3.10)得到 σ t \sigma_{t} σ t
设 A ∈ M n A \in M_{n} A ∈ M n 是给定的,又设 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 是 M n M_{n} M n 上的一个两不变范数。利用(7.4.51)证明, ∣ A − U ∣ ⩾ ∣ Σ ( A ) − I ∣ |A - U| \geqslant |\Sigma(A) - I| ∣ A − U ∣ ⩾ ∣Σ ( A ) − I ∣ 对任一酉矩阵 U ∈ M n U \in M_{n} U ∈ M n 成立,且这个不等式可取等式。由此得出 ∥ Σ ( A ) − I ∥ \|\Sigma(A) - I\| ∥Σ ( A ) − I ∥ 是(关于 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ )从 A A A 到由 M n M_{n} M n 中的酉矩阵组成的紧集的距离。
设 A ∈ M n A \in M_{n} A ∈ M n 有奇异值分解 A = V Σ ( A ) W ∗ A = V\Sigma(A)W^{*} A = V Σ ( A ) W ∗ ,又设 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 是 M n M_{n} M n 上的酉不变范数。证明
∥ Σ ( A ) − I ∥ ⩽ ∥ A − U ∥ ⩽ ∥ Σ ( A ) + I ∥ \| \Sigma (A) - I \| \leqslant \| A - U \| \leqslant \| \Sigma (A) + I \| ∥Σ ( A ) − I ∥ ⩽ ∥ A − U ∥ ⩽ ∥Σ ( A ) + I ∥ 对任何酉矩阵 U ∈ M n U \in M_{n} U ∈ M n 成立。提示:证明,在任一酉矩阵的任一奇异值分解中有 Σ ( U ) = I \Sigma(U) = I Σ ( U ) = I ,于是从(7.4.51)直接推出下界成立。关于上界,利用(7.3)节16题中类似于Weyl的加法特征值不等式的奇异值不等式证明 σ i 1 j 1 ( A + ( − U ) ) ⩽ σ i ( A ) + σ j ( − U ) \sigma_{i_1j_1}(A + (-U)) \leqslant \sigma_i(A) + \sigma_j(-U) σ i 1 j 1 ( A + ( − U )) ⩽ σ i ( A ) + σ j ( − U ) ,然后用(7.4.48)。 18. 试以例(7.4.53)中关于非奇异矩阵 A A A 的不等式为指南,求 ∥ A − B ∥ \| A - B\| ∥ A − B ∥ 的最大下界,其中, A ∈ M n A \in M_{n} A ∈ M n 是给定的秩 k 1 k_{1} k 1 矩阵, B ∈ M n B \in M_{n} B ∈ M n 是任意秩 k < k 1 k < k_{1} k < k 1 矩阵,而 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 是酉不变范数。
[454]
进一步阅读 定理(7.4.21) m = n m = n m = n 的情形的最初原型属于Von Neumann;可参看(5.4)节引用的文章.Wielandt和Kantorovich不等式取自[Hou 64],并且作了改编,[Hou 64]还有许多原始资料,有关的推广以及其他资料可参看A.Clausing,“Kantorovich-Type Inequalities,"Amer.Math.Monthly89(1982),314-320.习题12中接近于Bergstrom不等式的方法取自[BB],它用一大章(还有大量的参考资料)专门论述由正定矩阵引起的诸不等式;并且对拟线性化方法也有讨论,还给出了许多例子.关于对所有酉不变范数都成立的诸不等式的其他资料可参看L.Mirsky,“Symmetric Gauge Functions and Unitarily Invariant Norms,"Quart.J.Math.Oxford 11(2)(1960),50-59以及K.Fan and A.J.Hoffman,“Some Metric Inequalities in the Space of Matrices,"Proc.Amer.Math.Soc.6(1955),111-116.例如,这些结果如何应用于统计学以及有关统计学文献的其他资料可参看C.R.Rao,“Matrix Approximations and Reduction of Dimensionality in Multivariate Statistical Analysis,"MultivariateAnalysis-V,Proceedings of the Fifth International Symposium on Multivariate Analysis,P.R.Krishnaiah,North-Holland,Amsterdam,1980,pp.1-22.