7.3 极形式和奇异值分解 下面,论述(不一定是方阵的)复矩阵的两种相关的重要分解,它们与正定性概念有密切关系.
7.3.1 引理 设 A ∈ M m , n A \in M_{m,n} A ∈ M m , n , m ⩽ n m \leqslant n m ⩽ n , { rank A = k ⩽ m } \{\operatorname{rank} A = k \leqslant m\} { rank A = k ⩽ m } 。则存在酉矩阵 X ∈ M m X \in M_m X ∈ M m 、具有非负对角元 λ 1 ⩾ λ 2 ⩾ ⋯ ⩾ λ k > λ k − 1 = ⋯ − λ m = 0 \lambda_1 \geqslant \lambda_2 \geqslant \dots \geqslant \lambda_k > \lambda_{k-1} = \dots - \lambda_m = 0 λ 1 ⩾ λ 2 ⩾ ⋯ ⩾ λ k > λ k − 1 = ⋯ − λ m = 0 的对角矩阵 Λ ∈ M m \Lambda \in M_m Λ ∈ M m 、以及具有标准正交行的 Y ∈ M m , n Y \in M_{m,n} Y ∈ M m , n ,使得 A = X Λ Y A = X \Lambda Y A = X Λ Y 。矩阵 Λ = diag ( λ 1 , … , λ m ) \Lambda = \operatorname{diag}(\lambda_1, \dots, \lambda_m) Λ = diag ( λ 1 , … , λ m ) 总是唯一确定的,且 { λ 1 2 , … , λ m ′ } \{\lambda_1^2, \dots, \lambda_m'\} { λ 1 2 , … , λ m ′ } 是 A A ∗ AA^* A A ∗ 的诸特征值。矩阵 X X X 的各列是 A A ∗ AA^* A A ∗ 的特征向量。如果 A A ∗ AA^* A A ∗ 有互不相同的特征值,那么, X X X 可确定到相差一个右对角因子 D = diag ( e i θ 1 , … , e i θ n ) D = \operatorname{diag}(e^{i\theta_1}, \dots, e^{i\theta_n}) D = diag ( e i θ 1 , … , e i θ n ) ,其中所有 θ i ∈ R \theta_i \in \mathbb{R} θ i ∈ R ;也就是说,如果 X 1 Λ Y 1 = X 2 Λ Y 2 X_1 \Lambda Y_1 = X_2 \Lambda Y_2 X 1 Λ Y 1 = X 2 Λ Y 2 ,则 X 2 = X 1 D X_2 = X_1 D X 2 = X 1 D 。给定 X X X 后,如果 rank A = m \operatorname{rank} A = m rank A = m ,则矩阵 Y Y Y 是唯一确定的。如果 A A A 是实矩阵,则 X X X 和 Y Y Y 可以取实矩阵。
证明:如果 A = X ∧ Y A = X \wedge Y A = X ∧ Y 是所要求的分解形式,则 A A ∗ = X ∧ Y Y ∗ ∧ X ∗ = X ∧ I ∧ X ∗ = X ∧ 2 X ∗ AA^{*} = X \wedge YY^{*} \wedge X^{*} = X \wedge I \wedge X^{*} = X \wedge^{2} X^{*} A A ∗ = X ∧ Y Y ∗ ∧ X ∗ = X ∧ I ∧ X ∗ = X ∧ 2 X ∗ ,因而 X ∧ 2 X ∗ X \wedge^{2} X^{*} X ∧ 2 X ∗ 是Hermite矩阵 A A ∗ AA^{*} A A ∗ 的酉对角化。若 X = [ x 1 , x 2 , ⋯ , x m ] X = [x_{1}, x_{2}, \cdots, x_{m}] X = [ x 1 , x 2 , ⋯ , x m ] 且 Λ 2 = diag ( λ 1 2 , ⋯ , λ m 2 ) \Lambda^{2} = \operatorname{diag}(\lambda_{1}^{2}, \cdots, \lambda_{m}^{2}) Λ 2 = diag ( λ 1 2 , ⋯ , λ m 2 ) ,则 A A ∗ x i = λ j 2 x j AA^{*}x_{i} = \lambda_{j}^{2}x_{j} A A ∗ x i = λ j 2 x j , j = 1 , 2 , ⋯ , m j = 1, 2, \cdots, m j = 1 , 2 , ⋯ , m ,且向量组 { x j } \{x_{j}\} { x j } 是标准正交组。因为 Λ \Lambda Λ 的诸对角元是非负的,且按递减顺序排列,所以 Λ \Lambda Λ 由 A A ∗ AA^{*} A A ∗ 唯一确定。如果数组 { λ i 2 } \{\lambda_{i}^{2}\} { λ i 2 } 是互不相同的,那么,除了相差一个模为 1 的复纯量因子以外, A A ∗ AA^{*} A A ∗ 的各个相应的正规化特征向量都是确定的,因此,如果 X 1 X_{1} X 1 和 X 2 X_{2} X 2 是其各列为 A A ∗ AA^{*} A A ∗ 的特征向量的两个酉矩阵,则一定有 X 2 = X 1 D X_{2} = X_{1}D X 2 = X 1 D ,其中, D ∗ D^{*} D ∗ diag ( d 1 , ⋯ , d n ) (d_{1}, \cdots, d_{n}) ( d 1 , ⋯ , d n ) ,且所有 ∣ d i ∣ = 1 |d_{i}| = 1 ∣ d i ∣ = 1 。
A A ′ AA^{\prime} A A ′ 的相应于重特征值的特征向量不是唯一确定的,但是,它们一经选定,且把它们标准正交化,两矩阵 X X X 就固定下来,如果 Λ \pmb{\Lambda} Λ 是非奇异矩阵,也就是当 k = r a n k A = m k = \mathrm{rank}A = m k = rank A = m 的时候,则Y
= Λ 1 X ∗ A = \Lambda^{1}X^{*}A = Λ 1 X ∗ A 是唯一确定的.我们不难验证, Y Y ∗ = Λ 1 X ∗ ( Λ A ∗ X ) Λ − 1 = Λ 1 X ∗ X A 2 Λ − 1 = [ 4 ] YY^{*} = \Lambda^{1}X^{*}(\Lambda A^{*}X)\Lambda^{-1} = \Lambda^{1}X^{*}XA^{2}\Lambda^{-1} = [4] Y Y ∗ = Λ 1 X ∗ ( Λ A ∗ X ) Λ − 1 = Λ 1 X ∗ X A 2 Λ − 1 = [ 4 ] λ Λ Λ Λ Λ − Λ = I \lambda^{\mathrm{~\Lambda~}}\Lambda^{\mathrm{~\Lambda~}}\Lambda^{-\mathrm{~\Lambda~}} = I λ Λ Λ Λ Λ − Λ = I ,因此,这个矩阵 Y Y Y 有标准正交行.
余下只要讨论 rank A = k < m \operatorname{rank} A = k < m rank A = k < m 的情形。因为当所有 λ i ≠ 0 \lambda_{i} \neq 0 λ i = 0 时,我们希望有 Y = A − 1 X ⋅ A = A − 1 ( A ∗ X ) ∗ Y = A^{-1} X \cdot A = A^{-1}(A^{*} X)^{*} Y = A − 1 X ⋅ A = A − 1 ( A ∗ X ) ∗ ,这促使我们定义 Y Y Y 的第 j j j 行是行向量 y j ∗ y_{j}^{*} y j ∗ 。其中 y j = λ j n − 1 ( A ∗ x j ) y_{j} = \lambda_{j}^{n-1}(A^{*} x_{j}) y j = λ j n − 1 ( A ∗ x j ) , j = 1 , ⋯ , k j = 1, \cdots, k j = 1 , ⋯ , k 。于是
[ λ j − 1 ( A ∗ x j ) ] ′ [ λ k − 1 ( A ∗ x k ) ] = x j ′ A A ∗ x k / λ j λ k = x j ′ λ k 2 x k / λ j λ k = x j ′ x k λ k / λ j \left[ \lambda_ {j} ^ {- 1} \left(A ^ {*} x _ {j}\right) \right] ^ {\prime} \left[ \lambda_ {k} ^ {- 1} \left(A ^ {*} x _ {k}\right) \right] = x _ {j} ^ {\prime} A A ^ {*} x _ {k} / \lambda_ {j} \lambda_ {k} = x _ {j} ^ {\prime} \lambda_ {k} ^ {2} x _ {k} / \lambda_ {j} \lambda_ {k} = x _ {j} ^ {\prime} x _ {k} \lambda_ {k} / \lambda_ {j} [ λ j − 1 ( A ∗ x j ) ] ′ [ λ k − 1 ( A ∗ x k ) ] = x j ′ A A ∗ x k / λ j λ k = x j ′ λ k 2 x k / λ j λ k = x j ′ x k λ k / λ j 如果 j ≠ k j \neq k j = k ,它就是零,如果 j = k j = k j = k ,它就是 1,这是因为向量组 { x j } \{x_{j}\} { x j } 是标准正交组。向量组 { y 1 , … , y k } \{y_{1}, \dots, y_{k}\} { y 1 , … , y k } 是 C n \mathbf{C}^{n} C n 中的标准正交组,且 n ⩾ m > k n \geqslant m > k n ⩾ m > k ,因此另外有 m − k m - k m − k 个(但不是唯一确定的)标准正交向量 y k − 1 , … , y m y_{k-1}, \dots, y_{m} y k − 1 , … , y m ,使得矩阵 Y ∗ ≡ [ y 1 y 2 … y k y k − 1 … y m ] ∈ M n , m Y^{*} \equiv [y_{1}y_{2} \dots y_{k}y_{k-1} \dots y_{m}] \in M_{n,m} Y ∗ ≡ [ y 1 y 2 … y k y k − 1 … y m ] ∈ M n , m 有 m m m 个标准正交列。
现在证明 X ∗ A − Λ Y X^{*}A - \Lambda Y X ∗ A − Λ Y 。根据向量 y j y_{j} y j 的定义,这个恒等式两边的前 k k k 行是相等的。因为 Λ \Lambda Λ 的最后 m − k m - k m − k 个对角元是零,所以右边最后 m − k m - k m − k 行都是零;左边最后 m − k m - k m − k 行也都是零,这是因为,如果 A A ∗ x j = 0 AA^{*}x_{j} = 0 A A ∗ x j = 0 ,则 0 = x j ∗ A A ∗ x i = ( A ∗ x j ) ∗ ( A ∗ x j ) = 0 0 = x_{j}^{*}AA^{*}x_{i} = (A^{*}x_{j})^{*}(A^{*}x_{j}) = 0 0 = x j ∗ A A ∗ x i = ( A ∗ x j ) ∗ ( A ∗ x j ) = 0 ,因而 A ∗ x j = 0 A^{*}x_{j} = 0 A ∗ x j = 0 。
最后,如果 A A A 是实矩阵,则 A A ∗ AA^{*} A A ∗ 也是实矩阵且有实特征值,因而,特征向量组 X X X 可以取为实向量组。根据定义,由 X X X 确定的 Y Y Y 的前 k k k 个行都是实的,添加的 m − k m - k m − k 个正交单位向量可以取实的。因此,如果 A A A 是实矩阵,它的所有因子都可以取实矩阵。
每个非零复数 j j j 有唯一的“极表示” z = p u z = pu z = p u ,其中 p p p 是正实数,而 u u u 是模为1的复数.实际上,如果 z ≠ 0 z \neq 0 z = 0 ,则 p = ∣ z ∣ p = |z| p = ∣ z ∣ 且 u = p ⋅ z = z / ∣ z ∣ u = p\cdot z = z / |z| u = p ⋅ z = z /∣ z ∣ ,如果 z = 0 z = 0 z = 0 ,则 z z z 仍然可以写成 p = 0 p = 0 p = 0 的极形式,不过 u u u 不再是唯一确定的.当然, u u u 可以取模为1的任意复数.
如何把这种极表示推广到复矩阵 Λ ∈ M n \Lambda \in M_{n} Λ ∈ M n 呢?一种回答是 A = P U A = PU A = P U ,其中, P P P 是正定(半正定)矩阵,而 U U U 是酉矩阵.甚至还可以把它推广到 A A A 不是方阵的情形.
7.3.2定理 设 Λ ∈ M m , n \Lambda \in M_{m,n} Λ ∈ M m , n ,且 m ⩽ n m \leqslant n m ⩽ n ,则 A A A 可以写成
其中, P ∈ M m P\in M_{m} P ∈ M m 是半正定矩阵, rank P = rank A \operatorname {rank}P = \operatorname {rank}A rank P = rank A ,而 U ∈ M m , n U\in M_{m,n} U ∈ M m , n 有标准正交行(即 U U ∗ = I ) UU^{*} = I) U U ∗ = I ) ,矩阵 P P P 总可以唯一确定为 P = ( A A ∗ ) 1 / 2 P = (AA^{*})^{1 / 2} P = ( A A ∗ ) 1/2 ,而当 A A A 有秩 m m m 时, U U U 是唯一确定的.如果 A A A 是实矩阵,则 P P P 和 U U U 可以取实矩阵.
证明:利用(7.3.1)把 A A A 写成 A = X Λ Y = X Λ X ′ X Y A = X\Lambda Y = X\Lambda X^{\prime}XY A = X Λ Y = X Λ X ′ X Y ,且令 P = X Λ X ∗ P = X\Lambda X^{*} P = X Λ X ∗ 和 U = X Y U = XY U = X Y ,于是 P P P 是半正定矩阵,且 U U ∗ = X Y Y ∗ X ∗ = X I X ∗ = X X ∗ = I UU^{*} = XYY^{*}X^{*} = XIX^{*} = XX^{*} = I U U ∗ = X Y Y ∗ X ∗ = X I X ∗ = X X ∗ = I ,因而 U U U 有标准正交行.根据(7.3.1)中的构造法, P = ( A A ′ ) 1 , 2 P = (AA^{\prime})^{1,2} P = ( A A ′ ) 1 , 2 ,一般说来,如果 A = P U A = PU A = P U ,则 A A ∗ = P U U ∗ P = P 2 AA^{*} = PUU^{*}P = P^{2} A A ∗ = P U U ∗ P = P 2 ,所以 P P P 一定总是 Λ A ′ \Lambda A^{\prime} Λ A ′ 的(唯一)半正定方根.如果 A A A 有秩 m m m ,则 P P P 非奇异,而且 U = P − 1 A U = P^{-1}A U = P − 1 A 是唯一确定的.但是,正如在(7.3.1)中看到的,如果 rank A < m \operatorname{rank} A < m rank A < m ,则 Y Y Y 的相应于 P P P 的0特征值的各行不是唯一确定的,因此,当 rank A < m \operatorname{rank} A < m rank A < m 时, U = X Y U = XY U = X Y 未必是唯一确定的. □
本定理直接推出下述重要的特殊情形
7.3.3 推论 如果 A ∈ M n A \in M_{n} A ∈ M n , 则它可以写成形式
其中, P P P 是半正定矩阵, U U U 是酉矩阵.矩阵 P P P 总可以唯一确定为 P ≡ ( A A ∗ ) 1 / 2 P\equiv (AA^{*})^{1 / 2} P ≡ ( A A ∗ ) 1/2 :如果 A A A 是非奇异矩阵,则 U U U 可以唯一确定为 U ≡ P − 1 A U\equiv P^{-1}A U ≡ P − 1 A ,如果 A A A 是实矩阵,则 P P P 和 U U U 可以取实矩阵.
练习 说明定理(7.3.2)可以用下述极限证法来证明。如果 A A A 是非奇异矩阵,则令 P ≡ ( A A ∗ ) 1 , 2 P \equiv (AA^{*})^{1,2} P ≡ ( A A ∗ ) 1 , 2 ,定义 U = P − 1 A U = P^{-1}A U = P − 1 A ,且验证 U U ∗ = I UU^{*} = I U U ∗ = I 。因此, P P P 和 U U U 都是唯一确定的。如果 A A A 是奇异矩阵,考虑 A ϵ ≡ A + ϵ I A_{\epsilon} \equiv A + \epsilon I A ϵ ≡ A + ϵ I ,以及形式 A ϵ = P ϵ U ϵ A_{\epsilon} = P_{\epsilon}U_{\epsilon} A ϵ = P ϵ U ϵ ,其中两个因子都是唯一确定的。利用选择原理(2.1.8)得到序列 ε k → 0 \varepsilon_{k} \rightarrow 0 ε k → 0 (当 k → ∞ k \rightarrow \infty k → ∞ 时),使得当 k → ∞ k \rightarrow \infty k → ∞ 时, U ϵ k U_{\epsilon_k} U ϵ k 按对应元收敛于酉矩阵 U U U 。因为 P ϵ k = A ϵ k U ϵ k ∗ P_{\epsilon_k} = A_{\epsilon_k}U_{\epsilon_k}^* P ϵ k = A ϵ k U ϵ k ∗ ,我们还有 P ϵ k → P P_{\epsilon_k} \rightarrow P P ϵ k → P 和 A = P U A = PU A = P U 。值得指出的是,从理论上讲,这个证明虽然比前面对(7.3.2)所做的证明更简略,但是当 A A A 是奇异矩阵时,它并没有给出得到因子 P P P 和 U U U 的构造性方法。
分解(7.3.2)称为矩阵 A A A 的极形式或极分解。当 A A A 满秩时,两个因子还是唯一的。
练习 如果 A ∈ M m , n A \in M_{m,n} A ∈ M m , n ,且 m ⩾ n m \geqslant n m ⩾ n ,证明它可以写成
其中, W ∈ M m , n W \in M_{m,n} W ∈ M m , n 有标准正交列(即 W ′ W = I W^{\prime}W = I W ′ W = I ),而 Q ∈ M n Q \in M_{n} Q ∈ M n 是半正定矩阵。提示:利用(7.3.2)分解 A ∗ A^{*} A ∗ 。
43
练习 设 x ∈ C n x \in \mathbb{C}^n x ∈ C n 是给定的非零向量,且 A ≡ x ∈ M n , 1 A \equiv x \in M_{n,1} A ≡ x ∈ M n , 1 。证明 A A A 的极分解是 A = x = ∥ x ∥ 2 u A = x = \| x\|_2 u A = x = ∥ x ∥ 2 u ,其中 u ≡ x / ∥ x ∥ 2 u \equiv x / \| x\|_2 u ≡ x /∥ x ∥ 2 。故极分解可以看作非零向量的简便分解 x = ∥ x ∥ 2 ( x / ∥ x ∥ 2 ) x = \| x\|_2 (x / \| x\|_2) x = ∥ x ∥ 2 ( x /∥ x ∥ 2 ) 到矩阵的推广。
练习 证明,方阵 A A A 既可写成 A = P U A = PU A = P U ,也可写成 A − W Q A - WQ A − W Q ,其中, P = ( A A ∗ ) 1 / 2 P = (AA^{*})^{1/2} P = ( A A ∗ ) 1/2 ,而 Q = ( A ∗ A ) 1 / 2 Q = (A^{*}A)^{1/2} Q = ( A ∗ A ) 1/2 。有时称它们为 A A A 的“左”和“右”极分解。证明,唯一确定的半正定因子 P P P 和 Q Q Q 相等,当且仅当 A A A 是正规矩阵。实际上,如果 A A A 是非奇异矩阵,则唯一确定的酉因子 U U U 和 W W W 恒相等[定理(7.3.6)前的练习]。
练习 不是每个方阵都是正规的;即 A A ∗ = A ∗ A AA^* = A^*A A A ∗ = A ∗ A 未必成立。但是 A A ∗ AA^* A A ∗ 总酉相似于 A ∗ A A^*A A ∗ A 。试用极分解(7.3.3)证明这一事实。
7.3.4 定理 设 Λ ∈ M n \Lambda \in M_{n} Λ ∈ M n , 又设 Λ − P U \Lambda - PU Λ − P U 是极分解, 则 A A A 是正规矩阵, 当且仅当 P U = U P PU = UP P U = U P .
证明:如果 P P P 和 U U U 可交换,则 A A ⋆ = P U U ⋆ P ⋆ = P P = P 2 AA^{\star} = PUU^{\star}P^{\star} = PP = P^{2} A A ⋆ = P U U ⋆ P ⋆ = PP = P 2 , A ∗ A = U ∗ P ∗ P U = U ∗ P 2 U = A^{*}A = U^{*}P^{*}PU = U^{*}P^{2}U = A ∗ A = U ∗ P ∗ P U = U ∗ P 2 U = U ∗ U P 2 = P 2 U^{*}UP^{2} = P^{2} U ∗ U P 2 = P 2 ,因而 A \pmb{A} A 是正规矩阵.如果 A \pmb{A} A 是正规矩阵,则 P 2 = U ∗ P 2 U P^2 = U^* P^2 U P 2 = U ∗ P 2 U ,我们知道, P 2 P^2 P 2 和 U ∗ P 2 U U^{*}P^{2}U U ∗ P 2 U 都是半正定方阵,且显然有相应的半正定平方根 P P P 和 U ∗ P U U^{*}PU U ∗ P U 但是定理(7.2.6)说明,这样的平方根是唯一的,因而 P = U ∗ P U P = U^{*}PU P = U ∗ P U 或 U P = P U . UP = PU. U P = P U .
我们的下一个目标是,从(7.3.1)得出(不一定是方阵的)任意矩阵的奇异值分解。
7.3.5 定理 如果 A ∈ M m , n A \in M_{m,n} A ∈ M m , n 有秩 k k k ,则它可以写成形式
A = V Σ W ′ , A = V \Sigma W ^ {\prime}, A = V Σ W ′ , 其中 V ∈ M m V \in M_{m} V ∈ M m 和 W ∈ M n W \in M_{n} W ∈ M n 是酉矩阵。矩阵 Σ = [ σ i j ] ∈ M m , n \Sigma = [\sigma_{ij}] \in M_{m,n} Σ = [ σ ij ] ∈ M m , n 对所有 i ≠ j i \neq j i = j 有 σ i j = 0 \sigma_{ij} = 0 σ ij = 0 ,且 σ 11 ⩾ σ 22 ⩾ ⋯ ⩾ σ k k > σ k + 1 , k − 1 = ⋯ = σ q u = 0 \sigma_{11} \geqslant \sigma_{22} \geqslant \dots \geqslant \sigma_{kk} > \sigma_{k+1,k-1} = \dots = \sigma_{qu} = 0 σ 11 ⩾ σ 22 ⩾ ⋯ ⩾ σ kk > σ k + 1 , k − 1 = ⋯ = σ q u = 0 ,其中 q = min { m , n } q = \min\{m, n\} q = min { m , n } ,数 { σ n } ≡ { σ i } \{\sigma_{n}\} \equiv \{\sigma_{i}\} { σ n } ≡ { σ i } 是 A A ∗ AA^{*} A A ∗ 的特征值的非负平方根,因而被唯一确定。 V V V 的各列是 A A ∗ AA^{*} A A ∗ 的特征向量, W W W 的各列是 A ∗ A A^{*}A A ∗ A 的特征向量(它们的排列顺序与相应的特征值 σ i 2 \sigma_{i}^{2} σ i 2 的排列顺序相同)。如果 m ⩽ n m \leqslant n m ⩽ n ,且 A A ∗ AA^{*} A A ∗ 有互不相同的特征值,则 V V V 可以确定到相差一个右对角因子 D = diag ( e i θ 1 , … , e i θ n ) D = \operatorname{diag}(e^{i\theta_{1}}, \dots, e^{i\theta_{n}}) D = diag ( e i θ 1 , … , e i θ n ) ,其中所有 θ i ∈ R \theta_{i} \in \mathbb{R} θ i ∈ R ;也就是,如果 A = V 1 Σ W 1 ∗ = V 2 Σ W 2 ∗ A = V_{1}\Sigma W_{1}^{*} = V_{2}\Sigma W_{2}^{*} A = V 1 Σ W 1 ∗ = V 2 Σ W 2 ∗ ,则 V 2 = V 1 D V_{2} = V_{1}D V 2 = V 1 D 。如果 m < n m < n m < n ,则 W W W 一定不是唯一确定的;如果 n = m n = m n = m ,且 V V V 已经给定,那么 W W W 是唯一确定的。如果 n ⩽ m n \leqslant m n ⩽ m ,则 V V V 和 W W W 的唯一性要根据 A ∗ A^{*} A ∗ 来确定。如果 A A A
是实矩阵,则 V , Σ V, \Sigma V , Σ 和 W W W 都可以取实矩阵。
证明:不失一般性,假定 m ⩽ n m \leqslant n m ⩽ n (否则用 A ∗ A^{*} A ∗ 代替 A A A )。利用(7.3.1)可把 A A A 写成 A = X Λ Y A = X\Lambda Y A = X Λ Y ,其中, X , Λ ∈ M n X, \Lambda \in M_{n} X , Λ ∈ M n ,且 Y ∈ M m , n Y \in M_{m,n} Y ∈ M m , n 。令 V ≡ X V \equiv X V ≡ X ,取 Σ ≡ [ Λ ; 0 ] ∈ M m , n \Sigma \equiv [\Lambda;0] \in M_{m,n} Σ ≡ [ Λ ; 0 ] ∈ M m , n ,且定义 W ≡ [ Y ∗ ; S ∗ ] ∈ M n W \equiv [Y^{*};S^{*}] \in M_{n} W ≡ [ Y ∗ ; S ∗ ] ∈ M n 使得 W W W 的各列是 C n \mathbf{C}^{n} C n 中的标准正交组。 Y ∗ Y^{*} Y ∗ 的各列已是标准正交组,所以,如果 m < n m < n m < n ,可选取 S ∗ ∈ M n , ( n − m ) S^{*} \in M_{n,(n - m)} S ∗ ∈ M n , ( n − m ) 的各列(但不唯一)使 W W W 为酉矩阵。这直接推出 V Σ W ∗ = X Λ Y = A V\Sigma W^{*} = X\Lambda Y = A V Σ W ∗ = X Λ Y = A 。关于唯一性的论断可以从(7.3.1)中的相应论断得出。□
对 i = 1 , ⋯ , q = min { m , n } i = 1, \cdots, q = \min \{m, n\} i = 1 , ⋯ , q = min { m , n } , Σ \Sigma Σ 的“对角元” σ i = σ n \sigma_{i} = \sigma_{n} σ i = σ n 称为 A ∈ M m , n A \in M_{m,n} A ∈ M m , n 的奇异值 (有时只对非零对角元才这样称呼), 而 V V V 的列和 W W W 的列是 A A A 的 (相应左和右) 奇异向量. 分解 (7.3.5) 称为 A A A 的奇异值分解. 极矩阵 P P P 是 A A ∗ AA^{*} A A ∗ 的唯一半正定平方根, 而奇异值 σ i \sigma_{i} σ i 是 A A ∗ AA^{*} A A ∗ 的特征值的非负平方根, 所以 A A A 的奇异值与极矩阵 P P P 的特征值相同. 虽然奇异值按递减顺序排列是方便的, 但这并不是奇异值分解中的一般规定; 它只是由 A A A 唯一确定的一组奇异值.
应该指出,奇异值分解是正规矩阵的酉对角化到任意矩阵的自然推广。由于这个理由,常常有这种情形,关于正规矩阵的特征值的一些结果可以推广成关于一般矩阵的奇异值的一些结论。
练习 设 x ∈ C n x \in \mathbb{C}^n x ∈ C n 是给定的非零向量,且 A = x ∈ M n , 1 A = x \in M_{n,1} A = x ∈ M n , 1 。证明, A A A 的奇异值分解是 A = x = V ∑ W ∗ A = x = V\sum W^* A = x = V ∑ W ∗ ,其中, W = [ 1 ] ∈ M 1 W = [1] \in M_1 W = [ 1 ] ∈ M 1 , Σ = [ ∥ x ∥ 2 , 0 , … , 0 ] T ∈ M n , 1 \Sigma = [\|x\|_2, 0, \dots, 0]^T \in M_{n,1} Σ = [ ∥ x ∥ 2 , 0 , … , 0 ] T ∈ M n , 1 ,而 V = [ v 1 , … , v n ] ∈ M n V = [v_1, \dots, v_n] \in M_n V = [ v 1 , … , v n ] ∈ M n 有 v 1 = x / ∥ x ∥ 2 v_1 = x / \|x\|_2 v 1 = x /∥ x ∥ 2 ,且 v 2 , … , v n v_2, \dots, v_n v 2 , … , v n 是与 x x x 正交的任意 n − 1 n-1 n − 1 个单位正交向量。
如果 A ∈ M n A \in M_{n} A ∈ M n , 则奇异值分解中的三个因子 V , Σ V, \Sigma V , Σ 和 W W W 都是 n × n n \times n n × n 矩阵. 如果 A = P U A = PU A = P U 是 A A A 的极分解, 又如果 P = V Λ V ∗ P = V\Lambda V^{*} P = V Λ V ∗ 是 P P P 的酉对角化, 其中 P P P 的 (一定非负) 诸特征值按递减顺序排列, 则 A = P U = V Λ V ∗ U = ( V ) ( Λ ) ( V ∗ U ) − V Λ W ∗ A = PU = V\Lambda V^{*}U = (V)(\Lambda)(V^{*}U) - V\Lambda W^{*} A = P U = V Λ V ∗ U = ( V ) ( Λ ) ( V ∗ U ) − V Λ W ∗ 是 A A A 的奇异值分解, 其中 V = V , Σ − Λ V = V, \Sigma - \Lambda V = V , Σ − Λ , 且 W = U ∗ V W = U^{*}V W = U ∗ V . 注意到 A A ∗ = V Σ W ∗ W Σ V ∗ = V Σ 2 V ∗ AA^{*} = V\Sigma W^{*}W\Sigma V^{*} = V\Sigma^{2}V^{*} A A ∗ = V Σ W ∗ W Σ V ∗ = V Σ 2 V ∗ , 因而 V V V 的诸列是 Hermite 矩阵 A A ∗ AA^{*} A A ∗ 的相应于特征值 σ 1 2 , ⋯ , σ n 2 \sigma_{1}^{2}, \cdots, \sigma_{n}^{2} σ 1 2 , ⋯ , σ n 2 的特征向量. 另外, A ′ A = W Σ V ′ V Σ W ′ = W Σ 2 W ′ A^{\prime}A = W\Sigma V^{\prime}V\Sigma W^{\prime} = W\Sigma^{2}W^{\prime} A ′ A = W Σ V ′ V Σ W ′ = W Σ 2 W ′ , 因而 W W W 的诸列是 A ′ A A^{\prime}A A ′ A 的特征向量.
练习 如果 A ∈ M n A \in M_{n} A ∈ M n 是非奇异矩阵,证明下述步骤给出奇异值分解 A = V Σ W ∗ A = V\Sigma W^{*} A = V Σ W ∗ :
(a) 作出正定 Hermite 矩阵 A A ∗ AA^{*} A A ∗ , 然后通过求 A A ∗ AA^{*} A A ∗ 的各(正)特征值 { λ i } \{\lambda_{i}\} { λ i } 以及相应的正规化特征向量组 u i u_{i} u i 算出酉对角化 A A ∗ = U Λ U ∗ AA^{*} = U\Lambda U^{*} A A ∗ = U Λ U ∗ . (b) 令 Σ = Λ 12 \Sigma = \Lambda^{12} Σ = Λ 12 和 V = U = [ u 1 ⋯ u n ] V = U = [u_{1} \cdots u_{n}] V = U = [ u 1 ⋯ u n ] . (c) 令 W ≡ A ∗ V Σ 1 W \equiv A^{*}V\Sigma^{1} W ≡ A ∗ V Σ 1 .
证明 W W W 是酉矩阵且 A = V Σ W ∗ A = V\Sigma W^{*} A = V Σ W ∗ ,提示:计算 W ∗ W W^{*}W W ∗ W
练习 设 A ∈ M n A \in M_{n} A ∈ M n 是给定的(不一定非奇异)矩阵,证明下述步骤给出奇异值分解 A = V Σ W ∗ A = V\Sigma W^{*} A = V Σ W ∗ :
(a) 存在某个 c = c ( A ) > 0 c = c(A) > 0 c = c ( A ) > 0 ,使得对所有正 ε < c \varepsilon < c ε < c , A ε = A + ε I A_{\varepsilon} = A + \varepsilon I A ε = A + ε I 是非奇异矩阵。设 0 < ε < c 0 < \varepsilon < c 0 < ε < c 。 (b) 利用上一个练习中的方法作奇异值分解 A ϵ = V ϵ Σ ϵ W ϵ ∗ A_{\epsilon} = V_{\epsilon}\Sigma_{\epsilon}W_{\epsilon}^{*} A ϵ = V ϵ Σ ϵ W ϵ ∗ . (c) 利用选择原理(2.1.8)且设 ε → 0 \varepsilon \to 0 ε → 0 ,通过值 ε k \varepsilon_{k} ε k 的序列使得
lim ϵ k → 0 V ϵ k = V 和 lim ϵ k → 0 W ϵ k = W \lim _ {\epsilon_ {k} \to 0} V _ {\epsilon_ {k}} = V \quad \text {和} \quad \lim _ {\epsilon_ {k} \to 0} W _ {\epsilon_ {k}} = W ϵ k → 0 lim V ϵ k = V 和 ϵ k → 0 lim W ϵ k = W 都存在.
(d) 证明 Λ = V Σ W ⋅ \Lambda = V\Sigma W^{\cdot} Λ = V Σ W ⋅ , 其中 Σ − lim ϵ → 0 Σ ϵ \Sigma - \lim_{\epsilon \to 0} \Sigma_{\epsilon} Σ − lim ϵ → 0 Σ ϵ .
这个可以用来证明一般的奇异值分解(7.3.5)的证法保证存在一个奇异值分解,但是,当 A A A 不是满秩的时候,它一般没有给出计算奇异值分解中的各个因子的构造性方法。
练习 假定 A ∈ M n A \in M_{n} A ∈ M n 是非奇异矩阵,且 A = P U A = PU A = P U , A − W Q A - WQ A − W Q 是 A A A 的左和右极分解,其中 P P P , Q ∈ M n Q \in M_{n} Q ∈ M n 是正定矩阵, U U U , W ∈ M n W \in M_{n} W ∈ M n 是酉矩阵。证明恒有 U = W U = W U = W ,但是, P = Q P = Q P = Q 当且仅当 A A A 是正规矩阵。如果 A A A 是奇异矩阵,证明存在 A A A 的左和右的极分解使 U ≠ W U \neq W U = W 。提示:如果 A = V Σ W ∗ A = V\Sigma W^{*} A = V Σ W ∗ 是 A A A 的奇异值分解,则 V V V 或 W W W 都不是唯一确定的,但是, A = ( V W ∗ ) ( W Σ W ∗ ) = ( V Σ V ∗ ) ( V W ∗ ) A = (VW^{*})(W\Sigma W^{*}) = (V\Sigma V^{*})(VW^{*}) A = ( V W ∗ ) ( W Σ W ∗ ) = ( V Σ V ∗ ) ( V W ∗ ) ;采用(7.3.3)的唯一性部分。考察 A = 0 A = 0 A = 0 ,说明,如果 A A A 是奇异矩阵,则 A A A 的两个极分解中的酉因子不一定相同。
如果 A ∈ M n A \in M_{n} A ∈ M n 是正规矩阵,且 A = V Σ W ∗ A = V\Sigma W^{*} A = V Σ W ∗ 是奇异值分解,则 A A ∗ = A ∗ A AA^{*} = A^{*}A A A ∗ = A ∗ A ,因而 A A ∗ AA^{*} A A ∗ 和 A ∗ A A^{*}A A ∗ A 有相同的特征向量.但是,由此不能推出,在 A A A 的奇异值分解中有 V = W V = W V = W ,因为 V = W V = W V = W 时, A = V Σ V ∗ A = V\Sigma V^{*} A = V Σ V ∗ 就一定是(甚至是半正定)Icrmite 矩阵.如果 A = U Λ U ∗ A = U\Lambda U^{*} A = U Λ U ∗ 是 A A A 的酉对角化,且 Λ − d i a g ( λ 1 , … , λ n ) \Lambda - \mathrm{diag}(\lambda_1, \dots, \lambda_n) Λ − diag ( λ 1 , … , λ n ) ,则每个 λ i = ∣ λ k ∣ e θ k \lambda_i = |\lambda_k| e^{\theta_k} λ i = ∣ λ k ∣ e θ k 对某个 θ k ∈ R \theta_k \in \mathbb{R} θ k ∈ R 成立;如果 λ k = 0 \lambda_k = 0 λ k = 0 ,选 θ k ≡ 0 \theta_k \equiv 0 θ k ≡ 0 ,如果令 D ≡ d i a g ( e i θ 1 , … , e i θ n ) D \equiv \mathrm{diag}(e^{i\theta_1}, \dots, e^{i\theta_n}) D ≡ diag ( e i θ 1 , … , e i θ n ) 和 ∣ Λ ∣ ≡ d i a g ( ∣ λ 1 ∣ , … , ∣ λ n ∣ ) |\Lambda| \equiv \mathrm{diag}(|\lambda_1|, \dots, |\lambda_n|) ∣Λ∣ ≡ diag ( ∣ λ 1 ∣ , … , ∣ λ n ∣ ) ,则 Λ − ∣ Λ ∣ D \Lambda - |\Lambda| D Λ − ∣Λ∣ D ,且 A − U Λ U ∗ = U ∣ A ∣ D U ∗ = ( U ) ( ∣ Λ ∣ ) ( U D ‾ ) ∗ ≡ V Σ W ∗ A - U\Lambda U^{*} = U |A| D U^{*} = (U)(|\Lambda|)(U\overline{D})^{*} \equiv V\Sigma W^{*} A − U Λ U ∗ = U ∣ A ∣ D U ∗ = ( U ) ( ∣Λ∣ ) ( U D ) ∗ ≡ V Σ W ∗ 是 A A A 的奇异值分解,其中, V = U V = U V = U , Σ = ∣ Λ ∣ \Sigma = |\Lambda| Σ = ∣Λ∣ ,且 W = U D ‾ W = U\overline{D} W = U D
因此,正规矩阵的奇异值正好是其特征值的绝对值, V V V 的各列是 A A A 的特征向量, W W W 的各列视为与 V V V 的各列相同,只是每一列都乘以一个由相应的特征值确定的绝对值为 1 的复纯量。如果 A A A 是 Hermite 矩阵,则所有特征值都是实的, D = D ‾ D = \overline{D} D = D 且 D = diag ( sgn ( λ 1 ) , … , sgn ( λ n ) ) D = \operatorname{diag}(\operatorname{sgn}(\lambda_1), \dots, \operatorname{sgn}(\lambda_n)) D = diag ( sgn ( λ 1 ) , … , sgn ( λ n )) 。其中令 sgn ( 0 ) = 1 \operatorname{sgn}(0) = 1 sgn ( 0 ) = 1 。如果 A A A 是正定 Hermite 矩阵,则 D = I D = I D = I , V = W = U V = W = U V = W = U ,且 Λ = Σ \Lambda = \Sigma Λ = Σ 。
Schur三角化定理(2.3.1)的一个有效应用是,证明了每个复方阵是具有互异特征值的矩阵的极限。奇异值分解可以用来证明每个复矩阵(方阵或非方阵)是具有互异奇异值的矩阵的极限。这可能是有用的,因为在奇异值互不相同的情形,奇异值分解具有不完全的唯一性。
7.3.6 推论 如果 A ∈ M m , n A \in M_{m,n} A ∈ M m , n 是给定的矩阵,又 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 是 M m , n M_{m,n} M m , n 上的给定的范数,则对每个 ε > 0 \varepsilon > 0 ε > 0 ,存在具有互异奇异值的 A ε ∈ M m , n A_{\varepsilon} \in M_{m,n} A ε ∈ M m , n 使得 ∥ Λ − A ε ∥ < ε \|\Lambda - A_{\varepsilon}\| < \varepsilon ∥Λ − A ε ∥ < ε 。
证明:假定 m ⩽ n m \leqslant n m ⩽ n 。设 A = V Σ W ∗ A = V\Sigma W^{*} A = V Σ W ∗ 是 A A A 的奇异值分解,又设
Σ δ ≡ [ diag ( σ 1 + δ , σ 2 + 2 δ , … , σ m + m δ ) ] \Sigma_ {\delta} \equiv [ \operatorname {d i a g} (\sigma_ {1} + \delta , \sigma_ {2} + 2 \delta , \dots , \sigma_ {m} + m \delta) ] Σ δ ≡ [ diag ( σ 1 + δ , σ 2 + 2 δ , … , σ m + m δ )] 其中 0 ∈ M m , n 0 \in M_{m,n} 0 ∈ M m , n 。如果 A A A 的所有奇异值都相等,则对所有 δ > 0 \delta > 0 δ > 0 , Σ δ \Sigma_{\delta} Σ δ 将有互不相同的对角元。不然的话,如果选取 δ > 0 \delta > 0 δ > 0 使得 m δ m\delta m δ 小于各个不同奇异值间的最小的差,则 Σ δ \Sigma_{\delta} Σ δ 就有互不相同的对角元。在这两种情形,当 δ → 0 \delta \to 0 δ → 0 时, Σ δ → Σ \Sigma_{\delta} \to \Sigma Σ δ → Σ 。如果令 A δ ≡ V Σ δ W ∗ A_{\delta} \equiv V\Sigma_{\delta}W^{*} A δ ≡ V Σ δ W ∗ ,因为 Frobenius 范数是两不变的,所以当 δ → 0 \delta \to 0 δ → 0 时, ∥ A − A δ ∥ 2 = ∥ Σ − Σ δ ∥ 2 → 0 \| A - A_{\delta} \|_{2} = \| \Sigma - \Sigma_{\delta} \|_{2} \to 0 ∥ A − A δ ∥ 2 = ∥Σ − Σ δ ∥ 2 → 0 。但是, M m , n M_{m,n} M m , n 上的所有范数都是等价的,因此完成了证明。如果 m > n m > n m > n ,证明是类似的。□
有一个简单的变换使我们能把Hermite矩阵的关于特征值的结果转变成任意矩阵的关于奇异值的结果.
7.3.7 定理 设 A ∈ M m , n A \in M_{m,n} A ∈ M m , n , q = min { m , n } q = \min \{m, n\} q = min { m , n } , 并且定义 A ~ ∈ M m + n \widetilde{A} \in M_{m + n} A ∈ M m + n 为
A ~ ≡ [ 0 A A ∗ 0 ] . (7.3.7a) \widetilde {A} \equiv \left[ \begin{array}{l l} 0 & A \\ A ^ {*} & 0 \end{array} \right]. \tag {7.3.7a} A ≡ [ 0 A ∗ A 0 ] . ( 7.3.7a ) 设 σ 1 , σ 2 , ⋯ , σ q \sigma_{1}, \sigma_{2}, \cdots, \sigma_{q} σ 1 , σ 2 , ⋯ , σ q 是非负实数. 则 A A A 的奇异值是 σ 1 , σ 2 , ⋯ , σ q \sigma_{1}, \sigma_{2}, \cdots, \sigma_{q} σ 1 , σ 2 , ⋯ , σ q , 当且仅当 A ~ \widetilde{A} A 的 m + n m + n m + n 个特征值是 σ 1 , σ 2 , ⋯ , σ q , − σ 1 , − σ 2 , ⋯ , − σ q \sigma_{1}, \sigma_{2}, \cdots, \sigma_{q}, -\sigma_{1}, -\sigma_{2}, \cdots, -\sigma_{q} σ 1 , σ 2 , ⋯ , σ q , − σ 1 , − σ 2 , ⋯ , − σ q 和 ∣ m − n ∣ |m - n| ∣ m − n ∣ 个 0.
证明:假定 m ⩾ n m \geqslant n m ⩾ n ,且设 A = V Σ W ∗ A = V\Sigma W^{*} A = V Σ W ∗ 是 A A A 的奇异值分解。记
Σ = [ S 0 ] ∈ M m , n , 0 ∈ M m , n , \Sigma = \left[ \begin{array}{l} S \\ 0 \end{array} \right] \in M _ {m, n}, \quad 0 \in M _ {m, n}, Σ = [ S 0 ] ∈ M m , n , 0 ∈ M m , n , 其中 S = d i a g ( σ 1 , σ 2 , … , σ n ) S = \mathrm{diag}(\sigma_1, \sigma_2, \dots, \sigma_n) S = diag ( σ 1 , σ 2 , … , σ n ) ,并且把酉因子 V ∈ M m V \in M_m V ∈ M m 写成 V = [ V 1 , V 2 ] V = [V_1, V_2] V = [ V 1 , V 2 ] ,其中 V 1 ∈ M m , n V_1 \in M_{m,n} V 1 ∈ M m , n , V 2 ∈ M m , ( m , n ) V_2 \in M_{m,(m,n)} V 2 ∈ M m , ( m , n ) 。如果令 V ^ ≡ V ^ 1 / 2 \hat{V} \equiv \hat{V}_1 / \sqrt{2} V ^ ≡ V ^ 1 / 2 和 W ^ ≡ W / 2 \hat{W} \equiv W / \sqrt{2} W ^ ≡ W / 2 ,则矩阵
U ≡ [ V ^ − V ^ V 2 W ^ W ^ 0 ] ∈ M m − n , 0 ∈ M n , m − n U \equiv \left[ \begin{array}{c c c} \hat {V} & - \hat {V} & V _ {2} \\ \hat {W} & \hat {W} & 0 \end{array} \right] \in M _ {m - n}, \quad 0 \in M _ {n, m - n} U ≡ [ V ^ W ^ − V ^ W ^ V 2 0 ] ∈ M m − n , 0 ∈ M n , m − n 是西矩阵,几经直接计算可以验证
A ~ = U ∣ S 0 0 0 − S 0 0 0 0 − ∣ U ∗ , \tilde {A} = U \left| \begin{array}{l l l} S & 0 & 0 \\ 0 & - S & 0 \\ 0 & 0 & 0 _ {-} \end{array} \right| U ^ {*}, A ~ = U S 0 0 0 − S 0 0 0 0 − U ∗ , 其中对角零块是 ( m − n ) × ( m − n ) (m - n) \times (m - n) ( m − n ) × ( m − n ) 矩阵。如果 m < n m < n m < n ,证明是类似的。
练习 设 A ∈ M m , n A \in M_{m,n} A ∈ M m , n 是给定的矩阵。证明 A ⋆ , A τ A^{\star}, A^{\tau} A ⋆ , A τ 和 Λ \Lambda Λ 的奇异值与 A A A 的相同。如果 U ∈ M m U \in M_{m} U ∈ M m 和 V ∈ M n V \in M_{n} V ∈ M n 是酉矩阵,证明 U A V UAV U A V 的奇异值与 A A A 的相同。如果 c ∈ C c \in \mathbb{C} c ∈ C ,证明 C A CA C A 的奇异值是 A A A 的奇异值的 ∣ c ∣ |c| ∣ c ∣ 倍。
作为定理(7.3.7)的一个直接应用,我们有关任意矩阵的奇异值的一些扰动结果,这些结果是从Hermite矩阵的相应结果得来的。它们说明每个矩阵关于奇异值的计算是优态的,可以把它们同(6.3.2)、(6.3.4)以及其中关于条件数的讨论作一比较。关于如何把这些结果推广到任意两不变范数,可参看(7.4.51)。
7.3.8 推论 设 Λ , B ∈ M m , n , E ≡ B − Λ \Lambda, B \in M_{m,n}, E \equiv B - \Lambda Λ , B ∈ M m , n , E ≡ B − Λ ,且设 q = min { m , n } q = \min\{m, n\} q = min { m , n } ,如果 σ 1 ⩾ σ 2 ⩾ ⋯ ⩾ σ q \sigma_1 \geqslant \sigma_2 \geqslant \dots \geqslant \sigma_q σ 1 ⩾ σ 2 ⩾ ⋯ ⩾ σ q 是 A A A 的奇异值,且 τ 1 ⩾ τ 2 ⩾ ⋯ ⩾ τ q \tau_1 \geqslant \tau_2 \geqslant \dots \geqslant \tau_q τ 1 ⩾ τ 2 ⩾ ⋯ ⩾ τ q 是 B B B 的奇异值则
(a) ∣ σ i − τ i ∣ ⩽ ∥ E ∥ 2 |\sigma_{i} - \tau_{i}| \leqslant \|E\|_{2} ∣ σ i − τ i ∣ ⩽ ∥ E ∥ 2 对所有 i = 1 , 2 , ⋯ , q i = 1, 2, \cdots, q i = 1 , 2 , ⋯ , q 成立; (b) [ ∑ i = 1 q ( σ i − τ i ) 2 ] 1.2 ⩽ ∥ E ∥ 2 \left[\sum_{i=1}^{q}\left(\sigma_{i}-\tau_{i}\right)^{2}\right]^{1.2} \leqslant\|E\|_{2} [ ∑ i = 1 q ( σ i − τ i ) 2 ] 1.2 ⩽ ∥ E ∥ 2 .
证明:这两个结果类似于Weyl不等式[(4.3.1);也可参看(6.3.5)前面的练习]以及关于Hermite矩阵的Hoffmann-Wielandt定理(6.3.8).它们可从所述结果及(7.3.7)直接得出. □
练习 给出(7.3.8)的详细证明。关于(a)见(5.6)节习题36。
奇异值也有交错性质;它是由Hermite矩阵的特征值交错性质得来的。
7.3.9 定理 设 A ∈ M m , n A \in M_{m,n} A ∈ M m , n 是给定的矩阵,又设 A ˙ \dot{A} A ˙ 是划去 A A A 的任意一列后得到的矩阵。设 { σ i } \{\sigma_i\} { σ i } 表示 A A A 的奇异值, { σ ^ i } \{\hat{\sigma}_i\} { σ ^ i } 表示 A ^ \hat{A} A ^ 的奇异值,且都按递减顺序排列。
(a)如果 m ≥ n m \geq n m ≥ n ,则
σ 1 ⩾ σ ^ 1 ⩾ σ n ⩾ σ ^ 2 ⩾ ⋯ ⩾ σ ^ n − 1 ⩾ σ n ⩾ 0. \sigma_ {1} \geqslant \hat {\sigma} _ {1} \geqslant \sigma_ {n} \geqslant \hat {\sigma} _ {2} \geqslant \dots \geqslant \hat {\sigma} _ {n - 1} \geqslant \sigma_ {n} \geqslant 0. σ 1 ⩾ σ ^ 1 ⩾ σ n ⩾ σ ^ 2 ⩾ ⋯ ⩾ σ ^ n − 1 ⩾ σ n ⩾ 0. (b)如果 m < n m < n m < n ,则
σ 1 ⩾ σ ^ 1 ⩾ σ 2 ⩾ σ ^ 2 ⩾ ⋯ ⩾ σ m ⩾ σ ^ m ⩾ 0. \sigma_ {1} \geqslant \hat {\sigma} _ {1} \geqslant \sigma_ {2} \geqslant \hat {\sigma} _ {2} \geqslant \dots \geqslant \sigma_ {m} \geqslant \hat {\sigma} _ {m} \geqslant 0. σ 1 ⩾ σ ^ 1 ⩾ σ 2 ⩾ σ ^ 2 ⩾ ⋯ ⩾ σ m ⩾ σ ^ m ⩾ 0. 418
如果划去 A A A 的--行,而不是--列,则相应的不等式可通过交换(a)和(b)中的 m m m 和 n n n 来得到.
证明: A A A 的奇异值的平方是Hermite矩阵 A ∗ A ∈ M n A^{*}A\in M_{n} A ∗ A ∈ M n 的特征值,而 A ˙ \dot{A} A ˙ 的奇异值的平方是 A ^ ⋅ A ^ ∈ M n − 1 \hat{A}\cdot \hat{A}\in M_{n - 1} A ^ ⋅ A ^ ∈ M n − 1 的特征值;如果划去 A A A 的一列, A ^ ⋆ A ^ \hat{A}^{\star}\hat{A} A ^ ⋆ A ^ 是 A ∗ A A^{*}A A ∗ A 的主子矩阵.交错不等式组可从包含原理(1.3.15)直接得出.如果划去 A A A 的一行而不是-列,则相应地考虑 A A ∗ AA^{*} A A ∗ 和 A ^ A ^ ∗ \hat{A}\hat{A}^{*} A ^ A ^ ∗ □
作为Hermite矩阵的特征值性质与奇异值性质间的最后一个类似,有与Courant-Fischer定理(4.2.11)类似的定理。
7.3.10 定理 设 A ∈ M m , n A \in M_{m,n} A ∈ M m , n , q = min { m , n } q = \min \{m, n\} q = min { m , n } , 设 σ 1 ⩾ σ 2 ⩾ ⋯ ⩾ σ q \sigma_1 \geqslant \sigma_2 \geqslant \dots \geqslant \sigma_q σ 1 ⩾ σ 2 ⩾ ⋯ ⩾ σ q 是 A A A 的有序奇异值, 又设 k k k 是适合 1 ⩽ k ⩽ q 1 \leqslant k \leqslant q 1 ⩽ k ⩽ q 的某个整数. 则
min α 1 , … , α k − 2 ∈ r n max x = x 1 , x 2 , … , x k − 1 ∥ A x ∥ 2 ∥ x ∥ 2 = σ k , \min _ {\alpha_ {1}, \dots , \alpha_ {k - 2} \in \mathbf {r} ^ {n}} \max _ {\substack {x = x _ {1}, x _ {2}, \dots , x _ {k - 1}}} \frac {\| A x \| _ {2}}{\| x \| _ {2}} = \sigma_ {k}, α 1 , … , α k − 2 ∈ r n min x = x 1 , x 2 , … , x k − 1 max ∥ x ∥ 2 ∥ A x ∥ 2 = σ k , 11
max w 1 , … , w n , k ∈ C n min x = i , x ∈ C n x : u i , … , u n , k ∥ A x ∥ 2 ∥ x ∥ 2 = σ k . \max _ {w _ {1}, \dots , w _ {n, k} \in \mathbf {C} ^ {n}} \min _ {\substack {x = i, x \in \mathbf {C} ^ {n} \\ x: u _ {i}, \dots , u _ {n, k}}} \frac {\| A x \| _ {2}}{\| x \| _ {2}} = \sigma_ {k}. w 1 , … , w n , k ∈ C n max x = i , x ∈ C n x : u i , … , u n , k min ∥ x ∥ 2 ∥ A x ∥ 2 = σ k . 证明:这两个公式可直接从(4.2.12)和(4.2.13)推出,因为 σ k 2 ( A ) \sigma_k^2 (A) σ k 2 ( A ) 是 A ⋆ A A^{\star}A A ⋆ A 的特征值.如果 λ 1 ⩽ λ 2 ⩽ … λ k \lambda_1\leqslant \lambda_2\leqslant \dots \lambda_k λ 1 ⩽ λ 2 ⩽ … λ k 是Hermite矩阵 A ∗ A A^{*}A A ∗ A 的有序特征值,则 σ k 2 ( A ) = λ n − k + 1 ( A ∗ A ) \sigma_k^2 (A) = \lambda_{n - k + 1}(A^* A) σ k 2 ( A ) = λ n − k + 1 ( A ∗ A ) ,而(4.2.12)说明
σ k ′ ( A ) = λ n − k + 1 ( A ∗ A ) = min w 1 , … , w k − 1 ∈ C n max x ≠ 0 , x ∈ C n i − w 1 , … , w k − 1 x ∗ A ∗ A x x ∗ x = min w 1 , … , w k − 1 ∈ C n max x ≠ 0 , j ∈ C n i ⊥ w 1 , … , w k − 1 ( ∥ A x ∥ 2 ∥ x ∥ 2 ) 2 . \begin{array}{l} \sigma_ {k} ^ {\prime} (A) = \lambda_ {n - k + 1} (A ^ {*} A) = \min _ {w _ {1}, \dots , w _ {k - 1} \in \mathbf {C} ^ {n}} \max _ {\substack {x \neq 0, x \in \mathbf {C} ^ {n} \\ i - w _ {1}, \dots , w _ {k - 1}}} \frac {x ^ {*} A ^ {*} A x}{x ^ {*} x} \\ = \min _ {w _ {1}, \dots , w _ {k - 1} \in \mathbf {C} ^ {n}} \max _ {\substack {x \neq 0, j \in \mathbf {C} ^ {n} \\ i \perp w _ {1}, \dots , w _ {k - 1}}} \left(\frac {\| A x \| _ {2}}{\| x \| _ {2}}\right) ^ {2}. \\ \end{array} σ k ′ ( A ) = λ n − k + 1 ( A ∗ A ) = min w 1 , … , w k − 1 ∈ C n max x = 0 , x ∈ C n i − w 1 , … , w k − 1 x ∗ x x ∗ A ∗ A x = min w 1 , … , w k − 1 ∈ C n max x = 0 , j ∈ C n i ⊥ w 1 , … , w k − 1 ( ∥ x ∥ 2 ∥ A x ∥ 2 ) 2 . 用同样的方法可以证明第二个恒等式.
习题 设 P ∈ M n P \in M_{n} P ∈ M n 是半正定矩阵,证明 P P P 可以写成 P 2 P^{2} P 2 的多项式,因此,如果某个矩阵 U U U 与 P 2 P^{2} P 2 可交换,则它一定也与 P P P 可交换。用这个事实证明,如果 A ∈ M n A \in M_{n} A ∈ M n 是正规矩阵,则它的极因子 P P P 和 U U U 可交换。
证明,任意 A ∈ M n A \in M_{n} A ∈ M n 可写成 Λ = P e i H \Lambda = P e^{iH} Λ = P e i H ,其中 P , H ∈ M n , P P, H \in M_{n}, P P , H ∈ M n , P 是半正定矩阵,而 H H H 是Hermite矩阵。证明 H H H 可以取为正定矩阵。 P P P 和 H H H 可由 A A A 确定到什么程度?提示:如果 U ∈ M n U \in M_{n} U ∈ M n 是酉矩阵,且 U − V A V ∗ U - V A V^{*} U − V A V ∗ 是 U U U 的酉对角化,则 Λ = e i D \Lambda = e^{iD} Λ = e i D ,其中 D D D 是具有实主对角元的对角矩阵。 e i M n e^{iM_{n}} e i M n 是什么?
证明, Λ ∈ M n \Lambda \in M_{n} Λ ∈ M n 有零奇异值,当且仅当它有零特征值
设 A ∈ M m , n A \in M_{m,n} A ∈ M m , n 且 q = min { m , n } q = \min \{m, n\} q = min { m , n } . 证明 A A A 的最大奇异值等于 A A A 的谱范数. 证明 A A A 的 Frobenius 范数适合恒等式
∥ A ∥ 2 = − ( ∑ i q σ i 2 ) ′ \| A \| _ {2} = - \left(\sum_ {i} ^ {q} \sigma_ {i} ^ {2}\right) ^ {\prime} ∥ A ∥ 2 = − ( i ∑ q σ i 2 ) ′ 证明 σ 1 ⩽ ∥ A ∥ 2 ⩽ n σ 1 \sigma_{1} \leqslant \|A\|_{2} \leqslant \sqrt{n}\sigma_{1} σ 1 ⩽ ∥ A ∥ 2 ⩽ n σ 1 ,并且确定使等式成立的条件。证明对所有 A ∈ M n A \in M_{n} A ∈ M n 有
∥ A ∥ 2 ⩽ ∥ A ∥ 2 ⩽ n ⋅ ∥ A ∥ 2 . (7.3.11) \left\| A \right\| _ {2} \leqslant \left\| A \right\| _ {2} \leqslant \sqrt {n} \cdot \left\| A \right\| _ {2}. \tag {7.3.11} ∥ A ∥ 2 ⩽ ∥ A ∥ 2 ⩽ n ⋅ ∥ A ∥ 2 . ( 7.3.11 ) 考虑 I I I 和 [ 1 0 0 0 ] \left[ \begin{array}{ll}1 & 0\\ 0 & 0 \end{array} \right] [ 1 0 0 0 ] ,说明 ∥ A ∥ 2 \| A\| _2 ∥ A ∥ 2 可以达到这两个界.
如果 k ⩽ min { m , n } k \leqslant \min \{m, n\} k ⩽ min { m , n } ,且在 A A A 的奇异值分解(7.3.5)中, v k v_k v k 是 V V V 的第 k k k 列, w k w_k w k 是 W W W 的第 k k k 列,证明
A ⋅ v k = σ k w k 和 A w k = σ k v k . A \cdot v _ {k} = \sigma_ {k} w _ {k} \quad \text {和} \quad A w _ {k} = \sigma_ {k} v _ {k}. A ⋅ v k = σ k w k 和 A w k = σ k v k . 其中 σ k \sigma_{k} σ k 是 A A A 的第 k k k 个奇异值。特别是, v k ∗ A u k = σ k v_{k}^{*} A u_{k} = \sigma_{k} v k ∗ A u k = σ k 。
如果给出一个大矩阵 A A A ,如何用数值方法去计算 A A A 的秩呢?注意到 A A A 的秩等于 A A A 的非零奇异值的个数,于是,一种从数值上计算 A A A 的秩的方法是:求奇异值分解,然后取 A A A 的秩为大于某个限定值的奇异值的个数。如果 A A A 的最小非零奇异值与最大非零奇异值之比不接近于 0,你为什么可以指望用数值方法确定 A A A 的秩会更容易和更精确?
设 A ∈ M m , n A \in M_{m,n} A ∈ M m , n 有奇异值分解 A = V Σ W ∗ A = V\Sigma W^{*} A = V Σ W ∗ ,且定义 Λ ∗ = W Σ † V ∗ \Lambda^{*} = W\Sigma^{\dagger}V^{*} Λ ∗ = W Σ † V ∗ ,其中, Σ ∗ \Sigma^{*} Σ ∗ 是 Σ \Sigma Σ 的转置,且 Σ \Sigma Σ 中 Λ \Lambda Λ 的各正奇异值用它们的倒数来代替。证明,
(a) A A † AA^{\dagger} A A † 和 A † A A^{\dagger}A A † A 是Hermite矩阵; (b) A A † A = A AA^{\dagger}A = A A A † A = A (c) A ′ A A † = A ′ A^{\prime}AA^{\dagger} = A^{\prime} A ′ A A † = A ′
证明,如果 Λ \pmb{\Lambda} Λ 是非奇异方阵,则 A † = A − 1 A^{\dagger} = A^{-1} A † = A − 1 ,矩阵 A † A^{\dagger} A † 称为 A \pmb{A} A 的Moore-Penrose广义逆.对于任意矩阵 A \pmb{A} A ,甚至于奇异方阵 A \pmb{A} A 和非方阵 A \pmb{A} A ,它们都有广义逆.再证明,按上述要求(a)~(c), Λ † \pmb{\Lambda}^{\dagger} Λ † 是唯一确定的.
线性方程组 A x = b Ax = b A x = b 的最小二乘解是在使 ∥ A x − b ∥ 2 \| Ax - b\|_2 ∥ A x − b ∥ 2 为极小的所有向量 x x x 当中, ∥ x ∥ 2 \| x\|_2 ∥ x ∥ 2 达到极小值的向量 x x x 。证明 x = A † b x = A^{\dagger}b x = A † b 是 A x = b Ax = b A x = b 的最小二乘解。
证明 A † = lim t → 0 A ∗ ( A A ∗ + t I ) − 1 A^{\dagger} = \lim_{t\to 0}A^{*}(AA^{*} + tI)^{-1} A † = lim t → 0 A ∗ ( A A ∗ + t I ) − 1 ,其中 A ∗ A^* A ∗ 是习题7中所定义的矩阵。
不直接利用特征向量和特征值也可以导出奇异值分解(7.3.5)。回顾一下利用Rayleigh-Ritz原理对角化一个Hermite矩阵的证明,从谱范数的变分特征可以直接构造出(左和右)奇异向量和奇异值。考虑 A ∈ M n A \in M_n A ∈ M n 及变分特征 ( ∗ ∗ ) ∣ A ∥ 2 = max { ∥ Λ u ∥ 2 : ∥ x ∥ 2 = 1 } (\ast \ast) \mid A \|_2 = \max \{\| \Lambda u \|_2 : \| x \|_2 = 1\} ( ∗ ∗ ) ∣ A ∥ 2 = max { ∥Λ u ∥ 2 : ∥ x ∥ 2 = 1 } (a) 设 n ⩾ 2 n \geqslant 2 n ⩾ 2 ,又设 B ∈ M n B \in M_n B ∈ M n 有特殊形式
B = [ σ 1 w ′ 0 X ] B = \left[ \begin{array}{c c} \sigma_ {1} & w ^ {\prime} \\ 0 & X \end{array} \right] B = [ σ 1 0 w ′ X ] 其中 σ 1 = ∥ B ∥ 2 , w ∈ C n − 1 \sigma_{1} = \| B\|_{2}, w \in \mathbb{C}^{n-1} σ 1 = ∥ B ∥ 2 , w ∈ C n − 1 而 X ∈ M n − 1 X \in M_{n-1} X ∈ M n − 1 . 证明 w = 0 w = 0 w = 0 . 提示: 如果 σ 1 > 0 \sigma_{1} > 0 σ 1 > 0 , 考虑 ζ = [ σ 1 w ] / ( σ 1 2 + w ∗ w ) 1 / 2 \zeta = \left[ \begin{array}{c} \sigma_{1} \\ w \end{array} \right] / (\sigma_{1}^{2} + w^{*}w)^{1/2} ζ = [ σ 1 w ] / ( σ 1 2 + w ∗ w ) 1/2 , 证明 ∥ B ζ ∥ 2 2 ⩾ σ 1 2 + w ′ w \| B\zeta \|_{2}^{2} \geqslant \sigma_{1}^{2} + w'w ∥ Bζ ∥ 2 2 ⩾ σ 1 2 + w ′ w , 然后利用 ( ∗ ∗ ) (\ast \ast) ( ∗ ∗ ) . (b) 设 A ∈ M n A \in M_{n} A ∈ M n 且 σ 1 = ∣ A ∣ 2 \sigma_{1} = |A|_{2} σ 1 = ∣ A ∣ 2 . 然后利用 ( ∗ ∗ ) (\ast \ast) ( ∗ ∗ ) 证明, 存在某个单位向量 x 1 x_{1} x 1 使得 ∥ A x 1 ∥ 2 = σ 1 \| Ax_{1} \|_{2} = \sigma_{1} ∥ A x 1 ∥ 2 = σ 1 . 设 y 1 = σ 1 − 1 A x 1 y_{1} = \sigma_{1}^{-1}Ax_{1} y 1 = σ 1 − 1 A x 1 . (c) 设 W 1 W_{1} W 1 , V 1 ∈ M n V_{1} \in M_{n} V 1 ∈ M n 是两矩阵, 它们的第 1 列分别是 x 1 x_{1} x 1 和 y 1 y_{1} y 1 . 证明 V 1 ∗ A W 1 V_{1}^{*}AW_{1} V 1 ∗ A W 1 有谱范数 σ 1 \sigma_{1} σ 1 且有 (a) 中的矩阵形式. 由此得出 V 1 ∗ A W 1 = [ σ 1 0 0 X ] V_{1}^{*}AW_{1} = \left[ \begin{array}{cc}\sigma_{1} & 0\\ 0 & X \end{array} \right] V 1 ∗ A W 1 = [ σ 1 0 0 X ] . (d) 通过引入非对角零元组成的列和行压缩 A A A , 用公式表示这个归纳过程, 左乘和右乘相应的酉矩阵便可得到 A A A 的奇异值分解. (e) 如果 A ∈ M m , m A \in M_{m,m} A ∈ M m , m 不是方阵, 情况又如何?
设 A = V Σ W ′ A = V\Sigma W^{\prime} A = V Σ W ′ 是矩阵 A ∈ M m , n A \in M_{m,n} A ∈ M m , n 的奇异值分解,假定 A A A 有秩 k k k ,且设 q = min { m , n } q = \min \{m, n\} q = min { m , n } ,证明 W W W 的最后 n − k n - k n − k 列构成 A A A 的零空间的标准正交基,而 V V V 的前 k k k 列构成 A A A 的值域的标准正
交基.
设 A ∈ M m , n A \in M_{m,n} A ∈ M m , n , B ∈ M p , n B \in M_{p,n} B ∈ M p , n . 证明 A A A 和 B B B 的零空间的交的标准正交基由 W W W 的后若下列(有多少?)给出,其中 V Σ W ′ V \Sigma W' V Σ W ′ 是分块矩阵 [ A B ] ∈ M m , p , n \left[ \begin{array}{c} A \\ B \end{array} \right] \in M_{m,p,n} [ A B ] ∈ M m , p , n 的奇异值分解。提示:对 x ∈ C n x \in \mathbf{C}^n x ∈ C n ,什么时候 [ A B ] x = 0 \left[ \begin{array}{c} A \\ B \end{array} \right] x = 0 [ A B ] x = 0 ?你如何求列数相同的 k k k 个矩阵 A 1 , A 2 , … , A k A_1, A_2, \dots, A_k A 1 , A 2 , … , A k 的各个零空间的交的标准正交基。
证明极分解(7.3.2)与奇异值分解在容易相互导出的意义下是等价的。提示:把谱定理应用于 P P P 。
设 A ∈ M n A \in M_{n} A ∈ M n . 证明, A A A 可对角化, 当且仅当存在正定 Hermite 矩阵 P P P 使得 P − 1 A P P^{-1}AP P − 1 A P 是正规矩阵. 提示: 如果 A = S Λ S − 1 A = S\Lambda S^{-1} A = S Λ S − 1 , 应用极分解(7.3.3)于 S S S .
试用奇异值分解(7.3.5)(特别是关于分解的唯一性的论述)以及推论(7.3.6)证明,Takagi表示(4.4.4)对复对称矩阵成立。提示:若 A = A T ∈ M n A = A^{\mathrm{T}} \in M_{n} A = A T ∈ M n 有各不相同的奇异值且 A = V Σ W ∗ A = V\Sigma W^{*} A = V Σ W ∗ ,则 A = A T = W ˉ Σ V ′ A = A^{\mathrm{T}} = \bar{W}\Sigma V^{\prime} A = A T = W ˉ Σ V ′ 。另一方面,存在一个对角两矩阵 D = diag ( e i θ 1 , … , e i θ n ) D = \operatorname{diag}(e^{i\theta_{1}}, \dots, e^{i\theta_{n}}) D = diag ( e i θ 1 , … , e i θ n ) 使得 W ˉ = V D \bar{W} = V D W ˉ = V D ,故 A = V Σ W ∗ = V Σ ( V ˉ D ) ∗ = V Σ D V T = ( V D 12 ) Σ ( V D 12 ) T ≡ U Σ U T A = V\Sigma W^{*} = V\Sigma (\bar{V} D)^{*} = V\Sigma D V^{T} = (V D^{12})\Sigma (V D^{12})^{T} \equiv U\Sigma U^{T} A = V Σ W ∗ = V Σ ( V ˉ D ) ∗ = V Σ D V T = ( V D 12 ) Σ ( V D 12 ) T ≡ U Σ U T 。对于一般情形,把(7.3.6)和选择原理(2.1.8)用于扰动,然后取极限。
设 A , B ∈ M m , n , q = min { m , n } A, B \in M_{m,n}, q = \min\{m, n\} A , B ∈ M m , n , q = min { m , n } ,设 A A A 的有序奇异值是 σ 1 ( A ) ⩾ ⋯ ⩾ σ q ( A ) ⩾ 0 \sigma_1(A) \geqslant \dots \geqslant \sigma_q(A) \geqslant 0 σ 1 ( A ) ⩾ ⋯ ⩾ σ q ( A ) ⩾ 0 。类似地,设 B B B 和 A + B A + B A + B 也有有序奇异值。设 A ~ \widetilde{A} A 、 B ~ \widetilde{B} B 、 A ~ + B ~ ∈ M m , n \widetilde{A} + \widetilde{B} \in M_{m,n} A + B ∈ M m , n 是如(7.3.7a)中定义的Hermite矩阵。证明,对 k = 1 , 2 , … , q k = 1, 2, \dots, q k = 1 , 2 , … , q 有 σ k ( A ) = λ m − n − k − 1 ( A ~ ) \sigma_k(A) = \lambda_{m-n-k-1}(\widetilde{A}) σ k ( A ) = λ m − n − k − 1 ( A ) ;且对 B B B 和 ( A + B ) (A + B) ( A + B ) 也有类似的结果。注意:诸奇异值是按递减顺序排列的,而Hermite矩阵 A A A 的诸特征值是按递增顺序排列的。试用这个等式和Weyl定理(4.3.7)证明
σ i + j ( A + B ) ⩽ σ i ( A ) + σ j ( B ) , 1 ⩽ i , j ⩽ q 和 i + j ⩽ q + 1. \sigma_ {i + j} (A + B) \leqslant \sigma_ {i} (A) + \sigma_ {j} (B), \quad 1 \leqslant i, j \leqslant q \quad \text {和} \quad i + j \leqslant q + 1. σ i + j ( A + B ) ⩽ σ i ( A ) + σ j ( B ) , 1 ⩽ i , j ⩽ q 和 i + j ⩽ q + 1. 特别地, σ 1 ( A + B ) ⩽ σ 1 ( A ) + σ 1 ( B ) \sigma_1(A + B) \leqslant \sigma_1(A) + \sigma_1(B) σ 1 ( A + B ) ⩽ σ 1 ( A ) + σ 1 ( B ) ,(为什么这是意料之中的?)且 σ q ( A + B ) ⩽ min { σ q ( A ) + σ 1 ( B ) , σ 1 ( A ) + σ q ( B ) } \sigma_q(A + B) \leqslant \min \{\sigma_q(A) + \sigma_1(B), \sigma_1(A) + \sigma_q(B)\} σ q ( A + B ) ⩽ min { σ q ( A ) + σ 1 ( B ) , σ 1 ( A ) + σ q ( B )} .
考察 A = [ 1 0 0 0 ] A = \begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix} A = [ 1 0 0 0 ] 和 B = [ 0 0 0 1 ] B = \begin{bmatrix} 0 & 0 \\ 0 & 1 \end{bmatrix} B = [ 0 0 0 1 ] ,证明不等式 σ i ( A + B ) ⩽ σ i ( A ) + σ i ( B ) \sigma_{i}(A + B) \leqslant \sigma_{i}(A) + \sigma_{i}(B) σ i ( A + B ) ⩽ σ i ( A ) + σ i ( B ) 不是对所有 i = 1 , 2 i = 1, 2 i = 1 , 2 都成立,其中 { σ i ( A ) } \{\sigma_{i}(A)\} { σ i ( A )} 和 { σ i ( B ) } \{\sigma_{i}(B)\} { σ i ( B )} 分别是 A A A 和 B B B 的奇异值,且都按递降顺序排列。
设 A , B ∈ M m , n A, B \in M_{m,n} A , B ∈ M m , n 是给定的, q = min { m , n } q = \min\{m, n\} q = min { m , n } ,设 A A A 的有序奇异值是 σ 1 ( A ) ⩾ ⋯ ⩾ σ q ( A ) ⩾ 0 \sigma_1(A) \geqslant \dots \geqslant \sigma_q(A) \geqslant 0 σ 1 ( A ) ⩾ ⋯ ⩾ σ q ( A ) ⩾ 0 ,且 B B B 和 A B ∗ ∈ M m AB^* \in M_m A B ∗ ∈ M m 的奇异值也有类似的递减顺序。证明
σ i , j ( A B ∗ ) ⩽ σ i ( A ) σ j ( B ) , 1 ⩽ i , j ⩽ q , i + j ⩽ q + 1. \sigma_ {i, j} (A B ^ {*}) \leqslant \sigma_ {i} (A) \sigma_ {j} (B), \quad 1 \leqslant i, j \leqslant q, \quad i + j \leqslant q + 1. σ i , j ( A B ∗ ) ⩽ σ i ( A ) σ j ( B ) , 1 ⩽ i , j ⩽ q , i + j ⩽ q + 1. 这些不等式可以看作类似于习题16中的加法不等式的乘法不等式,当 m = n m = n m = n 时,它们也可以看作谱范数的次乘性质的推广。为什么?提示:设 A B ∗ = W Q AB^{*} = WQ A B ∗ = W Q 是 A B ∗ AB^{*} A B ∗ 的左极分解,其中, W ∈ M m W \in M_{m} W ∈ M m 是酉矩阵, Q ∈ M m Q \in M_{m} Q ∈ M m 是半正定矩阵。对任一个 x ∈ C m x \in \mathbf{C}^{m} x ∈ C m ,有 ( x ∗ Q x ) 2 = ( x ∗ W ∗ A B ∗ x ) 2 = [ ( A ∗ W x ) ∗ ( B ∗ x ) ] 2 ⩽ ∥ A ∗ W x ∥ 2 2 ∥ B ∗ x ∥ 2 2 − [ ( W x ) ∗ A A ∗ ( W x ) ] ( x ∗ B B ∗ x ) (x^{*}Qx)^{2} = (x^{*}W^{*}AB^{*}x)^{2} = [(A^{*}Wx)^{*}(B^{*}x)]^{2} \leqslant \| A^{*}Wx\|_{2}^{2}\| B^{*}x\|_{2}^{2} - [(Wx)^{*}AA^{*}(Wx)](x^{*}BB^{*}x) ( x ∗ Q x ) 2 = ( x ∗ W ∗ A B ∗ x ) 2 = [( A ∗ W x ) ∗ ( B ∗ x ) ] 2 ⩽ ∥ A ∗ W x ∥ 2 2 ∥ B ∗ x ∥ 2 2 − [( W x ) ∗ A A ∗ ( W x )] ( x ∗ B B ∗ x ) 。设 z 1 , ⋯ , z i z_{1}, \cdots, z_{i} z 1 , ⋯ , z i 是 A A ∗ AA^{*} A A ∗ 的标准正交特征向量,它们对应于 A A ∗ AA^{*} A A ∗ 的 i − 1 i-1 i − 1 个最大特征值 σ 1 2 ( A ) , ⋯ , σ i − 1 2 ( A ) \sigma_{1}^{2}(A), \cdots, \sigma_{i-1}^{2}(A) σ 1 2 ( A ) , ⋯ , σ i − 1 2 ( A ) ,设 y 1 , ⋯ , y j − 1 y_{1}, \cdots, y_{j-1} y 1 , ⋯ , y j − 1 是 B B ∗ BB^{*} B B ∗ 的标准正交特征向量,它们对应于 B B ∗ BB^{*} B B ∗ 的 j − 1 j-1 j − 1 个最大特征值 σ 1 2 ( B ) , ⋯ , σ j − 1 2 ( B ) \sigma_{1}^{2}(B), \cdots, \sigma_{j-1}^{2}(B) σ 1 2 ( B ) , ⋯ , σ j − 1 2 ( B ) ,又设 x 1 = W ∗ z 1 , x 2 = W ∗ z 2 , ⋯ , x i − 1 = W ∗ z i − 1 , x i = y 1 , x i + 1 = y 2 , ⋯ , x i − j − 2 = x_{1} = W^{*}z_{1}, x_{2} = W^{*}z_{2}, \cdots, x_{i-1} = W^{*}z_{i-1}, x_{i} = y_{1}, x_{i+1} = y_{2}, \cdots, x_{i-j-2} = x 1 = W ∗ z 1 , x 2 = W ∗ z 2 , ⋯ , x i − 1 = W ∗ z i − 1 , x i = y 1 , x i + 1 = y 2 , ⋯ , x i − j − 2 =
y j y_{j} y j 。若对 k = 1 , 2 , … , i + j − 2 k = 1,2,\dots ,i + j - 2 k = 1 , 2 , … , i + j − 2 , x \pmb{x} x 都正交于 x k x_{k} x k ,则 ( W x ) ∗ A A ∗ ( W x ) ⩽ σ i 2 ( A ) ∥ x ∥ 2 2 (Wx)^{*}AA^{*}(Wx)\leqslant \sigma_{i}^{2}(A)\| x\|_{2}^{2} ( W x ) ∗ A A ∗ ( W x ) ⩽ σ i 2 ( A ) ∥ x ∥ 2 2 和 x ∗ B B ∗ x^{*}BB^{*} x ∗ B B ∗ x ⩽ σ j 2 ( B ) ∥ x ∥ 2 2 x\leqslant \sigma_j^2 (B)\parallel x\parallel_2^2 x ⩽ σ j 2 ( B ) ∥ x ∥ 2 2 ,因此,在这些限制下,我们有 ( x ∗ Q x ) 2 ⩽ σ i 2 ( A ) σ j 2 ( B ) ∥ x ∥ 2 2 (x^{*}Qx)^{2}\leqslant \sigma_{i}^{2}(A)\sigma_{j}^{2}(B)\parallel x\parallel_{2}^{2} ( x ∗ Q x ) 2 ⩽ σ i 2 ( A ) σ j 2 ( B ) ∥ x ∥ 2 2 ,于是引用Courant-Fischer定理(4.2.11)便得出
σ 1 j 2 ( A B ∗ ) = ( λ n 1 j , 2 ( [ A B ∗ ] ∗ ( A B ∗ ) ] 12 ) 2 ⩽ σ i 2 ( A ) σ j 2 ( B ) . \sigma_ {1 j} ^ {2} (A B ^ {*}) = \left(\lambda_ {n 1 j, 2} \left([ A B ^ {*} ] ^ {*} (A B ^ {*}) \right] ^ {1 2}\right) ^ {2} \leqslant \sigma_ {i} ^ {2} (A) \sigma_ {j} ^ {2} (B). σ 1 j 2 ( A B ∗ ) = ( λ n 1 j , 2 ( [ A B ∗ ] ∗ ( A B ∗ ) ] 12 ) 2 ⩽ σ i 2 ( A ) σ j 2 ( B ) . 虽然当 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 时, A B AB A B 和 B A BA B A 的特征值总是相同的,不过例子 [ 0 1 0 0 ] \left[ \begin{array}{cc}0 & 1 \\ 0 & 0\end{array} \right] [ 0 0 1 0 ] 和 [ 0 0 0 1 ] \left[ \begin{array}{cc}0 & 0 \\ 0 & 1\end{array} \right] [ 0 0 0 1 ] 却说明, A B AB A B 和 B A BA B A 的奇异值不一定相同。但是可以证明 A B AB A B 和 B † A † B^{\dagger} A^{\dagger} B † A † 的奇异值总是相同的。
设 X X X 是 n n n 维随机向量,它的诸分量有零平均值和有限方差。设 Σ ≡ Cov ( X ) = E ( X X ∗ ) \Sigma \equiv \operatorname{Cov}(X) = E(XX^*) Σ ≡ Cov ( X ) = E ( X X ∗ ) [见(4.5.3)],假定 Σ \Sigma Σ 是非奇异的,设 P = Σ 1 / 2 P = \Sigma^{1/2} P = Σ 1/2 ,且 A , B ∈ M n A, B \in M_n A , B ∈ M n 是给定的,随机向量 A X AX A X 和 B X BX BX 有相同的(零)平均值向量,但没有理由指望它们有相同的协方差矩阵。证明, Cov ( A X ) = Cov ( B X ) \operatorname{Cov}(AX) = \operatorname{Cov}(BX) Cov ( A X ) = Cov ( BX ) 当且仅当 A = B ( P U P − 1 ) A = B(PUP^{-1}) A = B ( P U P − 1 ) 对某个酉矩阵 U ∈ M n U \in M_n U ∈ M n 成立。提示:若 A Σ A ∗ = B Σ B ∗ A\Sigma A^* = B\Sigma B^* A Σ A ∗ = B Σ B ∗ ,则 ( A P ) ( A P ) ∗ = ( B P ) ( B P ) ∗ (AP)(AP)^* = (BP)(BP)^* ( A P ) ( A P ) ∗ = ( BP ) ( BP ) ∗ 。如果 R W RW R W 是 B P BP BP 的一个极分解,证明,对某个酉矩阵 W , V ∈ M n , R V W, V \in M_n, RV W , V ∈ M n , R V 是 A P AP A P 的一个极分解。 R R R 是什么?由此得出 A = B ( P W ∗ V P − 1 ) = B ( P U P − 1 ) . U A = B(PW^* VP^{-1}) = B(PUP^{-1}).U A = B ( P W ∗ V P − 1 ) = B ( P U P − 1 ) . U 可以确定到什么程度?若 Σ = I \Sigma = I Σ = I 又如何?若 B − I B - I B − I 又如何?
考虑由
A ε = [ 0 1 0 ⋮ ⋱ ⋱ 0 ⋱ 1 ε 0 … 0 ] , ε > 0 A _ {\varepsilon} = \left[ \begin{array}{c c c c} 0 & 1 & & 0 \\ \vdots & \ddots & \ddots & \\ 0 & & \ddots & 1 \\ \varepsilon & 0 & \dots & 0 \end{array} \right], \quad \varepsilon > 0 A ε = 0 ⋮ 0 ε 1 ⋱ 0 ⋱ ⋱ … 0 1 0 , ε > 0 给出的矩阵 A ε ∈ M n A_{\varepsilon} \in M_{n} A ε ∈ M n 。证明 A ε A_{\varepsilon} A ε 的特征多项式是 t n − ε t^{n} - \varepsilon t n − ε 。提示:用沿其第1列的Laplace代数余子式展开计算 det ( t I − A ε ) \operatorname{det}(tI - A\varepsilon) det ( t I − A ε ) 。证明 A ε A_{\varepsilon} A ε 的各特征值是 ε n \sqrt[n]{\varepsilon} n ε 的 n n n 个选择。证明 A ε A_{\varepsilon} A ε 的各奇异值是 1 ( n − 1 1(n - 1 1 ( n − 1 重)和 ε \varepsilon ε 。现在设 n = 10 n = 10 n = 10 , ε = 10 − 10 \varepsilon = 10^{-10} ε = 1 0 − 10 ,注意到扰动 A u → A u A_{\mathrm{u}} \rightarrow A_{\mathrm{u}} A u → A u 引起 A u A_{\mathrm{u}} A u 的各特征值一个0.1扰动,但只引起 A u A_{\mathrm{u}} A u 的任一奇异值一个 10 − 10 10^{-10} 1 0 − 10 的扰动。 A c A_{\mathrm{c}} A c 的谱条件数是什么?这是关于定理(7.3.7)下面的论断的一个例子,该论断是说,每个矩阵关于奇异值的计算是良态的,而一个给定矩阵关于特征值的计算可能是病态的。
设 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n 是给定的。证明,若 A A A 有“小”行或列,则 A A A 一定有“小”奇异值。说得更明确些,设 A = [ r 1 r 2 ⋯ r n ] T A = [r_1 r_2 \cdots r_n]^T A = [ r 1 r 2 ⋯ r n ] T ,其中 r i ∈ C n r_i \in \mathbb{C}^n r i ∈ C n ,且 r i T r_i^T r i T 是 A A A 的第 i i i 行。用递增顺序排列各行的 Euclid 范数 { ∥ r i ∥ 2 : i = 1 , ⋯ , n } \{\|r_i\|_2: i = 1, \cdots, n\} { ∥ r i ∥ 2 : i = 1 , ⋯ , n } ,并且用 R 1 ⩽ R 2 ⩽ ⋯ ⩽ R n R_1 \leqslant R_2 \leqslant \cdots \leqslant R_n R 1 ⩽ R 2 ⩽ ⋯ ⩽ R n 表示所得到的有序值。证明
∑ i = 1 k σ m + 1 2 ⩽ ∑ i = 1 k R i 2 , k − 1 , 2 , … , n ; \sum_ {i = 1} ^ {k} \sigma_ {m + 1} ^ {2} \leqslant \sum_ {i = 1} ^ {k} R _ {i} ^ {2}, \quad k - 1, 2, \dots , n; i = 1 ∑ k σ m + 1 2 ⩽ i = 1 ∑ k R i 2 , k − 1 , 2 , … , n ; 一个类似的上界可用列范数表示。注意诸奇异值是取顺序 σ n ⩽ σ n − 1 ⩽ ⋯ ⩽ σ 1 \sigma_{n} \leqslant \sigma_{n-1} \leqslant \cdots \leqslant \sigma_{1} σ n ⩽ σ n − 1 ⩽ ⋯ ⩽ σ 1 。提示:平方奇异值是Hermite矩阵 A A ′ AA' A A ′ 的特征值。 A A ′ AA' A A ′ 的各主对角元是什么?用优化和定理(4.3.26)。关于列和不等式考虑 A ∗ A A^*A A ∗ A ,与(4.3)节习题19比较。
有一个与奇异值分解类似的自然分解,其中的酉因子用复正交因子来代替。但是,与奇异值分解不同的是,这个分解不是总能实现的:从(2.3)节习题7可以想到,类似子Schur西上三角分解的正交分解也不是总能实现的。如果 A ∈ M m , n A \in M_{m,n} A ∈ M m , n 可以写成 Λ = P Λ Q T \Lambda = P\Lambda Q^T Λ = P Λ Q T 的形式,其中
424
P ∈ M m P \in M_{m} P ∈ M m 和 Q ∈ M n Q \in M_{n} Q ∈ M n 是复正交矩阵,而 Λ = [ λ i j ] ∈ M m , n \Lambda = [\lambda_{ij}] \in M_{m,n} Λ = [ λ ij ] ∈ M m , n 是在 i ≠ j i \neq j i = j 时有 λ i j = 0 \lambda_{ij} = 0 λ ij = 0 的意义下的“对角”矩阵,证明 A A T ∈ M m AA^T \in M_{m} A A T ∈ M m 是可对角化的且 rank A = rank A A T \operatorname{rank} A = \operatorname{rank} AA^T rank A = rank A A T 。这两个条件也足以确保所述分解 A = P Λ Q T A = P\Lambda Q^T A = P Λ Q T 的存在性。如果 A A A 是实矩阵,这指的是什么?给出一个 A ∈ M 2 A \in M_2 A ∈ M 2 的例子,说明它不能写成 A = P Λ Q T A = P\Lambda Q^T A = P Λ Q T ,其中 P , Q ∈ M 2 P, Q \in M_2 P , Q ∈ M 2 是复正交矩阵,而 Λ ∈ M 2 \Lambda \in M_2 Λ ∈ M 2 是对角矩阵。
说明奇异值分解为什么可以看作正规矩阵的谱定理的推广.
关于正规矩阵交换族同时酉对角化的定理(2.5.5)对于奇异值分解有一个类似的结果. 设 F = { A i : i ∈ F } ⊂ M m , n \mathcal{F} = \{A_i : i \in \mathcal{F}\} \subset M_{m,n} F = { A i : i ∈ F } ⊂ M m , n , 假定存在酉矩阵 V ∈ M m V \in M_m V ∈ M m 和 W ∈ M n W \in M_n W ∈ M n 使得每个 V ∗ A i W V^* A_i W V ∗ A i W 是在习题23的意义下(即在 i ≠ j i \neq j i = j 时其 i , j i, j i , j 元为0)的“对角”矩阵. 证明, (a) 每个 A i ∗ A j ∈ M n A_i^* A_j \in M_n A i ∗ A j ∈ M n 是正规矩阵, 且 ς = { A i A j ∗ : i , j ∈ F } ⊂ M m \varsigma = \{A_i A_j^* : i, j \in \mathcal{F}\} \subset M_m ς = { A i A j ∗ : i , j ∈ F } ⊂ M m 是一个交换族. (b) A i A j ∗ A k = A k A j ∗ A i A_i A_j^* A_k = A_k A_j^* A_i A i A j ∗ A k = A k A j ∗ A i 对每个 i , j , k ∈ F i, j, k \in \mathcal{F} i , j , k ∈ F 成立. 这每一个必要条件也是族 F \mathcal{F} F 有奇异值分解形式的同时分解的充分条件.
求两个给定矩阵 A , B ∈ M m , n A, B \in M_{m,n} A , B ∈ M m , n 的奇异值分解形式的同时分解是前一个习题的一个有意思的特殊情形。证明,存在酉矩阵 V ∈ M n , W ∈ M n V \in M_{n}, W \in M_{n} V ∈ M n , W ∈ M n 使得 A = V Σ W ∗ A = V\Sigma W^{*} A = V Σ W ∗ 和 B = V Λ W ∗ B = V\Lambda W^{*} B = V Λ W ∗ (其中 Σ , Λ ∈ M m , n \Sigma, \Lambda \in M_{m,n} Σ , Λ ∈ M m , n 是“对角”矩阵)当且仅当 A B ∗ AB^{*} A B ∗ 和 B ∗ A B^{*}A B ∗ A 都是正规矩阵。提示:为了证明该条件是充分的,可证明只要考虑 A − Σ A - \Sigma A − Σ 是非负矩阵又是“对角”矩阵的情形。若把 Σ \Sigma Σ 的相同对角元排在一块,证明,若 Σ B ∗ \Sigma B^{*} Σ B ∗ 和 B ∗ Σ B^{*}\Sigma B ∗ Σ 是正规矩阵,则 B B B 是一个分块对角矩阵,其中可能除了一个子块以外(若 A A A 是奇异矩阵)所有子块都是正规矩阵。对每一个子块,或者用关于正规矩阵的谱定理或者用奇异值分解便可得到结论。
如果我们希望有酉矩阵 V ∈ M m V \in M_{m} V ∈ M m 和 W ∈ M n W \in M_{n} W ∈ M n 使得族 F = { A i : i ∈ I } ⊂ M m , n \mathcal{F} = \{A_{i}: i \in \mathcal{I}\} \subset M_{m,n} F = { A i : i ∈ I } ⊂ M m , n 中的每一个成员都可以写成 A i = V Σ i W ∗ A_{i} = V\Sigma_{i}W^{*} A i = V Σ i W ∗ ,其中每个 Σ i \Sigma_{i} Σ i 都是“对角”矩阵,证明,对每个 i i i , j ∈ I j \in \mathcal{I} j ∈ I , A i A j ∗ ∈ M m A_{i}A_{j}^{*} \in M_{m} A i A j ∗ ∈ M m 和 A i ∗ A j ∈ M n A_{i}^{*}A_{j} \in M_{n} A i ∗ A j ∈ M n 都是正规矩阵的条件是必要的,但是当该族有三个或更多的矩阵时,它不是充分的。提示:考虑
F = { [ 1 0 0 i ] , [ 0 1 1 0 ] , [ 0 1 − 1 0 ] } . \mathcal {F} = \left\{\left[ \begin{array}{l l} 1 & 0 \\ 0 & i \end{array} \right], \left[ \begin{array}{l l} 0 & 1 \\ 1 & 0 \end{array} \right], \left[ \begin{array}{l l} 0 & 1 \\ - 1 & 0 \end{array} \right] \right\}. F = { [ 1 0 0 i ] , [ 0 1 1 0 ] , [ 0 − 1 1 0 ] } . 当该族的矩阵多于两个时,说明关于两个矩阵情形的证明中的哪个部分行不通。
进一步阅读与注释 Sylvester 于 1889 年证明了关于实方阵的奇异值分解。关于一般的 m × n m \times n m × n 复矩阵的奇异值分解的最早证明似乎是在下文中:C. Eckart and G. Young, “A Principal Axis Transformation for Non-Hermitian Matrices,” Bull. Amer. Math. Soc. 45 (1939), 118-121. Eckart 和 Young 的文章也包含了如下结果:两个矩阵 A , B ∈ M m × n A, B \in M_{m \times n} A , B ∈ M m × n 有奇异值分解形式的同时分解(其中的相应“对角”因子都是实矩阵)当且仅当 A B ∗ AB^{*} A B ∗ 和 B ∗ A B^{*}A B ∗ A 都是 Hermite 矩阵。关于矩阵族有奇异值分解形式的同时分解的诸多结果的一个综述以及更多的参考资料可参看 P. M. Gibson, “Simultaneous Diagonalization of Rectangular Complex Matrices,” Linear Algebra Appl. 9(1974), 45-53.