4.4 复对称矩阵 矩阵 A ∈ M n A \in M_{n} A ∈ M n 是对称的,是指 A = A T A = A^{T} A = A T ,在许多场合,所研究的对称矩阵只有实元素,因而它们是实Hermite矩阵,并且本章迄今所讨论的全部结果都适用于这些矩阵。
但是,在有些情形,我们要与复对称矩阵打交道。一个例子是研究复平面中单位圆盘的正则解析映射,如果 f ( z ) f(z) f ( z ) 是单位圆盘上的正则解析函数,又如果 f ( z ) f(z) f ( z ) 是适合 f ( 0 ) = 0 f(0) = 0 f ( 0 ) = 0 和 f ′ ( 0 ) = 1 f'(0) = 1 f ′ ( 0 ) = 1 的标准化了的函数,那么, f ( z ) f(z) f ( z ) 是一一的(有时称为单叶的),当且仅当
∑ i , j = 1 n x i x ˉ , log 1 1 − z i z ˉ j ⩾ ∣ ∑ i , j = 1 n x i x j log [ z i z j f ( z i ) f ( z j ) − f ( z i ) − f ( z j ) z i − z j ] ∣ (4.4.1) \left. \sum_ {i, j = 1} ^ {n} x _ {i} \bar {x}, \log \frac {1}{1 - z _ {i} \bar {z} _ {j}} \geqslant \left| \sum_ {i, j = 1} ^ {n} x _ {i} x _ {j} \log \left[ \frac {z _ {i} z _ {j}}{f (z _ {i}) f (z _ {j})} - \frac {f (z _ {i}) - f (z _ {j})}{z _ {i} - z _ {j}} \right] \right| \right. \tag {4.4.1} i , j = 1 ∑ n x i x ˉ , log 1 − z i z ˉ j 1 ⩾ i , j = 1 ∑ n x i x j log [ f ( z i ) f ( z j ) z i z j − z i − z j f ( z i ) − f ( z j ) ] ( 4.4.1 ) 对满足 ∣ z i ∣ < 1 |z_{i}| < 1 ∣ z i ∣ < 1 的点 z 1 , ⋯ , z n ∈ C z_{1}, \cdots, z_{n} \in \mathbf{C} z 1 , ⋯ , z n ∈ C 的所有选择,点 x 1 , ⋯ , x n ∈ C x_{1}, \cdots, x_{n} \in \mathbf{C} x 1 , ⋯ , x n ∈ C 的所有选择和所有 n = 1 , 2 , ⋯ n = 1, 2, \cdots n = 1 , 2 , ⋯ 成立。如果 z i = z j z_{i} = z_{j} z i = z j ,则右边的差商可以看作 f ′ ( z i ) f'(z_{i}) f ′ ( z i ) 。这些称为 Grunsky 不等式组的庞杂不等式有很简单的代数形式
x ∗ A x ⩾ ∣ x T B x ∣ . (4.4.2) x ^ {*} A x \geqslant | x ^ {T} B x |. \tag {4.4.2} x ∗ A x ⩾ ∣ x T B x ∣. ( 4.4.2 ) 其中 x = − [ x i ] ∈ C n x = -[x_i] \in \mathbf{C}^n x = − [ x i ] ∈ C n , A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n , B = [ − b i j ] ∈ M n B = [-b_{ij}] \in M_n B = [ − b ij ] ∈ M n
a i j = log 1 1 − z i z ˙ j , b i j = log [ z i z j f ( z i ) f ( z j ) f ( z i ) − f ( z j ) z i − z j ] . a _ {i j} = \log \frac {1}{1 - z _ {i} \dot {z} _ {j}}, b _ {i j} = \log \left[ \frac {z _ {i} z _ {j}}{f (z _ {i}) f (z _ {j})} \frac {f (z _ {i}) - f (z _ {j})}{z _ {i} - z _ {j}} \right]. a ij = log 1 − z i z ˙ j 1 , b ij = log [ f ( z i ) f ( z j ) z i z j z i − z j f ( z i ) − f ( z j ) ] . 应注意的是, A A A 是Hermite矩阵,而 B B B 是复对称矩阵.
另一个自然要产生复对称矩阵的例子出现在一般的矩问题中。设 { a i j , a 1 , a 2 , ⋯ } \{a_{ij}, a_1, a_2, \cdots\} { a ij , a 1 , a 2 , ⋯ } 是给定的复数序列,设 n ⩾ 1 n \geqslant 1 n ⩾ 1 是某个正整数,且定义 A 2 n = [ a i j ] ≡ [ a i + 1 , j ] ∈ M 2 n A_{2n} = [a_{ij}] \equiv [a_{i+1,j}] \in M_{2n} A 2 n = [ a ij ] ≡ [ a i + 1 , j ] ∈ M 2 n ,注意 A 2 n A_{2n} A 2 n 是形状为 Hankel 矩阵的复对称矩阵。对 x ∈ C 2 n x \in \mathbf{C}^{2n} x ∈ C 2 n ,我们考虑复二次型 x t A 2 n x x^t A_{2n} x x t A 2 n x ,要问是否存在某个固定常数 c > 0 c > 0 c > 0 ,使得对所有 x ∈ C 2 n x \in \mathbf{C}^{2n} x ∈ C 2 n 和所有 n = 1 , 2 , ⋯ n = 1, 2, \cdots n = 1 , 2 , ⋯ 有
∣ x j Λ 2 n x ∣ ⩽ c x ∗ x . \left| x ^ {j} \Lambda_ {2 n} x \right| \leqslant c x ^ {*} x. x j Λ 2 n x ⩽ c x ∗ x . 根据 Ncbari 定理,这个条件成立,当且仅当存在一个几乎处处有界的 Lebesgue 可测函数 F ( t ) : F ( t ) : R → C F(t): F(t): \mathbf{R} \to \mathbf{C} F ( t ) : F ( t ) : R → C ,它的 Fourier 系数是已知数 a 0 , a 1 , a 2 , ⋯ a_0, a_1, a_2, \cdots a 0 , a 1 , a 2 , ⋯ ;关于 F ( t ) F(t) F ( t ) 的本质边界恰好是上述不等式组的常数 c c c .
在实际应用中复对称矩阵似乎不像复Hermite(或实对称)矩阵那样几乎经常出现,但是前两个例子说明,它们还是出现了。虽然复对称矩阵不一定可对角化(见本节末习题15),可是复对称矩阵有一个类似于Hermite矩阵的谱定理(4.1.5)的分解,并且可以用逻辑上类似的方法来证明它。我们首先证明一个与Schur三角分解定理(2.3.1)类似的定理,它说明,包括对称矩阵在内的一类矩阵总可以分解成 A = U Δ U T A = U\Delta U^T A = U Δ U T ,其中 U U U 是酉矩阵, Δ \Delta Δ 是上三角矩阵,如果上三角矩阵是对称的,则它必定是对角矩阵。
4.4.3 定理 设 A ∈ M n A \in M_{n} A ∈ M n 是给定的,那么存在两矩阵 U ∈ M n U \in M_{n} U ∈ M n 和上三角矩阵 Δ ∈ M n \Delta \in M_{n} Δ ∈ M n 使得 A = U Δ U T A = U\Delta U^{T} A = U Δ U T ,当且仅当 A A ˉ A\bar{A} A A ˉ 的所有特征值是非负实数,在这个条件下, Δ \Delta Δ 的所有主对角元可以选取非负值。
证明:因为 U U U 是两矩阵且 U T = U ‾ ∗ U^{\mathrm{T}} = \overline{U}^{*} U T = U ∗ ,所以,如果 A = U Δ U T A = U\Delta U^{\mathrm{T}} A = U Δ U T ,则 A A = U Δ U T U A ‾ U ∗ AA = U\Delta U^{\mathrm{T}}U\overline{A}U^{*} AA = U Δ U T U A U ∗ 。当 Δ \Delta Δ 是上三角矩阵时,上三角矩阵 Δ Δ \Delta \Delta ΔΔ 的诸主对角元是非负实数,且 A A AA AA 西相似于 Δ Δ ˙ \Delta \dot{\Delta} Δ Δ ˙ ,因此,从上三角矩阵的诸特征值恰好是它的诸主对角元这一事实便可推出条件的必要性成立。
关于充分性,假定 A A ˉ A\bar{A} A A ˉ 只有非负特征值,且设 x x x 是 A A AA AA 的一个特征向量;即 A A ‾ x = λ x A\overline{A} x = \lambda x A A x = λ x 且 λ ⩾ 0 \lambda \geqslant 0 λ ⩾ 0 , x ≠ 0 x \neq 0 x = 0 ,有两种可能情形:
(a) A x Ax A x 与 x x x 相关; (b) A x − A_{x}^{-} A x − 与 x \pmb{x} x 无关.
在前一种情形(a)(当 λ \lambda λ 是 Λ A ‾ \Lambda \overline{A} Λ A 的单特征值时,这种情形总是成立的),存在某个 μ ∈ C \mu \in \mathbb{C} μ ∈ C ,使得 A x ˉ = μ x A\bar{x} = \mu x A x ˉ = μx 。但是 Λ A ‾ x = A μ ˉ x = μ ˉ A x ˉ = μ ˉ u x = ∣ μ ∣ 2 x = λ x \Lambda \overline{A}x = A\bar{\mu}x = \bar{\mu}A\bar{x} = \bar{\mu}ux = |\mu|^2x = \lambda x Λ A x = A μ ˉ x = μ ˉ A x ˉ = μ ˉ ux = ∣ μ ∣ 2 x = λ x ,因而 ∣ μ ∣ 2 = λ |\mu|^2 = \lambda ∣ μ ∣ 2 = λ 。在后一种情形(b)(如果 λ \lambda λ 是 A A ‾ A\overline{A} A A 的重特征值,这种情形可能成立),对所有 μ ∈ C \mu \in \mathbb{C} μ ∈ C ,向量 y = A x ˉ + μ x y = A\bar{x} + \mu x y = A x ˉ + μx 是非零的,并且可以选择 μ \mu μ 为适合 ∣ μ ∣ 2 = μ μ ˉ = λ |\mu|^2 = \mu\bar{\mu} = \lambda ∣ μ ∣ 2 = μ μ ˉ = λ 的任一复数。于是 A y ˉ = A ( A ˉ x + μ x ˉ ) = A A x + μ ˉ A x ˉ = λ x + μ ˉ A x = μ ˉ x + μ A x ˉ = μ ˉ ( A x + μ x ) − μ ˉ y A\bar{y} = A(\bar{A}x + \bar{\mu x}) = AAx + \bar{\mu}A\bar{x} = \lambda x + \bar{\mu}Ax = \bar{\mu}x + \mu A\bar{x} = \bar{\mu}(Ax + \mu x) - \bar{\mu}y A y ˉ = A ( A ˉ x + μx ˉ ) = AA x + μ ˉ A x ˉ = λ x + μ ˉ A x = μ ˉ x + μ A x ˉ = μ ˉ ( A x + μx ) − μ ˉ y 。在情形(a)或(b),我们已证明,存在某个非零向量 v ∈ C v \in \mathbb{C} v ∈ C 和某个有 ∣ a 2 ∣ = λ |a^2| = \lambda ∣ a 2 ∣ = λ 的 a ∈ C a \in \mathbb{C} a ∈ C ,使得 A v = a v Av = av A v = a v ,因为这个恒等式在 v v v 乘以正纯量后不变,所以还可以假定 v v v 是单位向量。同时,对任意 θ ∈ R \theta \in \mathbb{R} θ ∈ R ,有 e − i θ A v ˉ = A ( e i θ v ‾ ) = e i θ a v = ( e 2 i θ a ) ( e i θ v ) e^{-i\theta}A\bar{v} = A(\overline{e^{i\theta}v}) = e^{i\theta}av = (e^{2i\theta}a)(e^{i\theta}v) e − i θ A v ˉ = A ( e i θ v ) = e i θ a v = ( e 2 i θ a ) ( e i θ v ) ,且当 v v v 是单位向量时, e i θ v e^{i\theta}v e i θ v 也是单位向量,因为可以选取 θ \theta θ 使得 e − 2 i θ a ⩾ 0 e^{-2i\theta}a \geqslant 0 e − 2 i θ a ⩾ 0 ,因而得出,如果 A ∈ M n A \in M_n A ∈ M n ,且 λ \lambda λ 是 A A ‾ A\overline{A} A A 的非负特征值,则存在单位向量 v v v ,使得 A v ˉ − σ v A\bar{v} - \sigma v A v ˉ − σ v ,且 σ = + λ ⩾ 0 \sigma = +\sqrt{\lambda} \geqslant 0 σ = + λ ⩾ 0 。
现在把这个向量 v \pmb{v} v 扩充为 C n \mathbf{C}^n C n 的标准正交基 { v 1 , v 2 , … , v n } \{v_{1}, v_{2}, \dots, v_{n}\} { v 1 , v 2 , … , v n } ,且设 V 1 V_{1} V 1 是以这些向量为列的矩阵。因为标准正交性和等式 A v ˙ = σ v A\dot{v} = \sigma v A v ˙ = σ v ,矩阵 V 1 T A V ˉ 1 V_{1}^{T} A \bar{V}_{1} V 1 T A V ˉ 1 的第一列有元素 v i ∗ A v ˉ = σ v i ∗ v = σ δ i 1 v_{i}^{*} A \bar{v} = \sigma v_{i}^{*} v = \sigma \delta_{i1} v i ∗ A v ˉ = σ v i ∗ v = σ δ i 1 。因此,除了 V ˉ 1 T A V 1 \bar{V}_{1}^{T} A V_{1} V ˉ 1 T A V 1 的第一列中第一个元素以外,所有元素必须为零(第一个元素也可能是零)。
203 如果用分块形式把这个矩阵写成
V ˉ 1 T A V 1 = [ σ w T 0 A 2 ] , w ∈ C n − 1 , A 2 ∈ M n − 1 , σ ⩾ 0 , (4.4.3a) \bar {V} _ {1} ^ {T} A V _ {1} = \left[ \begin{array}{l l} \sigma & w ^ {T} \\ 0 & A _ {2} \end{array} \right], \quad w \in \mathbf {C} ^ {n - 1}, \quad A _ {2} \in M _ {n - 1}, \quad \sigma \geqslant 0, \tag {4.4.3a} V ˉ 1 T A V 1 = [ σ 0 w T A 2 ] , w ∈ C n − 1 , A 2 ∈ M n − 1 , σ ⩾ 0 , ( 4.4.3a ) 我们看到
( V 1 T A V 1 ) ( V 1 T A V ˉ ‾ 1 ) = V 1 ∗ A A ˉ V 1 = [ σ ~ 2 σ w ˉ T + w T A ˉ 2 0 A 2 A 2 ] . \left(V _ {1} ^ {T} A V _ {1}\right) \left(\overline {{V _ {1} ^ {T} A \bar {V}}} _ {1}\right) = V _ {1} ^ {*} A \bar {A} V _ {1} = \left[ \begin{array}{c c} \tilde {\sigma} ^ {2} & \sigma \bar {w} ^ {T} + w ^ {T} \bar {A} _ {2} \\ 0 & A _ {2} A _ {2} \end{array} \right]. ( V 1 T A V 1 ) ( V 1 T A V ˉ 1 ) = V 1 ∗ A A ˉ V 1 = [ σ ~ 2 0 σ w ˉ T + w T A ˉ 2 A 2 A 2 ] . 因此, A A ‾ A\overline{A} A A 的诸特征值(根据假定它们都是非负的)是 σ 2 \sigma^2 σ 2 以及 A 2 A ˉ A_{2}\bar{A} A 2 A ˉ 的诸特征值.由此得出,通过这个简化过程所得到的矩阵 A 2 ∈ M n − 1 A_{2} \in M_{n-1} A 2 ∈ M n − 1 也有使 A 2 A 2 A_{2}A_{2} A 2 A 2 的所有特征值都非负的性质.
现在可以对于 A 2 A_{2} A 2 及其后继矩阵重复实施上述简化过程,至多经 n − 1 n - 1 n − 1 次(正像在 Schur 三角化定理(2.3.1)的证明中所做的那样)便得到
V ˉ n − 1 T … V 2 I V 1 I A V 1 V ˙ 2 … V ˉ n − 1 = [ σ 1 ∗ ⋱ 0 σ n ] = Δ , \bar {V} _ {n - 1} ^ {T} \dots V _ {2} ^ {I} V _ {1} ^ {I} A V _ {1} \dot {V} _ {2} \dots \bar {V} _ {n - 1} = \left[ \begin{array}{c c c} \sigma_ {1} & & * \\ & \ddots & \\ 0 & & \sigma_ {n} \end{array} \right] = \Delta , V ˉ n − 1 T … V 2 I V 1 I A V 1 V ˙ 2 … V ˉ n − 1 = σ 1 0 ⋱ ∗ σ n = Δ , 其中, Δ \Delta Δ 是具有非负主对角元 σ 1 \sigma_{1} σ 1 的上三角矩阵。如果令 U = V 1 V 2 … V n − 1 U = V_{1}V_{2}\dots V_{n - 1} U = V 1 V 2 … V n − 1 ,则有 A − U Δ U t A - U\Delta U^{t} A − U Δ U t ,这正是所欲求的。
练习. 直接对矩阵 A = [ 1 i − i 1 ] A = \left[ \begin{array}{ll}1 & i\\ -i & 1 \end{array} \right] A = [ 1 − i i 1 ] 实施定理(4.4.3)证明中的计算,并证明 A = U Δ U T A = U\Delta U^{\mathrm{T}} A = U Δ U T ,其中
Δ = [ 0 2 i 0 0 ] , U = 1 2 [ − 1 i i 1 ] . \Delta = \left[ \begin{array}{l l} 0 & 2 i \\ 0 & 0 \end{array} \right], \quad U = \frac {1}{\sqrt {2}} \left[ \begin{array}{l l} - 1 & i \\ i & 1 \end{array} \right]. Δ = [ 0 0 2 i 0 ] , U = 2 1 [ − 1 i i 1 ] . 如果 n ⩾ 2 n \geqslant 2 n ⩾ 2 ,并非每个矩阵 A ∈ M n A \in M_{n} A ∈ M n 都有使 A A AA AA 的所有特征值均非负的性质; A − [ 0 1 − 1 0 ] A - \left[ \begin{array}{cc}0 & 1 \\ -1 & 0\end{array} \right] A − [ 0 − 1 1 0 ] 就是一个简单的例子。因而,定理(1.4.3)与Schur三角化定理(2.3.1)只是部分类似。每个 A ∈ M n A \in M_{n} A ∈ M n 可经形如 A → U A U ∗ A \to UAU^{*} A → U A U ∗ 的变换(其中酉矩阵 U ∈ M U \in M U ∈ M )三角化,不过,只有使 Λ A ‾ \Lambda \overline{A} Λ A 有全部非负特征值的那些矩阵 A ∈ M n A \in M_{n} A ∈ M n 可经形如 A → U A U T A \to UAU^{T} A → U A U T 的变换(其中酉矩阵 U ∈ M n U \in M_{n} U ∈ M n )三角化。
每个对称矩阵 Λ ∈ M n \Lambda \in M_{n} Λ ∈ M n 有如下性质: Λ Λ ‾ = A A ∗ \Lambda \overline{\Lambda} = AA^{*} Λ Λ = A A ∗ 的所有特征值都是非负的。该特殊形式已包含在定理(1.4.3)中,人们通常把它归功于 Schur(1945)。但是较早的证明是由 Hua(1944),Siegel(1943)和 Jacobsen(1939)提出的;而历史的优先权显然应该属于 Takagi(1925)。
20 + 1 \boxed{20 + 1} 20 + 1 4.4.4 推论(Takagi分解)如果 A ∈ M n A \in M_{n} A ∈ M n 是对称矩阵 ( A = A T ) (A = A^{\mathrm{T}}) ( A = A T ) ,则存在酉矩阵 U ∈ M n U \in M_{n} U ∈ M n 和非负实对角矩阵 Σ = diag ( σ 1 , … , σ n ) \Sigma = \operatorname{diag}(\sigma_{1}, \dots, \sigma_{n}) Σ = diag ( σ 1 , … , σ n ) 使得 A = U Σ U T A = U\Sigma U^{\mathrm{T}} A = U Σ U T 。 U U U 的诸列是由 A A ‾ A\overline{A} A A 的特征向量组成的标准正交组,而 Σ \Sigma Σ 的相应对角元是 A A ‾ A\overline{A} A A 的相应特征值的非负平方根。
证明:如果 A = A ′ A = A^{\prime} A = A ′ ,则 A ‾ = A ′ \overline{A} = A^{\prime} A = A ′ ,且 Λ A ‾ = A A ′ \Lambda \overline{A} = AA^{\prime} Λ A = A A ′ ,如果 x ≠ 0 x\neq 0 x = 0 是Hermite矩阵 A A ∗ AA^{*} A A ∗ 的任一特征向量,且 A A ∗ x = λ x AA^{*}x = \lambda x A A ∗ x = λ x ,则 x ∗ λ x − λ ( x ′ x ) − x ∗ A A ′ x = ( A ′ x ) ∗ ( A ′ x ) x^{*}\lambda x - \lambda (x^{\prime}x) - x^{*}AA^{\prime}x = (A^{\prime}x)^{*}(A^{\prime}x) x ∗ λ x − λ ( x ′ x ) − x ∗ A A ′ x = ( A ′ x ) ∗ ( A ′ x ) ,因为 y ∗ y ⩾ 0 y^{*}y\geqslant 0 y ∗ y ⩾ 0 对所有 y ∈ C n y\in \mathbb{C}^n y ∈ C n 成立,而 y ∗ y = 0 y^{*}y = 0 y ∗ y = 0 当且仅当 y = 0 y = 0 y = 0 ,所以有 λ = ( A ∗ x ) ∗ ( A ∗ x ) / x ∗ x ⩾ 0 \lambda = (A^{*}x)^{*}(A^{*}x) / x^{*}x\geqslant 0 λ = ( A ∗ x ) ∗ ( A ∗ x ) / x ∗ x ⩾ 0 ,因此,只要 A A A 是对称矩阵, A A AA AA 的所有特征值都为负.定理(4.4.3)保证存在西矩阵 U ∈ M n U\in M_{n} U ∈ M n 和上三角矩阵
Δ ∈ M n \Delta \in M_{n} Δ ∈ M n ,其中
Δ = [ σ 1 ∗ ⋱ 0 σ n ] , 所 有 σ i ⩾ 0 , \Delta = \left[ \begin{array}{c c c} {{\sigma_ {1}}} & {} & {{*}} \\ {} & {{\ddots}} & {} \\ {{0}} & {} & {{\sigma_ {n}}} \end{array} \right], \quad \text {所 有} \sigma_ {i} \geqslant 0 , Δ = σ 1 0 ⋱ ∗ σ n , 所 有 σ i ⩾ 0 , 使得 A = U Δ U T A = U\Delta U^T A = U Δ U T ,但是 U Δ U T = A = A T = U Δ T U T U\Delta U^T = A = A^T = U\Delta^T U^T U Δ U T = A = A T = U Δ T U T ,因而 Δ = Δ t \Delta = \Delta^t Δ = Δ t ,这只有在 Δ ≡ Σ \Delta \equiv \Sigma Δ ≡ Σ 是对角矩阵时才能成立,根据构造, Δ \Delta Δ 是非负的.最后, A A ˉ = U Σ U T U ˉ Σ U ∗ = U Σ 2 U ∗ A\bar{A} = U\Sigma U^T\bar{U}\Sigma U^* = U\Sigma^2 U^* A A ˉ = U Σ U T U ˉ Σ U ∗ = U Σ 2 U ∗ 是Hermite矩阵 A A AA AA 的酉对角化,因而, U U U 的诸列是 Λ A ‾ \Lambda \overline{A} Λ A 的特征向量. □
形如 U Λ U T U\Lambda U^T U Λ U T 的任一矩阵,其中 Λ \pmb{\Lambda} Λ 是对角矩阵(不一定非负),显然是对称的,因此,为了使某个矩阵 A ∈ M n A\in M_{n} A ∈ M n 能分解成 A = U Λ U T = U Λ U ‾ ⋅ − U Λ U ‾ − 1 A = U\Lambda U^{T} = U\Lambda \overline{U}\cdot -U\Lambda \overline{U}^{-1} A = U Λ U T = U Λ U ⋅ − U Λ U − 1 ,其中, U U U 是酉矩阵,而 Λ \pmb{\Lambda} Λ 是对角矩阵,其必要充分条件是 A \pmb{A} A 是对称矩阵。在定理(4.6.11)中给出了 Λ \pmb{\Lambda} Λ 可以分解成 A = S Λ S − 1 A = S\Lambda S^{-1} A = S Λ S − 1 的条件,其中 Λ \pmb{\Lambda} Λ 是对角矩阵,而 S S S 是非奇异矩阵(但不一定是酉矩阵)。
每个复矩阵 A ∈ M n A \in M_{n} A ∈ M n 可以写成形式 A = V Σ W ∗ A = V\Sigma W^{*} A = V Σ W ∗ ,其中, V , W ∈ M n V, W \in M_{n} V , W ∈ M n 是酉矩阵,而 Σ \Sigma Σ 是具有非负主对角元的对角矩阵。这就是奇异值分解,将在(7.3)节中讨论它。 Σ \Sigma Σ 的诸对角元是 A A A 的奇异值。关于(可能是复)对称矩阵的 Takagi 分解 A = U Σ U T A = U\Sigma U^{T} A = U Σ U T 是关于对称矩阵的特殊奇异值分解,其中 V − W ˉ V - \bar{W} V − W ˉ 。
在定理(4.4.3)的证明中所采用的构造性方法可以用来计算复对称矩阵的 Takagi 分解。因为 A A A 的对称性,所产生的矩阵 Δ \Delta Δ 将自然是对角矩阵。见本节末习题 9。
练习 直接对矩阵 A = [ 1 i i 1 ] A = \begin{bmatrix} 1 & i \\ i & 1 \end{bmatrix} A = [ 1 i i 1 ] 实施定理(4.4.3)证明中的计算,并证明 A = U Δ U t A = U\Delta U^t A = U Δ U t ,其中,
Δ − ∣ 2 0 ⌊ 0 2 ] , U = 1 4 + 2 2 [ 1 + 2 i i 1 + 2 ] . \Delta - \left| \begin{array}{l l} \sqrt {2} & 0 \\ \lfloor 0 & \sqrt {2} \end{array} \right], \quad U = \frac {1}{\sqrt {4 + 2 \sqrt {2}}} \left[ \begin{array}{c c} 1 + \sqrt {2} & i \\ i & 1 + \sqrt {2} \end{array} \right]. Δ − 2 ⌊ 0 0 2 ] , U = 4 + 2 2 1 [ 1 + 2 i i 1 + 2 ] . 注意, Δ \Delta Δ 自然是对角矩阵。
由于 Takagi 分解 A = U Σ U T A = U\Sigma U^T A = U Σ U T 中西因子 U U U 的诸列是 Hermite 矩阵 A A ‾ A\overline{A} A A 的特征向量,这可能会误认为,如果 Λ A ˉ = U Σ 2 U ∗ \Lambda \bar{A} = U\Sigma^2 U^* Λ A ˉ = U Σ 2 U ∗ 是酉对角化的,则 A = U Σ U T A = U\Sigma U^T A = U Σ U T 。实际情况不一定如此,考察例子 A = [ 0 1 1 0 ] A = \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix} A = [ 0 1 1 0 ] 便可看出这一点。因为 A A ˉ − I A\bar{A} - I A A ˉ − I ,所以对任何 2 × 2 2 \times 2 2 × 2 实正交矩阵 Q Q Q ,有 A A ‾ Q I 2 Q T A\overline{A} QI^2 Q^T A A Q I 2 Q T ,而 Q I Q T = I ≠ A QIQ^T = I \neq A Q I Q T = I = A ,问题是 A A ‾ A\overline{A} A A 有重数大于 1 的特征值,因而 A A ‾ A\overline{A} A A 的任一特征向量都不可能有 A x ˉ = a x A\bar{x} = ax A x ˉ = a x 的性质;这个特征向量不可能给出 A A A 的所欲求的化简。如果考虑基向量 e 1 e_1 e 1 ,则 A A ‾ e 1 = I e 1 = I e 1 A\overline{A} e_1 = Ie_1 = Ie_1 A A e 1 = I e 1 = I e 1 ,而 A e 1 = A e 1 = e 2 Ae_1 = Ae_1 = e_2 A e 1 = A e 1 = e 2 ;于是有定理(4.4.3)证明中的情形(b)。根据证明,可以取 w = A e ˉ 1 + 1 e 1 = e 2 + e 1 w = A\bar{e}_1 + 1e_1 = e_2 + e_1 w = A e ˉ 1 + 1 e 1 = e 2 + e 1 ,这便得到向量 v = v 1 = ( e 1 + e 2 ) / 2 v = v_1 = (e_1 + e_2) / \sqrt{2} v = v 1 = ( e 1 + e 2 ) / 2 ,它能化简 A A A 。因为 v 2 = ( e 1 − e 2 ) / 2 v_2 = (e_1 - e_2) / \sqrt{2} v 2 = ( e 1 − e 2 ) / 2 与 v 1 v_1 v 1 正交,可以取
V = 1 2 [ 1 1 1 − 1 ] , V = \frac {1}{\sqrt {2}} \left[ \begin{array}{c c} 1 & 1 \\ 1 & - 1 \end{array} \right], V = 2 1 [ 1 1 1 − 1 ] , 并且得到 V l A V − [ 1 0 0 − 1 ] = [ 1 0 0 1 ] [ 1 0 0 i ] 2 ≃ Σ D 2 V^{l}AV - \left[ \begin{array}{cc}1 & 0\\ 0 & -1 \end{array} \right] = \left[ \begin{array}{cc}1 & 0\\ 0 & 1 \end{array} \right]\left[ \begin{array}{cc}1 & 0\\ 0 & i \end{array} \right]^{2}\simeq \Sigma D^{2} V l A V − [ 1 0 0 − 1 ] = [ 1 0 0 1 ] [ 1 0 0 i ] 2 ≃ Σ D 2 因此,如果令
U = V D = 1 2 [ 1 i 1 − i ] , U = V D = \frac {1}{\sqrt {2}} \left[ \begin{array}{l l} 1 & i \\ 1 & - i \end{array} \right], U = V D = 2 1 [ 1 1 i − i ] , 则 A − U I U T A - UIU^T A − U I U T 是 A A A 的一个适当分解。应指出的是,实对称矩阵的 Takagi 分解(1.4.4)不可能有实因子。
刚才所讨论的例子中的困难以及在一般情形中的困难是由 A A ‾ A\overline{A} A A 的重特征值引起的。如果 A A ‾ A\overline{A} A A 的所有特征值是不同的,又如果采用(4.4.3)证明中的构造法来计算复对称矩阵 A A A 的 Takagi分解,那么,总有情形(a)(见习题9)。在这种情形, A A ‾ A\overline{A} A A 的每个特征向量 x \pmb{x} x 有性质;对满足 a = σ e 2 π i a = \sigma e^{2\pi i} a = σ e 2 πi , θ ∈ R \theta \in \mathbb{R} θ ∈ R 和 A A ‾ x = σ 2 x A\overline{A}x = \sigma^2 x A A x = σ 2 x 的某个 a ∈ C a \in \mathbb{C} a ∈ C ,有 A x ‾ = a . x A\overline{x} = a.x A x = a . x 。因而,如果 A A ‾ = V Σ 2 V ∗ A\overline{A} = V\Sigma^2 V^* A A = V Σ 2 V ∗ 是Hermite矩阵 A A ‾ A\overline{A} A A 的酉对角化,则必有 A V ‾ − V Σ D 2 A\overline{V} - V\Sigma D^2 A V − V Σ D 2 。其中 D 2 = d i a g ( e 2 π i , … , e 2 i θ n ) D^2 = \mathrm{diag}(e^{2\pi i}, \dots, e^{2i\theta_n}) D 2 = diag ( e 2 πi , … , e 2 i θ n ) ;只要知道了 V V V 和 Σ ( Σ 2 \Sigma (\Sigma^2 Σ ( Σ 2 的非负平方根),这个恒等式就可用来计算相应于 Σ \Sigma Σ 的非零对角元的 D 2 D^2 D 2 的对角元。相应于 Σ \Sigma Σ 的零对角元的 D 2 D^2 D 2 的对角元是任意的,且可以取为 +1。最后,如果令 U = V D U = VD U = V D 和 D = d i a g ( e i θ 1 , … , e i θ n ) D = \mathrm{diag}(e^{i\theta_1}, \dots, e^{i\theta_n}) D = diag ( e i θ 1 , … , e i θ n ) ,则有 A = A V ‾ V T = V Σ D 2 V T − ( V D ) Σ ( V D ) T = U Σ U T A = A\overline{V} V^T = V\Sigma D^2 V^T - (VD)\Sigma (VD)^T = U\Sigma U^T A = A V V T = V Σ D 2 V T − ( V D ) Σ ( V D ) T = U Σ U T 。我们把这些论断总结成下述推论。
4.4.5 推论 如果 A ∈ M n A \in M_{n} A ∈ M n 是对称矩阵,且 A A AA AA 的特征值互不相同,又如果 A A = V Σ 2 V ∗ AA = V\Sigma^{2}V^{*} AA = V Σ 2 V ∗ 是 A A AA AA 的酉对角化,其中 Σ = d i a g ( σ 1 , … , σ n ) \Sigma = \mathrm{diag}(\sigma_{1},\dots,\sigma_{n}) Σ = diag ( σ 1 , … , σ n ) 且所有 σ i ⩾ 0 \sigma_{i} \geqslant 0 σ i ⩾ 0 ,则存在对角矩阵 D = d i a g ( e i θ 1 , … , e i θ n ) D = \mathrm{diag}(e^{i\theta_{1}},\dots,e^{i\theta_{n}}) D = diag ( e i θ 1 , … , e i θ n ) (其中所有 θ i ∈ R \theta_{i} \in \mathbb{R} θ i ∈ R )使得 A = U Σ U T A = U\Sigma U^{T} A = U Σ U T (其中 U = V D U = V D U = V D )。相应于 Σ \Sigma Σ 的非零对角元的因子 D D D 的对角元由关系式 A V ˉ = V Σ D 2 A\bar{V} = V\Sigma D^{2} A V ˉ = V Σ D 2 确定;相应于 Σ \Sigma Σ 的零对角元的 D D D 的对角元可以取为 +1。
如果 A ∈ M n A \in M_{n} A ∈ M n 是对称矩阵,并且利用(4.4.4)把 A A A 写成 A = U Σ U T A = U\Sigma U^{T} A = U Σ U T ,也可以把它写成 A = ( U Σ 1 , 2 ) ( U Σ i , 2 ) T A = (U\Sigma^{1,2})(U\Sigma^{i,2})^{T} A = ( U Σ 1 , 2 ) ( U Σ i , 2 ) T ,其中 Σ 1 , 2 = d i a g ( + σ 1 , + σ 2 , … , + σ n ) \Sigma^{1,2} = \mathrm{diag}(+\sqrt{\sigma_1}, +\sqrt{\sigma_2}, \dots, +\sqrt{\sigma_n}) Σ 1 , 2 = diag ( + σ 1 , + σ 2 , … , + σ n ) 。这番论证构成下述推论的证明。
4.4.6 推论 设 A ⊂ M n A \subset M_{n} A ⊂ M n , 则 A A A 是对称矩阵, 当且仅当存在矩阵 S ∈ M n S \in M_{n} S ∈ M n 使得 A = S S T A = SS^{T} A = S S T . 可以选取 S = U D S = UD S = U D , 其中 U U U 是两矩阵, D = diag ( σ 1 , σ 2 , … , σ n ) D = \operatorname{diag}(\sqrt{\sigma_{1}}, \sqrt{\sigma_{2}}, \dots, \sqrt{\sigma_{n}}) D = diag ( σ 1 , σ 2 , … , σ n ) , 而 σ i \sigma_{i} σ i 是 A A A 的奇异值, 在这种情形, rank S = rank A \operatorname{rank} S = \operatorname{rank} A rank S = rank A .
虽然实对称矩阵是正规的,但非实复对称矩阵不一定是正规的。如果 A = B + i C ∈ M n A = B + iC \in M_n A = B + i C ∈ M n ,其中 B B B 和 C C C 是实矩阵,则 A A A 是对称矩阵,当且仅当 B B B 和 C C C 都是实对称矩阵。如果 A A A 既是对称矩阵,又是正规矩阵,则
A A ∗ = ( B 2 + C 2 ) + i ( C B − B C ) = ( B 2 + C 2 ) + i ( B C − C B ) = A ∗ A A A ^ {*} = \left(B ^ {2} + C ^ {2}\right) + i (C B - B C) = \left(B ^ {2} + C ^ {2}\right) + i (B C - C B) = A ^ {*} A A A ∗ = ( B 2 + C 2 ) + i ( CB − BC ) = ( B 2 + C 2 ) + i ( BC − CB ) = A ∗ A 由此可以推出 B B B 与 C C C 可交换。在这种情形下, B B B 和 C C C 可经实正交矩阵 Q Q Q 同时对角化。如果 B = Q D 1 Q T B = QD_{1}Q^{T} B = Q D 1 Q T ,且 C = Q D 2 Q T C = QD_{2}Q^{T} C = Q D 2 Q T ,其中 D 1 D_{1} D 1 和 D 2 D_{2} D 2 是实对角矩阵,则 A = B + i C = Q D 1 Q T + i Q D 2 Q T = Q ( D 1 + i D 2 ) Q T = Q Λ Q T A = B + iC = QD_{1}Q^{T} + iQD_{2}Q^{T} = Q(D_{1} + iD_{2})Q^{T} = Q\Lambda Q^{T} A = B + i C = Q D 1 Q T + i Q D 2 Q T = Q ( D 1 + i D 2 ) Q T = Q Λ Q T ,其中 Λ = D 1 + i D 2 \Lambda = D_{1} + iD_{2} Λ = D 1 + i D 2 。反之,如果矩阵 A ∈ M n A \in M_{n} A ∈ M n 可写成 A = Q Λ Q T A = Q\Lambda Q^{T} A = Q Λ Q T ,其中 Q Q Q 是实正交矩阵,而 Λ \Lambda Λ 是对角矩阵,则 A = A T A = A^{T} A = A T ,且 A A ′ = Q Λ Q T Q Λ ˉ Q T = Q ∣ A ∣ 2 Q T = Q Λ ˉ Q T Q Λ Q T = A ∗ A AA^{\prime} = Q\Lambda Q^{T}Q\bar{\Lambda} Q^{T} = Q|A|^{2}Q^{T} = Q\bar{\Lambda} Q^{T}Q\Lambda Q^{T} = A^{*}A A A ′ = Q Λ Q T Q Λ ˉ Q T = Q ∣ A ∣ 2 Q T = Q Λ ˉ Q T Q Λ Q T = A ∗ A ,因而 A A A 既是对称矩阵,又是正规矩阵。这就证明了下面的定理。
4.4.7 定理 设 A ∈ M n A \in M_{n} A ∈ M n , 那么, A A A 既是对称矩阵, 又是正规矩阵, 当且仅当存在实正交矩阵 Q ∈ M n ( R ) Q \in M_{n}(\mathbb{R}) Q ∈ M n ( R ) 和对角矩阵 Λ ∈ M n \Lambda \in M_{n} Λ ∈ M n 使得 A = Q Λ Q T A = Q\Lambda Q^{T} A = Q Λ Q T .
一个既对称又正规的复矩阵的简单的有用例子是
S = 1 2 ( I + i B ) , (4.4.8) S = \frac {1}{\sqrt {2}} (I + i B), \tag {4.4.8} S = 2 1 ( I + i B ) , ( 4.4.8 ) 其中 B B B 是“后向单位”矩阵
B = [ 0 1 ⋱ 1 0 ] , B = \left[ \begin{array}{c c c} 0 & & 1 \\ & \ddots & \\ 1 & & 0 \end{array} \right], B = 0 1 ⋱ 1 0 , 207
它曾在(3.2.3)中证明每个矩阵相似于它的转置时起过作用.
因为 B 2 = I B^{2} = I B 2 = I ,所以
S S ˉ = 1 2 ( I + i B ) ( I − i B ) = 1 2 ( I − i B + i B + B 2 ) = I , S \bar {S} = \frac {1}{2} (I + i B) (I - i B) = \frac {1}{2} (I - i B + i B + B ^ {2}) = I, S S ˉ = 2 1 ( I + i B ) ( I − i B ) = 2 1 ( I − i B + i B + B 2 ) = I , 由此可知,S既是对称矩阵又是酉矩阵
现在考虑具有零主对角线的标准Jordan块 J k ( 0 ) J_{k}(0) J k ( 0 ) , k ⩾ 2 k\geqslant 2 k ⩾ 2 ,把它写成形式
N = [ 0 1 0 ⋱ ⋱ 1 0 0 ] ∈ M k . N = \left[ \begin{array}{c c c c} 0 & 1 & & 0 \\ & & \ddots & \\ & & \ddots & 1 \\ 0 & & & 0 \end{array} \right] \in M _ {k}. N = 0 0 1 ⋱ ⋱ 0 1 0 ∈ M k . 经简单计算可知
B N B = ∣ 0 0 1 ⋱ 0 1 0 ] , B N B = \left| \begin{array}{c c c c} 0 & & & 0 \\ 1 & & & \\ & \ddots & & \\ 0 & & 1 & 0 \end{array} \right], BNB = 0 1 0 ⋱ 1 0 0 , B N = [ 0 0 1 ⋱ 0 1 0 ] , B N = \left[ \begin{array}{c c c} 0 & & 0 \\ & & 1 \\ & \ddots & \\ 0 & 1 & 0 \end{array} \right], BN = 0 0 ⋱ 1 0 1 0 , N B = [ 0 1 0 ⋱ 1 ⋱ 0 0 ] . N B = \left[ \begin{array}{c c c c} 0 & & 1 & 0 \\ & \ddots & & \\ 1 & & \ddots & \\ 0 & & & 0 \end{array} \right]. NB = 0 1 0 ⋱ 1 ⋱ 0 0 . 因此, N N N 酉相似于矩阵
S N S 1 = S N S ˉ = 1 2 ( I + i B ) N ( I − i B ) = 1 2 ( N + B N B ) + i 2 ( B N − N B ) = 1 2 [ 0 1 0 1 ⋱ ⋱ ⋱ 1 0 1 0 ] + i 2 [ 0 − 1 0 ⋱ 1 − 1 ⋱ 0 1 0 ] , (4.4.8a) \begin{array}{l} S N S ^ {1} = S N \bar {S} = \frac {1}{2} (I + i B) N (I - i B) \\ = \frac {1}{2} (N + B N B) + \frac {i}{2} (B N - N B) \\ = \frac {1}{2} \left[ \begin{array}{c c c c} 0 & 1 & & 0 \\ 1 & & \ddots & \\ & \ddots & & \\ & \ddots & & 1 \\ 0 & & 1 & 0 \end{array} \right] + \frac {i}{2} \left[ \begin{array}{c c c c} 0 & & - 1 & 0 \\ & \ddots & & 1 \\ - 1 & & \ddots & \\ 0 & 1 & & 0 \end{array} \right], \tag {4.4.8a} \\ \end{array} SN S 1 = SN S ˉ = 2 1 ( I + i B ) N ( I − i B ) = 2 1 ( N + BNB ) + 2 i ( BN − NB ) = 2 1 0 1 0 1 ⋱ ⋱ ⋱ 1 0 1 0 + 2 i 0 − 1 0 ⋱ 1 − 1 ⋱ 0 1 0 , ( 4.4.8a ) ,
它显然是对称矩阵。任一Jordan块 J k ( λ ) ( k ⩾ 2 ) J_{k}(\lambda)(k \geqslant 2) J k ( λ ) ( k ⩾ 2 ) 具有形式 λ I ∣ N \lambda I \mid N λ I ∣ N ,又 S N S − 1 SNS^{-1} SN S − 1 是对称矩阵,所以 S J k ( λ ) S − 1 = S ( λ I + N ) S − 1 = λ I + S N S − 1 SJ_{k}(\lambda)S^{-1} = S(\lambda I + N)S^{-1} = \lambda I + SNS^{-1} S J k ( λ ) S − 1 = S ( λ I + N ) S − 1 = λ I + SN S − 1 是对称矩阵。
每个矩阵 Λ ∈ M n \Lambda \in M_{n} Λ ∈ M n 都相似于它的Jordan标准形 J ( 3.1.14 ) J(3.1.14) J ( 3.1.14 ) ,其中 ε = 2 \varepsilon = 2 ε = 2 ,且 J = J n 1 ( λ 1 , 2 ) ⊕ ⋯ ⊕ J n k ( λ k , 2 ) J = J_{n_1}(\lambda_1, 2) \oplus \dots \oplus J_{n_k}(\lambda_k, 2) J = J n 1 ( λ 1 , 2 ) ⊕ ⋯ ⊕ J n k ( λ k , 2 ) 是修改后的诸Jordan块 J n i ( λ i , 2 ) J_{n_i}(\lambda_i, 2) J n i ( λ i , 2 ) 的直和。这个论断(它相当于在上述论证中用 2 N 2N 2 N 代替 N N N )允许我们略去(1.4.8a)中的系数因子 1 2 \frac{1}{2} 2 1 。当 n i ⩾ 2 n_i \geqslant 2 n i ⩾ 2 时,如果我们设 S n i ≡ ( 1 / 2 ) ( I + i B ) ∈ M n i S_{n_i} \equiv (1/\sqrt{2})(I + iB) \in M_{n_i} S n i ≡ ( 1/ 2 ) ( I + i B ) ∈ M n i 是形如(1.4.8)的 n i × n i n_i \times n_i n i × n i 矩阵,且 S 1 ≡ [ 1 ] S_1 \equiv [1] S 1 ≡ [ 1 ] ;如果令 T = S n 1 ⊕ ⋯ ⊕ S n k T = S_{n_1} \oplus \dots \oplus S_{n_k} T = S n 1 ⊕ ⋯ ⊕ S n k ,则上述论证说明,
T J T 1 = T J T ˉ − ( S n 1 J n 1 ( λ 1 .2 ) S n 1 ) ⊕ ⋯ ⊕ ( S n k J n k ( λ k , 2 ) S ˉ n k ) T J T ^ {1} = T J \bar {T} - \left(S _ {n _ {1}} J _ {n _ {1}} \left(\lambda_ {1}. 2\right) S _ {n _ {1}}\right) \oplus \dots \oplus \left(S _ {n _ {k}} J _ {n _ {k}} \left(\lambda_ {k}, 2\right) \bar {S} _ {n _ {k}}\right) T J T 1 = T J T ˉ − ( S n 1 J n 1 ( λ 1 .2 ) S n 1 ) ⊕ ⋯ ⊕ ( S n k J n k ( λ k , 2 ) S ˉ n k ) 是对称矩阵的直和,因而是对称矩阵。因为每个 S n i S_{n_i} S n i 是西矩阵,所以矩阵 T T T 是西矩阵,因此已经证明,呈Jordan标准形的每个矩阵等价于一个对称矩阵。因为每个矩阵相似Jordan矩阵,故已经证明了下述定理。
4.4.9 定理 每个矩阵 Λ ∈ M n \Lambda \in M_{n} Λ ∈ M n 相似于对称矩阵。 实际上,已经证明每个矩阵 A ∈ M n A \in M_{n} A ∈ M n 相似于对称Jordan标准形 S α 1 ( λ 1 ) ⊕ ⋯ ⊕ S α k ( λ k ) S_{\alpha_{1}}(\lambda_{1}) \oplus \dots \oplus S_{\alpha_{k}}(\lambda_{k}) S α 1 ( λ 1 ) ⊕ ⋯ ⊕ S α k ( λ k ) ,其中,如果 λ − α ⊢ i β \lambda - \alpha \vdash i\beta λ − α ⊢ i β ,且 α , β ∈ R \alpha, \beta \in \mathbb{R} α , β ∈ R 则
S k ( λ ) − S J k ( λ , 2 ) S ˙ − λ I + S N S ¨ − λ I = [ 0 1 0 1 0 ⋱ ⋱ ⋱ 1 0 1 0 ] + i [ 0 − 1 0 ⋱ ⋱ 1 − 1 ⋱ 0 1 0 ] ∈ M k , \begin{array}{l} S _ {k} (\lambda) - S J _ {k} (\lambda , 2) \dot {S} - \lambda I + S N \ddot {S} \\ - \lambda I = \left[ \begin{array}{c c c c} 0 & 1 & & 0 \\ 1 & 0 & \ddots & \\ & \ddots & \ddots & 1 \\ 0 & & 1 & 0 \end{array} \right] + i \left[ \begin{array}{c c c c} & 0 & - 1 & 0 \\ & \ddots & \ddots & 1 \\ - 1 & & \ddots & \\ 0 & 1 & & 0 \end{array} \right] \in M _ {k}, \\ \end{array} S k ( λ ) − S J k ( λ , 2 ) S ˙ − λ I + SN S ¨ − λ I = 0 1 0 1 0 ⋱ ⋱ ⋱ 1 0 1 0 + i − 1 0 0 ⋱ 1 − 1 ⋱ ⋱ 0 1 0 ∈ M k , 且 S S S 由(4.4.8)给出,注意
S 1 ( λ ) − [ λ ] 而 S 2 ( λ ) = [ λ − i 1 1 λ + i ] . S _ {1} (\lambda) - [ \lambda ] \quad {\text {而}} \quad S _ {2} (\lambda) = {\left[ \begin{array}{l l} {\lambda - i} & {1} \\ {1} & {\lambda + i} \end{array} \right]}. S 1 ( λ ) − [ λ ] 而 S 2 ( λ ) = [ λ − i 1 1 λ + i ] . 因为这种形式是直接从 Jordan 标准形推导出来的,所以它的唯一性与 Jordan 标准形的唯一性相同.
这个结论的一个推论是,关于复对称矩阵的谱、Jordan块、极小多项式、特征多项式或不变因式都没有任何特别的结果。如果这些量中任何一个可以出现在某个阶数的对称矩阵中,则它也可以出现在同阶的一般复矩阵中。 M n M_{n} M n 中的每个相似类包含一个对称矩阵, C n \mathbf{C}^{n} C n 上的每个线性变换有一个对称的基表示,矩阵的对称性只不过是为表示相应线性变换而选定一个特殊的基的人为现象。另一个推论是,每个矩阵在某种意义下“可对角化”。
4.4.10 推论 设 Λ ∈ M n \Lambda \in M_{n} Λ ∈ M n 已知,则存在非奇异矩阵 S S S 和酉矩阵 U U U ,使得 ( U S ) A ( U S ‾ ) − 1 (US)A(\overline{US})^{-1} ( U S ) A ( U S ) − 1 是具有非负对角元的对角矩阵。 证明:利用(4.4.9)求非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n 使 S A S − 1 \mathbf{SAS}^{-1} SAS − 1 是对称矩阵,然后利用(4.4.4)求酉矩阵 U ∈ M n U \in M_{n} U ∈ M n 使 U ( S A S − 1 ) U T U(\mathbf{SAS}^{-1})\mathbf{U}^{T} U ( SAS − 1 ) U T 是非负对角矩阵。
定理(4.4.9)同时推出;每个复矩阵相似于它的转置,且每个复矩阵可以写成两个复对称矩阵的乘积。这两个结论对任意域上的矩阵都成立,但定理(4.4.9)对一般域不成立。
4.4.11 推论 设 A ∈ M n A \in M_{n} A ∈ M n 已知,则存在矩阵 B B B , C ∈ M n C \in M_{n} C ∈ M n ,使得 B − B T B - B^{T} B − B T , C − C T C - C^{T} C − C T ,且 A = B C A = BC A = BC 。 B B B 或 C C C 可以选为非奇异矩阵。
证明:利用本定理把 A A A 写成 A = S E S ′ A = SES^{\prime} A = SE S ′ ,其中 E = E T E = E^{T} E = E T ,且 S S S 是非奇异矩阵。于是 A = ( S E S ′ ) ( S ′ ) − 1 S − 1 = ( S E S ′ ) ( S S ′ ) − 1 = B C A = (SES^{\prime})(S^{\prime})^{-1}S^{-1} = (SES^{\prime})(SS^{\prime})^{-1} = BC A = ( SE S ′ ) ( S ′ ) − 1 S − 1 = ( SE S ′ ) ( S S ′ ) − 1 = BC ,其中 B = S E S ′ B = SES^{\prime} B = SE S ′ 和 C = S S ′ C = SS^{\prime} C = S S ′ 都是对称矩阵。又因为 A = ( S S ′ ) ( S − 1 ) T E S − 1 A = (SS^{\prime})(S^{-1})^{T}ES^{-1} A = ( S S ′ ) ( S − 1 ) T E S − 1 ,所以因子 B B B 或 C C C 可以选为非奇异矩阵。
Gram-Schmidt 过程 (0.6.4) 在研究正规矩阵中有许多应用。有一个类似的过程对研究复对称矩阵是有用的。
4.4.12 引理 设 x 1 , ⋯ , x k ∈ C n x_{1}, \cdots, x_{k} \in \mathbb{C}^{n} x 1 , ⋯ , x k ∈ C n 是给定的向量,且 k ⩽ n k \leqslant n k ⩽ n 。则存在向量 y 1 , ⋯ , y k y_{1}, \cdots, y_{k} y 1 , ⋯ , y k ,使得 Span { x 1 , ⋯ , x k } = Span { y 1 , ⋯ , y k } \operatorname{Span}\{x_{1}, \cdots, x_{k}\} = \operatorname{Span}\{y_{1}, \cdots, y_{k}\} Span { x 1 , ⋯ , x k } = Span { y 1 , ⋯ , y k } ,并且对所有 i i i , j − 1 j-1 j − 1 ,2, ⋯ \cdots ⋯ , k k k 及 i ≠ j i \neq j i = j 有 y i T y j = 0 y_{i}^{T}y_{j} = 0 y i T y j = 0 ,对 i = 1 , 2 , ⋯ r i=1,2, \cdots r i = 1 , 2 , ⋯ r 有 y i T y i = 1 y_{i}^{T}y_{i}=1 y i T y i = 1 ,对 i = r + 1 , ⋯ , k i=r+1, \cdots, k i = r + 1 , ⋯ , k 有 y i T y i = 0 y_{i}^{T}y_{i}=0 y i T y i = 0 。其中 r = rank X T X r=\operatorname{rank} X^{T}X r = rank X T X 且 X = [ x 1 ⋯ x k ] ∈ M n , k X=[x_{1} \cdots x_{k}]\in M_{n,k} X = [ x 1 ⋯ x k ] ∈ M n , k 是其列为已知向量 { x i } \{x_{i}\} { x i } 的矩阵。
证明:因为矩阵 X T X X^T X X T X 是对称矩阵,Takagi分解定理(4.4.4)使我们可以把它写成 X T X = U Σ U † X^T X = U \Sigma U^{\dagger} X T X = U Σ U † ,其中, U ∈ M k U \in M_k U ∈ M k 是两矩阵且 Σ − d i a g ( σ 1 , … , σ k ) \Sigma - \mathrm{diag}(\sigma_1, \dots, \sigma_k) Σ − diag ( σ 1 , … , σ k ) ,而 σ 1 ⩾ σ 2 ⩾ ⋯ ⩾ σ r > σ r − 1 = 0 = ⋯ = σ k \sigma_1 \geqslant \sigma_2 \geqslant \dots \geqslant \sigma_r > \sigma_{r-1} = 0 = \dots = \sigma_k σ 1 ⩾ σ 2 ⩾ ⋯ ⩾ σ r > σ r − 1 = 0 = ⋯ = σ k , rank X T X = r \operatorname{rank} X^T X = r rank X T X = r 。如果令 D = diag ( σ 1 , … , σ r , 1 , … , 1 ) ∈ M k D = \operatorname{diag}(\sqrt{\sigma_1}, \dots, \sqrt{\sigma_r}, 1, \dots, 1) \in M_k D = diag ( σ 1 , … , σ r , 1 , … , 1 ) ∈ M k ,且记 I r = diag ( 1 , … , 1 , 0 , … , 0 ) ∈ M k I_r = \operatorname{diag}(1, \dots, 1, 0, \dots, 0) \in M_k I r = diag ( 1 , … , 1 , 0 , … , 0 ) ∈ M k ,它有 r r r 个 1 和 k − r k - r k − r 个 0,则 X T X − ( U D ) I r ( U D ) T = S T I r S X^T X - (UD)I_r(UD)^T = S^T I_rS X T X − ( U D ) I r ( U D ) T = S T I r S 其中 S = D U † S = DU^{\dagger} S = D U † 是非奇异矩阵。因而 ( X S − 1 ) T ( X S − 1 ) = I r (XS^{-1})^T (XS^{-1}) = I_r ( X S − 1 ) T ( X S − 1 ) = I r ,因此,如果令 X S − 1 = Y ˉ = [ y 1 , … , y k ] ∈ M n , k XS^{-1} = \bar{Y} = [y_1, \dots, y_k] \in M_{n,k} X S − 1 = Y ˉ = [ y 1 , … , y k ] ∈ M n , k ,因为 Y ˉ T Y ˉ − I r \bar{Y}^T \bar{Y} - I_r Y ˉ T Y ˉ − I r ,则列向量 y 1 , … , y n y_1, \dots, y_n y 1 , … , y n 具有所要证明的性质。
上述引理叙述的法则形式上类似于Gram-Schmidt过程,Gram-Schmidt过程是针对 X ′ X X^{\prime}X X ′ X 而不是 X ′ X X^{\prime}X X ′ X 。在Gram-Schmidt过程中,对每个 j − 1 , 2 , ⋯ , k j-1, 2, \cdots, k j − 1 , 2 , ⋯ , k ,每个 y j y_{j} y j 可以作成 x 1 , ⋯ , x j x_{1}, \cdots, x_{j} x 1 , ⋯ , x j 的线性组合,但在这里可能行不通。另一个差别是,在Gram-Schmidt过程中,具有 y i ∗ y i = 1 y_{i}^{*}y_{i}=1 y i ∗ y i = 1 的向量 y i y_{i} y i 的个数等于 rank X \operatorname{rank} X rank X (诸无关向量 x i x_{i} x i 的最大个数),它等于 rank X ∗ X \operatorname{rank} X^{*}X rank X ∗ X 。但是在这种情形,具有 y i r y i − 1 y_{i}^{r}y_{i}-1 y i r y i − 1 的向量 y i y_{i} y i 的个数等于 X T X X^{T}X X T X 的秩,它可能小于 rank X \operatorname{rank} X rank X 。
例 假定 k = 1 k = 1 k = 1 ,且 x 1 = X = [ 1 i ] x_{1} = X = \left[ \begin{array}{l} 1 \\ i \end{array} \right] x 1 = X = [ 1 i ] 。则 X T X = 0 X^{T}X = 0 X T X = 0 ,因而 0 = rank X 0 = \operatorname{rank} X 0 = rank X ,它严格小于 rank X − 1 \operatorname{rank} X - 1 rank X − 1 , y 1 y_{1} y 1 只可能是 x 1 x_{1} x 1 的纯量倍,因此不可能选取 y 1 y_{1} y 1 使得 Span { x 1 } = Span { y 1 } \operatorname{Span}\{x_{1}\} = \operatorname{Span}\{y_{1}\} Span { x 1 } = Span { y 1 } 而又 y 1 T y 1 = 1 y_{1}^{T}y_{1} = 1 y 1 T y 1 = 1 。
例 假定 k = 2 k = 2 k = 2 ,且 X = [ x 1 x 2 ] = ⌊ 1 i i 1 ⌋ X = \left[x_{1} x_{2}\right] = \left\lfloor \begin{array}{cc} 1 & i \\ i & 1 \end{array} \right\rfloor X = [ x 1 x 2 ] = ⌊ 1 i i 1 ⌋ 。则 rank X T X = 2 \operatorname{rank} X^T X = 2 rank X T X = 2 ,并且存在向量 y 1 , y 2 y_{1}, y_{2} y 1 , y 2 使得 Span { y 1 , y 2 } = Span { x 1 , x 2 } \operatorname{Span}\{y_{1}, y_{2}\} = \operatorname{Span}\{x_{1}, x_{2}\} Span { y 1 , y 2 } = Span { x 1 , x 2 } 及 y 1 T y 1 = 1 = y 2 T y 2 y_{1}^{T} y_{1} = 1 = y_{2}^{T} y_{2} y 1 T y 1 = 1 = y 2 T y 2 ,因为 x 1 T x 1 = 0 x_{1}^{T} x_{1} = 0 x 1 T x 1 = 0 ,所以不可能选取 y 1 y_{1} y 1 为 x 1 x_{1} x 1 的纯量倍。
我们所考虑的直接应用是针对可对角化复对称矩阵的特殊情形的。如果 A = A T ∈ M n A = A^T \in M_n A = A T ∈ M n ,且 A = S Λ S − 1 A = S\Lambda S^{-1} A = S Λ S − 1 ,其中,对角矩阵 Λ ∈ M n \Lambda \in M_n Λ ∈ M n ,非奇异矩阵 S ∈ M n S \in M_n S ∈ M n ,则显然不能从这个通常的对角化表示推出 A A A 是对称矩阵。但是,如果 S S S 是复正交矩阵,则 S − 1 = S T S^{-1} = S^T S − 1 = S T ,且 A = S Λ S − 1 = S Λ S T A = S\Lambda S^{-1} = S\Lambda S^T A = S Λ S − 1 = S Λ S T 显然是对称矩阵。下面的定理说明,总可以选取 S S S 为复正交矩阵。
4.4.13 定理 设 A ∈ M n A \in M_{n} A ∈ M n 是对称矩阵,则 A A A 可对角化,当且仅当它可复正交对角化,也就是说, A = S Δ S − 1 A = S\Delta S^{-1} A = S Δ S − 1 对于对角矩阵 A ∈ M n A \in M_{n} A ∈ M n 和非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n 成立当且仅当 A = Q Δ Q r A = Q\Delta Q^{r} A = Q Δ Q r ,其中 Q ∈ Q \in Q ∈
M n M_{n} M n 适合 Q T Q − I Q^T Q - I Q T Q − I
证明:假定 A = A ′ A = A^{\prime} A = A ′ ,又设 x , y ∈ C n x, y \in \mathbb{C}^{n} x , y ∈ C n 是 A A A 的特征向量,且 A x = λ x , A y = μ y Ax = \lambda x, Ay = \mu y A x = λ x , A y = μ y 。如果 λ ≠ μ \lambda \neq \mu λ = μ 则 y ′ A x − y ′ λ x = λ y ′ x y^{\prime}Ax - y^{\prime}\lambda x = \lambda y^{\prime}x y ′ A x − y ′ λ x = λ y ′ x ,且 y ′ A x = ( A y ) ′ x = ( μ y ) ′ x = μ y ′ x y^{\prime}Ax = (Ay)^{\prime}x = (\mu y)^{\prime}x = \mu y^{\prime}x y ′ A x = ( A y ) ′ x = ( μ y ) ′ x = μ y ′ x ,因而 λ y ′ x = μ y ′ x \lambda y^{\prime}x = \mu y^{\prime}x λ y ′ x = μ y ′ x ,又因为 λ ≠ μ \lambda \neq \mu λ = μ ,所以 y ′ x = 0 y^{\prime}x = 0 y ′ x = 0 。这只不过是把双正交性原理(1.4.7)应用于对称矩阵。如果 A A A 是可对角化的,且 A = S Λ S − 1 A = S\Lambda S^{-1} A = S Λ S − 1 ,不失一般性,假定在 Λ = Λ 1 + ⋯ + Λ d \Lambda = \Lambda_{1} + \dots + \Lambda_{d} Λ = Λ 1 + ⋯ + Λ d 中, A A A 的相同特征值排放在一起,其中 Λ i = λ i I ∈ M n i \Lambda_{i} = \lambda_{i}I \in M_{n_{i}} Λ i = λ i I ∈ M n i , n 1 + ⋯ + n i = n n_{1} + \dots + n_{i} = n n 1 + ⋯ + n i = n ,且当 i ≠ j i \neq j i = j 时 λ i ≠ λ j \lambda_{i} \neq \lambda_{j} λ i = λ j 。把 S S S 的诸列块分成 S = [ s 1 ⋯ s n ] = [ S 1 S 2 ⋯ S d ] S = [s_{1} \cdots s_{n}] = [S_{1}S_{2} \cdots S_{d}] S = [ s 1 ⋯ s n ] = [ S 1 S 2 ⋯ S d ] 使之与 Λ = Λ 1 + ⋯ + Λ d \Lambda = \Lambda_{1} + \dots + \Lambda_{d} Λ = Λ 1 + ⋯ + Λ d 分法相同。于是,对 i = 1 , 2 , … , d i = 1, 2, \dots, d i = 1 , 2 , … , d , S i ∈ M n i S_{i} \in M_{n_{i}} S i ∈ M n i 。由双正交性质,如果 i ≠ j i \neq j i = j ,则 S i ′ S j = 0 ∈ M n i S_{i}^{\prime}S_{j} = 0 \in M_{n_{i}} S i ′ S j = 0 ∈ M n i ,因为 S ′ S S^{\prime}S S ′ S 是非奇异分块对角矩阵,所以,对所有 i = 1 , 2 , … , d i = 1, 2, \dots, d i = 1 , 2 , … , d , S i ′ S j S_{i}^{\prime}S_{j} S i ′ S j 非奇异。由于每个矩阵 S i ′ S j S_{i}^{\prime}S_{j} S i ′ S j 是满秩的,引理(4.1.12)说明,每个 S i S_{i} S i 的诸列可以用新列来代替,它们是诸旧列的非奇异线性组合,且彼此复正交;即存在非奇异矩阵 R i ∈ M n i R_{i} \in M_{n_{i}} R i ∈ M n i 使 Q i = S i R i Q_{i} = S_{i}R_{i} Q i = S i R i 适合 Q i ′ Q j = R i ′ S i ′ S j R j = I ∈ M n j Q_{i}^{\prime}Q_{j} = R_{i}^{\prime}S_{i}^{\prime}S_{j}R_{j} = I \in M_{n_{j}} Q i ′ Q j = R i ′ S i ′ S j R j = I ∈ M n j ,因为对所有 i ≠ j i \neq j i = j , Q i ′ Q j = R i ′ S i ′ S j R j = 0 Q_{i}^{\prime}Q_{j} = R_{i}^{\prime}S_{i}^{\prime}S_{j}R_{j} = 0 Q i ′ Q j = R i ′ S i ′ S j R j = 0 ,又对 i = 1 , 2 , … , d i = 1, 2, \dots, d i = 1 , 2 , … , d , A Q i ⋅ A S i R i = λ i S i R i = λ i Q i AQ_{i} \cdot AS_{i}R_{i} = \lambda_{i}S_{i}R_{i} = \lambda_{i}Q_{i} A Q i ⋅ A S i R i = λ i S i R i = λ i Q i 。所以矩阵 Q = [ Q 1 ⋯ Q d ] ∈ M n Q = [Q_1 \cdots Q_d] \in M_n Q = [ Q 1 ⋯ Q d ] ∈ M n 是复正交的,且 A = Q A Q † A = QAQ^{\dagger} A = Q A Q † □
上述结论可对定理(1.4.7)作出很好的解释:对称矩阵 A A A 可对角化,当且仅当 A = Q Λ Q ′ A = Q\Lambda Q^{\prime} A = Q Λ Q ′ 且 Q Q Q 是复正交矩阵;又 A A A 是正规矩阵,当且仅当 Q Q Q 可以选为实正交矩阵。
可以对定理(4.1.13)中的结果稍作推广。若 A , B ∈ M n A, B \in M_n A , B ∈ M n 是对称矩阵,则 A A A 与 B B B 相似当且仅当它们可以通过复正交相似来实现相似。事实上,假定存在一个多项式 p ( t ) p(t) p ( t ) 使得 A T = p ( A ) A^T = p(A) A T = p ( A ) 且 B t = p ( B ) B^t = p(B) B t = p ( B ) ,在这个较弱的假定下上述推广成立。见[HJ]。
习题 假定 A ∈ M n A \in M_{n} A ∈ M n 是对称矩阵,且 A = B + i C A = B + iC A = B + i C ,其中 B , C ∈ M n B, C \in M_{n} B , C ∈ M n 都是实矩阵。证明, A A A 是正规矩阵,当且仅当 B B B 与 C C C 可交换,证明, A A A 是正规矩阵,当且仅当 A A ‾ A\overline{A} A A 是实矩阵。证明, A A A 是正规矩阵,当且仅当 A A A 与 A A A 可交换。给出一个对称矩阵不是正规矩阵的例子。
下面给出推论(4.4.1)的另一个证明的要点,请作详细的论述。记号和假设如(4.4.4)中所述。若 A A A 是奇异的,设 { u 1 , ⋯ , u s } \{u_{1}, \cdots, u_{s}\} { u 1 , ⋯ , u s } 是 A A A 的零空间的一组标准正交基且 U = [ u 1 ⋯ u k u k − 1 ⋯ u n ] ∈ M n U = [u_{1} \cdots u_{k} u_{k-1} \cdots u_{n}] \in M_{n} U = [ u 1 ⋯ u k u k − 1 ⋯ u n ] ∈ M n 是两矩阵,则
U ′ A U = [ 0 0 0 A ′ ] , A ′ ∈ M n , U ^ {\prime} A U = \left[ \begin{array}{l l} 0 & 0 \\ 0 & A ^ {\prime} \end{array} \right], \quad A ^ {\prime} \in M _ {n}, U ′ A U = [ 0 0 0 A ′ ] , A ′ ∈ M n , 其中 A ′ A' A ′ 是非奇异对称矩阵。因此,不失一般性,我们可以假定 A A A 是非奇异的。设 A = B + i C A = B + iC A = B + i C ,其中 B , C B, C B , C 是实矩阵,且设 z = x + i y ∈ C n z = x + iy \in \mathbb{C}^n z = x + i y ∈ C n ,其中 x , y ∈ R n x, y \in \mathbb{R}^n x , y ∈ R n 。又设 F = [ B C C − B ] F = \begin{bmatrix} B & C \\ C & -B \end{bmatrix} F = [ B C C − B ] , z ~ = [ x − y ] ∈ R 2 n \tilde{z} = \left[ \begin{array}{c}x \\ -y \end{array} \right] \in \mathbb{R}^{2n} z ~ = [ x − y ] ∈ R 2 n 。(a) B , C B, C B , C 和 F F F 是实对称矩阵。讨论 A z = ( B + i C ) ( x + i y ) Az = (B + iC)(x + iy) A z = ( B + i C ) ( x + i y ) 与 F z ~ F\tilde{z} F z ~ 之间的关系。(b) F F F 是非奇异的。提示:若 F z ~ = 0 F\tilde{z} = 0 F z ~ = 0 , A z Az A z 是什么?(c)若 F [ x − y ] = λ [ x − y ] F\left[ \begin{array}{c}x \\ -y \end{array} \right] = \lambda \left[ \begin{array}{c}x \\ -y \end{array} \right] F [ x − y ] = λ [ x − y ] ,则 F [ y x ] = − λ [ y x ] F\left[ \begin{array}{c}y \\ x \end{array} \right] = -\lambda \left[ \begin{array}{c}y \\ x \end{array} \right] F [ y x ] = − λ [ y x ] 。可以把 F F F 的非零特征值按一正一负配对。(d)设 F F F 相应于其正特征值 λ 1 , … , λ n \lambda_1, \ldots, \lambda_n λ 1 , … , λ n 的标准正交特征向量记作 z ˉ ~ i = [ x i y i ] ∈ R 2 n \tilde{\bar{z}}_i = \left[ \begin{array}{c}x_i \\ y_i \end{array} \right] \in \mathbb{R}^{2n} z ˉ ~ i = [ x i y i ] ∈ R 2 n , i = 1 , 2 , … , n i = 1, 2, \ldots, n i = 1 , 2 , … , n ,设 X = [ x 1 ⋯ x n ] X = [x_1 \cdots x_n] X = [ x 1 ⋯ x n ] , Y = [ y 1 ⋯ y n ] ∈ M n Y = [y_1 \cdots y_n] \in M_n Y = [ y 1 ⋯ y n ] ∈ M n ,又设 Σ \Sigma Σ
= d i a g ( λ 1 , … , λ n ) ∈ M n = \mathrm{diag}(\lambda_1,\dots ,\lambda_n)\in M_n = diag ( λ 1 , … , λ n ) ∈ M n ,关于实对称矩阵的谱定理是指 F = V Δ V T F = V_{\Delta}V^{T} F = V Δ V T ,其中
V = [ X Y Y X ] 而 Λ = [ Σ 0 0 − Σ ] , V = \left[ \begin{array}{c c} {{X}} & {{Y}} \\ {{Y}} & {{X}} \end{array} \right] \quad \text {而} \quad \Lambda = \left[ \begin{array}{c c} {{\Sigma}} & {{0}} \\ {{0}} & {{- \Sigma}} \end{array} \right], V = [ X Y Y X ] 而 Λ = [ Σ 0 0 − Σ ] , 且 V V V 是实正交矩阵.(为什么?)设 U ≡ X − i Y U \equiv X - iY U ≡ X − iY 证明 U U U 是酉矩阵且 U Σ U r = A U\Sigma U^r = A U Σ U r = A
当 A A A 是实对称矩阵时,(4.4.4)说的是什么?它与实对称矩阵的通常谱分解有何关系?提示:如果 A = Q Λ Q T A = Q\Lambda Q^T A = Q Λ Q T ,其中, A A A 是实对称矩阵,而 Q Q Q 是实正交矩阵,把 A A A 写成 A = Σ D 2 A = \Sigma D^2 A = Σ D 2 且设 U = Q D U = QD U = Q D 。什么时候 Takagi 分解 A = U Σ U T A = U\Sigma U^T A = U Σ U T 中的所有因子可取实矩阵?
如果 A = U Σ U ⊺ ∈ M n A = U\Sigma U^{\intercal} \in M_{n} A = U Σ U ⊺ ∈ M n , 且 U U U 和 Σ \Sigma Σ 如(4.4.4)中所述, 试通过直接计算证明, σ i 2 \sigma_{i}^{2} σ i 2 是 A ‾ A \overline{A} A A A 和 A A ‾ A\overline{A} A A 的特征值, 且 A ‾ A \overline{A} A A A 和 A A ˙ A\dot{A} A A ˙ 是Hermite矩阵. 证明 U U U 的列 u i u_{i} u i 和数 σ i \sigma_{i} σ i 适合方程 A u ˉ i = σ i u i , i = 1 , 2 , … , n A\bar{u}_{i} = \sigma_{i}u_{i}, i = 1, 2, \dots, n A u ˉ i = σ i u i , i = 1 , 2 , … , n . 或许因为这个理由, 有时称 σ i \sigma_{i} σ i 为广义特征值, 不过, 术语奇异值似乎更为通用.
假定 A ∈ M n A \in M_{n} A ∈ M n 是对称矩阵,设 Σ \Sigma Σ 和 U U U 如(4.4.4)中所述,且把 A A A 的诸奇异值 σ i \sigma_{i} σ i 排成递减顺序 σ 1 ⩾ σ 2 ⩾ ⋯ ⩾ σ n ⩾ 0 \sigma_{1} \geqslant \sigma_{2} \geqslant \dots \geqslant \sigma_{n} \geqslant 0 σ 1 ⩾ σ 2 ⩾ ⋯ ⩾ σ n ⩾ 0 。(a)试修改Rayleigh-Ritz定理(4.2.2)的证明来证明 σ max = σ 1 = max { ∣ x T A x ∣ / x ∗ x : 0 ≠ x ∈ C n } \sigma_{\max} = \sigma_{1} = \max \{|x^{T}Ax| / x^{*}x: 0 \neq x \in \mathbf{C}^{n}\} σ m a x = σ 1 = max { ∣ x T A x ∣/ x ∗ x : 0 = x ∈ C n } ,即类似于(4.2.2)中的上界,复对称矩阵有相应的论述。试考虑 U U U 的第 l l l 列来证明,该极值由适合 A − = σ 1 x A^{-} = \sigma_{1}x A − = σ 1 x 的单位向量来达到。(b)试考虑 A = I ∈ M 2 A = I \in M_{2} A = I ∈ M 2 和 x = [ 1 i ] x = \left[ \begin{array}{l}1 \\ i \end{array} \right] x = [ 1 i ] 来说明,在这种情形, σ min = σ n ≠ min { ∣ x T A x ∣ / x ∗ x : 0 ≠ x ∈ C n } \sigma_{\min} = \sigma_{n} \neq \min \{|x^{T}Ax| / x^{*}x: 0 \neq x \in \mathbf{C}^{n}\} σ m i n = σ n = min { ∣ x T A x ∣/ x ∗ x : 0 = x ∈ C n } ,因而,类似于(4.2.2)中的下界,对复对称矩阵的相应论述不成立。(c)试考虑 A = I ∈ M 2 A = I \in M_{2} A = I ∈ M 2 , w = [ 1 i ] w = \left[ \begin{array}{l}1 \\ i \end{array} \right] w = [ 1 i ] 来说明 max { ∣ x T A x ∣ / x ∗ x : 0 ≠ x ∈ C n , x ⊥ w } = 0 \max \{|x^{T}Ax| / x^{*}x: 0 \neq x \in \mathbf{C}^{n}, x \perp w\} = 0 max { ∣ x T A x ∣/ x ∗ x : 0 = x ∈ C n , x ⊥ w } = 0 。由此得出,类似于Courant-Fischer极小-极大公式(4.2.12),对复对称矩阵及其奇异值的相应论述当 k > 1 k > 1 k > 1 时不成立。但是,可以看一看(7.3.10)。(d)类似于极大-极小公式(4.2.13),关于对称矩阵的相应论述是什么?(e)设 A ~ = [ 1 i i 1 ] ( σ ~ 1 = σ ~ 2 = 2 ) \widetilde{A} = \left[ \begin{array}{ll}1 & i \\ i & 1 \end{array} \right] (\tilde{\sigma}_{1} = \tilde{\sigma}_{2} = \sqrt{2}) A = [ 1 i i 1 ] ( σ ~ 1 = σ ~ 2 = 2 ) ,而 A = [ 1 ] ( σ 1 = 1 ) A = [1] (\sigma_{1} = 1) A = [ 1 ] ( σ 1 = 1 ) 是删去 A ~ \widetilde{A} A 的最后一行和最后一列后形成的矩阵。注意,类似于(4.3.9),交错不等式 σ ~ 1 ⩾ σ 1 ⩾ σ 2 \tilde{\sigma}_{1} \geqslant \sigma_{1} \geqslant \sigma_{2} σ ~ 1 ⩾ σ 1 ⩾ σ 2 是不成立的。(f)不过,还是有关于加边对称矩阵的诸奇异值的不等式。设 A ~ ∈ M n + 1 \widetilde{A} \in M_{n+1} A ∈ M n + 1 是对称矩阵且有奇异值 σ ~ 1 ⩾ ⋯ ⩾ σ ~ n + 1 \tilde{\sigma}_{1} \geqslant \dots \geqslant \tilde{\sigma}_{n+1} σ ~ 1 ⩾ ⋯ ⩾ σ ~ n + 1 ,而 A ∈ M n A \in M_{n} A ∈ M n (有奇异值 σ 1 ⩾ ⋯ ⩾ σ n \sigma_{1} \geqslant \dots \geqslant \sigma_{n} σ 1 ⩾ ⋯ ⩾ σ n )是删去 A ~ \widetilde{A} A 的一行和相应的列形成的矩阵。试用定理(7.3.9)证明, σ ~ k ⩾ σ k ⩾ σ ~ k + 2 \tilde{\sigma}_{k} \geqslant \sigma_{k} \geqslant \tilde{\sigma}_{k+2} σ ~ k ⩾ σ k ⩾ σ ~ k + 2 , k = 1 , … , n ( σ ~ n + 2 = 0 ) k = 1, \dots, n (\tilde{\sigma}_{n+2} = 0) k = 1 , … , n ( σ ~ n + 2 = 0 ) 。对于(e)中的例子验证这些不等式,然后把它们与关于加边Hermite矩阵的诸特征值的诸交错不等式(4.3.9)进行比较。
如果 A ∈ M n A \in M_{n} A ∈ M n 是对称矩阵,又如果 A = U Σ U t A = U\Sigma U^{t} A = U Σ U t ,其中, U U U 是两矩阵, Σ = diag ( σ 1 , σ 2 , … , σ n ) \Sigma = \operatorname{diag}(\sigma_{1}, \sigma_{2}, \dots, \sigma_{n}) Σ = diag ( σ 1 , σ 2 , … , σ n ) ,且所有 σ i ⩾ 0 \sigma_{i} \geqslant 0 σ i ⩾ 0 ,证明 A A A 的秩等于非零项 σ i \sigma_{i} σ i 的个数。提示:如果 B B B , C ∈ M n C \in M_{n} C ∈ M n 是非奇异矩阵,则 rank A = rank B A C \operatorname{rank} A = \operatorname{rank} BAC rank A = rank B A C 。
设 A = B + i C ∈ M n A = B + iC \in M_{n} A = B + i C ∈ M n ,其中 B , C B, C B , C 是实矩阵,又设 F = [ B C C − B ] ∈ M 2 n F = \left[ \begin{array}{cc} B & C \\ C & -B \end{array} \right] \in M_{2n} F = [ B C C − B ] ∈ M 2 n 。(a)证明, A A ‾ = B 2 + C 2 + i ( B C − C B ) \overline{AA} = B^2 + C^2 + i(BC - CB) AA = B 2 + C 2 + i ( BC − CB ) ,且
F 2 = [ B 2 + C 2 B C − C B − ( B C − C B ) B 2 + C 2 ] . F ^ {2} = \left[ \begin{array}{c c} B ^ {2} + C ^ {2} & B C - C B \\ - (B C - C B) & B ^ {2} + C ^ {2} \end{array} \right]. F 2 = [ B 2 + C 2 − ( BC − CB ) BC − CB B 2 + C 2 ] . (b) 证明 S ≡ ( 1 / 2 ) [ I − i I − i I I ] ∈ M 2 n S \equiv (1 / \sqrt{2})\left[ \begin{array}{cc}I & -iI\\ -iI & I \end{array} \right] \in M_{2n} S ≡ ( 1/ 2 ) [ I − i I − i I I ] ∈ M 2 n 是酉矩阵. (c) 证明 S F 2 S ∗ = [ A ‾ A 0 0 A A ‾ ] . SF^2 S^* = \left[ \begin{array}{cc}\overline{A} A & 0\\ 0 & A\overline{A} \end{array} \right]. S F 2 S ∗ = [ A A 0 0 A A ] .
213
(d) 证明 F F F 的诸特征值的平方就是 A ~ A \tilde{A} A A ~ A 的诸特征值及其复共轭. (e) 如果 A A A 是复对称矩阵, 证明, F F F 是具有实特征值的实对称矩阵, F 2 F^2 F 2 只有非负特征值, 且 F F F 的特征值平方的集合与 Hermite 矩阵 A ‾ A \overline{A} A A A 的特征值集合相同.
设 A ∈ M n A \in M_{n} A ∈ M n 是复对称矩阵。考虑二次型 q A ( x , x ) = x T A x q_{A}(x, x) = x^{\mathrm{T}}Ax q A ( x , x ) = x T A x 和由 A A A 生成的双线型 b 1 ( x , y ) = x T A y b_{1}(x, y) = x^{\mathrm{T}}Ay b 1 ( x , y ) = x T A y 。试用推论(4.4.4)证明
sup j ∗ r = 1 ∣ q 4 ( x , x ) ∣ = sup i ∗ , j = 1 y ′ , y − 1 ∣ b 1 ( x , y ) ∣ = σ max ( A ) , \sup _ {j ^ {*} r = 1} \left| q _ {4} (x, x) \right| = \sup _ {i ^ {*}, j = 1 \atop y ^ {\prime}, y - 1} \left| b _ {1} (x, y) \right| = \sigma_ {\max } (A), j ∗ r = 1 sup ∣ q 4 ( x , x ) ∣ = y ′ , y − 1 i ∗ , j = 1 sup ∣ b 1 ( x , y ) ∣ = σ m a x ( A ) , 214 ‾ \overline{214} 214 其中 σ max ( A ) \sigma_{\max}(A) σ m a x ( A ) 是 A ‾ A \overline{A} A A A 的最大特征值.
试用(4.4.3)的证明中的记号证明下列命题:(i)如果 λ \lambda λ 是 A A ˉ A\bar{A} A A ˉ 的单特征值,且 x ≠ 0 x \neq 0 x = 0 适合 A A ˉ x = λ x A\bar{A}x = \lambda x A A ˉ x = λ x ,则 A x ˉ A\bar{x} A x ˉ 与 x x x 相关。提示:设 σ = + λ \sigma = +\sqrt{\lambda} σ = + λ 且令 w = A x ˉ − σ x w = A\bar{x} - \sigma x w = A x ˉ − σ x 。证明 A w = − σ w Aw = -\sigma w A w = − σ w 和 A A ˉ w = λ w A\bar{A}w = \lambda w A A ˉ w = λ w ,因而 w w w 是 x x x 的纯量倍数。(ii)如果 A = − A T A = -A^T A = − A T ,则 V ˉ 1 T A V ˉ 1 = [ σ ] ⊕ A 2 \bar{V}_1^T A\bar{V}_1 = [\sigma] \oplus A_2 V ˉ 1 T A V ˉ 1 = [ σ ] ⊕ A 2 ;即(4.4.3a)中行向量 w T w^T w T 是零。试用它来证明,这个构造法自然产生矩阵 V n − 1 T ⋯ V ˉ 1 T A V ˉ 1 V ˉ 2 ⋯ V ˉ n − 1 = U ∗ A U ˉ = Δ V_{n-1}^T \cdots \bar{V}_1^T A\bar{V}_1 \bar{V}_2 \cdots \bar{V}_{n-1} = U^* A\bar{U} = \Delta V n − 1 T ⋯ V ˉ 1 T A V ˉ 1 V ˉ 2 ⋯ V ˉ n − 1 = U ∗ A U ˉ = Δ ,而 Δ \Delta Δ 是对角矩阵。
设 A ∈ M n A \in M_{n} A ∈ M n , 且假定有非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n 使得 A = S Λ S − 1 A = S\Lambda S^{-1} A = S Λ S − 1 , 其中 Λ = diag ( λ 1 , … , λ n ) \Lambda = \operatorname{diag}(\lambda_{1}, \dots, \lambda_{n}) Λ = diag ( λ 1 , … , λ n ) . 证明, A ‾ \overline{A} A 可对角化, 且它只有非负特征值, 并且 rank A = rank A A ‾ \operatorname{rank} A = \operatorname{rank} A\overline{A} rank A = rank A A . 这与(4.1.4)有什么关系? 说明 [ 0 1 0 0 ] \left[ \begin{array}{ll}0 & 1\\ 0 & 0 \end{array} \right] [ 0 0 1 0 ] 或 [ 1 − 1 1 1 ] \left[ \begin{array}{ll}1 & -1\\ 1 & 1 \end{array} \right] [ 1 1 − 1 1 ] 都不能写成这种形式.
如果 S ∈ M n S \in M_{n} S ∈ M n 是某个矩阵,证明,一般有 rank S i S ⩽ rank S \operatorname{rank} S^{i} S \leqslant \operatorname{rank} S rank S i S ⩽ rank S ,也可能有 rank S i S ⩽ rank S \operatorname{rank} S^{i} S \leqslant \operatorname{rank} S rank S i S ⩽ rank S 。如果 S S S 是实矩阵,会出现什么情形?提示:考察 S = [ 1 0 i 0 ] S = \begin{bmatrix} 1 & 0 \\ i & 0 \end{bmatrix} S = [ 1 i 0 0 ] 。
如果 A ∈ M n A \in M_{n} A ∈ M n 是复对称矩阵,又 x , y ∈ C n x, y \in \mathbb{C}^{n} x , y ∈ C n 是 A A A 的相应于 A A A 的不同特征值的特征向量,证明 x T y = 0 x^{T}y = 0 x T y = 0 。这说明 x x x 与 y y y 正交吗?提示:考虑 x T ( A y ) = ( A x ) T y x^{T}(Ay) = (Ax)^{T}y x T ( A y ) = ( A x ) T y .
如果 A ∈ M n A \in M_{n} A ∈ M n 是对称矩阵,且有 n n n 个不同的特征值,直接证明存在非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n 和对角矩阵 D D D 使得 A = S D S T A = SDST A = S D ST 。提示: A A A 可对角化,因而 A = S A S T A = SA S^{T} A = S A S T 且 A S = S A AS = SA A S = S A 。根据习题12, S T S = D S^{T}S = D S T S = D 是对角矩阵,因此 S T A S = S T S A = D A S^{T}AS = S^{T}SA = DA S T A S = S T S A = D A 且 A = ( S − 1 ) T ( D A ) S − 1 A = (S^{-1})^{T}(DA)S^{-1} A = ( S − 1 ) T ( D A ) S − 1 ,为了证明有复正交矩阵 Q Q Q 使 A = Q A Q T A = QAQ^{T} A = Q A Q T ,需作哪些修改?
如果 A ∈ M n A \in M_{n} A ∈ M n 是非奇异对称矩阵,证明 A A A 是对称矩阵。
实对称矩阵是 Hermite 矩阵,因而可对角化。说明复对称矩阵不一定可对角化。提示:考察 A = [ 1 i i − 1 ] A = \begin{bmatrix} 1 & i \\ i & -1 \end{bmatrix} A = [ 1 i i − 1 ] 并计算 A 2 A^2 A 2 。
设 A ∈ M n A \in M_{n} A ∈ M n , 证明, A A A 是对称酉矩阵, 当且仅当 A A A 可以写成 A = Q Λ Q T A = Q\Lambda Q^{T} A = Q Λ Q T , 其中, Q ∈ M n ( R ) Q \in M_{n}(\mathbf{R}) Q ∈ M n ( R ) 是实正交矩阵, 而 Λ = diag ( λ 1 , ⋯ , λ n ) = diag ( e i θ 1 , ⋯ , e i θ n ) \Lambda = \operatorname{diag}(\lambda_{1}, \cdots, \lambda_{n}) = \operatorname{diag}(e^{i\theta_{1}}, \cdots, e^{i\theta_{n}}) Λ = diag ( λ 1 , ⋯ , λ n ) = diag ( e i θ 1 , ⋯ , e i θ n ) , 并且对 k = 1 , 2 , ⋯ , n k = 1, 2, \cdots, n k = 1 , 2 , ⋯ , n 有 ∣ λ k ∣ = 1 |\lambda_{k}| = 1 ∣ λ k ∣ = 1 和 θ k ∈ R \theta_{k} \in \mathbb{R} θ k ∈ R .
试用习题16证明,矩阵 U ∈ M n U \in M_{n} U ∈ M n 是对称的酉矩阵,当且仅当存在酉矩阵 V ∈ M n V \in M_{n} V ∈ M n 使得 U = V V t U = V V^{t} U = V V t .
我们已经证明每个矩阵 A ∈ M n A \in M_{n} A ∈ M n 相似于一个对称矩阵,每个矩阵相似于一个 Hermite
矩阵吗?相似于一个正规矩阵吗?
利用(4.4.9)证明每个矩阵相似于它的转置
证明定理(4.4.9)在实数域上不成立;即不是每个矩阵 A ∈ M n ( R ) A \in M_n(\mathbf{R}) A ∈ M n ( R ) 都相似于实对称矩阵。
复对称矩阵 A A A 可能有迷向向量 v \pmb{v} v 作为特征向量;即, A v = λ v A\pmb{v} = \lambda \pmb{v} A v = λ v , v ≠ 0 \pmb{v} \neq \pmb{0} v = 0 ,且 v T v = 0 \pmb{v}^T\pmb{v} = \pmb{0} v T v = 0 ,但是,如果 A A A 可对角化,证明 λ \lambda λ 不可能是单特征值。提示:一方面把 A A A 写成 S A S − 1 SAS^{-1} S A S − 1 ,且 v \pmb{v} v 为 S S S 的第一列,另一方面证明,因为 S T S S^T S S T S 的第一行为零,所以 S T S S^T S S T S 是奇异矩阵。特别是,如果 v ∈ C n \pmb{v} \in C^n v ∈ C n 是使 v T v = 0 \pmb{v}^T\pmb{v} = \pmb{0} v T v = 0 的任一向量,则(秩1)对称矩阵 A = v T A = v^T A = v T 不能对角化。参看习题15。
对推论(4.4.4)的另一个证明的下述要点给出详细的论述。记号和假设如(4.4.4)中所述。这实质上是Siegcl(1943)的证明。(a)A A ‾ \overline{A} A 是Hermite矩阵,因而存在一个酉矩阵 V ∈ M n V\in M_{n} V ∈ M n 和一个实对角矩阵 Λ 1 ∈ M n \Lambda_{1}\in M_{n} Λ 1 ∈ M n 使得 A A = V A i V ∗ AA = VA_{i}V^{*} AA = V A i V ∗ 。(b) V ∗ A V = B V^{*}AV = B V ∗ A V = B 既是对称矩阵又是正规矩阵,所以,根据(1.4.7),存在一个对角矩阵 Λ ∈ M n \Lambda \in M_{n} Λ ∈ M n 和一个实正交矩阵 Q ∈ M n ( R ) Q\in M_{n}(\mathbf{R}) Q ∈ M n ( R ) 使得 B = Q A Q T B = QAQ^{\mathrm{T}} B = Q A Q T 。(c) A = ( V Q ) Λ ( V Q ) T A = (VQ)\Lambda (VQ)^{\mathrm{T}} A = ( V Q ) Λ ( V Q ) T 。现在记 Λ = E Σ E T \Lambda = E\Sigma E^{\mathrm{T}} Λ = E Σ E T ,其中, E E E , Σ \Sigma Σ 均为对角矩阵,且 Σ \Sigma Σ 是非负矩阵,于是 A = U Σ U T A = U\Sigma U^{\mathrm{T}} A = U Σ U T ,其中 U = V Q E U = VQE U = V QE 是酉矩阵。
设 z = { z 1 , z 2 , … , z n } T z = \{z_1, z_2, \dots, z_n\}^T z = { z 1 , z 2 , … , z n } T 是 n n n 个复变量的向量,又设 f ( z ) f(z) f ( z ) 是在某个区域 D ⊂ C n D \subset \mathbf{C}^n D ⊂ C n 中 n n n 个复变量的复解析函数。因为混合偏导数相等,所以 H = [ ∂ 2 f / ∂ x i , ∂ x j ] H = [\partial^2 f / \partial x_i, \partial x_j] H = [ ∂ 2 f / ∂ x i , ∂ x j ] 在每一点 z ∈ D z \in D z ∈ D 是对称矩阵。(4.0.3)中的讨论说明,可以假定一般线性偏微分算子
L f = ∑ i , j n a i j ( z ) ∂ 2 f ∂ z i ∂ z j L f = \sum_ {i, j} ^ {n} a _ {i j} (z) \frac {\partial^ {2} f}{\partial z _ {i} \partial z _ {j}} L f = i , j ∑ n a ij ( z ) ∂ z i ∂ z j ∂ 2 f 中的系数矩阵 A = [ a i j ] A = [a_{ij}] A = [ a ij ] 是对称的,证明,在某一点 z i i ∈ D z_{ii} \in D z ii ∈ D 存在变量 z → U ζ z \rightarrow U\zeta z → U ζ 的酉变换,使得在新坐标系下 L f Lf L f 在 z i z_{i} z i 是对角的,即
I i f = ∑ i = 1 n σ i ∂ 2 f ∂ ζ i 2 , 在 z = z 0 , σ i ⩾ σ 2 ⩾ ⋯ ⩾ σ n ⩾ 0. I _ {i} f = \sum_ {i = 1} ^ {n} \sigma_ {i} \frac {\partial^ {2} f}{\partial \zeta_ {i} ^ {2}}, \quad \text {在} z = z _ {0}, \quad \sigma_ {i} \geqslant \sigma_ {2} \geqslant \dots \geqslant \sigma_ {n} \geqslant 0. I i f = i = 1 ∑ n σ i ∂ ζ i 2 ∂ 2 f , 在 z = z 0 , σ i ⩾ σ 2 ⩾ ⋯ ⩾ σ n ⩾ 0. 利用(4.4.13)以及类似于在(1.3.19)的证明中所采用的归纳证法,证明下述命题。它与同时酉对角化一个Hermite矩阵族的定理(4.1.6)类似:设 F ⊂ M n \mathcal{F} \subset M_n F ⊂ M n 是给定的可对角化对称矩阵族,则对于所有 A ∈ F A \in \mathcal{F} A ∈ F ,存在复正交矩阵 Q Q Q 使得 Q A T QA^T Q A T 是对角矩阵,当且仅当 F \mathcal{F} F 是交换族。
利用定理(4.4.7)证明中的证法证明,矩阵 A ∈ M n A \in M_{n} A ∈ M n 既是斜对称的 ( A = − A T ) (A = -A^{\mathrm{T}}) ( A = − A T ) 又是正规的,当且仅当有实正交矩阵 Q ∈ M n ( R ) Q \in M_{n}(\mathbf{R}) Q ∈ M n ( R ) 使得 Q T A Q = 0 ⊕ 0 ⊕ ⋯ ⊕ 0 ⊕ A 1 ⊕ A 2 ⊕ ⋯ ⊕ A s Q^{\mathrm{T}}AQ = 0 \oplus 0 \oplus \dots \oplus 0 \oplus A_{1} \oplus A_{2} \oplus \dots \oplus A_{s} Q T A Q = 0 ⊕ 0 ⊕ ⋯ ⊕ 0 ⊕ A 1 ⊕ A 2 ⊕ ⋯ ⊕ A s ,其中每个 A i ∈ M 2 A_{i} \in M_{2} A i ∈ M 2 有形式
A i = [ 0 z j z j 0 ] , z j ∈ C , j = 1 , 2 , … , k . (4.4.14) A _ {i} = \left[ \begin{array}{c c} 0 & z _ {j} \\ z _ {j} & 0 \end{array} \right], \quad z _ {j} \in \mathbf {C}, \quad j = 1, 2, \dots , k. \tag {4.4.14} A i = [ 0 z j z j 0 ] , z j ∈ C , j = 1 , 2 , … , k . ( 4.4.14 ) 提示:考察 A A A 的实部和虚部,并利用定理(2.5.15). 什么时候 1 × 1 1 \times 1 1 × 1 零直加项不出现?
利用习题 25 以及习题 22 中的论断证明一个类似于复对称矩阵的 Takagi 分解 (4.4.4) 的复斜对称矩阵的分解: 矩阵 A ∈ M n A \in M_{n} A ∈ M n 是斜对称的 ( A = − A ⊤ ) (A = -A^{\top}) ( A = − A ⊤ ) 当且仅当存在一个酉矩阵 U ∈ M n U \in M_{n} U ∈ M n 使得
A = U ( 0 ⊕ ⋯ ⊕ 0 ⊕ A 1 ⊕ ⋯ ⊕ A k ) U T , A = U (0 \oplus \dots \oplus 0 \oplus A _ {1} \oplus \dots \oplus A _ {k}) U ^ {T}, A = U ( 0 ⊕ ⋯ ⊕ 0 ⊕ A 1 ⊕ ⋯ ⊕ A k ) U T , 其中每个 A j ∈ M n A_{j} \in M_{n} A j ∈ M n 有形式(4.4.14). 特别地, 可得出一个斜对称复矩阵的秩一定是偶数.
设 W ∈ M n W \in M_{n} W ∈ M n 是给定的酉矩阵。证明,只要 Λ ∈ M n \Lambda \in M_{n} Λ ∈ M n 适合 W T Λ = A W W^{T} \Lambda = A W W T Λ = A W ,就一定存在酉矩阵
V ∈ M n V \in M_{n} V ∈ M n 使得 V 2 = W V^{2} = W V 2 = W 和 V 1 A = A V V^{1}A = AV V 1 A = A V . 提示:如果 W = U Λ U ∗ W = U\Lambda U^{*} W = U Λ U ∗ ,其中 U U U 是酉矩阵, Λ = d i a g ( e i θ 1 , … , e i θ n ) \Lambda = \mathrm{diag}(e^{\mathrm{i}\theta_{1}}, \dots, e^{\mathrm{i}\theta_{n}}) Λ = diag ( e i θ 1 , … , e i θ n ) ,且 0 ⩽ θ j ⩽ 2 π 0 \leqslant \theta_{j} \leqslant 2\pi 0 ⩽ θ j ⩽ 2 π ,考虑自然平方根 Λ 1 / 2 ≡ d i a g ( e i θ 1 / 2 , … , e i θ n / 2 ) \Lambda^{1/2} \equiv \mathrm{diag}(e^{\mathrm{i}\theta_{1}/2}, \dots, e^{\mathrm{i}\theta_{n}/2}) Λ 1/2 ≡ diag ( e i θ 1 /2 , … , e i θ n /2 ) ,且设 V ≡ U Λ 1 / 2 U ∗ V \equiv U\Lambda^{1/2}U^{*} V ≡ U Λ 1/2 U ∗ . 证明 W 1 A = A W W^{1}A = AW W 1 A = A W 当且仅当 Λ \Lambda Λ 与 U T A U U^{T}AU U T A U 可交换。或者利用(1.3.12)证明中的证法证明, V V V 是 W W W 的多项式,由此推出 Λ 1 / 2 \Lambda^{1/2} Λ 1/2 与 U T A U U^{T}AU U T A U 可交换,因而 V T A = A V V^{T}A = AV V T A = A V .
对推论(4.4.4)的又一个证明的下述要点给出详细的论述。记号和假设如(4.4.4)中所述。这实质上是Hua(1944)的证明。首先假定 A A A 是非奇异的。(a) A A ‾ A\overline{A} A A 是Hermite矩阵,且它是正定的(对所有 x ∈ C n x \in \mathbb{C}^n x ∈ C n , x ∗ A A ‾ x = ( A ˙ x ) ∗ ( A ‾ x ) ⩾ 0 x^* A\overline{A} x = (\dot{A} x)^*(\overline{A} x) \geqslant 0 x ∗ A A x = ( A ˙ x ) ∗ ( A x ) ⩾ 0 ),因而存在一个酉矩阵 Z ∈ M n Z \in M_n Z ∈ M n 和一个非负非奇异对角矩阵 Σ ∈ M n \Sigma \in M_n Σ ∈ M n 使得 A A ‾ = Z Σ 2 Z ′ A\overline{A} = Z\Sigma^2 Z' A A = Z Σ 2 Z ′ 。(b) W ≡ Σ − 1 Z ∗ A Z ˉ W \equiv \Sigma^{-1}Z^* A\bar{Z} W ≡ Σ − 1 Z ∗ A Z ˉ 是酉矩阵且 Σ W \Sigma W Σ W 是对称矩阵,因而 Σ W = W T Σ \Sigma W = W^T\Sigma Σ W = W T Σ 。(c) 利用27题证明,存在一个酉矩阵 V ∈ M n V \in M_n V ∈ M n 使得 V 2 = W V^2 = W V 2 = W 且 Σ V = V T Σ \Sigma V = V^T\Sigma Σ V = V T Σ 。(d) Z ∗ A Z ˉ = Σ W = Σ V 2 = ( Σ V ) V = V T Σ V Z^* A\bar{Z} = \Sigma W = \Sigma V^2 = (\Sigma V)V = V^T\Sigma V Z ∗ A Z ˉ = Σ W = Σ V 2 = ( Σ V ) V = V T Σ V ,故 A = ( Z V T ) Σ ( Z V T ) T A = (ZV^T)\Sigma (ZV^T)^T A = ( Z V T ) Σ ( Z V T ) T 。设 U = Z V T U = ZV^T U = Z V T 。(e) 若 A A A 是奇异矩阵,利用习题2开头的论断把 A A A 化为非奇异的情形。
进一步阅读与注释 关于推论(4.4.4)的原型既可参看T.Takagi,“On an Algebraic Problem Related to an Analytic Theorem of Caratheodory and Fejer and on an Allied Theorem of Landau,"Japan.J.Math.1(1925),83-93,也可参看I.Schur,“Ein Satz über Quadratische Formen mit Komplexen Koeffizienten,"Amer.J.Math.67(1945),472-480.另给的几个证明可参看C.L.Siegel,“Symplectic Geometry,"Amer.J.Math 65(1943),lemma 1,pp.12,14-15;L.-K.Hua,“On the Theory of Automorphic Functions of a Matrix Variable I-Geometric Basis,"Amer.J.Math.66(1944),470-488;及N.Jacobson,“Normal Semi-Linear Transformations,"Amer.J.Math.61(1939),45-58.用三角约化(4.4.3)证明(4.4.4)可参看Y.P.Hong and R.A.Horn,“On the Reduction of a Matrix to Triangular or Diagonal Form by Consimilarity,"SIAM J.Algebraic and Discrete Methods (to appear).关于推论(4.4.11)到任意域的推广可参看O.Taussky,“The Role of Symmetric Matrices in the Study of General Matrices,"Linear Algebra Appl.5(1972),147-154.