4.6 合相似和合对角化 提出本节论题的动机来源于前两节的三个结果。定理(4.4.3)刻化了所有形如 U Δ U ⊺ U\Delta U^{\intercal} U Δ U ⊺ 的矩阵,其中, Δ \pmb{\Delta} Δ 是上三角矩阵而 U \pmb{U} U 是酉矩阵;为了现在的目的,需要把这个分解写成 U Δ U ⊺ = U\Delta U^{\intercal} = U Δ U ⊺ = U Δ U ˉ 1 U\Delta \bar{U}^{1} U Δ U ˉ 1 ,推论(4.4.4)划了所有形如 U Σ U ⊺ = U Σ U ‾ − 1 U\Sigma U^{\intercal} = U\Sigma \overline{U}^{-1} U Σ U ⊺ = U Σ U − 1 的矩阵,其中 Σ \Sigma Σ 是对角矩阵,而定理(4.5.15)的情形Ⅲ则要求下述知识:何时一个给定的复方阵 A \pmb{A} A 可经变换 A → S A S 1 \pmb{A} \rightarrow \pmb{SAS}^{1} A → S A S 1 化简成对角形式,其中 S \pmb{S} S 为某个非奇异方阵。
4.6.1 定义 设矩阵 A , B ∈ M n A, B \in M_n A , B ∈ M n ,如果存在非奇异矩阵 S ∈ M n S \in M_n S ∈ M n 使得 A = S B S − 1 A = SBS^{-1} A = SB S − 1 ,就称 A A A 和 B B B 合相似(Consimilar)。如果矩阵 S S S 可以取酉矩阵,则称 A A A 和 B B B 两合相似。
如果 A = S B S − 1 A = SBS^{-1} A = SB S − 1 ,且 S = U S = U S = U 是酉矩阵,则 A = S B S − 1 − U B U T A = SBS^{-1} - UBU^{T} A = SB S − 1 − U B U T ;如果 S = Q S = Q S = Q 是复正交矩阵,则 A = S B S − 1 = Q B Q ∗ A = SBS^{-1} = QBQ^{*} A = SB S − 1 = QB Q ∗ ;如果 S = R S = R S = R 是非奇异实矩阵,则 A = S B S − 1 − R B R − 1 A = SBS^{-1} - RBR^{-1} A = SB S − 1 − RB R − 1 。因此,合相似的各种特殊情形包括相合,相合和普通的相似。
像普通相似一样,合相似是 M n M_{n} M n 上的等价关系,因而我们可能要问,哪些等价类包含三角代表元或对角代表元.
4.6.2 定义 设矩阵 A ∈ M n A \in M_{n} A ∈ M n ,如果存在非奇异矩阵 S ∈ M S \in M S ∈ M 使得 S − 1 A S S^{-1}AS S − 1 A S 是上三角矩阵,则称 A A A 可合三角化;如果可选取 S S S 使得 S − 1 A S S^{-1}AS S − 1 A S 是对角矩阵,就称 A A A 可合对角化;称 A A A 可酉合三角化或可酉合对角化,是指 A A A 可以通过酉矩阵的合相似化简成所要求的形式。
如果 A ∈ M n A \in M_{n} A ∈ M n 可合三角化,并且 S − 1 A S ‾ = Δ S^{-1} A \overline{S} = \Delta S − 1 A S = Δ 是上三角矩阵,则由直接计算可知, Δ Δ ‾ = S − 1 ( A A ) S \Delta \overline{\Delta} = S^{-1}(AA) S Δ Δ = S − 1 ( AA ) S 的诸主对角元都是非负的。因而, A A ‾ A \overline{A} A A 的所有特征值都是非负的。另一方面,定理(4.4.3)说明,存在酉矩阵 U U U 使得 U A U T = U A U − 1 U A U^{T} = U A U^{-1} U A U T = U A U − 1 是上三角矩阵。因此,确定某个矩阵是否可经合相似化简成上三角矩阵的问题已经解决了。
4.6.3 定理 设 A ∈ M n A \in M_{n} A ∈ M n 是给定的矩阵,则下列命题等价:
(a) A A A 可合三角化; (b) A A A 可两合三角化: (c) A A AA AA 的所有特征值都是非负实数.
如果 A ∈ M n A \in M_{n} A ∈ M n 是可酉合对角化的,则对某个酉矩阵 U ∈ M n U \in M_{n} U ∈ M n 和 Λ = diag ( λ 1 , ⋯ , λ n ) \Lambda = \operatorname{diag}(\lambda_{1}, \cdots, \lambda_{n}) Λ = diag ( λ 1 , ⋯ , λ n ) , A = U Λ U − 1 − U Λ U T A = U\Lambda U^{-1} - U\Lambda U^{T} A = U Λ U − 1 − U Λ U T ,于是 A I = ( U Λ U I ) T = U Λ T U T = U Λ U T = A A^{I} = (U\Lambda U^{I})^{T} = U\Lambda^{T}U^{T} = U\Lambda U^{T} = A A I = ( U Λ U I ) T = U Λ T U T = U Λ U T = A ,因而 A A A 是对称矩阵、推论(4.1.4)说明,逆命题也成立,且对角矩阵总可以取非负的。因此,我们又解决了酉合对角化的问题。
4.6.4 定理 矩阵 A ∈ M n A \in M_{n} A ∈ M n 可两合对角化,当且仅当 Λ \Lambda Λ 是对称矩阵。
其余与合三角化和合对角化有关的问题是有效地刻划那些可经一个不一定是酉的合相似的可合对角化矩阵.
如果 A ∈ M n A \in M_{n} A ∈ M n 可合对角化且 S − 1 A S = A − d i a g ( λ 1 , … , λ n ) S^{-1}AS = A - \mathrm{diag}(\lambda_1, \dots, \lambda_n) S − 1 A S = A − diag ( λ 1 , … , λ n ) ,则 A S = S A AS = SA A S = S A 。如果 S = ⌈ s 1 … s n ⌉ S = \left\lceil s_1 \dots s_n \right\rceil S = ⌈ s 1 … s n ⌉ ,其中每个 s i ∈ C n s_i \in \mathbf{C}^n s i ∈ C n ,这个恒等式说明 Λ s 1 − λ 1 s 1 \Lambda s_1 - \lambda_1 s_1 Λ s 1 − λ 1 s 1 对 i = 1 , … , n i = 1, \dots, n i = 1 , … , n 成立。这个方程类似于通常的特征向量-特征值方程,但又与它有本质的差别。
4.6.5 定义 设 A ∈ M n A \in M_n A ∈ M n 是给定的矩阵。如果对某个 λ ∈ C \lambda \in \mathbf{C} λ ∈ C ,非零向量 x ∈ C n x \in \mathbf{C}^n x ∈ C n 适合 A x ‾ = λ x A\overline{x} = \lambda x A x = λ x ,就称 x x x 为 A A A 的合特征向量;纯量 λ \lambda λ 是 A A A 的合特征值。
恒等式 A S ‾ − S A ‾ A\overline{S} - S\overline{A} A S − S A 表明, S S S 的每个非零列是 A A A 的合特征向量。因为 S S S 的诸列无关当且仅当 S S S 非奇异,所以得知,矩阵 Λ ∈ M n \Lambda \in M_{n} Λ ∈ M n 可合对角化,当且仅当它有 n n n 个无关的合特征向量。从这个意义上讲,合对角化理论完全类似于普通的对角化理论。
但是,每个矩阵至少有一个特征值,且它只有有限多个不同的特征值;从这方面考虑,合特征值理论则大不相同。如果 A x ‾ = λ x A\overline{x} = \lambda x A x = λ x ,则 e − i θ A x ‾ = A ( e θ ‾ x ) = e − i θ λ x = ( e 2 θ λ ) ( e i θ x ) e^{-i\theta} A\overline{x} = A(e^{\overline{\theta} x}) = e^{-i\theta} \lambda x = (e^{2\theta} \lambda)(e^{i\theta} x) e − i θ A x = A ( e θ x ) = e − i θ λ x = ( e 2 θ λ ) ( e i θ x ) 对所有 θ ∈ R \theta \in \mathbb{R} θ ∈ R 成立。因此,如果 λ \lambda λ 是 A A A 的合特征值,则对所有 θ ∈ R \theta \in \mathbb{R} θ ∈ R , e i θ λ e^{i\theta} \lambda e i θ λ 亦是 A A A 的合特征值。另一方面,如果 A x ‾ = λ x A\overline{x} = \lambda x A x = λ x ,则 A A x = A ( A a ‾ ) = A ( λ x ‾ ) = λ ‾ A λ − λ λ x − ∣ λ ∣ 2 x A A x = A(A\overline{a}) = A(\overline{\lambda x}) = \overline{\lambda} A\lambda - \lambda \lambda x - |\lambda|^2 x AA x = A ( A a ) = A ( λ x ) = λ A λ − λλ x − ∣ λ ∣ 2 x ,因而,只有当 ∣ λ ∣ 2 |\lambda|^2 ∣ λ ∣ 2 是 A A ‾ A\overline{A} A A 的特征值时,这个纯量 λ \lambda λ 才可能是 A A A 的合特征值。例如 A = [ 0 − 1 1 0 ] A = \begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix} A = [ 0 1 − 1 0 ] 适合 A A = − 2 I AA = -2I AA = − 2 I ,而 A A AA AA 没有非负特征值,这个例子说明,有些矩阵根本没有合特征值。但是,已经知道,如果 A ∈ M n A \in M_n A ∈ M n ,
241
245 \boxed{245} 245 且 n n n 是奇数,则 A A A 至少必有一个合特征值,这个结果类似于每个奇数阶实矩阵至少有一个实特征值的事实.
因此,与普通的特征值理论相反,一个矩阵可以有无限多个不同的合特征值,或者它可能根本没有合特征值。如果一个矩阵有合特征值,有时为了方便,从模相同的合特征值中选出唯一的非负特征值作为代表。
刚才得到的关于合特征值存在的必要条件也是充分条件.
4.6.6 命题 设 A ∈ M n A \in M_{n} A ∈ M n ,且 λ ⩾ 0 \lambda \geqslant 0 λ ⩾ 0 是给定的,则 λ \lambda λ 是 A A ˉ A\bar{A} A A ˉ 的特征值,当且仅当 + λ +\sqrt{\lambda} + λ 是 A A A 的合特征值。
证明:如果 λ ⩾ 0 \lambda \geqslant 0 λ ⩾ 0 , λ ⩾ 0 \sqrt{\lambda} \geqslant 0 λ ⩾ 0 ,且对某个 x ≠ 0 x \neq 0 x = 0 有 A x ‾ = λ x A\overline{x} = \sqrt{\lambda} x A x = λ x ,则 A A ‾ x = A ( A x ) = A ( λ ‾ x ) = λ A x ‾ = λ λ x − λ x . A\overline{A}x = A(Ax) = A(\overline{\lambda}x) = \sqrt{\lambda} A\overline{x} = \sqrt{\lambda}\sqrt{\lambda}x - \lambda x. A A x = A ( A x ) = A ( λ x ) = λ A x = λ λ x − λ x .
反过来,如果对某个 x ≠ 0 x \neq 0 x = 0 , Λ A x = λ x \Lambda A x = \lambda x Λ A x = λ x ,则有两种可能情形:
(a) Λ x ˉ \Lambda \bar{x} Λ x ˉ 和 x x x 相关; (b) A x ‾ A\overline{x} A x 和 α \pmb{\alpha} α 无关.
在前一种情形,存在某个 μ ∈ C \mu \in \mathbb{C} μ ∈ C 使得 A x ˉ = μ x A\bar{x} = \mu x A x ˉ = μx ,这说明 μ \mu μ 是 A A A 的合特征值.另一方面, λ r = Λ A ˉ x − A ( A x ˉ ‾ ) = A ( μ x ‾ ) = μ A x ˉ = μ ˉ μ x = ∣ μ ∣ 2 x \lambda r = \Lambda \bar{A} x - A(\overline{A\bar{x}}) = A(\overline{\mu x}) = \mu A\bar{x} = \bar{\mu}\mu x = |\mu |^2 x λ r = Λ A ˉ x − A ( A x ˉ ) = A ( μx ) = μ A x ˉ = μ ˉ μx = ∣ μ ∣ 2 x ,所以 ∣ μ ∣ = + λ |\mu | = +\sqrt{\lambda} ∣ μ ∣ = + λ ,因为对任意 θ ∈ R \theta \in \mathbb{R} θ ∈ R , e − 2 θ μ e^{-2\theta}\mu e − 2 θ μ 是相应于合特征向量 e β x e^{\beta}x e β x 的合特征值,由此得出 + λ +\sqrt{\lambda} + λ 是 A A A 的合特征值.注意到 Λ A ( A r ) = A ( Λ A r ) = \Lambda A(A_{r}) = A(\Lambda A_{r}) = Λ A ( A r ) = A ( Λ A r ) = A ( λ r ‾ ) = λ ( A r ˉ ‾ ) A(\overline{\lambda r}) = \lambda (\overline{A\bar{r}}) A ( λ r ) = λ ( A r ˉ ) 及 A A r = λ x AA_{r} = \lambda x A A r = λ x ,因而,如果 λ \lambda λ 是 A A ‾ A\overline{A} A A 的单特征值,情形(a)一定总会出现.
在后一种情形(b)(如果 λ \lambda λ 是 A A ‾ A\overline{A} A A 的重特征值,就可能出现这种情形),向量 y = A x ‾ + λ x y = A\overline{x} + \sqrt{\lambda} x y = A x + λ x 是非零的,又因为
A y ˉ = Λ λ ˉ x + λ A x ˙ = λ x − λ A x ¨ = λ ( Λ x ˉ + λ x ) = λ y , A \bar {y} = \Lambda \bar {\lambda} x + \sqrt {\lambda} A \dot {x} = \lambda x - \sqrt {\lambda} A \ddot {x} = \sqrt {\lambda} (\Lambda \bar {x} + \sqrt {\lambda} x) = \sqrt {\lambda} y, A y ˉ = Λ λ ˉ x + λ A x ˙ = λ x − λ A x ¨ = λ ( Λ x ˉ + λ x ) = λ y , 所以 y y y 是相应于合特征值 + λ +\sqrt{\lambda} + λ 的合特征向量.
我们已经看到,对 A A ‾ A\overline{A} A A 的每个不同的非负特征值,都有 A A A 的一个相应的合特征向量,这个结果类似于普通的特征向量理论。下述结果又稍微推广了这种类似性。
4.6.7 命题 设 A ∈ M n A \in M_{n} A ∈ M n 是给定的矩阵,又设 x 1 , x 2 , ⋯ , x k x_{1}, x_{2}, \cdots, x_{k} x 1 , x 2 , ⋯ , x k 是 A A A 的相应于合特征值 λ 1 , λ 2 , ⋯ , λ k \lambda_{1}, \lambda_{2}, \cdots, \lambda_{k} λ 1 , λ 2 , ⋯ , λ k 的合特征向量。如果当 1 ⩽ i , j ⩽ k 1 \leqslant i, j \leqslant k 1 ⩽ i , j ⩽ k 且 i ≠ j i \neq j i = j 时, ∣ λ i ∣ ≠ ∣ λ j ∣ |\lambda_{i}| \neq |\lambda_{j}| ∣ λ i ∣ = ∣ λ j ∣ ,则 { x 1 , x 2 , ⋯ , x k } \{x_{1}, x_{2}, \cdots, x_{k}\} { x 1 , x 2 , ⋯ , x k } 是线性无关向量组。
证明:每个 x i x_{i} x i 是 A A ˉ A\bar{A} A A ˉ 的相应于特征值 λ 1 + λ 2 \lambda_1 + \lambda_2 λ 1 + λ 2 的特征向量,由于向量 x 1 , x 2 , … , x k x_{1}, x_{2}, \dots, x_{k} x 1 , x 2 , … , x k 是矩阵 A A ‾ A\overline{A} A A 的特征向量,且根据假设它们的特征值 ∣ λ 1 ∣ , … , ∣ λ k ∣ 2 \mid \lambda_1\mid ,\dots,\mid \lambda_k\mid^2 ∣ λ 1 ∣ , … , ∣ λ k ∣ 2 是两两不同的,所以由(1.3.8)可知它们是无关的。
这个结果连同命题(4.6.6)给出了一个已知矩阵的无关合特征向量个数的下界,由此得出可合对角化的充分条件,这类似于我们所熟悉的普通的可对角化的充分条件。在定理(4.6.11)中要给出更一般的条件。
4.6.8 推论 设 A ∈ M η A \in M_{\eta} A ∈ M η 是给定的矩阵。如果 A A AA AA 有 k k k 个互异的非负特征值,则 A A A 至少有 k k k 个无关的合特征向量。如果 k − n k - n k − n ,则 A A A 可合对角化。如果 k = 0 k = 0 k = 0 ,则 A A A 根本没有合特征向量。
关于无关的合特征向量的个数的这些界是可以达到的。对于 A ⋅ J n ( 1 ) A \cdot J_{n}(1) A ⋅ J n ( 1 ) ,这是一个基本
Jordan 块
J n ′ = [ 1 1 0 1 ⋱ ⋱ 0 1 ] ∈ M n , J _ {n ^ {\prime}} = \left[ \begin{array}{c c c} 1 & 1 & 0 \\ & 1 & \ddots \\ & & \ddots \\ 0 & & 1 \end{array} \right] \in M _ {n}, J n ′ = 1 0 1 1 0 ⋱ ⋱ 1 ∈ M n , A A = J n 2 ( 1 ) AA = J_{n}^{2}(1) AA = J n 2 ( 1 ) 以1作为它唯一的非负特征值,易知合特征向量方程 A x ‾ = x A\overline{x} = x A x = x 只有实解,因而每个合特征向量也是特征向量,且特征向量组成的子空间是一维的.因此,对任意适合 1 ⩽ k ⩽ n 1 \leqslant k \leqslant n 1 ⩽ k ⩽ n 的整数 k k k ,可以用基本Jordan块的直和给出这样一个矩阵 A ∈ M n A \in M_{n} A ∈ M n 的例子,使得 A A ‾ A\overline{A} A A 有 k k k 个不同的非负特征值且 A A A 恰好有 k k k 个无关合特征向量.
我们的目的是要给出一个使给定的矩阵可合对角化的简单条件,作为第一步,先证明下述引理。提出这个结果是因为,如果某个矩阵 A ∈ M n A \in M_n A ∈ M n 合相似于一个纯量矩阵,则 A = S ( λ I ) S ˉ ′ = λ S ˉ S ˉ ′ A = S(\lambda I)\bar{S}^{\prime} = \lambda \bar{S}\bar{S}^{\prime} A = S ( λ I ) S ˉ ′ = λ S ˉ S ˉ ′ 且 A A ‾ = λ S ˉ S ˉ ′ λ ˉ S ˉ S ′ ′ = ∣ λ ∣ 2 I A\overline{A} = \lambda \bar{S}\bar{S}^{\prime}\bar{\lambda}\bar{S} S^{\prime \prime} = |\lambda|^2 I A A = λ S ˉ S ˉ ′ λ ˉ S ˉ S ′′ = ∣ λ ∣ 2 I 。具有( A A ‾ A\overline{A} A A 是纯量矩阵)这个性质的矩阵是构成可合对角化矩阵的基本子块。
4.6.9 引理 矩阵 A ∈ M n A \in M_{n} A ∈ M n 有性质 A A = I AA = I AA = I ,当且仅当存在非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n 使得 A = S S − 1 A = SS^{-1} A = S S − 1 .
证明:我们刚才已经看到,所述条件是必要的。为了证明它是充分的,对任意 θ ∈ R \theta \in \mathbb{R} θ ∈ R ,定义 S θ = e i θ A + e − i θ I S_{\theta} = e^{i\theta}A + e^{-i\theta}I S θ = e i θ A + e − i θ I ,注意到
A S ~ θ = A ( e i θ A ˉ + e i θ I ) = e − i θ A A ˙ + e i θ A = e i θ A + e − i θ I = S θ . (4.6.10) A \tilde {S} _ {\theta} = A \left(e ^ {i \theta} \bar {A} + e ^ {i \theta} I\right) = e ^ {- i \theta} A \dot {A} + e ^ {i \theta} A = e ^ {i \theta} A + e ^ {- i \theta} I = S _ {\theta}. \tag {4.6.10} A S ~ θ = A ( e i θ A ˉ + e i θ I ) = e − i θ A A ˙ + e i θ A = e i θ A + e − i θ I = S θ . ( 4.6.10 ) 因为 A A A 只有有限多个特征值,所以存在某个 θ 0 ∈ R \theta_0 \in \mathbb{R} θ 0 ∈ R 使得 − e 2 θ 0 -e^{2\theta_0} − e 2 θ 0 不是 A A A 的特征值。对于 θ \theta θ 的这个值,
S θ 0 = e i θ ( A + e 2 i θ n I ) S _ {\theta_ {0}} = e ^ {i \theta} (A + e ^ {2 i \theta_ {n}} I) S θ 0 = e i θ ( A + e 2 i θ n I ) 是非奇异矩阵,且由(4.6.10)有 A = S θ 1 S ‾ θ ν A = S_{\theta_1}\overline{S}_{\theta_\nu} A = S θ 1 S θ ν
我们现在可以叙述并证明可合对角化的必要充分条件了.
4.6.11 定理 设 A ∈ M n A \in M_{n} A ∈ M n ,则存在非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n 和对角矩阵 A ∈ M n A \in M_{n} A ∈ M n 使得 A = S A S ‾ 1 A = S A \overline{S}^{1} A = S A S 1 ,当且仅当 A A ‾ A \overline{A} A A 是具有非负实特征值的可对角化矩阵,且 rank A = rank A A ‾ \operatorname{rank} A = \operatorname{rank} A \overline{A} rank A = rank A A .
证明:所述条件显然是必要的,因为
A A ˉ = S Λ S ˉ … 1 S ˉ Λ ˉ S − 1 = S ∣ Λ ∣ 2 S − 1 , A \bar {A} = S \Lambda \bar {S} ^ {\dots 1} \bar {S} \bar {\Lambda} S ^ {- 1} = S | \Lambda | ^ {2} S ^ {- 1}, A A ˉ = S Λ S ˉ … 1 S ˉ Λ ˉ S − 1 = S ∣Λ ∣ 2 S − 1 , 且 A A ‾ A\overline{A} A A 的秩与 A A A 的秩都是 Λ \Lambda Λ 中非零对角元的个数。反之,如果 A A ‾ A\overline{A} A A 可对角化且有非负特征值,则存在非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n 和非负对角矩阵 Λ ∈ M n \Lambda \in M_{n} Λ ∈ M n 使得 A A ‾ = S Λ S 1 A\overline{A} = S\Lambda S^{1} A A = S Λ S 1 。不失一般性,假定 Λ \Lambda Λ 中的相同对角元都排放在一起,且 Λ = λ 1 I n 1 ⊕ λ 2 I n 2 ⊕ ⋯ ⊕ λ k I n k \Lambda = \lambda_{1}I_{n_{1}} \oplus \lambda_{2}I_{n_{2}} \oplus \dots \oplus \lambda_{k}I_{n_{k}} Λ = λ 1 I n 1 ⊕ λ 2 I n 2 ⊕ ⋯ ⊕ λ k I n k ,其中 I n 1 ∈ M n 1 I_{n_{1}} \in M_{n_{1}} I n 1 ∈ M n 1 且 λ 1 > λ 2 > λ 3 > ⋯ > λ k ⩾ 0 \lambda_{1} > \lambda_{2} > \lambda_{3} > \dots > \lambda_{k} \geqslant 0 λ 1 > λ 2 > λ 3 > ⋯ > λ k ⩾ 0 。于是有
S 1 A A ˉ S = S 1 A S ˉ S ˉ − 1 A ˉ S = ( S 1 . A S ˉ ) ( S 1 ‾ A ˉ S ˉ ) = Λ . S ^ {1} A \bar {A} S = S ^ {1} A \bar {S} \bar {S} ^ {- 1} \bar {A} S = (S ^ {1}. A \bar {S}) (\overline {{S ^ {1}}} \bar {A} \bar {S}) = \Lambda . S 1 A A ˉ S = S 1 A S ˉ S ˉ − 1 A ˉ S = ( S 1 . A S ˉ ) ( S 1 A ˉ S ˉ ) = Λ. 如果令 B = S − 1 A S ‾ B = S^{-1}A\overline{S} B = S − 1 A S ,则(因为合相似是等价关系)只需证明。若 B B = A BB = A BB = A , B B B 就可对角化。因为 A A A 是实矩阵, A − A ‾ = ( B B ‾ ) = B B ‾ = B B A - \overline{A} = (\overline{BB}) = \overline{BB} = BB A − A = ( BB ) = BB = BB ,所以 B B B 与 B ‾ \overline{B} B 可交换。于是 B A − B ( B B ) = B B B ‾ = ( B B ) B ‾ = A B BA - B(BB) = BB\overline{B} = (BB)\overline{B} = AB B A − B ( BB ) = BB B = ( BB ) B = A B ,所以 B B B 与 A A A 也可交换。如果把 B B B 表示成分块形式
B = [ B 11 B 12 … B 1 k ⋮ B 12 ⋱ ⋮ B k 1 … B k k ] , B = \left[ \begin{array}{c c c c} B _ {1 1} & B _ {1 2} & \dots & B _ {1 k} \\ \vdots & B _ {1 2} & \ddots & \vdots \\ B _ {k 1} & \dots & & B _ {k k} \end{array} \right], B = B 11 ⋮ B k 1 B 12 B 12 … … ⋱ B 1 k ⋮ B kk , 其中子块的阶数与
Λ = [ λ 1 I n 1 0 ⋱ 0 λ i I n k ] , I n ∈ M n 1 , i = 1 , 2 , … , k \Lambda = \left[ \begin{array}{c c c} \lambda_ {1} I _ {n _ {1}} & & 0 \\ & \ddots & \\ 0 & & \lambda_ {i} I _ {n _ {k}} \end{array} \right], I _ {n} \in M _ {n _ {1}}, i = 1, 2, \dots , k Λ = λ 1 I n 1 0 ⋱ 0 λ i I n k , I n ∈ M n 1 , i = 1 , 2 , … , k 的相应子块相同,则方程 B Λ = Λ B B\Lambda = \Lambda B B Λ = Λ B 表明,对所有 i = 1 , 2 , … , k i = 1, 2, \dots, k i = 1 , 2 , … , k 有 λ i B i j = λ j B i j \lambda_{i}B_{ij} = \lambda_{j}B_{ij} λ i B ij = λ j B ij ,因为如果 i ≠ j i \neq j i = j ,则 λ i ≠ λ j \lambda_{i} \neq \lambda_{j} λ i = λ j 推出,如果 i ≠ j i \neq j i = j ,则 B i j = 0 B_{ij} = 0 B ij = 0 ,因而 B B B 是分块对角矩阵
B = [ B 11 0 ⋱ 0 B k l ] , B = \left[ \begin{array}{c c c} B _ {1 1} & & 0 \\ & \ddots & \\ 0 & & B _ {k l} \end{array} \right], B = B 11 0 ⋱ 0 B k l , 其中,对角子块与 Λ \pmb{\Lambda} Λ 的相应子块有相同的阶数。方程 B B ˉ = A B\bar{B} = A B B ˉ = A 表明,对每个 i − 1 , 2 , … , k , i - 1,2,\dots ,k, i − 1 , 2 , … , k , B n B ˉ n = λ i B_{n}\bar{B}_{n} = \lambda_{i} B n B ˉ n = λ i 。注意,如果 λ i > 0 \lambda_{i} > 0 λ i > 0 , B n B_{n} B n 必定是非负矩阵。所以,如果 λ i > 0 \lambda_{i} > 0 λ i > 0 ,可以把这个方程写成
[ 1 λ i B n ] [ 1 λ i B n ] = I n , \left[ \frac {1}{\sqrt {\lambda_ {i}}} B _ {n} \right] \left[ \frac {1}{\sqrt {\lambda_ {i}}} B _ {n} \right] = I _ {n}, [ λ i 1 B n ] [ λ i 1 B n ] = I n , 因而可以利用引理(4.6.9)得出,存在非奇异矩阵 S i ∈ M n S_{i}\in M_{n} S i ∈ M n ,使得 B n = S i ( λ i I α i ) S ˉ i B_{n} = S_{i}(\sqrt{\lambda_{i}} I_{\alpha_{i}})\bar{S}_{i} B n = S i ( λ i I α i ) S ˉ i 。如果 λ k = 0 \lambda_{k} = 0 λ k = 0 ,则
rank B 11 + rank B 22 + ⋯ + rank B n k = rank B = rank Λ = rank A A = rank Λ − n 1 + n 2 + ⋯ + n k 1 . \begin{array}{l} \operatorname {r a n k} B _ {1 1} + \operatorname {r a n k} B _ {2 2} + \dots + \operatorname {r a n k} B _ {n k} \\ = \operatorname {r a n k} B = \operatorname {r a n k} \Lambda = \operatorname {r a n k} A A = \operatorname {r a n k} \Lambda - n _ {1} + n _ {2} + \dots + n _ {k 1}. \\ \end{array} rank B 11 + rank B 22 + ⋯ + rank B nk = rank B = rank Λ = rank AA = rank Λ − n 1 + n 2 + ⋯ + n k 1 . 这表明 B k , k B_{k,k} B k , k 的秩是零,所以如果 λ k = 0 \lambda_k = 0 λ k = 0 ,则最后一个子块 B k k B_{kk} B kk 实际上必须是零子块.这时,可以把 B k k B_{kk} B kk 写成 0 = B k k = S k ( λ k I ) S ˉ k − 1 0 = B_{kk} = S_k(\sqrt{\lambda_k} I)\bar{S}_k^{-1} 0 = B kk = S k ( λ k I ) S ˉ k − 1 ,其中 S k ∈ M n k S_{k}\in M_{n_{k}} S k ∈ M n k 是任意非奇矩阵.如果令 S = S 1 ( ⊕ ⋯ ⊕ ) S k S = S_{1}(\oplus \dots \oplus)S_{k} S = S 1 ( ⊕ ⋯ ⊕ ) S k 那么所有情形都证明了
B = S ( λ 1 I π 1 ⊕ ⋯ ⊕ λ k I π k ) S ˉ − 1 , B = S \left(\sqrt {\lambda_ {1}} I _ {\pi_ {1}} \oplus \dots \oplus \sqrt {\lambda_ {k}} I _ {\pi_ {k}}\right) \bar {S} ^ {- 1}, B = S ( λ 1 I π 1 ⊕ ⋯ ⊕ λ k I π k ) S ˉ − 1 , 这正是想要做的.
当把可合对角化的必要充分条件应用于定理(4.5.15)的情形Ⅲ(b)时,有下述推论。如果给定 A A A , B ∈ M n B \in M_{n} B ∈ M n , A A A 是Hermite矩阵, B B B 是对称矩阵,且 A A A , B B B 中至少有一个是非奇异矩阵。按 A A A 或 B B B 是非奇异矩阵,令 C = A − 1 B C = A^{-1} B C = A − 1 B 或 B − 1 A B^{-1} A B − 1 A 。于是,存在非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n 使得SAS*和SBS都是对角矩阵,当且仅当 C ˉ \bar{C} C ˉ 可角化,其全部特征值是非负的,且 rank C = rank C C ˉ \operatorname{rank} C = \operatorname{rank} C\bar{C} rank C = rank C C ˉ 。
A A A 是复对称矩阵的特殊情形容易通过定理(4.6.11)来处理,因为这时 A A − A A † AA - AA^{\dagger} AA − A A † 是Hermite矩阵,因而可对角化.另外,对任意 A ∈ M n A \in M_{n} A ∈ M n , rank A = rank A A † \operatorname{rank} A = \operatorname{rank} AA^{\dagger} rank A = rank A A † ,所以,当 A A A 是复对称矩阵时,它满足定理的假设.定理说明每个复对称矩阵可合对角化,但是没有直接得出这时合对角化可经西变换来实现这个事实.参看本节末习题22.
关于合相似和合对角化的这些论断有助于深入理解关于复对称矩阵的 Takagi 分解(4.4.1) 和关于经两相合三角化的定理(4.4.3). 定理(4.4.3)说明每个使 A A ‾ A \overline{A} A A 有全部非负特征值的矩阵 A ∈ M n A \in M_{n} A ∈ M n 可酉合三角化, 而 Takagi 的结果说明每个复对称矩阵可以两合对角化.
因为对于合特征值,区别“实”和“非实”没有什么用处,所以在类似于Hermite(或正定)矩阵的“具有实(或正)合特征值的可两合对角化”与类似于正规矩阵的“具有复的合特征值的可内
合对角化”之间就没有什么差别。因此,复对称矩阵可以看作与整个正规矩阵类(关于普通的相似)类似的矩阵类(关于合相似),而 Takagi 分解可以看成与正规矩阵的谱定理(2.5.4a,b)类似的结果。
普通的相似性理论的产生是由于研究不同基下的线性变换的结果。一般说来,合相似的产生是由于研究不同基下的反线性变换的结果。反线性变换 T T T 是从一个复向量空间到另一个复向量空间的映射 T : V → W T: V \to W T : V → W ,具有可加性 [ T ( x + y ) = T x + T y [T(x + y) = Tx + Ty [ T ( x + y ) = T x + T y 对所有 x , y ∈ V x, y \in V x , y ∈ V 成立],不过只具有共轭齐次性 [ T ( a , x ) = a T x [T(a, x) = aTx [ T ( a , x ) = a T x 对所有 a ∈ C a \in \mathbb{C} a ∈ C 和所有 x ∈ V x \in V x ∈ V 成立,有时称之为反齐次性]。在量子力学中,研究时间反转时要出现这样的变换。
合对角化矩阵类是一个广泛的矩阵类,它包括具有实特征值的所有实可对角化矩阵,所有(实或复)对称矩阵,以及所有形如 H 2 S H^2 S H 2 S 的矩阵,其中, H H H 是Hermite矩阵,而 S S S 是对称矩阵(见本节末习题8和9)。后一个论断为下述有用的充分条件中的第二个奠定了基础。正定矩阵 A ∈ M n A \in M_n A ∈ M n 是指对所有非零 x ∈ C n x \in \mathbb{C}^n x ∈ C n 有 x , A x > 0 x, Ax > 0 x , A x > 0 的非奇异Hermite矩阵;关于一个Hermite矩阵 A A A 是正定的等价条件是, A A A 的所有特征值都是正,或对于某个非奇异Hermite矩阵 H H H ,有 A = H 2 A = H^2 A = H 2 (见第7章)。
4.6.12 推论 设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n , 且 A A A 是正定的 Hermite 矩阵.
(a) 如果 B B B 是Hermite 矩阵,则存在非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n ,使得 S A S ⋆ = I SAS^{\star} = I S A S ⋆ = I ,且 S B S ⋆ SBS^{\star} SB S ⋆ 是实对角矩阵。 (b)如果 B B B 是对称矩阵,则存在非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n ,使得 S A S ∗ = I SAS^{*} = I S A S ∗ = I ,且 S B S T SBS^{T} SB S T 是具有非负主对角元的实对角矩阵。
证明:设 A = H ′ A = H^{\prime} A = H ′ ,其中 H ∈ M n H\in M_{n} H ∈ M n 是非奇异Hermite矩阵.
(a) C = A − 1 B = H − 2 B C = A^{-1}B = H^{-2}B C = A − 1 B = H − 2 B ,所以 C C C 相似于 H C H − 1 − H ( H − 2 B ) H − 1 = H − 1 B H − 1 HCH^{-1} - H(H^{-2}B)H^{-1} = H^{-1}BH^{-1} H C H − 1 − H ( H − 2 B ) H − 1 = H − 1 B H − 1 ,这是Hermite矩阵,因而具有实特征值且可对角化;矩阵 C C C 也一定可对角化,且具有实特征值.因此 A A A 和 B B B 可以通过(4.5.15)I(b)(2)的相合同时对角化.如果 H − 1 B H − 1 = U Λ U ∗ H^{-1}BH^{-1} = U\Lambda U^{*} H − 1 B H − 1 = U Λ U ∗ 其中 U U U 是酉矩阵且 Λ \Lambda Λ 是对角矩阵,则非奇异矩阵 S = U ∗ H − 1 S = U^{*}H^{-1} S = U ∗ H − 1 将使 S A S ∗ − I SAS^{*} - I S A S ∗ − I 且 S B S ∗ = Λ SBS^{*} = \Lambda SB S ∗ = Λ (b) C = A − 1 B = H − 2 B C = A^{-1}B = H^{-2}B C = A − 1 B = H − 2 B ,所以 C ˉ = H − 2 B H − 1 B ˉ \bar{C} = H^{-2}BH^{-1}\bar{B} C ˉ = H − 2 B H − 1 B ˉ 相似于
H ( C C ˉ ) H 1 = H 1 B H ˉ − 2 B ˉ H − 1 − ( H 1 B H ˉ − 1 ) ( H 1 B H ˉ − 1 ) ⋅ , H (C \bar {C}) H ^ {1} = H ^ {1} B \bar {H} ^ {- 2} \bar {B} H ^ {- 1} - \left(H ^ {1} B \bar {H} ^ {- 1}\right) \left(H ^ {1} B \bar {H} ^ {- 1}\right) ^ {\cdot}, H ( C C ˉ ) H 1 = H 1 B H ˉ − 2 B ˉ H − 1 − ( H 1 B H ˉ − 1 ) ( H 1 B H ˉ − 1 ) ⋅ , 它是Hermite矩阵,又是半正定矩阵,因而它可对角化且具有非负特征值。根据(0.4.6d),
rank ( C ′ C ′ ) = rank ( H ′ B H ˉ ′ ) ( H − 1 B H ′ ) ∗ = rank ( H ′ B H ˉ ′ ) , \operatorname {r a n k} \left(C ^ {\prime} C ^ {\prime}\right) = \operatorname {r a n k} \left(H ^ {\prime} B \bar {H} ^ {\prime}\right) \left(H ^ {- 1} B H ^ {\prime}\right) ^ {*} = \operatorname {r a n k} \left(H ^ {\prime} B \bar {H} ^ {\prime}\right), rank ( C ′ C ′ ) = rank ( H ′ B H ˉ ′ ) ( H − 1 B H ′ ) ∗ = rank ( H ′ B H ˉ ′ ) , 再根据(0.4.6b), rank ( H − 1 B H − 1 ) = rank ( H − 1 B ) − rank C . \operatorname{rank}(H^{-1}BH^{-1}) = \operatorname{rank}(H^{-1}B) - \operatorname{rank}C. rank ( H − 1 B H − 1 ) = rank ( H − 1 B ) − rank C . 因此,由(4.6.11)知,(4.5.15)的条件Ⅲ(b)(1)被满足,因而一定有非奇异矩阵 S ∈ M n S\in M_{n} S ∈ M n ,使得SAS和SBST都是对角矩阵注意到HC(H-1)T=H(H-B)(H-1)T=HB(H-1)是对称矩阵,因此根据(4.4.4),存在酉矩阵U和非奇异对角矩阵 Σ \Sigma Σ ,使得 H 3 B ( H − 1 ) t = U Σ U T H^{3}B(H^{-1})^{t} = U\Sigma U^{T} H 3 B ( H − 1 ) t = U Σ U T 或 ( U ∗ H − 1 ) B ( U ∗ H − 1 ) T = Σ (U^{*}H^{-1})B(U^{*}H^{-1})^{T} = \Sigma ( U ∗ H − 1 ) B ( U ∗ H − 1 ) T = Σ 如果令 s = U ∗ H − 1 s = U^{*}H^{-1} s = U ∗ H − 1 ,则还有 s ⋆ A S = I s^{\star}AS = I s ⋆ A S = I □
我们已经讨论了各相似于一个对角矩阵的问题,但是不是每个矩阵都可合对角化,因而自然要问,在合相似下任一矩阵是否可以化简成某种简单的形式。在合相似下,有一个标准形,它起的作用类似于Jordan标准形在普通相似性中的作用。利用它,可以证明,对每个 A ∈ M n A \in M_n A ∈ M n
A A A 合相似于 A A A , A ′ A^{\prime} A ′ 和 A T A^T A T [与(3.2.3)比较], A A A 合相似于Hermite矩阵[与(4.4.9)比较], A A A 合相似于实矩阵,并且存在非奇异对称矩阵 S 1 S_{1} S 1 , S 2 ∈ M n S_{2} \in M_{n} S 2 ∈ M n 和Hermite矩阵 H 1 H_{1} H 1 , H 2 ∈ M n H_{2} \in M_{n} H 2 ∈ M n 使得 A = S 1 H 1 = H 2 S 2 A = S_{1}H_{1} = H_{2}S_{2} A = S 1 H 1 = H 2 S 2 [与推论(4.4.11)比较].实际上,可以把整个合相似性的问题归并为一些更熟悉的概念:两个矩阵 A A A , B ∈ M n B \in M_{n} B ∈ M n 合相似的必要充分条件是(a) A A AA AA 相似于 B B BB BB ,且(b)rank A = rank B A = \operatorname{rank} B A = rank B ,rank A A = rank B B AA = \operatorname{rank} BB AA = rank BB ,rank A A = rank B B B AA = \operatorname{rank} BBB AA = rank BBB ,…等对所有 n n n 个这样的交错乘积均成立,其中乘积的项数最多是 n n n 个.
习题 证明合相似性是 M n M_{n} M n 上的等价关系.
给出定理(4.6.3)的证明细节.
设 A ∈ M n A \in M_{n} A ∈ M n 是一个给定的矩阵,且设 λ \lambda λ 是 A A A 的合特征值。证明 A A A 的相应于 λ \lambda λ 的合特征向量的集合不一定是 C ⊥ C n \mathbf{C} \perp \mathbf{C}^{n} C ⊥ C n 的子空间,但它总是 R \mathbf{R} R 上的子空间。试与 A A A 的普通特征向量的情形相比较。
定理(4.6.11)给出了一个矩阵可合对角化的必要充分条件,但是,当我们考虑多个矩阵时,它们可同时合对角化的条件是什么?设 { A 1 , A 2 , ⋯ , A k } ⊂ M n \{A_{1}, A_{2}, \cdots, A_{k}\} \subset M_{n} { A 1 , A 2 , ⋯ , A k } ⊂ M n 是给定的,并且假定存在一个非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n 使得对 i = 1 , ⋯ , k i = 1, \cdots, k i = 1 , ⋯ , k 有 A i = S A i S − 1 A_{i} = S A_{i} S^{-1} A i = S A i S − 1 ,且每个 Λ i \Lambda_{i} Λ i 是对角矩阵。证明,(a)每个 A i A_{i} A i 可合对角化;(b)每个 A i A ‾ i A_{i} \overline{A}_{i} A i A i 可对角化;(c)乘积族 { A i A ‾ j : i , j = 1 , ⋯ , k } \{A_{i} \overline{A}_{j}: i, j = 1, \cdots, k\} { A i A j : i , j = 1 , ⋯ , k } 是可交换的;(d)对于所有 i , j = 1 , ⋯ , k i, j = 1, \cdots, k i , j = 1 , ⋯ , k , A i A j + A j A i A_{i} A_{j} + A_{j} A_{i} A i A j + A j A i 只有实特征值而 A i A ‾ j − A j A i A_{i} \overline{A}_{j} - A_{j} A_{i} A i A j − A j A i 只有虚特征值。当 k = 1 k = 1 k = 1 时,这指的是什么?事实上,这些必要条件也是充分条件;关于其证明可参看(4.5)节末的“进一步阅读”中引用的Hong和Horn的文章。
矩阵 A A ‾ A\overline{A} A A 在合相似性理论起着重要的作用。证明,对任一 A ∈ M n A \in M_n A ∈ M n , A A ‾ A\overline{A} A A 的特征多项式的系数都是实的,由此推出, A A ‾ A\overline{A} A A 的任何复特征值必须成共轭对出现。提示: det ( t A − A A ‾ A ) − det A det ( t I − A ‾ A ) = det ( t I − A A ‾ ) det A \det(tA - A\overline{A}A) - \det A \det(tI - \overline{A}A) = \det(tI - A\overline{A}) \det A det ( t A − A A A ) − det A det ( t I − A A ) = det ( t I − A A ) det A 。因此,如果 A A A 是非奇异矩阵,则 A ‾ A \overline{A}A A A 和 A A = ( A ‾ A ) AA = (\overline{A}A) AA = ( A A ) 的特征多项式相同。对一般情形则考察 A ϵ = A + ϵ I A_{\epsilon} = A + \epsilon I A ϵ = A + ϵ I 。关于 A A AA AA 的更为明确的结果见习题8。
A A ˉ A\bar{A} A A ˉ 的非负特征值可导出 A A A 的合特征值,但是, A A AA AA 的不是非负的任一特征值也有意义。假定 A ∈ M n A \in M_n A ∈ M n ,且 A x ‾ = λ x A\overline{x} = \lambda x A x = λ x 对某个 x ≠ 0 x \neq 0 x = 0 和某个适合 λ ∉ [ 0 , ∞ ) \lambda \notin [0, \infty) λ ∈ / [ 0 , ∞ ) 的 λ ∈ C \lambda \in C λ ∈ C 成立。设 α ∈ C \alpha \in C α ∈ C 是 λ \lambda λ 的任一平方根,且用 A x ‾ = α y A\overline{x} = \alpha y A x = α y 定义向量 y y y 。证明, A y ‾ = α x A\overline{y} = \alpha x A y = αx , A A ‾ y = λ ‾ y A\overline{A}y = \overline{\lambda}y A A y = λ y ,及 x x x 与 y y y 无关。提示:如果它们相关, x x x 必须是合特征向量且 λ ⩾ 0 \lambda \geqslant 0 λ ⩾ 0 。证明 A A ‾ A\overline{A} A A 的所有复特征值必须成共轭对出现,且 A A ‾ A\overline{A} A A 的任一负特征值至少必须有几何重数 2。试与习题 5 比较。
设 A ∈ M n A \in M_{n} A ∈ M n , 且假定 λ \lambda λ 是 A A ‾ A\overline{A} A A 的一个实负特征值, A A ‾ x = λ x A\overline{A}x = \lambda x A A x = λ x , x ≠ 0 x \neq 0 x = 0 , α y = λ \alpha^{y} = \lambda α y = λ , A x ‾ = α y A\overline{x} = \alpha y A x = α y , A y ‾ = α x A\overline{y} = \alpha x A y = αx . 根据习题6, x x x 和 y y y 是无关的. (a) 设 x ′ = x + β y x' = x + \beta y x ′ = x + β y , y ′ = y − β x y' = y - \beta x y ′ = y − β x . 证明, 对于 β ∈ C \beta \in \mathbb{C} β ∈ C 的任一选择, A x ′ = α y ′ Ax' = \alpha y' A x ′ = α y ′ 且 A y ′ = α x ′ Ay' = \alpha x' A y ′ = α x ′ . (b) 证明可选择 β \beta β 使 x ′ x' x ′ 与 y ′ y' y ′ 正交, 并且选这样一个 β \beta β . (c) 设 s > 0 s > 0 s > 0 使 ξ = s x ′ \xi = sx' ξ = s x ′ 是单位向量, 又设 η = s y ′ \eta = sy' η = s y ′ . 证明, A ξ = α η A\xi = \alpha \eta A ξ = α η , A η ‾ = α ξ A\overline{\eta} = \alpha \xi A η = α ξ 和 ξ ∗ η = 0 \xi^{*}\eta = 0 ξ ∗ η = 0 . (d) 设 r > 0 r > 0 r > 0 使 r η r\eta rη 是单位向量, 又设 U = [ η r η u 3 ⋯ u n ] ∈ M n U = [\eta r\eta u_{3} \cdots u_{n}] \in M_{n} U = [ ηrη u 3 ⋯ u n ] ∈ M n 是酉矩阵. 证明
U ∙ A U ˉ = [ 0 r a ∗ a ˉ / r 0 0 A ′ ] , 其 中 A ′ ∈ M n − 2 , U ^ {\bullet} A \bar {U} = \left[ \begin{array}{c c c} 0 & r a & * \\ \bar {a} / r & 0 & \\ & 0 & A ^ {\prime} \end{array} \right], \text {其 中} A ^ {\prime} \in M _ {n - 2}, U ∙ A U ˉ = 0 a ˉ / r r a 0 0 ∗ A ′ , 其 中 A ′ ∈ M n − 2 , 252
因而
U ∗ ( A A ˉ ) U − [ λ 0 ∗ 0 λ ⋮ … 0 A ′ A ′ ] . U ^ {*} (A \bar {A}) U - \left[ \begin{array}{c c c} \lambda & 0 & * \\ 0 & \lambda & \\ \vdots & \dots & \\ 0 & A ^ {\prime} A ^ {\prime} \end{array} \right]. U ∗ ( A A ˉ ) U − λ 0 ⋮ 0 0 λ … A ′ A ′ ∗ . (e) 由此得出, A A AA AA 的每个负特征值有偶代数重数。试与习题6比较。
对任意 A ∈ M n A \in M_{n} A ∈ M n ,证明
[ I A 0 I ] [ A A ‾ 0 A 0 ] [ I A 0 I ] = [ 0 0 A ‾ A A ] . \begin{array}{r} \left[ \begin{array}{l l} I & A \\ 0 & I \end{array} \right] \left[ \begin{array}{l l} A \overline {{A}} & 0 \\ A & 0 \end{array} \right] \left[ \begin{array}{l l} I & A \\ 0 & I \end{array} \right] = \left[ \begin{array}{l l} 0 & 0 \\ \overline {{A}} & A A \end{array} \right]. \end{array} [ I 0 A I ] [ A A A 0 0 ] [ I 0 A I ] = [ 0 A 0 AA ] . 从这个明显的相似性推出, A A ‾ A\overline{A} A A 和 A ‾ A \overline{A}A A A 的有非零特征值的 Jordan 块之间存在一一对应。因为 A ‾ A = A A ‾ ‾ \overline{A}A = \overline{A\overline{A}} A A = A A ,证明 A A ‾ A\overline{A} A A 的具有复特征值的 Jordan 块成共轭对出现。由此推出,对任一 A ∈ M n A \in M_{n} A ∈ M n , A A AA AA 相似于实矩阵。提示:参看(3.4)中关于实 Jordan 形的讨论。还有一些结论实际上是成立的。事实上, A A AA AA 总相似于一个实矩阵的平方,就 A A ‾ A\overline{A} A A 的特征值而言,这意味着什么?
如果 A ∈ M n A \in M_{n} A ∈ M n 相似于实矩阵,证明 A A A 相似于 A ˉ \bar{A} A ˉ (反之亦然)。利用这个事实和习题 9 证明,尽管 A B AB A B 一般不一定相似于 B A BA B A ,但是,对任意 A ∈ M n A \in M_{n} A ∈ M n , Λ A \Lambda A Λ A 总相似于 Λ A \Lambda A Λ A 。
说明 M n M_{n} M n 中可合对角化矩阵的集合包括以下集合:(a)只有实特征值的所有可对角化实矩阵.(b)具有 n n n 个线性无关的实特征向量的所有可对角化矩阵.(c)所有对称矩阵.(d)所有正定Hermite矩阵.提示:如果 A A A 是正定矩阵,则 A = H H = H ( H H ⊤ ) H ‾ − 1 A = HH = H(HH^{\top})\overline{H}^{-1} A = HH = H ( H H ⊤ ) H − 1 : H H H 是非奇异Hermite矩阵.(e)所有形如 A B AB A B 的矩阵,其中, A A A 是正定Hermite矩阵,而 B B B 是对称矩阵.这与所有形如 H 2 B H^{2}B H 2 B 的矩阵的集合相同,其中, H H H 是非奇异Hermite矩阵, B B B 是对称矩阵.提示: H 2 B = H ( H B H ⊤ ) H − 1 H^{2}B = H(HBH^{\top})H^{-1} H 2 B = H ( H B H ⊤ ) H − 1
证明 M n M_{n} M n 中可合对角化矩阵的集合 C D n \mathbb{C}D_{n} C D n 有下述性质:(a)如果 A ∈ C D n A \in \mathbb{C}D_{n} A ∈ C D n ,且 S ∈ M n S \in M_{n} S ∈ M n 非奇异,则 S A S − 1 ∈ C D n \mathrm{SAS}^{-1} \in \mathrm{CD}_{n} SAS − 1 ∈ CD n 。(b)零矩阵在 C D n \mathbb{C}D_{n} C D n 中。(c)如果 A ∈ C D n A \in \mathbb{C}D_{n} A ∈ C D n 且 a ∈ C a \in \mathbf{C} a ∈ C ,则 a A ∈ C D n aA \in \mathbb{C}D_{n} a A ∈ C D n 。(d)如果 A ∈ C D n A \in \mathbb{C}D_{n} A ∈ C D n 可逆,则 A − 1 ∈ C D n A^{-1} \in \mathbb{C}D_{n} A − 1 ∈ C D n 。
证明,(a) [ i 1 0 i ] \left[ \begin{array}{ll}i & 1\\ 0 & i \end{array} \right] [ i 0 1 i ] 在普通意义下不能对角化,但它可合对角化.(b) [ 1 − 1 1 1 ] \left[ \begin{array}{ll}1 & -1\\ 1 & 1 \end{array} \right] [ 1 1 − 1 1 ] 在普通意义下可对角化,但不能合对角化.(c) [ 0 1 0 0 ] \left[ \begin{array}{ll}0 & 1\\ 0 & 0 \end{array} \right] [ 0 0 1 0 ] 既不能对角化也不能合对角化.
如果 A ∈ M n A \in M_{n} A ∈ M n 使得 A A ˉ = A = λ 1 I n 1 ⊕ ⋯ ⊕ λ k I n k A\bar{A} = A = \lambda_{1}I_{n_{1}} \oplus \dots \oplus \lambda_{k}I_{n_{k}} A A ˉ = A = λ 1 I n 1 ⊕ ⋯ ⊕ λ k I n k ,其中,如果 i ≠ j i \neq j i = j ,则 λ i ≠ λ j \lambda_{i} \neq \lambda_{j} λ i = λ j ,且所有 λ i ⩾ 0 \lambda_{i} \geqslant 0 λ i ⩾ 0 ,证明,存在两矩阵 U ∈ M n U \in M_{n} U ∈ M n ,使得 A = U Δ U T A = U\Delta U^{T} A = U Δ U T ,且 Δ = Δ 1 ⊕ ⋯ ⊕ Δ k \Delta = \Delta_{1} \oplus \dots \oplus \Delta_{k} Δ = Δ 1 ⊕ ⋯ ⊕ Δ k ,其中每个 Δ i ∈ M n \Delta_{i} \in M_{n} Δ i ∈ M n 是上三角矩阵。
引理(4.6.9)是说,对某个非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n , A ∈ M n A \in M_{n} A ∈ M n 有分解 A = S S − 1 A = SS^{-1} A = S S − 1 ,当且仅当 A A ‾ = I A\overline{A} = I A A = I 。试用(4.4.4)证明, A = U U − 1 − U U T A = UU^{-1} - UU^{T} A = U U − 1 − U U T 对某个两矩阵 U ∈ M n U \in M_{n} U ∈ M n 成立,当且仅当 A − 1 = A ‾ A^{-1} = \overline{A} A − 1 = A 且 A A A 是对称矩阵。这与(4.4.7)有什么关系?
设 A ∈ M n A \in M_{n} A ∈ M n , 且记 A = B + i C A = B + iC A = B + i C , 其中 B , C ∈ M n ( R ) B, C \in M_{n}(\mathbf{R}) B , C ∈ M n ( R ) . 证明, λ ∈ C \lambda \in \mathbf{C} λ ∈ C 是 A A A 的合特征向量, 当且仅当 ± ∣ λ ∣ \pm |\lambda| ± ∣ λ ∣ 是分块矩阵
F = [ B C C − B ] ∈ M 2 n ( R ) F = \left[ \begin{array}{l l} B & C \\ C & - B \end{array} \right] \in M _ {2 n} (\mathbf {R}) F = [ B C C − B ] ∈ M 2 n ( R ) 的(实)特征值. 提示: 用 x = u + i v x = u + iv x = u + i v 表示 A x ‾ = r x A\overline{x} = rx A x = r x , u , v ∈ R n u, v \in \mathbb{R}^n u , v ∈ R n , r = ∣ λ ∣ r = |\lambda| r = ∣ λ ∣ . 因而, 如果 F F F 没有
实特征值,则 A A A 不可能有合特征值
证明,如果 A ∈ M n A \in M_n A ∈ M n 是对角矩阵或上三角矩阵,则 A A A 的特征值与 A A A 的合特征值在下述意义下是“相同”的:如果 λ \lambda λ 是 A A A 的特征值,则对所有 θ ∈ R \theta \in \mathbb{R} θ ∈ R , e i θ λ e^{i\theta} \lambda e i θ λ 是 A A A 的合特征值,又如果 μ \mu μ 是 A A A 的合特征值,则对某个 θ ∈ R \theta \in \mathbb{R} θ ∈ R , e i θ μ e^{i\theta} \mu e i θ μ 是 A A A 的特征值。
如果 A ∈ M n ( R ) A \in M_n(\mathbf{R}) A ∈ M n ( R ) ,证明: A A A 的每个实特征值也是 A A A 的合特征值。又如果 μ ⩾ 0 \mu \geqslant 0 μ ⩾ 0 是 A A A 的合特征值,则 μ \mu μ 或 − μ -\mu − μ 是 A A A 的特征值。提示:用 x = u + i v x = u + iv x = u + i v 表示 A x = μ x Ax = \mu x A x = μx , u , v ∈ R n u, v \in \mathbb{R}^n u , v ∈ R n 。考察例 ∣ 254 ‾ ∣ \left| \overline{254} \right| 254 子 A = [ 0 1 1 0 ] A = \left[ \begin{array}{ll}0 & 1 \\ 1 & 0\end{array} \right] A = [ 0 1 1 0 ] 以说明,一个实矩阵可以有这样的非实特征值,它不与任何合特征值相对应。
当 n = 1 n = 1 n = 1 时引理(4.6.9)是什么意思?一个复数 z z z 位于复平面中的单位圆上是指 z z = 1 zz = 1 zz = 1 。这个条件到矩阵的普通推广是要求 A A ∗ − I AA^* - I A A ∗ − I ;这样的矩阵称为酉矩阵,它们在矩阵理论中起着重要的作用。另一个推广(当 n = 1 n = 1 n = 1 时它简化成同样的情形)是要求 A A = I AA = I AA = I ,而这些矩阵如引理(4.6.9)所描述的那样合相似于单位矩阵。证明,若 A ∈ M n A \in M_n A ∈ M n 且 A A ‾ = I A\overline{A} = I A A = I ,则 (a) A A A 是非奇异矩阵;(b) A − 1 = A A^{-1} = A A − 1 = A ;(c) det A = ∣ λ 1 ⋯ λ n ∣ = 1 \det A = |\lambda_1 \cdots \lambda_n| = 1 det A = ∣ λ 1 ⋯ λ n ∣ = 1 ;(d) 若 A x − λ x ∥ r ≠ 0 Ax - \lambda x \parallel r \neq 0 A x − λ x ∥ r = 0 ,则 A x = ( 1 / λ ) x Ax = (1 / \lambda)x A x = ( 1/ λ ) x ;因而,只要 λ \lambda λ 是 A A A 的特征值, 1 / λ 1 / \lambda 1/ λ 就是 A A A 的特征值。证明:若 z ∈ R z \in \mathbb{R} z ∈ R , z ≠ ± 1 z \neq \pm 1 z = ± 1 ,则矩阵 B = [ z i − i z ] B = \left[ \begin{array}{cc} z & i \\ -i & z \end{array} \right] B = [ z − i i z ] 有如下性质: A − B B − 1 A - BB^{-1} A − B B − 1 的谱是
∣ z − 1 z + 1 , z + 1 z − 1 ∣ , \left| \frac {z - 1}{z + 1}, \frac {z + 1}{z - 1} \right|, z + 1 z − 1 , z − 1 z + 1 , 因此,这样一些矩阵的特征值不都位于单位圆上。
事实上,每个复矩阵 A ∈ M n A \in M_n A ∈ M n 可以写成 A = R E A = RE A = RE ,其中, R , E ∈ M n , R R, E \in M_n, R R , E ∈ M n , R 相似于实矩阵,而 E E = I EE = I EE = I 。说明这个分解是如何从每个 A ∈ M n A \in M_n A ∈ M n 相似于实矩阵的事实得来的,并且解释它是怎样推广了每个复数 z z z 可以写成 z = r e i θ z = re^{i\theta} z = r e i θ (其中 r r r 和 θ \theta θ 是实数)这个事实。
证明定理(4.6.11)可以由本节正文最后一段中所述的两个矩阵合相似的一般必要充分条件推出。提示:把条件应用于 A A A 和对角矩阵 Λ \Lambda Λ 。
利用每个 A ∈ M n A \in M_{n} A ∈ M n 合相似于一个实矩阵的事实证明,如果 n n n 是奇数,则 A A A 至少必须有一个合特征值。提示:奇数阶实矩阵 R R R 至少有一个实特征值。关于 R 2 R^{2} R 2 的特征值,这意味着什么?如果 A A A 合相似于 R R R , A A AA AA 与 R 7 R^{7} R 7 有何关系?
设 A ∈ M n A \in M_n A ∈ M n 是对称矩阵。定理(4.6.11)后面的讨论说明 A A A 可对角化,所以,存在非奇异矩阵 S ∈ M n S \in M_n S ∈ M n 和对角矩阵 Λ ∈ M n \Lambda \in M_n Λ ∈ M n ,使得 A = S Λ S − 1 A = S\Lambda S^{-1} A = S Λ S − 1 。说明,我们可以取 S S S 为酉矩阵[因而从定理(4.6.11)可导出推论(4.4.4)],如下所述:注意到 A A A 的对称性推出 ( S ∗ S ) Λ = Λ ( S ∗ S ‾ ) = Λ ( S ∗ S ) T (S^* S)\Lambda = \Lambda (\overline{S^* S}) = \Lambda (S^* S)^T ( S ∗ S ) Λ = Λ ( S ∗ S ) = Λ ( S ∗ S ) T 。利用极分解(7.3.3)把 S S S 写成 S = U P S = UP S = U P ,其中, U ∈ M n U \in M_n U ∈ M n 是酉矩阵, P ∈ M n P \in M_n P ∈ M n 是Hermite矩阵,且对于某个多项式 p ( t ) p(t) p ( t ) , P = p ( S ∗ S ) P = p(S^* S) P = p ( S ∗ S ) [见定理(7.2.6)的证明]。证明 P A = Λ P ‾ = Λ P T PA = \Lambda \overline{P} = \Lambda P^T P A = Λ P = Λ P T ,因而 S Λ S − 1 = U A U T S\Lambda S^{-1} = UAU^T S Λ S − 1 = U A U T 。
255
[256]
进一步阅读关于合相似以及一个矩阵族同时合对角化的问题的更多信息,可参看(4.4)节和(4.5)节末所引用的Hong和Horn的文章,也可参看他们的报告:“A Canonical Form for Matrices under Consimilarity”,Linear Algebra Appl. 102(1988),143-168.合相似的概念可作如下推广:用任意域代替复数域且用该域上的自同构代替复共轭运算:见[Jac],p.27.