1.3 相似性 正如在(1.0)节所指出的, M n M_{n} M n 中的一个矩阵的相似变换对应于 C n \mathbf{C}^{n} C n 上的一个线性变换在另一个基下的表示。因此研究相似性可看成是研究一个线性变换所固有的性质或它的所有基表示
所共有的性质.
1.3.1 定义 设矩阵 A , B ∈ M n A, B \in M_{n} A , B ∈ M n ,如果存在非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n ,使得
B = S − 1 A S , B = S ^ {- 1} A S, B = S − 1 A S , 则称 B B B 与 A A A 相似,而变换 A → S − 1 A S A \rightarrow S^{-1}AS A → S − 1 A S 称为由相似矩阵 S S S 确定的相似变换。关系“ B B B 与 A A A 相似”有时简记作 B ∼ A B \sim A B ∼ A 。
1.3.2 论断 相似是 M n M_{n} M n 上的一个等价关系;即相似是
(a) 自反的: A ∼ A A \sim A A ∼ A ; (b)对称的: B ∼ A B\sim A B ∼ A 推出 A ∼ B A\sim B A ∼ B (c) 传递的: C ∼ B C \sim B C ∼ B 和 B ∼ A B \sim A B ∼ A 推出 C ∼ A C \sim A C ∼ A .
练习 验证(1.3.2).
像任何等价关系一样,相似关系把集合 M n M_{n} M n 划分成互不相交的等价类。每一个等价类是 M n M_{n} M n 中相似于某个矩阵(该类的代表)的所有矩阵的集合。在一个等价类中的所有矩阵都相似。而属于两个不同类的矩阵不相似。由于传递性,在任何一个相似矩阵的有限序列中,第一个矩阵和最后一个矩阵在同一个相似等价类中,一个至关重要的结果是,任一个等价类中的矩阵共同具有许多重要性质。其中一些将在这里论述,而关于相似不变量的一个较完整的描述(例如,Jordan标准形)将放在后面的第3章。
1.3.3 定理 设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n . 如果 B B B 和 A A A 相似, 那么 B B B 的特征多项式与 A A A 的相同.
证明:对任意 t t t ,我们有
p B ( t ) = det ( t I − B ) = det ( t S − 1 S − S − 1 A S ) = det S − 1 ( t I − A ) S = det S − 1 det ( t I − A ) det S = ( det S ) ′ ( det S ) det ( t I − A ) = det ( t I ⋅ A ) = p A ( t ) . \begin{array}{l} p _ {B} (t) = \det (t I - B) \\ = \det (t S ^ {- 1} S - S ^ {- 1} A S) = \det S ^ {- 1} (t I - A) S \\ = \det S ^ {- 1} \det (t I - A) \det S \\ = (\det S) ^ {\prime} (\det S) \det (t I - A) \\ = \det (t I \cdot A) = p _ {A} (t). \\ \end{array} p B ( t ) = det ( t I − B ) = det ( t S − 1 S − S − 1 A S ) = det S − 1 ( t I − A ) S = det S − 1 det ( t I − A ) det S = ( det S ) ′ ( det S ) det ( t I − A ) = det ( t I ⋅ A ) = p A ( t ) . 1.3.4 推论 如果 A , B ∈ M n A, B \in M_{n} A , B ∈ M n , 且 A A A 与 B B B 相似, 那么它们有相同的特征值 (重特征值按重数计算).
1.3.5 例 有相同的特征值是相似的必要条件,但不是充分条件,考虑矩阵
[ 0 1 0 0 ] 和 [ 0 0 0 0 ] , \begin{array}{r} {\left[ \begin{array}{l l} {0} & {1} \\ {0} & {0} \end{array} \right] \quad \text {和} \quad \left[ \begin{array}{l l} {0} & {0} \\ {0} & {0} \end{array} \right],} \end{array} [ 0 0 1 0 ] 和 [ 0 0 0 0 ] , 每一个都有二重特征值0,但它们不相似
练习 证明与零矩阵相似的矩阵只有它本身,然后利用这一事实验证例(1.3.5)中的论断。
练习 如果矩阵 A A A , B ∈ M n B \in M_{n} B ∈ M n 相似,并且 q ( ⋅ ) q(\cdot) q ( ⋅ ) 是多项式,证明 q ( A ) q(A) q ( A ) 与 q ( B ) q(B) q ( B ) 相似。特别地,证明:如果 α \alpha α 是纯量,那么 A + α I A + \alpha I A + α I ,与 B + α I B + \alpha I B + α I 相似。
练习 如果 A , B , C , D ∈ M n A, B, C, D \in M_n A , B , C , D ∈ M n ,且 A ∼ B A \sim B A ∼ B 和 C ∼ D C \sim D C ∼ D 是经同一相似矩阵 S S S 实现的,证明 A + C ∼ B + D A + C \sim B + D A + C ∼ B + D .
练习 如果 A , S ∈ M n A, S \in M_{n} A , S ∈ M n ,且 S S S 是非奇异矩阵,证明 E k ( S − 1 A S ) = E k ( A ) E_{k}(S^{-1}AS) = E_{k}(A) E k ( S − 1 A S ) = E k ( A ) ,特别是, det S − 1 A S \det S^{-1}AS det S − 1 A S
det A A A 和 tr S − 1 A S = tr A \operatorname{tr} S^{-1} A S = \operatorname{tr} A tr S − 1 A S = tr A ,即行列式,迹和其他的 k × k k \times k k × k 主子式和是相似不变量。
练习 证明秩也是相似不变量:如果 B ∈ M n B \in M_{n} B ∈ M n 相似于 A ∈ M n A \in M_{n} A ∈ M n ,那么 rank B = rank A \operatorname{rank} B = \operatorname{rank} A rank B = rank A 。提示:见(0.4.6)。
因为对角矩阵特别简单,又有很好的性质,因此有必要知道,对于哪些矩阵 A ∈ M n A \in M_{n} A ∈ M n ,在 A A A 的相似等价类中存在一个对角矩阵,即哪些矩阵相似于对角矩阵。
1.3.6 定义 如果相阵 A ∈ M n A \in M_{n} A ∈ M n 与一个对角矩阵相似,那么就说 Λ \Lambda Λ 可对角化。有时也采用术语可对角的。
1.3.7 定理 设 A ∈ M n A \in M_{n} A ∈ M n . 那么, A A A 可对角化, 当且仅当 A A A 有 n n n 个线性无关的特征向量.
证明:如果 A A A 有 n n n 个线性无关的特征向量 x ( 1 ) , … , x ( n ) \pmb{x}^{(1)},\dots ,\pmb{x}^{(n)} x ( 1 ) , … , x ( n ) ,以它们为列作非奇异矩阵 S S S 通过计算,
S 1 A S = S 1 [ A x ( 1 ) A x ( 2 ) … A x ( n ) ] = S − 1 [ λ 1 x ( 1 ) … λ n x ( n ) ] − S − 1 [ x ( 1 ) … x ( m ) ] Λ = S 1 S A = A , \begin{array}{l} S ^ {1} A S = S ^ {1} \left[ A x ^ {(1)} A x ^ {(2)} \dots A x ^ {(n)} \right] \\ = S ^ {- 1} \left[ \lambda_ {1} x ^ {(1)} \dots \lambda_ {n} x ^ {(n)} \right] - S ^ {- 1} \left[ x ^ {(1)} \dots x ^ {(m)} \right] \Lambda \\ = S ^ {1} S A = A, \\ \end{array} S 1 A S = S 1 [ A x ( 1 ) A x ( 2 ) … A x ( n ) ] = S − 1 [ λ 1 x ( 1 ) … λ n x ( n ) ] − S − 1 [ x ( 1 ) … x ( m ) ] Λ = S 1 S A = A , 其中
Λ = ∣ λ 1 0 ⋱ 0 λ n ∣ . \Lambda = \left| \begin{array}{l l l} \lambda_ {1} & & 0 \\ & \ddots & \\ 0 & & \lambda_ {n} \end{array} \right|. Λ = λ 1 0 ⋱ 0 λ n . 而 λ 1 , … , λ n \lambda_1, \dots, \lambda_n λ 1 , … , λ n 是 A A A 的特征值.
46
反过来,假定存在相似矩阵 S S S 使得 S − 1 A S = Λ S^{-1}AS = \Lambda S − 1 A S = Λ 是对角矩阵。于是 A S − S A AS - SA A S − S A 。这就是说, Λ \Lambda Λ 乘 S S S 的第 i i i 列(即 A S AS A S 的第 i i i 列)是 Λ \Lambda Λ 的第 i i i 个对角元乘 S S S 的第 i i i 列(即 S A SA S A 的第 i i i 列),或者说, S S S 的第 i i i 列是 Λ \Lambda Λ 的相应于 Λ \Lambda Λ 的相应于 Λ \Lambda Λ 的第 i i i 个对角元的特征向量。因为 S S S 是非奇异的,所以存在 n n n 个线性无关的特征向量。□
更注意的是,(1.3.7)的证明原则上是关于对角化一个可对角矩阵的算法:求 A A A 的各特征值;求相应的各个特征向量(考虑重特征值),然后把它们排成矩阵 S S S 。如果诸特征向量线性无关,那么 S S S 是一个对角化相似矩阵。但是,我们要着重指出,这只是粗略的分析性解释,不是实际的计算方法。
附注 如果 A ∈ M n A \in M_{n} A ∈ M n 可对角化,与 A A A 相似的任一对角矩阵的各对角元必须是 A A A 的具有适当重数的特征值。此外,线性无关的特征向量(它们组成相似矩阵)必须对应具有适当重数的不同的特征值;即,如果 x ( 1 ) , ⋯ , x ( n ) x^{(1)}, \cdots, x^{(n)} x ( 1 ) , ⋯ , x ( n ) 是线性无关的特征向量,且 p A ( t ) = ( t − λ 1 ) ⋯ ( t − λ n ) p_{A}(t) = (t - \lambda_{1}) \cdots (t - \lambda_{n}) p A ( t ) = ( t − λ 1 ) ⋯ ( t − λ n ) ,那么,对诸指标的某个排列 τ \tau τ ,有 A x ( i ) = λ τ ( i ) x ( i ) A x^{(i)} = \lambda_{\tau(i)} x^{(i)} A x ( i ) = λ τ ( i ) x ( i ) 。
练习 证明矩阵 A − [ 0 1 0 0 ] A - \left[ \begin{array}{ll}0 & 1\\ 0 & 0 \end{array} \right] A − [ 0 0 1 0 ] 不能对角化.
其理由是:一方面是因为,如果它可对角化,它将相似于0矩阵,而这是不可能的;另一方面,经计算,除了差一个比例因子以外,只存在一个属于0的特征向量。
练习 如果 A A A 可对角化,而 q ( ⋅ ) q(\cdot) q ( ⋅ ) 是一个多项式,证明 q ( A ) q(A) q ( A ) 可对角化。提示: q ( S A S − 1 ) = q(SAS^{-1}) = q ( S A S − 1 ) =
S q ( A ) S − 1 . S q (A) S ^ {- 1}. Sq ( A ) S − 1 . 练习 如果 A ∈ M n A \in M_{n} A ∈ M n ,且 λ ∈ σ ( A ) \lambda \in \sigma(A) λ ∈ σ ( A ) 作为 A A A 的特征值有重数 m m m ,证明,如果 rank ( A − λ I ) > n − m \operatorname{rank}(A - \lambda I) > n - m rank ( A − λ I ) > n − m ,那么 A A A 不能对角化。
保证可对角化性质可行的一个简单情形是矩阵的各特征值互不相同。这个事实的一个重要前提是下述引理,它还有其他用途:
1.3.8 引理 假定 λ 1 , … , λ k \lambda_1, \dots, \lambda_k λ 1 , … , λ k 是 A ∈ M n A \in M_n A ∈ M n 的两两不相同的特征值,而 x ( i ) x^{(i)} x ( i ) 是相应于 λ i \lambda_i λ i 的特征向量, i = 1 , … , k i = 1, \dots, k i = 1 , … , k 。那么 { x ( 1 ) , … , x ( k ) } \{x^{(1)}, \dots, x^{(k)}\} { x ( 1 ) , … , x ( k ) } 是线性无关组。
证明:证明实质上是用反证法。相反,假设 x ( 1 ) , ⋯ , x ( k ) x^{(1)}, \cdots, x^{(k)} x ( 1 ) , ⋯ , x ( k ) 是一个线性相关组,那么存在一个等于0向量的非平凡线性组合,并且实际上这样一个线性组合,它的非零系数最少。假定这个极小的线性相关关系式是
α 1 x ( 1 ) + α 2 x ( 2 ) + ⋯ + α r x ( r ) = 0 , r ⩽ k . \alpha_ {1} x ^ {(1)} + \alpha_ {2} x ^ {(2)} + \dots + \alpha_ {r} x ^ {(r)} = 0, \quad r \leqslant k. α 1 x ( 1 ) + α 2 x ( 2 ) + ⋯ + α r x ( r ) = 0 , r ⩽ k . 因为所有 x ( i ) ≠ 0 x^{(i)} \neq 0 x ( i ) = 0 ,有 r > 1 r > 1 r > 1 。为方便起见,可以假定它包含前 r r r 个向量(如果必要,可重排编号)。同时,还有另一个相关关系式
A ( α 1 x ( 1 ) + ⋯ + α r x ( r ) ) = α 1 A x ( 1 ) − ⋯ + α r A x ( r ) = a 1 λ 1 x ( 1 ) + ⋯ + a r λ r x ( r ) = 0. \begin{array}{l} A \left(\alpha_ {1} x ^ {(1)} + \dots + \alpha_ {r} x ^ {(r)}\right) = \alpha_ {1} A x ^ {(1)} - \dots + \alpha_ {r} A x ^ {(r)} \\ = a _ {1} \lambda_ {1} x ^ {(1)} + \dots + a _ {r} \lambda_ {r} x ^ {(r)} = 0. \\ \end{array} A ( α 1 x ( 1 ) + ⋯ + α r x ( r ) ) = α 1 A x ( 1 ) − ⋯ + α r A x ( r ) = a 1 λ 1 x ( 1 ) + ⋯ + a r λ r x ( r ) = 0. 现在用 λ r \lambda_{r} λ r 乘第一个关系式,然后从第二个关系式中减去它便得到第三个相关关系式
α 1 ( λ 1 − λ r ) x ( 1 ) + ⋯ + α r , ( λ r 1 − λ r ) x ( r − 1 ) = 0 , \alpha_ {1} \left(\lambda_ {1} - \lambda_ {r}\right) x ^ {(1)} + \dots + \alpha_ {r}, \left(\lambda_ {r 1} - \lambda_ {r}\right) x ^ {(r - 1)} = 0, α 1 ( λ 1 − λ r ) x ( 1 ) + ⋯ + α r , ( λ r 1 − λ r ) x ( r − 1 ) = 0 , 它的非零系数比第一个关系式要少。因为 λ i ≠ λ r \lambda_{i} \neq \lambda_{r} λ i = λ r , i = 1 , 2 , … , r − 1 i = 1, 2, \dots, r - 1 i = 1 , 2 , … , r − 1 ,这最后一个关系式是非平凡的。这就与第一个相关关系式的极小性假设相矛盾,因而得证。
1.3.9 定理 如果 A ∈ M n A \in M_{n} A ∈ M n 有 n n n 个互不相同的特征值,那么 A A A 可对角化。
证明:如果 σ ( A ) = { λ 1 , … , λ n } \sigma(A) = \{\lambda_1, \dots, \lambda_n\} σ ( A ) = { λ 1 , … , λ n } ,设 x ( i ) x^{(i)} x ( i ) 是相应于 λ i \lambda_i λ i 的特征向量。因为特征值都各不相同,根据(1.3.8), { x ( i ) , … , x ( n ) } \{x^{(i)}, \dots, x^{(n)}\} { x ( i ) , … , x ( n ) } 是线性无关组,因此,再由(1.3.7)可知,A可对角化。
练习 给出一个可对角化矩阵 A ∈ M n A \in M_{n} A ∈ M n 的例子,但它没有互不相同的特征值.
练习 由(0.9.5)想到,置换矩阵 P P P 是其每一行和每一列中恰有一个分量为1的以0,1为分量的矩阵。因而 P † = P † P^{\dagger} = P^{\dagger} P † = P † 。证明 A ∈ M n A \in M_{n} A ∈ M n 的一个置换相似重排 A A A 的诸对角元,然后证明,对任一对角矩阵,存在一个置换相似矩阵,使其对角元可按任意顺序重排,特别是任一重复出现的对角元可相邻地排放在一起。
矩阵 A A A , B ∈ M n B\in M_{n} B ∈ M n 关于乘法一般不交换,但是,如果 A \pmb{A} A , B \pmb{B} B 都是对角矩阵,它们总是可交换的.这后一个结论可以做些推广;在这方面,下面的引理是有益的.
1.3.10 引理 设 A ∈ M n A \in M_{n} A ∈ M n 和 B ∈ M m B \in M_{m} B ∈ M m 是给定的矩阵,且设
C = [ A 0 0 B ] C = \left[ \begin{array}{l l} A & 0 \\ 0 & B \end{array} \right] C = [ A 0 0 B ] 是 A A A 与 B B B 的直和,那么, C C C 可对角化,当且仅当 A A A 和 B B B 都可对角化。
证明:如果存在非奇异矩阵 S 1 ∈ M n S_{1} \in M_{n} S 1 ∈ M n 和非奇异矩阵 S 2 ∈ M m S_{2} \in M_{m} S 2 ∈ M m ,使得 S 1 − 1 A S 1 S_{1}^{-1} A S_{1} S 1 − 1 A S 1 和 S 2 − 1 B S 2 S_{2}^{-1} B S_{2} S 2 − 1 B S 2 都是对角矩阵,那么容易验证 S ⋅ C S S \cdot C S S ⋅ CS 是对角矩阵,只要 S S S 取直和
S ≡ [ S 1 0 0 S 2 ] . S \equiv \left[ \begin{array}{c c} S _ {1} & 0 \\ 0 & S _ {2} \end{array} \right]. S ≡ [ S 1 0 0 S 2 ] . 反之,设 C C C 可对角化,存在非奇异矩阵 S ∈ M n − m S \in M_{n - m} S ∈ M n − m ,使 S − 1 C S = Λ = d i a g ( λ 1 , λ 2 , … , λ n + m ) S^{-1}CS = \Lambda = \mathrm{diag}(\lambda_1, \lambda_2, \dots, \lambda_{n + m}) S − 1 CS = Λ = diag ( λ 1 , λ 2 , … , λ n + m ) 是对角矩阵。如果用
s i = [ ξ i − η i ] ∈ C n − m , ξ i ∈ C n , η i ∈ C m , i = 1 , 2 , … , n + m s _ {i} = \left[ \begin{array}{l} \xi_ {i} \\ - \eta_ {i} \end{array} \right] \in \mathbf {C} ^ {n - m}, \xi_ {i} \in \mathbf {C} ^ {n}, \eta_ {i} \in \mathbf {C} ^ {m}, i = 1, 2, \dots , n + m s i = [ ξ i − η i ] ∈ C n − m , ξ i ∈ C n , η i ∈ C m , i = 1 , 2 , … , n + m 表示 S = [ s 1 s 2 ⋯ s n − n ] S = [s_1 s_2 \cdots s_{n - n}] S = [ s 1 s 2 ⋯ s n − n ] ,那么,对 i = 1 , 2 , ⋯ , n + m i = 1, 2, \cdots, n + m i = 1 , 2 , ⋯ , n + m , C s = λ i s i C_s = \lambda_i s_i C s = λ i s i 推出 A ξ i = λ i ξ i A\xi_i = \lambda_i \xi_i A ξ i = λ i ξ i 和 B η i = λ i η i B \eta_i = \lambda_i \eta_i B η i = λ i η i 。如果在集合 { ξ 1 , ⋯ , ξ n − m } \{\xi_1, \cdots, \xi_{n - m}\} { ξ 1 , ⋯ , ξ n − m } 中,无关向量少于 n n n 个,则矩阵
[ ξ 1 ξ 2 … ξ n + m ] ∈ M n , n + m \left[ \xi_ {1} \xi_ {2} \dots \xi_ {n + m} \right] \in M _ {n, n + m} [ ξ 1 ξ 2 … ξ n + m ] ∈ M n , n + m 的列秩(因而行秩)将小于 n n n 。同理,如果在集合 { η 1 , … , η m } \{\eta_1, \dots, \eta_m\} { η 1 , … , η m } 中,无关向量少于 m m m 个,则矩阵
[ η 1 η 2 … η n + m ] ∈ M m , n + m \left[ \eta_ {1} \eta_ {2} \dots \eta_ {n + m} \right] \in M _ {m, n + m} [ η 1 η 2 … η n + m ] ∈ M m , n + m 的列秩(因而行秩)将小于 m m m ,在其中一种(或两种)情形下,矩阵
S = [ s 1 … s m − n ] = [ ξ 1 … ξ n − m η 1 … η n + m ] ∈ M n + m S = \left[ s _ {1} \dots s _ {m - n} \right] = \left[ \begin{array}{l l l} \xi_ {1} & \dots & \xi_ {n - m} \\ \eta_ {1} & \dots & \eta_ {n + m} \end{array} \right] \in M _ {n + m} S = [ s 1 … s m − n ] = [ ξ 1 η 1 … … ξ n − m η n + m ] ∈ M n + m 的行秩(因而秩)小于 n + m n + m n + m ;因为 S S S 是可逆的,所以这是不可能的。因此,在集合 { ζ 1 , ζ 2 , … , ζ n + m } \{\zeta_1, \zeta_2, \dots, \zeta_{n+m}\} { ζ 1 , ζ 2 , … , ζ n + m } 中恰有 n n n 个线性无关的向量,又因为这每一个向量都是 A A A 的特征向量,所以 A A A 一定可对角化。同理可证矩阵 B B B 可对角化。
49
1.3.11 定义 我们说两个可对角化矩阵 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 同时可对角化,指的是存在同一个相似矩阵 S ∈ M n S \in M_{n} S ∈ M n ,使得 S − 1 A S S^{-1}AS S − 1 A S 和 S − 1 B S S^{-1}BS S − 1 BS 都是对角矩阵,即,如果存在同一个基,在这个基下,两个线性变换的表示都是对角矩阵。
练习 证明,如果 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 同时可对角化,那么它们可交换。提示:写出 A = S D S − 1 A = SDS^{-1} A = S D S − 1 和 B = S E S − 1 B = SES^{-1} B = SE S − 1 , D D D 和 E E E 都是对角矩阵。然后利用对角矩阵是交换的事实计算 A B AB A B 和 B A BA B A 。这种处理方式会经常用到。
练习 证明,如果 A ∈ M n A \in M_{n} A ∈ M n 可对角化,而 λ I \lambda I λ I 是 M n M_{n} M n 中的一个纯量矩阵,那么 A A A 和 λ I \lambda I λ I 同时可对角化。
1.3.12 定理 设 A , B ∈ M n A, B \in M_n A , B ∈ M n 可对角化。那么, A A A 和 B B B 可交换,当且仅当它们同时可对角化。
证明:假定 A A A 和 B B B 可交换,在 A A A 和 B B B 上同施以一个相似变换使 A A A 对角化,因而,不失一般性,可以假定 A A A 是以角矩阵,仍不失一般性,再假定 A A A 的任一多重特征值相邻地出现在主对角线上。因为 A B = B A AB = BA A B = B A (上述公共的相似变换不会改变这一关系),所以有
λ i b i j = b i j λ j , \lambda_ {i} b _ {i j} = b _ {i j} \lambda_ {j}, λ i b ij = b ij λ j , 其中, B = [ b i j ] B = [b_{ij}] B = [ b ij ] ,而 λ 1 , … , λ n \lambda_1,\dots ,\lambda_n λ 1 , … , λ n 是 A A A 的各特征值.因为 ( λ i − λ j ) b i j = 0 (\lambda_i - \lambda_j)b_{ij} = 0 ( λ i − λ j ) b ij = 0 ,由此可知,只要 λ i ≠ \lambda_i\neq λ i = λ j \lambda_j λ j ,就有 b i j = 0 b_{ij} = 0 b ij = 0 ,因此,接上面已经给定的 λ i \lambda_{i} λ i 项的顺序, B B B 是分块对角矩阵:
B = [ B 1 0 ⋱ 0 B k ] , (1.3.13) B = \left[ \begin{array}{l l l} B _ {1} & & 0 \\ & \ddots & \\ 0 & & B _ {k} \end{array} \right], \tag {1.3.13} B = B 1 0 ⋱ 0 B k , ( 1.3.13 ) 其中,对于 A A A 的每个不同的特征值,有一个子块 B i B_{i} B i 。每个 B i B_{i} B i 是一个方阵,其阶数是与它相应的 A A A 的特征值的重数。因为 B B B 可对角化,根据(1.3.10),每个 B i B_{i} B i 可对角化。设 T i T_{i} T i 是使 T i − 1 B i T i T_{i}^{-1}B_{i}T_{i} T i − 1 B i T i 为对角矩阵的非奇异矩阵。因为 A A A 有分块形式
A = [ λ 1 I 0 λ 2 I ⋱ 0 λ n I ] , (1.3.14) A = \left[ \begin{array}{c c c c} \lambda_ {1} I & & & 0 \\ & \lambda_ {2} I & & \\ & & \ddots & \\ 0 & & & \lambda_ {n} I \end{array} \right], \tag {1.3.14} A = λ 1 I 0 λ 2 I ⋱ 0 λ n I , ( 1.3.14 ) 其中每个纯量矩阵 λ i I \lambda_{i}I λ i I 与 B i B_{i} B i 同阶,我们看到 T − 1 A T T^{-1}AT T − 1 A T 与 T − 1 B T T^{-1}BT T − 1 BT 都是对角矩阵,其中 T T T 是直和
T = [ T 1 0 T 2 ⋱ 0 T k ] . (1.3.15) T = \left[ \begin{array}{c c c c} T _ {1} & & & 0 \\ & T _ {2} & & \\ & & \ddots & \\ 0 & & & T _ {k} \end{array} \right]. \tag {1.3.15} T = T 1 0 T 2 ⋱ 0 T k . ( 1.3.15 ) 注意, T 1 1 λ 1 I T 1 = λ 1 I . T_{1}^{1}\lambda_{1}IT_{1} = \lambda_{1}I. T 1 1 λ 1 I T 1 = λ 1 I .
逆命题已包括在前面一个练习中.
作为本节的结束,把(1.3.12)推广到较大的矩阵集合,并且对不可对角化矩阵的情形给出一个较弱的结果。
1.3.16 定义 矩阵的一个族 F ⊆ M n \mathcal{F} \subseteq M_n F ⊆ M n 是矩阵的任一(有限的或无限的)集合,而交换族是其每一对矩阵在乘法下都是可交换的族。我们称子空间 W ⊆ C n W \subseteq C^n W ⊆ C n 对 A ∈ M n A \in M_n A ∈ M n 是 A A A -不变的,是指 A w ∈ W Aw \in W A w ∈ W 对每个 w ∈ W w \in W w ∈ W 成立;称 W W W 对族 F ⊆ M n \mathcal{F} \subseteq M_n F ⊆ M n 是 ≠ \neq = -不变的,是指 W W W 对每个 A ∈ F A \in \mathcal{F} A ∈ F 是 A A A -不变的。
注意,如果 A ∈ M n A \in M_{n} A ∈ M n , C n \mathbf{C}^{n} C n 的一维 A A A 不变子空间中的每个非零元素是 A A A 的特征向量。
练习 设 A ∈ M n A \in M_{n} A ∈ M n 。如果 W W W 是维数至少为 1 的 C n \mathbf{C}^{n} C n 的 A A A -不变子空间,证明在 W W W 中有 A A A 的一个特征向量。提示:选取 W W W 的一个基,然后考虑作为 W W W 上的线性变换 T : w → A w T: w \to Aw T : w → A w 的基表示矩阵。证明这个矩阵有一个特征值。要点是:为什么 T T T 是 W W W 上的线性变换?
一个重要的结论是下面的引理
1.3.17 引理 如果 F ⊆ M n \mathcal{F} \subseteq M_{n} F ⊆ M n 是交换族,那么,存在向量 x ∈ C n x \in \mathbb{C}^{n} x ∈ C n ,它是每个 A ∈ F A \in \mathcal{F} A ∈ F 的特征向量。
证明:设 W ⊆ C n W \subseteq \mathbf{C}^{n} W ⊆ C n 是有最小正维数的 F \mathcal{F} F -不变子空间;这样的 W W W 存在,但未必唯一。因为 C n \mathbf{C}^{n} C n 本身就是 F \mathcal{F} F 不变的,所以知道有一个 n n n 维 F \mathcal{F} F -不变子空间。如果存在 n − 1 n-1 n − 1 维 F \mathcal{F} F -不变子空间,那么就要问是否存在 n − 2 n-2 n − 2 维 F \mathcal{F} F -不变子空间,等等。实际上,只要证明 W W W 中的每个非零向量是每个 A ∈ F A \in \mathcal{F} A ∈ F 的一个特征向量,就完成了引理的证明。假如上述情形不成立,那么,对某个矩阵 A ∈ F A \in \mathcal{F} A ∈ F ,并非 W W W 中每个非零向量都是 A A A 的特征向量。但是,因为 W W W 是 F \mathcal{F} F 不变的,所以它是 A A A -不变的,因而在 W W W 中有 x ≠ 0 x \neq 0 x = 0 ,使得 A x = λ x Ax = \lambda x A x = λ x 对某个特征值 λ \lambda λ 成立。定义 W 0 = { y ∈ W : A y = λ y } W_{0} = \{y \in W : Ay = \lambda y\} W 0 = { y ∈ W : A y = λ y } ,于是 x ∈ W 0 x \in W_{0} x ∈ W 0 ,且 W 0 ⊆ W W_{0} \subseteq W W 0 ⊆ W 是一个子空间。因为关于 A A A 的假设, W 0 ≠ W W_{0} \neq W W 0 = W ,因而 W 0 W_{0} W 0 的(正)维数严格小于 W W W 的维数。设 B ∈ F B \in \mathcal{F} B ∈ F ,如果 x ∈ W 0 x \in W_{0} x ∈ W 0 ,则有 B x ∈ W Bx \in W B x ∈ W ,这是因为 W 0 ⊆ W W_{0} \subseteq W W 0 ⊆ W 且 W W W 是 F \mathcal{F} F -不变的。但是另一方面,因为 F \mathcal{F} F 是交换族, A ( B x ) = ( A B ) x = ( B A ) x − B ( A x ) = B ( λ x ) A(Bx) = (AB)x = (BA)x - B(Ax) = B(\lambda x) A ( B x ) = ( A B ) x = ( B A ) x − B ( A x ) = B ( λ x )
λ ( B x ) \lambda(Bx) λ ( B x ) ,因而得出 B x ∈ W 0 Bx \in W_0 B x ∈ W 0 。由此可知, W 0 W_0 W 0 是 F \mathcal{F} F -不变的。但因为 W 0 W_0 W 0 有严格低于 W W W 的正维数,这就产生了矛盾。证毕。
引理(1.3.17)是关于任意基数的交换族的。特别是,如果 F = { A , B } \mathcal{F} = \{A, B\} F = { A , B } 是只有两个矩阵的族,那就是说,任一对交换矩阵有一个公共的特征向量。定理(1.3.12)是说,如果 A A A 和 B B B 不仅可交换而且每一个也都可对角化,那么它们同时可对角化。我们的下一个结果要证明,关于两个可对角化矩阵的交换族的上述性质不是它所特有的;这个结论可以推广到具有任意基数的族。
1.3.18 定义 同时可对角化的族 F ⊂ M n \mathcal{F} \subset M_n F ⊂ M n 是这样一个族,关于这个族,存在同一个非奇异矩阵 S ∈ M n S \in M_n S ∈ M n ,使得对每个 A ∈ F A \in \mathcal{F} A ∈ F , S − 1 A S S^{-1}AS S − 1 A S 是对角矩阵。
1.3.19 定理 设 F ˉ ⊂ M n \bar{\mathcal{F}} \subset M_{n} F ˉ ⊂ M n 是由可对角化矩阵组成的族。那么, F ˉ \bar{\mathcal{F}} F ˉ 是交换族,当且仅当它是同时可对角化的族。
证明:如果 F \mathcal{F} F 同时可对角化,那么,根据前面的练习,它是交换族。对 n n n 作归纳法来证明其逆命题。如果 n = 1 n = 1 n = 1 ,就没有什么可证的了,因为每个族既是交换的,也是对角的。假设 n > 2 n > 2 n > 2 ,并且假定,对 k = 1 , 2 , ⋯ , n − 1 k = 1, 2, \cdots, n - 1 k = 1 , 2 , ⋯ , n − 1 ,关于满足假设的所有 k × k k \times k k × k 矩阵族,结论已经证明。如果 F \mathcal{F} F 的每个矩阵是纯量矩阵,那就无须证明,因此,可以假定, A ∈ F A \in \mathcal{F} A ∈ F 是某个具有特征值 λ 1 , λ 2 , ⋯ , λ k \lambda_1, \lambda_2, \cdots, \lambda_k λ 1 , λ 2 , ⋯ , λ k (其中至少有两个不相同, 2 ⩽ k ⩽ n 2 \leqslant k \leqslant n 2 ⩽ k ⩽ n )的 n × n n \times n n × n 可对角化矩阵,还假定,对每个矩阵 B ∈ F B \in \mathcal{F} B ∈ F , A B = B A AB = BA A B = B A ,且每个 B ∈ F B \in \mathcal{F} B ∈ F 可对角化。采用与(1.3.12)中相同的论证,可以把情况简化为: A A A 实际上是对角矩阵, A A A 的任一多重特征值相邻地出现,且特征值的顺序是固定的,即 A A A 有形式(1.3.14)。因为每个 B ∈ F B \in \mathcal{F} B ∈ F 与 A A A 交换,(1.3.12)中证明,每个 B ∈ F B \in \mathcal{F} B ∈ F 有阶数为 n − 1 n - 1 n − 1 或小于 n − 1 n - 1 n − 1 的矩阵直和形式(1.3.13)。在(1.3.13)中子块的阶数和位置完全由 A A A 的诸特征值的重数和顺序所确定,因此,对于所有 B ∈ F B \in \mathcal{F} B ∈ F ,它们都是相同的。因为,所有矩阵 B ∈ F B \in \mathcal{F} B ∈ F 都可交换(不只是与 A A A ),且每个 B ∈ F B \in \mathcal{F} B ∈ F 有一个直和形式(1.3.13),所以, F \mathcal{F} F 中任一矩阵的 k k k 个直和被加子块中的每一个都是 F \mathcal{F} F 的其他每个矩阵的相应子块可交换,并且,根据(1.3.10),这每个子块都可对角化。由归纳假设,存在 k k k 个相应阶数的相似矩阵 T 1 , T 2 , ⋯ , T k T_1, T_2, \cdots, T_k T 1 , T 2 , ⋯ , T k ,它们中的每一个都使 F \mathcal{F} F 中的每个矩阵的对应子块对角化。正如(1.13.15)中的直和那样,直和 T 1 ⊕ T 2 ⊕ ⋯ ⊕ T k T_1 \oplus T_2 \oplus \cdots \oplus T_k T 1 ⊕ T 2 ⊕ ⋯ ⊕ T k 使 F \mathcal{F} F 中的每个矩阵对角化。
附注 与这一节相关的两个重要问题将推迟到第3章讨论:(1)给定 A A A , B ∈ M n B \in M_{n} B ∈ M n ,如何确定 A A A 是否与 B B B 相似?这是促成求相似下的标准形的动机。(2)不计算已知矩阵 A ∈ M n A \in M_{n} A ∈ M n 的特征向量,我们如何判别它是否可对角化?
作为交换性的最后一个附注,我们注意到,虽然 A B AB A B 与 B A BA B A 未必是相同的矩阵(并且即使两者都有定义,它仍未必是同阶的),但是从它们的特征值来看,几乎是相同的,如果 A A A 和 B B B 都是方阵, A B AB A B 和 B A BA B A 恰有相同的特征值。
1.3.20 定理 假定 A ∈ M m , n A \in M_{m,n} A ∈ M m , n , B ∈ M n , m B \in M_{n,m} B ∈ M n , m , 且 m ⩽ n m \leqslant n m ⩽ n . 那么 B A BA B A 与 A B AB A B 有相同的特征值(重特征值按重数计算),再附加 n − m n - m n − m 个等于 0 的特征值;即 p B A ( t ) = t n ⋅ m p A B ( t ) p_{BA}(t) = t^{n} \cdot {}^{m} p_{AB}(t) p B A ( t ) = t n ⋅ m p A B ( t ) . 如果 m = n m = n m = n , 且 A A A 或 B B B 至少有一个非奇异, 那么 A B AB A B 与 B A BA B A 相似.
证明:考虑以下两个涉及 M m + n M_{m + n} M m + n 中的分块矩阵的恒等式:
[ A B 0 B 0 ] [ I A 0 I ] = [ A B A B A B B A ] , \left[ \begin{array}{c c} A B & 0 \\ B & 0 \end{array} \right] \left[ \begin{array}{l l} I & A \\ 0 & I \end{array} \right] = \left[ \begin{array}{c c} A B & A B A \\ B & B A \end{array} \right], [ A B B 0 0 ] [ I 0 A I ] = [ A B B A B A B A ] , [ I A 0 I ] [ 0 0 B B A ] = [ A B A B A B B A ] . \left[ \begin{array}{l l} I & A \\ 0 & I \end{array} \right] \left[ \begin{array}{l l} 0 & 0 \\ B & B A \end{array} \right] = \left[ \begin{array}{l l} A B & A B A \\ B & B A \end{array} \right]. [ I 0 A I ] [ 0 B 0 B A ] = [ A B B A B A B A ] . 因为分块矩阵
[ I A ⋮ 0 I ] ∈ M m , \left[ \begin{array}{l l} I & A \\ \vdots \\ 0 & I \end{array} \right] \in M _ {m}, I ⋮ 0 A I ∈ M m , 53
非奇异(它的所有特征值是 + 1 +1 + 1 ),得出
[ I A 0 I ] − 1 [ A B 0 B 0 ] [ I A 0 I ] = [ 0 0 L B B A ] , \left[ \begin{array}{l l} I & A \\ 0 & I \end{array} \right] ^ {- 1} \left[ \begin{array}{l l} A B & 0 \\ B & 0 \end{array} \right] \left[ \begin{array}{l l} I & A \\ 0 & I \end{array} \right] = \left[ \begin{array}{l l} 0 & 0 \\ L B & B A \end{array} \right], [ I 0 A I ] − 1 [ A B B 0 0 ] [ I 0 A I ] = [ 0 L B 0 B A ] , 即两个 ( m + n ) × ( m + n ) (m + n) \times (m + n) ( m + n ) × ( m + n ) 矩阵
C 1 = [ A B 0 B 0 ] 和 C 2 = [ 0 0 B B A ] C _ {1} = \left[ \begin{array}{c c} {{A B}} & {{0}} \\ {{B}} & {{0}} \end{array} \right] \quad \text {和} \quad C _ {2} = \left[ \begin{array}{c c} {{0}} & {{0}} \\ {{B}} & {{B A}} \end{array} \right] C 1 = [ A B B 0 0 ] 和 C 2 = [ 0 B 0 B A ] 相似。 C 1 C_1 C 1 的特征值是 A B AB A B 的特征值再加上 n n n 个零。 C 2 C_2 C 2 的特征值是 B A BA B A 的特征值再加上 m m m 个零。因为根据(1.3.4), C 1 C_1 C 1 与 C 2 C_2 C 2 的特征值相同(计相重特征值),所以定理的主要论断已经证明。最后一个论断可从以下结果推出:如果 A A A 是非奇异的,且 m = n m = n m = n ,那么 A B = A ( B A ) A − 1 AB = A(BA)A^{-1} A B = A ( B A ) A − 1 。
习题 如果 A , B ∈ M n A, B \in M_{n} A , B ∈ M n , 且 A A A 与 B B B 可交换, 证明 A A A 和关于 B B B 的任--多项式可交换.
设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n , 且有 σ ( A ) = { λ 1 , … , λ n } \sigma(A) = \{\lambda_{1}, \dots, \lambda_{n}\} σ ( A ) = { λ 1 , … , λ n } 和 σ ( B ) = { μ 1 , … , μ n } \sigma(B) = \{\mu_{1}, \dots, \mu_{n}\} σ ( B ) = { μ 1 , … , μ n } . 如果 A A A 和 B B B 可对角化, 且可交换, 证明, 存在 1 , … , n 1, \dots, n 1 , … , n 的某个排列 i 1 , … , i n i_{1}, \dots, i_{n} i 1 , … , i n . 使得 A + B A + B A + B 的特征值是
λ 1 + μ i 1 , λ 2 + μ i 2 , … , λ n + μ i n . \lambda_ {1} + \mu_ {i _ {1}}, \lambda_ {2} + \mu_ {i _ {2}}, \dots , \lambda_ {n} + \mu_ {i _ {n}}. λ 1 + μ i 1 , λ 2 + μ i 2 , … , λ n + μ i n . 如果 A ∈ M n A \in M_{n} A ∈ M n 和 A − S − 1 D S A - S^{-1}DS A − S − 1 D S , D = diag ( d 1 , ⋯ , d n ) D = \operatorname{diag}(d_{1}, \cdots, d_{n}) D = diag ( d 1 , ⋯ , d n ) ,且 p ( ⋅ ) p(\cdot) p ( ⋅ ) 是多项式,证明 p ( A ) = S − 1 p ( D ) S p(A) = S^{-1}p(D)S p ( A ) = S − 1 p ( D ) S 和 p ( D ) = diag ( p ( d 1 ) , ⋯ , p ( d n ) ) p(D) = \operatorname{diag}(p(d_{1}), \cdots, p(d_{n})) p ( D ) = diag ( p ( d 1 ) , ⋯ , p ( d n )) 。只要能使 A A A 对角化,这就提供了计算 p ( A ) p(A) p ( A ) 的一个简便方法。
给出两个交换矩阵不可同时对角化的例子。这与定理(1.13.12)矛盾吗?
如果 A ∈ M n A \in M_{n} A ∈ M n 有互不相同的特征值,且与给定的矩阵 B ∈ M n B \in M_{n} B ∈ M n 可交换,证明 B B B 是次数至多为 n − 1 n - 1 n − 1 的关于 A A A 的多项式。提示:采用在定理(1.3.12)的证明中使用过的方法,证明 B B B 和 A A A 一定同时可对角化。然后想到,给定互不相同的数 α 1 , ⋯ , α n \alpha_{1}, \cdots, \alpha_{n} α 1 , ⋯ , α n 和 β 1 , ⋯ , β n \beta_{1}, \cdots, \beta_{n} β 1 , ⋯ , β n ,存在一个次数至多为 n − 1 n - 1 n − 1 的(Lagrange插值)多项式 p ( ⋅ ) p(\cdot) p ( ⋅ ) ,使得 p ( α i ) = β i p(\alpha_{i}) = \beta_{i} p ( α i ) = β i 。见(0.9.11)。
如果 A ∈ M n A \in M_{n} A ∈ M n 可对角化,考虑特征多项式 p A ( t ) p_A(t) p A ( t ) ,证明 p A ( A ) p_A(A) p A ( A ) 是零矩阵。
设矩阵 A A A , B ∈ M n B \in M_{n} B ∈ M n ,如果 A 2 = B A^{2} = B A 2 = B ,就称 A A A 是 B B B 的平方根。证明 M n M_{n} M n 中的每个可对角化矩阵有一个平方根。
如果 A , B ∈ M n A, B \in M_{n} A , B ∈ M n , 且至少有一个有互不相同的特征值 (关于另一个, 甚至连它可对角化都没有假设), 证明, A A A 和 B B B 可交换, 当且仅当它们同时可对角化. 提示: 充分性的证明是容易的; 至于必要性, 试图采取如下形式的论证来作为(1.3.12)所采用的方法的一个补充. 假定
54
B B B 有互不相同的特征值, λ ∈ σ ( B ) \lambda \in \sigma(B) λ ∈ σ ( B ) 。且 B x = λ x Bx = \lambda x B x = λ x 及 x ≠ 0 x \neq 0 x = 0 。于是 B ( A x ) = A ( B x ) = A λ x − λ A x B(Ax) = A(Bx) = A\lambda x - \lambda Ax B ( A x ) = A ( B x ) = A λ x − λ A x ,由此推出 A x Ax A x 也是 B B B 的属于 λ \lambda λ 的特征向量。因为不可能存在两个这样的线性无关的向量(因为 λ \lambda λ 是单重的),所以 A x Ax A x 必须是 x x x 的 μ \mu μ 倍;即 A x = μ x Ax = \mu x A x = μx 。因此, B B B 的每个特征向量也是 A A A 的特征向量,并且使 B B B 对角化的这些特征向量所组成的同一个矩阵也使 A A A 对角化。有关这同一个命题的其他处理方法,见习题12和13。
对定理(1.3.20)的下述另一个证明作详细的论述。(a)首先,假定 A A A , B ∈ M n B \in M_{n} B ∈ M n ,且其中至少有一个是非奇异的。证明 A B AB A B 相似于 B A BA B A ,因而 A B AB A B 和 B A BA B A 的特征多项式相同。提示:若 A A A 是非奇异的,则 B A − A ′ = ( A B ) A BA - A' = (AB)A B A − A ′ = ( A B ) A 。此时, σ ( A B ) = σ ( B A ) \sigma(AB) = \sigma(BA) σ ( A B ) = σ ( B A ) 。(b)考虑奇异矩阵 A = [ 1 0 0 0 ] A = \begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix} A = [ 1 0 0 0 ] 和 B = [ 0 0 1 0 ] B = \begin{bmatrix} 0 & 0 \\ 1 & 0 \end{bmatrix} B = [ 0 1 0 0 ] 。证明 A B AB A B 与 B A BA B A 不相似,但它们有相同的特征值。(c)证明,若 A A A , B ∈ M n B \in M_{n} B ∈ M n ,则 A B AB A B 与 B A BA B A 有相同的特征值,包括重特征值。提示:考虑下面的分析论证。对所有充分小的 ε > 0 \varepsilon > 0 ε > 0 , A ε ≡ A + ε I A_{\varepsilon} \equiv A + \varepsilon I A ε ≡ A + ε I 是非奇异的;因而 A ε B A_{\varepsilon}B A ε B 与 B A ε BA_{\varepsilon} B A ε 相似,故 A ε B A_{\varepsilon}B A ε B 与 B A ε BA_{\varepsilon} B A ε 有相同的特征多项式。如果我们现在令 ε → 0 \varepsilon \to 0 ε → 0 ,取极限不能保证其相似性,但其特征多项式仍然相等,这是因为 p ↓ ε B ( t ) = det ( t I − A ε B ) p_{\downarrow_{\varepsilon}B}(t) = \det(tI - A_{\varepsilon}B) p ↓ ε B ( t ) = det ( t I − A ε B ) 连续地依赖 ε \varepsilon ε 。因此 A B AB A B 与 B A BA B A 有相同的特征多项式,因而有相同的特征值,包括重特征值。(d)最后,若 A ∈ M m , n A \in M_{m,n} A ∈ M m , n , B ∈ M n , m B \in M_{n,m} B ∈ M n , m ,证明, A B AB A B 与 B A BA B A 有相同的特征值,包括重特征值,但不包括 B A BA B A 另有的 n − m n - m n − m 个为 0 的特征值(假定 n > m n > m n > m );等价地, p B A ( t ) = t n − m p V B ( t ) p_{BA}(t) = t^{n-m} p_{VB}(t) p B A ( t ) = t n − m p V B ( t ) 。提示:从 A A A (添加若干 0 行)以及 B B B (添加若干 0 列)作两个新的 n × n n \times n n × n 矩阵,利用最后一个结果,把两个新的(经过适当分块的)矩阵乘积与原有的两个乘积进行比较。
利用(1.3.8)证明下述推广:设 A ∈ M n A \in M_{n} A ∈ M n 已知,且 λ 1 , … , λ k \lambda_{1}, \ldots, \lambda_{k} λ 1 , … , λ k 是 A A A 的互不相同的特征值。对于每个 i = 1 , 2 , … , k i = 1, 2, \ldots, k i = 1 , 2 , … , k ,假定 { x 1 ( 1 ) , x 2 ( 1 ) , … , x n ( 1 ) } \{x_{1}^{(1)}, x_{2}^{(1)}, \ldots, x_{n}^{(1)}\} { x 1 ( 1 ) , x 2 ( 1 ) , … , x n ( 1 ) } 是 A A A 的相应于特征值 λ i \lambda_{i} λ i 的 n i ⩾ 1 n_{i} \geqslant 1 n i ⩾ 1 个特征向量的无关组。证明,诸集合之并 { x 1 ( 1 ) , x 2 ( 1 ) , … , x n i ( 1 ) } ∪ ⋯ ∪ { x 1 ( k ) , x 2 ( k ) , … , x n k ( k ) } \{x_{1}^{(1)}, x_{2}^{(1)}, \ldots, x_{n_{i}}^{(1)}\} \cup \cdots \cup \{x_{1}^{(k)}, x_{2}^{(k)}, \ldots, x_{n_{k}}^{(k)}\} { x 1 ( 1 ) , x 2 ( 1 ) , … , x n i ( 1 ) } ∪ ⋯ ∪ { x 1 ( k ) , x 2 ( k ) , … , x n k ( k ) } 是一个无关组。提示:如果某个线性组合是零,比如
0 = ∑ i k ∑ j = 1 n i t i j r j i j = ∑ i = 1 k y ( i ) , 0 = \sum_ {i} ^ {k} \sum_ {j = 1} ^ {n _ {i}} t _ {i j} r _ {j} ^ {i j} = \sum_ {i = 1} ^ {k} y ^ {(i)}, 0 = i ∑ k j = 1 ∑ n i t ij r j ij = i = 1 ∑ k y ( i ) , 利用(1.3.8)证明每个 y ′ ′ = 0 y^{\prime \prime} = 0 y ′′ = 0
对引理(1.3.17)的下述另一个更具构造性的证明作详细论述。(a)证明,若 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 可交换,则它们有一个公共特征向量。提示:设 x x x 是 A A A 的一个特征向量, A x = λ x Ax = \lambda x A x = λ x , x ≠ 0 x \neq 0 x = 0 ,然后考虑序列 x , B x , B 2 x , B 3 x , ⋯ x, Bx, B^{2}x, B^{3}x, \cdots x , B x , B 2 x , B 3 x , ⋯ 。这个序列中一定有一个元素与它前面的元素线性相关,取最靠前的这种元素,如 B k x B^{k}x B k x ,所以 S = Span { x , B x , B 2 x , ⋯ , B k − 1 x } S = \operatorname{Span}\{x, Bx, B^{2}x, \cdots, B^{k-1}x\} S = Span { x , B x , B 2 x , ⋯ , B k − 1 x } 是 B B B 的一个不变子空间,因而存在某个非零 y ∈ S y \in S y ∈ S 使得 B y = μ y By = \mu y B y = μ y 。但是 A B j x = B j A j = B j λ x = λ B j x AB^{j}x = B^{j}A_{j} = B^{j}\lambda x = \lambda B^{j}x A B j x = B j A j = B j λ x = λ B j x ,因而 S S S 中的每个非零向量也是 A A A 的特征向量。(b)若 F = { A 1 , A 2 , ⋯ , A m } \mathcal{F} = \{A_{1}, A_{2}, \cdots, A_{m}\} F = { A 1 , A 2 , ⋯ , A m } 是一个有限交换族,用归纳法证明,对所有 A i A_{i} A i 有一个公共的特征向量。提示:若 y ≠ 0 y \neq 0 y = 0 是 A 1 , A 2 , ⋯ , A m A_{1}, A_{2}, \cdots, A_{m} A 1 , A 2 , ⋯ , A m 的一个公共特征向量,像(a)中那样,考虑序列 y , A m y , A m 2 y , A m 3 y , ⋯ y, A_{m}y, A_{m}^{2}y, A_{m}^{3}y, \cdots y , A m y , A m 2 y , A m 3 y , ⋯ 。(c)若 F ⊂ M n \mathcal{F} \subset M_{n} F ⊂ M n 是一个没有有限基数的交换族。注意到在 F \mathcal{F} F 中不可能有多于 n 2 n^{2} n 2 个线性无关矩阵。选一个极大无关组再利用(b)证明,这个有限组的公共特征向量是 F \mathcal{F} F 的所有元素的公共特征向量。
如果 A = d i a g ( λ 1 , λ 2 , … , λ n ) ∈ M n A = \mathrm{diag}(\lambda_1, \lambda_2, \dots, \lambda_n) \in M_n A = diag ( λ 1 , λ 2 , … , λ n ) ∈ M n 有 n n n 个互不相同的对角元,用定理(1.3.12)的证明思想证明,对某个 B ∈ M n B \in M_n B ∈ M n , Λ B = B Λ \Lambda B = B\Lambda Λ B = B Λ ,当且仅当 B B B 本身是对角矩阵(但不必具有不同的对角元).
假设 A ∈ M n A \in M_{n} A ∈ M n 有 n n n 个互不相同的特征值。如果对某个 B ∈ M n B \in M_{n} B ∈ M n , A B = B A AB = BA A B = B A ,证明 B B B 可对角化,且 A A A 和 B B B 同时可对角化。提示:如果 A = S Δ S − 1 A = S\Delta S^{-1} A = S Δ S − 1 , Λ \Lambda Λ 是对角矩阵,证明 Λ \Lambda Λ 与 S − 1 B S S^{-1}BS S − 1 BS 可交换,然后利用习题12。
把习题 13 的结果推广到交换族 F ⊂ M n \mathcal{F} \subset M_{n} F ⊂ M n , 这个族至少包含一个具有 n n n 个互不相同的特征值的矩阵. 试将这个结果与假定族的所有成员都是可对角化的定理(1.3.19)作一比较, 这是一个较强的结果吗?
考虑分块对角矩阵 Λ = diag ( λ 1 I 1 , λ 2 I 2 , … , λ k I k ) ∈ M n \Lambda = \operatorname{diag}(\lambda_1 I_1, \lambda_2 I_2, \dots, \lambda_k I_k) \in M_n Λ = diag ( λ 1 I 1 , λ 2 I 2 , … , λ k I k ) ∈ M n ,其中, I j ∈ M n I_j \in M_n I j ∈ M n ,如果 i ≠ j i \neq j i = j ,则 λ i ≠ λ j \lambda_i \neq \lambda_j λ i = λ j ,且 n 1 + n 2 + ⋯ + n k = n n_1 + n_2 + \dots + n_k = n n 1 + n 2 + ⋯ + n k = n 。证明,对某个 B ∈ M n B \in M_n B ∈ M n , Λ B = B Λ \Lambda B = B\Lambda Λ B = B Λ ,当且仅当矩阵 B B B 有分块对角矩阵形式 B = diag ( B 1 , B 2 , … , B k ) B = \operatorname{diag}(B_1, B_2, \dots, B_k) B = diag ( B 1 , B 2 , … , B k ) ,其中, B j ∈ M n B_j \in M_n B j ∈ M n , j = 1 , 2 , … , k j = 1, 2, \dots, k j = 1 , 2 , … , k 。这个结果与习题12有何关系?
设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n , 且假定 A A A 或 B B B 非奇异. 如果 A B AB A B 可对角化, 证明 B A BA B A 也可对角化. 考虑 A = [ 0 1 0 0 ] A = \begin{bmatrix} 0 & 1 \\ 0 & 0 \end{bmatrix} A = [ 0 0 1 0 ] 和 B = [ 1 1 0 0 ] B = \begin{bmatrix} 1 & 1 \\ 0 & 0 \end{bmatrix} B = [ 1 0 1 0 ] , 说明, 如果 A A A 和 B B B 都是奇异的, 上述结论未必成立.