3.0 导引 在什么情形下两个矩阵是相似的?我们知道,相似矩阵有相同的迹、行列式、特征多项式和特征值,然而例子
A = [ 0 1 0 0 ] 和 B = [ 0 0 0 0 ] (3.0.1) A = \left[ \begin{array}{l l} 0 & 1 \\ 0 & 0 \end{array} \right] \quad \text {和} \quad B = \left[ \begin{array}{l l} 0 & 0 \\ 0 & 0 \end{array} \right] \tag {3.0.1} A = [ 0 0 1 0 ] 和 B = [ 0 0 0 0 ] ( 3.0.1 ) 说明,两个矩阵的上述四个量可以分别相等,但它们却不相似。假如存在某个非奇异矩阵 S ∈ M 2 S \in M_{2} S ∈ M 2 使得 A − S B S 1 = S O S 1 = 0 A - SBS^{1} = SOS^{1} = 0 A − SB S 1 = SO S 1 = 0 ,那么,因为 A ≠ 0 A \neq 0 A = 0 而得出矛盾。
练习 计算(3.0.1)中的两个矩阵的迹,行列式,特征多项式和特征值。证明 A 2 = 0 A^2 = 0 A 2 = 0
因为两个看上去很不相同的矩阵仍然可以相似,所以,--条确定两个矩阵是否相似的途径是,设想有某个具有指定形式的“简单”矩阵的集合,然后看这两个已知矩阵是否可以通过相似化成这些“简单”形式中的一个。如果它们能做到,那么它们必定是相似的(因为相似关系是传递的和对称的)。什么样的“简单”形式能符合这个要求呢?
每个复矩阵 A A A (两) 相似于一个上三角矩阵, 它的对角元 (A 的特征值) 可以按任一给定的次序(2.3.1)排列, 因此, 如果两个矩阵相似于同一个上三角矩阵, 那么它们就是相似的. 不过, 两个具有相同主对角元和不同的非对角元的上三角矩阵仍然可以相似. 这样一来, 如果已经把两个已知矩阵化成两个具有相同主对角元的不相等的三角矩阵, 还不能由此得出这两个矩阵不相似的结论. 这里有相当大的灵活性; 为了识别是否相似, 在一个上三角矩阵中有 n ( n + 1 ) / 2 n(n + 1)/2 n ( n + 1 ) /2 个非零元 (更确切地说“未必是零”的元) 需要考察, 这个数目太大了. 关于这种三角矩阵, 没有唯一的形式.
如果说上三角矩阵类与所要求的形式相距甚远,那么对角矩阵类又如何呢?如果两个已知矩阵中的每一个都各相似于一个对角矩阵,那么,它们彼此相似,当且仅当两个对角矩阵有相同的对角元,其中相重对角元按重数计算而无需考虑它们的顺序。其理由是:可以用置相似矩阵 P D P T PDP^T P D P T 按任意规定的次序给出对角矩阵 D D D 的主对角元。虽然这解决了讨论上三角矩阵时所涉及的唯一性问题,然而,现在还有一个存在性问题:不是每个复矩阵都相似于一个对角矩阵。
练习 证明(3.0.1)中的矩阵不能对角化。提示:如果 A = S Λ S − 1 A = S\Lambda S^{-1} A = S Λ S − 1 ,那么 Λ = B \Lambda = B Λ = B 。
如果对每一个矩阵来求一个尽可能接近对角矩阵的上三角形式,而且还可用相似变换得到它,那么所得结果是Jordan标准形,这正是下一节要讨论的内容。
我们已经考虑过两个矩阵 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 的相似性,在矩阵理论中还存在其他有意义的等价关系。例如, A A A 是否可以经酉相似或者只应用初等行和列的变换变成 B B B ;如果 A A A 和 B B B 都是实矩阵,是否可经一个实相似使 A A A 相似于 B B B ;如果 A A A 和 B B B 是Hermite 矩阵,是否存在一个非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n ,使得 A = S B S ∗ A = SBS^{*} A = SB S ∗ ;如果 A A A 和 B B B 是对称矩阵,是否存在一个非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n
使得 A = S B S ∗ A = SBS^{*} A = SB S ∗
在上述每一个例子中,在一个矩阵集合上有一个等价关系,而我们对每两个矩阵是否在同一等价类中感兴趣,解决这个问题的途径是,求一个具有规定形式的代表矩阵的“简单”集合,它们各取自每个等价类中的一个矩阵。我们试图把每个已给矩阵化成它们中的一个。如果这一方法果真凑效,那么每个等价类实际上必须包含规定形式的一个代表矩阵(这在相似下对于对角矩阵集合是不成立的),而且最好在每个类中只有一个代表矩阵(或者设想有一个由等价类的代表矩阵组成的较小的且容易描述的集合)(这在相似下对于上三角矩阵集合是不成立的)。这样一个由代表矩阵组成的集合常常称为标准形,在本章里,要考虑几个标准形。在后几章的部分段落还将引出其他标准形。
3.1 Jordan标准形:一个证明 Jordan标准形是一个“近乎对角”矩阵的集合,称为Jordan矩阵,它包括对角矩阵。Jordan矩阵具有性质:每个(在相似下的)复方阵的等价类包含一个Jordan矩阵,并且按一种显而易见的方式使得在同一个等价类的任意两个Jordan矩阵本质上是相同的。一个与已知矩阵相似的Jordan矩阵称为该矩阵的Jordan标准形(或者有时也称为Jordan法式)。只要知道了一个矩阵的Jordan标准形,那么关于该矩阵(即线性变换)的所有线性代数的信息一看就清楚了。
3.1.1 定义 Jordan 块 J λ ( λ ) J_{\lambda}(\lambda) J λ ( λ ) 是指具有形状:
J k ( λ ) − [ λ 1 0 λ 1 ⋱ ⋱ 1 0 λ ] (3.1.2) J _ {k} (\lambda) - \left[ \begin{array}{c c c c c} \lambda & 1 & & & 0 \\ & \lambda & 1 & & \\ & & & \ddots & \\ & & \ddots & & 1 \\ 0 & & & & \lambda \end{array} \right] \tag {3.1.2} J k ( λ ) − λ 0 1 λ 1 ⋱ ⋱ 0 1 λ ( 3.1.2 ) 的 k × k \pmb{k} \times \pmb{k} k × k 上一角矩阵。在上对角线上有 k − 1 k - 1 k − 1 项“+1”;纯量 λ \lambda λ 在主对角线上出现 k k k 次。其他所有元素都是零, { J 1 ( λ ) = λ } \{J_{1}(\lambda) = \lambda\} { J 1 ( λ ) = λ } 。一个Jordan矩阵 J ∈ M n J \in M_{n} J ∈ M n 是诸Jordan块的一个直和
J = [ J n 1 ( λ 1 ) 0 J n 2 ( λ 2 ) ⋱ 0 J n k ( λ k ) ] , n 1 + n 2 + ⋯ + n k = n , (3.1.3) J = \left[ \begin{array}{c c c c} J _ {n _ {1}} (\lambda_ {1}) & & 0 \\ & J _ {n _ {2}} (\lambda_ {2}) & \\ & & \ddots & \\ 0 & & J _ {n _ {k}} (\lambda_ {k}) \end{array} \right], \quad n _ {1} + n _ {2} + \dots + n _ {k} = n, \tag {3.1.3} J = J n 1 ( λ 1 ) 0 J n 2 ( λ 2 ) 0 ⋱ J n k ( λ k ) , n 1 + n 2 + ⋯ + n k = n , ( 3.1.3 ) 其中,各阶数 n i n_i n i 可以相同,而值 λ i \lambda_{i} λ i 未必不同
应指出的是,如果(3.1.3)中的每个Jordan块 J n ( λ i ) J_{n}(\lambda_{i}) J n ( λ i ) 都是一维的,即,所有 n i = 1 n_i = 1 n i = 1 且 k = n k = n k = n ,那么Jordan矩阵 J J J 是对角矩阵.如果(3.1.3)中的任一Jordan块 J m ( λ ) J_{m}(\lambda) J m ( λ ) 有 m > 1 m > 1 m > 1 那么 J J J 不仅不是对角矩阵,它甚至不能对角化、假如 J m ( λ ) = S Λ S − 1 J_{m}(\lambda) = S\Lambda S^{-1} J m ( λ ) = S Λ S − 1 且 Λ \Lambda Λ 是对角矩阵,那么必须有 Λ − diag ( λ , λ , … , λ ) = λ I \Lambda - \operatorname{diag}(\lambda, \lambda, \dots, \lambda) = \lambda I Λ − diag ( λ , λ , … , λ ) = λ I ,于是 J m ( λ ) − λ I = S Λ S − 1 − λ I = λ I − λ I − λ I = 0 J_{m}(\lambda) - \lambda I = S\Lambda S^{-1} - \lambda I = \lambda I - \lambda I - \lambda I = 0 J m ( λ ) − λ I = S Λ S − 1 − λ I = λ I − λ I − λ I = 0 ,因而如果 m > 1 m > 1 m > 1 ,这种情
形不会出现。相应于每个单独的 Jordan 块,都有 J J J 的一个特征向量;它是属于 J J J 中每个 J m ( λ ) J_{m}(\lambda) J m ( λ ) 的第一个对角元的标准基向量。
本节的主要结果是,每个复矩阵都相似于一个实质上是唯一的Jordan矩阵。我们将通过三步来得到最终的结论。
第一步 注意到每个复矩阵相似于一个上一角矩阵,它的诸特征值按一个规定的顺序出现在主对角线上;这正是Schur三角化定理(2.3.1).
第二步 然后证明,一个上三角矩阵可经相似变换成一个分块对角矩阵,其中每个单独的对角子块的所有对角元都相等[像Jordan块(3.12)一样]. 这是定理(2.4.8).
第三步 最后证明,一个其主对角元都相等的上三角矩阵相似于若干 Jordan 块(3.1.2)的首和。
只要证明了最后一个结论,就可以通过复合每一步所必需的相似变换将任一复矩阵化成Jordan标准形.
另外,我们也注意到以下事实:如果一个矩阵是实的,且仅有实特征值,那么可以用实相似把它化成Jordan标准形。为此,我们想到了(2.3.1),那是说,如果实矩阵 A A A 只有实特征值,那么存在一个实酉(实正交)矩阵 U U U ,使得 U † A U U^{\dagger}AU U † A U 是上三角矩阵,因而它只有实元素。此外(2.4.8)的证明说明,如果上三角矩阵 A A A 是实的,那么存在一个实相似矩阵 S S S ,使得 S − 1 A S S^{-1}AS S − 1 A S 是一个(实)分块对角矩阵,其中,每个对角子块是上三角矩阵,且都具有相等的主对角元。因此,余下只需要证明第三步是可以实现的;并且,如果从一个具有相同的实主对角元的实上三角矩阵开始实施变换,那么,把它化成一个Jordan块的直和的相似矩阵可以取实矩阵。
在证明第三步是可以实现的过程中,下述引理是有用的。它的证明其实就是直接计算。
3.1.4 引理 设 k ⩾ 1 k \geqslant 1 k ⩾ 1 是已知的,且假定有 Jordan 块
J k ( 0 ) = [ 0 1 0 ⋱ ⋱ 1 0 0 ] . J _ {k} (0) = \left[ \begin{array}{c c c c} 0 & 1 & & 0 \\ & & \ddots & \\ & \ddots & & 1 \\ 0 & & & 0 \end{array} \right]. J k ( 0 ) = 0 0 1 ⋱ ⋱ 0 1 0 . 那么
J k T ( 0 ) J k ( 0 ) − [ 0 0 ⌊ 0 I k − 1 ] , 且 如 果 p ⩾ k , 则 J k ( 0 ) p = 0. J _ {k} ^ {T} (0) J _ {k} (0) - \left[ \begin{array}{l l} 0 & 0 \\ \lfloor 0 & I _ {k - 1} \end{array} \right], \quad \text {且 如 果} p \geqslant k, \text {则} J _ {k} (0) ^ {p} = 0. J k T ( 0 ) J k ( 0 ) − [ 0 ⌊ 0 0 I k − 1 ] , 且 如 果 p ⩾ k , 则 J k ( 0 ) p = 0. 另外, J i ( 0 ) e i + 1 = e i , i − 1 , 2 , … , k − 1 J_{i}(0)e_{i + 1} = e_{i}, i - 1, 2, \dots, k - 1 J i ( 0 ) e i + 1 = e i , i − 1 , 2 , … , k − 1 ,且 [ I − J k i ( 0 ) J k ( 0 ) ] x = ( x T e 1 ) e 1 [I - J_k^i (0)J_k(0)]x = (x^T e_1)e_1 [ I − J k i ( 0 ) J k ( 0 )] x = ( x T e 1 ) e 1 ,这里, I k + 1 ∈ M k + 1 I_{k + 1}\in M_{k + 1} I k + 1 ∈ M k + 1 是单位矩阵, e i e_i e i 是第 i i i 个标准单位基向量,且 x ∈ C n x\in C^n x ∈ C n
现在证明,第三步中的简化总是可以做到的。我们知道一个严格上三角矩阵是其主对角线上只有零元的三角矩阵。同时注意到一个具有相等主对角元的上三角矩阵是单位矩阵的一个纯量倍数加上一个严格上三角矩阵。
3.1.5 定理 设 A ∈ M n A \in M_{n} A ∈ M n 是严格上三角矩阵,存在一个非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n 和整数 n 1 , n 2 , ⋯ , n m n_{1}, n_{2}, \cdots, n_{m} n 1 , n 2 , ⋯ , n m ,其中 n 1 ⩾ n 2 ⩾ ⋯ ⩾ n m ⩾ 1 n_{1} \geqslant n_{2} \geqslant \cdots \geqslant n_{m} \geqslant 1 n 1 ⩾ n 2 ⩾ ⋯ ⩾ n m ⩾ 1 且 n 1 + n 2 + ⋯ + n m = n n_{1} + n_{2} + \cdots + n_{m} = n n 1 + n 2 + ⋯ + n m = n ,使得
122
A = S [ J n 1 ( 0 ) 0 J n 2 ( 0 ) 0 J n m ( 0 ) ] S 1 . (3.1.6) A = S \left[ \begin{array}{c c c} J _ {n _ {1}} (0) & & 0 \\ & J _ {n _ {2}} (0) & \\ 0 & & J _ {n _ {m}} (0) \end{array} \right] S ^ {1}. \tag {3.1.6} A = S J n 1 ( 0 ) 0 J n 2 ( 0 ) 0 J n m ( 0 ) S 1 . ( 3.1.6 ) 如果 A A A 是实矩阵,则矩阵 S S S 也可以取实矩阵。
证明:如果 n = 1 n = 1 n = 1 , A = [ 0 ] A = [0] A = [ 0 ] ,结论是明显的.对 n _n n 作归纳法,且假定对阶数小于 n _n n 的所有严格上三角矩阵,结论已经证明.把 A A A 块分成
A = [ 0 a T 0 A 1 ] , A = \left[ \begin{array}{c c} 0 & a ^ {T} \\ 0 & A _ {1} \end{array} \right], A = [ 0 0 a T A 1 ] , 其中 a ∈ C n a \in \mathbf{C}^{n} a ∈ C n 且 A 1 ∈ M n − 1 A_{1} \in M_{n-1} A 1 ∈ M n − 1 是严格上三角矩阵。根据归纳假设,存在非奇异矩阵 S 1 ∈ M n − 1 S_{1} \in M_{n-1} S 1 ∈ M n − 1 ,使得 S 1 − 1 A 1 S 1 S_{1}^{-1} A_{1} S_{1} S 1 − 1 A 1 S 1 有所要求的形式(3.1.6):即
S 1 1 A 1 S 1 = [ J k 1 0 J k 2 ⋱ 0 J k i ] = [ J k 1 0 0 J ] , (3.1.7) S _ {1} ^ {1} A _ {1} S _ {1} = \left[ \begin{array}{l l l l} J _ {k _ {1}} & & & 0 \\ & J _ {k _ {2}} & & \\ & & \ddots & \\ 0 & & & J _ {k _ {i}} \end{array} \right] = \left[ \begin{array}{l l} J _ {k _ {1}} & 0 \\ 0 & J \end{array} \right], \tag {3.1.7} S 1 1 A 1 S 1 = J k 1 0 J k 2 ⋱ 0 J k i = [ J k 1 0 0 J ] , ( 3.1.7 ) 其中 k 1 ⩾ k 2 ⩾ ⋯ ⩾ k n ⩾ 1 , k 1 + k 2 + ⋯ + k n = n − 1 , J k i = J k i ( 0 ) k_{1} \geqslant k_{2} \geqslant \cdots \geqslant k_{n} \geqslant 1, k_{1} + k_{2} + \cdots + k_{n} = n - 1, J_{k_{i}} = J_{k_{i}}(0) k 1 ⩾ k 2 ⩾ ⋯ ⩾ k n ⩾ 1 , k 1 + k 2 + ⋯ + k n = n − 1 , J k i = J k i ( 0 ) ,且
J ≡ [ J k 1 0 ⋱ 0 J k 1 ] ∈ M u , k 1 , 1 . J \equiv \left[ \begin{array}{c c c} J _ {k _ {1}} & & 0 \\ & \ddots & \\ 0 & & J _ {k _ {1}} \end{array} \right] \in M _ {u, k _ {1}, 1}. J ≡ J k 1 0 ⋱ 0 J k 1 ∈ M u , k 1 , 1 . 注意到 J J J 中没有一个对角Jordan块的阶数超过 k 1 k_{1} k 1 ,所以,根据引理(3.1.4), J k 1 = 0 J^{k_{1}} = 0 J k 1 = 0 ,经简单计算可知:
[ 1 0 0 S 1 − 1 ] A [ 1 0 0 S 1 ] = [ 0 a T S 1 0 S 1 − 1 A 1 S 1 ] . (3.1.8) \left[ \begin{array}{l l} 1 & 0 \\ 0 & S _ {1} ^ {- 1} \end{array} \right] A \left[ \begin{array}{l l} 1 & 0 \\ 0 & S _ {1} \end{array} \right] = \left[ \begin{array}{l l} 0 & a ^ {T} S _ {1} \\ 0 & S _ {1} ^ {- 1} A _ {1} S _ {1} \end{array} \right]. \tag {3.1.8} [ 1 0 0 S 1 − 1 ] A [ 1 0 0 S 1 ] = [ 0 0 a T S 1 S 1 − 1 A 1 S 1 ] . ( 3.1.8 ) 使分块 a T S 1 = [ a 1 T a 2 T ] a^T S_1 = [a_1^T a_2^T] a T S 1 = [ a 1 T a 2 T ] 与(3.1.7)最右边的分块相一致;即, a 1 ∈ C k 1 a_1 \in \mathbf{C}^{k_1} a 1 ∈ C k 1 ,且 a 2 ∈ C n − 1 − k 1 a_2 \in \mathbf{C}^{n-1-k_1} a 2 ∈ C n − 1 − k 1 ,然后把(3.1.8)写成
[ 1 0 0 S 1 ] A [ 1 0 0 S t ] = [ 0 a 1 t a 2 T 0 J t 1 0 0 0 J ] . \left[ \begin{array}{l l} 1 & 0 \\ 0 & S _ {1} \end{array} \right] A \left[ \begin{array}{l l} 1 & 0 \\ 0 & S _ {t} \end{array} \right] = \left[ \begin{array}{l l l} 0 & a _ {1} ^ {t} & a _ {2} ^ {T} \\ 0 & J _ {t _ {1}} & 0 \\ 0 & 0 & J \end{array} \right]. [ 1 0 0 S 1 ] A [ 1 0 0 S t ] = 0 0 0 a 1 t J t 1 0 a 2 T 0 J . 现在考察这个矩阵的下述相似矩阵:
[ 1 − a 1 T J k 1 T 0 0 I 0 0 0 I ] [ 0 a 1 t a 2 7 0 J k 1 0 0 0 J ] [ 1 a 1 T J k 1 T 0 0 I 0 0 0 I ] = [ 0 a 1 T ( I − J k 1 T J k 1 ) a 2 T 0 J k 1 0 0 0 J ] = [ 0 ( a 1 T e 1 ) e 1 T a 2 T 0 J k 1 0 0 0 J ] , (3.1.9) \begin{array}{l} \left[ \begin{array}{c c c} 1 & - a _ {1} ^ {T} J _ {k _ {1}} ^ {T} & 0 \\ 0 & I & 0 \\ 0 & 0 & I \end{array} \right] \left[ \begin{array}{c c c} 0 & a _ {1} ^ {t} & a _ {2} ^ {7} \\ 0 & J _ {k _ {1}} & 0 \\ 0 & 0 & J \end{array} \right] \left[ \begin{array}{c c c} 1 & a _ {1} ^ {T} J _ {k _ {1}} ^ {T} & 0 \\ 0 & I & 0 \\ 0 & 0 & I \end{array} \right] \\ = \left[ \begin{array}{c c c} 0 & a _ {1} ^ {T} (I - J _ {k _ {1}} ^ {T} J _ {k _ {1}}) & a _ {2} ^ {T} \\ 0 & J _ {k _ {1}} & 0 \\ 0 & 0 & J \end{array} \right] = \left[ \begin{array}{c c c} 0 & (a _ {1} ^ {T} e _ {1}) e _ {1} ^ {T} & a _ {2} ^ {T} \\ 0 & J _ {k _ {1}} & 0 \\ 0 & 0 & J \end{array} \right], \tag {3.1.9} \\ \end{array} 1 0 0 − a 1 T J k 1 T I 0 0 0 I 0 0 0 a 1 t J k 1 0 a 2 7 0 J 1 0 0 a 1 T J k 1 T I 0 0 0 I = 0 0 0 a 1 T ( I − J k 1 T J k 1 ) J k 1 0 a 2 T 0 J = 0 0 0 ( a 1 T e 1 ) e 1 T J k 1 0 a 2 T 0 J , ( 3.1.9 ) 其中,用到了引理(3.1.4)中的恒等式 ( I J k ! J k ) x = ( x T e 1 ) e 1 (I J_k^! J_k)x = (x^T e_1)e_1 ( I J k ! J k ) x = ( x T e 1 ) e 1 。现在有两种可能性,这取决于 a 1 T e 1 = 0 a_1^T e_1 = 0 a 1 T e 1 = 0 还是 a 1 r e 1 ≠ 0 a_1^r e_1 \neq 0 a 1 r e 1 = 0 .
如果 a 1 j e 1 ≠ 0 a_1^j e_1 \neq 0 a 1 j e 1 = 0 ,那么
[ 1 / a 1 I e 1 0 0 0 I 0 0 0 ( 1 / a 1 T e 1 ) I ] [ 0 ( a 1 T e 1 ) e 1 I a 2 T 0 J ε 1 0 0 0 J ] [ a 1 T e 1 0 0 0 I 0 0 0 a 1 T e 1 I ] = [ 0 e 1 r a 2 I 0 J k 1 0 0 0 J ] ≡ [ J ~ e 1 a 2 I 0 J ] . \begin{array}{l} \left[ \begin{array}{c c c} 1 / a _ {1} ^ {I} e _ {1} & 0 & 0 \\ 0 & I & 0 \\ 0 & 0 & (1 / a _ {1} ^ {T} e _ {1}) I \end{array} \right] \left[ \begin{array}{c c c} 0 & (a _ {1} ^ {T} e _ {1}) e _ {1} ^ {I} & a _ {2} ^ {T} \\ 0 & J _ {\varepsilon_ {1}} & 0 \\ 0 & 0 & J \end{array} \right] \left[ \begin{array}{c c c} a _ {1} ^ {T} e _ {1} & 0 & 0 \\ 0 & I & 0 \\ 0 & 0 & a _ {1} ^ {T} e _ {1} I \end{array} \right] \\ = \left[ \begin{array}{l l l} 0 & e _ {1} ^ {r} & a _ {2} ^ {I} \\ 0 & J _ {k _ {1}} & 0 \\ 0 & 0 & J \end{array} \right] \equiv \left[ \begin{array}{c c} \tilde {J} & e _ {1} a _ {2} ^ {I} \\ 0 & J \end{array} \right]. \\ \end{array} 1/ a 1 I e 1 0 0 0 I 0 0 0 ( 1/ a 1 T e 1 ) I 0 0 0 ( a 1 T e 1 ) e 1 I J ε 1 0 a 2 T 0 J a 1 T e 1 0 0 0 I 0 0 0 a 1 T e 1 I = 0 0 0 e 1 r J k 1 0 a 2 I 0 J ≡ [ J ~ 0 e 1 a 2 I J ] . 注意
J ^ − [ 0 e 1 I 0 J k 1 ] = J k 1 + 1 ( 0 ) \hat {J} - \left[ \begin{array}{l l} 0 & e _ {1} ^ {I} \\ 0 & J _ {k _ {1}} \end{array} \right] = J _ {k _ {1} + 1} (0) J ^ − [ 0 0 e 1 I J k 1 ] = J k 1 + 1 ( 0 ) 是一个具有零主对角线的 k 1 + 1 k_{1} + 1 k 1 + 1 阶Jordan块.利用性质 J ~ e i + 1 − e i \tilde{J} e_{i+1} - e_i J ~ e i + 1 − e i , i = 1 , 2 , … , k 1 i = 1,2,\dots,k_1 i = 1 , 2 , … , k 1 ,容易证明 [124]
[ I e 2 a 2 T 0 I ] [ J ~ e 1 a 2 T 0 J ] [ I − e 2 a 2 T 0 I ] = [ J ~ − J ~ e 2 a 2 T + e 1 a 2 T + e 2 a 2 T J 0 J ] = [ J ~ e 2 a 2 T J 0 J ] , \begin{array}{l} \left[ \begin{array}{c c} I & e _ {2} a _ {2} ^ {T} \\ 0 & I \end{array} \right] \left[ \begin{array}{c c} \tilde {J} & e _ {1} a _ {2} ^ {T} \\ 0 & J \end{array} \right] \left[ \begin{array}{c c} I & - e _ {2} a _ {2} ^ {T} \\ 0 & I \end{array} \right] = \left[ \begin{array}{c c} \tilde {J} & - \tilde {J} e _ {2} a _ {2} ^ {T} + e _ {1} a _ {2} ^ {T} + e _ {2} a _ {2} ^ {T} J \\ 0 & J \end{array} \right] \\ = \left[ \begin{array}{c c} \tilde {J} & e _ {2} a _ {2} ^ {T} J \\ 0 & J \end{array} \right], \\ \end{array} [ I 0 e 2 a 2 T I ] [ J ~ 0 e 1 a 2 T J ] [ I 0 − e 2 a 2 T I ] = [ J ~ 0 − J ~ e 2 a 2 T + e 1 a 2 T + e 2 a 2 T J J ] = [ J ~ 0 e 2 a 2 T J J ] , 然后可以递归地计算一系列相似的矩阵
[ I e t + 1 a 2 T J r − 1 0 I ] [ J ^ e t a 2 T J r − 1 0 J ] [ I − e r + 1 a 2 T J r − 1 0 J ] = [ J ^ e t + 1 a 2 T J r 0 J ] i = 2 , 3 , … . \begin{array}{l} \left[ \begin{array}{c c} I & e _ {t + 1} a _ {2} ^ {T} J ^ {r - 1} \\ 0 & I \end{array} \right] \left[ \begin{array}{l l} \hat {J} & e _ {t} a _ {2} ^ {T} J ^ {r - 1} \\ 0 & J \end{array} \right] \left[ \begin{array}{l l} I & - e _ {r + 1} a _ {2} ^ {T} J ^ {r - 1} \\ 0 & J \end{array} \right] = \left[ \begin{array}{l l} \hat {J} & e _ {t + 1} a _ {2} ^ {T} J ^ {r} \\ 0 & J \end{array} \right] \\ i = 2, 3, \dots . \\ \end{array} [ I 0 e t + 1 a 2 T J r − 1 I ] [ J ^ 0 e t a 2 T J r − 1 J ] [ I 0 − e r + 1 a 2 T J r − 1 J ] = [ J ^ 0 e t + 1 a 2 T J r J ] i = 2 , 3 , … . 因为 J k 1 = 0 J^{k_{1}} = 0 J k 1 = 0 ,我们看出,在这一系列相似的矩阵中最多经 k 1 k_{1} k 1 步便可使非对角子块变为零,因此得出, A \pmb{A} A 相似于矩阵
[ J ˉ 0 0 J ] , \left[ \begin{array}{c c} \bar {J} & 0 \\ 0 & J \end{array} \right], [ J ˉ 0 0 J ] , 它正是要求的严格上三角Jordan矩阵形式
如果 a 1 † e 1 = 0 a_{1}^{\dagger}e_{1} = 0 a 1 † e 1 = 0 ,那么(3.1.9)说明, A A A 相似于矩阵
[ 0 0 a 2 T 0 J k 1 0 0 0 J ] , \left[ \begin{array}{c c c} 0 & 0 & a _ {2} ^ {T} \\ 0 & J _ {k _ {1}} & 0 \\ 0 & 0 & J \end{array} \right], 0 0 0 0 J k 1 0 a 2 T 0 J , 而它又置换相似于矩阵
[ J k 1 0 0 0 0 a 2 T 0 0 J ] . (3.1.10) \left[ \begin{array}{l l l} J _ {k _ {1}} & 0 & 0 \\ 0 & 0 & a _ {2} ^ {T} \\ 0 & 0 & J \end{array} \right]. \tag {3.1.10} J k 1 0 0 0 0 0 0 a 2 T J . ( 3.1.10 ) 根据归纳假设,存在非奇异矩阵 S 2 ∈ M n − k 1 S_{2} \in M_{n - k_{1}} S 2 ∈ M n − k 1 ,使得:
S n 1 [ 0 a 2 1 0 j ] S 2 = J ∈ M n − k 1 S _ {n} ^ {1} \left[ \begin{array}{l l} 0 & a _ {2} ^ {1} \\ 0 & j \end{array} \right] S _ {2} = J \in M _ {n - k _ {1}} S n 1 [ 0 0 a 2 1 j ] S 2 = J ∈ M n − k 1 是 - 个具有零主对角线的 Jordan 矩阵。因此,矩阵 (3.1.10),从而 A A A 本身相似于
[ J k 1 0 L 0 j ] , \left[ \begin{array}{l l} J _ {k _ {1}} & 0 \\ L _ {0} & j \end{array} \right], [ J k 1 L 0 0 j ] , 它就是所要求的 Jordan 标准形式,只是诸对角 Jordan 块可能不按非增的顺序排列。若有必要,经一个分块置换相似便可得到所要求的形式。
最后,我们看到,如果 A A A 是实矩阵,那么在这个证明中所采用的所有相似矩阵都可选为实的,于是经过一个实相似, A A A 便相似于所要求的 Jordan 矩阵. □ \square □
为建立起Jordan标准形,定理(3.1.5)实质上完成了所约定的程序的第三步。我们注意到,如果
A = [ λ ∗ λ ⋱ 0 λ ] A = \left[ \begin{array}{c c c c} \lambda & & & * \\ & \lambda & & \\ & & \ddots & \\ 0 & & & \lambda \end{array} \right] A = λ 0 λ ⋱ ∗ λ 是所有对角元都等于 λ \lambda λ 的上三角矩阵,那么, A n = A A_{n} = A A n = A λ I \lambda I λ I 是严格上三角矩阵.如果 S ∈ M n S\in M_n S ∈ M n 是非奇异矩阵,且 S − 1 A n S S^{-1}A_{n}S S − 1 A n S 是由(3.1.5)所确保的若干个基本Jordan块 J n i ( 0 ) J_{n_i}(0) J n i ( 0 ) 的一个自和,则 S − 1 A S = S − 1 A i S + λ I S^{-1}AS = S^{-1}A_{i}S + \lambda I S − 1 A S = S − 1 A i S + λ I 是若干个基本Jordan块 J n j ( λ ) J_{n_j}(\lambda) J n j ( λ ) 的自和.在(2.3)节中实施的第一步和第二步连同第三步恰好证明了下述Jordan标准形定理的存在性部分:
3.1.11 定理 设 A ∈ M n A \in M_{n} A ∈ M n 是已知的复矩阵,则存在非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n ,使得
A − S ∣ J n 1 ( λ i ) 0 J n 2 ( λ i ) ⋱ 0 J n 1 ( λ k ) ∣ S − 1 = S J S − 1 . (3.1.12) A - S \left| \begin{array}{c c c} J _ {n _ {1}} (\lambda_ {i}) & & 0 \\ & J _ {n _ {2}} (\lambda_ {i}) & \\ & & \ddots \\ 0 & & J _ {n _ {1}} (\lambda_ {k}) \end{array} \right| S ^ {- 1} = S J S ^ {- 1}. \tag {3.1.12} A − S J n 1 ( λ i ) 0 J n 2 ( λ i ) 0 ⋱ J n 1 ( λ k ) S − 1 = S J S − 1 . ( 3.1.12 ) 且 n 1 + n 2 + ⋯ + n k = n n_1 + n_2 + \dots + n_k = n n 1 + n 2 + ⋯ + n k = n 。如果不计各对角 Jordan 块的排列顺序, Λ \Lambda Λ 的 Jordan 矩阵是唯一的。特征值 λ i , i = 1 , 2 , … , k \lambda_i, i = 1, 2, \dots, k λ i , i = 1 , 2 , … , k ,不一定不相同。如果 A A A 是一个仅有实特征值的实矩阵,那么相似矩阵 S S S 可以取实矩阵。
证明:除了唯一性外,其余的论断都已证明。如果 A , B ∈ M n A, B \in M_n A , B ∈ M n 相似,则对于任一纯量 λ ∈ C \lambda \in \mathbb{C} λ ∈ C 和任意指数 m − 1 , 2 , … m - 1, 2, \dots m − 1 , 2 , … ,矩阵 ( A − λ I ) m (A - \lambda I)^m ( A − λ I ) m 和 ( B − λ I ) m (B - \lambda I)^m ( B − λ I ) m 也相似;特别地,它们的秩相等。因此,只需证明,位于 Jordan 矩阵 J ∈ M n J \in M_n J ∈ M n 对角线上的一组 Jordan 块(包括相重的子块)可由有限多个整数 rank ( J − λ I ) m \operatorname{rank}(J - \lambda I)^m rank ( J − λ I ) m 完全确定,其中 m = 1 , 2 , … , n , λ ∈ σ ( J ) m = 1, 2, \dots, n, \lambda \in \sigma(J) m = 1 , 2 , … , n , λ ∈ σ ( J ) 。
首先考虑形如(3.1.2)的一个Jordan块 J k ( μ ) ∈ M k J_{k}(\mu)\in M_{k} J k ( μ ) ∈ M k 的情形,其中 μ ∈ C \mu \in \mathbf{C} μ ∈ C 是给定的且 m ⩾ 1 m\geqslant 1 m ⩾ 1 如果 μ ≠ 0 \mu \neq 0 μ = 0 ,则 r a n k J k ( μ ) m − r a n k J k ( μ ) m + 1 = k \mathrm{rank}J_{k}(\mu)^{m} - \mathrm{rank}J_{k}(\mu)^{m + 1} = k rank J k ( μ ) m − rank J k ( μ ) m + 1 = k ,因而 r a n k J k ( μ ) m − r a n k J k ( μ ) m − 1 = 0. \mathrm{rank}J_{k}(\mu)^{m} - \mathrm{rank}J_{k}(\mu)^{m - 1} = 0. rank J k ( μ ) m − rank J k ( μ ) m − 1 = 0. 如果 μ = 0 \mu = 0 μ = 0 且 m ⩾ k m\geqslant k m ⩾ k ,则 J k ( 0 ) m − J k ( 0 ) m + 1 = 0 J_{k}(0)^{m} - J_{k}(0)^{m + 1} = 0 J k ( 0 ) m − J k ( 0 ) m + 1 = 0 ,因而也有 r a n k J k ( 0 ) m r a n k J k ( 0 ) m − 1 = 0. \mathrm{rank}J_{k}(0)^{m}\quad \mathrm{rank}J_{k}(0)^{m - 1} = 0. rank J k ( 0 ) m rank J k ( 0 ) m − 1 = 0. 最后,如果 μ = 0 \mu = 0 μ = 0 且 m < k m < k m < k ,则 r a n k J k ( 0 ) m − r a n k J k ( 0 ) m + 1 = 1. \mathrm{rank}J_{k}(0)^{m} - \mathrm{rank}J_{k}(0)^{m + 1} = 1. rank J k ( 0 ) m − rank J k ( 0 ) m + 1 = 1.
其次,设 J ∈ M n J \in M_{n} J ∈ M n 是形如(3.1.3)的Jordan矩阵,又设 λ ∈ σ ( J ) \lambda \in \sigma(J) λ ∈ σ ( J ) ,并且对于 m = 1 , 2 , ⋯ m = 1, 2, \cdots m = 1 , 2 , ⋯ ,定义 r m ( λ ) ≡ rank ( J − λ I ) m r_{m}(\lambda) \equiv \operatorname{rank}(J - \lambda I)^{m} r m ( λ ) ≡ rank ( J − λ I ) m ;且令 r 0 ( λ ) = n r_{0}(\lambda) = n r 0 ( λ ) = n 。从前述关于一个子块情形的分析可知,差 d m ( λ ) ≡ r m − 1 ( λ ) − r m ( λ ) d_{m}(\lambda) \equiv r_{m-1}(\lambda) - r_{m}(\lambda) d m ( λ ) ≡ r m − 1 ( λ ) − r m ( λ ) 等于 J J J 中所有阶数 k ≥ m k \geq m k ≥ m 的诸Jordan块 J k ( λ ) J_{k}(\lambda) J k ( λ ) 的总数,且对所有 m > n m > n m > n 有 d m ( λ ) = 0 d_{m}(\lambda) = 0 d m ( λ ) = 0 。因此, J J J 中恰好是阶数 k = m k = m k = m 的诸Jordan块的个数等于 d m ( λ ) − d m − 1 ( λ ) = r m − 1 ( λ ) − 2 r m ( λ ) + r m − 1 ( λ ) d_{m}(\lambda) - d_{m-1}(\lambda) = r_{m-1}(\lambda) - 2r_{m}(\lambda) + r_{m-1}(\lambda) d m ( λ ) − d m − 1 ( λ ) = r m − 1 ( λ ) − 2 r m ( λ ) + r m − 1 ( λ ) ,其中 m = 1 , 2 , ⋯ , n m = 1, 2, \cdots, n m = 1 , 2 , ⋯ , n 。
练习 设 Λ ∈ M n \Lambda \in M_{n} Λ ∈ M n 有 Jordan 标准形 J J J ,设 λ \lambda λ 是 Λ \Lambda Λ 的一个特征值,其代数重数为 ν \nu ν ,又设 b k b_{k} b k 表示 J J J 中阶数为 k k k 的诸 Jordan 块 J k ( λ ) J_{k}(\lambda) J k ( λ ) 的个数,其中 k − 1 , ⋯ , n k - 1, \cdots, n k − 1 , ⋯ , n 。如果当 m ⩾ 1 m \geqslant 1 m ⩾ 1 时 r m ( λ ) = rank ( A − λ I ) m r_{m}(\lambda) = \operatorname{rank}(A - \lambda I)^{m} r m ( λ ) = rank ( A − λ I ) m ,而 r ν ( λ ) = n r_{\nu}(\lambda) = n r ν ( λ ) = n ,证明:
(a) r m ( λ ) r_{m}(\lambda) r m ( λ ) 和 b i \pmb{b}_{i} b i 满足线性方程组
r m ( λ ) − n − ν + ∑ i = m + 1 n ( i − m ) b i , m − 0 , 1 , … , n − 1. r _ {m} (\lambda) - n - \nu + \sum_ {i = m + 1} ^ {n} (i - m) b _ {i}, \quad m - 0, 1, \dots , n - 1. r m ( λ ) − n − ν + i = m + 1 ∑ n ( i − m ) b i , m − 0 , 1 , … , n − 1. (b) 该方程组有唯一解. (c) 其解为 b m = r m − 1 ( λ ) b_{m} = r_{m-1}(\lambda) b m = r m − 1 ( λ ) 2 r m ( λ ) + r m + 1 ( λ ) 2r_{m}(\lambda) + r_{m+1}(\lambda) 2 r m ( λ ) + r m + 1 ( λ ) , m = 1 , 2 , ⋯ , n m = 1, 2, \cdots, n m = 1 , 2 , ⋯ , n . 其中 r n − 1 ( λ ) = r n ( λ ) = n − ν r_{n-1}(\lambda) = r_{n}(\lambda) = n - \nu r n − 1 ( λ ) = r n ( λ ) = n − ν .
为了有 Jordan 标准形的一个标准表示 (3.1.2),我们约定选取 A A A 的各不相同的特征值 λ 1 , λ 2 , … , λ k \lambda_1, \lambda_2, \dots, \lambda_k λ 1 , λ 2 , … , λ k 的某个顺序,并且首先给出相应于 λ 1 \lambda_1 λ 1 的所有 Jordan 块;然后是相应于 λ 2 \lambda_2 λ 2 的那些 Jordan 块,如此等等。相应于每个不同特征值的诸 Jordan 块,按递减(非增)的顺序给出,首先是最大的子块,随后是仅次于最大的子块,等等。因为,相应于同一特征值的多重同阶子块是完全相同的,所以,一旦给定了诸特征值的顺序,这个表示就给出了个唯一确定的 Jordan 标准形。 M n M_n M n 中的矩阵的每个相似等价类包含一个且只包含一个这样的 Jordan 标准形。
虽然推导 Jordan 标准形的过程是一个明确的算法,它原则上可以用来计算一个已知矩阵的 Jordan 标准形,但是绝对不能指望用计算机对它自动实施数值计算。令人遗憾的事实是,使用计算机不仅可能得出虚假的结果,而且实际上并没有一个计算 Jordan 标准形的稳定的数值方法。这只要举一个简单的例子就清楚了。
如果 A ε = [ ε 0 1 0 ] , A_{\varepsilon} = \left[ \begin{array}{cc}\varepsilon & 0\\ 1 & 0 \end{array} \right], A ε = [ ε 1 0 0 ] , 且 ε ≠ 0 \varepsilon \neq 0 ε = 0 ,那么 A ε = S ε J ε S ε − 1 A_{\varepsilon} = S_{\varepsilon}J_{\varepsilon}S_{\varepsilon}^{-1} A ε = S ε J ε S ε − 1 ,其中 S ε = [ 0 ε 1 1 ] S_{\varepsilon} = \left[ \begin{array}{cc}0 & \varepsilon \\ 1 & 1 \end{array} \right] S ε = [ 0 1 ε 1 ] ,且 J ε − [ 0 0 0 ε ] . J_{\varepsilon} - \left[ \begin{array}{cc}0 & 0\\ 0 & \varepsilon \end{array} \right]. J ε − [ 0 0 0 ε ] . 如果令 ε → 0 \varepsilon \rightarrow 0 ε → 0 ,那么, J ε → [ 0 0 0 0 ] J_{\varepsilon}\rightarrow \left[ \begin{array}{ll}0 & 0\\ 0 & 0 \end{array} \right] J ε → [ 0 0 0 0 ] ,而它不可能是非零矩阵 A 0 = [ 0 0 1 0 ] A_0 = \left[ \begin{array}{ll}0 & 0\\ 1 & 0 \end{array} \right] A 0 = [ 0 1 0 0 ] 的Jordan标准形.事实上, A 0 A_{0} A 0 有 [ 0 1 0 0 ] \left[ \begin{array}{ll}0 & 1\\ 0 & 0 \end{array} \right] [ 0 0 1 0 ] 作为它的Jordan标准形.因为一个矩阵的Jordan形未必是该矩阵的各元素的一个连续函数,可能有这种情形,一个矩阵的各元的一个小的变化会引起Jordan标准形的各元的一个大的变化.不能指望用稳定的方法计算这样的对象.因此在数值应用中,几乎没有用到Jordan标准形.
尽管有这样的局限性,Jordan标准形还是值得认真了解的,它为透彻理解矩阵提供了丰富的源泉。作为一般的技巧,当我们要证明矩阵的有关结论时,不妨先考虑能否对对角矩阵证明这一结论。如果这是可行的,那么就(利用任一复矩阵可以用一个可对角化的矩阵任意接近的事实)看一看某个极限论证是否可以一般地证明该结论。如果这不见效,或者想避开分析论证,那么下一步便可设法对上三角矩阵或Jordan矩阵来证明这一结论。
每个矩阵都相似于形如(3.1.12)那样的矩阵,其中,诸Jordan块中的所有项“+1”都用
ε ≠ 0 \varepsilon \neq 0 ε = 0 代替, ε \varepsilon ε 可以取任意小的值。了解这一点有时是有用的。
3.1.13 推论 设 A ∈ M n A \in M_{n} A ∈ M n 是给定的复矩阵,又设 ϵ > 0 \epsilon > 0 ϵ > 0 是已知的。那么存在一个非奇异矩阵 S = S ( ϵ ) ∈ M n S = S(\epsilon) \in M_{n} S = S ( ϵ ) ∈ M n ,使得
A = S [ J n 1 ( λ 1 , ε ) 0 J n 2 ( λ 2 , ε ) 0 ⋱ J n k ( λ k , ε ) ] S − 1 , n 1 + n 2 + ⋯ + n k = n (3.1.14) \begin{array}{l} A = S \left[ \begin{array}{c c c c} J _ {n _ {1}} (\lambda_ {1}, \varepsilon) & & & 0 \\ & J _ {n _ {2}} (\lambda_ {2}, \varepsilon) & & \\ 0 & & \ddots & \\ & & & J _ {n _ {k}} (\lambda_ {k}, \varepsilon) \end{array} \right] S ^ {- 1}, \tag {3.1.14} \\ n _ {1} + n _ {2} + \dots + n _ {k} = n \\ \end{array} A = S J n 1 ( λ 1 , ε ) 0 J n 2 ( λ 2 , ε ) ⋱ 0 J n k ( λ k , ε ) S − 1 , n 1 + n 2 + ⋯ + n k = n ( 3.1.14 ) 且
J m ( λ , ε ) = [ λ ε 0 λ ε ⋱ 0 λ ] ∈ M m . J _ {m} (\lambda , \varepsilon) = \left[ \begin{array}{c c c c} \lambda & \varepsilon & & 0 \\ & \lambda & \varepsilon & \\ & & \ddots & \\ 0 & & & \lambda \end{array} \right] \in M _ {m}. J m ( λ , ε ) = λ 0 ε λ ε ⋱ 0 λ ∈ M m . 如果 A A A 是只具有实特征值的实矩阵,那么 S S S 可以取实矩阵。
证明:首先求非奇异矩阵 S 1 ∈ M n S_{1} \in M_{n} S 1 ∈ M n ,使得 S 1 − 1 A S 1 S_{1}^{-1} A S_{1} S 1 − 1 A S 1 是 Jordan 标准形(如果 A A A 是实的,且只有实特征值,那么取实 S 1 S_{1} S 1 )。然后取 D ε = diag ( 1 , ε , ε 2 , … , ε n − 1 ) D_{\varepsilon} = \operatorname{diag}(1, \varepsilon, \varepsilon^{2}, \dots, \varepsilon^{n-1}) D ε = diag ( 1 , ε , ε 2 , … , ε n − 1 ) ,再计算 D ε − 1 ( S 1 − 1 A S 1 ) D ε D_{\varepsilon}^{-1} (S_{1}^{-1} A S_{1}) D_{\varepsilon} D ε − 1 ( S 1 − 1 A S 1 ) D ε 。这个矩阵具有形状(3.1.14),于是 S = S ( ε ) = S 1 D ε S = S(\varepsilon) = S_{1} D_{\varepsilon} S = S ( ε ) = S 1 D ε 符合定理的要求。
习题
用详细的计算来证明引理(3.1.4).
试用(3.1.11)的证明中的三个步骤,求
[ 1 1 1 1 ] 和 [ 3 1 2 0 3 0 0 0 3 ] \left[ \begin{array}{l l} 1 & 1 \\ 1 & 1 \end{array} \right] \quad \text {和} \quad \left[ \begin{array}{l l l} 3 & 1 & 2 \\ 0 & 3 & 0 \\ 0 & 0 & 3 \end{array} \right] [ 1 1 1 1 ] 和 3 0 0 1 3 0 2 0 3 Jordan 标准形.
设 A ∈ M n A \in M_{n} A ∈ M n 是复矩阵,但只有实特征值。证明 A A A 相似于一个实矩阵,相似矩阵可以选取实矩阵吗?
进一步阅读 定理(3.1.11)的证明思想取自R. Fletcher and D. Sorensen, “An Algorithmic Derivation of the Jordan Canonical Form,” Amer. Math. Monthly 90(1983), 12-16, 文中另有参考文献. [Ste]从数值计算的观点讨论了Jordan标准形, 并且给出了例子说明矩阵的元素产生扰动时其Jordan标准形的灵敏度. [Str]提供了一个好的证明.