3.3 多项式和矩阵:极小多项式 如果 p ( t ) = t k + a k − 1 t k − 1 + a k − 2 t k − 2 + ⋯ + a 1 t + a 1 p(t) = t^k + a_{k-1}t^{k-1} + a_{k-2}t^{k-2} + \cdots + a_1t + a_1 p ( t ) = t k + a k − 1 t k − 1 + a k − 2 t k − 2 + ⋯ + a 1 t + a 1 是给定的多项式,那么,对于任一 A ∈ M n A \in M_n A ∈ M n ,可以定义
140
241
p ( Λ ) ≡ Λ k + a k − 1 A k − 1 + a k − 2 Λ k − 2 + ⋯ − a i A + a j I . p (\Lambda) \equiv \Lambda^ {k} + a _ {k - 1} A ^ {k - 1} + a _ {k - 2} \Lambda^ {k - 2} + \dots - a _ {i} A + a _ {j} I. p ( Λ ) ≡ Λ k + a k − 1 A k − 1 + a k − 2 Λ k − 2 + ⋯ − a i A + a j I . 在多项式与矩阵之间存在一个重要的相互关系。我们已经论述了特征多项式的重要作用,但是还有其他一些与一个方阵相关联的多项式,其中之一是极小多项式。
Cayley-Hamilton 定理 (2.4.2) 确认, 对每一个 A ∈ M n A \in M_{n} A ∈ M n , 存在一个 n n n 次多项式 (特征多项式) p A ( t ) p_{A}(t) p A ( t ) , 使得 p A ( t ) = 0 p_{A}(t) = 0 p A ( t ) = 0 . 说一个多项式零化 A A A , 是指它在 A A A 的值是 0 矩阵, 也可能有零化 A A A 的 n − 1 n - 1 n − 1 次多项式, 或 n − 2 n - 2 n − 2 次多项式, 但是很明显, 因为只存在有限多种可能性, 所以, 对每个 A ∈ M n A \in M_{n} A ∈ M n , 有一个零化 A A A 的次数最小的多项式, 且它的最小次数至多是 n n n . 如果 p ( A ) = 0 p(A) = 0 p ( A ) = 0 , 那么对任一 c ∈ C c \in \mathbf{C} c ∈ C , c p ( A ) = 0 cp(A) = 0 c p ( A ) = 0 , 显然, 总可以规范化--个非零的零化多项式, 使其最高次项的系数是 +1. 如果--个多项式的最高次数有系数 1, 就说它是首一多项式, 应指出的是, 一个前一多项式不可能恒等于零.
3.3.1 定理 A ∈ M n A \in M_{n} A ∈ M n 是已知矩阵,则仅有一个零化 A A A 的次数最低的首一多项式 q 1 ( t ) q_{1}(t) q 1 ( t ) 。这个多项式的次数至多是 n n n ,如果 p ( t ) p(t) p ( t ) 是使 p ( A ) = 0 p(A) = 0 p ( A ) = 0 的任一多项式,那么, q 1 ( t ) q_{1}(t) q 1 ( t ) 必除尽 p ( t ) p(t) p ( t ) 。
证明:特征多项式是零化 A A A 的一个例子。它是 n n n 次多项式,于是存在次数为 m ⩽ n m \leqslant n m ⩽ n 的首一多项式 q ( t ) q(t) q ( t ) ,使得 q ( A ) = 0 q(A) = 0 q ( A ) = 0 。如果 p ( t ) p(t) p ( t ) 零化 A A A ,且 q ( t ) q(t) q ( t ) 是零化 A A A 的次数最低的首一多项式,那么 q ( t ) q(t) q ( t ) 的次数必须小于或等于 p ( t ) p(t) p ( t ) 的次数。因此,根据Euclid算法,存在多项式 h ( t ) h(t) h ( t ) 以及次数小于 q ( t ) q(t) q ( t ) 的次数的多项式 r ( t ) r(t) r ( t ) ,使得 p ( t ) − q ( t ) h ( t ) + r ( t ) p(t) - q(t)h(t) + r(t) p ( t ) − q ( t ) h ( t ) + r ( t ) 。但是 0 − p ( A ) = q ( A ) h ( A ) + r ( A ) = 0 h ( A ) + r ( A ) 0 - p(A) = q(A)h(A) + r(A) = 0h(A) + r(A) 0 − p ( A ) = q ( A ) h ( A ) + r ( A ) = 0 h ( A ) + r ( A ) ,因而 r ( A ) = 0 r(A) = 0 r ( A ) = 0 。如果 r ( t ) ≠ 0 r(t) \neq 0 r ( t ) = 0 ,可以把它规范化,从而得到一个零化 A A A 的而次数小于 p ( t ) p(t) p ( t ) 的次数的首一多项式。因为这与 p ( t ) p(t) p ( t ) 的极小性相矛盾,所以得出 r ( t ) = 0 r(t) = 0 r ( t ) = 0 ,因而 q ( t ) q(t) q ( t ) 除尽 p ( t ) p(t) p ( t ) ,且有商 h ( t ) h(t) h ( t ) 。如果有两个零化 A A A 的次数最低的首一多项式,上述论证说明,每一个都除尽另一个;因为它们的次数相同,所以其中一个必须是另一个的一个纯量倍数。然而,它们都是首一的,纯量因子必须是 + 1 +1 + 1 ,因而它们是恒等的。□
3.3.2 定义 设 A ∈ M n A \in M_n A ∈ M n 是已知矩阵。零化 A A A 的,次数最小的唯一一首一多项式 q A ( t ) q_A(t) q A ( t ) 称为 A A A 的极小多项式。
3.3.3 推论 相似的矩阵有相同的极小多项式
证明:如果 A , B , S ∈ M n A, B, S \in M_{n} A , B , S ∈ M n ,且 A − S B S − 1 A - SBS^{-1} A − SB S − 1 ,那么, q B ( A ) = q B ( S B S − 1 ) − S q B ( B ) S − 1 = 0 q_{B}(A) = q_{B}(SBS^{-1}) - Sq_{B}(B)S^{-1} = 0 q B ( A ) = q B ( SB S − 1 ) − S q B ( B ) S − 1 = 0 于是 q B ( t ) q_{B}(t) q B ( t ) 的次数不小于 q A ( t ) q_{A}(t) q A ( t ) 的次数。可是 B − S − 1 A S B - S^{-1}AS B − S − 1 A S ,所以同样的论证说明 q A ( t ) q_{A}(t) q A ( t ) 的次数不小于 q B ( t ) q_{B}(t) q B ( t ) 的次数。因此,这两个首一多项式有相同的最低次数且都零化 A A A ,于是根据定理(3.3.1),它们必须恒等。□
3.3.4 推论 对于每个 A ∈ M n A \in M_n A ∈ M n ,极小多项式 q A ( t ) q_A(t) q A ( t ) 除尽特征多项式 p A ( t ) p_A(t) p A ( t ) 此外, q A ( λ ) = 0 q_A(\lambda) = 0 q A ( λ ) = 0 ,当且仅当 λ \lambda λ 是 A A A 的特征值,因而 p A ( t ) = 0 p_A(t) = 0 p A ( t ) = 0 的每个根是 q A ( t ) = 0 q_A(t) = 0 q A ( t ) = 0 的根。
证明:因为 p A ( t ) = 0 p_A(t) = 0 p A ( t ) = 0 ,由定理可知,存在多项式 h ( t ) h(t) h ( t ) ,使得 p A ( t ) = h ( t ) q A ( t ) p_A(t) = h(t)q_A(t) p A ( t ) = h ( t ) q A ( t ) 。这个分解使我们看到, q A ( t ) = 0 q_A(t) = 0 q A ( t ) = 0 的每个根是 p A ( t ) − 0 p_A(t) - 0 p A ( t ) − 0 的根,因而 q A ( t ) = 0 q_A(t) = 0 q A ( t ) = 0 的每个根是 A A A 的特征值。如果 λ \lambda λ 是 A A A 的特征值,且 x ≠ 0 x \neq 0 x = 0 是相应的特征向量,那么 A x = λ x A x = \lambda x A x = λ x 且 0 − q A ( A ) x = q A ( λ ) x 0 - q_A(A)x = q_A(\lambda)x 0 − q A ( A ) x = q A ( λ ) x ,因此 q A ( λ ) = 0 q_A(\lambda) = 0 q A ( λ ) = 0 □
p A ( t ) = ∏ i = 1 m ( t − λ i ) ν , 1 ⩽ s i ⩽ n , s 1 + s 2 + ⋯ + s m = n , (3.3.5a) p _ {A} (t) = \prod_ {i = 1} ^ {m} (t - \lambda_ {i}) ^ {\nu}, \quad 1 \leqslant s _ {i} \leqslant n, \quad s _ {1} + s _ {2} + \dots + s _ {m} = n, \tag {3.3.5a} p A ( t ) = i = 1 ∏ m ( t − λ i ) ν , 1 ⩽ s i ⩽ n , s 1 + s 2 + ⋯ + s m = n , ( 3.3.5a ) 其中 λ 1 , λ 2 , … , λ m \lambda_1, \lambda_2, \dots, \lambda_m λ 1 , λ 2 , … , λ m 各不相同,那么极小多项式 q 1 ( t ) q_{1}(t) q 1 ( t ) 必须有形式
q 1 ( t ) = ∏ i − 1 m ( t − λ i ) r i , 1 ⩽ r i ⩽ s i . (3.3.5b) q _ {1} (t) = \prod_ {i - 1} ^ {m} (t - \lambda_ {i}) ^ {r _ {i}}, \quad 1 \leqslant r _ {i} \leqslant s _ {i}. \tag {3.3.5b} q 1 ( t ) = i − 1 ∏ m ( t − λ i ) r i , 1 ⩽ r i ⩽ s i . ( 3.3.5b ) 原则上,这给出了一个求已知矩阵 A A A 的极小多项式的算法:
首先,假定通过求特征多项式以及对它做完全分解,计算出 A A A 的各个特征值和它们的代数重数。设法确定分解(3.3.5a)。
在(3.3.5b)中,有有限多个乘积形式的多项式,从所有 r i = 1 r_i = 1 r i = 1 的乘积开始,通过直接验算,确定零化 A A A 的,次数最低的多项式。这就是所求的极小多项式。
从数值计算考虑,这不是一个好的算法,因为对于一个大矩阵,要牵涉到分解其特征多项式的问题。但是,对于手算一些形式简单的小矩阵的极小多项式,它可能是很有效的。
练习 设 A − [ λ a 0 λ ] A - \left[ \begin{array}{ll}\lambda & a\\ 0 & \lambda \end{array} \right] A − [ λ 0 a λ ] ,求 A A A 的极小多项式 q λ ( t ) q_{\lambda}(t) q λ ( t )
A A A 的Jordan标准形和 A A A 的极小多项式之间有着密切的联系。假定 A = S J S − 1 A = \mathbf{SJS}^{-1} A = SJS − 1 是 A A A 的Jordan标准形,且先假定
J − [ λ 1 0 ⋱ ⋱ 1 0 λ ] ∈ M n J - \left[ \begin{array}{c c c c} \lambda & 1 & & 0 \\ & & \ddots & \\ & \ddots & & 1 \\ 0 & & & \lambda \end{array} \right] \in M _ {n} J − λ 0 1 ⋱ ⋱ 0 1 λ ∈ M n 只是--个Jordan块. Λ \pmb{\Lambda} Λ 的特征多项式是 ( t − λ ) n (t - \lambda)^n ( t − λ ) n ,又因为如果 k < n k < n k < n ,则 ( J − λ I ) k ≠ 0 (J - \lambda I)^{k}\neq 0 ( J − λ I ) k = 0 ,所以极小多项式也是 ( t − λ ) n (t - \lambda)^n ( t − λ ) n ,如果
J − [ J n 1 ( λ ) 0 0 J n 1 ( λ ) ] ∈ M n , J - \left[ \begin{array}{c c} J _ {n _ {1}} (\lambda) & 0 \\ 0 & J _ {n _ {1}} (\lambda) \end{array} \right] \in M _ {n}, J − [ J n 1 ( λ ) 0 0 J n 1 ( λ ) ] ∈ M n , 其中 n 1 ≥ n 2 n_1 \geq n_2 n 1 ≥ n 2 ,那么 J J J 的特征多项式仍为 ( t − λ ) n (t - \lambda)^n ( t − λ ) n ,可是现在 ( J − λ I ) n 1 = 0 (J - \lambda I)^{n_1} = 0 ( J − λ I ) n 1 = 0 ,并且没有较低的幂等于零。因此,极小多项式是 ( t − λ ) n 1 (t - \lambda)^{n_1} ( t − λ ) n 1 。如果有更多的子块,结果是相同的: J J J 的极小多项式是 ( t − λ ) n (t - \lambda)^n ( t − λ ) n ,其中 r r r 是相应于 λ \lambda λ 的最大 Jordan 块的阶数。如果 J J J 是一般的 Jordan 矩阵,那么极小多项式必定包含每个不同特征值 λ i \lambda_i λ i 的一个因式 ( t − λ i ) n (t - \lambda_i)^n ( t − λ i ) n ,且 r i r_i r i 一定是指应于 λ i \lambda_i λ i 的最大 Jordan 块的阶数;没有更低的幂可以零化相应于 λ i \lambda_i λ i 的所有 Jordan 块,并且也不需要更高的幂。因为相似的矩阵有相同的极小多项式,我们已经证明了下述定理:
3.3.6 定理 设 A ∈ M n A \in M_{n} A ∈ M n 是凸知矩阵,其不同的特征值是 λ 1 , … , λ m \lambda_{1}, \ldots, \lambda_{m} λ 1 , … , λ m . A A A 的极小多项式是
q A ( t ) − ∏ i = 1 m ( t − λ i ) , (3.3.7) q _ {A} (t) - \prod_ {i = 1} ^ {m} \left(t - \lambda_ {i}\right), \tag {3.3.7} q A ( t ) − i = 1 ∏ m ( t − λ i ) , ( 3.3.7 ) 其中 r 1 r_{1} r 1 是 A \pmb{A} A 的相应于特征值 λ i \lambda_{i} λ i 的最大Jordan块的阶数.
实际上,这个结果在计算极小多项式时不是很有用的,因为确定一个矩阵的Jordan标准形比确定它的极小多项式更难一些;况且,只要知道了一个矩阵的诸特征值,它的极小多项式
可以通过简单的试凑法来确定。不过,有一个重要的理论性推论。因为一个矩阵可对角化,当且仅当它的所有Jordan块有阶数1,所以,在(3.3.7)中,可对角化的一个必要充分条件是所有 r i = 1 r_i = 1 r i = 1 。
3.3.8 推论 设 Λ \Lambda Λ 是已知矩阵,它的不同的特征值是 λ 1 , λ 2 , … , λ m \lambda_1, \lambda_2, \dots, \lambda_m λ 1 , λ 2 , … , λ m 。那么, A \pmb{A} A 可对角化,当且仅当 q ( A ) = 0 q(A) = 0 q ( A ) = 0 ,其中
q ( t ) = ( t − λ 1 ) ( t − λ 2 ) … ( t − λ m ) . (3.3.9) q (t) = (t - \lambda_ {1}) (t - \lambda_ {2}) \dots (t - \lambda_ {m}). \tag {3.3.9} q ( t ) = ( t − λ 1 ) ( t − λ 2 ) … ( t − λ m ) . ( 3.3.9 ) 在确定一个已知矩阵是否可对角化时,这个准则是很实用的,因为如果知道一个已知矩阵的特征值,就容易写出多项式(3.3.9).然后看它是否零化 A A A ,如果它零化 A A A ,它一定是 A A A 的极小多项式.因为没有更低次的多项式能以 A A A 的 m m m 个不同的特征值为根.把上述结果用下述几种等价的方式来表述,有时很有用.
3.3.10 推论 设 A ∈ M n A \in M_{n} A ∈ M n 是已知矩阵。下列条件中的每一个都是 A A A 可对角化的必要充分条件:
(a) 极小多项式 q A ( t ) q_{A}(t) q A ( t ) 有不同的线性因子. (b) q 1 ( t ) q_{1}(t) q 1 ( t ) 的每个根有重数 1. (c)对于使 q A ( t ) = 0 q_A(t) = 0 q A ( t ) = 0 的所有根,导数 q A ′ ( t ) ≠ 0 q_A'(t) \neq 0 q A ′ ( t ) = 0
对于已知矩阵 A ∈ M n A \in M_{n} A ∈ M n ,已经讨论了求一个零化 A A A 的,次数最低的首一多项式的问题。然而,关于它的逆问题又如何呢?给定一个首一多项式
p ( t ) = t n + a n − 1 t n − 1 + a n − 2 t n − 2 + ⋯ + a 1 t + a 1 , (3.3.11) p (t) = t ^ {n} + a _ {n - 1} t ^ {n - 1} + a _ {n - 2} t ^ {n - 2} + \dots + a _ {1} t + a _ {1}, \tag {3.3.11} p ( t ) = t n + a n − 1 t n − 1 + a n − 2 t n − 2 + ⋯ + a 1 t + a 1 , ( 3.3.11 ) 存在一个矩阵 A A A 使得 p ( t ) p(t) p ( t ) 是其极小多项式吗?如果有, Λ \Lambda Λ 的阶至少必须为 n × n n \times n n × n ;要求这样一个矩阵是不困难的。考察矩阵
A = [ 0 a 0 1 0 0 ⋮ 1 ⋱ ⋮ 0 ⋱ 0 − a n − 2 1 − a n − 1 ] ∈ M n , (3.3.12) A = \left[ \begin{array}{c c c c c} 0 & & & & a _ {0} \\ 1 & 0 & 0 & & \vdots \\ & 1 & \ddots & & \vdots \\ 0 & & \ddots & 0 & - a _ {n - 2} \\ & & & 1 & - a _ {n - 1} \end{array} \right] \in M _ {n}, \tag {3.3.12} A = 0 1 0 0 1 0 ⋱ ⋱ 0 1 a 0 ⋮ ⋮ − a n − 2 − a n − 1 ∈ M n , ( 3.3.12 ) 并且看到
I e 1 = e 1 = A ′ ′ e 1 , I e _ {1} = e _ {1} = A ^ {\prime \prime} e _ {1}, I e 1 = e 1 = A ′′ e 1 , A e 1 = e 2 = A e 1 , A e _ {1} = e _ {2} = A e _ {1}, A e 1 = e 2 = A e 1 , A e 2 = e 3 = A 2 e 1 , A e _ {2} = e _ {3} = A ^ {2} e _ {1}, A e 2 = e 3 = A 2 e 1 , A e 4 = e 4 = A 3 e 1 , A e _ {4} = e _ {4} = A ^ {3} e _ {1}, A e 4 = e 4 = A 3 e 1 , ⋮ ⋮ ⋮ ⋮ \vdots \qquad \vdots \qquad \vdots \qquad \vdots ⋮ ⋮ ⋮ ⋮ A e n − 1 = e n ÷ A n − 1 e 1 , A e _ {n - 1} = e _ {n} \div A ^ {n - 1} e _ {1}, A e n − 1 = e n ÷ A n − 1 e 1 , \begin{array}{l} A e _ {n} = - a _ {n - 1} e _ {n} - a _ {n - 2} e _ {n - 1} - \dots - a _ {1} e _ {2} - a _ {1} e _ {1} \\ = - a _ {\pi 1} A ^ {n} ^ {1} e _ {1} \dots a _ {\pi - 2} A ^ {n} ^ {2} e _ {1} - \dots - a _ {1} A e _ {1} - a _ {0} e _ {1} = A ^ {n} e _ {1} \\ = \left[ A ^ {n} - p (\Lambda) \right] e _ {1}. \\ \end{array}
因而
p ( A ) e 1 = ( a 1 e 1 + a 1 A e 1 + a 2 A 2 e 1 ⊢ ⋯ + a n − 1 A n − 1 e 1 ) + A n e 1 = [ p ( A ) ⋅ A n ] e 1 + [ A n − p ( A ) ] e 1 = 0. \begin{array}{l} p (A) e _ {1} = \left(a _ {1} e _ {1} + a _ {1} A e _ {1} + a _ {2} A ^ {2} e _ {1} \vdash \dots + a _ {n - 1} A ^ {n - 1} e _ {1}\right) + A ^ {n} e _ {1} \\ = [ p (A) \cdot A ^ {n} ] e _ {1} + [ A ^ {n} - p (A) ] e _ {1} = 0. \\ \end{array} p ( A ) e 1 = ( a 1 e 1 + a 1 A e 1 + a 2 A 2 e 1 ⊢ ⋯ + a n − 1 A n − 1 e 1 ) + A n e 1 = [ p ( A ) ⋅ A n ] e 1 + [ A n − p ( A )] e 1 = 0. 另外,对每个 k = 1 , 2 , … , n k = 1,2,\dots ,n k = 1 , 2 , … , n , p ( A ) e k = p ( A ) A k − 1 e 1 = A k ⋅ p ( A ) e 1 = A k − 1 0 = 0. p(A)e_k = p(A)A^{k - 1}e_1 = A^k\cdot p(A)e_1 = A^{k - 1}0 = 0. p ( A ) e k = p ( A ) A k − 1 e 1 = A k ⋅ p ( A ) e 1 = A k − 1 0 = 0. 因为对每个基向量 E k \mathcal{E}_k E k 有 p ( A ) e k = 0 p(A)e_k = 0 p ( A ) e k = 0 ,我们得知 p ( A ) = 0 p(A) = 0 p ( A ) = 0 因此, p ( t ) p(t) p ( t ) 是零化 A A A 的 n n n 次首一多项式.如果存在零化 A A A 的,且有较低次数 m > n m > n m > n 的多项式 q ( t ) = t m + b m − 1 t m − 1 + ⋯ + b 1 t + b 0 q(t) = t^{m} + b_{m - 1}t^{m - 1} + \dots +b_{1}t + b_{0} q ( t ) = t m + b m − 1 t m − 1 + ⋯ + b 1 t + b 0 ,那么
0 = q ( A ) e 1 = A m e 1 + b m − 1 A m − 1 e 2 + ⋯ + b 1 A e 1 + b 3 e 1 = e m − 1 + b m − 1 e m + ⋯ + b 1 e 2 + b n e 1 = 0 , \begin{array}{l} 0 = q (A) e _ {1} = A ^ {m} e _ {1} + b _ {m - 1} A ^ {m - 1} e _ {2} + \dots + b _ {1} A e _ {1} + b _ {3} e _ {1} \\ = e _ {m - 1} + b _ {m - 1} e _ {m} + \dots + b _ {1} e _ {2} + b _ {n} e _ {1} = 0, \\ \end{array} 0 = q ( A ) e 1 = A m e 1 + b m − 1 A m − 1 e 2 + ⋯ + b 1 A e 1 + b 3 e 1 = e m − 1 + b m − 1 e m + ⋯ + b 1 e 2 + b n e 1 = 0 , 它推出基向量 e m + 1 e_{m+1} e m + 1 与基向量 e 1 , e 2 , ⋯ , e m e_1, e_2, \cdots, e_m e 1 , e 2 , ⋯ , e m 线性相关。因为这是不可能的,由此得出 p ( t ) p(t) p ( t ) 是零化 A A A 的,次数最低的唯一首一多项式。另外,因为 p ( t ) p(t) p ( t ) 有次数 n n n , A ∈ M n A \in M_n A ∈ M n ,且特征多项式 p A ( t ) p_A(t) p A ( t ) 也是零化 A A A 的 n n n 次首一多项式,所以(3.3.11)必须是(3.3.12)的特征多项式。
3.3.13 定义 矩阵(3.3.12)称为多项式(3.3.11)的友矩阵。 已经证明了下述定理:
3.3.14 定理 每个首一多项式既是它的友矩阵的极小多项式,又是其特征多项式。 稍后,我们将提出几种不同的方法来确定包含一个矩阵的诸特征值的区域。因为一个多项式的零点是其友矩阵的特征值,所以这些方法可以用来估计一个多项式的各零点。见(5.6)节。
如果 A ∈ M n A \in M_{n} A ∈ M n 是一个已知矩阵,我们可以计算其特征多项式 p A ( t ) p_{A}(t) p A ( t ) 以及多项式 p 1 ( t ) p_{1}(t) p 1 ( t ) 的友矩阵(3.3.12). 如果 A A A 相似于这个友矩阵,那么(因为相似的矩阵有相同的极小多项式),由(3.3.14)可知, A A A 的极小多项式 q A ( t ) q_{A}(t) q A ( t ) 一定恒等于 A A A 的特征多项式 p A ( t ) p_{A}(t) p A ( t ) ,一般说来不会有这种情况,不过,如果 A ∈ M n A \in M_{n} A ∈ M n 是一个其极小多项式 q A ( t ) q_{A}(t) q A ( t ) 与其特征多项式 p A ( t ) p_{A}(t) p A ( t ) 恒等的矩阵,那么 A A A 的Jordan标准形一定恰好含有每个不同的特征值的一个Jordan块。每个Jordan块的阶数等于作为 A A A 的特征(极小)多项式的一个零点的相应特征值的重数。但是,多项式 p A ( t ) p_{A}(t) p A ( t ) 的友矩阵的Jordan标准形与 A A A 恰好有相同的Jordan块结构,因而它必须与 A A A 相似,这番论证就是下述定理的一个证明。
3.3.15 定理 矩阵 A ∈ M n A \in M_{n} A ∈ M n 相似于其特征多项式的反矩阵,当且仅当 A A A 的极小多项式与特征多项式恒等。 练习 证明, A ∈ M n A \in M_{n} A ∈ M n 相似于其特征多项式的友矩阵,当且仅当 A A A 是非减次矩阵。习题
设 A , B ∈ M 3 A, B \in M_3 A , B ∈ M 3 是幂零矩阵,证明, A A A 与 B B B 相似,当且仅当 A A A 和 B B B 有相同的极小多项式,这在 M 1 M_1 M 1 中成立吗?
假定 A ∈ M n A \in M_{n} A ∈ M n 是已知的,且 A A A 的不同的特征值 λ 1 , λ 2 , … , λ m \lambda_1, \lambda_2, \dots, \lambda_m λ 1 , λ 2 , … , λ m 也是已知的。试用(3.3.6)证明,极小多项式(3.3.7)可以用下述算法来确定:对每个 i = 1 , 2 , … , m i = 1, 2, \dots, m i = 1 , 2 , … , m ,计算 ( A − λ i I ) k , k = 1 , 2 , … , n (A - \lambda_i I)^k, k = 1, 2, \dots, n ( A − λ i I ) k , k = 1 , 2 , … , n 。设 r i r_i r i 是使 rank ( A − λ i I ) k = rank ( A − λ i I ) k + 1 \operatorname{rank}(A - \lambda_i I)^k = \operatorname{rank}(A - \lambda_i I)^{k+1} rank ( A − λ i I ) k = rank ( A − λ i I ) k + 1 的最小 k k k 值,这个数 r i r_i r i 称为特征值 λ i \lambda_i λ i 的指标。
矩阵 A ∈ M n A \in M_{n} A ∈ M n 是幂等的,如果 A 2 = A A^{2} = A A 2 = A 。利用(3.3.10)证明,每个幂等矩阵是可对角化的。提示:试证 t 2 − t = t ( t − 1 ) t^{2} - t = t(t - 1) t 2 − t = t ( t − 1 ) 零化 A A A 。 A A A 的极小多项式是什么?如果 A A A 是三次幂等的( A 3 A^{3} A 3
[116]
147
A A A ),你能说些什么?如果 A k = A A^k = A A k = A 呢?
如果 A ∈ M n A \in M_{n} A ∈ M n ,且对某个 k < n k < n k < n ,有 A k = 0 A^{k} = 0 A k = 0 ,证明对某个 r ⩽ n r \leqslant n r ⩽ n 有 A ′ = 0 A' = 0 A ′ = 0 。因此,每个幂零矩阵有一个其指数不大于该矩阵的阶数的等于零的幂。提示:如果 p ( t ) = t k p(t) = t^{k} p ( t ) = t k 零化 A A A ,想--想(3.3.1)关于极小多项式是怎么说的?
证明 Gram-Schmidt 过程有下述应用,那就是,对于一个给定的矩阵 A ∈ M n A \in M_n A ∈ M n ,既不需要知道它的特征多项式又不需要知道它的任何特征值,也可以直接计算 A A A 的极小多项式。
(a) 设映射 T : M n → C n 2 T: M_n \to \mathbf{C}^{n^2} T : M n → C n 2 定义如下:对于任一 A ∈ M n A \in M_n A ∈ M n ,把它按列块分成 A − [ a 1 , a 2 , … , a n ] A - [a_1, a_2, \dots, a_n] A − [ a 1 , a 2 , … , a n ] ;设 T ( A ) T(A) T ( A ) 表示 C n 2 \mathbf{C}^{n^2} C n 2 中唯一确定的向量,它的前 n n n 个分量是第 1 列 a 1 a_1 a 1 的各个分量,它的 n + 1 n + 1 n + 1 到 2 n 2n 2 n 个分量是第 2 列的各个分量,如此等等。证明,这个映射 T T T 是向量空间 M n M_n M n 与 C n 2 \mathbf{C}^{n^2} C n 2 间的同构(线性的、一对一--的和到上的)。
(b)考察 C n 2 \mathbf{C}^{n^2} C n 2 中的诸向量
v 1 = T ( I ) , v 1 − T ( A ) , v 2 = T ( A ∗ ) , … , v k = T ( A k ) , … , v _ {1} = T (I), v _ {1} - T (A), v _ {2} = T \left(A ^ {*}\right), \dots , v _ {k} = T \left(A ^ {k}\right), \dots , v 1 = T ( I ) , v 1 − T ( A ) , v 2 = T ( A ∗ ) , … , v k = T ( A k ) , … , 其中 k = 0 , 1 , 2 , … , n k = 0,1,2,\dots ,n k = 0 , 1 , 2 , … , n ,试用Cayley-Hamilton定理证明, { v 0 , v 1 , … , v n } \{v_0,v_1,\dots ,v_n\} { v 0 , v 1 , … , v n } 是一个相关组.
(c)把Gram-Schmidt过程按给定的顺序应用于向量组 { v 0 , v 1 , ⋯ , v n } \{v_{0}, v_{1}, \cdots, v_{n}\} { v 0 , v 1 , ⋯ , v n } 直到产生第一个零向量为止。为什么一定会得到一个零向量? (d) 如果 Gram-Schmidt 过程在第 k k k 步产生第一个零向量,证明 k − 1 k - 1 k − 1 是 A A A 的极小多项式的次数。 (e) 如果 Gram-Schmidt 过程产生向量 a 1 v 0 + α 1 v 1 + ⋯ + α k − 1 v k − 1 = 0 a_{1}v_{0} + \alpha_{1}v_{1} + \dots + \alpha_{k-1}v_{k-1} = 0 a 1 v 0 + α 1 v 1 + ⋯ + α k − 1 v k − 1 = 0 ,证明
T − 1 ( α 0 v i + α 1 v i + ⋯ + α k − 1 v k − 1 ) = α 0 I + α 1 A + α 2 A 2 + ⋯ + α k − 1 A k − 1 = 0 , T ^ {- 1} \left(\alpha_ {0} v _ {i} + \alpha_ {1} v _ {i} + \dots + \alpha_ {k - 1} v _ {k - 1}\right) = \alpha_ {0} I + \alpha_ {1} A + \alpha_ {2} A ^ {2} + \dots + \alpha_ {k - 1} A ^ {k - 1} = 0, T − 1 ( α 0 v i + α 1 v i + ⋯ + α k − 1 v k − 1 ) = α 0 I + α 1 A + α 2 A 2 + ⋯ + α k − 1 A k − 1 = 0 , 由此得出, q λ ( t ) = ( α k − 1 t k − 1 + ⋯ + α 2 t 2 + α 1 t + α 0 ) / α k − 1 q_{\lambda}(t) = (\alpha_{k - 1}t^{k - 1} + \dots +\alpha_{2}t^{2} + \alpha_{1}t + \alpha_{0}) / \alpha_{k - 1} q λ ( t ) = ( α k − 1 t k − 1 + ⋯ + α 2 t 2 + α 1 t + α 0 ) / α k − 1 是 A A A 的极小多项式.为什么 α k − 1 ≠ 0 ? \alpha_{k - 1}\neq 0? α k − 1 = 0 ?
按习题5中算法的要求进行计算,分别求 [ 1 1 0 2 ] , [ 1 1 0 1 ] \left[ \begin{array}{ll}1 & 1\\ 0 & 2 \end{array} \right],\left[ \begin{array}{ll}1 & 1\\ 0 & 1 \end{array} \right] [ 1 0 1 2 ] , [ 1 0 1 1 ] 和 [ 1 0 0 1 ] \left[ \begin{array}{ll}1 & 0\\ 0 & 1 \end{array} \right] [ 1 0 0 1 ] 的极小多项式.
考察 A = [ 0 1 0 0 ] A = \begin{bmatrix} 0 & 1 \\ 0 & 0 \end{bmatrix} A = [ 0 0 1 0 ] 和 B = [ 0 0 0 1 ] B = \begin{bmatrix} 0 & 0 \\ 0 & 1 \end{bmatrix} B = [ 0 0 0 1 ] ,说明 A B AB A B 和 B A BA B A 的极小多项式不一定相同。但 A B AB A B 和 B A BA B A 的特征多项式是相同的,说明特征多项式和极小多项式之间为什么存在这一差别。
设 A i ∈ M n 1 A_{i} \in M_{n_{1}} A i ∈ M n 1 , i = 1 , 2 , … , k i = 1, 2, \dots, k i = 1 , 2 , … , k ,且设 q i ( t ) q_{i}(t) q i ( t ) 表示每个 A i A_{i} A i 的极小多项式,证明直和
A = [ A 1 0 A 2 ⋱ 0 A k ] A = \left[ \begin{array}{l l l l} A _ {1} & & & 0 \\ & A _ {2} & & \\ & & \ddots & \\ 0 & & & A _ {k} \end{array} \right] A = A 1 0 A 2 ⋱ 0 A k 的极小多项式是 q 1 ( t ) , q 2 ( t ) , ⋯ , q k ( t ) q_{1}(t), q_{2}(t), \cdots, q_{k}(t) q 1 ( t ) , q 2 ( t ) , ⋯ , q k ( t ) 的最小公倍式。这个唯一的,次数最低的首一多项式可被每个 q i ( t ) q_{i}(t) q i ( t ) 除尽。注意,上述论证给出了引理(1.3.10)的一个不同的证明。
如果 A ∈ M 5 A \in M_{5} A ∈ M 5 的特征多项式 p A ( t ) = ( t − 4 ) 2 ( t + 6 ) 2 p_A(t) = (t - 4)^2 (t + 6)^2 p A ( t ) = ( t − 4 ) 2 ( t + 6 ) 2 和极小多项式 q A ( t ) = ( t − 4 ) 2 ( t + 6 ) q_A(t) = (t - 4)^2 (t + 6) q A ( t ) = ( t − 4 ) 2 ( t + 6 ) ,那么 A A A 的Jordan标准形是什么?
用直接计算证明,多项式(3.3.11)是友矩阵(3.3.12)的特征多项式。提示:利用余子式计算行列式。
有时,多项式(3.3.11)的友矩阵定义为
[ − a n 1 − a n 2 … − a n 1 0 … 0 1 ⋱ 0 ⋱ 1 0 ] 或 [ 0 1 0 ⋮ ⋱ ⋱ 0 0 1 − a n − a 1 … − a n ] \left[ \begin{array}{c c c c} {- a _ {n 1}} & {- a _ {n 2}} & {\dots} & {- a _ {n}} \\ {1} & {0} & {\dots} & {0} \\ & {1} & {\ddots} & \\ {0} & {\ddots} & & \\ & & {1} & {0} \end{array} \right] \quad \text {或} \quad \left[ \begin{array}{c c c c} {0} & {1} & & {0} \\ {\vdots} & {\ddots} & {\ddots} & \\ {0} & & {0} & {1} \\ {- a _ {n}} & {- a _ {1}} & {\dots} & {- a _ {n}} \end{array} \right] − a n 1 1 0 − a n 2 0 1 ⋱ … … ⋱ 1 − a n 0 0 或 0 ⋮ 0 − a n 1 ⋱ − a 1 ⋱ 0 … 0 1 − a n 149
证明,这两个矩阵与(3.3.12)有相同的性质:(3.3.11)既是该矩阵的极小多项式,又是它的特征多项式.
说明,不存在其极小多项式为 x 2 + 1 x^2 + 1 x 2 + 1 的 3 × 3 3 \times 3 3 × 3 实矩阵,但是存在具有这一性质的一个 2 × 2 2 \times 2 2 × 2 实矩阵及一个 3 × 3 3 \times 3 3 × 3 复矩阵。提示:利用(3.3.4)。
虽然相似的矩阵有相同的特征多项式和极小多项式,说明4阶或更高阶的两个矩阵可能有相同的极小多项式和特征多项式而它们不相似。提示:考虑
[ 0 1 0 0 0 0 0 0 … … … … … … … … … … … … … … … 0 0 0 1 0 0 0 0 ] 和 [ 0 1 0 0 0 0 0 0 … … … … … … … … … … … … … … … … … … … 0 0 0 0 0 0 0 0 ] \begin{array}{r} {\left[ \begin{array}{c c c c} {0} & {1} & {0} & {0} \\ {0} & {0} & {0} & {0} \\ {\dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots} \\ {0} & {0} & {0} & {1} \\ {0} & {0} & {0} & {0} \end{array} \right] \quad \text {和} \quad \left[ \begin{array}{c c c c} {0} & {1} & {0} & {0} \\ {0} & {0} & {0} & {0} \\ {\dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots} \\ {0} & {0} & {0} & {0} \\ {0} & {0} & {0} & {0} \end{array} \right]} \end{array} 0 0 ……………………………………… 0 0 1 0 0 0 0 0 0 0 0 0 1 0 和 0 0 ………………………………………………… 0 0 1 0 0 0 0 0 0 0 0 0 0 0 说明4是这种情况可能出现的最低阶数.
如果 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是相似的,而 p ( t ) p(t) p ( t ) 是一个多项式,那么 p ( A ) = 0 p(A) = 0 p ( A ) = 0 当且仅当 p ( B ) = 0 p(B) = 0 p ( B ) = 0 。试用前一个习题的例子说明,即使 A A A 与 B B B 不相似, p ( A ) = 0 p(A) = 0 p ( A ) = 0 当且仅当 p ( B ) = 0 p(B) = 0 p ( B ) = 0 也可能对每个多项式 p ( t ) p(t) p ( t ) 成立。为什么会出现这种情形?
设 A ∈ M n A \in M_{n} A ∈ M n 是已知矩阵,且设 P ( A ) = { p ( A ) : p ( t ) P(A) = \{p(A): p(t) P ( A ) = { p ( A ) : p ( t ) 是一个多项式}. 说明 P ( A ) P(A) P ( A ) 是 M n M_{n} M n 的子空间,且它还是 M n M_{n} M n 的子代数 [ P ( A ) [P(A) [ P ( A ) 在乘法下封闭]. 证明 P ( A ) P(A) P ( A ) 的维数是 A A A 的极小多项式的次数.
如果 A , B ∈ M n A, B \in M_n A , B ∈ M n 有相同的特征多项式和相同的极小多项式,且它们的极小多项式与它们的特征多项式相同,证明 A A A 与 B B B 相似。再利用这个事实证明,关于习题9中所提到的友矩阵的其他各种形式都相似于(3.3.12)。