2.4 Schur定理的若干推论

Schur 两角化的几个基本推论说明了它的效用.

练习利用(2.3.1)证明，如果 $A \in M_{n}$ 有特征值 $\lambda_{1}, \ldots, \lambda_{n}$ ，（包括重特征值），那么 $\det A = \prod_{i=1}^{n} \lambda_{i}$ 和 $\operatorname{tr} A = \sum_{i=1}^{n} \lambda_{i}$ . 在第1章中，这是用另外的方法证明的. 提示：关于迹，应想到由直接计算可推出 $\operatorname{tr} AB = \operatorname{tr} BA$ ，因而迹是相似不变量．关于特征值的其他初等对称函数，你认为如何？

每个矩阵都满足它自己的特征方程(2.4.2)，这个结论可由Schur定理和关于三角矩阵乘法的一个简单结果推出。

2.4.1 引理假定 $R = [r_{ij}]$ 和 $T = [t_{ij}] \in M_n$ 是上三角矩阵，且 $r_{ij} = 0, 1 \leqslant i, j \leqslant k < n, t_{k+1,k+1} = 0$ 设 $T' = [t_{ij}'] = RT$ ，那么 $t_{ij}' = 0, 1 \leqslant i, j \leqslant k + 1$ .

证明：因为 $R(1,2,\dots ,k) = 0$ 和 $t_{k\cdot 1,k\cdot 1} = 0$ ，所以 $\pmb{R}$ 和 $\pmb{T}$ 有形状

R = \left[ \begin{array}{c c c c} 0 & * & * \\ & * & * \\ 0 & 0 & * \\ & & * \end{array} \right], \quad T = \left[ \begin{array}{c c c c} * & * & * & * \\ 0 & \ddots & & * \\ 0 & * & * & \\ \dots & \dots & 0 & \dots \\ 0 & * & * & \\ 0 & 0 & * & * \end{array} \right],

其中，分块后的右上 $f$ 块都是 $k \times k$ 的。根据分块矩阵的乘法[见(0.7)的有关记号和基本结果]， $T'$ 的 $k \times k$ 左上 $f$ 块显然是 0。通过观察发现， $R$ 的前 $k + 1$ 行有 0 的位置对着 $T$ 的第 $k + 1$ 列的所有非零位置，而 $T$ 的前 $k + 1$ 列有 0 的位置对着 $R$ 的第 $k + 1$ 行的所有非零位置。于是矩阵乘法表明， $T'$ （按同样的分块）有形状

T ^ {\prime} = \left[ \begin{array}{c c c c c} & 0 & & & \\ & \vdots & & * & \\ 0 & 0 & & & \\ & 0 & & & \\ & & * & & * \\ 0 & \vdots & & \ddots & \\ & 0 & 0 & & * \end{array} \right],

因而 $T'(\{1, \dots, k + 1\}) = 0$ ，这正是我们要证明的。

练习证明两个上三角矩阵的乘积是上三角矩阵，并证明两个有相同划分的分块上三角矩阵的乘积是分块上三角矩阵。

练习推广（2.4.1），证明，如果 $R$ 和 $T$ 是上三角矩阵，且 $T' = RT$ ，那么，

T ^ {\prime} (\{i, i + 1, \dots , i + j \}) = R (\{i, i + 1, \dots , i + j \}) T (\{i, i + 1, \dots , i + j \}).

2.4.2 定理 (Cayley-Hamilton) 设 $p_A(t)$ 是 $A \in M_n$ 的特征多项式, 那么

p _ {1} (A) - 0.

证明：因为 $p_A(t)$ 是 $\pmb{n}$ 次的，且首系数为1，又 $p_A(t) - 0$ 的根正是 $A$ 的特征值 $\lambda_1,\dots ,\lambda_n$ （计相重特征值），可以把 $p_A(t)$ 分解成

p _ {A} (t) = (t - \lambda_ {1}) (t - \lambda_ {2}) \dots (t - \lambda_ {n}).

利用(2.3.1)，把 $\pmb{\Lambda}$ 表成

A \cdot U T U ^ {*},

其中 $T$ 是上三角矩阵，且在它的第 $i$ 个对角元位置有 $\lambda_{i}$ ， $i = 1, \dots, n$ 。现在算出

p _ {A} (A) = p _ {A} \left(U T U ^ {*}\right) = \left(U T U ^ {*} - \lambda_ {1} I\right) \left(U T U ^ {*} - \lambda_ {2} I\right) \dots \left(U T U ^ {*} - \lambda_ {n} I\right)

\begin{array}{l} = [ U (T - \lambda_ {1} I) U ^ {*} ] [ U (T - \lambda_ {2} I) U ^ {*} ] \dots [ U (T - \lambda_ {n} I) U ^ {*} ] \\ = U \left[ (T - \lambda_ {1} I) (T - \lambda_ {2} I) \dots (T \quad \lambda_ {n} I) \right] U ^ {*} \\ - U p _ {A} (T) U ^ {\cdot}, \\ \end{array}

并注意到， $p_A(A) = 0$ ，当且仅当 $p_A(T) = 0$ 。此外，由引理(2.4.1)得出 $p_A(T) = 0$ 。 $T - \lambda_1I$ 的左上 $1 \times 1$ 子块是 0，而 $T - \lambda_2I$ 的 2，2 元是 0；因为它们都是上三角矩阵，所以 $(T - \lambda_1I)(T - \lambda_2I)$ 的左上 $2 \times 2$ 子块是 0，根据归纳推理，因为 $(T - \lambda_1I) \cdots (T - \lambda_kI)$ 的左上 $k \times k$ 子块和 $(T - \lambda_{k+1}I)$ 的 $k + 1$ ， $k + 1$ 元各为 0。且都是上三角矩阵，所以 $(T - \lambda_1I) \cdots (T - \lambda_{k+1}I)$ 的左上 $(k + 1) \times (k + 1)$ 子块是 0。一直连续计算到 $n$ ，便得到乘积 $p_A(T) = (T - \lambda_1I) \cdots (T - \lambda_nI) = 0$ 。证毕。

练习下述关于命题 $p_{\lambda}(A) = 0$ 的论证有什么错误？“因为对于 $A \in M_{n}$ 的每个特征值 $\lambda$ 有 $p_{A}(\lambda) = 0$ ，又因为 $q(A)$ 的特征值是 $q(\lambda)$ ，其中 $q$ 是一个多项式，由此推出 $p_{A}(A)$ 的所有特征值是 0。因此， $p_{A}(A)$ 是 0。”这是关于 Cayley-Hamilton 定理的一个常见的错误证明。给出了一个明显的例子来说明它错在哪里。

练习下述论证的错误是什么？“因为 $p_A(t) = \det(tI - A)$ ， $p_A(A) = \det(AI - A) = \det(A - A) = \det(0 = 0$ ，所以 $p_A(A) = 0$ ”。

如果 $p_A(t) = \operatorname{det}(tI - A)$ 表示 $A \in M_n$ 的特征多项式，那么特征方程是 $p_A(t) = 0$ 。特征方程的根是 $A$ 的特征值。Cayley-Hamilton 定理常常解释为“每个方阵都满足自己的特征方程，”但这必须认真弄懂：纯量多项式首先是作为 $p_1(t) = \operatorname{det}(tI - A)$ 计算出来的，然后才从特征多项式出发作出矩阵 $p_1(A)$ 。

我们已经对具有复分量的矩阵证明了 Cayley-Hamilton 定理。因而它对分量取自复数域的任一子域（例如，实数域或有理数域）的矩阵也必定成立。实际上，Cayley-Hamilton 定理纯粹是一个形式结果，它对分量取自任何域的或更一般地，取自任何交换环的矩阵也成立。

Cayley-Hamilton 定理的一个重要应用是，可以把 $A \in M_{n}$ 的幂 $A^{k} (k \geqslant n)$ 写成 $l, A, A^{2}, \dots, A^{n-1}$ 的线性组合。根据线性相关的理论，容易证明，幂 $A^{n}$ 和 $A$ 的更高次幂可以表成较低次幂的线性组合（因为若把 $M_{n}$ 看作复数域上的向量空间， $M_{n}$ 的维数是 $n^{2}$ ），但是 Cayley

Hamilton定理是上述结果的显著改进

2.4.3 例设

A = \left[ \begin{array}{l l} 3 & 1 \\ - 2 & 0 \end{array} \right],

则 $p_A(t) = t^2 - 3t + 2$ ，并且 $A^2 - 3A + 2I = 0$ 。因此， $A^2 = 3A \cdot 2I$ ； $A^3 = A(A^2) = 3A^2 - 2A = 3(3A - 2I) \cdot 2A = 7A \cdot 6I$ ； $A^4 = 7A^2 - 6A = 15A - 14I$ ，等等。另外，因为 $p_A(t)$ 中的常数项，即 $A$ 的行列式非零，所以 $A$ 非奇异，且可以把 $A^{-1}$ 写成 $A$ 的一个多项式。再由 $p_A(A) - A^2 - 3A + 2I - 0$ ，得到 $2I = A^2 + 3A = A(-A + 3I)$ ，或

I = A \left[ \frac {1}{2} (\cdot A + 3 I) \right].

这表明 $A^{-1} = -\frac{1}{2} A + \frac{3}{2} I = \begin{bmatrix} 0 & -1/2 \\ 1 & 3/2 \end{bmatrix}$ .

练习已知 $A \in M_{n}$ 有特征多项式

p _ {4} (t) = t ^ {n} + a _ {n - 1} t ^ {n - 1} + a _ {n - 2} t ^ {n - 2} + \dots + a _ {1} t + a _ {0}

试把 $A^n$ 写成关于 $\Lambda$ 的次数至多是 $n - 1$ 的多项式。试对 $A$ 的次数大于 $n - 1$ 的几个相邻次数的幂，把它们也写成 $A$ 的次数至多是 $n - 1$ 的多项式。另外，假定 $\Lambda$ 非奇异 $(a_0 \neq 0)$ ，把 $A^{-1}$ 也写成 $\Lambda$ 的次数至多是 $n - 1$ 的多项式。这后一结论可作为(2.4.2)的一个推论。

2.4.4 推论如果 $A \in M_{n}$ 是非奇异矩阵，那么存在次数至多是 $n - 1$ 的多项式 $q(t)$ （它的系数取决于 $A$ ），使得 $A^{-1} = q(A)$ 。

练习如果两个矩阵 $A, B \in M_n$ 相似，证明其中一个矩阵的任一多项式相似于另一矩阵的同一多项式，特别是，一个矩阵所满足的任一多项式方程，另一个矩阵也满足。试考虑逆命题：满足同一组多项式的两个同阶矩阵是相似的。它成立还是不成立？

2.4.5 例已经证明，每个矩阵 $A \in M_{n}$ 满足某个 $n$ 次多项式方程。例如，特征方程就是一个例子。但是， $A \in M_{n}$ 满足一个次数小于 $n$ 的多项式方程也是可能的。设

A = \left| \begin{array}{l l l} 1 & 0 & 0 \\ 0 & 1 & 1 \\ 1 0 & 0 & 1 \end{array} \right] \in M _ {3},

则 $A$ 满足 $q(A) = 0$ ，其中 $q(t) = t^2 - 2t + 1$ 是2次的.

练习证明一个可对角化矩阵满足一个次数等于其不同特征值的个数的多项式方程，并且它不满足更低次的多项式方程。一个矩阵所满足的（首项系数为1的）极小次数的多项式（它的极小多项式）是下一章要进一步研究的对象，它与Jordan标准形有密切的关系。提示：考虑 $q(t) = (t - \lambda_1)\dots (t - \lambda_k)$ ，其中 $\lambda_i \neq \lambda_j$ 。

Schur 定理的另一个用途是，它们能用两种说法来解释每个矩阵“几乎”是可对角化的。第一种说法是，存在一个可对角化矩阵，它可以任意接近于一个已知矩阵；第二种说法是，任一已知矩阵相似于这样一个上三角矩阵，它的非对角元可以任意地小。

2.4.6 定理设 $A = [a_{ij}] \in M_n$ ，对任意 $\varepsilon > 0$ ，存在一个矩阵 $A(\varepsilon) = [a_{ij}(\varepsilon)] \in M_n$ ，它有 $n$ 个不同的特征值（因而它是可对角化的），且使得

\sum_ {i, j = 1} ^ {n} \left| a _ {i j} - a _ {i j} (\varepsilon) \right| ^ {2} < \varepsilon .

证明：设 $U \in M_{n}$ 是酉矩阵，使得 $U^{*}AU = T$ 是上三角矩阵。设 $E = \mathrm{diag}(e_1, e_2, \dots, e_n)$ ，其中 $e_1, \dots, e_n$ 选择这样一些数，使得

\left| e, \right| < \left(\frac {\varepsilon}{n}\right) ^ {1 2}

且数 $t_{11} + e_1, t_{22} + e_2, \dots, t_{nn} + e_n$ 是互不相同的。（稍加思考便会发现，这是可以做到的。）于是 $T + E$ 有 $n$ 个不同的特征值： $t_{11} + e_1, \dots, t_{nn} + e_n$ ，且 $A \mid UEU^*$ 也如此，这是因为它相似于 $T \mid E$ 。设 $A(\varepsilon) = A \mid UEU^*$ ，从而 $A - A(\varepsilon) = -UEU^*$ ，且

\sum_ {i, j} \quad a _ {i j} - a _ {i j} (\varepsilon) | ^ {2} = \sum_ {i = 1} ^ {n} | e _ {i} | ^ {2} < n \left(\frac {\varepsilon}{n}\right) = \varepsilon .

我们已经用到了(2.2.2). 因此, $A(\epsilon)$ 适合定理的要求.

练习证明(2.4.6)中条件 $\sum_{i,j} |a_{ij} - a_{ij}(\varepsilon)|^2 < \varepsilon$ 可以用 $\max_{i,j} |a_{ij} - a_{ij}(\varepsilon)| < \varepsilon$ 代替。提示：运用上述定理时，用 $\varepsilon^2$ 代替 $\varepsilon$ ，并意识到，如果平方和小于 $\varepsilon^2$ ，那么其中每一项的绝对值必小于 $\varepsilon$ 。

2.4.7 定理设 $A \in M_{n}$ ，对任意 $\varepsilon > 0$ ，存在一个非奇异矩阵 $S_{\varepsilon} \in M_{n}$ ，使得

S _ {\varepsilon} ^ {1} A S _ {\varepsilon} = T _ {\varepsilon} = \left[ t _ {i j} (\varepsilon) \right]

是上三角矩阵，且 $|t_{ij}(\varepsilon)| < \varepsilon$ ， $1 \leqslant i < j \leqslant n$ .

证明：首先应用Schur定理得到酉矩阵 $U \in M_{n}$ 和上三角矩阵 $T \in M_{n}$ ，使得

U ^ {*} A U = T

对一个非零纯量 $\alpha$ ，定义 $D_{\alpha} = \mathrm{diag}(1, \alpha, \alpha^{2}, \dots, \alpha^{n-1})$ 且令 $t = \max_{i,j} |t_{ij}|$ ，假定 $\varepsilon < 1$ ，因为在这种情形下证明本定理就可以了。如果 $t \leqslant 1$ ，设 $S_{\varepsilon} = U D_{\varepsilon}$ ；如果 $t > 1$ ，设 $S_{\varepsilon} = U D_{1,i} D_{\varepsilon}$ 。不论在哪种情形，相应的 $S_{\varepsilon}$ 都可证明定理的论断。例如，如果 $t \leqslant 1$ ，通过简单的计算可知， $t_{ij}(\varepsilon) = t_{ij} \varepsilon^{-1} \varepsilon^{j} = t_{ij} \varepsilon^{i-1}$ ，它的绝对值不大于 $\varepsilon^{j}$ ，又如果 $t < j$ ，这个值就不大于 $\varepsilon$ 。另一方面，如果 $t > 1$ ，仅仅用一个经 $D_{1,i}$ 的相似作用于矩阵 $T$ ，便得到其所有非零元的绝对值不超过 1 的矩阵。

练习证明(2.4.7)的下述变形：若 $A' \in M_n$ 且 $\varepsilon > 0$ ，则存在一个非奇异的 $S_{\varepsilon} \in M_n$ ，使得 $S_{\varepsilon}^{-1} A S_{\varepsilon} = T_{\varepsilon} = [t_{\eta}(\varepsilon)]$ 是上三角矩阵，且 $\sum_{i=1}^{n} |t_{ij}(\varepsilon)| < \epsilon.$ 提示：应用(2.4.7)，其中用 $[2/n(n-1)]\varepsilon$ 代替 $\varepsilon$ 。

从 Schur 定理出发不难证明它的一个推广，这个推广向下一章中要出现的 Jordan 标准形迈出了重要的一步。

2.4.8 定理假定 $A \in M_{n}$ 有 $n$ 重特征值 $\lambda_{1}, \lambda = 1, \dots, k$ , $[k] \lambda_{1}, \dots, \lambda_{k}$ 是互不相同的. 那么 $A$ 相似于形如

\left[ \begin{array}{c c c c} T _ {1} & & & \\ & T _ {n} & & 0 \\ & & \ddots & \\ 0 & & & T _ {k} \end{array} \right]

的矩阵，其中 $T_{i} \in M_{n}$ 是所有对角元为 $\lambda_{i}$ 的上三角矩阵， $i = 1, \dots, k$ 。如果 $A \in M_{n}(\mathbf{R})$ ，且 $A$ 的所有特征值都是实数，那么也有同样的结果，且相似矩阵可以取实矩阵。

证明：首先应用Schur定理(2.3.1)使 $A$ (酉)相似于一个上三角矩阵 $T = [t_{n}]$ ，并且假定在 $T$ 的对角线上作了编排，使所有的项 $\lambda_{1}$ 都出现在前面，其次是项 $\lambda_{2}$ ，如此等等。下面，要对 $T$ 作一系列简单的（非酉）相似变换，以期得到对角线上方的各个0元，且不改变 $T$ 的对角或者上三角结构。设 $E_{n}$ 是 $M_{n}$ 中的在 $r$ ， $s$ 位置是1，而其他位置都为0的矩阵。注意，对 $r \neq s$ 和任一纯量 $\alpha$ ， $I + \alpha E_{n}$ 是非奇异矩阵，且 $(I + \alpha E_{n})^{-1} = I - \alpha E_{n}$ 。此外，由直接计算可知，对 $r < s$ ，经 $I + \alpha E_{n}$ 的相似

(I + \alpha E _ {n}) ^ {- 1} T (I + \alpha E _ {n}) = (I - \alpha E _ {n}) T (I + \alpha E _ {n})

只改变 $T$ 的第 $r$ 行中位于第 $s$ 列右边的元素和 $T$ 的第 $s$ 列中位于第 $r$ 行上方的元素，

\left[ \begin{array}{c} \downarrow \\ r, s \end{array} \right],

并且用

t _ {n} + a \left(t _ {n} - t _ {n}\right)

代替 $t_{\perp}$ ，因此，如果 $t_{rr} \neq t_{x}$ ，选取

\alpha = \frac {- t _ {0}}{\left(t _ {r} - t _ {0}\right)}

便可使 $r, s$ 元为 0，而对有关结构未作其他的变更。现在考虑 $T$ 中一系列位置： $(n-1, n)$ ； $(n-2, n-1)$ ， $(n-2, n)$ ； $(n-3, n-2)$ ， $(n-3, n-1)$ ， $(n-4, n-3)$ ，…。如果 $t_{rr} \neq t_s$ ，可以依次指定一种相似使这些位置的每个元素变为 0，我们注意到，这样做不会影响已经变成 0 的元。所得到的矩阵将相似于 $A$ 。这正是所要求的形式。

练习证明，如果 $A \in M_{n}(\mathbb{R})$ ，且它的所有特征值都是实数，那么，在(2.4.8)的证明中所必需的运算都可以在实数范围内完成，于是，在这种情形，定理保证能得到分块对角矩阵，而所必需的相似矩阵可以取实矩阵。

附注假定一个已知矩阵 $\Lambda \in M_{n}$ 是上三角矩阵，且可以假定它已化简成如下形式（如果有必要，可对它作置换相似）

A = \left[ \begin{array}{c c c} A _ {1 1} & \dots & A _ {1 t} \\ & \ddots & \vdots \\ 0 & & A _ {k t} \end{array} \right],

其中，每个对角子块 $A_{ii}$ 是上三角矩阵，且在其对角线上只有 $\lambda_{i}$ ，还假定 $i \neq j$ 时有 $\lambda_{i} \neq \lambda_{j}$ ，证明定理(2.4.8)时所使用的算法说明， $A$ 相似于

\left[ \begin{array}{c c c} A _ {1 1} & & 0 \\ & \ddots & \\ 0 & & A _ {k k} \end{array} \right]

即：在这种情形下，所有非对角子块可以用零子块来代替，且保持相似性。因为酉相似保持各元素绝对值的平方和，所以应当注意，如果有任一非对角子块 $A_{ij}$ 是非零的，就不可能用一个酉相似得到这一结果。

现在利用Schur定理的交换族形式(2.3.3)证明，对可交换的矩阵，特征值可（按某个顺序）“相加”

2.4.9 定理设 $A, B \in M_{n}$ 分别有特征值 $\alpha_{1}, \cdots, \alpha_{n}$ 和 $\beta_{1}, \cdots, \beta_{n}$ . 如果 $A$ 和 $B$ 可交换, 那么存在指标 $1, \cdots, n$ 的一个排列 $i_{1}, \cdots, i_{n}$ , 使得 $A + B$ 的特征值是 $\alpha_{1} + \beta_{1}, \alpha_{2} + \beta_{2}, \cdots, \alpha_{n} + \beta_{n}$ . 特别是, 如果 $A$ 与 $B$ 可交换, 那么 $\sigma(A + B) \subseteq \sigma(A) + \sigma(B)$ .

证明：如果 $A$ 与 $B$ 可交换，根据（2.3.3），它们可以同时上三角化，即存在酉矩阵 $U \in M_{n}$ ，使得

U ^ {*} A U = T \text {和} U ^ {*} B U = R

都是上三角矩阵，且分别具有对角元 $\alpha_{1},\dots ,\alpha_{n}$ 及 $\beta_{i_1}\dots ,\beta_{i_n}$

U ^ {*} (A \mid B) U - T + R

有对角元

\alpha_ {1} + \beta_ {i _ {1}}, \alpha_ {2} + \beta_ {i _ {n}}, \dots , \quad \alpha_ {n} + \beta_ {i _ {n}}.

因而也以它们为特征值。因为 $A \mid B$ 相似于 $T \mid R$ ，所以它们必定也是 $A + B$ 的特征值。

2.4.10 例应注意的是，即使 $A$ 与 $B$ 可交换，也未必所有形如 $\alpha_{i} + \beta_{j}$ 的成员都是 $A \mid B$ 的特征值。考察对角矩阵

A - \left[ \begin{array}{l l} {1} & {0} \\ {0} & {2} \end{array} \right] \quad \text {和} \quad B - \left[ \begin{array}{l l} {3} & {0} \\ {0} & {4} \end{array} \right]

便会发现， $1 + 4 = 5\overline{\in}\{4,6\} \div \sigma (A + B)$ ，因此，当 $A$ 与 $B$ 可交换时， $\sigma (A + B)$ 包含在 $\sigma (A) +$ $\sigma (B)$ 中，但一般不相等.

2.4.11 例如果 $A$ 与 $B$ 不交换，那么要用 $\sigma(A) + \sigma(B)$ 来说明 $\sigma(A + B)$ 是很困难的，特别是， $\sigma(A + B)$ 不一定包含在 $\sigma(A) + \sigma(B)$ 中。设

A - \left[ \begin{array}{l l} {0} & {1} \\ {\sim} & {0} \end{array} \right] \quad \text {和} \quad B = \left[ \begin{array}{l l} {0} & {0} \\ {1} & {0} \end{array} \right],

则 $\sigma(A + B) = \{-1, 1\}$ ，而 $\sigma(A) = \sigma(B) - \{0\}$ .

2.4.12 例 (2.4.9) 的逆命题成立吗? 如果 $A$ 和 $B$ 的特征值可按某个顺序相加, $A$ 与 $B$ 一定可交换吗? 回答是否定的, 即便是对于所有纯量 $\alpha$ 和 $\beta$ , $\alpha A$ 和 $\beta B$ 的特征值可按某个顺序相加, $A$ 与 $B$ 也未必可交换. 这是一种有趣的现象, 而刻划这样一对矩阵的特征还是一个尚未解决的问题! 设

A = \left[ \begin{array}{l l l} {1} & {4} & {5} \\ {0} & {2} & {6} \\ {0} & {0} & {3} \end{array} \right] \quad \text {和} \quad B = \left[ \begin{array}{l l l} {2} & {1} & {2} \\ {0} & {3} & {3} \\ {0} & {0} & {4} \end{array} \right],

它们的特征值可相加，但 $A$ 与 $B$ 不交换。显然，可同时上三角化是特征值具有可加性的充分条件，但它又不是必要的。自然，上三角矩阵不一定可交换。

2.4.13 推论假定 $A, B \in M_{n}$ 是分别具有特征值 $\alpha_{1}, \cdots, \alpha_{n}$ 和 $\beta_{1}, \cdots, \beta_{n}$ 的可交换矩阵。如果 $\alpha_{i} \neq -\beta_{j}, i, j-1, \cdots, n$ ，那么 $A + B$ 是非奇异矩阵。

练习用(2.4.9)证明(2.4.13).

练习证明，对任意一对 $A, B \in M_n$ （可交换或不可交换）， $A^{\perp}B$ 的各特征值的和是 $A$ 的各特征值的和加上 $B$ 的各特征值的和。提示： $\operatorname{tr}(A + B)$ 是什么？

我们已考察过可对角化矩阵的同时对角化问题，对此，交换性是一个容易验证的必要充分条件，也考察过同时三角化问题，对于它，交换性是一个充分条件，但不是必要条件。鉴于能够证明两个已知矩阵不可同时三角化往往是很有用的，所以，希望能够找到一个比特征值具有可加性这一条件更强的必要条件。下面的例子指出了实现这一条件的途径。

2.4.14 例设

A = \begin{array}{c c c} {{\left[ \begin{array}{l l l} {{0}} & {{1}} & {{0}} \\ {{0}} & {{0}} & {{1}} \\ {{\left[ \begin{array}{l l l} {{0}} & {{0}} & {{0}} \end{array} \right]}} \end{array} \right]}} \\ {{\left[ \begin{array}{l l l} {{0}} & {{0}} & {{0}} \\ {{0}} & {{0}} & {{1}} \end{array} \right]}} \end{array} \text {和} B - \left[ \begin{array}{l l l} {{0}} & {{0}} & {{0}} \\ {{1}} & {{0}} & {{0}} \\ {{0}} & {{1}} & {{0}} \end{array} \right].

$A$ 和 $B$ 都有三重特征值 0，它们的任意线性组组合 $aA \mid bB$ 也是如此，于是，它们的特征值可相加，由于这些原因，似乎有理由相信 $A$ 和 $B$ 是可同时三角化的。但是，假如有某个非奇异矩阵 $S \in M_3$ ，使得 $SAS^{\prime}$ 和 $SBS^{\prime}$ 都是上三角矩阵，那么 $(SAS^{\prime})(SBS^{\prime}) = SABS^{\prime}$ 的特征值一定是 $A$ 和 $B$ 的特征值按某个顺序的乘积。可是， $AB$ 的特征值的集合是 $\{-1, 0, 1\}$ ，它并不包含在集 $\{0\}$ 和集 $\{0\}$ 的集乘积之中。由此，我们得出结论， $A$ 和 $B$ 是不可同时上三角化的。

练习证明上例中的一个论断：如果 $C, D \in M_n$ 都是上三角矩阵，那么 $CD$ 的特征值是 $C$ 和 $D$ 的特征值按某个顺序的乘积；即 $\sigma(CD) \subseteq \sigma(C)\sigma(D)$ 。

经一个不一定是两相似的同时上一角化问题[不过要参看(2.6)节]可以用下面的McCoy定理来完整地描述，我们略去了它的证明。请回忆一下曾述及任意多个变元的多项式：它只不过是各变元的幂的乘积的一个线性组合。如果诸变元是非交换的，那么相同变元的不同幂可以与其他变元的幂的积相间地出现在某个乘积之中。

2.4.15 定理设 $A, B \in M_{n}$ 分别有 $\sigma(A) = \{\alpha_{1}, \alpha_{2}, \dots, \alpha_{n}\}$ 和 $\sigma(B) = \{\beta_{1}, \beta_{2}, \dots, \beta_{n}\}$ （计算重特征值）。那么，存在非奇异矩阵 $S \in M_{n}$ ，使得 $S^{-1}AS$ 和 $S^{-1}BS$ 都是上三角矩阵，当且仅当存在指标 1，2，…， $n$ 的一个排列 $i_{1}, i_{2}, \dots, i_{n}$ ，使得 $\sigma(p(A, B)) = \{p(a_{j}, \beta_{j}) : j = 1, \dots, n\}$ 对两个（非交换）变元的所有复系数多项式 $p(t, s)$ 成立。

练习验证，如果 $A$ 和 $B$ 可同时三角化，（2.4.15）中的多项式条件是必要的。证明，如

果 $A, B \in M_{n}$ 可交换，那么 $\sigma(p(A, B)) = \{p(\alpha_{j}, \beta_{j}) : j = 1, \dots, n\}$ ，对两个变元的所有多项式 $p$ 成立。定理(2.4.15)是如何适用于例(2.4.14)的？

附注定理(2.4.15)的结论对任意域上的矩阵和多项式都能成立，只要这个域包含这两个矩阵的各特征值；对于 $k = 3, 4, \cdots$ 个矩阵的同时三角化，定理也成立（这时，定理的条件要涉及 $k$ 个变化的多项式）；并且，就是对于特征值的限定子集，定理也成立，即 $p(\alpha_{i}, \beta_{i}) \in \sigma(p(A, B))$ ， $j = 1, \cdots, r$ 对所有多项式 $p(s, t)$ 成立，当且仅当 $A$ 和 $B$ 同时各自相似于这样一个分块三角矩阵，在这两个分块三角矩阵的对角线上的某些相应位置分别有由 $\alpha_{1}, \cdots, \alpha_{r}$ 和 $\beta_{1}, \cdots, \beta_{r}$ 组成的 $1 \times 1$ 子块。

习题

假定 $A, B \in M_{n}$ 可交换，且分别有特征值 $\alpha_{1}, \cdots, \alpha_{n}$ 和 $\beta_{1}, \cdots, \beta_{n}$ 。（a)证明， $AB$ 的特征值是 $\alpha_{1} \beta_{i_{1}}, \alpha_{2} \beta_{i_{2}}, \cdots, \alpha_{n} \beta_{i_{n}}$ ，其中 $i_{1}, \cdots, i_{n}$ 是指标 1， $\cdots, n$ 的某个排列。（b)如果 $p(s, t)$ 是两个变元的多项式，证明 $p(A, B)$ 有特征值 $p(\alpha_{1}, \beta_{i_{1}}), \cdots, p(\alpha_{n}, \beta_{i_{n}})$ 。（c）最后证明，可同时上三角化这个较弱的假设足以得出上述结论：交换性不是必要的。
如果 $A \in M_{n}$ ，证明 $A$ 的秩不小于 $A$ 的非零特征值的个数。提示：试证一个上三角矩阵的秩至少等于非零主对角元的个数，然后利用 Schur 定理(2.3.1)。用例子

A = \left[ \begin{array}{l l} 0 & 1 \\ 0 & 0 \end{array} \right]

说明 $A$ 的秩为什么可能大于非零特征值的个数.

本题的目的是要证明，Cayley-Hamilton 定理对其元素取自交换环而不一定取自复数域的矩阵成立。交换环是这样一个代数结构，除了乘法逆元的存在性以外，它满足域的所有公理。因此其“加法”与“乘法”运算是交换的，且满足通常的结合律和分配律。我们也明确假定在该环中存在乘法单位元；即存在元素“1”使得对该环中的所有 $a$ 都有 $la = a$ 。是一个环而不一定是域的例子是 $Z_{k}$ 一所有整数对 $k$ 的模。在 $Z_{k}$ 中，“加法”与“乘法”不是通常的运算，但其运算结果是对 $k$ 取模； $Z_{k}$ 是一个域当且仅当 $k$ 是素数。另一个例子是具有复系数的 $k$ 个形式未定元的多项式集合。

(a) 我们知道, 若 $A \in M_{n}$ , 则 $\operatorname{adj} A \in M_{n}$ 是其 $i, j$ 元为 $A$ 的 $j, i$ 代数余子式的唯一矩阵 (见0.8.2). 证明, 基本公式

A (\operatorname {a d j} A) = (\operatorname {a d j} A) A = (\det A) I

正好是用代数余子式表示的 $A$ 的行列式的Laplace展开式的一个表达式，并且证明，若 $A$ 的任意两行或两列相等，则 $\det A = 0$ 。注意到这个公式只涉及乘法和加法而不涉及除法。证明该公式对其元素取自任一交换环的矩阵是成立的。

(b) 利用 (a) 证明

(t I - A) [ \operatorname {a d j} (t I - A) ] = [ \operatorname {a d j} (t I - A) ] (t I - A) = \det (t I - A) I = p _ {A} (t) I

对任意 $A \in M_{n}$ ，甚至对其元素取自一个交换环 $n \times n$ 矩阵都成立。证明，矩阵 $\operatorname{adj}(tI - A)$ 是这样一个矩阵，其元素是次数不超过 $n - 1$ 的 $t$ 的多项式，因而它可以写成

\operatorname {a d j} (t I - A) = A _ {n - 1} t ^ {n - 1} + A _ {n - 2} t ^ {n} + \dots + A _ {1} t + A _ {0},

[95]

其中系数 $A_{t}$ 是 $n \times n$ 矩阵，其元素是 $A$ 的诸元素的多项式函数。多项式 $p_{3}(t)$ 是 $A$ 的特征多项式。

\begin{array}{l} t ^ {k} I - A ^ {k} = (t I \dots A) \left(I t ^ {k - 1} + A t ^ {k - 2} + \dots + A ^ {k - 2} t + A ^ {k - 1}\right) \\ = (t I - A) G _ {k} (A, t) \\ \end{array}

对 $k = 0, 1, 2, \cdots$ 都成立，由此得出

t ^ {k} I = I t ^ {k} = A ^ {k} + (t I - A) G _ {k} (A, t), \quad k = 0, 1, 2, \dots .

(d) 设 $p_A(t) = a_n t^n + a_{n-1} t^{n-1} + \dots + a_1 t + a_0 = \det(tI - A)$ 是 $A$ 的特征多项式（其中 $a_n = 1$ ），并且注意到它对其元素取自一个交换环的 $n \times n$ 矩阵也是有定义的。利用(c)证明

\begin{array}{l} p _ {A} (t) I = \sum_ {k = 0} ^ {n} a _ {k} t ^ {k} I = \sum_ {k = 0} ^ {n} a _ {k} \left[ A ^ {k} + (t I - A) G _ {k} (A, t) \right] \\ = p _ {A} (A) + (t I - A) G (A, t), \\ \end{array}

其中

G (A, t) = \sum_ {k = 0} ^ {n} a _ {k} G _ {k} (A, t)

是一个次数不超过 $n - 1$ 的 $t$ 的多项式，以矩阵为系数，其元素是 $A$ 的诸元素的多项式函数。现在用(b)来证明

\begin{array}{l} p _ {A} (A) = p _ {A} (t) I - (t I - A) G (A, t) \\ = (t I \quad A) \operatorname {a d j} (t I - A) - (t I - A) G (A, t) \\ = (t l - A) H (A, t) \equiv Q _ {A} (t), \\ \end{array}

其中 $H(A, t) = B_{n-1}t^{n-1} + B_{n-2}t^{n-2} + \cdots + B_{1}t + B_{0}$ ，而每个 $B_{k}$ 是一个 $n \times n$ 矩阵，其元素是与 $t$ 无关的 $\Lambda$ 的诸元素的多项式函数。因此 $Q_{A}(t)$ 是一个具有矩阵系数的次数不超过 $n$ 的 $t$ 的多项式。

(e) 计算 $Q_A(A)$ ，由此得出 $p_A(A) = 0$

设 $A \in M_{n}$ 是非奇异方阵，证明任何与 $A$ 可交换的矩阵也与 $A^{-1}$ 可交换。提示：利用(2.4.4)，然后直接验证。
用(2.3.1)证明，如果 $A \in M_n$ 有特征值 $\lambda_1, \lambda_2, \dots, \lambda_n$ ，那么

\sum_ {1} ^ {n} \lambda_ {i} ^ {k} = \operatorname {t r} A ^ {k}, \quad k = 1, 2, \dots

证明，对

A = \left[ \begin{array}{c c c} {1} & {0} & {0} \\ {0} & {2} & {0} \\ {0} & {0} & {3} \end{array} \right] \quad \text {和} \quad B = \left[ \begin{array}{c c c} {- 2} & {1} & {2} \\ {- 1} & {- 2} & {- 1} \\ {1} & {1} & {1} \end{array} \right],

以及对所有纯量 $a, b \in \mathbb{C}$ , 有 $\sigma(aA + bB) = \{a - 2b, 2a - 2b, 3a + b\}$ , 但是 $A$ 和 $B$ 不能同时相似于上三角矩阵.

利用(2.3)节习题6中的论据证明例(2.4.14)中的两个矩阵不可能同时上三角化。试对习题6中两个矩阵作同样的证明。
在证明两个矩阵不酉等价时，McCoy 定理(2.4.15)的指导思想可能有用的。设 $p(t, s)$ 是两个非交换变元的复杂数多项式，又设 $A, B \in M_n$ 西等价，即对某个西矩阵 $U \in M_n$ 有 $A = UBU^*$ 。证明 $p(A, A^*) = UP(B, B^*)U^*$ ，因此，如果 $A$ 和 $B$ 西等价，则对每个具有两个非交换变元的复多项式 $p(t, s)$ ， $\operatorname{tr} p(A, A^*) = \operatorname{tr} p(B, B^*)$ 。这与定理(2.2.6)有什么关系？
设 $A \in M_{n}$ , $B \in M_{m}$ 是给定的, 且假定 $A$ 和 $B$ 没有公共特征值; 即 $\sigma(A) \cap \sigma(B)$ 是空集. 利用 Cayley Hamilton 定理 (2.4.2) 证明方程 $AX \cdot XB = 0$ , $X \in M_{n,m}$ 只有解 $X = 0$ . 由此得出结论, 对每个已知 $C \in M_{n,m}$ , 方程 $AM \cdot XB = C$ 有唯一解 $X \in M_{n,m}$ . 提示: 如果 $AX = XB$ , 用归纳法证明, 对所有 $k = 1, 2, \ldots, A^{k}X = XB^{k}$ , 从而对任意多项式 $p(t)$ , 有 $p(A)X = Xp(B)$ . 选取 $p(t)$ 为 $A$ 的特征多项式便得到 $p_{A}(A)X = 0 - Xp_{A}(B)$ . 因为 $p_{1}(B) - (B - \lambda_{1}I) \cdots (B - \lambda_{n}I) \cdots (B - \lambda_{n}I)$ , 其中 $\lambda_{1}, \ldots, \lambda_{n}$ 是 $A$ 的特征多项式, 所以矩阵 $p_{A}(B)$ 是非奇的, 因而 $Xp_{A}(B) = 0$ 只有零解 $X = 0$ . 由齐次方程解的唯一性, 并且将 $(0.5k$ 和 $l)$ 应用于 $M_{n,m}$ 上的线性变换 $X \rightarrow T(X) = AX - BX$ 便可推出, 对方程右边任一已知矩阵 $C$ , $AX - XB = C$ 的解存在.
利用习题9给出定理(2.4.8)的一个证明，要求递推步骤不超过 $k - 1$ 步。提示：把 $A$ 写成

A - \left[ \begin{array}{c c c c} A _ {1 1} & A _ {1 2} & \dots & A _ {1 k} \\ 0 & A _ {2 2} & \dots & A _ {2 k} \\ \vdots & & \ddots & \vdots \\ 0 & \dots & 0 & A _ {k k} \end{array} \right] = \left[ \begin{array}{l l} A _ {1 1} & R _ {1} \\ 0 & T \end{array} \right],

其中每个 $A_{n}$ 是其主对角线上只有 $\lambda_{1}$ 的上三角矩阵，且 $R_{1} = [A_{12}\dots A_{1n}]$ 考虑

S = \left[ \begin{array}{l l} I & X \\ 0 & I \end{array} \right], \quad S ^ {- 1} - \left[ \begin{array}{l l} I & - X \\ 0 & I \end{array} \right],

其中 $X$ 与 $R_{1}$ 同阶，证明

S ^ {1} A S = \left[ \begin{array}{c c} A _ {1 1} & 0 \\ 0 & T \end{array} \right]

只需选 $X$ 适合 $A_{11}X - XT = \cdots R_1$ 。依次按行做下去便可得出 $A$ 相似于 $\operatorname{diag}(A_{11}, A_{22}, \cdots, A_{kk})$ 。

A、B∈M, 已知，且考虑换位子C=AB-BA. 证明 tr C=0. 考察A=[0 0]和 B=[0 1]，说明换位子不必是幂零矩阵；也就是说，即使一个换位子的各特征值的和肯定为零，它的某些特征值也可以是非零的。
设 $A, B \in M_n, C = AB - BA$ ，且假定 $A$ 与 $C$ 可交换。证明 $C$ 必定是幂零矩阵，试对习题11中的例子作出说明。提示：为什么存在非奇异矩阵 $S \in M_n$ ，使得 $\mathsf{SCS}^{-1} = \mathrm{diag}(C_{11}, C_{22}, \cdots, C_{kk}) \equiv C_1$ ，其中每个 $C_n \in M_n$ 是上三角矩阵， $n_1 + n_2 + \cdots + n_k = n$ ， $\sigma(C_n) = \{\lambda_i\}$ ， $(i = 1, 2, \cdots, k)$ ，且 $\lambda_i \neq \lambda_j$ ， $(i \neq j)$ ？设 $A_1 \equiv \mathsf{SAS}^{-1}$ ， $B_1 \equiv \mathsf{SBS}^{-1}$ ，且把 $A_1 = (A_{ij})$ 和 $B_1 = (B_{ij})$ 写成与 $C_i$ 的分块对角形式同型的分块形式。证明 $A_1C_1 = C_1A_1$ ，然后用习题9证明，只

要 $k > 1$ 且 $i \neq j$ ，就有 $A_{ij} = 0$ 。于是每个 $C_n = A_nB_n$ 和 $B_nA_n$ 有 $\operatorname{tr} C_n = 0$ ，因而 $\lambda_i = 0$ ；而 $k = 1$ 时； $C$ 显然是幂零矩阵。

采用习题9的记号，利用定理(2.4.9)给出如下事实的另一个证明：若 $A$ 与 $B$ 没有公共特征值，则对于每个 $C \in M_{n}$ ，方程 $AX - XB = C$ 有唯一解。提示：考虑用 $T_{1}(X) = AX$ ， $T_{2}(X) = XB$ 定义的线性变换 $T_{1}$ ， $T_{2}: M_{n,m} \to M_{n,m}$ 。证明 $T_{1}$ 与 $T_{2}$ 可交换，由(2.4.9)推出 $T$ 的诸特征值是 $T_{1}$ 和 $T_{2}$ 的诸特征值之差。证明， $\lambda$ 是 $T_{1}$ 的一个特征值当且仅当存在非零 $X \in M_{n,m}$ 使得 $AX - \lambda X = 0$ ，这可以成立当且仅当 $\lambda$ 是 $A$ 的一个特征值[考虑 $X$ 的非零列]。因此 $T_{1}$ 的特征值的集合与 $A$ 相同，同样， $T_{2}$ 的特征值的集合与 $B$ 相同。因而，若 $A$ 与 $B$ 没有公共特征值，则 $T$ 是非奇异的。若 $x$ 是 $A$ 的相应于特征值 $\lambda$ 的一个特征向量，而 $y$ 是 $B^{i}$ 的相应于特征值 $\mu$ 的一个特征向量，考虑 $X = xy^{\Gamma}$ ，证明 $T(X) = (\lambda - \mu)X$ ，由此得出 $T$ 的特征值的集合由 $A$ 的特征值与 $B$ 的特征值的所有可能差组成。
设 $\mathcal{F} = \{A_i : i \in \emptyset \} \subset M_n$ 是一个交换族。证明， $\mathcal{F}$ 在下述意义下可以同时上一角化：其中任意一个给定的成员化简为(2.4.8)中的特殊形式，而其他成员化简成共形分块对角上三角形式。即对于每个给定的 $A_j \in \mathcal{F}$ ，证明，存在一个非奇异的 $S \in M_n$ ，使得对所有的 $i \in \mathcal{F}$ ， $A_i = S \mathrm{diag}(T_1^{(r)}, \dots, T_k^{(r)})S^{-1}$ ，其中，对所有 $j = 1, 2, \dots, k$ ， $n_1 + n_2 + \dots + n_k = n$ ，以及所有 $i \in \mathcal{F}$ ，每个 $T_j^{(r)} \in M_{n_j}$ 是上三角矩阵，而每个 $T_j^{(w)}$ 的所有主对角元为 $\lambda_j$ ，若 $j \neq i$ ，还有 $\lambda_j \neq \lambda_i$ 。提示：选定 $S$ 使得 $S^{-1}A_iS$ 有(2.4.8)中的特殊分块对角上一角形式。注意矩阵族 $\{S^{-1}A_iS : i \in \emptyset\}$ 是交换的。把每个 $S^{-1}A_iS$ 分成与 $S^{-1}A_iS$ 的分块形式共形的分块矩阵，然后利用交换性以及习题9或13的结果（像习题12中那样），证明每个 $S^{-1}A_iS$ 的所有非对角子块一定化为零。现在可以在处于相应对角子块的 $k$ 个族上应用定理(2.3.3)。除了 $S^{-1}A_iS$ 以外，当然不保证 $S^{-1}A_iS$ 的一个对角子块的特征值都相等或不同的对角子块有不相交的谱。

进一步阅读和注释定理(2.4.15)及其推广是由N.H.McCoy证明的，可参看N.H.McCoy，“On the Characteristic Roots of Matrix Polynomials,”Bull. Amer. Math. Soc. 42(1936)，592-600。也可参看T.S.Motzkin and O.Taussky，“Pairs of Matrices with Property L,”Trans.Amer.Math.Soc.73(1952)，108-114，其中讨论了特征值与线性组合的关系。一对A，B∈M有性质L，是指对所有a，b∈C有σ(aA+bB)={α+βj：j=1、…、n}，而定理(2.4.15)的条件称为性质P。显然性质P蕴涵性质L，反之不成立。较弱的性质L尚未彻底弄清楚，但还是知道一些，例如，一对具有性质L的正规矩阵[见(2.5)节]一定可交换，因而一定可同时酉对角化。

2.4_Schur定理的若干推论

2.4 Schur定理的若干推论

2.4.3 例 设

2.4.14 例 设

习题

2.4.3 例设

2.4.14 例设