1.2 特征多项式

关于 $A \in M_{n}$ 的特征值，一个自然要问到的问题是： $A$ 有多少特征值？可以怎样来描述它们的特征？

特征值-特征向量方程(1.1.3)可以等价地改写成

(\lambda I - A) x = 0, \quad x \neq 0. \tag {1.2.1}

因而， $\lambda \in \sigma (A)$ ，当且仅当 $\lambda I - A$ 是奇异方阵，即

\det (\lambda I - A) = 0. \tag {1.2.2}

1.2.3 定义 $A \in M_{n}$ 的特征多项式定义为

p _ {A} (t) \equiv \det (t I - A),

把它看作 $t$ 的形式多项式

注意用 $t$ 作为特征多项式的形式变元，为的是把它和一般的特征值或多项式的零点 $\lambda$ 区别开来。在其他地方，有时用同一个符号表示它们。

1.2.4 论断如果 $A \in M_{n}$ , 则特征多项式 $p_{A}(\cdot)$ 的次数为 $n$ , 并且 $p_{A}(t) = 0$ 的根的集合就是 $\sigma(A)$ .

证明： $p_A(\cdot)$ 有次数 $n$ 可以归纳地从 $\operatorname{det}(tI - A)$ 的Laplace展开式推出：当行列式展开时， $tI - A$ 的每一行仅提供 $t$ 的一次幂。第二个论断与(1.1.3)和(1.2.2)等价。

练习证明， $\operatorname{det}(A - tI) = 0$ 与 $\operatorname{det}(tI - A) = 0$ 有相同的根，并且证明， $\operatorname{det}(A - tI) = (-1)^n \operatorname{det}(tI - A)$ 。因此，特征多项式又可以（并且有时就）定义为 $\operatorname{det}(A - tI)$ ，证明所定义的特征多项式保证 $t^n$ 的（首项）系数总是 $+1$ 。

练习如果 $A = \begin{bmatrix} a & b \\ c & d \end{bmatrix}$ ，证明 $p_A(t) = t^2 - (a + d)t + (ad - bc)$ ，且

\sigma (A) = \left\{\frac {a + d \pm \sqrt {(a - d) ^ {2} + 4 b c}}{2} \right\}.

设 $A \in M_2(\mathbf{R})$ ，证明，如果 $bc \geqslant 0$ ，则 $A$ 的特征值是实数．此外，它们是实数，当且仅当 $(a - d)^2 + 4bc \geqslant 0$ ，如果不是实数，则成复共轭对出现．最后证明，如果 $(a - d)^2 + 4bc \neq 0$ ，则特征值不相同.

在某些一般的情形，矩阵的特征值是容易看出来的。最常见的是因矩阵的形状而使行列式容易计算的情形。其中包括对角矩阵、三角矩阵和一些其他特殊情形。

练习证明，如果 $T \in M_{n}$ 是三角矩阵

T = \left[ \begin{array}{c c c} t _ {1 1} & \dots & t _ {1 n} \\ & \ddots & \vdots \\ 0 & & t _ {m n} \end{array} \right],

那么 $\sigma (T) = \{t_{11},t_{22},\dots ,t_{m}\}$ ，即 $T$ 的诸对角元之集.

练习设矩阵 $J_{n} \in M_{n}$ 的每个元都等于1：

J _ {n} = \left[ \begin{array}{c c c c} 1 & 1 & \dots & 1 \\ \vdots & \ddots & & \vdots \\ 1 & \dots & & 1 \end{array} \right].

$J_{2}$ 的特征值是什么？证明0（出现两次）和3是 $J_{3}$ 仅有的特征值，由此类推， $J_{n}$ 的特征值是什么？提示：考虑向量 $\pmb {e} = [1,1,\dots ,1]^T$

练习确定矩阵

A = \left[ \begin{array}{r r r} 3 & - 1 & - 1 \\ - 1 & 3 & - 1 \\ - 1 & - 1 & 3 \end{array} \right]

的所有特征值和相应的特征向量. 提示: 利用前一个练习, 并写出 $A = 4I - J_{3}$ .

1.2.5 定义从(0.7.1)可知， $A \in M_n$ 的 $k \times k$ 主子矩阵是位于有相同指标的 $k$ 个行和 $k$ 个列的子矩阵，而 $k \times k$ 主子式是这个主子矩阵的行列式。 $A = [a_{ij}]$ 有 $\binom{n}{k}$ 个不同的 $k \times k$ 主子式，用 $E_i(A)$ 表示这些子式的和。特别地， $E_i(A) = \sum_{i=1}^{n} a_i$ 称为 $A$ 的迹，通常记作 $\operatorname{tr} A$ 或 $\operatorname{trace} A$ 。注

意， $E_{n}(A) = \operatorname{det} A.$

练习如果 $A \in M_2$ ，证明 $p_A(t) = t^2 - (\operatorname{tr} A)t + \det A$ ，且 $\sum_{\lambda \in \sigma(A)} \lambda = \operatorname{tr} A$ 和 $\prod_{\lambda \in \sigma(A)} \lambda = \det A$ .

一个基本的，但并非显易的事实是，复系数 $n$ 次多项式在复数范围内恰好有 $n$ 个零点（重零点按重数计算），称这个事实为代数基本定理(附录C)．由此，可得到如下重要论断.

1.2.6 论断每个矩阵 $A \in M_{n}$ 在复数范围内恰好有 $n$ 个特征值（重特征值按重数计算）.

注意这里，当提及 $A \in M_{n}$ 的一个特征值的“重数”时，就可简单地理解为 $\lambda$ 作为特征多项式 $p_{A}(\cdot)$ 一个零点所出现的次数。更全面地讨论特征值的重数将放到(1.4)节，不过，知道多项式的各阶导数与该多项式的一个零点的重数之间有一定的关系是有用的。多项式 $p(t)$ 有 $\lambda$ 作为 $k \geqslant 1$ 重零点，当且仅当 $p(t)$ 可写成 $p(t) = (t - \lambda)^{k} q(t)$ 的形式，其中 $q(t)$ 是使 $q(\lambda) \neq 0$ 的多项式。微分这个恒等式就得到 $p'(t) = k(t - \lambda)^{k} q(t) + (t - \lambda)^{k} q'(t)$ ，并且从这个表示式可以看出， $p'(\lambda) = 0$ ，当且仅当 $k > 1$ 。如果 $k > 1$ ， $p''(t) = k(k - 1)(t - \lambda)^{k} q(t)$ 每一项含有一个因式 $(t - \lambda)^{m}$ 的多项式，其中 $m \geqslant k - 1$ 。于是， $p''(\lambda) = 0$ ，当且仅当 $k > 2$ 。重复上述计算便可证明， $\lambda$ 是 $p(t)$ 的 $k$ 重零点，当且仅当 $p(\lambda) = p'(\lambda) = \cdots = p^{(k-1)}(\lambda) = 0$ ，而 $p^{(k)}(\lambda) \neq 0$ 。

1.2.7 例命题(1.2.6)与以下事实密切相关：复数域是代数闭域，也就是，每个系数在该域中的 $n$ 次多项式在该域中有 $n$ 个零点。对于其他域上的矩阵，例如实数域或有理数域，一般几乎不能说出一个矩阵在该域上有多少特征值。但是，再看一看(1.1)节的习题8，它却是能说出特征值的某些情况的一个例子。在任意域的情形，一个矩阵也可能根本没有不同的特征值。矩阵

\left[ \begin{array}{l l} 0 & 1 \\ - 1 & 0 \end{array} \right] \tag {1.2.7a}

的所有元尽管都是实数，但它没有实特征值，矩阵

\left[ \begin{array}{c c c c c c} 1 & 1 & & & 0 \\ & 1 & 1 & & \\ & & 1 & 1 & \\ & & & \ddots & \ddots \\ & & & & 1 \\ 0 & & & & 1 \end{array} \right] \tag {1.2.7b}

不管它是几阶，也只有一个特殊的特征值（ $n$ 重特征值1）

练习验证(1.2.7)中的论断

练习如果 $A \in M_n(\mathbb{R})$ ，且 $n$ 为奇数，证明 $A$ 至少有一个实特征值。提示：一个实系数多项式的任何非实复零点，必须成共轭对出现，并且注意到，如果 $A \in M_n(\mathbb{R})$ ，那么 $p_A(\cdot)$ 有实系数。

根据(1.2.6)，可以把 $A \in M_{n}$ 的特征值排成

\lambda_ {1}, \lambda_ {2}, \dots , \lambda_ {n},

其中的顺序是任意的，并且按其重数重复这些特征值。于是，因为(1.2.4)，我们得知

p _ {1} (t) = (t - \lambda_ {1}) (t - \lambda_ {2}) \dots (t - \lambda_ {n}). \tag {1.2.8}

1.2.9 定义 $n$ 个数 $\lambda_1, \dots, \lambda_n, k \leqslant n$ ，的 $k$ 次初等对称函数是

S _ {k} \left(\lambda_ {1}, \dots , \lambda_ {n}\right) \equiv \sum_ {1 \cdot \lambda_ {1} \cdot \dots \cdot \lambda_ {k} \cdot n} \prod_ {j = 1} ^ {k} \lambda_ {j},

它是所有 $\binom{n}{k}$ 个取自 $\lambda_{1}, \ldots, \lambda_{n}$ 的不同项的 $k$ 次乘积之和.

例如， $S_{1}(\lambda_{1}, \cdots, \lambda_{n}) = \lambda_{1} + \cdots + \lambda_{n}$ 是诸 $\lambda_{i}$ 的和，而 $S_{n}(\lambda_{1}, \cdots, \lambda_{n}) = \lambda_{1} + \cdots + \lambda_{n}$ 是诸 $\lambda_{i}$ 的乘积。因为(1.2.8)以及 $p_{k}(t)$ 是用某个行列式定义的，在矩阵 $A$ 的特征值的初等对称函数 $S_{k}(\lambda_{1}, \cdots, \lambda_{n})$ 与 $A$ 的各 $k \times k$ 主子式的和 $E_{k}(A)$ (1.2.5)之间存在某种关系，以下两个恒等式是显然的，费点功大便可验证：

\begin{array}{l} (t - \lambda_ {1}) \dots (t - \lambda_ {n}) - t ^ {n} - S _ {1} (\lambda_ {1}, \dots , \lambda_ {n}) t ^ {n - 1} + S _ {2} (\lambda_ {1}, \dots , \lambda_ {n}) t ^ {n - 2} \\ \dots \perp S _ {n} \left(\lambda_ {1}, \dots , \lambda_ {n}\right), \tag {1.2.10} \\ \end{array}

以及

p _ {1} (t) - t ^ {n} - E _ {1} (A) t ^ {n - 1} \quad E _ {2} (A) t ^ {n ^ {2}} - \dots \pm E _ {n} (A). \tag {1.2.11}

练习验证(1.2.10)和(1.2.11). 前者可以通过计算乘积 $(t - \lambda_1)(t - \lambda_2)\dots (t - \lambda_n)$ 中 $t^{n-k}$ 的系数来直接验证, 后者可用 Laplace 展开式归纳地验证.

综合（1.2.10）、（1.2.11）和（1.2.8），有下面的定理

1.2.12 定理如果 $\lambda_1, \dots, \lambda_n$ 是 $A \in M_n$ 的特征值，那么

S _ {k} \left(\lambda_ {1}, \dots , \lambda_ {n}\right) = E _ {k} (A).

$A$ 的特征值的 $k$ 次初等对称函数是 $A$ 的各 $k \times k$ 主 $f$ 式之和。特别地

\operatorname {t r} A - \sum_ {1} ^ {n} \lambda_ {1}

和

\det A = \prod_ {i = 1} ^ {n} \lambda_ {i}.

习题

用(1.2.12)验证(1.1.7).
对于矩阵 $A \in M_{m,n}$ 和 $B \in M_{n,m}$ [见(0.2.1)]，通过直接计算证明 $\operatorname{tr} AB = \operatorname{tr} BA$ 。再用这个事实证明，对 $A \in M_n$ 和非奇异矩阵 $S \in M_n$ ， $\operatorname{tr} S^{-1} AS = \operatorname{tr} A$ 。矩阵 $S^{-1} AS$ 称为 $A$ 的相似矩阵。上述结果说明，迹是相似不变量。相似性是下一节的主题，并且将会看到，所有主子式之和 $E_k(A)$ 都是相似不变量。注意，因为乘法性质，行列式显然是相似不变量。
如果 $D \in M_{n}$ 是对角矩阵，计算特征多项式 $p_{D}(t)$ ，并证明 $p_{D}(D) = 0$
设 $A \in M_{n}$ , 设 $A_{i} = A(\{i\})' \in M_{n-1}$ 是划去 $A$ 的第 $i$ 行和第 $i$ 列后所得到的 $A$ 的主子矩阵, $i=1, \cdots, n$ . 证明

\frac {\mathrm {d}}{\mathrm {d} t} p _ {1} (t) - \sum_ {i = 1} ^ {n} p _ {A _ {i}} (t). \tag {1.2.13}

回忆前一节的习题 6, 证明幂零矩阵的迹为 0. 幂零矩阵的特征多项式是什么?
如果 $\lambda \in \sigma(A)$ 是 $p_A(t) = 0$ 的单重根， $A \in M_n$ ，证明， $\operatorname{rank}(A - \lambda I) = n - 1$ ，但反过来不一定成立[想一想例(1.2.7b)]。提示：利用(1.2.13)和 $t = \lambda$ 时 $(\mathrm{d} / \mathrm{d}t)p_A(t) \neq 0$ 推出， $A - \lambda I$ 的各个 $n - 1$ 阶主子矩阵是非奇异的。
用(1.2.12)确定矩阵

\left[ \begin{array}{c c c c c} 1 & 1 & 0 & 0 & 0 \\ 1 & 1 & 1 & 0 & 0 \\ 0 & 1 & 1 & 1 & 0 \\ 0 & 0 & 1 & 1 & 1 \\ 0 & 0 & 0 & 1 & 1 \end{array} \right]

的特征多项式. 考虑如何利用这个方法计算一般的 $n \times n$ 三对角矩阵(0.9.10)的特征多项式

如果 $A \in M_{n}$ , $\sigma(A) = \{\lambda_{1}, \dots, \lambda_{n}\}$ , 假定 $\sigma(A^{k}) = \{\lambda_{1}^{k}, \dots, \lambda_{n}^{k}\}$ . 证明对所有正整数 $k$

\operatorname {t r} A ^ {k} = \sum_ {i = 1} ^ {n} \lambda_ {i} ^ {k}.

等式右边的和称为 $A$ 的诸特征值的 $k$ 次矩，由(2.3.1)知，所作假设成立。

直接计算 $S_{2}(\lambda_{1}, \cdots, \lambda_{6}), S_{3}(\lambda_{1}, \cdots, \lambda_{5}), S_{4}(\lambda_{1}, \cdots, \lambda_{6})$ 和 $S_{5}(\lambda_{1}, \cdots, \lambda_{6})$ .
设 $V$ 是域 $\mathbf{F}$ 上的向量空间。线性变换 $T: V \to V$ 的特征值是纯量 $\lambda \in \mathbf{F}$ ，使得有一个非零向量 $\nu \in V$ ，适合 $T\nu = \lambda \nu$ 。证明，如果 $\mathbf{F}$ 是复数域，且 $V$ 是有限维的，则每个线性变换 $T$ 有一个特征值。给出例子说明，如果其中一个假设条件（ $V$ 的有限维性质或 $\mathbf{F} = \mathbf{C}$ ）减弱，那么 $T$ 可能没有任何特征值。提示：设 $\mathcal{A}$ 是 $V$ 的基，并考虑 $[T]_{\lambda}$ 。
设 $p(t) - a_{n}t^{n} + a_{n-1}t^{n-1} + \cdots + a_{1}t + a_{0}$ ， $a_{n} = 1$ ，是给定的首系数为 1 的多项式，具有零点 $\lambda_{1}, \lambda_{2}, \cdots, \lambda_{n}$ （计相重零点）。诸零点的 $k$ 次矩记作 $\mu_{k} = \lambda_{1}^{k} + \lambda_{2}^{k} + \cdots + \lambda_{n}^{k}$ ， $k = 1, 2, \cdots$ 。证明 Newton 恒等式

k a _ {n k} + \mu_ {1} a _ {n - k - 1} + \mu_ {2} a _ {n - k - 1} + \dots + \mu_ {k} a _ {n} = 0, k = 1, 2, \dots , n. \tag {1.2.14}

说明为什么诸零点的前几个矩唯一地确定多项式 $p(t)$ 的诸系数（因而确定诸零点），反之亦然。提示：证明，对某个 $R > 0$ ，如果 $|t| > R$ ，那么 $(t - \lambda_t)^{-1} = t^{-1} + \lambda_t t^{-2} + \lambda_t^2 t^{-3} + \dots$ ，因而

f (t) = \sum_ {i = 1} ^ {n} \left(t - \lambda_ {i}\right) ^ {- 1} = n t ^ {- 1} + \mu_ {1} t ^ {- 2} + \mu_ {2} t ^ {\circ} + \dots , \quad | t | > R.

证明 $p^{\prime}(t) = p(t)f(t)$ ，据此，Newton恒等式以及关于较高次矩的另一恒等式

\mu_ {k} a _ {v} + \mu_ {k - 1} a _ {i} + \dots + \mu_ {n - k - 1} a _ {n - 1} + \mu_ {n - k} a _ {n} = 0, \quad k = 1, 2, \dots

可以通过比较系数推出.

设 $A, B \in M_{n}$ 是给定的矩阵。证明， $A$ 和 $B$ 的特征值相同，当且仅当 $\operatorname{tr} A^{k} = \operatorname{tr} B^{k}$ ， $k = 1, 2, \cdots, n$ 。提示：利用习题8和Newton恒等式(1.2.14)证明 $A$ 和 $B$ 的特征多项式相同。

1.2_特征多项式

1.2 特征多项式