7._特征子空间的几何意义 - 线性代数

特征子空间的几何意义

由等式 $\boldsymbol{A} \boldsymbol{a}=\lambda \boldsymbol{a}$ 知道, 如果 $\boldsymbol{a}$ 是特征向量, 那么 $k \boldsymbol{a}$ 也是特征向量 (代到等式验算即可知道)。 $k \boldsymbol{a}$ 是一条直线，直线上的所有向量都是对应特征值 $\lambda$ 的特征向量，直线上的特征向量构成特征向量子空间，称之为特征子空间。

当我们把所有对应于 $\lambda$ 的特征向量和零向量放在一起时，它就构成了一个子空间：

包含零向量： $A\mathbf{0} = \lambda \mathbf{0}$ 显然成立。
对加法封闭：如果 $\mathbf{v}_1$ 和 $\mathbf{v}_2$ 都是属于 $V_{\lambda}$ 的向量，那么 $\mathbf{v}_1 + \mathbf{v}_2$ 也在 $V_{\lambda}$ 中。
对数乘封闭：如果 $\mathbf{v}$ 在 $V_{\lambda}$ 中， $k$ 是任意标量，那么 $A(k\mathbf{v}) = k(A\mathbf{v}) = k(\lambda \mathbf{v}) = \lambda (k\mathbf{v})$ ，所以 $k\mathbf{v}$ 也在 $V_{\lambda}$ 中。

因此，特征子空间确实是一个向量子空间。

特征子空间不一定都是直线。如果一个特征值可以对应或求得两个线性无关的特征向量如 $\boldsymbol{a}_1 、 \boldsymbol{a}_2$ , 那么这两个特征向量可以张成一个平面的特征子空间。这个特征平面里的所有向量都是特征向量，因为如果 $\boldsymbol{a}_1 、 \boldsymbol{a}_2$ 满足 $\boldsymbol{A} \boldsymbol{a}=\lambda \boldsymbol{a}$ ，那么平面上任一向量 $k_1 \boldsymbol{a}_1+k_2 \boldsymbol{a}_2$ 也满足此式。

类似地，如果一个特征值对应 $S$ 个线性无关的特征向量就是对应一个 $S$ 维的特征子空间。下面的例子给出了矩阵特征向量的求法及特征向量子空间的几何图形。

例求矩阵

\boldsymbol{A}=\left[\begin{array}{ccc} 4 & 6 & 0 \\ -3 & -5 & 0 \\ -3 & -6 & 1 \end{array}\right]

的特征值及特征向量, 并说明其几何意义。解由矩阵 $\boldsymbol{A}$ 的特征方程:

|A-\lambda E|=\left[\begin{array}{ccc} 4-\lambda & 6 & 0 \\ -3 & -5-\lambda & 0 \\ -3 & -6 & 1-\lambda \end{array}\right]=(\lambda+2)(\lambda-1)^2=0

得到特征值 $\lambda_1=-2, \lambda_2=\lambda_3=1$ 。然后分别求出他的基础解系基础解系求法见此处

①把 $\lambda_1=-2$ 代入式 $(\boldsymbol{A}-\lambda \boldsymbol{E}) \boldsymbol{x}=\mathbf{0}$ 得到齐次线性方程组:

\left\{\begin{array}{l} 6 x_1+6 x_2=0 \\ 3 x_1+3 x_2=0 \\ 3 x_1+6 x_2-3 x_3=0 \end{array}\right.

它的基础解系为 $\xi=\left(\begin{array}{c}-1 \\ 1 \\ 1\end{array}\right)$ 。

所以对应于 $\lambda_1=-2, \boldsymbol{A}$ 的全部特征向量为

x=c \xi=c\left(\begin{array}{c} -1 \\ 1 \\ 1 \end{array}\right) \quad(c \neq 0, c \in R )

如图 5-44 所示, 过向量 $\xi$ 作直线 $L$ , 则以原点 $o$ 为起点, 以 $L$ 上除 $o$ 点以外的任意点为终点的向量 $c \xi$ 都是矩阵 $\boldsymbol{A}$ 的关于特征值-2 的特征向量。它们全体构成 $\boldsymbol{A}$ 的关于特征值-2的特征向量子空间。此向量空间中的任意向量 $\boldsymbol{x}$ 受矩阵 $\boldsymbol{A}$ 作用后成为向量 $-2 \boldsymbol{x}$ , 它仍然位于直线 $L$ 上, 只是方向与 $\boldsymbol{x}$ 相反, 大小为 $\boldsymbol{x}$ 的 2 倍。

$图片$

②把 $\lambda_2=\lambda_3=1$ 代入式 $(A-\lambda E) x=0$ 得到齐次线性方程组:

\left\{\begin{array}{l} 3 x_1+6 x_2=0 \\ 3 x_1+6 x_2=0 \\ 3 x_1+6 x_2=0 \end{array}\right.

它的基础解系为 $\xi_1=\left(\begin{array}{c}-2 \\ 1 \\ 0\end{array}\right), \xi_2=\left(\begin{array}{l}0 \\ 0 \\ 1\end{array}\right)$ 。

所以对应于特征值 $\lambda_2=\lambda_3=1, \boldsymbol{A}$ 的全部特征向量为

\boldsymbol{x}=c_1 \xi_1+c_2 \xi_2=c_1\left(\begin{array}{c} -2 \\ 1 \\ 0 \end{array}\right)+c_2\left(\begin{array}{l} 0 \\ 0 \\ 1 \end{array}\right)

( $c_1, c_2$ 为不同时等于 0 的实数) 特征子空间为一平面, 如图 5-45 所示的平面 $\Pi$ 。

$图片$

如图 5-45 所示, 过向量 $\xi_1, \xi_2$ 作平面 $\Pi$ , 则以原点 $o$ 为起点, 以 $\Pi$ 上除 $o$ 点以外的任意点为终点的向量 $c_1 \xi_1+c_2 \xi_2$ 都是矩阵 $\boldsymbol{A}$ 的关于特征值为 1 的特征向量，它们的全体构成 $\boldsymbol{A}$ 的关于 1 的特征向量子空间。此向量平面空间中的任意一个向量 $\boldsymbol{x}$ 受矩阵 $\boldsymbol{A}$ 作用后没有任何变换，或者说它仍然位于平面 $\Pi$ 上，方向、大小均不改变。

从上例我们已清楚地看到， $\boldsymbol{A}$ 的特征向量空间中位于某直线上的特征向量，受 $\boldsymbol{A}$ 作用后得到的向量有着仍然位于该直线上的几何特征。

以上举的例子都局限于三维线性空间，同样可推广到 $n$ 维线性空间。因此，对于某一个特征值，其特征空间可以是一条直线，也可以是一个平面，亦或是更高维的空间。

特征值的代数及几何重数的意义

上面的例子里，在特征多项式方程 $|\boldsymbol{A}-\lambda \boldsymbol{E}|=(\lambda+2)(\lambda-1)^2=0$ 中，特征值为 -2 的求解因子式 $(\lambda+2)$ 是一次的，对应的特征子空间——直线的维数是一维的；特征值为 1 的求解因子式 $(\lambda-1)^2$ 是二次的，对应的特征子空间——平面的维数是二维的。

这里有个术语, 一个特征值的求解因式的次数被称之为代数重数, 特征值的特征子空间的维数被称之为几何重数。

所以上节矩阵例子里, 特征值-2 的代数重数和几何重数都是 1 ；特征值 1 的代数重数和几何重数都是2。

那我们能否得出代数重数和几何重数是相等的呢？这个结论对一般的矩阵成立吗？答案是不一定成立。

正确的结论是, 特征值的代数重数大于或等于几何重数。

因为有时候代数重数 $\geqslant 2$ 的特征值，它的特征向量子空间会亏损——子空间会重合，子空间重合不是子空间直和，所以特征子空间的维数会变小，也就是几何重数可能 $\leqslant 2$ 。

举个例子。对于三角矩阵:

\boldsymbol{A}=\left[\begin{array}{ll} a & 1 \\ 0 & b \end{array}\right]

$a$ 的特征向量子空间是 $k\binom{1}{0}$ , 这是一条直线 $-x_1$ 坐标轴; $b$ 的特征向量子空间是 $k\binom{1}{b-a}$ ,这也是一条直线。 $a$ 和 $b$ 的代数重数和几何重数都是 1 。

然而, 当 $b$ 的值逐渐接近于 $a$ 的值, 即 $b \rightarrow a$ 时, $b$ 的特征向量子空间逐渐接近于 $a$ 的特征向量子空间, 即 $k\binom{1}{b-a} \rightarrow k\binom{1}{0}$ 。

当 $b$ 等于 $a$ 时, 特征值合二为一, 同时特征子空间也合二为一一一两根线重合为一根线,特征子空间亏损了。这时, 矩阵特征值的重数为 2 , 但特征子空间的维数仍然是 1 , 即几何重数是 1 。

一个极端的例子是 $n$ 阶三角矩阵:

\left[\begin{array}{lllll} a & 1 & & & \\ & a & 1 & & \\ & & \ddots & \cdots & \\ & & & a & a \\ & & & & a \end{array}\right]

这个矩阵只有一个特征值 $a$ , 代数重数为 $n$ , 其特征子空间是一根直线 (即 $x_1$ 轴), 几何重数是1

理解：从坐标空间变换理解代数重根和几何重根

代数重数：就是特征多项式的根的重数，即 $\operatorname{det}\left(\lambda I _n- A \right)=\left(\lambda-\lambda_1\right)^{m_1}\left(\lambda-\lambda_2\right)^{m_2} \cdots\left(\lambda-\lambda_s\right)^{m_s}$ 的解。

几何重数，是特征矩阵 $(|\lambda E-A|)$ 零空间的维数

情况1：在前面，我们说过，给一个矩阵 $A$ ，相当于找一个比较好的“坐标基”来表示变换。以三阶矩阵为例，假设有一个矩阵 $A$ ，他有三个不同的特征值，自然有3个线性无关的特征向量，因此，我们直接使用这3个特征向量作为新的坐标基即可。（因为特征值不同，意味着多项式不同，所以代数重根肯定等于几何重根）

情况2：再有矩阵 $A$ 找新坐标基的过程中，其实隐含这一个条件：那就是 $A$ 本身就是张成三维空间。我们举一个极端的例子：假设矩阵 $A$ ，他的值为

A= \left[\begin{array}{lll} 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \\ \end{array}\right]

不难发现，这个矩阵就是一个向量，他本身就无法扩张成三维空间，又凭什么认为他能生成新的坐标基呢？

如果我们解 $A$ 的特征方程，他的代数重根比如是3，而向量维度数为1，自然不能对角化。

$图片$ {width=200px}

下面这个例子也可以进一步解释：

A= \left[\begin{array}{lll} 1 & 3 & 10 \\ 2 & 4 & 8 \\ 0 & 0 & 0 \\ \end{array}\right]

不难发现，矩阵A的3个列向量的第三个维度的值都为0，所以，这3个向量都在一个平面如，自然也无法扩张成三维空间。

因此，一个正确的结论是：

如果矩阵A的 $n$ 个特征值都不相同，那么A必然存在 $n$ 个线性无关的特征向量（A能够被对角化）, 如果存在相同的特征值，可能存在也可能不存在 $n$ 个线性无关特质向量。因为n个特征值不一定含n个特征向量。即如果存在n个线性无关的特征向量，则能够对角化；如果不存在n个线性无关的特征向量，则不能对角化。(几何重数小于代数重数)

下面通过两个例题说明，因为在前面已经介绍了求特征值的方法，因此，这里给出简略解答。

例 判断 $A=\left[\begin{array}{ccc}1 & -1 & 1 \\2 & -2 & 2 \\-1 & 1 & -1\end{array}\right]$ 是否可对角化？

解：可以得到他的代数多项式是

\lambda^2(\lambda+2)=0 \Rightarrow\left\{\begin{array}{l} \lambda_1=\lambda_2=0 \\ \lambda_3=-2 \end{array}\right.

然后可以得到他的3个特征向量，组成一个矩阵为

P=\left[\begin{array}{ccc} 1 & -1 & -1 \\ 1 & 0 & -2 \\ 0 & 1 & 1 \end{array}\right]

所以，可以对角化，且

P^{-1} A P=\Lambda=\left[\begin{array}{lll} 0 & & \\ & 0 & \\ & 0 & -2 \end{array}\right]

例 判断 $A=\left|\begin{array}{ccc}5 & -1 & -1 \\3 & 1 & -1 \\4 & -2 & 1\end{array}\right|$ 是否可以对角化？

解:他的代数多项式

(3-\lambda)(2-\lambda)^2 \Rightarrow\left\{\begin{array}{l} \lambda_1=3 \\ \lambda_2=\lambda_3=2 \end{array}\right.

① 当 $\lambda=3$ ，其特征向量是

p_1=\left(\begin{array}{l} 1 \\ 1 \\ 1 \end{array}\right)

②当 $\lambda=2$ ，其特征向量是

p_2=\left(\begin{array}{l} 1 \\ 1 \\ 2 \end{array}\right)

可以看到他只有2个特征向量，因此无法对角化。

Q: 如何理解矩阵的不同特征值所对应的特征向量的线性无关性

A:我们知道矩阵的任一特征值 $\lambda$ 所对应的全体特征向量 $V_\lambda=\{ \alpha \mid A \alpha =\lambda \alpha \}$ 构成一个线性空间，称为特征子空间．通常的线性代数教材都会给出如下结论：

定理1 设 $A$ 是 $n$ 阶方阵， $\alpha _1, \alpha _2, \cdots, \alpha _s$ 是分别属于互异特征值 $\lambda_1, \lambda_2, \cdots, \lambda_s$ 的特征向量，则 $\alpha _1, \alpha _2, \cdots, \alpha _s$ 线性无关．

较定理 4．6．1 更一般的结论是定理2 设 $A$ 是 $n$ 阶方阵， $\lambda_1, \lambda_2, \cdots, \lambda_s$ 是 $A$ 的互异特征值，若 $\alpha _{i 1}, \cdots, \alpha _{i r_i}(i=1,2, \cdots, s)$ 是属于 $\lambda_i$ 的线性无关的特征向量，则 $\alpha _{11}, \cdots, \alpha _{1 r_1}$ ， $\alpha _{21}, \cdots, \alpha _{2 r_2}, \cdots, \alpha _{s 1}, \cdots, \alpha _{s r_s}$ 线性无关。

上面两定理用特征子空间的语言来描述便是

$1^{\circ}$ 从不同特征子空间中各取一个非零向量所构成的向量组是线性无关的； $2^{\circ}$ 从不同特征子空间中各取一组线性无关的向量，则全体向量构成的向量组是线性无关的．