1.4_特征向量

1.4 特征向量

迄今为止,已经着重讨论了 AMnA \in M_{n} 的特征值,也讨论了相应的特征向量。特征向量不仅在对角化中起重要作用,而且在各种应用中也有它们的用场。为此还要较深入地讨论特征向量。不过先从关于特征值的另一个论断开始。

1.4.1 论断 设 AMnA \in M_{n} , 那么, (a) AA^{\top}AA 有相同的特征值(重特征值按重数计算). (b) AA^{\prime} 的特征值是 AA 的特征值的复共轭(重特征值按重数计算).

证明:因为 det(tIAT)=det(tIA)T=det(tIA)\operatorname{det}(tI - A^T) = \operatorname{det}(tI - A)^T = \operatorname{det}(tI - A) ,所以 pAT(t)=pA(t)p_A^T(t) = p_A(t) 。因而(a)得证。类似地, det(tˉIA)=det[(tIA)]det(tIA)\operatorname{det}(\bar{t}I - A^*) = \operatorname{det}\left[(tI - A)^*\right] - \overline{\operatorname{det}(tI - A)} ,由此推知 pA(tˉ)=pA(t)p_A \cdot (\bar{t}) = \overline{p_A(t)} 。因而(b)得证。

练习 如果 x,yCnx, y \in \mathbf{C}^n 都是 AA 的相应于特征值 λ\lambda 的特征向量,证明 xxyy 的任一非零线性组合也是相应于 λ\lambda 的特征向量。由此得出,属于某个特征值 λσ(A)\lambda \in \sigma(A) 的所有特征向量连同零向量组成的集合是 Cn\mathbf{C}^n 的一个子空间。

练习 说明在上述练习中所描述的子空间恰好是 AλIA - \lambda I 的零空间.

1.4.2 定义 设 AMnA \in M_{n} 。对于给定的 λσ(A)\lambda \in \sigma(A) ,满足 Ax=λxAx = \lambda x 的所有向量 xCnx \in \mathbf{C}^{n} 的集合称为 AA 的相应于特征值 λ\lambda 的特征空间,注意,这个特征空间的每个非零元素是 AA 的相应于 λ\lambda 的一个特征向量。

练习 证明, AA 的相应于特征值 λ\lambda 的特征空间是 AA -不变子空间,但是,反之不成立。证明一个极小的 AA -不变子空间(不真包含较低维的非平凡 AA -不变子空间)是单独由 AA 的一个特征向量生成的。提示:运用(1.3.17)之前的练习。

如果知道 AMnA \in M_{n} 的一个特征值,一个计算相应特征向量的方法是解线性方程组

(AλI)x=0.(A - \lambda I) x = 0.

这个方程组从理论上看是简单的,而实用上未必行之有效。这个方程组的所有解的集合组成特征空间。

1.4.3 定义 AMnA \in M_{n} 的相应于特征值 λ\lambda 的特征空间的维数称为特征值 λ\lambda 的几何重数。 λ\lambda 作为特征多项式 p1()p_{1}(\cdot) 的零点的重数(至此,已经涉及了重数概念)称为特征值 λ\lambda 的代数重数,一般说来,这两个概念是不同的。在述及特征值时,如果不加限制地使用术语重数,那通常指的是代数重数。我们将采用这个约定。

应该指出的是,几何重数正好是相应于某个特征值的线性无关特征向量的最大个数。

练习 证明, AMnA \in M_n 的一个特征值的几何重数不大于,且可能小于它的代数重数。如果代数重数至少是1,那么几何重数至少是1。提示:假定 λ\lambda 的几何重数是 kk ,且设 SMnS \in M_n 是以 AA 的相应于 λ\lambda 的线性无关特征向量为其前 kk 个列的非奇异矩阵。采用类似于(1.3.7)中所用过的证法,证明 S1ASS^{-1}AS 有形式 [λI0]\left[ \begin{array}{lll}\lambda I & *\\ 0 & * \end{array} \right]IMkI \in M_k ,因而得出结论, λ\lambda 的代数重数至少是 kk

1.4.4 定义 如果矩阵 AMnA \in M_{n} 的某个特征值的几何重数严格小于其代数重数,就称 AA 是亏损的。如果每个特征值的几何重数都和其代数重数相同,就称 AA 是非亏损的。如果 AMnA \in M_{n} 的每个特征值恰好有几何重数 1(不考虑代数重数),就称 AA 是非减次的。所有这些概念都是经典的,它们在某些场合被广泛采用。

我们指出,一个非减次的、非亏损的矩阵就是一个具有互不相同的特征值的矩阵。另外,矩阵 AMnA \in M_{n} 可对角化,当且仅当 AA 是非亏损的。这只是重述(1.3.7),它突出了每个特征值有足够多的相应线性无关特征向量的必要性。

1.4.5 例 尽管 AAATA^T 有相同的特征值,但是它们的相应于某个特征值的特征向量可能完全不同。例如,设

A=[2301].A = \left[ \begin{array}{c c} 2 & 3 \\ 0 & 1 \end{array} \right].

那么, AA 的相应于特征值2的(一维)特征空间由 [10]\left[ \begin{array}{l}1\\ 0 \end{array} \right] 生成,而 AA^{\dagger} 的相应特征空间由 [13/2]\left[ \begin{array}{c}1\\ 3 / 2 \end{array} \right] 生成.

练习 验证(1.4.5)的细节.

很明显,迄今所阐述的特征值和征向量的理论,可以平行地对左乘以行向量来进行阐述。诸特征值将会相同,但诸特征向量一般不同(即使考虑到行对应于列)。

1.4.6 定义 非零向量 yCn\mathbf{y} \in \mathbb{C}^{n} 称为 AMnA \in M_{n} 的相应于 λσ(A)\lambda \in \sigma(A) 左特征向量,是指

yA=λy.y ^ {*} A = \lambda y ^ {*}.

如果有必要明确,就称(1.1.3)中的向量为右特征向量,当上下文不要求区别时,就只说特征向量。

练习 证明,相应于 AMnA \in M_n 的特征值 λ\lambda 的左特征向量 yyAA^* 的相应于 λˉ\bar{\lambda} 的右特征向量。

同时 yyAiA^i 的相应于 λ\lambda 的右特征向量。用例子说明,即使对于 AMn(R)A \in M_n(\mathbf{R}) ,左特征向量和右特征向量也未必相同。

从(0.6.2)可知,两个向量 x,yCnx, y \in \mathbb{C}^n 称为正交,是指 yx=0y^{*}x = 0 。下面的结果称为双正交原理。

1.4.7 定理 如果 AMnA \in M_{n} , 且 λ,μσ(A),λμ\lambda, \mu \in \sigma(A), \lambda \neq \mu , 那么 AA 的相应于 μ\mu 的任一左特征向量与 AA 的相应于 λ\lambda 的任一右特征向量正交.

证明:设 yCny \in \mathbf{C}^nAA 的相应于 μ\mu 的左特征向量,而 xCnx \in \mathbf{C}^nAA 的相应于 λ\lambda 的右特征向量,用两种方式计算, yAxy^{*}Ax

yAx=y(λx)=λ(yx)(μy)x=μ(yx).\begin{array}{l} y ^ {\prime} A x = y ^ {\prime} (\lambda x) = \lambda (y ^ {\prime} x) \\ - (\mu y ^ {*}) x = \mu (y ^ {*} x). \\ \end{array}

因为 λμ\lambda \neq \mu ,所以 λyx=μyx\lambda y^{*}x = \mu y^{*}x 的唯一可能方式是 yx=0y^{*}x = 0 ,即 xxyy 正交.

练习 如果 A=AMnA^* = A \in M_n ,即 AA 是Hermite 矩阵,且 AA 有互不相同的特征值,证明存在 AAnn 个两两正交的(右)特征向量。从(1.1)节习题8可知, AA 的特征值都是实数。提示:因为 A=AA^* = A ,左特征向量与右特征向量相同。应用(1.4.7)。

在下一章将看到,在上述练习的陈述中,关于互不相同的特征值的假定是不必要的。

下面要指出,特征向量在相似下的变换方式是简单的,而特征值当然在相似下不变。

1.4.8 定理 设 A,BMnA, B \in M_{n} . 如果 xCnx \in \mathbf{C}^{n} 是相应于 λσ(B)\lambda \in \sigma(B) 的特征向量,且 BBSSAA 相似,那么 SxSxAA 的相应于特征值 λ\lambda 的特征向量.

证明:如果 B=S1ASB = S^{-1}AS ,且 Bx=λxBx = \lambda x ,那么 S1ASx=λxS^{-1}ASx = \lambda x ,或 ASx=λSxASx = \lambda Sx 。因为 SS 非奇异,且 λ0\lambda \neq 0 ,所以 Sx0Sx \neq 0 ,因而 SxSxAA 的特征向量。

练习 验证 e=[1,1,1]Te = [1, 1, 1]^T

A÷[123321231]A \div \left[ \begin{array}{l l l} 1 & 2 & 3 \\ 3 & 2 & 1 \\ 2 & 3 & 1 \end{array} \right]

的特征向量.如果 D=diag(1,2,3)D = \mathrm{diag}(1,2,3) ,确定 D1ADD^{-1}AD 的一个分量全为正的特征向量.

作为本节的最后一个结论,我们指出,可以利用特征向量得到有关主于矩阵的特征值的结果。这个结果为一个特征值的几何重数与代数重数之间的不等式提供了又一个证明。

1.4.9 定理 设 AMnA \in M_{n}λC\lambda \in \mathbb{C} 已知,又设 k1k \geqslant 1 是某个正整数。考虑下列三个命题:

(a) λ\lambda 是几何重数至少为 kkAA 的特征值.
(b) 如果 A^Mm\hat{A} \in M_{m}AA 的一个主子矩阵且 m>nkm > n - k , 那么 λ\lambdaA^\hat{A} 的特征值.
(c) λ\lambda 是代数重数至少为 kkAA 的特征值.

那么,(a)蕴涵(b),而(b)蕴涵(c).特别是,特征值的代数重数至少等于它的几何重数.

证明:假定(a)成立,且设 A^Mm\hat{A} \in M_{m}AA 的阶数为 m>nkm > n - k 的主子矩阵。因为可以运用置换相似和(1.4.8),所以不妨假定 A^\hat{A} 出现在 AA 的左上角。设 v1,,vkv_{1}, \cdots, v_{k}AA 的相应于特征值 λ\lambda 的线性无关特征向量。把 AA 和每个 viv_{i} 块分成

A=[A^],A^Mm;A = \left[ \begin{array}{c c} \hat {A} & * \\ * & * \end{array} \right], \quad \hat {A} \in M _ {m};
vi=[u1wi],uiCm,wiCnm,i=1,2,,k.v _ {i} = \left[ \begin{array}{l} u _ {1} \\ w _ {i} \end{array} \right], \quad u _ {i} \in \mathbf {C} ^ {m}, \quad w _ {i} \in \mathbf {C} ^ {n - m}, \quad i = 1, 2, \dots , k.

因为向量 w1,,wkw_{1}, \cdots, w_{k} 是维数为 nm<n(nk)=kn - m < n - (n - k) = k 的空间中的 kk 个向量,所以它们是相关的;因而存在不全为零的纯量 α1,,αkC\alpha_{1}, \cdots, \alpha_{k} \in \mathbb{C} ,使得 α1w1++αkwk=0\alpha_{1}w_{1} + \cdots + \alpha_{k}w_{k} = 0 。于是 vα1v1++αkvk=[u0]0v \equiv \alpha_{1}v_{1} + \cdots + \alpha_{k}v_{k} = \begin{bmatrix} u \\ 0 \end{bmatrix} \neq 0 ,其中 u=α1u1++αkuk0u = \alpha_{1}u_{1} + \cdots + \alpha_{k}u_{k} \neq 0 ,且 Av=λvAv = \lambda v 。把这个等式写成分块形式便得到

Av=[A^][u0]=[A^u]=λv=[λu0].A v = \left[ \begin{array}{l l} \hat {A} & * \\ * & * \end{array} \right] \left[ \begin{array}{l} u \\ 0 \end{array} \right] = \left[ \begin{array}{l} \hat {A} u \\ * \end{array} \right] = \lambda v = \left[ \begin{array}{l} \lambda u \\ 0 \end{array} \right].

这说明 λ\lambdaA^\hat{A} 的特征值。这正是(b)中的结论。

现在假定(b)成立,并且想到恒等式(1.2.13),这个恒等式把特征多项式 pA(t)p_A(t) 的导数与 AAnn 个主子矩阵 A1,,AnA_1, \cdots, A_n 的特征多项式 pAi(t)p_{A_i}(t) 联系起来。如果 k=1k = 1 ,那就没有什么可证的。如果 k>1k > 1 ,那么(b)是说, λ\lambda 是每一个 AiA_i 的特征值,因而, pAi(λ)=0p_{A_i}(\lambda) = 0 ,且 pA(λ)=0p'_A(\lambda) = 0 ,如果 k>2k > 2 ,微分恒等式(1.2.13)得

pA(t)=i=1npAi(t),(1.4.10)p _ {A} ^ {\prime \prime} (t) = \sum_ {i = 1} ^ {n} p _ {A _ {i}} ^ {\prime} (t), \tag {1.4.10}

然后利用(1.2.13),用每个 AiA_{i} 的诸主子矩阵的特征多项式之和代替等式右边的每个导数.因为 AiA_{i} 的一个主子矩阵划去了一行和一列,所以它是 AA 的阶数为 n2n - 2 的主子矩阵,把(b)中的假定和恒等式(1.2.13)用到每个 AiA_{i} 就得到 pA(λ)=0p_{A}^{\prime \prime}(\lambda) = 0 ,重复上述论证便可证明,对 i=0,1,,k1i = 0, 1, \dots, k - 1 ,各阶导数 pA(i)(λ)p_{A}^{(i)}(\lambda) 都为零,因而 λ\lambda 的代数重数至少为 kk

习题

  1. 证明, AMnA \in M_n 有秩 1,当且仅当存在两个非零向量 x,yCnx, y \in \mathbf{C}^n ,使得

A=xyA = x y ^ {\cdot}

并且证明:(a)这个 AA 至多有一个(代数重数是 l\mathfrak{l} 的)非零特征值;(d)这个特征值是 yxy^{*}x ,(c) xxyy 分别是相应于这个特征值的右特征向量和左特征向量。特征值0的几何重数是多少?

  1. 证明,秩为 kk 的矩阵 AMnA \in M_{n} 可以写成

A=x(1)y(1)++x(k)y(k),A = x ^ {(1)} y ^ {(1) \cdot} + \dots + x ^ {(k)} y ^ {(k) \cdot},

其中, x(i)x^{(i)}y(i)Cny^{(i)} \in \mathbb{C}^ni=1,,ki = 1, \dots, k ,即 AAkk 个秩 1 的矩阵之和。提示:求出 kk 个线性无关的行和列,然后利用其余的行和列可以用它们来表示的事实。

  1. 假定 TMnT \in M_{n} 是上三角矩阵,且它的互不相同的特征值 t11,,tnnt_{11}, \cdots, t_{nn} 沿对角线从左上角到右下角依次出现。证明,存在 TT 的相应于 tiit_{ii} 的一个右特征向量,它的最后 nin - i 个分量都是 0,并且存在 TT 的相应于 tiit_{ii} 的一个左特征向量,它的前 i1i - 1 个分量都是 0。如果 tiit_{ii} 不是互不相同的,那又会怎样呢?

  2. 证明,在(1.2.7d)中所列出的矩阵的(仅有)特征值1有几何重数1。描述它相应的特征空间。

  3. 考虑分块三角矩阵

A=[A11A120A22],AnMn,i=1,2.A = \left[ \begin{array}{l l} A _ {1 1} & A _ {1 2} \\ 0 & A _ {2 2} \end{array} \right], \quad A _ {n} \in M _ {n}, \quad i = 1, 2.

证明 AA 的各特征值是 A11A_{11} 的各特征值再加上 A22A_{22} 的各特征值(计相重特征值)。如果 xCn1x \in \mathbf{C}^{n_1}A11A_{11} 的相应于 λσ(A11)\lambda \in \sigma(A_{11}) 的右特征向量,而 yCn2y \in \mathbf{C}^{n_2}A22A_{22} 的相应于 μσ(A22)\mu \in \sigma(A_{22}) 的左特征向量,证明 [x0]Cn1+n2\left[ \begin{array}{l} x \\ 0 \end{array} \right] \in \mathbf{C}^{n_1 + n_2}[0y]Cn1+n2\left[ \begin{array}{l} 0 \\ y \end{array} \right] \in \mathbf{C}^{n_1 + n_2}AA 的分别相应于 λ\lambda 的右特征向量和相应于 μ\mu 的左特征向量。关于 AA 的分别相应于 λ\lambdaμ\mu 的左特征向量和右特征向量,你能说些什么?你能把这些结果推广到具有任意多个对角子块的分块三角矩阵吗?

  1. 如果 AMnA \in M_{n} 关于一个几何重数是 1 的特征值有正分量的左特征向量和右特征向量证明,除了与这些向量差一个倍数的向量以外, AA 没有其他分量是非负的特征向量。

  2. 在这个习题中,概述关于求 AMnA \in M_{n} 的最大特征值及其相应的特征向量的幂法。我们作某些假定以简化论述,且使分析部分可以更为明确。假定 AMnA \in M_{n} 有互不相同的特征值 λ1,,λn\lambda_{1}, \ldots, \lambda_{n} ,且恰有一个具有最大模 ρ(A)\rho(A) 的特征值 λn\lambda_{n} 。如果 x(n)Cnx^{(n)} \in \mathbf{C}^{n} 与相应于 λn\lambda_{n} 的一个左特征向量不正交,证明序列

xk+1=1(xk+1xk+1)12Ark+1,k=0,1,2,x ^ {k + 1} = \frac {1}{(x ^ {k + 1} x ^ {k + 1}) ^ {\frac {1}{2}}} A r ^ {k + 1}, k = 0, 1, 2, \dots

趋近于 Λ\pmb{\Lambda} 的一个特征向量,而诸向量 Λx(k)\Lambda x^{(k)}x(k)x^{(k)} 中的某个给定分量的诸比值趋于 λn\lambda_{n} ,提示:不失一般性,假定 λn=1\lambda_{n} = 1 ,且设 y(1),,y(n)y^{(1)},\dots ,y^{(n)} 是相应于 λ1,,λn\lambda_1,\dots ,\lambda_n 的线性无关的特征向量,向量 rr^{\prime \prime} 可以唯一地表示成

r(n)=α1y(1)++αny(n)r ^ {(n)} = \alpha_ {1} y ^ {(1)} + \dots + \alpha_ {n} y ^ {(n)}

αn0\alpha_{n} \neq 0 ,注意, xijα1λ1kyi(l)++αnλnkyi(n)x^{i^{j}} - \alpha_{1}\lambda_{1}^{k}y^{i^{(l)}} + \dots + \alpha_{n}\lambda_{n}^{k}y^{i^{(n)}} ,但差一个比例因子。因为 λi<1|\lambda_{i}| < 1λik0|\lambda_{i}|^{k} \to 0i=1,,n1i = 1, \dots, n-1 ,从而这个和趋于 yi(n)y^{i^{(n)}} 的一个倍数。

  1. 用幂法还可以计算其他的特征值(和特征向量),不过需借助一个桥梁,称之为压缩,它给出一个阶数比 AMnA \subset M_n 少1的方阵,其特征值是 AA 余下来的特征值。设 λn\lambda_ny(n)y^{(n)} 是(用幂法或其他方法算出的) AA 的特征值和特征向量,且设 SMnS \in M_n 是第1列为 y(n)y^{(n)} 的非奇异矩阵。采用习题7中的记号,证明

S1AS=[λn0An].S ^ {1} A S = \left[ \begin{array}{l l} \lambda_ {n} & * \\ 0 & A _ {n} \end{array} \right].

A1Mn1A_{1} \in M_{n-1} 的特征值是 λ1,,λn1\lambda_{1}, \cdots, \lambda_{n-1} . 从 A1A_{1} 可以算出另外的特征值,然后重复施行压缩,如此等等.

  1. AMnA \in M_{n} 有特征值 λ1,,λn1,0\lambda_{1}, \ldots, \lambda_{n-1}, 0 ,因而 rankAn1\operatorname{rank} A \leqslant n-1 ,再假定 AA 的最后一行是其余各行的线性组合。(a)如果把 AA 块分成

[Λ11a12a1a22].\left[ \begin{array}{l l} \Lambda_ {1 1} & a _ {1 2} \\ a _ {- 1} ^ {\prime} & a _ {2 2} \end{array} \right].

其中 A11MnA_{11} \in M_{n} ,证明,存在向量 bCn1b \in \mathbb{C}^{n-1} ,使得

62

a21T=bTA11a22bTa12.a _ {2 1} ^ {T} = b ^ {T} A _ {1 1} \text {和} a _ {2 2} - b ^ {T} a _ {1 2}.

试用 AA 的相应于0的左特征值来解释 bb . (b)再证明 A11+a12bTMn1A_{11} + a_{12}b^T \in M_{n-1} 有特征值 λ1,,λn1\lambda_1, \ldots, \lambda_{n-1} . 提示:考虑 AA 的经

63

[I0b1]\left[ \begin{array}{c c} I & 0 \\ b ^ {\intercal} & 1 \end{array} \right]

的相似矩阵。应指出的是,因为具有余下来的特征值的低阶矩阵是可以给出的,这便是压缩的另一种形式。如果知道 AA 的一个特征值 λ\lambda ,那么,本习题所描述的过程可以应用于 P(AλI)P1P(A \lambda I)P^{-1} ,其中 PP 是适当的置换矩阵。

64

  1. TMnT \in M_{n} 是非奇异矩阵,它的各列是 AMnA \in M_{n} 的左特征向量。证明 (T)(T^{\prime}) 的各列是 AA 的右特征向量。