1.2_矩阵与投影

1.2 矩阵与投影

注记

为了讨论方便, 如果没有特别指出, 本节仅考虑实数情形, 对于复数情形, 我们可以得到类似的结论.

1.2.1 矩阵的秩

ARm×nA \in \mathbb{R}^{m \times n} , 则称 AA 的列向量组的秩为 AA 的列秩, 称 AA 的行向量组的秩为 AA 的行秩. 可以验证, 矩阵 AA 的列秩与行秩是相等的. 因此我们统一称它们为矩阵 AA 的秩, 记为 rank(A)\operatorname{rank}(A) .

定理1.7 设 ARm×nA \in \mathbb{R}^{m \times n} , 则 rank(A)=k\operatorname{rank}(A) = k ( 0kmin{m,n}0 \leq k \leq \min\{m, n\} ) 的充要条件是 AA 存在非奇异的 kk 阶子矩阵, 且所有 k+1k + 1 阶子矩阵都奇异. (留作课外自习, 可参见[142])

关于矩阵的秩, 我们有下面的基本性质.

定理1.8 设 A,BRm×nA, B \in \mathbb{R}^{m \times n} , 则

  • rank(A)min{m,n}\operatorname{rank}(A) \leq \min \{m, n\} ;

  • rank(AT)=rank(A)\operatorname{rank}(A^{\mathsf{T}}) = \operatorname{rank}(A) ;

  • rank(ATA)=rank(AAT)=rank(A)\operatorname{rank}(A^{\mathsf{T}}A) = \operatorname{rank}(AA^{\mathsf{T}}) = \operatorname{rank}(A) ;

  • rank(A+B)rank(A)+rank(B)\operatorname{rank}(A + B) \leq \operatorname{rank}(A) + \operatorname{rank}(B) ;

  • 对任意非奇异矩阵 PRm×mP \in \mathbb{R}^{m \times m}QRn×nQ \in \mathbb{R}^{n \times n} , 有

rank(PA)=rank(AQ)=rank(PAQ)=rank(A).\operatorname {r a n k} (P A) = \operatorname {r a n k} (A Q) = \operatorname {r a n k} (P A Q) = \operatorname {r a n k} (A).

下面是关于矩阵的秩的一些常用性质

定理1.9 (秩分解) 设 rank(A)=\operatorname{rank}(A) = \ell , 则存在非奇异矩阵 PRm×mP \in \mathbb{R}^{m \times m}QRn×nQ \in \mathbb{R}^{n \times n} 使得

A=P[I000]Q.A = P \left[ \begin{array}{c c} I _ {\ell} & 0 \\ 0 & 0 \end{array} \right] Q.

进一步, rank(A)=rank(B)\operatorname{rank}(A) = \operatorname{rank}(B) 当且仅当存在非奇异矩阵 PRm×mP \in \mathbb{R}^{m \times m}QRn×nQ \in \mathbb{R}^{n \times n} 使得 A=PBQA = PBQ .

推论1.10 (满秩分解) 设 rank(A)=\operatorname{rank}(A) = \ell , 则存在非奇异矩阵 FRm×F \in \mathbb{R}^{m \times \ell}GR×nG \in \mathbb{R}^{\ell \times n} 使得

A=FG.A = F G.

定理1.11 设 ARm×kA \in \mathbb{R}^{m \times k} , BRk×nB \in \mathbb{R}^{k \times n} , 则

rank(A)+rank(B)krank(AB)min{rank(A),rank(B)}.\operatorname {r a n k} (A) + \operatorname {r a n k} (B) - k \leq \operatorname {r a n k} (A B) \leq \min \left\{\operatorname {r a n k} (A), \operatorname {r a n k} (B) \right\}.

证明. (1) 易知

[ImA0Ik][A0IkB]=[0ABIkB].\left[ \begin{array}{c c} I _ {m} & - A \\ 0 & I _ {k} \end{array} \right] \left[ \begin{array}{c c} A & 0 \\ I _ {k} & B \end{array} \right] = \left[ \begin{array}{c c} 0 & - A B \\ I _ {k} & B \end{array} \right].

所以

rank(A)+rank(B)=rank([A00B])rank([A0IkB])=rank([0ABIkB])=rank(AB)+k.\begin{array}{l} \operatorname {r a n k} (A) + \operatorname {r a n k} (B) = \operatorname {r a n k} \left(\left[ \begin{array}{c c} A & 0 \\ 0 & B \end{array} \right]\right) \\ \leq \operatorname {r a n k} \left(\left[ \begin{array}{c c} A & 0 \\ I _ {k} & B \end{array} \right]\right) = \operatorname {r a n k} \left(\left[ \begin{array}{c c} 0 & - A B \\ I _ {k} & B \end{array} \right]\right) = \operatorname {r a n k} (A B) + k. \\ \end{array}

(2) 显然 ABAB 的列向量都是 AA 的列向量的线性组合, 所以 rank(AB)rank(A)\operatorname{rank}(AB) \leq \operatorname{rank}(A) . 同理, ABAB 的行向量都是 BB 的行向量的线性组合, 所以 rank(AB)rank(B)\operatorname{rank}(AB) \leq \operatorname{rank}(B) .

推论1.12 设 ARm×k,BRk×m,kmA \in \mathbb{R}^{m \times k}, B \in \mathbb{R}^{k \times m}, k \leq m . 若 AABB 都是满秩矩阵, 则

rank(AB)=rank(BA)=rank(A)=rank(B)=k.\operatorname {r a n k} (A B) = \operatorname {r a n k} (B A) = \operatorname {r a n k} (A) = \operatorname {r a n k} (B) = k.

张成的线性空间

x1,x2,,xkRnx_{1},x_{2},\ldots ,x_{k}\in \mathbb{R}^{n} ,记

span{x1,x2,,xk}{α1x1+α2x2++αkxk:α1,α2,,αkR},\operatorname {s p a n} \left\{x _ {1}, x _ {2}, \dots , x _ {k} \right\} \triangleq \left\{\alpha_ {1} x _ {1} + \alpha_ {2} x _ {2} + \dots + \alpha_ {k} x _ {k}: \alpha_ {1}, \alpha_ {2}, \dots , \alpha_ {k} \in \mathbb {R} \right\},

span{x1,x2,,xk}\operatorname{span}\{x_{1}, x_{2}, \ldots, x_{k}\} 构成 Rn\mathbb{R}^{n} 的一个线性子空间, 称为由 x1,x2,,xkx_{1}, x_{2}, \ldots, x_{k} 张成的线性空间. 特别地, 记 span(A)\operatorname{span}(A) 为由 AA 的所有列向量张成的线性空间.

矩阵 AA 相关的四个子空间

ARm×nA\in \mathbb{R}^{m\times n} ,则 AA 可以看作是从 Rn\mathbb{R}^nRm\mathbb{R}^m 的一个线性变换(或线性映射,线性算子)1,即

A:xAxA: x \to A x

我们分别称

Ker(A){xRn:Ax=0}Rn\operatorname {K e r} (A) \triangleq \left\{x \in \mathbb {R} ^ {n}: A x = 0 \right\} \subseteq \mathbb {R} ^ {n}

Ran(A){yRm:y=Ax,xRn}Rm\operatorname {R a n} (A) \triangleq \left\{y \in \mathbb {R} ^ {m}: y = A x, x \in \mathbb {R} ^ {n} \right\} \subseteq \mathbb {R} ^ {m}

AA 的零空间 (核) 和像空间 (列空间, 值域), 称

Ker(AT){yRm:ATy=0}Rm\operatorname {K e r} \left(A ^ {\mathsf {T}}\right) \triangleq \left\{y \in \mathbb {R} ^ {m}: A ^ {\mathsf {T}} y = 0 \right\} \subseteq \mathbb {R} ^ {m}

Ran(AT){xRn:x=ATy,yRm}Rn\operatorname {R a n} \left(A ^ {\mathsf {T}}\right) \triangleq \left\{x \in \mathbb {R} ^ {n}: x = A ^ {\mathsf {T}} y, y \in \mathbb {R} ^ {m} \right\} \subseteq \mathbb {R} ^ {n}

AA 的左零空间和行空间. 可以证明, Ker(A)\operatorname{Ker}(A)Ran(AT)\operatorname{Ran}(A^{\mathsf{T}})Rn\mathbb{R}^n 的线性子空间, Ran(A)\operatorname{Ran}(A)Ker(AT)\operatorname{Ker}(A^{\mathsf{T}})Rm\mathbb{R}^m 的线性子空间, 且 Ran(A)=span(A)\operatorname{Ran}(A) = \operatorname{span}(A) .

定理1.13 设 ARm×nA \in \mathbb{R}^{m \times n} , 则有

  • dim(Ran(A))=dim(Ran(AT))=rank(A)\dim(\operatorname{Ran}(A)) = \dim(\operatorname{Ran}(A^{\mathsf{T}})) = \operatorname{rank}(A) ;

  • dim(Ker(A))+dim(Ran(AT))=n\dim (\operatorname{Ker}(A)) + \dim (\operatorname{Ran}(A^{\mathsf{T}})) = n ;
    Ran(ATA)=Ran(AT),Ker(ATA)=Ker(A).\operatorname {Ran}(A^{\mathsf{T}}A) = \operatorname {Ran}(A^{\mathsf{T}}),\quad \operatorname {Ker}(A^{\mathsf{T}}A) = \operatorname {Ker}(A).

例1.8 设 ARm×nA \in \mathbb{R}^{m \times n} , 则

Ran(A)=Ker(AT).\operatorname {R a n} (A) ^ {\perp} = \operatorname {K e r} (A ^ {\mathsf {T}}).

(板书)

证明. 首先证明 Ker(AT)Ran(A)\operatorname{Ker}(A^{\mathsf{T}}) \subseteq \operatorname{Ran}(A)^{\perp} . 设 yKer(AT)y \in \operatorname{Ker}(A^{\mathsf{T}}) , 即 ATy=0A^{\mathsf{T}}y = 0 . 设 zzRan(A)\operatorname{Ran}(A) 中的任意一个向量, 则存在 xRnx \in \mathbb{R}^{n} , 使得 z=Axz = Ax . 于是

zTy=(Ax)Ty=xT(ATy)=0,zRan(A),z ^ {\mathsf {T}} y = (A x) ^ {\mathsf {T}} y = x ^ {\mathsf {T}} (A ^ {\mathsf {T}} y) = 0, \quad \forall z \in \operatorname {R a n} (A),

yRan(A)y\in \operatorname {Ran}(A)^\perp .所以 Ker(AT)Ran(A)\mathrm{Ker}(A^{\mathsf{T}})\subseteq \mathrm{Ran}(A)^{\perp}

另一方面, 设 yRan(A)y \in \operatorname{Ran}(A)^\perp , 对任意 zRan(A)z \in \operatorname{Ran}(A) , 都有 yz=0y^\top z = 0 . 又 AAyRan(A)AA^\top y \in \operatorname{Ran}(A) , 所以

(ATy)T(ATy)=y(AATy)=0.\left(A ^ {\mathsf {T}} y\right) ^ {\mathsf {T}} \left(A ^ {\mathsf {T}} y\right) = y ^ {*} \left(A A ^ {\mathsf {T}} y\right) = 0.

因此 ATy=0A^{\mathsf{T}}y = 0 ,即 yKer(AT)y\in \mathrm{Ker}(A^{\mathsf{T}}) .所以 Ran(A)Ker(AT)\operatorname {Ran}(A)^{\perp}\subseteq \operatorname {Ker}(A^{\mathsf{T}}) .由此可知,结论成立.

类似地, 有 Ker(A)=Ran(A)\operatorname{Ker}(A)^\perp = \operatorname{Ran}(A^\top) .

结论在复数域也成立:如果 ACm×nA \in \mathbb{C}^{m \times n} ,则 Ran(A)=Ker(A)\operatorname{Ran}(A)^\perp = \operatorname{Ker}(A^*)Ker(A)=Ran(A)\operatorname{Ker}(A)^\perp = \operatorname{Ran}(A^*)

例1.9 设 ARm×nA \in \mathbb{R}^{m \times n} , 则由例1.8可知

Ker(A)Ran(AT)=Rn,Ker(AT)Ran(A)=Rm.\operatorname {K e r} (A) \oplus \operatorname {R a n} (A ^ {\mathsf {T}}) = \mathbb {R} ^ {n}, \qquad \operatorname {K e r} (A ^ {\mathsf {T}}) \oplus \operatorname {R a n} (A) = \mathbb {R} ^ {m}.

例1.10 (矩阵的秩与齐次线性方程组基础解系) 设 ARm×nA \in \mathbb{R}^{m \times n} 的秩为 kmin{m,n}k \leq \min\{m, n\} , 则齐次线性方程组 Ax=0Ax = 0 的基础解系所含解的个数为 nkn - k , 也即 dim(Ker(A))=nk\dim(\operatorname{Ker}(A)) = n - k .

1.2.2 特征值与特征向量

定义1.6(特征值和特征向量)设 ARn×nA\in \mathbb{R}^{n\times n} .若存在 λC\lambda \in \mathbb{C} 和非零向量 x,yCnx,y\in \mathbb{C}^n ,满足

Ax=λx,A x = \lambda x,

则称 λ\lambdaAA 的特征值, xxAA 对应于 λ\lambda 的特征向量, 并称 (λ,x)(\lambda, x)AA 的一个特征对 (eigenpair).

思考:从定义1.6能否判断矩阵 AA 是否一定存在特征值和特征向量?

矩阵特征值也可以通过特征多项式来定义

定义1.7 (特征多项式和特征值) 设 ARn×nA \in \mathbb{R}^{n \times n} , 记 pA(λ)det(AλI)p_A(\lambda) \triangleq \operatorname*{det}(A - \lambda I) . 易知 pA(λ)p_A(\lambda) 是关于 λ\lambdann 次多项式, 我们称之为 AA 的特征多项式, 其在复数域中的零点称为 AA 的特征值.

我们知道, nn 次多项式在复数域中一定存在 nn 个零点 (不考虑重复零点), 因此根据定义1.7, 一个 nn 阶矩阵一定存在 nn 个特征值.

下面是关于特征多项式的一个重要性质

定理1.14 (Cayley-Hamilton) 设 pA(λ)p_A(\lambda)ARn×nA \in \mathbb{R}^{n \times n} 的特征多项式, 则 pA(A)=0p_A(A) = 0 .

由Cayley-Hamilton定理1.14可知, 总存在多项式 p(t)p(t) 使得 p(A)=0p(A) = 0 . 这种特殊多项式称为零化多项式(annihilating polynomial).

定义1.8 (零化多项式和最小多项式) 设 ARn×nA \in \mathbb{R}^{n \times n} , 如果多项式 p(t)p(t) 满足 p(A)=0p(A) = 0 , 则称其为 AA 的零化多项式, 其中次数最低的首一 (即首项系数为1) 多项式称为 AA 的最小多项式.

最小多项式是矩阵的一个重要概念, 在线性代数中有着重要的应用. 容易证明, 最小多项式是存在唯一的, 而且次数不超过 nn . 计算最小多项式通常是非常困难的, 一种方法是通过 Jordan 标准型来计算, 见定理 1.46.

定义1.9(特征子空间)设 λ\lambdaARn×nA\in \mathbb{R}^{n\times n} 的特征值,令

Sλ={xCnAx=λx},\mathbb {S} _ {\lambda} = \left\{x \in \mathbb {C} ^ {n} \mid A x = \lambda x \right\},

则可以验证 Sλ\mathbb{S}_{\lambda}Cn\mathbb{C}^n 的子空间, 称为 AA 对应于特征值 λ\lambda 的一个特征子空间.

关于特征值的几点说明

  • 只有当 AA 是方阵时, 特征值与特征向量才有定义.

  • 实矩阵的特征值与特征向量也有可能是复的

  • 一个 nn 阶矩阵总是存在 nn 个特征值 (其中可能有相等的), 通常记为 λ1,λ2,,λn\lambda_1, \lambda_2, \ldots, \lambda_n .

  • 所有特征值组成的集合称为矩阵的谱, 通常记为 σ(A)\sigma(A) , 即

σ(A){λ1,λ2,,λn}.\sigma (A) \triangleq \{\lambda_ {1}, \lambda_ {2}, \dots , \lambda_ {n} \}.
  • 特征值有代数重数 (所对应的特征多项式零点的重数) 和几何重数 (所对应的特征子空间的维数), 几何重数不超过代数重数.

  • 相似变换不改变矩阵的特征值.

  • 合同变换不改变矩阵的惯性指数 (即正特征值、负特征值和零特征值的个数).

思考:设 ARn×nA \in \mathbb{R}^{n \times n} ,则 AA^{\top}AA 的特征值和特征向量是什么关系?

AA 非奇异, 则 A1A^{-1}AA 的特征值和特征向量是什么关系?

更一般地, 设 p(t)p(t) 是一个多项式, 则 p(A)p(A)AA 的特征值和特征向量是什么关系?

定义1.10(谱半径)设 ARn×nA\in \mathbb{R}^{n\times n}Cn×n\mathbb{C}^{n\times n} ,其谱半径定义如下:

ρ(A)maxλσ(A)λ,\rho (A) \triangleq \max _ {\lambda \in \sigma (A)} | \lambda |,

其中 σ(A)\sigma (A) 表示 AA 的谱

下面给出特征值的一些常用性质

定理1.15 设 ARn×nA \in \mathbb{R}^{n \times n} , 则有

λ1λ2λn=det(A),λ1+λ2++λn=tr(A),\lambda_ {1} \lambda_ {2} \dots \lambda_ {n} = \det (A), \quad \lambda_ {1} + \lambda_ {2} + \dots + \lambda_ {n} = \operatorname {t r} (A),

其中 det(A)\operatorname{det}(A) 表示 AA 的行列式, tr(A)\operatorname{tr}(A) 表示 AA 的迹 (对角线元素之和), 即

tr(A)a11+a22++ann.\operatorname {t r} (A) \triangleq a _ {1 1} + a _ {2 2} + \dots + a _ {n n}.

(留作课外自习, 高次多项式的韦达定理)

推论1.16 若 AABB 相似, 则 tr(A)=tr(B)\operatorname{tr}(A) = \operatorname{tr}(B) , 即相似矩阵具有相同的迹.

定义1.11 设 ARn×nA \in \mathbb{R}^{n \times n} . 若存在一个非奇异矩阵 XCn×nX \in \mathbb{C}^{n \times n} , 使得

X1AX=Λ,(1.1)X ^ {- 1} A X = \Lambda , \tag {1.1}

其中 ΛCn×n\Lambda \in \mathbb{C}^{n\times n} 是对角矩阵, 则称 AA 是可对角化的, 矩阵 Λ\Lambda 的对角线元素即为 AA 的特征值, 分解 (1.1) 称为矩阵 AA 的特征值分解或谱分解.

Δ\Delta 并非所有矩阵都可以对角化, 比如 A=[0100]A = \begin{bmatrix} 0 & 1 \\ 0 & 0 \end{bmatrix} 是无法对角化的.

定理1.17 设 ARn×nA \in \mathbb{R}^{n \times n} , 则

(1) AA 可对角化当且仅当 AAnn 个线性无关的特征向量;
(2) AA 可对角化当且仅当 AA 的所有特征值的代数重数与几何重数都相等;
(3) 若 AAnn 个互不相等的特征值, 则 AA 可对角化.

例1.11 设 ARn×nA \in \mathbb{R}^{n \times n} 是对称矩阵, 则 AA 可对角化, 而且可以正交对角化, 即存在正交矩阵 QRn×nQ \in \mathbb{R}^{n \times n} 使得

A=QΛQT.A = Q \Lambda Q ^ {\mathsf {T}}.

根据多项式零点关于多项式系数的连续性, 我们可以得到下面的结论.

定理1.18 矩阵的特征值关于矩阵元素是连续的, 即当矩阵的元素发生变化时, 其特征值的变化是连续的.

1.2.3 特征值的粗略估计

矩阵特征值在科学与工程计算中应用非常广泛, 但直接计算特征值通常比较困难, 特别是当矩阵规模非常大时. 本小节给出两个估计特征值所在范围的方法. 我们这里假定 AA 是复矩阵.

Bendixson 估计方法

ACn×nA\in \mathbb{C}^{n\times n} ,我们记

H12(A+A),S12(AA).H \triangleq \frac {1}{2} (A + A ^ {*}), \quad S \triangleq \frac {1}{2} (A - A ^ {*}).

易知 A=H+SA = H + S ,且

H=H,S=S,H ^ {*} = H, \quad S ^ {*} = - S,

HH 是Hermite的, SS 是Skew-Hermite(斜Hermite)的. 我们分别称 HHSSAA 的Hermite部分和Skew-Hermite部分.

(λ,x)(\lambda ,x)AA 的一个特征对,且 xx=1x^{*}x = 1 ,则

Ax=λxλ=xAx=xHx+xSx,A x = \lambda x \quad \Longrightarrow \quad \lambda = x ^ {*} A x = x ^ {*} H x + x ^ {*} S x,

其中 xHxx^{*}Hx 是实数, xSxx^{*}Sx 是纯虚数

定理1.19(Bendixson定理) 设 ACn×nA \in \mathbb{C}^{n \times n} , 则

λmin(H)Re(λ(A))λmax(H),\lambda_ {\min } (H) \leq \operatorname {R e} (\lambda (A)) \leq \lambda_ {\max } (H),
λmin(iS)Im(λ(A))λmax(iS),\lambda_ {\min } (- \mathbf {i} S) \leq \operatorname {I m} (\lambda (A)) \leq \lambda_ {\max } (- \mathbf {i} S),

其中 Re()\operatorname{Re}(\cdot)Im()\operatorname{Im}(\cdot) 分别表示实部和虚部, i\mathbf{i} 是虚部单位.

这个定理告诉我们, 一个矩阵的特征值的实部的取值范围由其Hermite部分确定, 而虚部则由其Skew-Hermite部分确定.

Gerschgorin 圆盘估计方法

A=[aij]Cn×nA = [a_{ij}]\in \mathbb{C}^{n\times n} ,定义集合

Di{zC:zaiij=1,jinaij},i=1,2,,n.(1.2)\mathcal {D} _ {i} \triangleq \left\{z \in \mathbb {C}: | z - a _ {i i} | \leq \sum_ {j = 1, j \neq i} ^ {n} | a _ {i j} | \right\}, \quad i = 1, 2, \dots , n. \tag {1.2}

我们称 Di\mathcal{D}_iAA 的Gerschgorin圆盘(也称盖尔圆盘).

定理1.20(Gerschgorin圆盘定理)设 ACn×nA\in \mathbb{C}^{n\times n} ,则 AA 的所有特征值都包含在 AA 的Gerschgorin 圆盘的并集中,即 σ(A)i=1nDi.\sigma (A)\subset \bigcup_{i = 1}^{n}\mathcal{D}_{i}. (板书)

证明. 设 λ\lambdaAA 的特征值, 对应的非零特征向量为 x=[x1,x2,,xn]Cnx = [x_{1}, x_{2}, \ldots, x_{n}]^{\top} \in \mathbb{C}^{n} , 即 Ax=λxAx = \lambda x . 不失一般性, 设 x=xi\|x\|_{\infty} = |x_{i}| , 则 xi>0|x_{i}| > 0 . 考察 Ax=λxAx = \lambda x 的第 ii 个方程可得

λxiaiixi=j=1,jinaijxj.\lambda x _ {i} - a _ {i i} x _ {i} = \sum_ {j = 1, j \neq i} ^ {n} a _ {i j} x _ {j}.

因此

λaii=1xij=1,jinaijxjj=1,jinaijxjxij=1,jinaij.| \lambda - a _ {i i} | = \frac {1}{| x _ {i} |} \cdot \left| \sum_ {j = 1, j \neq i} ^ {n} a _ {i j} x _ {j} \right| \leq \sum_ {j = 1, j \neq i} ^ {n} | a _ {i j} | \cdot \frac {| x _ {j} |}{| x _ {i} |} \leq \sum_ {j = 1, j \neq i} ^ {n} | a _ {i j} |.

所以 λDi\lambda \in \mathcal{D}_i

AA 的非对角线元素换成 τaij\tau a_{ij} , 其中 0τ10 \leq \tau \leq 1 , 并利用特征值关于矩阵元素的连续性, 我们就可以得到下面的结论.

定理1.21 设 ACn×nA \in \mathbb{C}^{n \times n} , 如果 i=1nDi\bigcup_{i=1}^{n} \mathcal{D}_{i} 可分解成两个不相交的子集 S 和 T, 即

i=1nDi=STST=,\bigcup_ {i = 1} ^ {n} \mathcal {D} _ {i} = \mathsf {S} \bigcup \mathsf {T} \quad \text {且} \quad \mathsf {S} \bigcap \mathsf {T} = \emptyset ,

并假定 S 由 kk 个圆盘组成, 而 T 由其它 nkn - k 个圆盘组成, 则 S 中恰好包含 A 的 kk 个特征值 (重特征值按重数计算), 而 T 中则包含 A 的其它 nkn - k 个特征值.

1.2.4 不变子空间

定义1.12 设 ARn×nA \in \mathbb{R}^{n \times n} , 子空间 SRn\mathbb{S} \subseteq \mathbb{R}^n . 若 ASSA\mathbb{S} \subseteq \mathbb{S} , 即对任意 xSx \in \mathbb{S} , 都有 AxSAx \in \mathbb{S} , 则称 S\mathbb{S}AA 的一个不变子空间.

一类特殊的不变子空间就是由特征向量所张成的子空间

定理1.22 设 x1,x2,,xmx_{1}, x_{2}, \ldots, x_{m}AA 的一组线性无关的特征向量, 则 span{x1,x2,,xm}\operatorname{span}\{x_{1}, x_{2}, \ldots, x_{m}\}AA 的一个 mm 维不变子空间.

下面的结论对矩阵特征值计算非常重要

定理1.23 设 ARn×n,XRn×kA \in \mathbb{R}^{n \times n}, X \in \mathbb{R}^{n \times k}rank(X)=k\operatorname{rank}(X) = k , 则 span(X)\operatorname{span}(X)AA 的不变子空间的充要条件是存在一个矩阵 BRk×kB \in \mathbb{R}^{k \times k} 使得

AX=XB,A X = X B,

此时, BB 的特征值都是 AA 的特征值

(板书)

证明. 设 X=[x1,x2,,xk]X = [x_{1}, x_{2}, \ldots, x_{k}] , 由 rank(X)=k\operatorname{rank}(X) = k 可知向量组 {x1,x2,,xk}\{x_{1}, x_{2}, \ldots, x_{k}\} 构成子空间 span(X)\operatorname{span}(X) 的一组基.

首先证明必要性. 设 span(X)\operatorname{span}(X)AA 的不变子空间, 则 Axjspan(X)Ax_{j} \in \operatorname{span}(X) . 所以有

Axj=b1jx1+b2jx2++bkjxk,j=1,2,,k,A x _ {j} = b _ {1 j} x _ {1} + b _ {2 j} x _ {2} + \dots + b _ {k j} x _ {k}, \quad j = 1, 2, \ldots , k,

其中 bijRb_{ij} \in \mathbb{R} 是线性表出系数. 将上式写成矩阵形式即为

AX=XB其 中B=[bij]Rk×k.A X = X B \qquad {\text {其 中}} \quad B = [ b _ {i j} ] \in \mathbb {R} ^ {k \times k}.

其次证明充分性. 设存在矩阵 BRk×kB \in \mathbb{R}^{k \times k} , 使得 AX=XBAX = XB . 则 AxjAx_{j}x1,x2,,xkx_{1}, x_{2}, \ldots, x_{k} 的线性组合. 又 {x1,x2,,xk}\{x_{1}, x_{2}, \ldots, x_{k}\}span(X)\operatorname{span}(X) 的一组基, 所以对任意 xspan(X)x \in \operatorname{span}(X) 都有 Axspan(X)Ax \in \operatorname{span}(X) , 即 span(X)\operatorname{span}(X)AA 的一个不变子空间.

下面证明 BB 的特征值都是 AA 的特征值. 将 XX 扩充成一个非奇异的方阵, 即存在矩阵 X~Rn×(nk)\tilde{X} \in \mathbb{R}^{n \times (n - k)} , 使得 Y=[X,X~]Rn×nY = [X, \tilde{X}] \in \mathbb{R}^{n \times n} 非奇异. 将 Y1Y^{-1} 写成分块形式: Y1=[Z1Z2]Y^{-1} = \begin{bmatrix} Z_1 \\ Z_2 \end{bmatrix} , 其中 Z1Rk×nZ_1 \in \mathbb{R}^{k \times n} , Z2R(nk)×nZ_2 \in \mathbb{R}^{(n - k) \times n} . 由等式 Y1Y=In×nY^{-1}Y = I_{n \times n} 可得 Z1X=Ik×kZ_1X = I_{k \times k} , Z2X=0Z_2X = 0 . 又 AX=XBAX = XB , 所以

Y1AY=[Z1Z2]A[X,X~]=[Z1AXZ1AX~Z2AXZ2AX~]=[Z1XBZ1AX~Z2XBZ2AX~]=[BZ1AX~0Z2AX~].Y ^ {- 1} A Y = \left[ \begin{array}{c} Z _ {1} \\ Z _ {2} \end{array} \right] A [ X, \tilde {X} ] = \left[ \begin{array}{c c} Z _ {1} A X & Z _ {1} A \tilde {X} \\ Z _ {2} A X & Z _ {2} A \tilde {X} \end{array} \right] = \left[ \begin{array}{c c} Z _ {1} X B & Z _ {1} A \tilde {X} \\ Z _ {2} X B & Z _ {2} A \tilde {X} \end{array} \right] = \left[ \begin{array}{c c} B & Z _ {1} A \tilde {X} \\ 0 & Z _ {2} A \tilde {X} \end{array} \right].

因此 BB 的特征值都是 Y1AYY^{-1}AY 的特征值. 由于 AAY1AYY^{-1}AY 相似, 所以它们具有相同的特征值.

由此, 定理结论成立.

推论1.24设 ARn×nA\in \mathbb{R}^{n\times n}XRn×kX\in \mathbb{R}^{n\times k}rank(X)=k\mathrm{rank}(X) = k .若存在一个矩阵 BRk×kB\in \mathbb{R}^{k\times k} 使得 AX=AX = XB,XB,(λ,v)(\lambda ,v)BB 的一个特征对当且仅当 (λ,Xv)(\lambda ,Xv)AA 的一个特征对. (留作课外自习)

1.2.5 投影变换

S1\mathbb{S}_1S2\mathbb{S}_2 是内积空间 S\mathbb{S} 的两个子空间, 且 S=S1S2\mathbb{S} = \mathbb{S}_1 \oplus \mathbb{S}_2 , 则 S\mathbb{S} 中的任意向量 xx 都可唯一表示为

x=x1+x2,x1S1,x2S2.x = x _ {1} + x _ {2}, \quad x _ {1} \in \mathbb {S} _ {1}, x _ {2} \in \mathbb {S} _ {2}.

我们称 x1x_{1}xx 沿 S2\mathbb{S}_2S1\mathbb{S}_1 上的投影,记为 xS1x|_{\mathbb{S}_1}

需要指出的是, 由于 S1\mathbb{S}_1 的补空间不唯一, 因此在讨论投影时一定要明确给定 S2\mathbb{S}_2 .

例1.12 设 S1=span{e1},S2=span{e2},S~2=span{e}\mathbb{S}_1 = \operatorname{span}\{e_1\}, \mathbb{S}_2 = \operatorname{span}\{e_2\}, \tilde{\mathbb{S}}_2 = \operatorname{span}\{e\} , 其中 e1=[1,0]T,e2=[0,1]T,e=[1,1]Te_1 = [1,0]^{\mathsf{T}}, e_2 = [0,1]^{\mathsf{T}}, e = [1,1]^{\mathsf{T}} . 于是有

R2=S1S2=S1S~2.\mathbb {R} ^ {2} = \mathbb {S} _ {1} \oplus \mathbb {S} _ {2} = \mathbb {S} _ {1} \oplus \tilde {\mathbb {S}} _ {2}.

向量 x=[2,3]Tx = [2,3]^{\mathsf{T}} 沿 S2\mathbb{S}_2S1\mathbb{S}_1 上的投影是 [2,0]T[2,0]^{\mathsf{T}} , 而它沿 S~2\tilde{\mathbb{S}}_2S1\mathbb{S}_1 上的投影是 [1,0]T[-1,0]^{\mathsf{T}} .

定义线性变换 P:SSP:\mathbb{S}\to \mathbb{S} 如下:

Px=xS1,xS.P x = x | _ {\mathbb {S} _ {1}}, \quad \forall x \in \mathbb {S}.

PP 是从 S\mathbb{S} 沿 S2\mathbb{S}_2S1\mathbb{S}_1 上的投影变换(也称投影算子),对应的矩阵称为投影矩阵.

几点注记

  • 对于给定的子空间 S1\mathbb{S}_1S2\mathbb{S}_2 (构成直和 S=S1S2\mathbb{S} = \mathbb{S}_1 \oplus \mathbb{S}_2 ), 投影变换是唯一的.

  • 线性变换在不同的基下对应不同的变换矩阵. 在不加特别指出时, 本讲义中如果线性空间是 Rn\mathbb{R}^nRn×n\mathbb{R}^{n\times n} , 我们采用自然基, 即 {e1,e2,,en}\{e_1,e_2,\ldots ,e_n\}{eij}i,j=1n\{e_{ij}\}_{i,j = 1}^n

  • 为了书写方便, 我们这里使用 PP 既表示投影变换也表示其对应的投影矩阵.

PP 是从 S\mathbb{S} 沿 S2\mathbb{S}_2S1\mathbb{S}_1 上的投影变换, 则对任意 xS1x\in \mathbb{S}_1 都有 Px=xPx = x . 因此, S1Ran(P)\mathbb{S}_1\subseteq \operatorname {Ran}(P) . 又由定义可知 Ran(P)S1\operatorname {Ran}(P)\subseteq \mathbb{S}_1 ,所以

S1=Ran(P).\mathbb {S} _ {1} = \operatorname {R a n} (P).

类似地, 我们也可以验证

S2=Ker(P).\mathbb {S} _ {2} = \operatorname {K e r} (P).

于是存在直和分解

S=Ran(P)Ker(P).\mathbb {S} = \operatorname {R a n} (P) \oplus \operatorname {K e r} (P).

S=Rn\mathbb{S} = \mathbb{R}^n ,则立即可以得到下面的结论

引理1.25 设 PRn×nP \in \mathbb{R}^{n \times n} 是一个投影矩阵, 则

Rn=Ran(P)Ker(P).(1.3)\mathbb {R} ^ {n} = \operatorname {R a n} (P) \oplus \operatorname {K e r} (P). \tag {1.3}

思考:对于一般的矩阵 ARn×nA \in \mathbb{R}^{n \times n} ,结论 Rn=Ran(A)Ker(A)\mathbb{R}^n = \operatorname{Ran}(A) \oplus \operatorname{Ker}(A) 是否成立?

下面的性质表明,投影矩阵由其像空间和零空间所唯一确定

定理1.26 设 Rn=S1S2\mathbb{R}^n = \mathbb{S}_1 \oplus \mathbb{S}_2 ,则存在唯一的投影矩阵 PP ,使得

Ran(P)=S1,Ker(P)=S2,\operatorname {R a n} (P) = \mathbb {S} _ {1}, \quad \operatorname {K e r} (P) = \mathbb {S} _ {2},

即对任意向量 xRnx\in \mathbb{R}^n ,有

PxS1,xPxS2.P x \in \mathbb {S} _ {1}, \quad x - P x \in \mathbb {S} _ {2}.

例1.13 若 S1=Rn\mathbb{S}_1 = \mathbb{R}^n ,则 S2={0}\mathbb{S}_2 = \{0\} ,所对应的投影矩阵即为单位矩阵 II

反之, 若 S1={0}\mathbb{S}_1 = \{0\} , 则 S2=Rn\mathbb{S}_2 = \mathbb{R}^n , 此时所对应的投影矩阵即为零矩阵.

引理1.27 设 PRn×nP \in \mathbb{R}^{n \times n} 是一个投影矩阵, 则

(1) IPI - P 也是一个投影矩阵, 且 Ker(P)=Ran(IP)\operatorname{Ker}(P) = \operatorname{Ran}(I - P) ;
(2) PP^{\top} 也是一个投影矩阵.

(留作练习)

下面给出投影矩阵的判别定理. 首先, 根据定义, PP 是沿 S2\mathbb{S}_2S1\mathbb{S}_1 的投影变换的充要条件是: 对任意 xS1x \in \mathbb{S}_1Px=xPx = x , 而对任意 xS2x \in \mathbb{S}_2Px=0Px = 0 .

定理1.28 矩阵 PRn×nP \in \mathbb{R}^{n \times n} 是投影矩阵的充要条件是 P2=PP^2 = P ,即 PP 是幂等矩阵。

(板书)

证明. 必要性: 设 PP 是投影矩阵, 则对任意 xRnx \in \mathbb{R}^n , 都有

P2x=P(Px)=Px.P ^ {2} x = P (P x) = P x.

因此 P2=PP^2 = P

充分性: 设 P2=PP^2 = P . 我们只需证明 Ran(P)+Ker(P)=Rn\operatorname{Ran}(P) + \operatorname{Ker}(P) = \mathbb{R}^n . 显然 Ran(P)+Ker(P)Rn\operatorname{Ran}(P) + \operatorname{Ker}(P) \subseteq \mathbb{R}^n , 因此只要证明 RnRan(P)+Ker(P)\mathbb{R}^n \subseteq \operatorname{Ran}(P) + \operatorname{Ker}(P) . 对任意 xRnx \in \mathbb{R}^n , 有 x=Px+(xPx)x = Px + (x - Px) . 由 P(xPx)=PxP2x=0P(x - Px) = Px - P^2 x = 0 可知 xPxKer(P)x - Px \in \operatorname{Ker}(P) . 因此 RnRan(P)+Ker(P)\mathbb{R}^n \subseteq \operatorname{Ran}(P) + \operatorname{Ker}(P) . 所以结论 Ran(P)+Ker(P)=Rn\operatorname{Ran}(P) + \operatorname{Ker}(P) = \mathbb{R}^n 成立. □

S1\mathbb{S}_1S2\mathbb{S}_2Rn\mathbb{R}^n 的两个 mm 维子空间且 Rn=S1S2\mathbb{R}^n = \mathbb{S}_1 \oplus \mathbb{S}_2^\perp , 则存在唯一的投影变换 PP , 使得

Ran(P)=S1,Ker(P)=S2.\operatorname {R a n} (P) = \mathbb {S} _ {1}, \quad \operatorname {K e r} (P) = \mathbb {S} _ {2} ^ {\perp}.

此时,我们称 PPS1\mathbb{S}_1 上与 S2\mathbb{S}_2 正交的投影变换

v1,v2,,vmv_{1}, v_{2}, \ldots, v_{m}w1,w2,,wmw_{1}, w_{2}, \ldots, w_{m} 分别是 S1\mathbb{S}_1S2\mathbb{S}_2 的一组基, 则 PP 可以由这两组基来表示.

定理1.29 设 PRn×nP \in \mathbb{R}^{n \times n}S1\mathbb{S}_1 上与 S2\mathbb{S}_2 正交的投影变换 (S1S2=Rn)(\mathbb{S}_1 \oplus \mathbb{S}_2^\perp = \mathbb{R}^n) , 则

P=V(WTV)1WT,(1.4)P = V \left(W ^ {\mathsf {T}} V\right) ^ {- 1} W ^ {\mathsf {T}}, \tag {1.4}

其中 V=[v1,v2,,vm]V = [v_{1}, v_{2}, \ldots, v_{m}] , W=[w1,w2,,wm]W = [w_{1}, w_{2}, \ldots, w_{m}] .

(留作练习)

虽然投影矩阵 PPS1\mathbb{S}_1S2\mathbb{S}_2 唯一确定,但其矩阵表示形式(1.4)并不唯一 (W(WVV 不唯一).

思考:对于一般的投影变换,即 PP 是沿 S2\mathbb{S}_2S1\mathbb{S}_1 上的投影变换,如何给出 PP 的表达式?

S1\mathbb{S}_1 是内积空间 S\mathbb{S} 的一个子空间, 则由定理 1.6 可知 S=S1S1\mathbb{S} = \mathbb{S}_1 \oplus \mathbb{S}_1^\perp . 因此, 任意 xSx \in \mathbb{S} 都可唯一分解成

x=x1+x2,x1S1,x2S1.x = x _ {1} + x _ {2}, \quad x _ {1} \in \mathbb {S} _ {1}, x _ {2} \in \mathbb {S} _ {1} ^ {\perp}.

我们称 x1x_{1} 称为 X\mathcal{X}S1\mathbb{S}_1 中的正交投影

PP 是从 S\mathbb{S} 沿 S1\mathbb{S}_1^\perpS1\mathbb{S}_1 上的投影变换, 则称 PP 为子空间 S1\mathbb{S}_1 上的正交投影变换 (也称正交投影算子, orthogonal projector), 对应的矩阵称为正交投影矩阵), 记为 PS1P_{\mathbb{S}_1} . 如果 PP 不是正交投影变换, 则称为斜投影变换 (oblique projector).

由定理1.29可立即得到下面的结论

推论1.30 设 PP 是子空间 S1\mathbb{S}_1 上的正交投影变换, {v1,v2,,vm}\{v_1, v_2, \ldots, v_m\}S1\mathbb{S}_1 的一组标准正交基, 则

P=VV.(1.5)P = V V ^ {\top}. \tag {1.5}

定理1.31投影矩阵 PRn×nP\in \mathbb{R}^{n\times n} 是正交投影矩阵的充要条件 PT=PP^{\mathrm{T}} = P

(留作练习)

思考:正交投影矩阵 PP 的特征值可能取值有哪些?