1.2 矩阵与投影
注记
为了讨论方便, 如果没有特别指出, 本节仅考虑实数情形, 对于复数情形, 我们可以得到类似的结论.
1.2.1 矩阵的秩
设 A∈Rm×n , 则称 A 的列向量组的秩为 A 的列秩, 称 A 的行向量组的秩为 A 的行秩. 可以验证, 矩阵 A 的列秩与行秩是相等的. 因此我们统一称它们为矩阵 A 的秩, 记为 rank(A) .
定理1.7 设 A∈Rm×n , 则 rank(A)=k ( 0≤k≤min{m,n} ) 的充要条件是 A 存在非奇异的 k 阶子矩阵, 且所有 k+1 阶子矩阵都奇异. (留作课外自习, 可参见[142])
关于矩阵的秩, 我们有下面的基本性质.
定理1.8 设 A,B∈Rm×n , 则
rank(A)≤min{m,n} ;
rank(AT)=rank(A) ;
rank(ATA)=rank(AAT)=rank(A) ;
rank(A+B)≤rank(A)+rank(B) ;
对任意非奇异矩阵 P∈Rm×m 和 Q∈Rn×n , 有
rank(PA)=rank(AQ)=rank(PAQ)=rank(A). 下面是关于矩阵的秩的一些常用性质
定理1.9 (秩分解) 设 rank(A)=ℓ , 则存在非奇异矩阵 P∈Rm×m 和 Q∈Rn×n 使得
A=P[Iℓ000]Q. 进一步, rank(A)=rank(B) 当且仅当存在非奇异矩阵 P∈Rm×m 和 Q∈Rn×n 使得 A=PBQ .
推论1.10 (满秩分解) 设 rank(A)=ℓ , 则存在非奇异矩阵 F∈Rm×ℓ 和 G∈Rℓ×n 使得
定理1.11 设 A∈Rm×k , B∈Rk×n , 则
rank(A)+rank(B)−k≤rank(AB)≤min{rank(A),rank(B)}. 证明. (1) 易知
[Im0−AIk][AIk0B]=[0Ik−ABB]. 所以
rank(A)+rank(B)=rank([A00B])≤rank([AIk0B])=rank([0Ik−ABB])=rank(AB)+k. (2) 显然 AB 的列向量都是 A 的列向量的线性组合, 所以 rank(AB)≤rank(A) . 同理, AB 的行向量都是 B 的行向量的线性组合, 所以 rank(AB)≤rank(B) .
推论1.12 设 A∈Rm×k,B∈Rk×m,k≤m . 若 A 和 B 都是满秩矩阵, 则
rank(AB)=rank(BA)=rank(A)=rank(B)=k. 张成的线性空间
设 x1,x2,…,xk∈Rn ,记
span{x1,x2,…,xk}≜{α1x1+α2x2+⋯+αkxk:α1,α2,…,αk∈R}, 则 span{x1,x2,…,xk} 构成 Rn 的一个线性子空间, 称为由 x1,x2,…,xk 张成的线性空间. 特别地, 记 span(A) 为由 A 的所有列向量张成的线性空间.
矩阵 A 相关的四个子空间
设 A∈Rm×n ,则 A 可以看作是从 Rn 到 Rm 的一个线性变换(或线性映射,线性算子)1,即
我们分别称
Ker(A)≜{x∈Rn:Ax=0}⊆Rn 和
Ran(A)≜{y∈Rm:y=Ax,x∈Rn}⊆Rm 为 A 的零空间 (核) 和像空间 (列空间, 值域), 称
Ker(AT)≜{y∈Rm:ATy=0}⊆Rm 和
Ran(AT)≜{x∈Rn:x=ATy,y∈Rm}⊆Rn 为 A 的左零空间和行空间. 可以证明, Ker(A) 和 Ran(AT) 是 Rn 的线性子空间, Ran(A) 和 Ker(AT) 是 Rm 的线性子空间, 且 Ran(A)=span(A) .
定理1.13 设 A∈Rm×n , 则有
dim(Ran(A))=dim(Ran(AT))=rank(A) ;
dim(Ker(A))+dim(Ran(AT))=n ;
Ran(ATA)=Ran(AT),Ker(ATA)=Ker(A).
例1.8 设 A∈Rm×n , 则
Ran(A)⊥=Ker(AT). (板书)
证明. 首先证明 Ker(AT)⊆Ran(A)⊥ . 设 y∈Ker(AT) , 即 ATy=0 . 设 z 是 Ran(A) 中的任意一个向量, 则存在 x∈Rn , 使得 z=Ax . 于是
zTy=(Ax)Ty=xT(ATy)=0,∀z∈Ran(A), 即 y∈Ran(A)⊥ .所以 Ker(AT)⊆Ran(A)⊥
另一方面, 设 y∈Ran(A)⊥ , 对任意 z∈Ran(A) , 都有 y⊤z=0 . 又 AA⊤y∈Ran(A) , 所以
(ATy)T(ATy)=y∗(AATy)=0. 因此 ATy=0 ,即 y∈Ker(AT) .所以 Ran(A)⊥⊆Ker(AT) .由此可知,结论成立.
类似地, 有 Ker(A)⊥=Ran(A⊤) .
结论在复数域也成立:如果 A∈Cm×n ,则 Ran(A)⊥=Ker(A∗) , Ker(A)⊥=Ran(A∗) 。
例1.9 设 A∈Rm×n , 则由例1.8可知
Ker(A)⊕Ran(AT)=Rn,Ker(AT)⊕Ran(A)=Rm. 例1.10 (矩阵的秩与齐次线性方程组基础解系) 设 A∈Rm×n 的秩为 k≤min{m,n} , 则齐次线性方程组 Ax=0 的基础解系所含解的个数为 n−k , 也即 dim(Ker(A))=n−k .
1.2.2 特征值与特征向量
定义1.6(特征值和特征向量)设 A∈Rn×n .若存在 λ∈C 和非零向量 x,y∈Cn ,满足
Ax=λx, 则称 λ 为 A 的特征值, x 为 A 对应于 λ 的特征向量, 并称 (λ,x) 为 A 的一个特征对 (eigenpair).

思考:从定义1.6能否判断矩阵 A 是否一定存在特征值和特征向量?
矩阵特征值也可以通过特征多项式来定义
定义1.7 (特征多项式和特征值) 设 A∈Rn×n , 记 pA(λ)≜det(A−λI) . 易知 pA(λ) 是关于 λ 的 n 次多项式, 我们称之为 A 的特征多项式, 其在复数域中的零点称为 A 的特征值.
我们知道, n 次多项式在复数域中一定存在 n 个零点 (不考虑重复零点), 因此根据定义1.7, 一个 n 阶矩阵一定存在 n 个特征值.
下面是关于特征多项式的一个重要性质
定理1.14 (Cayley-Hamilton) 设 pA(λ) 是 A∈Rn×n 的特征多项式, 则 pA(A)=0 .
由Cayley-Hamilton定理1.14可知, 总存在多项式 p(t) 使得 p(A)=0 . 这种特殊多项式称为零化多项式(annihilating polynomial).
定义1.8 (零化多项式和最小多项式) 设 A∈Rn×n , 如果多项式 p(t) 满足 p(A)=0 , 则称其为 A 的零化多项式, 其中次数最低的首一 (即首项系数为1) 多项式称为 A 的最小多项式.
最小多项式是矩阵的一个重要概念, 在线性代数中有着重要的应用. 容易证明, 最小多项式是存在唯一的, 而且次数不超过 n . 计算最小多项式通常是非常困难的, 一种方法是通过 Jordan 标准型来计算, 见定理 1.46.
定义1.9(特征子空间)设 λ 是 A∈Rn×n 的特征值,令
Sλ={x∈Cn∣Ax=λx}, 则可以验证 Sλ 为 Cn 的子空间, 称为 A 对应于特征值 λ 的一个特征子空间.
关于特征值的几点说明
只有当 A 是方阵时, 特征值与特征向量才有定义.
实矩阵的特征值与特征向量也有可能是复的
一个 n 阶矩阵总是存在 n 个特征值 (其中可能有相等的), 通常记为 λ1,λ2,…,λn .
所有特征值组成的集合称为矩阵的谱, 通常记为 σ(A) , 即
σ(A)≜{λ1,λ2,…,λn}. 特征值有代数重数 (所对应的特征多项式零点的重数) 和几何重数 (所对应的特征子空间的维数), 几何重数不超过代数重数.
相似变换不改变矩阵的特征值.
合同变换不改变矩阵的惯性指数 (即正特征值、负特征值和零特征值的个数).

思考:设 A∈Rn×n ,则 A⊤ 与 A 的特征值和特征向量是什么关系?
设 A 非奇异, 则 A−1 与 A 的特征值和特征向量是什么关系?
更一般地, 设 p(t) 是一个多项式, 则 p(A) 与 A 的特征值和特征向量是什么关系?
定义1.10(谱半径)设 A∈Rn×n 或 Cn×n ,其谱半径定义如下:
ρ(A)≜λ∈σ(A)max∣λ∣, 其中 σ(A) 表示 A 的谱
下面给出特征值的一些常用性质
定理1.15 设 A∈Rn×n , 则有
λ1λ2…λn=det(A),λ1+λ2+⋯+λn=tr(A), 其中 det(A) 表示 A 的行列式, tr(A) 表示 A 的迹 (对角线元素之和), 即
tr(A)≜a11+a22+⋯+ann. (留作课外自习, 高次多项式的韦达定理)
推论1.16 若 A 与 B 相似, 则 tr(A)=tr(B) , 即相似矩阵具有相同的迹.
定义1.11 设 A∈Rn×n . 若存在一个非奇异矩阵 X∈Cn×n , 使得
X−1AX=Λ,(1.1) 其中 Λ∈Cn×n 是对角矩阵, 则称 A 是可对角化的, 矩阵 Λ 的对角线元素即为 A 的特征值, 分解 (1.1) 称为矩阵 A 的特征值分解或谱分解.
Δ 并非所有矩阵都可以对角化, 比如 A=[0010] 是无法对角化的.
定理1.17 设 A∈Rn×n , 则
(1) A 可对角化当且仅当 A 有 n 个线性无关的特征向量;
(2) A 可对角化当且仅当 A 的所有特征值的代数重数与几何重数都相等;
(3) 若 A 有 n 个互不相等的特征值, 则 A 可对角化.
例1.11 设 A∈Rn×n 是对称矩阵, 则 A 可对角化, 而且可以正交对角化, 即存在正交矩阵 Q∈Rn×n 使得
A=QΛQT. 根据多项式零点关于多项式系数的连续性, 我们可以得到下面的结论.
定理1.18 矩阵的特征值关于矩阵元素是连续的, 即当矩阵的元素发生变化时, 其特征值的变化是连续的.
1.2.3 特征值的粗略估计
矩阵特征值在科学与工程计算中应用非常广泛, 但直接计算特征值通常比较困难, 特别是当矩阵规模非常大时. 本小节给出两个估计特征值所在范围的方法. 我们这里假定 A 是复矩阵.
Bendixson 估计方法
设 A∈Cn×n ,我们记
H≜21(A+A∗),S≜21(A−A∗). 易知 A=H+S ,且
H∗=H,S∗=−S, 即 H 是Hermite的, S 是Skew-Hermite(斜Hermite)的. 我们分别称 H 和 S 为 A 的Hermite部分和Skew-Hermite部分.
设 (λ,x) 是 A 的一个特征对,且 x∗x=1 ,则
Ax=λx⟹λ=x∗Ax=x∗Hx+x∗Sx, 其中 x∗Hx 是实数, x∗Sx 是纯虚数
定理1.19(Bendixson定理) 设 A∈Cn×n , 则
λmin(H)≤Re(λ(A))≤λmax(H), λmin(−iS)≤Im(λ(A))≤λmax(−iS), 其中 Re(⋅) 和 Im(⋅) 分别表示实部和虚部, i 是虚部单位.
这个定理告诉我们, 一个矩阵的特征值的实部的取值范围由其Hermite部分确定, 而虚部则由其Skew-Hermite部分确定.
Gerschgorin 圆盘估计方法
设 A=[aij]∈Cn×n ,定义集合
Di≜⎩⎨⎧z∈C:∣z−aii∣≤j=1,j=i∑n∣aij∣⎭⎬⎫,i=1,2,…,n.(1.2) 我们称 Di 为 A 的Gerschgorin圆盘(也称盖尔圆盘).
定理1.20(Gerschgorin圆盘定理)设 A∈Cn×n ,则 A 的所有特征值都包含在 A 的Gerschgorin 圆盘的并集中,即 σ(A)⊂⋃i=1nDi. (板书)
证明. 设 λ 是 A 的特征值, 对应的非零特征向量为 x=[x1,x2,…,xn]⊤∈Cn , 即 Ax=λx . 不失一般性, 设 ∥x∥∞=∣xi∣ , 则 ∣xi∣>0 . 考察 Ax=λx 的第 i 个方程可得
λxi−aiixi=j=1,j=i∑naijxj. 因此
∣λ−aii∣=∣xi∣1⋅j=1,j=i∑naijxj≤j=1,j=i∑n∣aij∣⋅∣xi∣∣xj∣≤j=1,j=i∑n∣aij∣. 所以 λ∈Di
将 A 的非对角线元素换成 τaij , 其中 0≤τ≤1 , 并利用特征值关于矩阵元素的连续性, 我们就可以得到下面的结论.
定理1.21 设 A∈Cn×n , 如果 ⋃i=1nDi 可分解成两个不相交的子集 S 和 T, 即
i=1⋃nDi=S⋃T且S⋂T=∅, 并假定 S 由 k 个圆盘组成, 而 T 由其它 n−k 个圆盘组成, 则 S 中恰好包含 A 的 k 个特征值 (重特征值按重数计算), 而 T 中则包含 A 的其它 n−k 个特征值.
1.2.4 不变子空间
定义1.12 设 A∈Rn×n , 子空间 S⊆Rn . 若 AS⊆S , 即对任意 x∈S , 都有 Ax∈S , 则称 S 为 A 的一个不变子空间.
一类特殊的不变子空间就是由特征向量所张成的子空间
定理1.22 设 x1,x2,…,xm 是 A 的一组线性无关的特征向量, 则 span{x1,x2,…,xm} 是 A 的一个 m 维不变子空间.
下面的结论对矩阵特征值计算非常重要
定理1.23 设 A∈Rn×n,X∈Rn×k 且 rank(X)=k , 则 span(X) 是 A 的不变子空间的充要条件是存在一个矩阵 B∈Rk×k 使得
此时, B 的特征值都是 A 的特征值
(板书)
证明. 设 X=[x1,x2,…,xk] , 由 rank(X)=k 可知向量组 {x1,x2,…,xk} 构成子空间 span(X) 的一组基.
首先证明必要性. 设 span(X) 是 A 的不变子空间, 则 Axj∈span(X) . 所以有
Axj=b1jx1+b2jx2+⋯+bkjxk,j=1,2,…,k, 其中 bij∈R 是线性表出系数. 将上式写成矩阵形式即为
AX=XB其 中B=[bij]∈Rk×k. 其次证明充分性. 设存在矩阵 B∈Rk×k , 使得 AX=XB . 则 Axj 为 x1,x2,…,xk 的线性组合. 又 {x1,x2,…,xk} 为 span(X) 的一组基, 所以对任意 x∈span(X) 都有 Ax∈span(X) , 即 span(X) 是 A 的一个不变子空间.
下面证明 B 的特征值都是 A 的特征值. 将 X 扩充成一个非奇异的方阵, 即存在矩阵 X~∈Rn×(n−k) , 使得 Y=[X,X~]∈Rn×n 非奇异. 将 Y−1 写成分块形式: Y−1=[Z1Z2] , 其中 Z1∈Rk×n , Z2∈R(n−k)×n . 由等式 Y−1Y=In×n 可得 Z1X=Ik×k , Z2X=0 . 又 AX=XB , 所以
Y−1AY=[Z1Z2]A[X,X~]=[Z1AXZ2AXZ1AX~Z2AX~]=[Z1XBZ2XBZ1AX~Z2AX~]=[B0Z1AX~Z2AX~]. 因此 B 的特征值都是 Y−1AY 的特征值. 由于 A 与 Y−1AY 相似, 所以它们具有相同的特征值.
由此, 定理结论成立.
推论1.24设 A∈Rn×n , X∈Rn×k 且 rank(X)=k .若存在一个矩阵 B∈Rk×k 使得 AX= XB, 则 (λ,v) 是 B 的一个特征对当且仅当 (λ,Xv) 是 A 的一个特征对. (留作课外自习)
1.2.5 投影变换
设 S1 和 S2 是内积空间 S 的两个子空间, 且 S=S1⊕S2 , 则 S 中的任意向量 x 都可唯一表示为
x=x1+x2,x1∈S1,x2∈S2. 我们称 x1 为 x 沿 S2 到 S1 上的投影,记为 x∣S1
需要指出的是, 由于 S1 的补空间不唯一, 因此在讨论投影时一定要明确给定 S2 .
例1.12 设 S1=span{e1},S2=span{e2},S~2=span{e} , 其中 e1=[1,0]T,e2=[0,1]T,e=[1,1]T . 于是有
R2=S1⊕S2=S1⊕S~2. 向量 x=[2,3]T 沿 S2 到 S1 上的投影是 [2,0]T , 而它沿 S~2 到 S1 上的投影是 [−1,0]T .
定义线性变换 P:S→S 如下:
Px=x∣S1,∀x∈S. 称 P 是从 S 沿 S2 到 S1 上的投影变换(也称投影算子),对应的矩阵称为投影矩阵.
几点注记
对于给定的子空间 S1 和 S2 (构成直和 S=S1⊕S2 ), 投影变换是唯一的.
线性变换在不同的基下对应不同的变换矩阵. 在不加特别指出时, 本讲义中如果线性空间是 Rn 或 Rn×n , 我们采用自然基, 即 {e1,e2,…,en} 和 {eij}i,j=1n
为了书写方便, 我们这里使用 P 既表示投影变换也表示其对应的投影矩阵.
设 P 是从 S 沿 S2 到 S1 上的投影变换, 则对任意 x∈S1 都有 Px=x . 因此, S1⊆Ran(P) . 又由定义可知 Ran(P)⊆S1 ,所以
S1=Ran(P). 类似地, 我们也可以验证
S2=Ker(P). 于是存在直和分解
S=Ran(P)⊕Ker(P). 若 S=Rn ,则立即可以得到下面的结论
引理1.25 设 P∈Rn×n 是一个投影矩阵, 则
Rn=Ran(P)⊕Ker(P).(1.3) 
思考:对于一般的矩阵 A∈Rn×n ,结论 Rn=Ran(A)⊕Ker(A) 是否成立?
下面的性质表明,投影矩阵由其像空间和零空间所唯一确定
定理1.26 设 Rn=S1⊕S2 ,则存在唯一的投影矩阵 P ,使得
Ran(P)=S1,Ker(P)=S2, 即对任意向量 x∈Rn ,有
Px∈S1,x−Px∈S2. 例1.13 若 S1=Rn ,则 S2={0} ,所对应的投影矩阵即为单位矩阵 I
反之, 若 S1={0} , 则 S2=Rn , 此时所对应的投影矩阵即为零矩阵.
引理1.27 设 P∈Rn×n 是一个投影矩阵, 则
(1) I−P 也是一个投影矩阵, 且 Ker(P)=Ran(I−P) ;
(2) P⊤ 也是一个投影矩阵.
(留作练习)
下面给出投影矩阵的判别定理. 首先, 根据定义, P 是沿 S2 到 S1 的投影变换的充要条件是: 对任意 x∈S1 有 Px=x , 而对任意 x∈S2 有 Px=0 .
定理1.28 矩阵 P∈Rn×n 是投影矩阵的充要条件是 P2=P ,即 P 是幂等矩阵。
(板书)
证明. 必要性: 设 P 是投影矩阵, 则对任意 x∈Rn , 都有
P2x=P(Px)=Px. 因此 P2=P
充分性: 设 P2=P . 我们只需证明 Ran(P)+Ker(P)=Rn . 显然 Ran(P)+Ker(P)⊆Rn , 因此只要证明 Rn⊆Ran(P)+Ker(P) . 对任意 x∈Rn , 有 x=Px+(x−Px) . 由 P(x−Px)=Px−P2x=0 可知 x−Px∈Ker(P) . 因此 Rn⊆Ran(P)+Ker(P) . 所以结论 Ran(P)+Ker(P)=Rn 成立. □
设 S1 和 S2 是 Rn 的两个 m 维子空间且 Rn=S1⊕S2⊥ , 则存在唯一的投影变换 P , 使得
Ran(P)=S1,Ker(P)=S2⊥. 此时,我们称 P 是 S1 上与 S2 正交的投影变换
令 v1,v2,…,vm 和 w1,w2,…,wm 分别是 S1 和 S2 的一组基, 则 P 可以由这两组基来表示.
定理1.29 设 P∈Rn×n 是 S1 上与 S2 正交的投影变换 (S1⊕S2⊥=Rn) , 则
P=V(WTV)−1WT,(1.4) 其中 V=[v1,v2,…,vm] , W=[w1,w2,…,wm] .
(留作练习)
虽然投影矩阵 P 由 S1 和 S2 唯一确定,但其矩阵表示形式(1.4)并不唯一 (W 和 V 不唯一).

思考:对于一般的投影变换,即 P 是沿 S2 到 S1 上的投影变换,如何给出 P 的表达式?
设 S1 是内积空间 S 的一个子空间, 则由定理 1.6 可知 S=S1⊕S1⊥ . 因此, 任意 x∈S 都可唯一分解成
x=x1+x2,x1∈S1,x2∈S1⊥. 我们称 x1 称为 X 在 S1 中的正交投影
若 P 是从 S 沿 S1⊥ 到 S1 上的投影变换, 则称 P 为子空间 S1 上的正交投影变换 (也称正交投影算子, orthogonal projector), 对应的矩阵称为正交投影矩阵), 记为 PS1 . 如果 P 不是正交投影变换, 则称为斜投影变换 (oblique projector).
由定理1.29可立即得到下面的结论
推论1.30 设 P 是子空间 S1 上的正交投影变换, {v1,v2,…,vm} 是 S1 的一组标准正交基, 则
P=VV⊤.(1.5) 定理1.31投影矩阵 P∈Rn×n 是正交投影矩阵的充要条件 PT=P
(留作练习)

思考:正交投影矩阵 P 的特征值可能取值有哪些?