4.2 Hermite 矩阵的特征值的变分特征
对于一般的矩阵 A∈Mn ,关于特征值的唯一特征是,它们是特征方程 pA(t)=0 的根。但是,对于Hermite矩阵,特征值可以表征为一系列最优化问题的解。
因为Hermite矩阵 A∈Mn 的特征值都是实数,我们将约定,它们将按其大小递增(不减)顺序排列:
λmin=λ1⩽λ2⩽⋯⩽λn−1⩽λn=λmax.(4.2.1) 很容易把最小的和最大的特征值描述成约束最小值和约束最大值问题。下述变分特征定理冠上了两个英国物理学家的名字,并且称 x∗Ax/x∗x 为Rayleigh-Ritz比。
4.2.2 定理 (Rayleigh-Ritz) 设 A∈Mn 是 Hermite 矩阵, 且设 Λ 的诸特征值取(4.2.1)中的顺序, 那么
λ1x∗x⩽x∗Ax⩽λnx∗x对 所 有x∈Cn成 立; λmax=λn=i=0maxx⋅xx∗Ax=j,j=1maxx∗Ax, λmin=λ1=x=0minx∗xx∗Ax−x∗x=1minx∗Ax. 证明:因为 A 是Hermite矩阵,所以存在酉矩阵 U∈Mn 使得 A=UΛU∗ ,其中 Λ=diag(λ1,λ2,…,λn) 。对任一 x∈Cn ,有
x∗Ax=x∗UΛU∗x=(U∗x)∗Λ(U∗x)=∑r=1nλi∣(U∗x)r∣2 由于每项 ∣(U∗x)i∣2 是非负的,于是有
176
λmint=1∑n∣(U∗x)t∣2⩽x∗Ax=r−1∑nλr∣(U∗x)r∣2⩽λmaxt=1∑n∣(U∗x)t∣2. 因为 U 是酉矩阵,所以
i=1∑n∣(U∗x)i∣2=i=1∑n∣xi∣2=x∗x, 因而我们已经证明,
λ1x∗x=λminx∗x⩽x∗Ax⩽λmaxx∗x=λnx∗x.(4.2.3) 因为,如果 x 是 A 的相应于特征值 λ1 的特征向量,那么 x∗Ax=x∗λ1x=λ1x∗x ,且对于 λn 也有类似的结果,因此,这些不等式可取等式.其余的论断容易从(4.2.3)推出.如果 x=0 则有
x∗xx∗Ax⩽λn, 当 x 是 A 的相应于 λn 的特征向量时,等式成立,因而
x=0maxx∗xx∗Ax=λn.(4.2.4) 最后,如果 x=0 ,则有
x∗xx∗Ax=(x∗xx)∗A(x∗xx)和(x∗xx)∗(x∗xx)=1. 因此,条件(4.2.4)等价于条件
r∗−1maxx∗Ax=λn.(4.2.5) 关于 λ1 的论证是类似的.
(4.2.5)的几何解释是,当 x 取遍 Cn 中的单位球(它是紧集)时,函数 x∗Ax 的最大值是 λn 。 x∗Ax 的取值范围(4.2.3)则给出了下述特征值包含结论。
4.2.6 推论 设 A∈Mn 是一个给定的Hermite矩阵, x∈Cn 是一个给定的非零向量,又设 α≡x′Ax/x∗ ,那么,在区间 (−∞,α] 中至少有 A 的一个特征值,同样在区间 [α,∞) 中也至少有 A 的一个特征值。
练习 证明推论(4.2.6).
练习 关于 λ1 的类似于(4.2.5)的结论及其几何解释是什么?
Rayleigh-Ritz 定理给出了 Hermite 矩阵 A 的最大特征值和最小特征值的一个变分特征, 然而, 其余的特征值又怎样呢? 假定 A=UΔU∗ , 且 U=[u1,u2,…,un] ; U 的诸列是 A 的标准正交向量. 如果只考虑与 u1 正交的那些向量 x∈Cn , 那么, 对在 (4.2.2) 证明中的主要恒等式, 应做如下修正:
x ^ {*} A x = \sum_ {i = 1} ^ {n} \lambda_ {i} | (U ^ {*} x) _ {i} | ^ {2} = \sum_ {i = 1} ^ {n} \lambda_ {i} | u _ {i} ^ {*} x ^ {i} ^ {2} = \sum_ {i = 2} ^ {n} \lambda_ {i} | u _ {i} ^ {*} x | ^ {2}.
这是 λ2,λ3,⋯,λn 的一个凸组合,因而,只要 x 与 U 的第1个列向量正交,就有
x∗Ax=i=2∑nλi∣ui∗x∣2⩾λ2i=2∑n∣ui∗x∣2=λ2i=1∑n∣(U∗x)i∣2=λ2x∗x. 如果取 x=u2 ,这个不等式就变成等式,于是,有第二个最小特征值的一个特征
x=1y⊥u1minx∗xx∗Ax=x=−1y⊥u1minx∗Ax=λ2.(4.2.7) 练习 试推广上述论证,进而证明
x∣u1+u,…,uk−1minx∗xx∗Ax=λ∗z−1zu1+u2,…,uk−1minx∗Ax=λk,k=2,3,…,n.(4.2.8) 练习 证明
r±0maxx∗xx∗Ax=r∗r1maxx∗Ax=λn−k,k=1,2,…,n−1.(4.2.9) 遗憾的是,这些公式的实用价值不大,这是因为它们要求明确知道某些特征向量,而通常又没有这方面的信息。但是,(4.2.7)以及相关的公式(4.2.8)和(4.2.9)可以作为推导出一个有用的特征的出发点。设 w∈Cn 是给定的向量,那么
supx↓wx↓ux∗Ax=supr⋅c−1x⊥ux∗UΛU∗x=supr⋅t=1x⊥u∑i=1nλi∣U∗x)i∣2=supt−Uz∣u∗z∗z∑i=1nλt∣zi∣2=supt=1z∗z∗∑i=1nλi∣zi∣2⩾supz∗z=1∑i=1nλi∣zi∣2 177
178
=supλn−1∣zn−1∣2+λn∣zn∣2⩾λn−1.zn−1∣2:∣zn∣−1=1zn−1′∣∗w(4.2.10) 在上述第二行论证中,令 z≡U∗x ,且用到了以下事实:如果 x⋅x=1 ,那么 U 是酉矩阵可推出 x⋅z=1 。上述第一个不等式从以下事实得来的:如果缩小某集合,然后在其上取上确界,则上确界的值不会增加。最后一个不等式是从次序关系 λn⩾λn−1 以及常用的凸组性质得来的。
在上述论证中,向量 ω 是固定的,但又是任意的,因而可以在所有 τω 上取(4.2.10)的下确界,这便得到
w∈Cπinfx:x=1supx′Ax⩾λn−1. 但是,如果 w=un ,则(4.2.10)中等式成立,因此有
w∈Cninfr∗j=1wsupx∗Ar=λn−1, 这个在形式上比(4.2.7)稍微复杂一些的特征并不需要知道 A 的任何特征向量。因为 x=un−1 时有 x∗Ax=λn−1 ,所以常常看到这个公式用“max”代替“sup”,用“min”代替“inf”。这是下述Courant-Fischer“极小一极大定理”的基本思想。
4.2.11 定理 (Courant-Fischer) 设 A∈Mn 是具有特征值 λ1⩽λ2⩽⋯⩽λn 的 Hermite 矩阵, k 是给定的整数, 1⩽k⩽n , 那么
minw1,w2,…,wn−k∈c′′maxτ=0,j∈c′′x∣u1,u2,…,wn−kx∗xx∗Ax=λk,(4.2.12)maxu1,w2,…,wkminϵ∈cnx∗xx∗Ax=λk.(4.2.13) 附注 如果在(4.2.12)中 k=n ,或在(4.2.13)中 k=1 ,约定去掉在外侧取极小或极大过程,因为这时取极小或极大的集合是空集,在这两种情形,上述结论简化为Rayleigh-Ritz定理(4.2.2).
证明:我们只考虑(4.2.12),而(4.2.13)的证法是类似的.把 A 写成 A=UΛU∗ ,其中 U 是酉矩阵,而 Λ=diag(λ1,λ2,⋯,λn) ,且设 1<k⩽n ,如果 x=0 ,则
179
x∗xx∗Ax=x∗x(U∗x)∗Λ(U∗x)−(U∗x)∗(U∗x)(U∗x)∗Λ(U∗x), 且 {U∗x:x∈Cn 且 x=0}={y∈Cn:y=0} . 因此,如果给定 w1,w2,⋯,wn−1∈Cn ,便有
supx=0x∗xx∗Ax=supy=0y′yy′Λy=supy,y=1∑i=1nλi∣yi⩾supi=1v:i:u1,…,i:uni1=i,⋯=ik−1=i∑i=1nλi∣yi∣2 =yk∣2+∣yk−1∣2+⋯−yn!2−1y⊥Um1k,…,Umn−kksupi=k∑nλi∣yi∣2⩾λk. 这说明,对任意 n−k 个向量 ω1,ω2,…,ωn−k
i=u1,…,un−ksupx∗xx∗Ax⩾λk. 而(4.2.9)说明,为使等式成立,诸向量 wi 总有一种选择,即 wi=un−i+1 ,其中 U=[u1…un] 因此,
w1,…,wn−kinfx=0supx∗xx∗Ax=λk, 又因为极值是可以到达的,故可以用“min”和“max”代替“inf”和“sup”。关于(4.2.13)的证明是类似的。
练习 给出(4.2.13)的详细证明.
习题
设 A∈Mn 是具有特征值 λ1⩽λ2⩽⋯⩽λn 的Hermite矩阵,试利用(4.2.11)证明
λk=minsk∗maxcnmaxx∈skx∗xx∗Ax,k=1,2,…,n,λk=maxsn−k−1∈cnmini∈sn−k+1x∗xx∗Ax,k=1,2,…,n,(180) 在这两个式子中, Sj 表示 j 维子空间,其中在外侧取极小和取极大是对所有指定维数的子空间而言的。
如果 A∈Mn 是Hermite矩阵,证明下述三个求极大值的问题有相同的解:
(a) max. x∗Ar
(b) maxx=0x∗xx∗Ax,
(c) maxx∗Ax−1x∗x1 ,如果 A 至少有一个特征值是正数.
如果 A∈Mn 是Hermite矩阵,且 xx˙=1 ,证明
λmax⩾x′Ax⩾λmin 通过考察 A=[1021] 来说明,在(4.2.2)中,关于 A 是Hermite矩阵的假定必不可少. max{xTAx/xTx:0=x∈R2} 等于什么? maxRe{xTAx/xTx:0=x∈C2} 等于什么?
设 A∈Mn 有特征值 {λi} . 证明, 即使 A 是Hermite矩阵, 其特征值也有如下界限:
i⩽0minx∗xx∗Ax⩽∣λi∣⩽i=0maxx∗xx∗Ax,i=1,2,…,n. 提示:取 x 为 A 的一个特征向量,并且用 A=[1011] 说明上、下两个界都是可以达到的。