4.2_Hermite矩阵的特征值的变分特征

4.2 Hermite 矩阵的特征值的变分特征

对于一般的矩阵 AMnA \in M_{n} ,关于特征值的唯一特征是,它们是特征方程 pA(t)=0p_A(t) = 0 的根。但是,对于Hermite矩阵,特征值可以表征为一系列最优化问题的解。

因为Hermite矩阵 AMnA \in M_{n} 的特征值都是实数,我们将约定,它们将按其大小递增(不减)顺序排列:

λmin=λ1λ2λn1λn=λmax.(4.2.1)\lambda_ {\min } = \lambda_ {1} \leqslant \lambda_ {2} \leqslant \dots \leqslant \lambda_ {n - 1} \leqslant \lambda_ {n} = \lambda_ {\max }. \tag {4.2.1}

很容易把最小的和最大的特征值描述成约束最小值和约束最大值问题。下述变分特征定理冠上了两个英国物理学家的名字,并且称 xAx/xxx^{*}Ax / x^{*}x 为Rayleigh-Ritz比。

4.2.2 定理 (Rayleigh-Ritz) 设 AMnA \in M_{n} 是 Hermite 矩阵, 且设 Λ\Lambda 的诸特征值取(4.2.1)中的顺序, 那么

λ1xxxAxλnxx对 所 有xCn成 立;\lambda_ {1} x ^ {*} x \leqslant x ^ {*} A x \leqslant \lambda_ {n} x ^ {*} x \text {对 所 有} x \in \mathbf {C} ^ {n} \text {成 立};
λmax=λn=maxi0xAxxx=maxj,j=1xAx,\lambda_ {\max } = \lambda_ {n} = \max _ {i \neq 0} \frac {x ^ {*} A x}{x \cdot x} = \max _ {j, j = 1} x ^ {*} A x,
λmin=λ1=minx0xAxxxminxx=1xAx.\lambda_ {\min } = \lambda_ {1} = \min _ {x \neq 0} \frac {x ^ {*} A x}{x ^ {*} x} - \min _ {x ^ {*} x = 1} x ^ {*} A x.

证明:因为 AA 是Hermite矩阵,所以存在酉矩阵 UMnU \in M_{n} 使得 A=UΛUA = U\Lambda U^{*} ,其中 Λ=diag(λ1,λ2,,λn)\Lambda = \operatorname{diag}(\lambda_1, \lambda_2, \dots, \lambda_n) 。对任一 xCnx \in \mathbf{C}^n ,有

xAx=xUΛUx=(Ux)Λ(Ux)=r=1nλi(Ux)r2\begin{array}{l} x ^ {*} A x = x ^ {*} U \Lambda U ^ {*} x = (U ^ {*} x) ^ {*} \Lambda (U ^ {*} x) \\ = \sum_ {r = 1} ^ {n} \lambda_ {i} \mid (U ^ {*} x) _ {r} \mid^ {2} \\ \end{array}

由于每项 (Ux)i2|(U^{*}x)_{i}|^{2} 是非负的,于是有

176

λmint=1n(Ux)t2xAx=r1nλr(Ux)r2λmaxt=1n(Ux)t2.\lambda_ {\min } \sum_ {t = 1} ^ {n} | (U ^ {*} x) _ {t} | ^ {2} \leqslant x ^ {*} A x = \sum_ {r - 1} ^ {n} \lambda_ {r} | (U ^ {*} x) _ {r} | ^ {2} \leqslant \lambda_ {\max } \sum_ {t = 1} ^ {n} | (U ^ {*} x) _ {t} | ^ {2}.

因为 UU 是酉矩阵,所以

i=1n(Ux)i2=i=1nxi2=xx,\sum_ {i = 1} ^ {n} | (U ^ {*} x) _ {i} | ^ {2} = \sum_ {i = 1} ^ {n} | x _ {i} | ^ {2} = x ^ {*} x,

因而我们已经证明,

λ1xx=λminxxxAxλmaxxx=λnxx.(4.2.3)\lambda_ {1} x ^ {*} x = \lambda_ {\min } x ^ {*} x \leqslant x ^ {*} A x \leqslant \lambda_ {\max } x ^ {*} x = \lambda_ {n} x ^ {*} x. \tag {4.2.3}

因为,如果 xxAA 的相应于特征值 λ1\lambda_{1} 的特征向量,那么 xAx=xλ1x=λ1xxx^{*}Ax = x^{*}\lambda_{1}x = \lambda_{1}x^{*}x ,且对于 λn\lambda_{n} 也有类似的结果,因此,这些不等式可取等式.其余的论断容易从(4.2.3)推出.如果 x0x\neq 0 则有

xAxxxλn,\frac {x ^ {*} A x}{x ^ {*} x} \leqslant \lambda_ {n},

xxAA 的相应于 λn\lambda_{n} 的特征向量时,等式成立,因而

maxx0xAxxx=λn.(4.2.4)\max _ {x \neq 0} \frac {x ^ {*} A x}{x ^ {*} x} = \lambda_ {n}. \tag {4.2.4}

最后,如果 x0x \neq 0 ,则有

xAxxx=(xxx)A(xxx)(xxx)(xxx)=1.\frac {x ^ {*} A x}{x ^ {*} x} = \left(\frac {x}{\sqrt {x ^ {*} x}}\right) ^ {*} A \left(\frac {x}{\sqrt {x ^ {*} x}}\right) \text {和} \left(\frac {x}{\sqrt {x ^ {*} x}}\right) ^ {*} \left(\frac {x}{\sqrt {x ^ {*} x}}\right) = 1.

因此,条件(4.2.4)等价于条件

maxr1xAx=λn.(4.2.5)\max _ {r ^ {*} - 1} x ^ {*} A x = \lambda_ {n}. \tag {4.2.5}

关于 λ1\lambda_{1} 的论证是类似的.

(4.2.5)的几何解释是,当 xx 取遍 Cn\mathbf{C}^n 中的单位球(它是紧集)时,函数 xAxx^{*}Ax 的最大值是 λn\lambda_{n}xAxx^{*}Ax 的取值范围(4.2.3)则给出了下述特征值包含结论。

4.2.6 推论 设 AMnA \in M_n 是一个给定的Hermite矩阵, xCnx \in \mathbf{C}^n 是一个给定的非零向量,又设 αxAx/x\alpha \equiv x'Ax / x^* ,那么,在区间 (,α](-\infty, \alpha] 中至少有 AA 的一个特征值,同样在区间 [α,)[\alpha, \infty) 中也至少有 AA 的一个特征值。

练习 证明推论(4.2.6).

练习 关于 λ1\lambda_{1} 的类似于(4.2.5)的结论及其几何解释是什么?

Rayleigh-Ritz 定理给出了 Hermite 矩阵 AA 的最大特征值和最小特征值的一个变分特征, 然而, 其余的特征值又怎样呢? 假定 A=UΔUA = U \Delta U^{*} , 且 U=[u1,u2,,un]U = [u_{1}, u_{2}, \dots, u_{n}] ; UU 的诸列是 AA 的标准正交向量. 如果只考虑与 u1u_{1} 正交的那些向量 xCnx \in \mathbf{C}^{n} , 那么, 对在 (4.2.2) 证明中的主要恒等式, 应做如下修正:

x ^ {*} A x = \sum_ {i = 1} ^ {n} \lambda_ {i} | (U ^ {*} x) _ {i} | ^ {2} = \sum_ {i = 1} ^ {n} \lambda_ {i} | u _ {i} ^ {*} x ^ {i} ^ {2} = \sum_ {i = 2} ^ {n} \lambda_ {i} | u _ {i} ^ {*} x | ^ {2}.

这是 λ2,λ3,,λn\lambda_{2}, \lambda_{3}, \cdots, \lambda_{n} 的一个凸组合,因而,只要 xxUU 的第1个列向量正交,就有

xAx=i=2nλiuix2λ2i=2nuix2=λ2i=1n(Ux)i2=λ2xx.x ^ {*} A x = \sum_ {i = 2} ^ {n} \lambda_ {i} | u _ {i} ^ {*} x | ^ {2} \geqslant \lambda_ {2} \sum_ {i = 2} ^ {n} | u _ {i} ^ {*} x | ^ {2} = \lambda_ {2} \sum_ {i = 1} ^ {n} | (U ^ {*} x) _ {i} | ^ {2} = \lambda_ {2} x ^ {*} x.

如果取 x=u2x = u_{2} ,这个不等式就变成等式,于是,有第二个最小特征值的一个特征

minx=1yu1xAxxx=minx=1yu1xAx=λ2.(4.2.7)\min _ { \begin{array}{l} x = 1 \\ y \perp u _ {1} \end{array} } \frac {x ^ {*} A x}{x ^ {*} x} = \min _ { \begin{array}{l} x = - 1 \\ y \perp u _ {1} \end{array} } x ^ {*} A x = \lambda_ {2}. \tag {4.2.7}

练习 试推广上述论证,进而证明

minxu1+u,,uk1xAxxx=minλz1zu1+u2,,uk1xAx=λk,k=2,3,,n.(4.2.8)\min _ {x \mid u _ {1} + u, \dots , u _ {k - 1}} \frac {x ^ {*} A x}{x ^ {*} x} = \min _ {\substack {\lambda^ {*} z - 1 \\ z \quad u _ {1} + u _ {2}, \dots , u _ {k - 1}}} x ^ {*} A x = \lambda_ {k}, \quad k = 2, 3, \dots , n. \tag{4.2.8}

练习 证明

maxr±0xAxxx=maxrr1xAx=λnk,k=1,2,,n1.(4.2.9)\max _ {r \pm 0} \frac {x ^ {*} A x}{x ^ {*} x} = \max _ {r ^ {*} r _ {1}} x ^ {*} A x = \lambda_ {n - k}, \quad k = 1, 2, \dots , n - 1. \tag {4.2.9}

遗憾的是,这些公式的实用价值不大,这是因为它们要求明确知道某些特征向量,而通常又没有这方面的信息。但是,(4.2.7)以及相关的公式(4.2.8)和(4.2.9)可以作为推导出一个有用的特征的出发点。设 wCnw \in \mathbb{C}^n 是给定的向量,那么

supxwxuxAx=suprc1xuxUΛUx=suprt=1xui=1nλiUx)i2=supzztUzui=1nλtzi2=supzzt=1i=1nλizi2supzz=1i=1nλizi2\begin{array}{l} \sup _ { \begin{array}{c} x \downarrow w \\ x \downarrow u \end{array} } x ^ {*} A x = \sup _ { \begin{array}{c} r \cdot c - 1 \\ x \perp u \end{array} } x ^ {*} U \Lambda U ^ {*} x = \sup _ { \begin{array}{c} r \cdot t = 1 \\ x \perp u \end{array} } \sum_ {i = 1} ^ {n} \lambda_ {i} | U ^ {*} x) _ {i} | ^ {2} \\ = \sup _ {z ^ {*} z \atop t - U z \mid u ^ {*}} \sum_ {i = 1} ^ {n} \lambda_ {t} | z _ {i} | ^ {2} = \sup _ {z ^ {*} z ^ {*} \atop t = 1} \sum_ {i = 1} ^ {n} \lambda_ {i} | z _ {i} | ^ {2} \\ \geqslant \sup _ {z ^ {*} z = 1} \sum_ {i = 1} ^ {n} \lambda_ {i} | z _ {i} | ^ {2} \\ \end{array}

177

178

=supλn1zn12+λnzn2λn1.zn12:zn1=1zn1w(4.2.10)\begin{array}{l} = \sup \quad \lambda_ {n - 1} \left| z _ {n - 1} \right| ^ {2} + \lambda_ {n} \left| z _ {n} \right| ^ {2} \geqslant \lambda_ {n - 1}. \tag {4.2.10} \\ \begin{array}{l} z _ {n - 1} \mid^ {2}: | z _ {n} | ^ {- 1} = 1 \\ z _ {n - 1} ^ {\prime} \mid^ {*} w \end{array} \\ \end{array}

在上述第二行论证中,令 zUxz \equiv U^{*}x ,且用到了以下事实:如果 xx=1x \cdot x = 1 ,那么 UU 是酉矩阵可推出 xz=1x \cdot z = 1 。上述第一个不等式从以下事实得来的:如果缩小某集合,然后在其上取上确界,则上确界的值不会增加。最后一个不等式是从次序关系 λnλn1\lambda_{n} \geqslant \lambda_{n-1} 以及常用的凸组性质得来的。

在上述论证中,向量 ω\pmb{\omega} 是固定的,但又是任意的,因而可以在所有 τω\pmb{\tau}_{\omega} 上取(4.2.10)的下确界,这便得到

infwCπsupx:x=1xAxλn1.\inf _ {w \in C ^ {\pi}} \sup _ {x: x = 1} x ^ {\prime} A x \geqslant \lambda_ {n - 1}.

但是,如果 w=unw = u_{n} ,则(4.2.10)中等式成立,因此有

infwCnsuprj=1wxAr=λn1,\inf _ {w \in \mathbf {C} ^ {n}} \sup _ {\substack {r ^ {*} j = 1 \\ w}} x ^ {*} A r = \lambda_ {n - 1},

这个在形式上比(4.2.7)稍微复杂一些的特征并不需要知道 AA 的任何特征向量。因为 x=un1x = u_{n-1} 时有 xAx=λn1x^{*}Ax = \lambda_{n-1} ,所以常常看到这个公式用“max”代替“sup”,用“min”代替“inf”。这是下述Courant-Fischer“极小一极大定理”的基本思想。

4.2.11 定理 (Courant-Fischer) 设 AMnA \in M_n 是具有特征值 λ1λ2λn\lambda_1 \leqslant \lambda_2 \leqslant \dots \leqslant \lambda_n 的 Hermite 矩阵, kk 是给定的整数, 1kn1 \leqslant k \leqslant n , 那么

minw1,w2,,wnkcmaxτ0,jcxu1,u2,,wnkxAxxx=λk,(4.2.12)maxu1,w2,,wkminϵcnxAxxx=λk.(4.2.13)\begin{array}{l} \min _ {w _ {1}, w _ {2}, \dots , w _ {n - k} \in \mathfrak {c} ^ {\prime \prime}} \max _ {\substack {\tau \neq 0, j \in \mathfrak {c} ^ {\prime \prime} \\ x \mid u _ {1}, u _ {2}, \dots , w _ {n - k}}} \frac {x ^ {*} A x}{x ^ {*} x} = \lambda_ {k}, (4.2.12) \\ \max _ {u _ {1}, w _ {2}, \dots , w _ {k}} \min _ {\epsilon \in \mathbf {c} ^ {n}} \frac {x ^ {*} A x}{x ^ {*} x} = \lambda_ {k}. (4.2.13) \\ \end{array}

附注 如果在(4.2.12)中 k=nk = n ,或在(4.2.13)中 k=1k = 1 ,约定去掉在外侧取极小或极大过程,因为这时取极小或极大的集合是空集,在这两种情形,上述结论简化为Rayleigh-Ritz定理(4.2.2).

证明:我们只考虑(4.2.12),而(4.2.13)的证法是类似的.把 AA 写成 A=UΛUA = U\Lambda U^{*} ,其中 UU 是酉矩阵,而 Λ=diag(λ1,λ2,,λn)\varLambda=\mathrm{diag}(\lambda_1,\lambda_2,\cdots,\lambda_n) ,且设 1<kn1 < k\leqslant n ,如果 x0x\neq 0 ,则

179

xAxxx=(Ux)Λ(Ux)xx(Ux)Λ(Ux)(Ux)(Ux),\frac {x ^ {*} A x}{x ^ {*} x} = \frac {(U ^ {*} x) ^ {*} \Lambda (U ^ {*} x)}{x ^ {*} x} - \frac {(U ^ {*} x) ^ {*} \Lambda (U ^ {*} x)}{(U ^ {*} x) ^ {*} (U ^ {*} x)},

{Ux:xCn\{U^{*}x: x \in \mathbf{C}^{n}x0}={yCn:y0}x \neq 0\} = \{y \in \mathbf{C}^{n}: y \neq 0\} . 因此,如果给定 w1,w2,,wn1Cnw_{1}, w_{2}, \cdots, w_{n-1} \in \mathbf{C}^{n} ,便有

supx0xAxxx=supy0yΛyyy=supy,y=1i=1nλiyisupi=1v:i:u1,,i:uni1=i,=ik1=ii=1nλiyi2\begin{array}{l} \sup _ {x \neq 0} \frac {x ^ {*} A x}{x ^ {*} x} = \sup _ {y \neq 0} \frac {y ^ {\prime} \Lambda y}{y ^ {\prime} y} \\ = \sup _ {y, y = 1} \sum_ {i = 1} ^ {n} \lambda_ {i} \mid y _ {i} \\ \geqslant \sup _ {\substack {i = 1 \\ v: i: u _ {1}, \dots , i: u _ {n} \\ i _ {1} = i, \dots = i _ {k - 1} = i}} \sum_ {i = 1} ^ {n} \lambda_ {i} | y _ {i} | ^ {2} \\ \end{array}
=supyk2+yk12+yn!21yUm1k,,Umnkki=knλiyi2λk.= \sup _ { \begin{array}{c} y _ {k} | ^ {2} + | y _ {k - 1} | ^ {2} + \dots - y _ {n}! ^ {2} - 1 \\ y \perp U _ {m _ {1}} ^ {k}, \dots , U _ {m _ {n - k}} ^ {k} \end{array} } \sum_ {i = k} ^ {n} \lambda_ {i} | y _ {i} | ^ {2} \geqslant \lambda_ {k}.

这说明,对任意 nkn - k 个向量 ω1,ω2,,ωnk\omega_{1},\omega_{2},\dots ,\omega_{n - k}

supi=u1,,unkxAxxxλk.\sup _ {i = u _ {1}, \dots , u _ {n - k}} \frac {x ^ {*} A x}{x ^ {*} x} \geqslant \lambda_ {k}.

而(4.2.9)说明,为使等式成立,诸向量 wi\pmb{w}_{i} 总有一种选择,即 wi=uni+1w_{i} = u_{n - i + 1} ,其中 U=[u1un]U = [u_{1}\dots u_{n}] 因此,

infw1,,wnksupx0xAxxx=λk,\inf _ {w _ {1}, \dots , w _ {n - k}} \sup _ {x \neq 0} \frac {x ^ {*} A x}{x ^ {*} x} = \lambda_ {k},

又因为极值是可以到达的,故可以用“min”和“max”代替“inf”和“sup”。关于(4.2.13)的证明是类似的。

练习 给出(4.2.13)的详细证明.

习题

  1. AMnA \in M_{n} 是具有特征值 λ1λ2λn\lambda_{1} \leqslant \lambda_{2} \leqslant \cdots \leqslant \lambda_{n} 的Hermite矩阵,试利用(4.2.11)证明

λk=minskmaxcnmaxxskxAxxx,k=1,2,,n,λk=maxsnk1cnminisnk+1xAxxx,k=1,2,,n,(180)\begin{array}{l} \lambda_ {k} = \min _ {s _ {k} ^ {*}} \max _ {\mathfrak {c} ^ {n}} \max _ {x \in s _ {k}} \frac {x ^ {*} A x}{x ^ {*} x}, \quad k = 1, 2, \dots , n, \\ \lambda_ {k} = \max _ {s _ {n - k - 1} \in c ^ {n}} \min _ {i \in s _ {n - k + 1}} \frac {x ^ {*} A x}{x ^ {*} x}, \quad k = 1, 2, \dots , n, \tag {180} \\ \end{array}

在这两个式子中, SjS_{j} 表示 jj 维子空间,其中在外侧取极小和取极大是对所有指定维数的子空间而言的。

  1. 如果 AMnA \in M_{n} 是Hermite矩阵,证明下述三个求极大值的问题有相同的解:

(a) max. xArx^{*}A_{r}
(b) maxx0xAxxx,\max_{x\neq 0}\frac{x^{*}Ax}{x^{*}x},
(c) maxxAx11xx\max_{x^{*}A_{x} - 1}\frac{1}{x^{*}x} ,如果 AA 至少有一个特征值是正数.

  1. 如果 AMnA \in M_{n} 是Hermite矩阵,且 xx˙=1x \dot{x} = 1 ,证明

λmaxxAxλmin\lambda_ {\max } \geqslant x ^ {\prime} A x \geqslant \lambda_ {\min }
  1. 通过考察 A=[1201]A = \begin{bmatrix} 1 & 2 \\ 0 & 1 \end{bmatrix} 来说明,在(4.2.2)中,关于 AA 是Hermite矩阵的假定必不可少. max{xTAx/xTx:0xR2}\max \{x^T Ax / x^T x : 0 \neq x \in \mathbb{R}^2\} 等于什么? maxRe{xTAx/xTx:0xC2}\max \operatorname{Re}\{x^T Ax / x^T x : 0 \neq x \in \mathbf{C}^2\} 等于什么?

  2. AMnA \in M_{n} 有特征值 {λi}\{\lambda_{i}\} . 证明, 即使 AA 是Hermite矩阵, 其特征值也有如下界限:

mini0xAxxxλimaxi=0xAxxx,i=1,2,,n.\min _ {i \leqslant 0} \left| \frac {x ^ {*} A x}{x ^ {*} x} \right| \leqslant | \lambda_ {i} | \leqslant \max _ {i = 0} \left| \frac {x ^ {*} A x}{x ^ {*} x} \right|, i = 1, 2, \dots , n.

提示:取 xxAA 的一个特征向量,并且用 A=[1101]A = \begin{bmatrix} 1 & 1 \\ 0 & 1 \end{bmatrix} 说明上、下两个界都是可以达到的。

4.2_Hermite矩阵的特征值的变分特征 - 矩阵分析 | OpenTech