4.3_变分特征的某些应用

4.3 变分特征的某些应用

在 Courant-Fischer 定理的许多重要应用中,最简单的应用是关于 A+BA + B 的诸特征值与 Λ\Lambda 的特征值的比较问题。我们用 λi(A)\lambda_{i}(A) 表示矩阵 AA 的诸特征值。

4.3.1 定理 (Weyl) 设 A,BMnA, B \in M_{n} 是 Hermite 矩阵,又设诸特征值 λi(Λ),λi(B)\lambda_{i}(\Lambda), \lambda_{i}(B) 以及 λi(AB)\lambda_{i}(A-B) 均按递增顺序 (4.2.1) 排列,则对每个 k=1,2,,nk=1,2, \cdots, n ,有

λk(A)+λ1(B)λk(A+B)λk(A)+λn(B).(4.3.2)\lambda_ {k} (A) + \lambda_ {1} (B) \leqslant \lambda_ {k} (A + B) \leqslant \lambda_ {k} (A) + \lambda_ {n} (B). \tag {4.3.2}

证明:对于任意非 xCnx \in \mathbf{C}^n ,有不等式

λ1(B)xBxxxλn(B),\lambda_ {1} (B) \leqslant \frac {x ^ {*} B x}{x ^ {*} x} \leqslant \lambda_ {n} (B),

[18] 因而对任意 k=1,2,,nk = 1, 2, \dots, n ,有

λk(A+B)=minw1,,wnkmaxxw1,,wnkx(A+B)xxx=minu1,,unkc2maxx0x1,x2,,wnk[xAxxx+xBxxx]minw1,,wnkCnmaxτ0[xAxxx+λ1(B)]=λk(A)+λ1(B).\begin{array}{l} \lambda_ {k} (A + B) = \min _ {w _ {1}, \dots , w _ {n - k}} \max _ {\left. x \right| w _ {1}, \dots , w _ {n - k}} \frac {x ^ {\prime} (A + B) x}{x ^ {*} x} \\ = \min _ {u _ {1}, \dots , u _ {n} k \in c ^ {2}} \max _ {\substack {x \neq 0 \\ x _ {1}, x _ {2}, \dots , w _ {n} k}} \left[ \frac {x ^ {*} A x}{x ^ {*} x} + \frac {x ^ {*} B x}{x ^ {*} x} \right] \\ \geqslant \min _ {w _ {1}, \dots , w _ {n - k} \in \mathbf {C} ^ {n}} \max _ {\tau \neq 0} \left[ \frac {x ^ {*} A x}{x ^ {*} x} + \lambda_ {1} (B) \right] = \lambda_ {k} (A) + \lambda_ {1} (B). \\ \end{array}

类似的论证同样可以确定它的上界.

练习 说明在(4.3.1)中给出的界中可以取等号。提示:设 {u1,u2,,un}\{u_1, u_2, \dots, u_n\} 是由 AA 的特征向量组成的标准正交组,且 Aui=λi(A)uiAu_i = \lambda_i(A)u_i ,分别对 α>0\alpha > 0α<0\alpha < 0 考察 B=αuiuiB = \alpha u_i u_i^*

Weyl定理对任意Hermite矩阵 AABB 给出了 A+BA + B 的特征值的上界和下界。如果限制 BB 具有一种特殊的形式,例如 BB 为正定矩阵、秩1矩阵、秩 kk 矩阵或加边矩阵,还可以得到更为精细的表述。

矩阵 BMnB \in M_{n} 称为半正定的,是指它对所有 xCnx \in \mathbb{C}^{n}xBx0x^{*} B x \geqslant 0 。一个等价的条件是, BB 是Hermite 矩阵,且所有特征值都是非负的(见第7章)。下述结果是Weyl 定理的直接推论,称之为单调性定理,它说明,如果一个Hermite 矩阵加上一个半正定矩阵,则它的所有特征值都会增加。

4.3.3 推论 设 A,BMnA, B \in M_{n} 是Hermite矩阵。假定 BB 是半正定矩阵,且 AAA+BA + B 的诸特征值均按递增顺序(4.2.1)排列,则对所有 k=1,2,,nk = 1, 2, \dots, n

λk(A)λk(A+B).\lambda_ {k} (A) \leqslant \lambda_ {k} (A + B).

证明:利用(4.3.2)中的下界及 λ1(B)0\lambda_1(B) \geq 0 的事实,

如果矩阵 BB 有秩1,那么用 AA 的特征值作为 A+BA + B 的特征值的界具有交错定理的形式:在 A+BA + B 的每对相邻的单号数(或双号数)特征值间至少存在 AA 的一个特征值.

4.3.4 定理 设 ΛMn\Lambda \in M_{n} 是Hermite 矩阵, zCnz \in \mathbb{C}^{n} 是给定的向量。如果 Λ\LambdaA±zzA \pm zz^{*} 的诸特征值均按递增顺序(4.2.1)排列,则有

(a) λk(A±zz)λk+1(A)λk+2(A±zz),k=1,2,,n2,\lambda_{k}(A \pm zz^{*}) \leqslant \lambda_{k+1}(A) \leqslant \lambda_{k+2}(A \pm zz^{*}), k = 1, 2, \dots, n-2,
(b) λk(A)λk1(Λ±zz)λk+2(A),k1,2,,n2.\lambda_{k}(A)\leqslant \lambda_{k - 1}(\Lambda \pm zz^{*})\leqslant \lambda_{k + 2}(A),\quad k - 1,2,\dots ,n - 2.

证明:设 1kn1 \leqslant k \leqslant n 2,利用(4.2.12)可导出下述关系:

λk2(A±zz)minw1,,unk2Cmaxγw1,,unk2x(A±zz)xxxminw1,,wn,k:cnmaxx,w1,,wn+nxzx(A±zz)xxx=minu1,,unk2cn,u1,,unk2,unk1maxx0x,xxAxxxminw1,,wnk2wn+1maxϵ=0λΛkxxλk+1(A).\begin{array}{l} \lambda_ {k \cdot 2} (A \pm z z ^ {*}) - \min _ {w _ {1}, \dots , u _ {n - k - 2} \in \mathbf {C} ^ {*}} \max _ {\gamma \lfloor w _ {1}, \dots , u _ {n - k - 2}} \frac {x ^ {*} (A \pm z z ^ {*}) x}{x ^ {*} x} \\ \geqslant \min _ {w _ {1}, \dots , w _ {n, k}: \in \mathfrak {c} ^ {n}} \max _ {\substack {x, w _ {1}, \dots , w _ {n + n} \\ x - z}} \frac {x ^ {*} (A \pm z z ^ {*}) x}{x ^ {*} x} \\ = \min _ {\substack {u _ {1}, \dots , u _ {n - k - 2} \in \mathbf {c} ^ {n}, \lfloor u _ {1}, \dots , u _ {n - k - 2}, u _ {n - k - 1}}} \max _ {\substack {x \neq 0 \\ x, x}} \frac {x ^ {*} A x}{x ^ {*} x} \\ \geqslant \min _ {w _ {1}, \dots , w _ {n - k - 2} \cdot w _ {n + 1}} \max _ {\epsilon = 0} \frac {\lambda^ {*} \Lambda_ {k}}{x ^ {*} x} \\ - \lambda_ {k + 1} (A). \\ \end{array}

现在设 2kn12 \leqslant k \leqslant n - 1 ,利用(4.2.13)可以导出下述关系:

λk(A±zx)=maxw1,,wk1Cminr±ui,,wk1x(A±zx)xmaxw1,,wk1cminr0x:w1,,wk1xrx(Azz)xxx=maxw1,,wk1ϵnukminx0xu1,,wk,,ukxAxxxmaxw1,,wk1,wkCnminx0x,w1,,wk1,wkxAxxx=λk+1(A).\begin{array}{l} \lambda_ {k} (A \pm z x ^ {*}) = \max _ {w _ {1}, \dots , w _ {k - 1} \in C ^ {*}} \min _ {\substack {r \pm u _ {i}, \dots , w _ {k - 1}}} x ^ {*} \left(A \pm z x ^ {*}\right) x \\ \leqslant \max _ {w _ {1}, \dots , w _ {k - 1} \in c ^ {*}} \min _ {\substack {r \neq 0 \\ x: w _ {1}, \dots , w _ {k - 1} \\ x \mid r}} \frac {x ^ {*} (A \vdash z z ^ {*}) x}{x ^ {*} x} \\ = \max _ {\substack {w _ {1}, \dots , w _ {k - 1} \in \epsilon^ {n} \\ u _ {k} \in}} \min _ {\substack {x \neq 0 \\ x \mid u _ {1}, \dots , w _ {k}, \dots , u _ {k}}} \frac {x ^ {*} A x}{x ^ {*} x} \\ \leqslant \max _ {w _ {1}, \dots , w _ {k - 1}, w _ {k} \in C ^ {n}} \min _ {\substack {x \neq 0 \\ x, w _ {1}, \dots , w _ {k - 1}, w _ {k}}} \frac {x ^ {*} A x}{x ^ {*} x} = \lambda_ {k + 1} (A). \\ \end{array}

合并这两组不等式,由此得到所要求的不等式组

如果 BMnB \in M_{n} 是一个Hermite矩阵,且 B=UΛUB = U\Lambda U^{*} ,其中, U=[u1u2un]U = [u_{1}u_{2}\dots u_{n}] 是两矩阵, Λdiag(β1,β2,,βn)\Lambda - \operatorname{diag}(\beta_{1}, \beta_{2}, \dots, \beta_{n}) ,则 BB 的秩等于非零特征值的个数。如果 BB 的秩小于或等于 rr ,则可假定 βr+1==βn0\beta_{r+1} = \dots = \beta_{n} - 0 。如果秩小于 rr ,则 β1,β2,,βs\beta_{1}, \beta_{2}, \dots, \beta_{s} 含有某些为零的特征值,表示式

B=i=1rβiuiui(4.3.5)B = \sum_ {i = 1} ^ {r} \beta_ {i} u _ {i} u _ {i} ^ {*} \tag {4.3.5}

是表示 B=UΛUB = U\Lambda U^{*} 的另一种形式。反过来,形如(4.3.5)的任何矩阵,只要所有 βt0\beta_{t} \neq 0{ut}\{u_{t}\} 是无关组,那么它就有秩 rr ;如果不知道 {ut}\{u_{t}\} 是否无关,那么 BB 的秩至多是 rr 。Weyl 的下一个定理给出了当 BB 有秩 rrA+BA + B 的诸特征值的界,它来源于积分方程理论。本定理是(4.3.4)的秩1情形的简单推广。

4.3.6 定理 设 A,BMnA, B \in M_{n} 是Hermite矩阵,并且假定 BB 至多有秩 rr ,则

(a) λk(A+B)λk+r(A)λk+2r(A+B),k=1,2,,n2r;\lambda_{k}(A + B)\leqslant \lambda_{k + r}(A)\leqslant \lambda_{k + 2r}(A + B),\quad k = 1,2,\dots ,n - 2r;
(b) λk(A)λk+r(A+B)λk+2r(A),k=1,2,,n2r;\lambda_{k}(A)\leqslant \lambda_{k + r}(A + B)\leqslant \lambda_{k + 2r}(A),\quad k = 1,2,\dots ,n - 2r;

[183]

(c)如果 A=UΛUA = U\Lambda U^{*} ,其中, U=[u1u2un]MnU = [u_{1}u_{2}\dots u_{n}] \in M_{n} 是酉矩阵, Λ=diag(λ1,,λn)\Lambda = \mathrm{diag}(\lambda_1,\dots ,\lambda_n) ,且 λ1λ2λn\lambda_1\leqslant \lambda_2\leqslant \dots \leqslant \lambda_n ,又如果

B=λnunun+λn1un1un1++λnr+1unr+1unr1,B = \lambda_ {n} u _ {n} u _ {n} ^ {*} + \lambda_ {n - 1} u _ {n - 1} u _ {n - 1} ^ {*} + \dots + \lambda_ {n - r + 1} u _ {n - r + 1} u _ {n - r - 1} ^ {*},

λmax(AB)=λn(A)\lambda_{\max}(A - B) = \lambda_n(A) .

证明:设 B=α1u1u1++αrururB = \alpha_{1}u_{1}u_{1}^{*} + \dots +\alpha_{r}u_{r}u_{r}^{*} ,其中集合 {u1,,ur}Cn\{u_1,\dots ,u_r\} \subset \mathbf{C}^n 不一定无关,(a)和(b)的证明恰好与(4.3.4)中(a)和(b)的证明相同.只是在前面放上一个条件“ xzx\bot z ”的地方,现在加上 rr 个条件“ xu1,,urx\bot u_{1},\dots ,u_{r} ”,并完成相应的论证.关于(c),注意到 u1,,unu_{1},\dots ,u_{n} 都是 ABA\cdot B 的特征向量,但是对于 k=nr+1k = n\cdot r + 1nr+2n - r + 2 ,…, nn(AB)uk=0(A - B)u_{k} = 0 ,而对于 k=1,2,,k = 1,2,\dots , nrn - r(AB)uk=λkuk(A - B)u_{k} = \lambda_{k}u_{k} ,因为 λnrλnr1λ1\lambda_{n - r}\geqslant \lambda_{n - r - 1}\geqslant \dots \geqslant \lambda_{1} ,所以 ABA - B 的最大特征值是 λnr\lambda_{n - r}

练习 给出(4.3.6)中的(a)和(b)的详细证明。

上述结果所提供的足够信息,使我们能够推导出 Weyl 关于两个 Hermite 矩阵之和的特征值的下述一般结果。

4.3.7 定理 (Weyl) 设 A,BMnA, B \in M_n 是 Hermite 矩阵,且 A,BA, BA+BA + B 的诸特征值按 (4.2.1) 的递增顺序排列,那么,对于使得 1j,kn1 \leqslant j, k \leqslant nj+kn+1j + k \geqslant n + 1 的每对整数 j,kj, k ,有

λj+kn(A+B)λj(A)+λk(B),\lambda_ {j + k - n} (A + B) \leqslant \lambda_ {j} (A) + \lambda_ {k} (B),

而对于使得 1j,kn1 \leqslant j, k \leqslant nj+kn+1j + k \leqslant n + 1 的每对整数 j,kj, k ,有

λj(A)+λk(B)λj+k(A+B).\lambda_ {j} (A) + \lambda_ {k} (B) \leqslant \lambda_ {j + k} (A + B).

证明:设 j,kj, k 是满足第一组条件的已知整数。设 A=UΛ(A)UA = U\Lambda(A)U^{*}B=VΛ(B)VB = V\Lambda(B)V^{*} ,其中, U=[u1u2un]MnU = [u_{1}u_{2}\dots u_{n}] \in M_{n}V=[v1v2vn]MnV = [v_{1}v_{2}\dots v_{n}] \in M_{n} 是两矩阵, Λ(A)=diag(λ1(A),,λn(A))Mn\Lambda(A) = \operatorname{diag}(\lambda_{1}(A), \dots, \lambda_{n}(A)) \in M_{n}Λ(B)=diag(λ1(B),,λn(B))Mn\Lambda(B) = \operatorname{diag}(\lambda_{1}(B), \dots, \lambda_{n}(B)) \in M_{n} ,因而

Aj=λn(A)unun+λn1(A)un1un1++λj+1(A)uj1uj+1A _ {j} = \lambda_ {n} (A) u _ {n} u _ {n} ^ {*} + \lambda_ {n - 1} (A) u _ {n - 1} u _ {n - 1} ^ {*} + \dots + \lambda_ {j + 1} (A) u _ {j - 1} u _ {j + 1} ^ {*}

的秩至多为 njn - jBkλn(B)vnvn++λk1(B)vk1vk+1B_{k} \equiv \lambda_{n}(B)v_{n}v_{n}^{\prime} + \dots + \lambda_{k-1}(B)v_{k-1}v_{k+1}^{\prime} 的秩至多为 nkn - k ,而 Aj+BkA_{j} + B_{k} 的秩至多为 2njk2n - j - k 。于是,根据(4.3.6c), λn(AAj)=λj(A)\lambda_{n}(A - A_{j}) = \lambda_{j}(A)λn(BBk)λk(B)\lambda_{n}(B - B_{k}) - \lambda_{k}(B) ,再根据(4.3.6b), λn(AAj+BBk)=λn(A+B(Aj+Bk))λn(2njk)(A+B)=λj+kn(A+B)\lambda_{n}(A - A_{j} + B - B_{k}) = \lambda_{n}(A + B - (A_{j} + B_{k})) \geqslant \lambda_{n(2n - j - k)}(A + B) = \lambda_{j + k - n}(A + B) (其中 k+r=nk + r = nr=2njkr = 2n - j - k )。另外根据(4.3.2)有

λn(AAj+BBk)λn(AAj)+λn(BBk),\lambda_ {n} (A - A _ {j} + B - B _ {k}) \leqslant \lambda_ {n} (A - A _ {j}) + \lambda_ {n} (B - B _ {k}),

(其中 k=nk = n ).因此,有

λj(A)+λk(B)=λn(AAj)+λn(BBk)λn(AAt+BBk)=λn((A+B)(Aj+Bk))λj+kn(A+B),\begin{array}{l} \lambda_ {j} (A) + \lambda_ {k} (B) = \lambda_ {n} (A - A _ {j}) + \lambda_ {n} (B - B _ {k}) \geqslant \lambda_ {n} (A - A _ {t} + B - B _ {k}) \\ = \lambda_ {n} ((A + B) - (A _ {j} + B _ {k})) \geqslant \lambda_ {j + k - n} (A + B), \\ \end{array}

这就是要证的第一组不等式。第二组不等式可直接由第一组不等式推出,只需把它应用于 A-AB-B 即可。

练习 试给出从(4.3.7)中的第一组不等式推导出第二组不等式的详细证明。提示:利用(4.3.7)得到 λj+kn(AB)\lambda_{j + k - n}(-A - B) 的一个上界,然后利用下面的事实:如果 AMnA \in M_n 是Hermite矩阵,则 λ1(A)=λnj+1(A)\lambda_1(-A) = -\lambda_{n - j + 1}(A)

作为这种类型的最后一个结果,考虑关于 A+BA + B 的特征值的交错定理,其中,假定 AABB 中的每一个都具有特殊的形式。这个结果类似于(4.3.4)中假定 BB 有秩1的情形,称之为加边

矩阵的交错特征值定理.

4.3.8 定理 设 AMnA \in M_{n} 是给定的 Hermite 矩阵, yCny \in \mathbf{C}^{n} 是给定的向量, aRa \in \mathbb{R} 是给定的实数。设 A^Mn+1\hat{A} \in M_{n+1} 是在 AA 旁镶上 yyaa 后得到的 Hermite 矩阵,如下所述:

A^[Ayya].\hat {A} \equiv \left[ \begin{array}{c c} A & y \\ y ^ {\prime} & a \end{array} \right].

[185]

AAA^\hat{A} 的特征值分别用 {λi}\{\lambda_{i}\}{λ^i}\{\hat{\lambda}_i\} 表示,且假定它们按递增顺序 λ1λn\lambda_1\leqslant \dots \leqslant \lambda_nλ^1λ^2\hat{\lambda}_1\leqslant \hat{\lambda}_2\leqslant \dots \leqslant λ^nλ^n1\hat{\lambda}_{n}\leqslant \hat{\lambda}_{n - 1} 排列,那么

λ˙1λ1λ˙2λ2λn1λ˙nλnλ˙n+1.(4.3.9)\dot {\lambda} _ {1} \leqslant \lambda_ {1} \leqslant \dot {\lambda} _ {2} \leqslant \lambda_ {2} \leqslant \dots \leqslant \lambda_ {n - 1} \leqslant \dot {\lambda} _ {n} \leqslant \lambda_ {n} \leqslant \dot {\lambda} _ {n + 1}. \tag {4.3.9}

证明:设 kk 是给定的整数,且 1kn1 \leqslant k \leqslant n 。我们要证明 λ^kλkλ^k+1\hat{\lambda}_k \leqslant \lambda_k \leqslant \hat{\lambda}_{k+1} 。设 r^=[rTζ]TCn+1\hat{r} = [r^T \zeta]^T \in \mathbf{C}^{n+1}rCnr \in \mathbf{C}^nζC\zeta \in \mathbf{C} ,且 w^i[wiwi]tCn+1\hat{w}_i - [w_i' w_i']^t \in \mathbf{C}^{n+1}wiCnw_i \in \mathbf{C}^nwCw \in \mathbf{C} 。利用 Courant-Fischer 定理的 (4.2.12) 可导出

λ^k+1=minu1,,u(n+1)(k1)cn1maxτ^0,τ^cn+1x^A^x^x^x^minw1,,wn,kcn+1maxx^0x^A^x^x^x^=minw1,,wnkcnmaxx0,xcnxw1,,znkxAxxx=λk.\begin{array}{l} \hat {\lambda} _ {k + 1} = \min _ {u _ {1}, \dots , u _ {(n + 1) - (k - 1)} \in \mathbf {c} ^ {n - 1}} \max _ {\hat {\tau} \neq 0, \hat {\tau} \in \mathbf {c} ^ {n + 1}} \frac {\hat {x} ^ {*} \hat {A} \hat {x}}{\hat {x} ^ {*} \hat {x}} \\ \geqslant \min _ {\vec {w} _ {1}, \dots , \vec {w} _ {n, k} \in c ^ {n + 1}} \max _ {\hat {x} \neq 0} \frac {\hat {x} ^ {*} \hat {A} \hat {x}}{\hat {x} ^ {*} \hat {x}} \\ = \min _ {w _ {1}, \dots , w _ {n - k} \in \mathbf {c} ^ {n}} \max _ {\substack {x \neq 0, x \in \mathbf {c} ^ {n} \\ x - w _ {1}, \dots , z _ {n - k}}} \frac {x ^ {*} A x}{x ^ {*} x} = \lambda_ {k}. \\ \end{array}

关于 λk\lambda_{k} 的下界,利用(4.2.13)

λ^k=maxx1,,wk1cn+1minx0,xcn1x:wj,,nk1x^x^A^x^x^maxu1,,uk1cn+1minτ=0x^A^x^x^x^=maxw1,,wk1cnminx0,xcnx,w1,,wk1xAxxx=λk.\begin{array}{l} \hat {\lambda} _ {k} = \max _ {x _ {1}, \dots , w _ {k - 1} \in \mathbf {c} ^ {n + 1}} \min _ {\substack {\vec {x} \neq 0, \vec {x} \in \mathbf {c} ^ {n - 1} \\ \vec {x}: w _ {j}, \dots , n _ {k - 1}}} \frac {\hat {x} ^ {*}}{\hat {x} ^ {*}} \frac {\hat {A} \hat {x}}{\hat {x}} \\ \leqslant \max _ {\vec {u} _ {1}, \dots , \vec {u} _ {k - 1} \in \mathbf {c} ^ {n + 1}} \min _ {\vec {\tau} = 0} \frac {\hat {x} ^ {*} \hat {A} \hat {x}}{\hat {x} ^ {*} \hat {x}} \\ = \max _ {w _ {1}, \dots , w _ {k - 1} \in \mathbf {c} ^ {n}} \min _ {\substack {x \neq 0, x \in \mathbf {c} ^ {n} \\ x, w _ {1}, \dots , w _ {k - 1}}} \frac {x ^ {*} A x}{x ^ {*} x} = \lambda_ {k}. \\ \end{array}

我们已经看到关于特征值的交错定理的两个例子:如果给某个Hermite矩阵加上一个秩1Hermite矩阵或者通过加边造出一个新的Hermite矩阵,那么新旧矩阵的特征值必定交错。关于它们的逆命题又怎样呢?如果给定两组交错的实数,能否造一个Hermite矩阵,以及一个对它作了适当修改的矩阵使得它们分别以这两组交错实数为其特征值呢?回答是肯定的。作为例子,我们给出定理(4.3.8)的逆定理。

4.3.10 定理 设 nn 是给定的正整数,且设

{λi:i=1,2,,n}{λ^i:i=1,2,,n,n+1}\{\lambda_ {i}: i = 1, 2, \dots , n \} \quad {\text {和}} \quad \{\hat {\lambda} _ {i}: i = 1, 2, \dots , n, n + 1 \}

是适合关系

λ^1λ1λ^2λ2λn1λ^nλnλ^n+1\hat {\lambda} _ {1} \leqslant \lambda_ {1} \leqslant \hat {\lambda} _ {2} \leqslant \lambda_ {2} \leqslant \dots \leqslant \lambda_ {n - 1} \leqslant \hat {\lambda} _ {n} \leqslant \lambda_ {n} \leqslant \hat {\lambda} _ {n + 1}

的两个给定的实数序列。设 Λ=diag(λ1,λ2,,λn)\Lambda = \mathrm{diag}(\lambda_1, \lambda_2, \dots, \lambda_n) 。则存在实数 aa 和实向量 yRny \in \mathbb{R}^n ,使得 {λ˙1,λ˙2,,λ˙n1}\{\dot{\lambda}_1, \dot{\lambda}_2, \dots, \dot{\lambda}_{n-1}\} 是实对称矩阵

A^[AyyTa]Mn+1(R)\hat {A} \equiv \left[ \begin{array}{l l} A & y \\ y ^ {\mathrm {T}} & a \end{array} \right] \in M _ {n + 1} (\mathbf {R})

的特征值集合.

证明:显然 {λ1,λ2,,λn}\{\lambda_1, \lambda_2, \dots, \lambda_n\}Λ\Lambda 的特征值集合,又因为 trA^=trΛ+a\operatorname{tr} \hat{A} = \operatorname{tr} \Lambda + a ,我们必定有 a=trA^trΛ=i=1n+1λ^ii=1nλia = \operatorname{tr} \hat{A} - \operatorname{tr} \Lambda = \sum_{i=1}^{n+1} \hat{\lambda}_i - \sum_{i=1}^{n} \lambda_i 。计算 A^\hat{A} 的特征多项式 pA^(t)p_{\hat{A}}(t) 是容易的,这是因为

det(tIA^)=det[tIAyyIta]=det[I0[(tIΛ)1y]I1][tIΛyyTta][I(tIΛ)1y01]=det[tIA00(ta)y1(tIA)1y]=[(ta)yT(tIA)1y]det(tIA)=[(ta)i=1nyi21tλi]i=1n(tλi)=p1(t).(4.3.11)\begin{array}{l} \det (t I - \hat {A}) = \det \left[ \begin{array}{c c} t I - A & - y \\ \dots \dots \dots & \dots \\ - y ^ {I} & t - a \end{array} \right] \\ = \det \left[ \begin{array}{c c} I & 0 \\ \left[ (t I - \Lambda) ^ {- 1} y \right] ^ {I} & 1 \end{array} \right] \left[ \begin{array}{c c} t I - \Lambda & - y \\ - y ^ {T} & t - a \end{array} \right] \left[ \begin{array}{c c} I & (t I - \Lambda) ^ {- 1} y \\ 0 & 1 \end{array} \right] \\ = \det \left[ \begin{array}{c c c} t I & \dots A \\ 0 & \vdots & 0 \\ (t - a) & - y ^ {1} (t I - A) ^ {- 1} y \end{array} \right] \\ = \left[ (t - a) \quad y ^ {T} (t I - A) ^ {- 1} y \right] \det (t I - A) \\ = \left[ (t - a) \dots \sum_ {i = 1} ^ {n} y _ {i} ^ {2} \frac {1}{t - \lambda_ {i}} \right] \prod_ {i = 1} ^ {n} (t - \lambda_ {i}) = p _ {1} ^ {*} (t). \tag {4.3.11} \\ \end{array}

我们已经确定了值 aa ,因此,剩下要证明的是, nn 个实数 yiy_{i} 可以由(4.3.11)来确定,使得对 k=1,2,,n+1k = 1, 2, \dots, n + 1pλ(λ^k)=0p_{\lambda}(\hat{\lambda}_k) = 0 .

定义多项式

f(t)=1n+1(tλ^i),f的 次 数=n+1,(4.3.12)f (t) = \prod_ {1} ^ {n + 1} (t - \hat {\lambda} _ {i}), \quad f \text {的 次 数} = n + 1, \tag {4.3.12}
g(t)=i=1n(tλi),g的 次 数=n.(4.3.13)g (t) = \prod_ {i = 1} ^ {n} (t - \lambda_ {i}), \quad g \text {的 次 数} = n. \tag {4.3.13}

根据Euclid算法,一定有

f(t)=g(t)(tc)+r(t),f (t) = g (t) (t - c) + r (t),

187

其中, cc 是实数,而 r(t)r(t) 是次数至多为 n1n - 1 的多项式,通过直接计算,求得 c=i=1n+1λ^ii=1nλic = \sum_{i = 1}^{n + 1}\hat{\lambda}_i\cdot \cdot \cdot \sum_{i = 1}^{n}\lambda_i =a= a 另外,因为 g(λk)=0g(\lambda_k) = 0 ,所以对于 k=1,2,,nk = 1,2,\dots ,nf(λk)=g(λk)(λka)+r(λk)=r(λk).f(\lambda_k) = g(\lambda_k)(\lambda_k - a) + r(\lambda_k) = r(\lambda_k). 因此,就知道了多项式 r(t)r(t)n_n 个点的值,如果插值点 λ1,,λn\lambda_1,\dots ,\lambda_n 是互不相同的,则 r(t)r(t) 可以用Lagrange插值公式明确写出,在这个假定下, g(t)g(t) 只有单根,因而,关于 r(t)r(t) 的Lagrange插值公式是

r(t)=t=1nf(λi)g(t)g7(λi)(tλi).r (t) = \sum_ {t = 1} ^ {n} f (\lambda_ {i}) \frac {g (t)}{g ^ {7} (\lambda_ {i}) (t - \lambda_ {i})}.

于是,

f(t)g(t)=(ta)+r(t)g(t)=(ta)i=1nf(λi)g(λi)1tλi\frac {f (t)}{g (t)} = (t - a) + \frac {r (t)}{g (t)} = (t - a) - \sum_ {i = 1} ^ {n} \frac {- f (\lambda_ {i})}{g ^ {\prime} (\lambda_ {i})} \frac {1}{t - \lambda_ {i}}

因为,对所有 k=1,2,,n+1k = 1,2,\dots ,n + 1f(λ^k)=0f(\hat{\lambda}_k) = 0 ,就必定有

(λ^ka)inf(λi)g(λi)1λ^kλi=0,k1,2,,n+1.(4.3.14)\left(\hat {\lambda} _ {k} - a\right) - \sum_ {i} ^ {n} \frac {- f \left(\lambda_ {i}\right)}{g ^ {\prime} \left(\lambda_ {i}\right)} \frac {1}{\hat {\lambda} _ {k} - \lambda_ {i}} = 0, k - 1, 2, \dots , n + 1. \tag {4.3.14}

我们看到,如果对 i=ki = kkkλk=λ1\lambda_{k} = \lambda_{1} ,则相应的项 1/(tλi)1 / (t - \lambda_{i}) 有零系数,因而在 t=λ^kt = \hat{\lambda}_{k} 时不会有奇异性。如果对 i=1,,ni = 1, \dots, n ,可以命 yi2f(λi)/g(λi)y_{i}^{2} \equiv -f(\lambda_{i}) / g^{\prime}(\lambda_{i}) ,那么(4.3.11)保证 pA(λ^k)=0p_{A}^{\dagger}(\hat{\lambda}_{k}) = 0 ,于是就完成了证明。因此我们必须证明, f(λi)/g(λi)0f(\lambda_{i}) / g^{\prime}(\lambda_{i}) \leqslant 0i=1,2,,ni = 1, 2, \dots, n 。而现在该用交错性假设了。利用 f(t)f(t)g(t)g(t) 的定义及交错假设,得知

f(λi)=(1)nr+1jnkλiλ^j,g(λi)=(1)nij=1jinλiλj,\begin{array}{l} f (\lambda_ {i}) = (1) ^ {n - r + 1} \prod_ {j} ^ {n - k} | \lambda_ {i} - \hat {\lambda} _ {j} |, \\ g ^ {\prime} (\lambda_ {i}) = (- 1) ^ {n - i} \prod_ {\substack {j = 1 \\ j \neq i}} ^ {n} | \lambda_ {i} - \lambda_ {j} |, \\ \end{array}

因而 f(λi)f(\lambda_i)g(λi)g^{\prime}(\lambda_i) 总有相反的符号.

不难修改上述论证以适用于有些 λi\lambda_{i} 项相等的情形。例如,如果对某个 k2k \geqslant 2 ,有 λ1=λ2==λk<λk1\lambda_{1} = \lambda_{2} = \dots = \lambda_{k} < \lambda_{k-1} \leqslant \dots ,则 λ^j==λ^k=λ1\hat{\lambda}_{j} = \dots = \hat{\lambda}_{k} = \lambda_{1} 。(4.3.12)中的多项式 g(t)g(t) 有因子 (tλ^1)(tλ1)k1(t - \hat{\lambda}_1)(t - \lambda_1)^{k-1} ;(4.3.13)中的多项式 g(t)g(t) 有因子 (tλ1)k(t - \lambda_1)^k ,且 kk 恰好是 λ1\lambda_{1} 作为 f(t)f(t) 的零点的重数。因此,可以用 (tλ1)k(t - \lambda_1)^kf(t)f(t)g(t)g(t)r(t)r(t) 来修改这每一个多项式。修改后的多项式 g(t)g(t) 将以 λ1\lambda_{1} 作为其单重零点。如果继续用这种办法取消 g(t)g(t) 的所有重根,则证明可以如前继续下去,且结论是相同的。

上述各个结果讨论了在一个Hermite矩阵旁“镶”上新的最后一行和最后一列的情形,但是这也可看成是给出了当把一个Hermite矩阵的最后一行和最后一列划去后其特征值的变化信息,当然最后一行或一列并没什么特殊的。在(4.3.8)中,如果划去矩阵 A^\hat{A} 的第 ii 行和第 ii 列,而不是第 (n+1)(n + 1) 行和 (n+1)(n + 1) 列,那么在证明中,只是使 en1e_{n - 1} 变成 e1e_1 ,并且得到相同的交错不等式组(4.3.9)。

把定理(4.3.8)与(4.3.10)合在一起就说明,交错不等式组(4.3.9)是Hermite矩阵的诸特征值与它的任一 n1n - 1 阶主子矩阵的诸特征值之间的相互关系的一个完整的描述。如果同时考虑 AA 的所有 nn(n1)(n1)(n - 1)(n - 1) 主子矩阵,那么还可以多说几句。设 AjA_{j} 表示划去 AA 的第 jj 行和第 jj 列后得到的主子矩阵, j=1,2,,nj = 1, 2, \dots, n ,且设 AAAjA_{j} 的诸特征值按递增顺序排列。对于每个 i=1,2,,n1i = 1, 2, \dots, n - 1 ,有

max1inλi(Aj)ninλ1(A)+inλi1(A),min1inλi(Ai)ninλi(A)+inλn(A),\begin{array}{l} \max _ {1 \leqslant i \leqslant n} \lambda_ {i} (A _ {j}) \geqslant \frac {n - i}{n} \lambda_ {1} (A) + \frac {i}{n} \lambda_ {i - 1} (A), \\ \min _ {1 \leqslant i \leqslant n} \lambda_ {i} (A _ {i}) \leqslant \frac {n - i}{n} \lambda_ {i} (A) + \frac {i}{n} \lambda_ {n} (A), \\ \end{array}

max1rnλn1(Aj)min1rnλ1(Aj)(n2n)1.2[λn(A)λ1(A)].\max _ {1 \leqslant r \leqslant n} \lambda_ {n - 1} (A _ {j}) - \min _ {1 \leqslant r \leqslant n} \lambda_ {1} (A _ {j}) \geqslant \left(\frac {n - 2}{n}\right) ^ {1. 2} [ \lambda_ {n} (A) - \lambda_ {1} (A) ].

如果 AA 的所有特征值非负,即如果 AA 是半正定矩阵,那么由这三个不等式中的第一个推出,至少有一个主子矩阵 AjA_{j} ,可使

λn1(Ai)n1nλn(A).\lambda_ {n - 1} (A _ {i}) \geqslant \frac {n - 1}{n} \lambda_ {n} (A).

因此,半正定Hermite矩阵的每个主子矩阵的谱半径不会“很小”

人们可能希望从一个Hermite矩阵中划去若干行和若干相应的列,余下的矩阵是原矩阵的一个主子矩阵。下述结果可以通过重复应用交错不等式组(4.3.9)来得到,但是从Courant-Fischer定理直接证明这个论断也一样容易。有时称这个结果为包含原理。

4.3.15 定理 设 AMnA \in M_{n} 是Hermite矩阵, rr 是整数, 1rn1 \leqslant r \leqslant n ,又设 ArA_{r} 表示(从 AA 中划去 nrn - r 行和相应的 nrn - r 列后得到的) AA 的任 r×r-r \times r 主子矩阵,则对于使 1kr1 \leqslant k \leqslant r 的每个整数 kk ,有

λk(A)λk(Λi)λkn,(Λ).\lambda_ {k} (A) \leqslant \lambda_ {k} (\Lambda_ {i}) \leqslant \lambda_ {k - n}, (\Lambda).

证明:假定 ArMrA_{r} \in M_{r} 是从 AA 中划去 i1,,ini_{1}, \cdots, i_{n} ,行和相应的诸列后得到的,且设 1kr1 \leqslant k \leqslant r 。利用(4.2.12)可导出

λkn,(A)=minw1,,wrkCnmaxx1,iCnxui,,urkxxAxminw1,,u,knmaxx0,xnw1,,u,r,kxe1,,enxAxxx=minv1,,vr,tcrmaxv+vr,ycrv,c1,,cmryAryyy=λk(Ar).\begin{array}{l} \lambda_ {k - n}, (A) = \min _ {w _ {1}, \dots , w _ {r - k} \in \mathbb {C} ^ {n}} \max _ {\substack {x \neq 1, i \in \mathbb {C} ^ {n} \\ x \perp u _ {i}, \dots , u _ {r - k}}} \frac {x}{x} A x \\ \geqslant \min _ {w _ {1}, \dots , u, k \in \ell^ {n}} \max _ {\substack {x \neq 0, x \in \ell^ {n} \\ w _ {1}, \dots , u, r, k \\ x \neq e _ {1}, \dots , e _ {n}}} \frac {x ^ {*} A x}{x ^ {*} x} \\ = \min _ {v _ {1}, \dots , v _ {r}, t \in \mathbf {c} ^ {r}} \max _ {\substack {v + v _ {r}, y \in \mathbf {c} ^ {r} \\ v, c _ {1}, \dots , c _ {m - r}}} \frac {y ^ {*} A _ {r} y}{y ^ {*} y} = \lambda_ {k} (A _ {r}). \\ \end{array}

假定 1kr1 \leqslant k \leqslant r ,再利用(4.2.13)可导出

λi(A)=maxu1,,uk1cnminxn+1,xcnw1,,wk1xAxxxmaxw1,,wk1Cnminr=1,,rCnw1,,wk1re1,,erπrxrAxxrx=max1,,vk1cminy0,ycvn,v1,,vk1yAryyy=λk(Ar).\begin{array}{l} \lambda_ {i} (A) = \max _ {u _ {1}, \dots , u _ {k - 1} \in \mathfrak {c} ^ {n}} \min _ {\substack {x ^ {n + 1}, x \in \mathfrak {c} ^ {n} \\ - w _ {1}, \dots , w _ {k - 1}}} \frac {x ^ {*} A x}{x ^ {*} x} \\ \leqslant \max _ {w _ {1}, \dots , w _ {k - 1} \in \mathbf {C} ^ {n}} \min _ {\substack {r = 1, \dots , r \in \mathbf {C} ^ {n} \\ w _ {1}, \dots , w _ {k - 1} \\ r \mid e _ {1}, \dots , e _ {r} \pi_ {r}}} \frac {x ^ {r} A x}{x ^ {r} x} \\ = \max _ {1, \dots , v _ {k - 1} \in \mathbf {c} ^ {\prime}} \min _ {\substack {y \neq 0, y \in \mathbf {c} ^ {\prime} \\ v _ {n}, v _ {1}, \dots , v _ {k - 1}}} \frac {y ^ {*} A _ {r} y}{y ^ {*} y} = \lambda_ {k} (A _ {r}). \\ \end{array}

定理(4.3.15)的下述简单推论称为Poincaré分离定理。它可以应用于(像量子力学)那样的场合,在那里人们有关于内积 uiAuju_{i}^{*}Au_{j} 方面的信息。

4.3.16 推论 设 AMnA \in M_{n} 是Hermite 矩阵, rr 是适合 1rn1 \leqslant r \leqslant n 的某个整数,设 u1,,urCnu_{1}, \cdots, u_{r} \in \mathbf{C}^{n}rr 个给定的单位正交向量。设 Br[u1Auj]MiB_{r} \equiv [u_{1}^{*} A u_{j}] \in M_{i} 。如果 AABrB_{r} 的诸特征值按递增顺序(4.2.1)排列,则有

λk(A)λk(Br)λknr(A),k=1,2,,r.(4.3.17)\lambda_ {k} (A) \leqslant \lambda_ {k} (B _ {r}) \leqslant \lambda_ {k - n - r} (A), \quad k = 1, 2, \dots , r. \tag {4.3.17}

证明:如果 r<nr < n ,另选 nrn - r 个向量 ur+1,,unu_{r + 1}, \dots, u_n 使得 {u1,,ur,ur+1,,un}\{u_1, \dots, u_r, u_{r + 1}, \dots, u_n\} 是标准正交组,设 U={u1,,un}MnU = \{u_1, \dots, u_n\} \in M_n 。矩阵 UU 是酉矩阵, UAUU^*AUAA 有相同的特征值,而已知矩阵 BiB_i 是划去最后 nrn - r 行和列后得到的 UAUU^*AU 的主子矩阵。现在,论断可从(4.3.15)得

出.

在上述结果中,矩阵 BrMrB_{r} \in M_{r} 可以写成 UAUU^{*}AU ,其中 UMn,rU \in M_{n,r} 是有 rr 个单位正交列的矩阵,因为 trBr=λ1(Br)++λr(Br)\operatorname{tr} B_{r} = \lambda_{1}(B_{r}) + \dots + \lambda_{r}(B_{r}) ,所以,下述极值特征可以通过相加不等式(4.3.17)来得到.

4.3.18 推论 设 AMnA \in M_{n} 是Hermite矩阵, rr 是适合 1rn1 \leqslant r \leqslant n 的某个整数,那么

λ1(A)++λr(A)=minUU=IMitrUAU,λn1(A)++λn(A)=maxIU=IMitrUAU,(4.3.20)\begin{array}{l} \lambda_ {1} (A) + \dots + \lambda_ {r} (A) = \min _ {U ^ {*} U = I \in M _ {i}} \operatorname {t r} U ^ {*} A U, \\ \lambda_ {n - 1} (A) + \dots + \lambda_ {n} (A) = \max _ {I ^ {*} U = I \in M _ {i}} \operatorname {t r} U ^ {*} A U, \end{array} \tag {4.3.20}

如果 UU 的诸列选为 AArr 个最小特征值的相应单位正交向量,则(4.3.19)中等式成立。类似的选择推出(4.3.20)的等式成立。这两个不等式可以看作Rayleigh-Ritz定理(4.2.2)的推广,它们可以用来证明许多其他有意义的不等式。

有时,我们知道二次型 xAxx^{*}Ax 在一个子空间上的变化范围,把Courant-Fischer定理用于这种情形便可以给出A的诸特征值的界.

4.3.21 定理 设 AMnA \in M_{n} 是 Hermite 矩阵, kk 是适合 1kn1 \leqslant k \leqslant n 的某个整数,设 AA 的诸特征值按递增顺序(4.2.1)排列,且设 SkS_{k}Cn\mathbf{C}^{n} 的某个 kk 维子空间。如果存在常数 c2c_{2} ,使得对所有 xSkx \in S_{k}xAxc2xxx^{*}Ax \geqslant c_{2}x^{*}x ,则 λnλn1λnk1c2\lambda_{n} \geqslant \lambda_{n-1} \geqslant \cdots \geqslant \lambda_{n-k-1} \geqslant c_{2} 。如果存在常数 c1c_{1} ,使得对所有 xSkx \in S_{k}xAxc1xxx^{*}Ax \leqslant c_{1}x^{*}x ,则 c1λkλ1c_{1} \geqslant \lambda_{k} \geqslant \cdots \geqslant \lambda_{1}

证明:设 u1,,unku_{1}, \cdots, u_{n-k} 是张成 S1kS \frac{1}{k}nkn-k 个单位正交向量。利用(4.2.13)可导出

c2minx0xSkxAxxx=minx0xu1,,unkxAxxxmaxw1,,wnkcnminx0w1,,wnkxxAxx=λnk+1.(4.3.22)\begin{array}{l} c _ {2} \leqslant \min _ {\substack {x \neq 0 \\ x \in S _ {k}}} \frac {x ^ {*} A x}{x ^ {*} x} = \min _ {\substack {x \neq 0 \\ x \mid u _ {1}, \dots , u _ {n - k}}} \frac {x ^ {*} A x}{x ^ {*} x} \\ \leqslant \max _ {w _ {1}, \dots , w _ {n - k} \in \mathbf {c} ^ {n}} \min _ {\substack {x \neq 0 \\ w _ {1}, \dots , w _ {n - k}}} \frac {x ^ {*}}{x} \frac {A x}{x} = \lambda_ {n - k + 1}. \tag{4.3.22} \\ \end{array}

类似地,可以利用(4.2.12)导出

c1maxx0xSkxAxxx=maxx0xn1,,nnkxAxxxminw1,,wncnmaxi=0ix1,,wnkxAxxx=λk.\begin{array}{l} c _ {1} \geqslant \max _ {\substack {x \neq 0 \\ x \in S _ {k}}} \frac {x ^ {*} A x}{x ^ {*} x} = \max _ {\substack {x \neq 0 \\ x - n _ {1}, \dots , n _ {n - k}}} \frac {x ^ {*} A x}{x ^ {*} x} \\ \geqslant \min _ {w _ {1}, \dots , w _ {n} \in \mathbf {c} ^ {n}} \max _ {\substack {i = 0 \\ i - x _ {1}, \dots , w _ {n - k}}} \frac {x \cdot A x}{x ^ {*} x} = \lambda_ {k}. \\ \end{array}

4.3.23 推论 如果 AMnA \in M_{n} 是Hermite矩阵,且对 kk 维子空间的所有向量 xxxAx0x^{*}Ax \geqslant 0 ,则 AA 至少有 kk 个非负特征值。如果对 kk 维子空间的所有非零向量有 xAx>0x^{*}Ax > 0 ,则 AA 至少有 kk 个正特征值。

证明:第一个论断可由上述定理推出,只需取 c2=0c_{2} = 0 。如果 λnk+1=0\lambda_{n - k + 1} = 0 ,则不等式(4.3.22)说明

0=minx0rSkxAxxx=minxr=1rSkxAx.0 = \min _ {\substack {x \neq 0 \\ r \in S _ {k}}} \frac {x ^ {*} A x}{x ^ {*} x} = \min _ {\substack {x \cdot r = 1 \\ r \in S _ {k}}} x ^ {*} A x.

SkS_{k} 是有限维的,所以集 D={xSk:xx=1}D = \{x\in S_k:x^* x = 1\} 是紧集[见(5.5.6)],因而连续函数 xAxx^{*}Ax

191

某个满足 xx=1x^{*}x = 1x0Skx_{0} \in S_{k} 达到它在 DD 上的极小值;特别是 x00x_{0} \neq 0 ,然而, x0Ax0=0x_{0}^{*}Ax_{0} = 0 ,这与当 xSkx \in S_{k}x0x \neq 0 时有 xAx>0x^{*}Ax > 0 的假设相矛盾. □

Hermite 矩阵的诸特征值和诸主对角元都是实数,且诸特征值之和与诸对角元之和(迹)相同。诸主对角元和诸特征值间的明确关系可用优化概念给出。

4.3.24 定义 设 α=[αi]Rn\alpha = [\alpha_{i}] \in \mathbb{R}^{n}β=[βi]Rn\beta = [\beta_{i}] \in \mathbb{R}^{n} 已知,如果对所有 k=1,2,,nk = 1, 2, \dots, n

min{j=1kβij:1i1<<ikn}min{i=1lαij:1i1<<ikn}.\min \left\{\sum_ {j = 1} ^ {k} \beta_ {i _ {j}}: 1 \leqslant i _ {1} < \dots < i _ {k} \leqslant n \right\} \geqslant \min \left\{\sum_ {i = 1} ^ {l} \alpha_ {i _ {j}}: 1 \leqslant i _ {1} < \dots < i _ {k} \leqslant n \right\}.

且当 k=nk = n 时等式成立,则称向量 β\beta 优化向量 α\alpha 。如果按递增顺序 αj1αj2αjn\alpha_{j_1} \leqslant \alpha_{j_2} \leqslant \dots \leqslant \alpha_{j_n}βm1βm2βmn\beta_{m_1} \leqslant \beta_{m_2} \leqslant \dots \leqslant \beta_{m_n} 排列 α\alphaβ\beta 的各元素,则定义的不等式组可以表达成等价的形式,

t=1kβmtt=1kαjt.(4.3.25)\sum_ {t = 1} ^ {k} \beta_ {m _ {t}} \geqslant \sum_ {t = 1} ^ {k} \alpha_ {j _ {t}}. \tag {4.3.25}

[192] 它对所有 k=1,2,,nk = 1, 2, \dots, n 成立,且等式对 k=nk = n 成立.

因此,实向量 β\beta 优化实向量 α\alpha ,是指对 k1,2,,n1,βk - 1, 2, \dots, n - 1, \betakk 个最小元素之和大于或等于 α\alphakk 个最小元素之和,且 β\betaα\alpha 的各元素之和相等。应指出的是,可以任意改变 β\betaα\alpha 各元素的顺序,而不影响 β\beta 是否优化 α\alpha

优化概念是在矩阵理论的许多场合中作为两个实数集间的确定关系产生出来的重要概念. 这种情形的一个例子是下述 Schur 定理(1923).

4.3.26 定理 设 AMnA \in M_{n} 是 Hermite 矩阵,则 AA 的诸对角元组成的向量优化 AA 的诸特征值组成的向量。

证明:证明是对维数作归纳法。对 n=1n = 1 ,没有什么可证的,所以,假定结论对所有 kn1k \leqslant n - 1 维Hermite矩阵成立。设 A=[aij]MnA = [a_{ij}] \in M_n 是给定的Hermite矩阵,且设 A1MnA_1 \in M_n 是划去对应于 AA 的最大对角元的行和列后得到的 AA 的主 ff 矩阵。设 λ1λn\lambda_1 \leqslant \cdots \leqslant \lambda_nAA 的有序特征值, λ1λn\lambda_1^{\perp} \leqslant \cdots \leqslant \lambda_n^{\perp}A1A_1 的有序特征值,且设 ai1i1ai1i2ainina_{i_1 i_1} \leqslant a_{i_1 i_2} \leqslant \cdots \leqslant a_{i_n i_n} 是诸对角元按递增顺序的重排。根据归纳假定,对所有 k=1,,n1k = 1, \cdots, n - 1 ,有

j=1kai,jj=1kλ.\sum_ {j = 1} ^ {k} a _ {i, j} \geqslant \sum_ {j = 1} ^ {k} \lambda^ {\prime}.

因为交错性[定理(4.3.8)], 还有

λ1λ1λ2λ2λn1λn,\lambda_ {1} \leqslant \lambda_ {1} ^ {\prime} \leqslant \lambda_ {2} \leqslant \lambda_ {2} ^ {\prime} \leqslant \dots \leqslant \lambda_ {n - 1} ^ {\prime} \leqslant \lambda_ {n},

因而,对所有 k=1,2,,n1k = 1,2,\dots ,n - 1 ,有

j=1kλjj=1kλj.\sum_ {j = 1} ^ {k} \lambda_ {j} ^ {\prime} \geqslant \sum_ {j = 1} ^ {k} \lambda_ {j}.

因此

j=1kaij,jj=1kλj,k=1,,n1,\sum_ {j = 1} ^ {k} a _ {i j, j} \geqslant \sum_ {j = 1} ^ {k} \lambda_ {j}, \quad k = 1, \dots , n - 1,

又因为迹是所有特征值的和,所以等式对 k=nk = n 成立.

优化概念也可以用来表示矩阵之和的诸特征值与其被加矩阵的诸特征值间的关系.

4.3.27 定理 设 A,BMnA, B \in M_{n} 是 Hermite 矩阵,设 λ(A)=[λi(A)]\lambda(A) = [\lambda_{i}(A)]λ(B)=[λi(B)]\lambda(B) = [\lambda_{i}(B)]λ(A+B)=[λi(A+B)]\lambda(A + B) = [\lambda_{i}(A + B)] 表示 Rn\mathbb{R}^{n} 中的列向量,它们的诸分量各是按递增顺序(4.2.1)排列的 A,BA, BA+BA + B 的诸特征值,则向量 λ(A+B)\lambda(A + B) 优化向量 λ(A)+λ(B)\lambda(A) + \lambda(B) .

证明:对任意 k=1,2,,nk = 1,2,\dots ,n ,利用(4.3.18)可导出

i=1kλi(A+B)=minUU:IMktrU(A+B)UminUU=tMk(trUAU+trUBU)minUU=IMktrUAU+minUU=IMktrUBUi=1kλi(A)+i=1kλi(B)=i=1k(λi(A)+λi(B)).\begin{array}{l} \sum_ {i = 1} ^ {k} \lambda_ {i} (A + B) = \min _ {U ^ {*} U: I \in M _ {k}} \operatorname {t r} U ^ {*} (A + B) U \\ - \min _ {U ^ {*} U = t \in M _ {k}} (\operatorname {t r} U ^ {*} A U + \operatorname {t r} U ^ {*} B U) \\ \geqslant \min _ {U ^ {*} U = I \in M _ {k}} \operatorname {t r} U ^ {*} A U + \min _ {U ^ {*} U = I \in M _ {k}} \operatorname {t r} U ^ {*} B U \\ - \sum_ {i = 1} ^ {k} \lambda_ {i} (A) + \sum_ {i = 1} ^ {k} \lambda_ {i} (B) = \sum_ {i = 1} ^ {k} (\lambda_ {i} (A) + \lambda_ {i} (B)). \\ \end{array}

因为 tr(A+B)=trA+trB\operatorname{tr}(A + B) = \operatorname{tr} A + \operatorname{tr} B ,对于 k=nk = n ,等式成立。

我们已经说过,优化是Hermite矩阵的诸主对角元与它的诸特征值间的一个确定的关系,但是,在(1.3.26)中只是建立起这种关系的一半,为了证明另一半,需要下面的技巧性引理。

4.3.28 引理 设 n2n \geqslant 2 ,且设 α1α2αn\alpha_{1} \leqslant \alpha_{2} \leqslant \cdots \leqslant \alpha_{n}β1β2βn\beta_{1} \leqslant \beta_{2} \leqslant \cdots \leqslant \beta_{n} 是给定的实数。如果向量 β=[βi]\beta = [\beta_{i}] 优化向量 α=[αi]\alpha = [\alpha_{i}] ,则存在 n1n - 1 个实数 γ1,,γn1\gamma_{1}, \cdots, \gamma_{n - 1} ,使得

α1γ1α2γ2α3αn1γn1αn,\alpha_ {1} \leqslant \gamma_ {1} \leqslant \alpha_ {2} \leqslant \gamma_ {2} \leqslant \alpha_ {3} \leqslant \dots \leqslant \alpha_ {n - 1} \leqslant \gamma_ {n - 1} \leqslant \alpha_ {n},

且使得 β=[β1,,βn1]TRn1\beta^{\prime} = [\beta_{1},\dots ,\beta_{n - 1}]^{T}\in \mathbf{R}^{n - 1} 优化 γ=[γ1,,γn1]TRn1\gamma = [\gamma_{1},\dots ,\gamma_{n - 1}]^{T}\in \mathbf{R}^{n - 1}

证明:如果 n=2n = 2 ,则有 α1β1\alpha_{1} \leqslant \beta_{1}α1+α1=β1+β2\alpha_{1} + \alpha_{1} = \beta_{1} + \beta_{2} ,或

α2=(β1α1)+β2β2β1.\alpha_ {2} = \left(\beta_ {1} - \alpha_ {1}\right) + \beta_ {2} \geqslant \beta_ {2} \geqslant \beta_ {1}.

所以, α2β1α2\alpha_{2} \leqslant \beta_{1} \leqslant \alpha_{2} ,因而可以选取 γ1=β1\gamma_{1} = \beta_{1} 且适合所述条件。现在假定 n2n \geqslant 2 ,且设 Δ={[δ1,,δn1]T}Rn\Delta = \{\left[\delta_{1}, \cdots, \delta_{n-1}\right]^{T}\} \subset \mathbf{R}^{n} 表示用不等式组

α1δ1α2δ2α3αn1δn1αn,(4.3.29a)i=1kδii=1kβi,k=1,2,,n2(4.3.29b)\begin{array}{l} \alpha_ {1} \leqslant \delta_ {1} \leqslant \alpha_ {2} \leqslant \delta_ {2} \leqslant \alpha_ {3} \leqslant \dots \leqslant \alpha_ {n - 1} \leqslant \delta_ {n - 1} \leqslant \alpha_ {n}, (4.3.29a) \\ \sum_ {i = 1} ^ {k} \delta_ {i} \leqslant \sum_ {i = 1} ^ {k} \beta_ {i}, \quad k = 1, 2, \dots , n - 2 (4.3.29b) \\ \end{array}

定义的点集.因为 β\beta 优化 α\alpha ,所以点 δ=α˙=[α1,,αn1]T\delta = \dot{\alpha} = [\alpha_{1},\dots ,\alpha_{n - 1}]^{T} 总在 Δ\pmb{\Delta} 中,因而集 Δ\pmb{\Delta} 一定不空. Δ\pmb{\Delta} 显然是有界闭集,且容易看出它是凸集.如果 δ=[δ1,,δn]Δ\delta = [\delta_1,\dots ,\delta_n]^\top \in \Delta ,则定义 f(δ)δ1+δ2+f(\delta)\equiv \delta_1 + \delta_2 + \dots +δn1+\delta_{n-1} .注意, f(α)=α1++αn1β1++βn1f(\alpha) = \alpha_{1} + \dots +\alpha_{n - 1}\leqslant \beta_{1} + \dots +\beta_{n - 1} ,如果能够证明有某个 δ^Δ\hat{\delta}\in \Delta 使 f(δ^)f(\hat{\delta})\geq β1++βn1\beta_{1} + \dots +\beta_{n - 1} ,则根据 Δ\pmb{\Delta} 的凸性,对所有 t[0,1]t\in [0,1] ,将有 tα˙+(1t)δ^Δt\dot{\alpha} +(1 - t)\hat{\delta}\in \Delta ,并且 g(t)f(tα˙+g(t)\equiv f(t\dot{\alpha} + (1t)δ^)(1 - t)\hat{\delta}) 将是适合

g(0)β1++βn1g(1)g (0) \geqslant \beta_ {1} + \dots + \beta_ {n - 1} \geqslant g (1)

的连续函数。由此可以得出,对某个 t0[0,1]t_0 \in [0, 1] ,有 g(t0)=β1++βn1g(t_0) = \beta_1 + \dots + \beta_{n-1}γ=[γi]=t0α+(1t0)δ\gamma = [\gamma_i] = t_0 \alpha + (1 - t_0) \delta 将适合所述条件。

因为 f()f(\cdot) 是紧集 Δ\Delta 上的连续函数,所以存在点 δ^Δ\hat{\delta} \in \Delta ,使得

maxδΔf(δ)=f(δˉ).(4.3.30)\max _ {\delta \in \Delta} f (\delta) = f (\bar {\delta}). \tag {4.3.30}

我们要证明 f(δ^)β1++βn1f(\hat{\delta}) \geqslant \beta_{1} + \dots + \beta_{n-1} 。极大值点 δ^Δ\hat{\delta} \in \Delta 适合不等式组(4.3.29a 和 b),因而

δ^kαk+1,k=1,2,,n1,(4.3.31a)\hat {\delta} _ {k} \leqslant \alpha_ {k + 1}, \quad k = 1, 2, \dots , n - 1, \tag {4.3.31a}
i=1kδ^ii=1kβi,k=1,2,,n2.(4.3.31b)\sum_ {i = 1} ^ {k} \hat {\delta} _ {i} \leqslant \sum_ {i = 1} ^ {k} \beta_ {i}, \quad k = 1, 2, \dots , n - 2. \tag {4.3.31b}

如果整个不等式组(4.3.31b)是严格的,且不等式组(4.3.31a)中至少有一个不是等式,则 δ^\hat{\delta} 至少有一个分量还可以增大以使 f(δ^)f(\hat{\delta}) 的值相应增大。因为这与极值性质(4.3.30)相矛盾,所以得出所有不等式(4.3.31a)必须都是等式, δ^=[α2,α3,,αn]T\hat{\delta} = [\alpha_{2}, \alpha_{3}, \dots, \alpha_{n}]^{T} ,因而 f(δ^)=α2++αn=(α1+α2++αn)α1=(β1+β2++βn)α1=(β1++βn1)+βnα1(β1++βn1)+β1α1β1++βn1f(\hat{\delta}) = \alpha_{2} + \dots + \alpha_{n} = (\alpha_{1} + \alpha_{2} + \dots + \alpha_{n}) - \alpha_{1} = (\beta_{1} + \beta_{2} + \dots + \beta_{n}) - \alpha_{1} = (\beta_{1} + \dots + \beta_{n-1}) + \beta_{n} - \alpha_{1} \geqslant (\beta_{1} + \dots + \beta_{n-1}) + \beta_{1} - \alpha_{1} \geqslant \beta_{1} + \dots + \beta_{n-1} ,这正是我们想要证明的。

如果不等式组(4.3.31b)不都是严格的,则至少有 kk 的一个值使等式成立。设 rr 表示这种 kk 值中最大的一个,于是

i=1rδ^i=irβi,\sum_ {i = 1} ^ {r} \hat {\delta} _ {i} = \sum_ {i} ^ {r} \beta_ {i},
t=1kδ^t<t=1kβt,k=r+1,,n2.\sum_ {t = 1} ^ {k} \hat {\delta} _ {t} < \sum_ {t = 1} ^ {k} \beta_ {t}, \quad k = r + 1, \dots , n - 2.

根据在上一段中相同的论证,对 k=r+1k = r + 1 ,…, n1n - 1 ,必定有 δ^k=δk+1\hat{\delta}_k = \delta_{k+1} 。因此,

f(δ^)=(δ^1++δ^,)+(δ^r+1++δ^n1)=(β1++βr)+(αr2++αn)=(β1++βn1)+(α1++αn)(α1++αr1)(βr+1++βn1)=(β1++βn1)+(β1++βn)(α1++αr+1)(βr+1++βm1)=(β1++βn1)+[(β1++βr+1)(α1++αr+1)]+(βr+2++βn)(βr11++βn1)(β1++βn1)+(βr+2βr+1)(βr+1βr+2)++(βnβn1)β1++βn1.\begin{array}{l} f (\hat {\delta}) = \left(\hat {\delta} _ {1} + \dots + \hat {\delta},\right) + \left(\hat {\delta} _ {r + 1} + \dots + \hat {\delta} _ {n - 1}\right) \\ = (\beta_ {1} + \dots + \beta_ {r}) + (\alpha_ {r - 2} + \dots + \alpha_ {n}) \\ = \left(\beta_ {1} + \dots + \beta_ {n - 1}\right) + \left(\alpha_ {1} + \dots + \alpha_ {n}\right) - \left(\alpha_ {1} + \dots + \alpha_ {r - 1}\right) - \left(\beta_ {r + 1} + \dots + \beta_ {n - 1}\right) \\ = \left(\beta_ {1} + \dots + \beta_ {n - 1}\right) + \left(\beta_ {1} + \dots + \beta_ {n}\right) - \left(\alpha_ {1} + \dots + \alpha_ {r + 1}\right) - \left(\beta_ {r + 1} + \dots + \beta_ {m - 1}\right) \\ = \left(\beta_ {1} + \dots + \beta_ {n - 1}\right) + \left[ \left(\beta_ {1} + \dots + \beta_ {r + 1}\right) - \left(\alpha_ {1} + \dots + \alpha_ {r + 1}\right) \right] + \left(\beta_ {r + 2} + \dots + \beta_ {n}\right) \\ - \left(\beta_ {r ^ {1} 1} + \dots + \beta_ {n - 1}\right) \\ \geqslant \left(\beta_ {1} + \dots + \beta_ {n - 1}\right) + \left(\beta_ {r + 2} - \beta_ {r + 1}\right) \mid \left(\beta_ {r + 1} - \beta_ {r + 2}\right) + \dots + \left(\beta_ {n} - \beta_ {n - 1}\right) \\ \geqslant \beta_ {1} + \dots + \beta_ {n - 1}. \\ \end{array}

我们现在可以证明(4.3.26)的逆命题了。

4.3.32 定理 设 n1n \geqslant 1 ,且设 a1a2ana_1 \leqslant a_2 \leqslant \cdots \leqslant a_nλ1λ2λn\lambda_1 \leqslant \lambda_2 \leqslant \cdots \leqslant \lambda_n 是给定的实数,如果向量 a=[ai]a = [a_i] 优化向量 λ=[λi]\lambda = [\lambda_i] ,则有实对称矩阵 A=[aij]Mn(R)A = [a_{ij}] \in M_n(\mathbf{R}) ,使得 an=aja_n = a_ji=1,2,,ni = 1, 2, \cdots, n 成立,且使得 {λi}\{\lambda_i\}AA 的特征值集合。

证明:对 n=1n = 1 ,论断显然成立,假设对至多有 n1n - 1 个元素的所有这些向量 a\pmb{a}λ\lambda ,论断已经证明.根据引理,存在实数 γ1γ2γn1\gamma_1\leqslant \gamma_2\leqslant \dots \leqslant \gamma_{n - 1} ,使得

λ1γ1λ2λn1γn1λn,\lambda_ {1} \leqslant \gamma_ {1} \leqslant \lambda_ {2} \leqslant \dots \leqslant \lambda_ {n - 1} \leqslant \gamma_ {n - 1} \leqslant \lambda_ {n},

且使 a=[a1,,an]a' = [a_1, \dots, a_n] 优化 γ=[γi]TRn1\gamma = [\gamma_i]^T \in \mathbb{R}^{n-1} . 根据归纳假定,存在实对称矩阵 B[bij]Mn1B - [b_{ij}] \in M_{n-1} ,使得 {γi}\{\gamma_i\}BB 的特征值集合,且对 i=1,2,,n1i = 1, 2, \dots, n-1bn=aib_n = a_i 。如果 Γ=diag(γ1,γ2,,γn1)Mn1(R)\Gamma = \mathrm{diag}(\gamma_1, \gamma_2, \dots, \gamma_{n-1}) \in M_{n-1}(\mathbf{R}) ,则存在实正交矩阵 QMn1(R)Q \in M_{n-1}(\mathbf{R}) 使得 B=QΓQTB = Q\Gamma Q^T 。根据定理(4.3.10),存在实对称矩阵

A^=[Γyyτα]Mn(R),yRn1,αR,\hat {A} = \left[ \begin{array}{l l} \Gamma & y \\ y ^ {\tau} & \alpha \end{array} \right] \in M _ {n} (\mathbf {R}), \quad y \in \mathbf {R} ^ {n - 1}, \quad \alpha \in \mathbf {R},

它有特征值 {λi}\{\lambda_i\} 。如果令

A[Q001]A^[Q001]=[QΓQQy(Qy)α]=[rB(Qy)α],A \equiv \left[ \begin{array}{l l} Q & 0 \\ 0 & 1 \end{array} \right] \hat {A} \left[ \begin{array}{l l} Q ^ {\prime} & 0 \\ 0 & 1 \end{array} \right] = \left[ \begin{array}{c c} Q \Gamma Q ^ {\prime} & Q y \\ (Q y) ^ {\prime} & \alpha \end{array} \right] = \left[ \begin{array}{c c} r & B \\ - (Q y) ^ {\prime} & \alpha \end{array} \right],

AA 有特征值 {λ1}\{\lambda_1\} ,且有主对角元 a1,a2,,an1,αa_1, a_2, \dots, a_{n-1}, \alpha 。但是,根据优化条件, trA=a1++an+α=λ1++λn=a1++an\operatorname{tr} A = a_1 + \dots + a_n + \alpha = \lambda_1 + \dots + \lambda_n = a_1 + \dots + a_n ,因而 α=an\alpha = a_nAA 有符合要求的对角元。

上述结果不仅完成了涉及Iermite矩阵的诸主对角元和诸特征值间的关系的推理过程,而且能够解释优化关系自身的几何意义。双随机矩阵 AMnA \in M_{n}n2n^{2} 个非负元,且每行和每列的诸元之和是 +1+1 。Brikhoff定理(8.7.1)保证每个双随机矩阵是有限多个置换矩阵的一个凸组合,反之亦然。

4.3.33 定理 设 α=[αi]Rn\alpha = [\alpha_{i}] \in \mathbb{R}^{n}β=[βi]Rn\beta = [\beta_{i}] \in \mathbb{R}^{n} 是两个给定的实向量,则下列条件等价:

(a) β\beta 优化 α\alpha ;

(b)存在双随机矩阵 SMnS \in M_{n} 使得 β=Sα\beta = S\alpha

(c) β{i=1Npiαi}\beta \in \left\{\sum_{i=1}^{N} p_i \alpha_i\right\} , 其中 1N<,pi0,i=1Npi=11 \leqslant N < \infty, p_i \geqslant 0, \sum_{i=1}^{N} p_i = 1 , 而 απiRn\alpha_{\pi_i} \in \mathbb{R}^n 是一个向量, 它的诸分量是已知向量 α\alpha 的诸分量的某个置换.

证明:如果假定(a)成立,则根据(4.3.32),存在有主对角元 bn=βnb_{n} = \beta_{n} 和特征值 λi(B)=αi\lambda_{i}(B) = \alpha_{i} 的实对称矩阵.根据谱定理,有酉(甚至实正交)矩阵 U=uijMnU = \lfloor u_{ij}\rfloor \subset M_n 使得 B=UΛUB = U\Lambda U^{*} ,其中 Λ=diag(α1,,αn)\Lambda = \mathrm{diag}(\alpha_1,\dots ,\alpha_n) ,而考察 BB 的诸主对角元可知 β=Sα\beta = S\alpha ,其中 S=[sij]MnS = [s_{ij}]\in M_n 是由 Sij=uij2S_{ij} = |u_{ij}|^2 给定的.因为 UU 的每行和每列是单位向量,这个 SS 的每个行和及每个列和都等于1,所以 SS 是双随机矩阵(称这个特殊形式的矩阵为正交随机矩阵),这就证明了(a)蕴涵(b).

(b) 蕴涵(a)的证明在本节末的习题9中概述.

如果假定(b)成立,则Birkhoff定理(8.7.1)说明,

S=i=1NpiPi,其 中pi0,i=1Npi=1,S = \sum_ {i = 1} ^ {\mathrm {N}} p _ {i} P _ {i}, \quad \text {其 中} p _ {i} \geqslant 0, \quad \sum_ {i = 1} ^ {\mathrm {N}} p _ {i} = 1,

而每个 PiP_{i} 是置换矩阵.因此,

β=Sα=i=1NpiPiα=i=1Npiαπi,其 中Piααπi.\beta = S _ {\alpha} = \sum_ {i = 1} ^ {N} p _ {i} P _ {i} \alpha = \sum_ {i = 1} ^ {N} p _ {i} \alpha_ {\pi_ {i}}, \quad \text {其 中} P _ {i} \alpha \equiv \alpha_ {\pi_ {i}}.

这个恒等式也证明了逆蕴涵关系.

这样--来,由某个向量 β=[β1,,βn]T\beta = [\beta_{1},\dots ,\beta_{n}]^{T} 优化的所有向量 α=[α1,,αn]T\alpha = [\alpha_{1},\dots ,\alpha_{n}]^{T} 组成的集合,可以先计算出 n!n! 个向量然后作这些向量的凸包来得到,而这 n!n! 个向量是采用置换 β\beta 向量的 nn 个分量的办法得来的(当然,如果诸项 βi\beta_{i} 不全不同,则这些向量也不全不同).

附注 虽然一致赞同优化这一基本概念是很重要的,但采用的记号常不一致。有些作者用(4.3.25)中的反向不等式定义优化,而有些作者定义优化是按递减顺序排列两个集合。因此,当人们从不同的文献中采用或引用有关优化的结果时,一定要倍加小心。参看习题11中促使我们选择优化定义的理由。

196

197

习题

  1. 我们知道,矩阵 AMnA \in M_{n} 的谱半径是数值

ρ(A)=max{λ1(A)}.\rho (A) = \max \left\{\mid \lambda_ {1} (A) \mid \right\}.

AABMnB\in M_{n} 是Hermite矩阵.试用Weyl定理(4.3.1)证明

λ1(B)λk(A+B)λk(A)λn(B),\lambda_ {1} (B) \leqslant \lambda_ {k} (A + B) - \lambda_ {k} (A) \leqslant \lambda_ {n} (B),

因而,对所有 k=1,2,,nk = 1,2,\dots ,n

λk(A+B)λk(A)ρ(B).\mid \lambda_ {k} (A + B) - \lambda_ {k} (A) \mid \leqslant \rho (B).

这是关于Hermite矩阵的特征值的扰动定理[参看(6.3)]的一个简单例子.

  1. 试说明仅利用定理(4.3.4)证明中所导出的第一组不等式如何得到定理中所确定的所有不等式。提示: A=(A±zz)zzA = (A \pm zz^{*}) \mp zz^{*}

  2. 详细证明(4.3.6b)等价于(4.3.6a).

  3. Weyl 定理 (4.3.7) 的证明中只用到了不等式 λn(A+B)λn\lambda_{n}(A + B) \geqslant \lambda_{n} , (A)(A) , 其中 BB 至多有秩 rr . 证明这个不等式无须利用 Courant-Fischer 定理, 而是用需要提供详细论述的下述论断. 假定 B=β1y1y1++βryryrB = \beta_{1}y_{1}y_{1}^{*} + \dots + \beta_{r}y_{r}y_{r}^{*} , 并且设 A=UΛUA = U\Lambda U^{*} , 其中 U=[u1un]U = [u_{1}\cdots u_{n}] 是酉矩阵. 则存在 r+1r + 1 个纯量 αn,αnr1,,αn\alpha_{n}, \alpha_{n-r-1}, \dots, \alpha_{n} , 使得对所有 i=1,2,,ri = 1, 2, \dots, r , 向量 x=αn,un,++αnunx = \alpha_{n}, u_{n}, +\cdots + \alpha_{n}u_{n} 适合 xyix \perp y_{i} , 且 xx=αnr2++an2=1x \cdot x = |\alpha_{n-r}|^{2} + \dots + |a_{n}|^{2} = 1 . 于是

198

λn(AB)x(AB)x=i=πrnαi2λi(A)λn,(A).\lambda_ {n} (A - B) \geqslant x ^ {*} (A \cdot B) x = \sum_ {i = \pi r} ^ {n} | \alpha_ {i} | ^ {2} \lambda_ {i} (A) \geqslant \lambda_ {n}, (A).
  1. 试应用定理(4.3.8) nrn - r 次来证明定理(1.3.15).

  2. 试说明,如果 AABB 不是Hermite矩阵,则Weyl的简单不等式组不一定成立。提示:考虑 A=[0100]A = \begin{bmatrix} 0 & 1 \\ 0 & 0 \end{bmatrix}B=[0010]B = \begin{bmatrix} 0 & 0 \\ 1 & 0 \end{bmatrix}

  3. 如果 A,BMnA, B \in M_{n} 是Hermite矩阵,它们的特征值按递增顺序排列,又如果 1kn1 \leqslant k \leqslant n 证明 λk(AB)min{λi(A)+λj(B):i+j=k+n}\lambda_{k}(A|B) \leqslant \min \{\lambda_{i}(A) + \lambda_{j}(B): i + j = k + n\} .

  4. 试对定理(4.3.10)的证明中有相同项 λi\lambda_{i} 的情形给出详细说明。提示:如果 λ1\lambda_{1}g(t)=0g(t) = 0kk 重根, k2k \geqslant 2 ,证明,在得到的(4.3.14)中,(4.3.14)的分母中的 g(t)g'(t) 的因式 (tλ1)k1(t - \lambda_1)^{k-1} 可消去(4.3.14)的分子中 f(t)f(t) 的因式 (tλ1)k1(t - \lambda_1)^{k-1}

  5. S=[sij]MnS = [s_{ij}] \in M_n 是双随机矩阵(8.7), xRnx \in \mathbb{R}^n 是实向量,证明 SiS_i 优化 xx 。提示:设 y=Sxy = S_x 。只要对 y1yny_1 \leqslant \cdots \leqslant y_nx1xnx_1 \leqslant \cdots \leqslant x_n 的情形证明就可以了,因为如果不是这样,就可以对适当的置换矩阵 PPQQ 来考虑 PyPyQxQx ;而 PTSQTP^T SQ^T 仍是双随机矩阵。设 wj(k)i=1ksijw_j^{(k)} - \sum_{i=1}^{k} s_{ij} ,于是, 0wj(k)10 \leqslant w_j^{(k)} \leqslant 1 ,且 j=1nwj(k)=k\sum_{j=1}^{n} w_j^{(k)} = k 。证明

i=1k(yixi)=j=1nwj(k)xj,i=1kxi+xk(kj=1nwj(k))=j=1k(1wj(k))(xkxj)+j=1nwj(k)(xjxk).\begin{array}{l} \sum_ {i = 1} ^ {k} \left(y _ {i} - x _ {i}\right) = \sum_ {j = 1} ^ {n} w _ {j} ^ {(k)} x _ {j}, \quad \sum_ {i = 1} ^ {k} x _ {i} + x _ {k} \left(k - \sum_ {j = 1} ^ {n} w _ {j} ^ {(k)}\right) \\ = \sum_ {j = 1} ^ {k} \left(1 - w _ {j} ^ {(k)}\right) \left(x _ {k} - x _ {j}\right) + \sum_ {j = 1} ^ {n} w _ {j} ^ {(k)} \left(x _ {j} - x _ {k}\right). \\ \end{array}
  1. 用下述思路给出定理(4.3.26)的另一个证明:若 A=[aij]MnA = [a_{ij}] \in M_n 是Hermite矩阵,则 A=UΛUA = U\Lambda U^* ,其中 U=[uij]MnU = [u_{ij}] \in M_n 是酉矩阵, Λ=diag(λ1,,λn)\Lambda = \mathrm{diag}(\lambda_1, \dots, \lambda_n) 是实对角矩阵。设 a=[a11,a22,,ann]Ta = [a_{11}, a_{22}, \dots, a_{nn}]^T 是由 Λ\Lambda 的主对角元组成的向量,且 x=[λ1,λ2,,λn]Tx = [\lambda_1, \lambda_2, \dots, \lambda_n]^T 。证明 aPxa - Px ,其中 P=[pij]=[uij2]P = [p_{ij}] = [|u_{ij}|^2] 。证明 PP 是双随机矩阵,然后利用习题9。

  2. x=[x1,,xn]tx = [x_1, \cdots, x_n]^ty=[y1,,yn]ty = [y_1, \cdots, y_n]^t 是两个给定的非负实向量,且假定 yy 优化 xx . 证明 y1ynx1xny_1 \cdots y_n \geqslant x_1 \cdots x_n . 提示:利用(4.3.32)构造一个实对称矩阵 A=[aij]Mn(R)A = [a_{ij}] \in M_n(\mathbb{R}) ,其中主对角元 anyia_n \equiv y_i ,而特征值 λi(A)=xi\lambda_i(A) = x_i ,则 Hadamard 不等式(7.8.1)是指 a11anndetA=λ1λna_{11} \cdots a_{nn} \geqslant \det A = \lambda_1 \cdots \lambda_n .

附注 这就是促使我们选择优化定义(4.3.24)的理由。如果有人选择与(4.3.24)中的不等式相反的方向,则所得结论与习题11中的不等式相反,即,如果在这个意义下 yy^{\prime \prime} 优化。则 yiy_{i} 的乘积小于 xix_{i} 的乘积。我们喜欢的定义形式是,乘积不等式的走向与优化的方向相同。

  1. AMnA \in M_{n} 是具有正特征值 0<λ1λ7λn0 < \lambda_{1} \leqslant \lambda_{7} \leqslant \dots \leqslant \lambda_{n} 的 Hermite 矩阵,又设 1rn1 \leqslant r \leqslant n 是一个给定的整数。用习题 11 证明

λ1λ2λi=min(u1Au1)(uAu2)(uAur),\lambda_ {1} \lambda_ {2} \dots \lambda_ {i} = \min \left(u _ {1} ^ {*} A u _ {1}\right) \left(u ^ {*} A u _ {2}\right) \dots \left(u ^ {*} A u _ {r}\right),

其中极小取遍所有标准正交组 {u1,u2,,us}Cn\{u_{1}, u_{2}, \cdots, u_{s}\} \subset \mathbb{C}^{n} 。说明为什么这个结果可以相继看作(4.3.19)的乘法模拟,Hadamard不等式(7.8.1)的推广,联系Rayleigh-Ritz定理(4.2.2)与Hadamard不等式的不等式系列。提示:情形 r=nr = n 是(7.8.1)。情形 r1r - 1 是什么?若 2rn2 \leqslant r \leqslant n ,用(4.3.19)证明,向量 [u1Au1,u2Au2,,usAus]T[u_{1}^{\prime}Au_{1}, u_{2}^{\prime}Au_{2}, \cdots, u_{s}^{\prime}Au_{s}]^{T} 优化向量 [μ1,,μr]T[\mu_{1}, \cdots, \mu_{r}]^{T} ,其中,对所有 i=1,2,,r1,μiλii = 1, 2, \cdots, r - 1, \mu_{i} - \lambda_{i} ,而

μr=(u1Au1+ur1Aur1)(λ1+λr1)+urAururAur.\mu_ {r} = \left(u _ {1} ^ {\prime} A u _ {1} + \dots \cdot u _ {r - 1} ^ {*} A u _ {r - 1}\right) - \left(\lambda_ {1} - \dots + \lambda_ {r - 1}\right) + u _ {r} ^ {*} A u _ {r} \geqslant u _ {r} ^ {*} A u _ {r}.

然后用习题11证明 λ1λi,uiAuii=1iuiAui\lambda_1\cdots \lambda_i, u_i^* Au_i \leqslant \prod_{i=1}^{i} u_i^* Au_i

  1. A=[aij]MnA = [a_{ij}] \in M_n 是具有非负特征值 0λ1λ2λn0 \leqslant \lambda_1 \leqslant \lambda_2 \leqslant \dots \leqslant \lambda_n 的Hermite矩阵。证明,对每个 r=1,2,,nr = 1, 2, \dots, n ,乘积 λ1λr\lambda_1 \dots \lambda_r 小于或等于 AArr 个最小主对角元之乘积。

  2. 如果 A,BMnA, B \in M_{n} 是Hermite 矩阵, ABA - B 具有唯一非负特征值,证明对所有 i=1,2,,ni = 1, 2, \dots, nλi(A)λi(B)\lambda_{i}(A) \geqslant \lambda_{i}(B) .

  3. 试用(4.3.18)证明(1.3.26). 提示:用置换矩阵调整 A=[aij]A = [a_{ij}] 使 a11a22am1a_{11} \leqslant a_{22} \leqslant \cdots \leqslant a_{m1} . 然后取 U=e1e2erMn,rU = \left\lfloor e_1 e_2 \cdots e_r \right\rfloor \in M_{n,r} ,并且证明 λ1(A)++λr(A)trUAU=a11++an\lambda_1(A) + \cdots + \lambda_r(A) \leqslant \operatorname{tr} U^* A U = a_{11} + \cdots + a_n

  4. 假定 AMnA \in M_{n} 是Hermite矩阵,设 λ1λn\lambda_{1} \leqslant \cdots \leqslant \lambda_{n}AA 的特征值,而 λi,1λi,n1\lambda_{i,1} \leqslant \cdots \leqslant \lambda_{i,n-1}(n1)×(n1)(n-1) \times (n-1) 主子矩阵 A({i})A(\{i\}) 的特征值,证明

λ1λn1λ2λn2λn1λn.\lambda_ {1} \leqslant \lambda_ {n - 1} \leqslant \lambda_ {2} \leqslant \lambda_ {n - 2} \leqslant \dots \leqslant \lambda_ {n - 1} \leqslant \lambda_ {n}.

这些交错不等式常归功于 Cauchy. 同时证明这些不等式蕴涵(4.3.15)中的诸不等式. 提示: 利用(4.3.8)或(4.3.15).

  1. 如果 A[aij]MnA - [a_{ij}] \in M_n 是Hermite矩阵,且对某个 iiaiiλia_{ii} - \lambda_i 、证明,对所有 k=1,2,,nk = 1, 2, \dots, nkik \neq i ,有 aikaki=0a_{ik} - a_{ki} = 0 ;如果 aii=λ1a_{ii} = \lambda_1 ,则也有类似的结论。提示:对 n>2n > 2 采用直接计算,然后应用交错性便可证明结论。

  2. AMnA \in M_{n} 是Hermite矩阵且设 ai=detA({1,2,,i})a_{i} = \det A(\{1, 2, \dots, i\})i=1,2,,ni = 1, 2, \dots, n 。若 AA 是非奇异的,证明 AA 的非负特征值的个数等于序列 ±1\pm 1a1,a2,,ana_{1}, a_{2}, \dots, a_{n} 中正负号的变化次数。特别地,若这些主子式都是正的,则 AA 就不会有负特征值。如果某个 ai=0a_{i} = 0 ,会出现什么情形?提示:利用交错性。

  3. A=[ay]MnA = [a_{y}] \in M_{n} 是正规矩阵。证明,若 AA 有“小”列或行,则 AA 一定有“小”特征值。说得更明确些,设 AA 的诸特征值的绝对值的平方 {λi2:i=1,,n}\{|\lambda_{i}|^{2} : i = 1, \cdots, n\} 按非减顺序排列,并且用 vi2v22v32vn2v_{i}^{2} \leq v_{2}^{2} \leq v_{3}^{2} \leq \cdots \leq v_{n}^{2} 表示所得到的有序值。设各行(或各列)元素的绝对值的平方和的平方根 {(k=1nak2)1/2:i=1,,n}\left\{\left(\sum_{k=1}^{n} |a_{k}|^{2}\right)^{1/2} : i = 1, \cdots, n\right\} 按非减顺序排列,并且用 R1R2RnR_{1} \leqslant R_{2} \leqslant \cdots \leqslant R_{n} 表示所得到的有序值。证明

i=1kvi2i=1kRi2,其 中k=1,,n,\sum_ {i = 1} ^ {k} v _ {i} ^ {2} \leqslant \sum_ {i = 1} ^ {k} R _ {i} ^ {2}, \quad \text {其 中} k = 1, \dots , n,

一个类似的上界可用列平方和表示。提示:数量 vi2v_{i}^{2} 是Hermite矩阵 AAAA^{*} 的特征值。 AAAA^{*} 的诸主对角元是什么?用优化和定理(4.3.26)。关于列相不等式可考虑 AAA^{\prime}A

进一步阅读 关于优化的另外信息可参看[MOL]. 在定理(4.3.10)下面提到了诸主子矩阵的特征值间的一般交错不等式组,有关的讨论可参看C.R.Johnson and H.A.Robinson,“Eigenvalue Inequalities for Principal Submatrices,”Lin.Alg.Appl.37(1981),11-22. 习题4中概述的论断的原始证明可参看H.Weyl,“Das asymptotische Verteilungsgesetz der Eigenwerte linearer partieller Differentialgleichungen (mit einer Anwendung auf die Theorie der Hohlaumstrahlung,“Math.Annalen71(1912). 441ff.;在文献的444-445(页)可看到其引理的证明.Weyl用积分方程叙述并证明了他的结果,但把它转化成线性代数的形式是直接的.