4.3 变分特征的某些应用 在 Courant-Fischer 定理的许多重要应用中,最简单的应用是关于 A + B A + B A + B 的诸特征值与 Λ \Lambda Λ 的特征值的比较问题。我们用 λ i ( A ) \lambda_{i}(A) λ i ( A ) 表示矩阵 A A A 的诸特征值。
4.3.1 定理 (Weyl) 设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是 Hermite 矩阵,又设诸特征值 λ i ( Λ ) , λ i ( B ) \lambda_{i}(\Lambda), \lambda_{i}(B) λ i ( Λ ) , λ i ( B ) 以及 λ i ( A − B ) \lambda_{i}(A-B) λ i ( A − B ) 均按递增顺序 (4.2.1) 排列,则对每个 k = 1 , 2 , ⋯ , n k=1,2, \cdots, n k = 1 , 2 , ⋯ , n ,有
λ k ( A ) + λ 1 ( B ) ⩽ λ k ( A + B ) ⩽ λ k ( A ) + λ n ( B ) . (4.3.2) \lambda_ {k} (A) + \lambda_ {1} (B) \leqslant \lambda_ {k} (A + B) \leqslant \lambda_ {k} (A) + \lambda_ {n} (B). \tag {4.3.2} λ k ( A ) + λ 1 ( B ) ⩽ λ k ( A + B ) ⩽ λ k ( A ) + λ n ( B ) . ( 4.3.2 ) 证明:对于任意非 x ∈ C n x \in \mathbf{C}^n x ∈ C n ,有不等式
λ 1 ( B ) ⩽ x ∗ B x x ∗ x ⩽ λ n ( B ) , \lambda_ {1} (B) \leqslant \frac {x ^ {*} B x}{x ^ {*} x} \leqslant \lambda_ {n} (B), λ 1 ( B ) ⩽ x ∗ x x ∗ B x ⩽ λ n ( B ) , [18] 因而对任意 k = 1 , 2 , … , n k = 1, 2, \dots, n k = 1 , 2 , … , n ,有
λ k ( A + B ) = min w 1 , … , w n − k max x ∣ w 1 , … , w n − k x ′ ( A + B ) x x ∗ x = min u 1 , … , u n k ∈ c 2 max x ≠ 0 x 1 , x 2 , … , w n k [ x ∗ A x x ∗ x + x ∗ B x x ∗ x ] ⩾ min w 1 , … , w n − k ∈ C n max τ ≠ 0 [ x ∗ A x x ∗ x + λ 1 ( B ) ] = λ k ( A ) + λ 1 ( B ) . \begin{array}{l} \lambda_ {k} (A + B) = \min _ {w _ {1}, \dots , w _ {n - k}} \max _ {\left. x \right| w _ {1}, \dots , w _ {n - k}} \frac {x ^ {\prime} (A + B) x}{x ^ {*} x} \\ = \min _ {u _ {1}, \dots , u _ {n} k \in c ^ {2}} \max _ {\substack {x \neq 0 \\ x _ {1}, x _ {2}, \dots , w _ {n} k}} \left[ \frac {x ^ {*} A x}{x ^ {*} x} + \frac {x ^ {*} B x}{x ^ {*} x} \right] \\ \geqslant \min _ {w _ {1}, \dots , w _ {n - k} \in \mathbf {C} ^ {n}} \max _ {\tau \neq 0} \left[ \frac {x ^ {*} A x}{x ^ {*} x} + \lambda_ {1} (B) \right] = \lambda_ {k} (A) + \lambda_ {1} (B). \\ \end{array} λ k ( A + B ) = min w 1 , … , w n − k max x ∣ w 1 , … , w n − k x ∗ x x ′ ( A + B ) x = min u 1 , … , u n k ∈ c 2 max x = 0 x 1 , x 2 , … , w n k [ x ∗ x x ∗ A x + x ∗ x x ∗ B x ] ⩾ min w 1 , … , w n − k ∈ C n max τ = 0 [ x ∗ x x ∗ A x + λ 1 ( B ) ] = λ k ( A ) + λ 1 ( B ) . 类似的论证同样可以确定它的上界.
练习 说明在(4.3.1)中给出的界中可以取等号。提示:设 { u 1 , u 2 , … , u n } \{u_1, u_2, \dots, u_n\} { u 1 , u 2 , … , u n } 是由 A A A 的特征向量组成的标准正交组,且 A u i = λ i ( A ) u i Au_i = \lambda_i(A)u_i A u i = λ i ( A ) u i ,分别对 α > 0 \alpha > 0 α > 0 和 α < 0 \alpha < 0 α < 0 考察 B = α u i u i ∗ B = \alpha u_i u_i^* B = α u i u i ∗ 。
Weyl定理对任意Hermite矩阵 A A A 和 B B B 给出了 A + B A + B A + B 的特征值的上界和下界。如果限制 B B B 具有一种特殊的形式,例如 B B B 为正定矩阵、秩1矩阵、秩 k k k 矩阵或加边矩阵,还可以得到更为精细的表述。
矩阵 B ∈ M n B \in M_{n} B ∈ M n 称为半正定的,是指它对所有 x ∈ C n x \in \mathbb{C}^{n} x ∈ C n 有 x ∗ B x ⩾ 0 x^{*} B x \geqslant 0 x ∗ B x ⩾ 0 。一个等价的条件是, B B B 是Hermite 矩阵,且所有特征值都是非负的(见第7章)。下述结果是Weyl 定理的直接推论,称之为单调性定理,它说明,如果一个Hermite 矩阵加上一个半正定矩阵,则它的所有特征值都会增加。
4.3.3 推论 设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是Hermite矩阵。假定 B B B 是半正定矩阵,且 A A A 和 A + B A + B A + B 的诸特征值均按递增顺序(4.2.1)排列,则对所有 k = 1 , 2 , … , n k = 1, 2, \dots, n k = 1 , 2 , … , n
λ k ( A ) ⩽ λ k ( A + B ) . \lambda_ {k} (A) \leqslant \lambda_ {k} (A + B). λ k ( A ) ⩽ λ k ( A + B ) . 证明:利用(4.3.2)中的下界及 λ 1 ( B ) ≥ 0 \lambda_1(B) \geq 0 λ 1 ( B ) ≥ 0 的事实,
如果矩阵 B B B 有秩1,那么用 A A A 的特征值作为 A + B A + B A + B 的特征值的界具有交错定理的形式:在 A + B A + B A + B 的每对相邻的单号数(或双号数)特征值间至少存在 A A A 的一个特征值.
4.3.4 定理 设 Λ ∈ M n \Lambda \in M_{n} Λ ∈ M n 是Hermite 矩阵, z ∈ C n z \in \mathbb{C}^{n} z ∈ C n 是给定的向量。如果 Λ \Lambda Λ 和 A ± z z ∗ A \pm zz^{*} A ± z z ∗ 的诸特征值均按递增顺序(4.2.1)排列,则有
(a) λ k ( A ± z z ∗ ) ⩽ λ k + 1 ( A ) ⩽ λ k + 2 ( A ± z z ∗ ) , k = 1 , 2 , … , n − 2 , \lambda_{k}(A \pm zz^{*}) \leqslant \lambda_{k+1}(A) \leqslant \lambda_{k+2}(A \pm zz^{*}), k = 1, 2, \dots, n-2, λ k ( A ± z z ∗ ) ⩽ λ k + 1 ( A ) ⩽ λ k + 2 ( A ± z z ∗ ) , k = 1 , 2 , … , n − 2 , (b) λ k ( A ) ⩽ λ k − 1 ( Λ ± z z ∗ ) ⩽ λ k + 2 ( A ) , k − 1 , 2 , … , n − 2. \lambda_{k}(A)\leqslant \lambda_{k - 1}(\Lambda \pm zz^{*})\leqslant \lambda_{k + 2}(A),\quad k - 1,2,\dots ,n - 2. λ k ( A ) ⩽ λ k − 1 ( Λ ± z z ∗ ) ⩽ λ k + 2 ( A ) , k − 1 , 2 , … , n − 2.
证明:设 1 ⩽ k ⩽ n 1 \leqslant k \leqslant n 1 ⩽ k ⩽ n 2,利用(4.2.12)可导出下述关系:
λ k ⋅ 2 ( A ± z z ∗ ) − min w 1 , … , u n − k − 2 ∈ C ∗ max γ ⌊ w 1 , … , u n − k − 2 x ∗ ( A ± z z ∗ ) x x ∗ x ⩾ min w 1 , … , w n , k : ∈ c n max x , w 1 , … , w n + n x − z x ∗ ( A ± z z ∗ ) x x ∗ x = min u 1 , … , u n − k − 2 ∈ c n , ⌊ u 1 , … , u n − k − 2 , u n − k − 1 max x ≠ 0 x , x x ∗ A x x ∗ x ⩾ min w 1 , … , w n − k − 2 ⋅ w n + 1 max ϵ = 0 λ ∗ Λ k x ∗ x − λ k + 1 ( A ) . \begin{array}{l} \lambda_ {k \cdot 2} (A \pm z z ^ {*}) - \min _ {w _ {1}, \dots , u _ {n - k - 2} \in \mathbf {C} ^ {*}} \max _ {\gamma \lfloor w _ {1}, \dots , u _ {n - k - 2}} \frac {x ^ {*} (A \pm z z ^ {*}) x}{x ^ {*} x} \\ \geqslant \min _ {w _ {1}, \dots , w _ {n, k}: \in \mathfrak {c} ^ {n}} \max _ {\substack {x, w _ {1}, \dots , w _ {n + n} \\ x - z}} \frac {x ^ {*} (A \pm z z ^ {*}) x}{x ^ {*} x} \\ = \min _ {\substack {u _ {1}, \dots , u _ {n - k - 2} \in \mathbf {c} ^ {n}, \lfloor u _ {1}, \dots , u _ {n - k - 2}, u _ {n - k - 1}}} \max _ {\substack {x \neq 0 \\ x, x}} \frac {x ^ {*} A x}{x ^ {*} x} \\ \geqslant \min _ {w _ {1}, \dots , w _ {n - k - 2} \cdot w _ {n + 1}} \max _ {\epsilon = 0} \frac {\lambda^ {*} \Lambda_ {k}}{x ^ {*} x} \\ - \lambda_ {k + 1} (A). \\ \end{array} λ k ⋅ 2 ( A ± z z ∗ ) − min w 1 , … , u n − k − 2 ∈ C ∗ max γ ⌊ w 1 , … , u n − k − 2 x ∗ x x ∗ ( A ± z z ∗ ) x ⩾ min w 1 , … , w n , k :∈ c n max x , w 1 , … , w n + n x − z x ∗ x x ∗ ( A ± z z ∗ ) x = min u 1 , … , u n − k − 2 ∈ c n , ⌊ u 1 , … , u n − k − 2 , u n − k − 1 max x = 0 x , x x ∗ x x ∗ A x ⩾ min w 1 , … , w n − k − 2 ⋅ w n + 1 max ϵ = 0 x ∗ x λ ∗ Λ k − λ k + 1 ( A ) . 现在设 2 ⩽ k ⩽ n − 1 2 \leqslant k \leqslant n - 1 2 ⩽ k ⩽ n − 1 ,利用(4.2.13)可以导出下述关系:
λ k ( A ± z x ∗ ) = max w 1 , … , w k − 1 ∈ C ∗ min r ± u i , … , w k − 1 x ∗ ( A ± z x ∗ ) x ⩽ max w 1 , … , w k − 1 ∈ c ∗ min r ≠ 0 x : w 1 , … , w k − 1 x ∣ r x ∗ ( A ⊢ z z ∗ ) x x ∗ x = max w 1 , … , w k − 1 ∈ ϵ n u k ∈ min x ≠ 0 x ∣ u 1 , … , w k , … , u k x ∗ A x x ∗ x ⩽ max w 1 , … , w k − 1 , w k ∈ C n min x ≠ 0 x , w 1 , … , w k − 1 , w k x ∗ A x x ∗ x = λ k + 1 ( A ) . \begin{array}{l} \lambda_ {k} (A \pm z x ^ {*}) = \max _ {w _ {1}, \dots , w _ {k - 1} \in C ^ {*}} \min _ {\substack {r \pm u _ {i}, \dots , w _ {k - 1}}} x ^ {*} \left(A \pm z x ^ {*}\right) x \\ \leqslant \max _ {w _ {1}, \dots , w _ {k - 1} \in c ^ {*}} \min _ {\substack {r \neq 0 \\ x: w _ {1}, \dots , w _ {k - 1} \\ x \mid r}} \frac {x ^ {*} (A \vdash z z ^ {*}) x}{x ^ {*} x} \\ = \max _ {\substack {w _ {1}, \dots , w _ {k - 1} \in \epsilon^ {n} \\ u _ {k} \in}} \min _ {\substack {x \neq 0 \\ x \mid u _ {1}, \dots , w _ {k}, \dots , u _ {k}}} \frac {x ^ {*} A x}{x ^ {*} x} \\ \leqslant \max _ {w _ {1}, \dots , w _ {k - 1}, w _ {k} \in C ^ {n}} \min _ {\substack {x \neq 0 \\ x, w _ {1}, \dots , w _ {k - 1}, w _ {k}}} \frac {x ^ {*} A x}{x ^ {*} x} = \lambda_ {k + 1} (A). \\ \end{array} λ k ( A ± z x ∗ ) = max w 1 , … , w k − 1 ∈ C ∗ min r ± u i , … , w k − 1 x ∗ ( A ± z x ∗ ) x ⩽ max w 1 , … , w k − 1 ∈ c ∗ min r = 0 x : w 1 , … , w k − 1 x ∣ r x ∗ x x ∗ ( A ⊢ z z ∗ ) x = max w 1 , … , w k − 1 ∈ ϵ n u k ∈ min x = 0 x ∣ u 1 , … , w k , … , u k x ∗ x x ∗ A x ⩽ max w 1 , … , w k − 1 , w k ∈ C n min x = 0 x , w 1 , … , w k − 1 , w k x ∗ x x ∗ A x = λ k + 1 ( A ) . 合并这两组不等式,由此得到所要求的不等式组
如果 B ∈ M n B \in M_{n} B ∈ M n 是一个Hermite矩阵,且 B = U Λ U ∗ B = U\Lambda U^{*} B = U Λ U ∗ ,其中, U = [ u 1 u 2 … u n ] U = [u_{1}u_{2}\dots u_{n}] U = [ u 1 u 2 … u n ] 是两矩阵, Λ − diag ( β 1 , β 2 , … , β n ) \Lambda - \operatorname{diag}(\beta_{1}, \beta_{2}, \dots, \beta_{n}) Λ − diag ( β 1 , β 2 , … , β n ) ,则 B B B 的秩等于非零特征值的个数。如果 B B B 的秩小于或等于 r r r ,则可假定 β r + 1 = ⋯ = β n − 0 \beta_{r+1} = \dots = \beta_{n} - 0 β r + 1 = ⋯ = β n − 0 。如果秩小于 r r r ,则 β 1 , β 2 , … , β s \beta_{1}, \beta_{2}, \dots, \beta_{s} β 1 , β 2 , … , β s 含有某些为零的特征值,表示式
B = ∑ i = 1 r β i u i u i ∗ (4.3.5) B = \sum_ {i = 1} ^ {r} \beta_ {i} u _ {i} u _ {i} ^ {*} \tag {4.3.5} B = i = 1 ∑ r β i u i u i ∗ ( 4.3.5 ) 是表示 B = U Λ U ∗ B = U\Lambda U^{*} B = U Λ U ∗ 的另一种形式。反过来,形如(4.3.5)的任何矩阵,只要所有 β t ≠ 0 \beta_{t} \neq 0 β t = 0 且 { u t } \{u_{t}\} { u t } 是无关组,那么它就有秩 r r r ;如果不知道 { u t } \{u_{t}\} { u t } 是否无关,那么 B B B 的秩至多是 r r r 。Weyl 的下一个定理给出了当 B B B 有秩 r r r 时 A + B A + B A + B 的诸特征值的界,它来源于积分方程理论。本定理是(4.3.4)的秩1情形的简单推广。
4.3.6 定理 设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是Hermite矩阵,并且假定 B B B 至多有秩 r r r ,则
(a) λ k ( A + B ) ⩽ λ k + r ( A ) ⩽ λ k + 2 r ( A + B ) , k = 1 , 2 , … , n − 2 r ; \lambda_{k}(A + B)\leqslant \lambda_{k + r}(A)\leqslant \lambda_{k + 2r}(A + B),\quad k = 1,2,\dots ,n - 2r; λ k ( A + B ) ⩽ λ k + r ( A ) ⩽ λ k + 2 r ( A + B ) , k = 1 , 2 , … , n − 2 r ; (b) λ k ( A ) ⩽ λ k + r ( A + B ) ⩽ λ k + 2 r ( A ) , k = 1 , 2 , … , n − 2 r ; \lambda_{k}(A)\leqslant \lambda_{k + r}(A + B)\leqslant \lambda_{k + 2r}(A),\quad k = 1,2,\dots ,n - 2r; λ k ( A ) ⩽ λ k + r ( A + B ) ⩽ λ k + 2 r ( A ) , k = 1 , 2 , … , n − 2 r ;
[183]
(c)如果 A = U Λ U ∗ A = U\Lambda U^{*} A = U Λ U ∗ ,其中, U = [ u 1 u 2 … u n ] ∈ M n U = [u_{1}u_{2}\dots u_{n}] \in M_{n} U = [ u 1 u 2 … u n ] ∈ M n 是酉矩阵, Λ = d i a g ( λ 1 , … , λ n ) \Lambda = \mathrm{diag}(\lambda_1,\dots ,\lambda_n) Λ = diag ( λ 1 , … , λ n ) ,且 λ 1 ⩽ λ 2 ⩽ ⋯ ⩽ λ n \lambda_1\leqslant \lambda_2\leqslant \dots \leqslant \lambda_n λ 1 ⩽ λ 2 ⩽ ⋯ ⩽ λ n ,又如果
B = λ n u n u n ∗ + λ n − 1 u n − 1 u n − 1 ∗ + ⋯ + λ n − r + 1 u n − r + 1 u n − r − 1 ∗ , B = \lambda_ {n} u _ {n} u _ {n} ^ {*} + \lambda_ {n - 1} u _ {n - 1} u _ {n - 1} ^ {*} + \dots + \lambda_ {n - r + 1} u _ {n - r + 1} u _ {n - r - 1} ^ {*}, B = λ n u n u n ∗ + λ n − 1 u n − 1 u n − 1 ∗ + ⋯ + λ n − r + 1 u n − r + 1 u n − r − 1 ∗ , 则 λ max ( A − B ) = λ n ( A ) \lambda_{\max}(A - B) = \lambda_n(A) λ m a x ( A − B ) = λ n ( A ) .
证明:设 B = α 1 u 1 u 1 ∗ + ⋯ + α r u r u r ∗ B = \alpha_{1}u_{1}u_{1}^{*} + \dots +\alpha_{r}u_{r}u_{r}^{*} B = α 1 u 1 u 1 ∗ + ⋯ + α r u r u r ∗ ,其中集合 { u 1 , … , u r } ⊂ C n \{u_1,\dots ,u_r\} \subset \mathbf{C}^n { u 1 , … , u r } ⊂ C n 不一定无关,(a)和(b)的证明恰好与(4.3.4)中(a)和(b)的证明相同.只是在前面放上一个条件“ x ⊥ z x\bot z x ⊥ z ”的地方,现在加上 r r r 个条件“ x ⊥ u 1 , … , u r x\bot u_{1},\dots ,u_{r} x ⊥ u 1 , … , u r ”,并完成相应的论证.关于(c),注意到 u 1 , … , u n u_{1},\dots ,u_{n} u 1 , … , u n 都是 A ⋅ B A\cdot B A ⋅ B 的特征向量,但是对于 k = n ⋅ r + 1 k = n\cdot r + 1 k = n ⋅ r + 1 , n − r + 2 n - r + 2 n − r + 2 ,…, n n n , ( A − B ) u k = 0 (A - B)u_{k} = 0 ( A − B ) u k = 0 ,而对于 k = 1 , 2 , … , k = 1,2,\dots , k = 1 , 2 , … , n − r n - r n − r , ( A − B ) u k = λ k u k (A - B)u_{k} = \lambda_{k}u_{k} ( A − B ) u k = λ k u k ,因为 λ n − r ⩾ λ n − r − 1 ⩾ ⋯ ⩾ λ 1 \lambda_{n - r}\geqslant \lambda_{n - r - 1}\geqslant \dots \geqslant \lambda_{1} λ n − r ⩾ λ n − r − 1 ⩾ ⋯ ⩾ λ 1 ,所以 A − B A - B A − B 的最大特征值是 λ n − r \lambda_{n - r} λ n − r □
练习 给出(4.3.6)中的(a)和(b)的详细证明。
上述结果所提供的足够信息,使我们能够推导出 Weyl 关于两个 Hermite 矩阵之和的特征值的下述一般结果。
4.3.7 定理 (Weyl) 设 A , B ∈ M n A, B \in M_n A , B ∈ M n 是 Hermite 矩阵,且 A , B A, B A , B 和 A + B A + B A + B 的诸特征值按 (4.2.1) 的递增顺序排列,那么,对于使得 1 ⩽ j , k ⩽ n 1 \leqslant j, k \leqslant n 1 ⩽ j , k ⩽ n 且 j + k ⩾ n + 1 j + k \geqslant n + 1 j + k ⩾ n + 1 的每对整数 j , k j, k j , k ,有
λ j + k − n ( A + B ) ⩽ λ j ( A ) + λ k ( B ) , \lambda_ {j + k - n} (A + B) \leqslant \lambda_ {j} (A) + \lambda_ {k} (B), λ j + k − n ( A + B ) ⩽ λ j ( A ) + λ k ( B ) , 而对于使得 1 ⩽ j , k ⩽ n 1 \leqslant j, k \leqslant n 1 ⩽ j , k ⩽ n 和 j + k ⩽ n + 1 j + k \leqslant n + 1 j + k ⩽ n + 1 的每对整数 j , k j, k j , k ,有
λ j ( A ) + λ k ( B ) ⩽ λ j + k ( A + B ) . \lambda_ {j} (A) + \lambda_ {k} (B) \leqslant \lambda_ {j + k} (A + B). λ j ( A ) + λ k ( B ) ⩽ λ j + k ( A + B ) . 证明:设 j , k j, k j , k 是满足第一组条件的已知整数。设 A = U Λ ( A ) U ∗ A = U\Lambda(A)U^{*} A = U Λ ( A ) U ∗ , B = V Λ ( B ) V ∗ B = V\Lambda(B)V^{*} B = V Λ ( B ) V ∗ ,其中, U = [ u 1 u 2 … u n ] ∈ M n U = [u_{1}u_{2}\dots u_{n}] \in M_{n} U = [ u 1 u 2 … u n ] ∈ M n 和 V = [ v 1 v 2 … v n ] ∈ M n V = [v_{1}v_{2}\dots v_{n}] \in M_{n} V = [ v 1 v 2 … v n ] ∈ M n 是两矩阵, Λ ( A ) = diag ( λ 1 ( A ) , … , λ n ( A ) ) ∈ M n \Lambda(A) = \operatorname{diag}(\lambda_{1}(A), \dots, \lambda_{n}(A)) \in M_{n} Λ ( A ) = diag ( λ 1 ( A ) , … , λ n ( A )) ∈ M n 且 Λ ( B ) = diag ( λ 1 ( B ) , … , λ n ( B ) ) ∈ M n \Lambda(B) = \operatorname{diag}(\lambda_{1}(B), \dots, \lambda_{n}(B)) \in M_{n} Λ ( B ) = diag ( λ 1 ( B ) , … , λ n ( B )) ∈ M n ,因而
A j = λ n ( A ) u n u n ∗ + λ n − 1 ( A ) u n − 1 u n − 1 ∗ + ⋯ + λ j + 1 ( A ) u j − 1 u j + 1 ∗ A _ {j} = \lambda_ {n} (A) u _ {n} u _ {n} ^ {*} + \lambda_ {n - 1} (A) u _ {n - 1} u _ {n - 1} ^ {*} + \dots + \lambda_ {j + 1} (A) u _ {j - 1} u _ {j + 1} ^ {*} A j = λ n ( A ) u n u n ∗ + λ n − 1 ( A ) u n − 1 u n − 1 ∗ + ⋯ + λ j + 1 ( A ) u j − 1 u j + 1 ∗ 的秩至多为 n − j n - j n − j , B k ≡ λ n ( B ) v n v n ′ + ⋯ + λ k − 1 ( B ) v k − 1 v k + 1 ′ B_{k} \equiv \lambda_{n}(B)v_{n}v_{n}^{\prime} + \dots + \lambda_{k-1}(B)v_{k-1}v_{k+1}^{\prime} B k ≡ λ n ( B ) v n v n ′ + ⋯ + λ k − 1 ( B ) v k − 1 v k + 1 ′ 的秩至多为 n − k n - k n − k ,而 A j + B k A_{j} + B_{k} A j + B k 的秩至多为 2 n − j − k 2n - j - k 2 n − j − k 。于是,根据(4.3.6c), λ n ( A − A j ) = λ j ( A ) \lambda_{n}(A - A_{j}) = \lambda_{j}(A) λ n ( A − A j ) = λ j ( A ) , λ n ( B − B k ) − λ k ( B ) \lambda_{n}(B - B_{k}) - \lambda_{k}(B) λ n ( B − B k ) − λ k ( B ) ,再根据(4.3.6b), λ n ( A − A j + B − B k ) = λ n ( A + B − ( A j + B k ) ) ⩾ λ n ( 2 n − j − k ) ( A + B ) = λ j + k − n ( A + B ) \lambda_{n}(A - A_{j} + B - B_{k}) = \lambda_{n}(A + B - (A_{j} + B_{k})) \geqslant \lambda_{n(2n - j - k)}(A + B) = \lambda_{j + k - n}(A + B) λ n ( A − A j + B − B k ) = λ n ( A + B − ( A j + B k )) ⩾ λ n ( 2 n − j − k ) ( A + B ) = λ j + k − n ( A + B ) (其中 k + r = n k + r = n k + r = n 且 r = 2 n − j − k r = 2n - j - k r = 2 n − j − k )。另外根据(4.3.2)有
λ n ( A − A j + B − B k ) ⩽ λ n ( A − A j ) + λ n ( B − B k ) , \lambda_ {n} (A - A _ {j} + B - B _ {k}) \leqslant \lambda_ {n} (A - A _ {j}) + \lambda_ {n} (B - B _ {k}), λ n ( A − A j + B − B k ) ⩽ λ n ( A − A j ) + λ n ( B − B k ) , (其中 k = n k = n k = n ).因此,有
λ j ( A ) + λ k ( B ) = λ n ( A − A j ) + λ n ( B − B k ) ⩾ λ n ( A − A t + B − B k ) = λ n ( ( A + B ) − ( A j + B k ) ) ⩾ λ j + k − n ( A + B ) , \begin{array}{l} \lambda_ {j} (A) + \lambda_ {k} (B) = \lambda_ {n} (A - A _ {j}) + \lambda_ {n} (B - B _ {k}) \geqslant \lambda_ {n} (A - A _ {t} + B - B _ {k}) \\ = \lambda_ {n} ((A + B) - (A _ {j} + B _ {k})) \geqslant \lambda_ {j + k - n} (A + B), \\ \end{array} λ j ( A ) + λ k ( B ) = λ n ( A − A j ) + λ n ( B − B k ) ⩾ λ n ( A − A t + B − B k ) = λ n (( A + B ) − ( A j + B k )) ⩾ λ j + k − n ( A + B ) , 这就是要证的第一组不等式。第二组不等式可直接由第一组不等式推出,只需把它应用于 − A -A − A 和 − B -B − B 即可。
练习 试给出从(4.3.7)中的第一组不等式推导出第二组不等式的详细证明。提示:利用(4.3.7)得到 λ j + k − n ( − A − B ) \lambda_{j + k - n}(-A - B) λ j + k − n ( − A − B ) 的一个上界,然后利用下面的事实:如果 A ∈ M n A \in M_n A ∈ M n 是Hermite矩阵,则 λ 1 ( − A ) = − λ n − j + 1 ( A ) \lambda_1(-A) = -\lambda_{n - j + 1}(A) λ 1 ( − A ) = − λ n − j + 1 ( A ) 。
作为这种类型的最后一个结果,考虑关于 A + B A + B A + B 的特征值的交错定理,其中,假定 A A A 和 B B B 中的每一个都具有特殊的形式。这个结果类似于(4.3.4)中假定 B B B 有秩1的情形,称之为加边
矩阵的交错特征值定理.
4.3.8 定理 设 A ∈ M n A \in M_{n} A ∈ M n 是给定的 Hermite 矩阵, y ∈ C n y \in \mathbf{C}^{n} y ∈ C n 是给定的向量, a ∈ R a \in \mathbb{R} a ∈ R 是给定的实数。设 A ^ ∈ M n + 1 \hat{A} \in M_{n+1} A ^ ∈ M n + 1 是在 A A A 旁镶上 y y y 和 a a a 后得到的 Hermite 矩阵,如下所述:
A ^ ≡ [ A y y ′ a ] . \hat {A} \equiv \left[ \begin{array}{c c} A & y \\ y ^ {\prime} & a \end{array} \right]. A ^ ≡ [ A y ′ y a ] . [185]
设 A A A 和 A ^ \hat{A} A ^ 的特征值分别用 { λ i } \{\lambda_{i}\} { λ i } 和 { λ ^ i } \{\hat{\lambda}_i\} { λ ^ i } 表示,且假定它们按递增顺序 λ 1 ⩽ ⋯ ⩽ λ n \lambda_1\leqslant \dots \leqslant \lambda_n λ 1 ⩽ ⋯ ⩽ λ n 和 λ ^ 1 ⩽ λ ^ 2 ⩽ ⋯ ⩽ \hat{\lambda}_1\leqslant \hat{\lambda}_2\leqslant \dots \leqslant λ ^ 1 ⩽ λ ^ 2 ⩽ ⋯ ⩽ λ ^ n ⩽ λ ^ n − 1 \hat{\lambda}_{n}\leqslant \hat{\lambda}_{n - 1} λ ^ n ⩽ λ ^ n − 1 排列,那么
λ ˙ 1 ⩽ λ 1 ⩽ λ ˙ 2 ⩽ λ 2 ⩽ ⋯ ⩽ λ n − 1 ⩽ λ ˙ n ⩽ λ n ⩽ λ ˙ n + 1 . (4.3.9) \dot {\lambda} _ {1} \leqslant \lambda_ {1} \leqslant \dot {\lambda} _ {2} \leqslant \lambda_ {2} \leqslant \dots \leqslant \lambda_ {n - 1} \leqslant \dot {\lambda} _ {n} \leqslant \lambda_ {n} \leqslant \dot {\lambda} _ {n + 1}. \tag {4.3.9} λ ˙ 1 ⩽ λ 1 ⩽ λ ˙ 2 ⩽ λ 2 ⩽ ⋯ ⩽ λ n − 1 ⩽ λ ˙ n ⩽ λ n ⩽ λ ˙ n + 1 . ( 4.3.9 ) 证明:设 k k k 是给定的整数,且 1 ⩽ k ⩽ n 1 \leqslant k \leqslant n 1 ⩽ k ⩽ n 。我们要证明 λ ^ k ⩽ λ k ⩽ λ ^ k + 1 \hat{\lambda}_k \leqslant \lambda_k \leqslant \hat{\lambda}_{k+1} λ ^ k ⩽ λ k ⩽ λ ^ k + 1 。设 r ^ = [ r T ζ ] T ∈ C n + 1 \hat{r} = [r^T \zeta]^T \in \mathbf{C}^{n+1} r ^ = [ r T ζ ] T ∈ C n + 1 , r ∈ C n r \in \mathbf{C}^n r ∈ C n , ζ ∈ C \zeta \in \mathbf{C} ζ ∈ C ,且 w ^ i − [ w i ′ w i ′ ] t ∈ C n + 1 \hat{w}_i - [w_i' w_i']^t \in \mathbf{C}^{n+1} w ^ i − [ w i ′ w i ′ ] t ∈ C n + 1 , w i ∈ C n w_i \in \mathbf{C}^n w i ∈ C n , w ∈ C w \in \mathbf{C} w ∈ C 。利用 Courant-Fischer 定理的 (4.2.12) 可导出
λ ^ k + 1 = min u 1 , … , u ( n + 1 ) − ( k − 1 ) ∈ c n − 1 max τ ^ ≠ 0 , τ ^ ∈ c n + 1 x ^ ∗ A ^ x ^ x ^ ∗ x ^ ⩾ min w ⃗ 1 , … , w ⃗ n , k ∈ c n + 1 max x ^ ≠ 0 x ^ ∗ A ^ x ^ x ^ ∗ x ^ = min w 1 , … , w n − k ∈ c n max x ≠ 0 , x ∈ c n x − w 1 , … , z n − k x ∗ A x x ∗ x = λ k . \begin{array}{l} \hat {\lambda} _ {k + 1} = \min _ {u _ {1}, \dots , u _ {(n + 1) - (k - 1)} \in \mathbf {c} ^ {n - 1}} \max _ {\hat {\tau} \neq 0, \hat {\tau} \in \mathbf {c} ^ {n + 1}} \frac {\hat {x} ^ {*} \hat {A} \hat {x}}{\hat {x} ^ {*} \hat {x}} \\ \geqslant \min _ {\vec {w} _ {1}, \dots , \vec {w} _ {n, k} \in c ^ {n + 1}} \max _ {\hat {x} \neq 0} \frac {\hat {x} ^ {*} \hat {A} \hat {x}}{\hat {x} ^ {*} \hat {x}} \\ = \min _ {w _ {1}, \dots , w _ {n - k} \in \mathbf {c} ^ {n}} \max _ {\substack {x \neq 0, x \in \mathbf {c} ^ {n} \\ x - w _ {1}, \dots , z _ {n - k}}} \frac {x ^ {*} A x}{x ^ {*} x} = \lambda_ {k}. \\ \end{array} λ ^ k + 1 = min u 1 , … , u ( n + 1 ) − ( k − 1 ) ∈ c n − 1 max τ ^ = 0 , τ ^ ∈ c n + 1 x ^ ∗ x ^ x ^ ∗ A ^ x ^ ⩾ min w 1 , … , w n , k ∈ c n + 1 max x ^ = 0 x ^ ∗ x ^ x ^ ∗ A ^ x ^ = min w 1 , … , w n − k ∈ c n max x = 0 , x ∈ c n x − w 1 , … , z n − k x ∗ x x ∗ A x = λ k . 关于 λ k \lambda_{k} λ k 的下界,利用(4.2.13)
λ ^ k = max x 1 , … , w k − 1 ∈ c n + 1 min x ⃗ ≠ 0 , x ⃗ ∈ c n − 1 x ⃗ : w j , … , n k − 1 x ^ ∗ x ^ ∗ A ^ x ^ x ^ ⩽ max u ⃗ 1 , … , u ⃗ k − 1 ∈ c n + 1 min τ ⃗ = 0 x ^ ∗ A ^ x ^ x ^ ∗ x ^ = max w 1 , … , w k − 1 ∈ c n min x ≠ 0 , x ∈ c n x , w 1 , … , w k − 1 x ∗ A x x ∗ x = λ k . \begin{array}{l} \hat {\lambda} _ {k} = \max _ {x _ {1}, \dots , w _ {k - 1} \in \mathbf {c} ^ {n + 1}} \min _ {\substack {\vec {x} \neq 0, \vec {x} \in \mathbf {c} ^ {n - 1} \\ \vec {x}: w _ {j}, \dots , n _ {k - 1}}} \frac {\hat {x} ^ {*}}{\hat {x} ^ {*}} \frac {\hat {A} \hat {x}}{\hat {x}} \\ \leqslant \max _ {\vec {u} _ {1}, \dots , \vec {u} _ {k - 1} \in \mathbf {c} ^ {n + 1}} \min _ {\vec {\tau} = 0} \frac {\hat {x} ^ {*} \hat {A} \hat {x}}{\hat {x} ^ {*} \hat {x}} \\ = \max _ {w _ {1}, \dots , w _ {k - 1} \in \mathbf {c} ^ {n}} \min _ {\substack {x \neq 0, x \in \mathbf {c} ^ {n} \\ x, w _ {1}, \dots , w _ {k - 1}}} \frac {x ^ {*} A x}{x ^ {*} x} = \lambda_ {k}. \\ \end{array} λ ^ k = max x 1 , … , w k − 1 ∈ c n + 1 min x = 0 , x ∈ c n − 1 x : w j , … , n k − 1 x ^ ∗ x ^ ∗ x ^ A ^ x ^ ⩽ max u 1 , … , u k − 1 ∈ c n + 1 min τ = 0 x ^ ∗ x ^ x ^ ∗ A ^ x ^ = max w 1 , … , w k − 1 ∈ c n min x = 0 , x ∈ c n x , w 1 , … , w k − 1 x ∗ x x ∗ A x = λ k . 我们已经看到关于特征值的交错定理的两个例子:如果给某个Hermite矩阵加上一个秩1Hermite矩阵或者通过加边造出一个新的Hermite矩阵,那么新旧矩阵的特征值必定交错。关于它们的逆命题又怎样呢?如果给定两组交错的实数,能否造一个Hermite矩阵,以及一个对它作了适当修改的矩阵使得它们分别以这两组交错实数为其特征值呢?回答是肯定的。作为例子,我们给出定理(4.3.8)的逆定理。
4.3.10 定理 设 n n n 是给定的正整数,且设
{ λ i : i = 1 , 2 , … , n } 和 { λ ^ i : i = 1 , 2 , … , n , n + 1 } \{\lambda_ {i}: i = 1, 2, \dots , n \} \quad {\text {和}} \quad \{\hat {\lambda} _ {i}: i = 1, 2, \dots , n, n + 1 \} { λ i : i = 1 , 2 , … , n } 和 { λ ^ i : i = 1 , 2 , … , n , n + 1 } 是适合关系
λ ^ 1 ⩽ λ 1 ⩽ λ ^ 2 ⩽ λ 2 ⩽ ⋯ ⩽ λ n − 1 ⩽ λ ^ n ⩽ λ n ⩽ λ ^ n + 1 \hat {\lambda} _ {1} \leqslant \lambda_ {1} \leqslant \hat {\lambda} _ {2} \leqslant \lambda_ {2} \leqslant \dots \leqslant \lambda_ {n - 1} \leqslant \hat {\lambda} _ {n} \leqslant \lambda_ {n} \leqslant \hat {\lambda} _ {n + 1} λ ^ 1 ⩽ λ 1 ⩽ λ ^ 2 ⩽ λ 2 ⩽ ⋯ ⩽ λ n − 1 ⩽ λ ^ n ⩽ λ n ⩽ λ ^ n + 1 的两个给定的实数序列。设 Λ = d i a g ( λ 1 , λ 2 , … , λ n ) \Lambda = \mathrm{diag}(\lambda_1, \lambda_2, \dots, \lambda_n) Λ = diag ( λ 1 , λ 2 , … , λ n ) 。则存在实数 a a a 和实向量 y ∈ R n y \in \mathbb{R}^n y ∈ R n ,使得 { λ ˙ 1 , λ ˙ 2 , … , λ ˙ n − 1 } \{\dot{\lambda}_1, \dot{\lambda}_2, \dots, \dot{\lambda}_{n-1}\} { λ ˙ 1 , λ ˙ 2 , … , λ ˙ n − 1 } 是实对称矩阵
A ^ ≡ [ A y y T a ] ∈ M n + 1 ( R ) \hat {A} \equiv \left[ \begin{array}{l l} A & y \\ y ^ {\mathrm {T}} & a \end{array} \right] \in M _ {n + 1} (\mathbf {R}) A ^ ≡ [ A y T y a ] ∈ M n + 1 ( R ) 的特征值集合.
证明:显然 { λ 1 , λ 2 , … , λ n } \{\lambda_1, \lambda_2, \dots, \lambda_n\} { λ 1 , λ 2 , … , λ n } 是 Λ \Lambda Λ 的特征值集合,又因为 tr A ^ = tr Λ + a \operatorname{tr} \hat{A} = \operatorname{tr} \Lambda + a tr A ^ = tr Λ + a ,我们必定有 a = tr A ^ − tr Λ = ∑ i = 1 n + 1 λ ^ i − ∑ i = 1 n λ i a = \operatorname{tr} \hat{A} - \operatorname{tr} \Lambda = \sum_{i=1}^{n+1} \hat{\lambda}_i - \sum_{i=1}^{n} \lambda_i a = tr A ^ − tr Λ = ∑ i = 1 n + 1 λ ^ i − ∑ i = 1 n λ i 。计算 A ^ \hat{A} A ^ 的特征多项式 p A ^ ( t ) p_{\hat{A}}(t) p A ^ ( t ) 是容易的,这是因为
det ( t I − A ^ ) = det [ t I − A − y … … … … − y I t − a ] = det [ I 0 [ ( t I − Λ ) − 1 y ] I 1 ] [ t I − Λ − y − y T t − a ] [ I ( t I − Λ ) − 1 y 0 1 ] = det [ t I … A 0 ⋮ 0 ( t − a ) − y 1 ( t I − A ) − 1 y ] = [ ( t − a ) y T ( t I − A ) − 1 y ] det ( t I − A ) = [ ( t − a ) ⋯ ∑ i = 1 n y i 2 1 t − λ i ] ∏ i = 1 n ( t − λ i ) = p 1 ∗ ( t ) . (4.3.11) \begin{array}{l} \det (t I - \hat {A}) = \det \left[ \begin{array}{c c} t I - A & - y \\ \dots \dots \dots & \dots \\ - y ^ {I} & t - a \end{array} \right] \\ = \det \left[ \begin{array}{c c} I & 0 \\ \left[ (t I - \Lambda) ^ {- 1} y \right] ^ {I} & 1 \end{array} \right] \left[ \begin{array}{c c} t I - \Lambda & - y \\ - y ^ {T} & t - a \end{array} \right] \left[ \begin{array}{c c} I & (t I - \Lambda) ^ {- 1} y \\ 0 & 1 \end{array} \right] \\ = \det \left[ \begin{array}{c c c} t I & \dots A \\ 0 & \vdots & 0 \\ (t - a) & - y ^ {1} (t I - A) ^ {- 1} y \end{array} \right] \\ = \left[ (t - a) \quad y ^ {T} (t I - A) ^ {- 1} y \right] \det (t I - A) \\ = \left[ (t - a) \dots \sum_ {i = 1} ^ {n} y _ {i} ^ {2} \frac {1}{t - \lambda_ {i}} \right] \prod_ {i = 1} ^ {n} (t - \lambda_ {i}) = p _ {1} ^ {*} (t). \tag {4.3.11} \\ \end{array} det ( t I − A ^ ) = det t I − A ……… − y I − y … t − a = det [ I [ ( t I − Λ ) − 1 y ] I 0 1 ] [ t I − Λ − y T − y t − a ] [ I 0 ( t I − Λ ) − 1 y 1 ] = det t I 0 ( t − a ) … A ⋮ − y 1 ( t I − A ) − 1 y 0 = [ ( t − a ) y T ( t I − A ) − 1 y ] det ( t I − A ) = [ ( t − a ) ⋯ ∑ i = 1 n y i 2 t − λ i 1 ] ∏ i = 1 n ( t − λ i ) = p 1 ∗ ( t ) . ( 4.3.11 ) 我们已经确定了值 a a a ,因此,剩下要证明的是, n n n 个实数 y i y_{i} y i 可以由(4.3.11)来确定,使得对 k = 1 , 2 , … , n + 1 k = 1, 2, \dots, n + 1 k = 1 , 2 , … , n + 1 有 p λ ( λ ^ k ) = 0 p_{\lambda}(\hat{\lambda}_k) = 0 p λ ( λ ^ k ) = 0 .
定义多项式
f ( t ) = ∏ 1 n + 1 ( t − λ ^ i ) , f 的 次 数 = n + 1 , (4.3.12) f (t) = \prod_ {1} ^ {n + 1} (t - \hat {\lambda} _ {i}), \quad f \text {的 次 数} = n + 1, \tag {4.3.12} f ( t ) = 1 ∏ n + 1 ( t − λ ^ i ) , f 的 次 数 = n + 1 , ( 4.3.12 ) g ( t ) = ∏ i = 1 n ( t − λ i ) , g 的 次 数 = n . (4.3.13) g (t) = \prod_ {i = 1} ^ {n} (t - \lambda_ {i}), \quad g \text {的 次 数} = n. \tag {4.3.13} g ( t ) = i = 1 ∏ n ( t − λ i ) , g 的 次 数 = n . ( 4.3.13 ) 根据Euclid算法,一定有
f ( t ) = g ( t ) ( t − c ) + r ( t ) , f (t) = g (t) (t - c) + r (t), f ( t ) = g ( t ) ( t − c ) + r ( t ) , 187
其中, c c c 是实数,而 r ( t ) r(t) r ( t ) 是次数至多为 n − 1 n - 1 n − 1 的多项式,通过直接计算,求得 c = ∑ i = 1 n + 1 λ ^ i ⋅ ⋅ ⋅ ∑ i = 1 n λ i c = \sum_{i = 1}^{n + 1}\hat{\lambda}_i\cdot \cdot \cdot \sum_{i = 1}^{n}\lambda_i c = ∑ i = 1 n + 1 λ ^ i ⋅ ⋅ ⋅ ∑ i = 1 n λ i = a = a = a 另外,因为 g ( λ k ) = 0 g(\lambda_k) = 0 g ( λ k ) = 0 ,所以对于 k = 1 , 2 , … , n k = 1,2,\dots ,n k = 1 , 2 , … , n , f ( λ k ) = g ( λ k ) ( λ k − a ) + r ( λ k ) = r ( λ k ) . f(\lambda_k) = g(\lambda_k)(\lambda_k - a) + r(\lambda_k) = r(\lambda_k). f ( λ k ) = g ( λ k ) ( λ k − a ) + r ( λ k ) = r ( λ k ) . 因此,就知道了多项式 r ( t ) r(t) r ( t ) 在 n _n n 个点的值,如果插值点 λ 1 , … , λ n \lambda_1,\dots ,\lambda_n λ 1 , … , λ n 是互不相同的,则 r ( t ) r(t) r ( t ) 可以用Lagrange插值公式明确写出,在这个假定下, g ( t ) g(t) g ( t ) 只有单根,因而,关于 r ( t ) r(t) r ( t ) 的Lagrange插值公式是
r ( t ) = ∑ t = 1 n f ( λ i ) g ( t ) g 7 ( λ i ) ( t − λ i ) . r (t) = \sum_ {t = 1} ^ {n} f (\lambda_ {i}) \frac {g (t)}{g ^ {7} (\lambda_ {i}) (t - \lambda_ {i})}. r ( t ) = t = 1 ∑ n f ( λ i ) g 7 ( λ i ) ( t − λ i ) g ( t ) . 于是,
f ( t ) g ( t ) = ( t − a ) + r ( t ) g ( t ) = ( t − a ) − ∑ i = 1 n − f ( λ i ) g ′ ( λ i ) 1 t − λ i \frac {f (t)}{g (t)} = (t - a) + \frac {r (t)}{g (t)} = (t - a) - \sum_ {i = 1} ^ {n} \frac {- f (\lambda_ {i})}{g ^ {\prime} (\lambda_ {i})} \frac {1}{t - \lambda_ {i}} g ( t ) f ( t ) = ( t − a ) + g ( t ) r ( t ) = ( t − a ) − i = 1 ∑ n g ′ ( λ i ) − f ( λ i ) t − λ i 1 因为,对所有 k = 1 , 2 , … , n + 1 k = 1,2,\dots ,n + 1 k = 1 , 2 , … , n + 1 , f ( λ ^ k ) = 0 f(\hat{\lambda}_k) = 0 f ( λ ^ k ) = 0 ,就必定有
( λ ^ k − a ) − ∑ i n − f ( λ i ) g ′ ( λ i ) 1 λ ^ k − λ i = 0 , k − 1 , 2 , … , n + 1. (4.3.14) \left(\hat {\lambda} _ {k} - a\right) - \sum_ {i} ^ {n} \frac {- f \left(\lambda_ {i}\right)}{g ^ {\prime} \left(\lambda_ {i}\right)} \frac {1}{\hat {\lambda} _ {k} - \lambda_ {i}} = 0, k - 1, 2, \dots , n + 1. \tag {4.3.14} ( λ ^ k − a ) − i ∑ n g ′ ( λ i ) − f ( λ i ) λ ^ k − λ i 1 = 0 , k − 1 , 2 , … , n + 1. ( 4.3.14 ) 我们看到,如果对 i = k i = k i = k 或 k k k 有 λ k = λ 1 \lambda_{k} = \lambda_{1} λ k = λ 1 ,则相应的项 1 / ( t − λ i ) 1 / (t - \lambda_{i}) 1/ ( t − λ i ) 有零系数,因而在 t = λ ^ k t = \hat{\lambda}_{k} t = λ ^ k 时不会有奇异性。如果对 i = 1 , … , n i = 1, \dots, n i = 1 , … , n ,可以命 y i 2 ≡ − f ( λ i ) / g ′ ( λ i ) y_{i}^{2} \equiv -f(\lambda_{i}) / g^{\prime}(\lambda_{i}) y i 2 ≡ − f ( λ i ) / g ′ ( λ i ) ,那么(4.3.11)保证 p A † ( λ ^ k ) = 0 p_{A}^{\dagger}(\hat{\lambda}_{k}) = 0 p A † ( λ ^ k ) = 0 ,于是就完成了证明。因此我们必须证明, f ( λ i ) / g ′ ( λ i ) ⩽ 0 f(\lambda_{i}) / g^{\prime}(\lambda_{i}) \leqslant 0 f ( λ i ) / g ′ ( λ i ) ⩽ 0 , i = 1 , 2 , … , n i = 1, 2, \dots, n i = 1 , 2 , … , n 。而现在该用交错性假设了。利用 f ( t ) f(t) f ( t ) 和 g ( t ) g(t) g ( t ) 的定义及交错假设,得知
f ( λ i ) = ( 1 ) n − r + 1 ∏ j n − k ∣ λ i − λ ^ j ∣ , g ′ ( λ i ) = ( − 1 ) n − i ∏ j = 1 j ≠ i n ∣ λ i − λ j ∣ , \begin{array}{l} f (\lambda_ {i}) = (1) ^ {n - r + 1} \prod_ {j} ^ {n - k} | \lambda_ {i} - \hat {\lambda} _ {j} |, \\ g ^ {\prime} (\lambda_ {i}) = (- 1) ^ {n - i} \prod_ {\substack {j = 1 \\ j \neq i}} ^ {n} | \lambda_ {i} - \lambda_ {j} |, \\ \end{array} f ( λ i ) = ( 1 ) n − r + 1 ∏ j n − k ∣ λ i − λ ^ j ∣ , g ′ ( λ i ) = ( − 1 ) n − i ∏ j = 1 j = i n ∣ λ i − λ j ∣ , 因而 f ( λ i ) f(\lambda_i) f ( λ i ) 和 g ′ ( λ i ) g^{\prime}(\lambda_i) g ′ ( λ i ) 总有相反的符号.
不难修改上述论证以适用于有些 λ i \lambda_{i} λ i 项相等的情形。例如,如果对某个 k ⩾ 2 k \geqslant 2 k ⩾ 2 ,有 λ 1 = λ 2 = ⋯ = λ k < λ k − 1 ⩽ … \lambda_{1} = \lambda_{2} = \dots = \lambda_{k} < \lambda_{k-1} \leqslant \dots λ 1 = λ 2 = ⋯ = λ k < λ k − 1 ⩽ … ,则 λ ^ j = ⋯ = λ ^ k = λ 1 \hat{\lambda}_{j} = \dots = \hat{\lambda}_{k} = \lambda_{1} λ ^ j = ⋯ = λ ^ k = λ 1 。(4.3.12)中的多项式 g ( t ) g(t) g ( t ) 有因子 ( t − λ ^ 1 ) ( t − λ 1 ) k − 1 (t - \hat{\lambda}_1)(t - \lambda_1)^{k-1} ( t − λ ^ 1 ) ( t − λ 1 ) k − 1 ;(4.3.13)中的多项式 g ( t ) g(t) g ( t ) 有因子 ( t − λ 1 ) k (t - \lambda_1)^k ( t − λ 1 ) k ,且 k k k 恰好是 λ 1 \lambda_{1} λ 1 作为 f ( t ) f(t) f ( t ) 的零点的重数。因此,可以用 ( t − λ 1 ) k (t - \lambda_1)^k ( t − λ 1 ) k 除 f ( t ) f(t) f ( t ) , g ( t ) g(t) g ( t ) 和 r ( t ) r(t) r ( t ) 来修改这每一个多项式。修改后的多项式 g ( t ) g(t) g ( t ) 将以 λ 1 \lambda_{1} λ 1 作为其单重零点。如果继续用这种办法取消 g ( t ) g(t) g ( t ) 的所有重根,则证明可以如前继续下去,且结论是相同的。
上述各个结果讨论了在一个Hermite矩阵旁“镶”上新的最后一行和最后一列的情形,但是这也可看成是给出了当把一个Hermite矩阵的最后一行和最后一列划去后其特征值的变化信息,当然最后一行或一列并没什么特殊的。在(4.3.8)中,如果划去矩阵 A ^ \hat{A} A ^ 的第 i i i 行和第 i i i 列,而不是第 ( n + 1 ) (n + 1) ( n + 1 ) 行和 ( n + 1 ) (n + 1) ( n + 1 ) 列,那么在证明中,只是使 e n − 1 e_{n - 1} e n − 1 变成 e 1 e_1 e 1 ,并且得到相同的交错不等式组(4.3.9)。
把定理(4.3.8)与(4.3.10)合在一起就说明,交错不等式组(4.3.9)是Hermite矩阵的诸特征值与它的任一 n − 1 n - 1 n − 1 阶主子矩阵的诸特征值之间的相互关系的一个完整的描述。如果同时考虑 A A A 的所有 n n n 个 ( n − 1 ) ( n − 1 ) (n - 1)(n - 1) ( n − 1 ) ( n − 1 ) 主子矩阵,那么还可以多说几句。设 A j A_{j} A j 表示划去 A A A 的第 j j j 行和第 j j j 列后得到的主子矩阵, j = 1 , 2 , … , n j = 1, 2, \dots, n j = 1 , 2 , … , n ,且设 A A A 和 A j A_{j} A j 的诸特征值按递增顺序排列。对于每个 i = 1 , 2 , … , n − 1 i = 1, 2, \dots, n - 1 i = 1 , 2 , … , n − 1 ,有
max 1 ⩽ i ⩽ n λ i ( A j ) ⩾ n − i n λ 1 ( A ) + i n λ i − 1 ( A ) , min 1 ⩽ i ⩽ n λ i ( A i ) ⩽ n − i n λ i ( A ) + i n λ n ( A ) , \begin{array}{l} \max _ {1 \leqslant i \leqslant n} \lambda_ {i} (A _ {j}) \geqslant \frac {n - i}{n} \lambda_ {1} (A) + \frac {i}{n} \lambda_ {i - 1} (A), \\ \min _ {1 \leqslant i \leqslant n} \lambda_ {i} (A _ {i}) \leqslant \frac {n - i}{n} \lambda_ {i} (A) + \frac {i}{n} \lambda_ {n} (A), \\ \end{array} max 1 ⩽ i ⩽ n λ i ( A j ) ⩾ n n − i λ 1 ( A ) + n i λ i − 1 ( A ) , min 1 ⩽ i ⩽ n λ i ( A i ) ⩽ n n − i λ i ( A ) + n i λ n ( A ) , 和
max 1 ⩽ r ⩽ n λ n − 1 ( A j ) − min 1 ⩽ r ⩽ n λ 1 ( A j ) ⩾ ( n − 2 n ) 1.2 [ λ n ( A ) − λ 1 ( A ) ] . \max _ {1 \leqslant r \leqslant n} \lambda_ {n - 1} (A _ {j}) - \min _ {1 \leqslant r \leqslant n} \lambda_ {1} (A _ {j}) \geqslant \left(\frac {n - 2}{n}\right) ^ {1. 2} [ \lambda_ {n} (A) - \lambda_ {1} (A) ]. 1 ⩽ r ⩽ n max λ n − 1 ( A j ) − 1 ⩽ r ⩽ n min λ 1 ( A j ) ⩾ ( n n − 2 ) 1.2 [ λ n ( A ) − λ 1 ( A )] . 如果 A A A 的所有特征值非负,即如果 A A A 是半正定矩阵,那么由这三个不等式中的第一个推出,至少有一个主子矩阵 A j A_{j} A j ,可使
λ n − 1 ( A i ) ⩾ n − 1 n λ n ( A ) . \lambda_ {n - 1} (A _ {i}) \geqslant \frac {n - 1}{n} \lambda_ {n} (A). λ n − 1 ( A i ) ⩾ n n − 1 λ n ( A ) . 因此,半正定Hermite矩阵的每个主子矩阵的谱半径不会“很小”
人们可能希望从一个Hermite矩阵中划去若干行和若干相应的列,余下的矩阵是原矩阵的一个主子矩阵。下述结果可以通过重复应用交错不等式组(4.3.9)来得到,但是从Courant-Fischer定理直接证明这个论断也一样容易。有时称这个结果为包含原理。
4.3.15 定理 设 A ∈ M n A \in M_{n} A ∈ M n 是Hermite矩阵, r r r 是整数, 1 ⩽ r ⩽ n 1 \leqslant r \leqslant n 1 ⩽ r ⩽ n ,又设 A r A_{r} A r 表示(从 A A A 中划去 n − r n - r n − r 行和相应的 n − r n - r n − r 列后得到的) A A A 的任 − r × r -r \times r − r × r 主子矩阵,则对于使 1 ⩽ k ⩽ r 1 \leqslant k \leqslant r 1 ⩽ k ⩽ r 的每个整数 k k k ,有
λ k ( A ) ⩽ λ k ( Λ i ) ⩽ λ k − n , ( Λ ) . \lambda_ {k} (A) \leqslant \lambda_ {k} (\Lambda_ {i}) \leqslant \lambda_ {k - n}, (\Lambda). λ k ( A ) ⩽ λ k ( Λ i ) ⩽ λ k − n , ( Λ ) . 证明:假定 A r ∈ M r A_{r} \in M_{r} A r ∈ M r 是从 A A A 中划去 i 1 , ⋯ , i n i_{1}, \cdots, i_{n} i 1 , ⋯ , i n ,行和相应的诸列后得到的,且设 1 ⩽ k ⩽ r 1 \leqslant k \leqslant r 1 ⩽ k ⩽ r 。利用(4.2.12)可导出
λ k − n , ( A ) = min w 1 , … , w r − k ∈ C n max x ≠ 1 , i ∈ C n x ⊥ u i , … , u r − k x x A x ⩾ min w 1 , … , u , k ∈ ℓ n max x ≠ 0 , x ∈ ℓ n w 1 , … , u , r , k x ≠ e 1 , … , e n x ∗ A x x ∗ x = min v 1 , … , v r , t ∈ c r max v + v r , y ∈ c r v , c 1 , … , c m − r y ∗ A r y y ∗ y = λ k ( A r ) . \begin{array}{l} \lambda_ {k - n}, (A) = \min _ {w _ {1}, \dots , w _ {r - k} \in \mathbb {C} ^ {n}} \max _ {\substack {x \neq 1, i \in \mathbb {C} ^ {n} \\ x \perp u _ {i}, \dots , u _ {r - k}}} \frac {x}{x} A x \\ \geqslant \min _ {w _ {1}, \dots , u, k \in \ell^ {n}} \max _ {\substack {x \neq 0, x \in \ell^ {n} \\ w _ {1}, \dots , u, r, k \\ x \neq e _ {1}, \dots , e _ {n}}} \frac {x ^ {*} A x}{x ^ {*} x} \\ = \min _ {v _ {1}, \dots , v _ {r}, t \in \mathbf {c} ^ {r}} \max _ {\substack {v + v _ {r}, y \in \mathbf {c} ^ {r} \\ v, c _ {1}, \dots , c _ {m - r}}} \frac {y ^ {*} A _ {r} y}{y ^ {*} y} = \lambda_ {k} (A _ {r}). \\ \end{array} λ k − n , ( A ) = min w 1 , … , w r − k ∈ C n max x = 1 , i ∈ C n x ⊥ u i , … , u r − k x x A x ⩾ min w 1 , … , u , k ∈ ℓ n max x = 0 , x ∈ ℓ n w 1 , … , u , r , k x = e 1 , … , e n x ∗ x x ∗ A x = min v 1 , … , v r , t ∈ c r max v + v r , y ∈ c r v , c 1 , … , c m − r y ∗ y y ∗ A r y = λ k ( A r ) . 假定 1 ⩽ k ⩽ r 1 \leqslant k \leqslant r 1 ⩽ k ⩽ r ,再利用(4.2.13)可导出
λ i ( A ) = max u 1 , … , u k − 1 ∈ c n min x n + 1 , x ∈ c n − w 1 , … , w k − 1 x ∗ A x x ∗ x ⩽ max w 1 , … , w k − 1 ∈ C n min r = 1 , … , r ∈ C n w 1 , … , w k − 1 r ∣ e 1 , … , e r π r x r A x x r x = max 1 , … , v k − 1 ∈ c ′ min y ≠ 0 , y ∈ c ′ v n , v 1 , … , v k − 1 y ∗ A r y y ∗ y = λ k ( A r ) . \begin{array}{l} \lambda_ {i} (A) = \max _ {u _ {1}, \dots , u _ {k - 1} \in \mathfrak {c} ^ {n}} \min _ {\substack {x ^ {n + 1}, x \in \mathfrak {c} ^ {n} \\ - w _ {1}, \dots , w _ {k - 1}}} \frac {x ^ {*} A x}{x ^ {*} x} \\ \leqslant \max _ {w _ {1}, \dots , w _ {k - 1} \in \mathbf {C} ^ {n}} \min _ {\substack {r = 1, \dots , r \in \mathbf {C} ^ {n} \\ w _ {1}, \dots , w _ {k - 1} \\ r \mid e _ {1}, \dots , e _ {r} \pi_ {r}}} \frac {x ^ {r} A x}{x ^ {r} x} \\ = \max _ {1, \dots , v _ {k - 1} \in \mathbf {c} ^ {\prime}} \min _ {\substack {y \neq 0, y \in \mathbf {c} ^ {\prime} \\ v _ {n}, v _ {1}, \dots , v _ {k - 1}}} \frac {y ^ {*} A _ {r} y}{y ^ {*} y} = \lambda_ {k} (A _ {r}). \\ \end{array} λ i ( A ) = max u 1 , … , u k − 1 ∈ c n min x n + 1 , x ∈ c n − w 1 , … , w k − 1 x ∗ x x ∗ A x ⩽ max w 1 , … , w k − 1 ∈ C n min r = 1 , … , r ∈ C n w 1 , … , w k − 1 r ∣ e 1 , … , e r π r x r x x r A x = max 1 , … , v k − 1 ∈ c ′ min y = 0 , y ∈ c ′ v n , v 1 , … , v k − 1 y ∗ y y ∗ A r y = λ k ( A r ) . 定理(4.3.15)的下述简单推论称为Poincaré分离定理。它可以应用于(像量子力学)那样的场合,在那里人们有关于内积 u i ∗ A u j u_{i}^{*}Au_{j} u i ∗ A u j 方面的信息。
4.3.16 推论 设 A ∈ M n A \in M_{n} A ∈ M n 是Hermite 矩阵, r r r 是适合 1 ⩽ r ⩽ n 1 \leqslant r \leqslant n 1 ⩽ r ⩽ n 的某个整数,设 u 1 , ⋯ , u r ∈ C n u_{1}, \cdots, u_{r} \in \mathbf{C}^{n} u 1 , ⋯ , u r ∈ C n 是 r r r 个给定的单位正交向量。设 B r ≡ [ u 1 ∗ A u j ] ∈ M i B_{r} \equiv [u_{1}^{*} A u_{j}] \in M_{i} B r ≡ [ u 1 ∗ A u j ] ∈ M i 。如果 A A A 和 B r B_{r} B r 的诸特征值按递增顺序(4.2.1)排列,则有
λ k ( A ) ⩽ λ k ( B r ) ⩽ λ k − n − r ( A ) , k = 1 , 2 , … , r . (4.3.17) \lambda_ {k} (A) \leqslant \lambda_ {k} (B _ {r}) \leqslant \lambda_ {k - n - r} (A), \quad k = 1, 2, \dots , r. \tag {4.3.17} λ k ( A ) ⩽ λ k ( B r ) ⩽ λ k − n − r ( A ) , k = 1 , 2 , … , r . ( 4.3.17 ) 证明:如果 r < n r < n r < n ,另选 n − r n - r n − r 个向量 u r + 1 , … , u n u_{r + 1}, \dots, u_n u r + 1 , … , u n 使得 { u 1 , … , u r , u r + 1 , … , u n } \{u_1, \dots, u_r, u_{r + 1}, \dots, u_n\} { u 1 , … , u r , u r + 1 , … , u n } 是标准正交组,设 U = { u 1 , … , u n } ∈ M n U = \{u_1, \dots, u_n\} \in M_n U = { u 1 , … , u n } ∈ M n 。矩阵 U U U 是酉矩阵, U ∗ A U U^*AU U ∗ A U 与 A A A 有相同的特征值,而已知矩阵 B i B_i B i 是划去最后 n − r n - r n − r 行和列后得到的 U ∗ A U U^*AU U ∗ A U 的主子矩阵。现在,论断可从(4.3.15)得
出.
在上述结果中,矩阵 B r ∈ M r B_{r} \in M_{r} B r ∈ M r 可以写成 U ∗ A U U^{*}AU U ∗ A U ,其中 U ∈ M n , r U \in M_{n,r} U ∈ M n , r 是有 r r r 个单位正交列的矩阵,因为 tr B r = λ 1 ( B r ) + ⋯ + λ r ( B r ) \operatorname{tr} B_{r} = \lambda_{1}(B_{r}) + \dots + \lambda_{r}(B_{r}) tr B r = λ 1 ( B r ) + ⋯ + λ r ( B r ) ,所以,下述极值特征可以通过相加不等式(4.3.17)来得到.
4.3.18 推论 设 A ∈ M n A \in M_{n} A ∈ M n 是Hermite矩阵, r r r 是适合 1 ⩽ r ⩽ n 1 \leqslant r \leqslant n 1 ⩽ r ⩽ n 的某个整数,那么
λ 1 ( A ) + ⋯ + λ r ( A ) = min U ∗ U = I ∈ M i tr U ∗ A U , λ n − 1 ( A ) + ⋯ + λ n ( A ) = max I ∗ U = I ∈ M i tr U ∗ A U , (4.3.20) \begin{array}{l} \lambda_ {1} (A) + \dots + \lambda_ {r} (A) = \min _ {U ^ {*} U = I \in M _ {i}} \operatorname {t r} U ^ {*} A U, \\ \lambda_ {n - 1} (A) + \dots + \lambda_ {n} (A) = \max _ {I ^ {*} U = I \in M _ {i}} \operatorname {t r} U ^ {*} A U, \end{array} \tag {4.3.20} λ 1 ( A ) + ⋯ + λ r ( A ) = min U ∗ U = I ∈ M i tr U ∗ A U , λ n − 1 ( A ) + ⋯ + λ n ( A ) = max I ∗ U = I ∈ M i tr U ∗ A U , ( 4.3.20 ) 如果 U U U 的诸列选为 A A A 的 r r r 个最小特征值的相应单位正交向量,则(4.3.19)中等式成立。类似的选择推出(4.3.20)的等式成立。这两个不等式可以看作Rayleigh-Ritz定理(4.2.2)的推广,它们可以用来证明许多其他有意义的不等式。
有时,我们知道二次型 x ∗ A x x^{*}Ax x ∗ A x 在一个子空间上的变化范围,把Courant-Fischer定理用于这种情形便可以给出A的诸特征值的界.
4.3.21 定理 设 A ∈ M n A \in M_{n} A ∈ M n 是 Hermite 矩阵, k k k 是适合 1 ⩽ k ⩽ n 1 \leqslant k \leqslant n 1 ⩽ k ⩽ n 的某个整数,设 A A A 的诸特征值按递增顺序(4.2.1)排列,且设 S k S_{k} S k 是 C n \mathbf{C}^{n} C n 的某个 k k k 维子空间。如果存在常数 c 2 c_{2} c 2 ,使得对所有 x ∈ S k x \in S_{k} x ∈ S k 有 x ∗ A x ⩾ c 2 x ∗ x x^{*}Ax \geqslant c_{2}x^{*}x x ∗ A x ⩾ c 2 x ∗ x ,则 λ n ⩾ λ n − 1 ⩾ ⋯ ⩾ λ n − k − 1 ⩾ c 2 \lambda_{n} \geqslant \lambda_{n-1} \geqslant \cdots \geqslant \lambda_{n-k-1} \geqslant c_{2} λ n ⩾ λ n − 1 ⩾ ⋯ ⩾ λ n − k − 1 ⩾ c 2 。如果存在常数 c 1 c_{1} c 1 ,使得对所有 x ∈ S k x \in S_{k} x ∈ S k 有 x ∗ A x ⩽ c 1 x ∗ x x^{*}Ax \leqslant c_{1}x^{*}x x ∗ A x ⩽ c 1 x ∗ x ,则 c 1 ⩾ λ k ⩾ ⋯ ⩾ λ 1 c_{1} \geqslant \lambda_{k} \geqslant \cdots \geqslant \lambda_{1} c 1 ⩾ λ k ⩾ ⋯ ⩾ λ 1 。
证明:设 u 1 , ⋯ , u n − k u_{1}, \cdots, u_{n-k} u 1 , ⋯ , u n − k 是张成 S 1 k S \frac{1}{k} S k 1 的 n − k n-k n − k 个单位正交向量。利用(4.2.13)可导出
c 2 ⩽ min x ≠ 0 x ∈ S k x ∗ A x x ∗ x = min x ≠ 0 x ∣ u 1 , … , u n − k x ∗ A x x ∗ x ⩽ max w 1 , … , w n − k ∈ c n min x ≠ 0 w 1 , … , w n − k x ∗ x A x x = λ n − k + 1 . (4.3.22) \begin{array}{l} c _ {2} \leqslant \min _ {\substack {x \neq 0 \\ x \in S _ {k}}} \frac {x ^ {*} A x}{x ^ {*} x} = \min _ {\substack {x \neq 0 \\ x \mid u _ {1}, \dots , u _ {n - k}}} \frac {x ^ {*} A x}{x ^ {*} x} \\ \leqslant \max _ {w _ {1}, \dots , w _ {n - k} \in \mathbf {c} ^ {n}} \min _ {\substack {x \neq 0 \\ w _ {1}, \dots , w _ {n - k}}} \frac {x ^ {*}}{x} \frac {A x}{x} = \lambda_ {n - k + 1}. \tag{4.3.22} \\ \end{array} c 2 ⩽ min x = 0 x ∈ S k x ∗ x x ∗ A x = min x = 0 x ∣ u 1 , … , u n − k x ∗ x x ∗ A x ⩽ max w 1 , … , w n − k ∈ c n min x = 0 w 1 , … , w n − k x x ∗ x A x = λ n − k + 1 . ( 4.3.22 ) 类似地,可以利用(4.2.12)导出
c 1 ⩾ max x ≠ 0 x ∈ S k x ∗ A x x ∗ x = max x ≠ 0 x − n 1 , … , n n − k x ∗ A x x ∗ x ⩾ min w 1 , … , w n ∈ c n max i = 0 i − x 1 , … , w n − k x ⋅ A x x ∗ x = λ k . \begin{array}{l} c _ {1} \geqslant \max _ {\substack {x \neq 0 \\ x \in S _ {k}}} \frac {x ^ {*} A x}{x ^ {*} x} = \max _ {\substack {x \neq 0 \\ x - n _ {1}, \dots , n _ {n - k}}} \frac {x ^ {*} A x}{x ^ {*} x} \\ \geqslant \min _ {w _ {1}, \dots , w _ {n} \in \mathbf {c} ^ {n}} \max _ {\substack {i = 0 \\ i - x _ {1}, \dots , w _ {n - k}}} \frac {x \cdot A x}{x ^ {*} x} = \lambda_ {k}. \\ \end{array} c 1 ⩾ max x = 0 x ∈ S k x ∗ x x ∗ A x = max x = 0 x − n 1 , … , n n − k x ∗ x x ∗ A x ⩾ min w 1 , … , w n ∈ c n max i = 0 i − x 1 , … , w n − k x ∗ x x ⋅ A x = λ k . 4.3.23 推论 如果 A ∈ M n A \in M_{n} A ∈ M n 是Hermite矩阵,且对 k k k 维子空间的所有向量 x x x 有 x ∗ A x ⩾ 0 x^{*}Ax \geqslant 0 x ∗ A x ⩾ 0 ,则 A A A 至少有 k k k 个非负特征值。如果对 k k k 维子空间的所有非零向量有 x ∗ A x > 0 x^{*}Ax > 0 x ∗ A x > 0 ,则 A A A 至少有 k k k 个正特征值。
证明:第一个论断可由上述定理推出,只需取 c 2 = 0 c_{2} = 0 c 2 = 0 。如果 λ n − k + 1 = 0 \lambda_{n - k + 1} = 0 λ n − k + 1 = 0 ,则不等式(4.3.22)说明
0 = min x ≠ 0 r ∈ S k x ∗ A x x ∗ x = min x ⋅ r = 1 r ∈ S k x ∗ A x . 0 = \min _ {\substack {x \neq 0 \\ r \in S _ {k}}} \frac {x ^ {*} A x}{x ^ {*} x} = \min _ {\substack {x \cdot r = 1 \\ r \in S _ {k}}} x ^ {*} A x. 0 = x = 0 r ∈ S k min x ∗ x x ∗ A x = x ⋅ r = 1 r ∈ S k min x ∗ A x . 但 S k S_{k} S k 是有限维的,所以集 D = { x ∈ S k : x ∗ x = 1 } D = \{x\in S_k:x^* x = 1\} D = { x ∈ S k : x ∗ x = 1 } 是紧集[见(5.5.6)],因而连续函数 x ∗ A x x^{*}Ax x ∗ A x 对
191
某个满足 x ∗ x = 1 x^{*}x = 1 x ∗ x = 1 的 x 0 ∈ S k x_{0} \in S_{k} x 0 ∈ S k 达到它在 D D D 上的极小值;特别是 x 0 ≠ 0 x_{0} \neq 0 x 0 = 0 ,然而, x 0 ∗ A x 0 = 0 x_{0}^{*}Ax_{0} = 0 x 0 ∗ A x 0 = 0 ,这与当 x ∈ S k x \in S_{k} x ∈ S k 且 x ≠ 0 x \neq 0 x = 0 时有 x ∗ A x > 0 x^{*}Ax > 0 x ∗ A x > 0 的假设相矛盾. □
Hermite 矩阵的诸特征值和诸主对角元都是实数,且诸特征值之和与诸对角元之和(迹)相同。诸主对角元和诸特征值间的明确关系可用优化概念给出。
4.3.24 定义 设 α = [ α i ] ∈ R n \alpha = [\alpha_{i}] \in \mathbb{R}^{n} α = [ α i ] ∈ R n 和 β = [ β i ] ∈ R n \beta = [\beta_{i}] \in \mathbb{R}^{n} β = [ β i ] ∈ R n 已知,如果对所有 k = 1 , 2 , … , n k = 1, 2, \dots, n k = 1 , 2 , … , n
min { ∑ j = 1 k β i j : 1 ⩽ i 1 < ⋯ < i k ⩽ n } ⩾ min { ∑ i = 1 l α i j : 1 ⩽ i 1 < ⋯ < i k ⩽ n } . \min \left\{\sum_ {j = 1} ^ {k} \beta_ {i _ {j}}: 1 \leqslant i _ {1} < \dots < i _ {k} \leqslant n \right\} \geqslant \min \left\{\sum_ {i = 1} ^ {l} \alpha_ {i _ {j}}: 1 \leqslant i _ {1} < \dots < i _ {k} \leqslant n \right\}. min { j = 1 ∑ k β i j : 1 ⩽ i 1 < ⋯ < i k ⩽ n } ⩾ min { i = 1 ∑ l α i j : 1 ⩽ i 1 < ⋯ < i k ⩽ n } . 且当 k = n k = n k = n 时等式成立,则称向量 β \beta β 优化向量 α \alpha α 。如果按递增顺序 α j 1 ⩽ α j 2 ⩽ ⋯ ⩽ α j n \alpha_{j_1} \leqslant \alpha_{j_2} \leqslant \dots \leqslant \alpha_{j_n} α j 1 ⩽ α j 2 ⩽ ⋯ ⩽ α j n , β m 1 ⩽ β m 2 ⩽ ⋯ ⩽ β m n \beta_{m_1} \leqslant \beta_{m_2} \leqslant \dots \leqslant \beta_{m_n} β m 1 ⩽ β m 2 ⩽ ⋯ ⩽ β m n 排列 α \alpha α 和 β \beta β 的各元素,则定义的不等式组可以表达成等价的形式,
∑ t = 1 k β m t ⩾ ∑ t = 1 k α j t . (4.3.25) \sum_ {t = 1} ^ {k} \beta_ {m _ {t}} \geqslant \sum_ {t = 1} ^ {k} \alpha_ {j _ {t}}. \tag {4.3.25} t = 1 ∑ k β m t ⩾ t = 1 ∑ k α j t . ( 4.3.25 ) [192] 它对所有 k = 1 , 2 , … , n k = 1, 2, \dots, n k = 1 , 2 , … , n 成立,且等式对 k = n k = n k = n 成立.
因此,实向量 β \beta β 优化实向量 α \alpha α ,是指对 k − 1 , 2 , … , n − 1 , β k - 1, 2, \dots, n - 1, \beta k − 1 , 2 , … , n − 1 , β 的 k k k 个最小元素之和大于或等于 α \alpha α 的 k k k 个最小元素之和,且 β \beta β 与 α \alpha α 的各元素之和相等。应指出的是,可以任意改变 β \beta β 与 α \alpha α 各元素的顺序,而不影响 β \beta β 是否优化 α \alpha α 。
优化概念是在矩阵理论的许多场合中作为两个实数集间的确定关系产生出来的重要概念. 这种情形的一个例子是下述 Schur 定理(1923).
4.3.26 定理 设 A ∈ M n A \in M_{n} A ∈ M n 是 Hermite 矩阵,则 A A A 的诸对角元组成的向量优化 A A A 的诸特征值组成的向量。
证明:证明是对维数作归纳法。对 n = 1 n = 1 n = 1 ,没有什么可证的,所以,假定结论对所有 k ⩽ n − 1 k \leqslant n - 1 k ⩽ n − 1 维Hermite矩阵成立。设 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n 是给定的Hermite矩阵,且设 A 1 ∈ M n A_1 \in M_n A 1 ∈ M n 是划去对应于 A A A 的最大对角元的行和列后得到的 A A A 的主 f f f 矩阵。设 λ 1 ⩽ ⋯ ⩽ λ n \lambda_1 \leqslant \cdots \leqslant \lambda_n λ 1 ⩽ ⋯ ⩽ λ n 是 A A A 的有序特征值, λ 1 ⊥ ⩽ ⋯ ⩽ λ n ⊥ \lambda_1^{\perp} \leqslant \cdots \leqslant \lambda_n^{\perp} λ 1 ⊥ ⩽ ⋯ ⩽ λ n ⊥ 是 A 1 A_1 A 1 的有序特征值,且设 a i 1 i 1 ⩽ a i 1 i 2 ⩽ ⋯ ⩽ a i n i n a_{i_1 i_1} \leqslant a_{i_1 i_2} \leqslant \cdots \leqslant a_{i_n i_n} a i 1 i 1 ⩽ a i 1 i 2 ⩽ ⋯ ⩽ a i n i n 是诸对角元按递增顺序的重排。根据归纳假定,对所有 k = 1 , ⋯ , n − 1 k = 1, \cdots, n - 1 k = 1 , ⋯ , n − 1 ,有
∑ j = 1 k a i , j ⩾ ∑ j = 1 k λ ′ . \sum_ {j = 1} ^ {k} a _ {i, j} \geqslant \sum_ {j = 1} ^ {k} \lambda^ {\prime}. j = 1 ∑ k a i , j ⩾ j = 1 ∑ k λ ′ . 因为交错性[定理(4.3.8)], 还有
λ 1 ⩽ λ 1 ′ ⩽ λ 2 ⩽ λ 2 ′ ⩽ ⋯ ⩽ λ n − 1 ′ ⩽ λ n , \lambda_ {1} \leqslant \lambda_ {1} ^ {\prime} \leqslant \lambda_ {2} \leqslant \lambda_ {2} ^ {\prime} \leqslant \dots \leqslant \lambda_ {n - 1} ^ {\prime} \leqslant \lambda_ {n}, λ 1 ⩽ λ 1 ′ ⩽ λ 2 ⩽ λ 2 ′ ⩽ ⋯ ⩽ λ n − 1 ′ ⩽ λ n , 因而,对所有 k = 1 , 2 , … , n − 1 k = 1,2,\dots ,n - 1 k = 1 , 2 , … , n − 1 ,有
∑ j = 1 k λ j ′ ⩾ ∑ j = 1 k λ j . \sum_ {j = 1} ^ {k} \lambda_ {j} ^ {\prime} \geqslant \sum_ {j = 1} ^ {k} \lambda_ {j}. j = 1 ∑ k λ j ′ ⩾ j = 1 ∑ k λ j . 因此
∑ j = 1 k a i j , j ⩾ ∑ j = 1 k λ j , k = 1 , … , n − 1 , \sum_ {j = 1} ^ {k} a _ {i j, j} \geqslant \sum_ {j = 1} ^ {k} \lambda_ {j}, \quad k = 1, \dots , n - 1, j = 1 ∑ k a ij , j ⩾ j = 1 ∑ k λ j , k = 1 , … , n − 1 , 又因为迹是所有特征值的和,所以等式对 k = n k = n k = n 成立.
优化概念也可以用来表示矩阵之和的诸特征值与其被加矩阵的诸特征值间的关系.
4.3.27 定理 设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是 Hermite 矩阵,设 λ ( A ) = [ λ i ( A ) ] \lambda(A) = [\lambda_{i}(A)] λ ( A ) = [ λ i ( A )] , λ ( B ) = [ λ i ( B ) ] \lambda(B) = [\lambda_{i}(B)] λ ( B ) = [ λ i ( B )] 和 λ ( A + B ) = [ λ i ( A + B ) ] \lambda(A + B) = [\lambda_{i}(A + B)] λ ( A + B ) = [ λ i ( A + B )] 表示 R n \mathbb{R}^{n} R n 中的列向量,它们的诸分量各是按递增顺序(4.2.1)排列的 A , B A, B A , B 和 A + B A + B A + B 的诸特征值,则向量 λ ( A + B ) \lambda(A + B) λ ( A + B ) 优化向量 λ ( A ) + λ ( B ) \lambda(A) + \lambda(B) λ ( A ) + λ ( B ) .
证明:对任意 k = 1 , 2 , … , n k = 1,2,\dots ,n k = 1 , 2 , … , n ,利用(4.3.18)可导出
∑ i = 1 k λ i ( A + B ) = min U ∗ U : I ∈ M k tr U ∗ ( A + B ) U − min U ∗ U = t ∈ M k ( tr U ∗ A U + tr U ∗ B U ) ⩾ min U ∗ U = I ∈ M k tr U ∗ A U + min U ∗ U = I ∈ M k tr U ∗ B U − ∑ i = 1 k λ i ( A ) + ∑ i = 1 k λ i ( B ) = ∑ i = 1 k ( λ i ( A ) + λ i ( B ) ) . \begin{array}{l} \sum_ {i = 1} ^ {k} \lambda_ {i} (A + B) = \min _ {U ^ {*} U: I \in M _ {k}} \operatorname {t r} U ^ {*} (A + B) U \\ - \min _ {U ^ {*} U = t \in M _ {k}} (\operatorname {t r} U ^ {*} A U + \operatorname {t r} U ^ {*} B U) \\ \geqslant \min _ {U ^ {*} U = I \in M _ {k}} \operatorname {t r} U ^ {*} A U + \min _ {U ^ {*} U = I \in M _ {k}} \operatorname {t r} U ^ {*} B U \\ - \sum_ {i = 1} ^ {k} \lambda_ {i} (A) + \sum_ {i = 1} ^ {k} \lambda_ {i} (B) = \sum_ {i = 1} ^ {k} (\lambda_ {i} (A) + \lambda_ {i} (B)). \\ \end{array} ∑ i = 1 k λ i ( A + B ) = min U ∗ U : I ∈ M k tr U ∗ ( A + B ) U − min U ∗ U = t ∈ M k ( tr U ∗ A U + tr U ∗ B U ) ⩾ min U ∗ U = I ∈ M k tr U ∗ A U + min U ∗ U = I ∈ M k tr U ∗ B U − ∑ i = 1 k λ i ( A ) + ∑ i = 1 k λ i ( B ) = ∑ i = 1 k ( λ i ( A ) + λ i ( B )) . 因为 tr ( A + B ) = tr A + tr B \operatorname{tr}(A + B) = \operatorname{tr} A + \operatorname{tr} B tr ( A + B ) = tr A + tr B ,对于 k = n k = n k = n ,等式成立。
我们已经说过,优化是Hermite矩阵的诸主对角元与它的诸特征值间的一个确定的关系,但是,在(1.3.26)中只是建立起这种关系的一半,为了证明另一半,需要下面的技巧性引理。
4.3.28 引理 设 n ⩾ 2 n \geqslant 2 n ⩾ 2 ,且设 α 1 ⩽ α 2 ⩽ ⋯ ⩽ α n \alpha_{1} \leqslant \alpha_{2} \leqslant \cdots \leqslant \alpha_{n} α 1 ⩽ α 2 ⩽ ⋯ ⩽ α n 和 β 1 ⩽ β 2 ⩽ ⋯ ⩽ β n \beta_{1} \leqslant \beta_{2} \leqslant \cdots \leqslant \beta_{n} β 1 ⩽ β 2 ⩽ ⋯ ⩽ β n 是给定的实数。如果向量 β = [ β i ] \beta = [\beta_{i}] β = [ β i ] 优化向量 α = [ α i ] \alpha = [\alpha_{i}] α = [ α i ] ,则存在 n − 1 n - 1 n − 1 个实数 γ 1 , ⋯ , γ n − 1 \gamma_{1}, \cdots, \gamma_{n - 1} γ 1 , ⋯ , γ n − 1 ,使得
α 1 ⩽ γ 1 ⩽ α 2 ⩽ γ 2 ⩽ α 3 ⩽ ⋯ ⩽ α n − 1 ⩽ γ n − 1 ⩽ α n , \alpha_ {1} \leqslant \gamma_ {1} \leqslant \alpha_ {2} \leqslant \gamma_ {2} \leqslant \alpha_ {3} \leqslant \dots \leqslant \alpha_ {n - 1} \leqslant \gamma_ {n - 1} \leqslant \alpha_ {n}, α 1 ⩽ γ 1 ⩽ α 2 ⩽ γ 2 ⩽ α 3 ⩽ ⋯ ⩽ α n − 1 ⩽ γ n − 1 ⩽ α n , 且使得 β ′ = [ β 1 , … , β n − 1 ] T ∈ R n − 1 \beta^{\prime} = [\beta_{1},\dots ,\beta_{n - 1}]^{T}\in \mathbf{R}^{n - 1} β ′ = [ β 1 , … , β n − 1 ] T ∈ R n − 1 优化 γ = [ γ 1 , … , γ n − 1 ] T ∈ R n − 1 \gamma = [\gamma_{1},\dots ,\gamma_{n - 1}]^{T}\in \mathbf{R}^{n - 1} γ = [ γ 1 , … , γ n − 1 ] T ∈ R n − 1
证明:如果 n = 2 n = 2 n = 2 ,则有 α 1 ⩽ β 1 \alpha_{1} \leqslant \beta_{1} α 1 ⩽ β 1 且 α 1 + α 1 = β 1 + β 2 \alpha_{1} + \alpha_{1} = \beta_{1} + \beta_{2} α 1 + α 1 = β 1 + β 2 ,或
α 2 = ( β 1 − α 1 ) + β 2 ⩾ β 2 ⩾ β 1 . \alpha_ {2} = \left(\beta_ {1} - \alpha_ {1}\right) + \beta_ {2} \geqslant \beta_ {2} \geqslant \beta_ {1}. α 2 = ( β 1 − α 1 ) + β 2 ⩾ β 2 ⩾ β 1 . 所以, α 2 ⩽ β 1 ⩽ α 2 \alpha_{2} \leqslant \beta_{1} \leqslant \alpha_{2} α 2 ⩽ β 1 ⩽ α 2 ,因而可以选取 γ 1 = β 1 \gamma_{1} = \beta_{1} γ 1 = β 1 且适合所述条件。现在假定 n ⩾ 2 n \geqslant 2 n ⩾ 2 ,且设 Δ = { [ δ 1 , ⋯ , δ n − 1 ] T } ⊂ R n \Delta = \{\left[\delta_{1}, \cdots, \delta_{n-1}\right]^{T}\} \subset \mathbf{R}^{n} Δ = { [ δ 1 , ⋯ , δ n − 1 ] T } ⊂ R n 表示用不等式组
α 1 ⩽ δ 1 ⩽ α 2 ⩽ δ 2 ⩽ α 3 ⩽ ⋯ ⩽ α n − 1 ⩽ δ n − 1 ⩽ α n , ( 4.3.29 a ) ∑ i = 1 k δ i ⩽ ∑ i = 1 k β i , k = 1 , 2 , … , n − 2 ( 4.3.29 b ) \begin{array}{l} \alpha_ {1} \leqslant \delta_ {1} \leqslant \alpha_ {2} \leqslant \delta_ {2} \leqslant \alpha_ {3} \leqslant \dots \leqslant \alpha_ {n - 1} \leqslant \delta_ {n - 1} \leqslant \alpha_ {n}, (4.3.29a) \\ \sum_ {i = 1} ^ {k} \delta_ {i} \leqslant \sum_ {i = 1} ^ {k} \beta_ {i}, \quad k = 1, 2, \dots , n - 2 (4.3.29b) \\ \end{array} α 1 ⩽ δ 1 ⩽ α 2 ⩽ δ 2 ⩽ α 3 ⩽ ⋯ ⩽ α n − 1 ⩽ δ n − 1 ⩽ α n , ( 4.3.29 a ) ∑ i = 1 k δ i ⩽ ∑ i = 1 k β i , k = 1 , 2 , … , n − 2 ( 4.3.29 b ) 定义的点集.因为 β \beta β 优化 α \alpha α ,所以点 δ = α ˙ = [ α 1 , … , α n − 1 ] T \delta = \dot{\alpha} = [\alpha_{1},\dots ,\alpha_{n - 1}]^{T} δ = α ˙ = [ α 1 , … , α n − 1 ] T 总在 Δ \pmb{\Delta} Δ 中,因而集 Δ \pmb{\Delta} Δ 一定不空. Δ \pmb{\Delta} Δ 显然是有界闭集,且容易看出它是凸集.如果 δ = [ δ 1 , … , δ n ] ⊤ ∈ Δ \delta = [\delta_1,\dots ,\delta_n]^\top \in \Delta δ = [ δ 1 , … , δ n ] ⊤ ∈ Δ ,则定义 f ( δ ) ≡ δ 1 + δ 2 + … f(\delta)\equiv \delta_1 + \delta_2 + \dots f ( δ ) ≡ δ 1 + δ 2 + … + δ n − 1 +\delta_{n-1} + δ n − 1 .注意, f ( α ) = α 1 + ⋯ + α n − 1 ⩽ β 1 + ⋯ + β n − 1 f(\alpha) = \alpha_{1} + \dots +\alpha_{n - 1}\leqslant \beta_{1} + \dots +\beta_{n - 1} f ( α ) = α 1 + ⋯ + α n − 1 ⩽ β 1 + ⋯ + β n − 1 ,如果能够证明有某个 δ ^ ∈ Δ \hat{\delta}\in \Delta δ ^ ∈ Δ 使 f ( δ ^ ) ≥ f(\hat{\delta})\geq f ( δ ^ ) ≥ β 1 + ⋯ + β n − 1 \beta_{1} + \dots +\beta_{n - 1} β 1 + ⋯ + β n − 1 ,则根据 Δ \pmb{\Delta} Δ 的凸性,对所有 t ∈ [ 0 , 1 ] t\in [0,1] t ∈ [ 0 , 1 ] ,将有 t α ˙ + ( 1 − t ) δ ^ ∈ Δ t\dot{\alpha} +(1 - t)\hat{\delta}\in \Delta t α ˙ + ( 1 − t ) δ ^ ∈ Δ ,并且 g ( t ) ≡ f ( t α ˙ + g(t)\equiv f(t\dot{\alpha} + g ( t ) ≡ f ( t α ˙ + ( 1 − t ) δ ^ ) (1 - t)\hat{\delta}) ( 1 − t ) δ ^ ) 将是适合
g ( 0 ) ⩾ β 1 + ⋯ + β n − 1 ⩾ g ( 1 ) g (0) \geqslant \beta_ {1} + \dots + \beta_ {n - 1} \geqslant g (1) g ( 0 ) ⩾ β 1 + ⋯ + β n − 1 ⩾ g ( 1 ) 的连续函数。由此可以得出,对某个 t 0 ∈ [ 0 , 1 ] t_0 \in [0, 1] t 0 ∈ [ 0 , 1 ] ,有 g ( t 0 ) = β 1 + ⋯ + β n − 1 g(t_0) = \beta_1 + \dots + \beta_{n-1} g ( t 0 ) = β 1 + ⋯ + β n − 1 点 γ = [ γ i ] = t 0 α + ( 1 − t 0 ) δ \gamma = [\gamma_i] = t_0 \alpha + (1 - t_0) \delta γ = [ γ i ] = t 0 α + ( 1 − t 0 ) δ 将适合所述条件。
因为 f ( ⋅ ) f(\cdot) f ( ⋅ ) 是紧集 Δ \Delta Δ 上的连续函数,所以存在点 δ ^ ∈ Δ \hat{\delta} \in \Delta δ ^ ∈ Δ ,使得
max δ ∈ Δ f ( δ ) = f ( δ ˉ ) . (4.3.30) \max _ {\delta \in \Delta} f (\delta) = f (\bar {\delta}). \tag {4.3.30} δ ∈ Δ max f ( δ ) = f ( δ ˉ ) . ( 4.3.30 ) 我们要证明 f ( δ ^ ) ⩾ β 1 + ⋯ + β n − 1 f(\hat{\delta}) \geqslant \beta_{1} + \dots + \beta_{n-1} f ( δ ^ ) ⩾ β 1 + ⋯ + β n − 1 。极大值点 δ ^ ∈ Δ \hat{\delta} \in \Delta δ ^ ∈ Δ 适合不等式组(4.3.29a 和 b),因而
δ ^ k ⩽ α k + 1 , k = 1 , 2 , … , n − 1 , (4.3.31a) \hat {\delta} _ {k} \leqslant \alpha_ {k + 1}, \quad k = 1, 2, \dots , n - 1, \tag {4.3.31a} δ ^ k ⩽ α k + 1 , k = 1 , 2 , … , n − 1 , ( 4.3.31a ) ∑ i = 1 k δ ^ i ⩽ ∑ i = 1 k β i , k = 1 , 2 , … , n − 2. (4.3.31b) \sum_ {i = 1} ^ {k} \hat {\delta} _ {i} \leqslant \sum_ {i = 1} ^ {k} \beta_ {i}, \quad k = 1, 2, \dots , n - 2. \tag {4.3.31b} i = 1 ∑ k δ ^ i ⩽ i = 1 ∑ k β i , k = 1 , 2 , … , n − 2. ( 4.3.31b ) 如果整个不等式组(4.3.31b)是严格的,且不等式组(4.3.31a)中至少有一个不是等式,则 δ ^ \hat{\delta} δ ^ 至少有一个分量还可以增大以使 f ( δ ^ ) f(\hat{\delta}) f ( δ ^ ) 的值相应增大。因为这与极值性质(4.3.30)相矛盾,所以得出所有不等式(4.3.31a)必须都是等式, δ ^ = [ α 2 , α 3 , … , α n ] T \hat{\delta} = [\alpha_{2}, \alpha_{3}, \dots, \alpha_{n}]^{T} δ ^ = [ α 2 , α 3 , … , α n ] T ,因而 f ( δ ^ ) = α 2 + ⋯ + α n = ( α 1 + α 2 + ⋯ + α n ) − α 1 = ( β 1 + β 2 + ⋯ + β n ) − α 1 = ( β 1 + ⋯ + β n − 1 ) + β n − α 1 ⩾ ( β 1 + ⋯ + β n − 1 ) + β 1 − α 1 ⩾ β 1 + ⋯ + β n − 1 f(\hat{\delta}) = \alpha_{2} + \dots + \alpha_{n} = (\alpha_{1} + \alpha_{2} + \dots + \alpha_{n}) - \alpha_{1} = (\beta_{1} + \beta_{2} + \dots + \beta_{n}) - \alpha_{1} = (\beta_{1} + \dots + \beta_{n-1}) + \beta_{n} - \alpha_{1} \geqslant (\beta_{1} + \dots + \beta_{n-1}) + \beta_{1} - \alpha_{1} \geqslant \beta_{1} + \dots + \beta_{n-1} f ( δ ^ ) = α 2 + ⋯ + α n = ( α 1 + α 2 + ⋯ + α n ) − α 1 = ( β 1 + β 2 + ⋯ + β n ) − α 1 = ( β 1 + ⋯ + β n − 1 ) + β n − α 1 ⩾ ( β 1 + ⋯ + β n − 1 ) + β 1 − α 1 ⩾ β 1 + ⋯ + β n − 1 ,这正是我们想要证明的。
如果不等式组(4.3.31b)不都是严格的,则至少有 k k k 的一个值使等式成立。设 r r r 表示这种 k k k 值中最大的一个,于是
∑ i = 1 r δ ^ i = ∑ i r β i , \sum_ {i = 1} ^ {r} \hat {\delta} _ {i} = \sum_ {i} ^ {r} \beta_ {i}, i = 1 ∑ r δ ^ i = i ∑ r β i , ∑ t = 1 k δ ^ t < ∑ t = 1 k β t , k = r + 1 , … , n − 2. \sum_ {t = 1} ^ {k} \hat {\delta} _ {t} < \sum_ {t = 1} ^ {k} \beta_ {t}, \quad k = r + 1, \dots , n - 2. t = 1 ∑ k δ ^ t < t = 1 ∑ k β t , k = r + 1 , … , n − 2. 根据在上一段中相同的论证,对 k = r + 1 k = r + 1 k = r + 1 ,…, n − 1 n - 1 n − 1 ,必定有 δ ^ k = δ k + 1 \hat{\delta}_k = \delta_{k+1} δ ^ k = δ k + 1 。因此,
f ( δ ^ ) = ( δ ^ 1 + ⋯ + δ ^ , ) + ( δ ^ r + 1 + ⋯ + δ ^ n − 1 ) = ( β 1 + ⋯ + β r ) + ( α r − 2 + ⋯ + α n ) = ( β 1 + ⋯ + β n − 1 ) + ( α 1 + ⋯ + α n ) − ( α 1 + ⋯ + α r − 1 ) − ( β r + 1 + ⋯ + β n − 1 ) = ( β 1 + ⋯ + β n − 1 ) + ( β 1 + ⋯ + β n ) − ( α 1 + ⋯ + α r + 1 ) − ( β r + 1 + ⋯ + β m − 1 ) = ( β 1 + ⋯ + β n − 1 ) + [ ( β 1 + ⋯ + β r + 1 ) − ( α 1 + ⋯ + α r + 1 ) ] + ( β r + 2 + ⋯ + β n ) − ( β r 1 1 + ⋯ + β n − 1 ) ⩾ ( β 1 + ⋯ + β n − 1 ) + ( β r + 2 − β r + 1 ) ∣ ( β r + 1 − β r + 2 ) + ⋯ + ( β n − β n − 1 ) ⩾ β 1 + ⋯ + β n − 1 . \begin{array}{l} f (\hat {\delta}) = \left(\hat {\delta} _ {1} + \dots + \hat {\delta},\right) + \left(\hat {\delta} _ {r + 1} + \dots + \hat {\delta} _ {n - 1}\right) \\ = (\beta_ {1} + \dots + \beta_ {r}) + (\alpha_ {r - 2} + \dots + \alpha_ {n}) \\ = \left(\beta_ {1} + \dots + \beta_ {n - 1}\right) + \left(\alpha_ {1} + \dots + \alpha_ {n}\right) - \left(\alpha_ {1} + \dots + \alpha_ {r - 1}\right) - \left(\beta_ {r + 1} + \dots + \beta_ {n - 1}\right) \\ = \left(\beta_ {1} + \dots + \beta_ {n - 1}\right) + \left(\beta_ {1} + \dots + \beta_ {n}\right) - \left(\alpha_ {1} + \dots + \alpha_ {r + 1}\right) - \left(\beta_ {r + 1} + \dots + \beta_ {m - 1}\right) \\ = \left(\beta_ {1} + \dots + \beta_ {n - 1}\right) + \left[ \left(\beta_ {1} + \dots + \beta_ {r + 1}\right) - \left(\alpha_ {1} + \dots + \alpha_ {r + 1}\right) \right] + \left(\beta_ {r + 2} + \dots + \beta_ {n}\right) \\ - \left(\beta_ {r ^ {1} 1} + \dots + \beta_ {n - 1}\right) \\ \geqslant \left(\beta_ {1} + \dots + \beta_ {n - 1}\right) + \left(\beta_ {r + 2} - \beta_ {r + 1}\right) \mid \left(\beta_ {r + 1} - \beta_ {r + 2}\right) + \dots + \left(\beta_ {n} - \beta_ {n - 1}\right) \\ \geqslant \beta_ {1} + \dots + \beta_ {n - 1}. \\ \end{array} f ( δ ^ ) = ( δ ^ 1 + ⋯ + δ ^ , ) + ( δ ^ r + 1 + ⋯ + δ ^ n − 1 ) = ( β 1 + ⋯ + β r ) + ( α r − 2 + ⋯ + α n ) = ( β 1 + ⋯ + β n − 1 ) + ( α 1 + ⋯ + α n ) − ( α 1 + ⋯ + α r − 1 ) − ( β r + 1 + ⋯ + β n − 1 ) = ( β 1 + ⋯ + β n − 1 ) + ( β 1 + ⋯ + β n ) − ( α 1 + ⋯ + α r + 1 ) − ( β r + 1 + ⋯ + β m − 1 ) = ( β 1 + ⋯ + β n − 1 ) + [ ( β 1 + ⋯ + β r + 1 ) − ( α 1 + ⋯ + α r + 1 ) ] + ( β r + 2 + ⋯ + β n ) − ( β r 1 1 + ⋯ + β n − 1 ) ⩾ ( β 1 + ⋯ + β n − 1 ) + ( β r + 2 − β r + 1 ) ∣ ( β r + 1 − β r + 2 ) + ⋯ + ( β n − β n − 1 ) ⩾ β 1 + ⋯ + β n − 1 . 我们现在可以证明(4.3.26)的逆命题了。
4.3.32 定理 设 n ⩾ 1 n \geqslant 1 n ⩾ 1 ,且设 a 1 ⩽ a 2 ⩽ ⋯ ⩽ a n a_1 \leqslant a_2 \leqslant \cdots \leqslant a_n a 1 ⩽ a 2 ⩽ ⋯ ⩽ a n 和 λ 1 ⩽ λ 2 ⩽ ⋯ ⩽ λ n \lambda_1 \leqslant \lambda_2 \leqslant \cdots \leqslant \lambda_n λ 1 ⩽ λ 2 ⩽ ⋯ ⩽ λ n 是给定的实数,如果向量 a = [ a i ] a = [a_i] a = [ a i ] 优化向量 λ = [ λ i ] \lambda = [\lambda_i] λ = [ λ i ] ,则有实对称矩阵 A = [ a i j ] ∈ M n ( R ) A = [a_{ij}] \in M_n(\mathbf{R}) A = [ a ij ] ∈ M n ( R ) ,使得 a n = a j a_n = a_j a n = a j 对 i = 1 , 2 , ⋯ , n i = 1, 2, \cdots, n i = 1 , 2 , ⋯ , n 成立,且使得 { λ i } \{\lambda_i\} { λ i } 是 A A A 的特征值集合。
证明:对 n = 1 n = 1 n = 1 ,论断显然成立,假设对至多有 n − 1 n - 1 n − 1 个元素的所有这些向量 a \pmb{a} a 和 λ \lambda λ ,论断已经证明.根据引理,存在实数 γ 1 ⩽ γ 2 ⩽ ⋯ ⩽ γ n − 1 \gamma_1\leqslant \gamma_2\leqslant \dots \leqslant \gamma_{n - 1} γ 1 ⩽ γ 2 ⩽ ⋯ ⩽ γ n − 1 ,使得
λ 1 ⩽ γ 1 ⩽ λ 2 ⩽ ⋯ ⩽ λ n − 1 ⩽ γ n − 1 ⩽ λ n , \lambda_ {1} \leqslant \gamma_ {1} \leqslant \lambda_ {2} \leqslant \dots \leqslant \lambda_ {n - 1} \leqslant \gamma_ {n - 1} \leqslant \lambda_ {n}, λ 1 ⩽ γ 1 ⩽ λ 2 ⩽ ⋯ ⩽ λ n − 1 ⩽ γ n − 1 ⩽ λ n , 且使 a ′ = [ a 1 , … , a n ] a' = [a_1, \dots, a_n] a ′ = [ a 1 , … , a n ] 优化 γ = [ γ i ] T ∈ R n − 1 \gamma = [\gamma_i]^T \in \mathbb{R}^{n-1} γ = [ γ i ] T ∈ R n − 1 . 根据归纳假定,存在实对称矩阵 B − [ b i j ] ∈ M n − 1 B - [b_{ij}] \in M_{n-1} B − [ b ij ] ∈ M n − 1 ,使得 { γ i } \{\gamma_i\} { γ i } 是 B B B 的特征值集合,且对 i = 1 , 2 , … , n − 1 i = 1, 2, \dots, n-1 i = 1 , 2 , … , n − 1 有 b n = a i b_n = a_i b n = a i 。如果 Γ = d i a g ( γ 1 , γ 2 , … , γ n − 1 ) ∈ M n − 1 ( R ) \Gamma = \mathrm{diag}(\gamma_1, \gamma_2, \dots, \gamma_{n-1}) \in M_{n-1}(\mathbf{R}) Γ = diag ( γ 1 , γ 2 , … , γ n − 1 ) ∈ M n − 1 ( R ) ,则存在实正交矩阵 Q ∈ M n − 1 ( R ) Q \in M_{n-1}(\mathbf{R}) Q ∈ M n − 1 ( R ) 使得 B = Q Γ Q T B = Q\Gamma Q^T B = Q Γ Q T 。根据定理(4.3.10),存在实对称矩阵
A ^ = [ Γ y y τ α ] ∈ M n ( R ) , y ∈ R n − 1 , α ∈ R , \hat {A} = \left[ \begin{array}{l l} \Gamma & y \\ y ^ {\tau} & \alpha \end{array} \right] \in M _ {n} (\mathbf {R}), \quad y \in \mathbf {R} ^ {n - 1}, \quad \alpha \in \mathbf {R}, A ^ = [ Γ y τ y α ] ∈ M n ( R ) , y ∈ R n − 1 , α ∈ R , 它有特征值 { λ i } \{\lambda_i\} { λ i } 。如果令
A ≡ [ Q 0 0 1 ] A ^ [ Q ′ 0 0 1 ] = [ Q Γ Q ′ Q y ( Q y ) ′ α ] = [ r B − ( Q y ) ′ α ] , A \equiv \left[ \begin{array}{l l} Q & 0 \\ 0 & 1 \end{array} \right] \hat {A} \left[ \begin{array}{l l} Q ^ {\prime} & 0 \\ 0 & 1 \end{array} \right] = \left[ \begin{array}{c c} Q \Gamma Q ^ {\prime} & Q y \\ (Q y) ^ {\prime} & \alpha \end{array} \right] = \left[ \begin{array}{c c} r & B \\ - (Q y) ^ {\prime} & \alpha \end{array} \right], A ≡ [ Q 0 0 1 ] A ^ [ Q ′ 0 0 1 ] = [ Q Γ Q ′ ( Q y ) ′ Q y α ] = [ r − ( Q y ) ′ B α ] , 则 A A A 有特征值 { λ 1 } \{\lambda_1\} { λ 1 } ,且有主对角元 a 1 , a 2 , … , a n − 1 , α a_1, a_2, \dots, a_{n-1}, \alpha a 1 , a 2 , … , a n − 1 , α 。但是,根据优化条件, tr A = a 1 + ⋯ + a n + α = λ 1 + ⋯ + λ n = a 1 + ⋯ + a n \operatorname{tr} A = a_1 + \dots + a_n + \alpha = \lambda_1 + \dots + \lambda_n = a_1 + \dots + a_n tr A = a 1 + ⋯ + a n + α = λ 1 + ⋯ + λ n = a 1 + ⋯ + a n ,因而 α = a n \alpha = a_n α = a n 且 A A A 有符合要求的对角元。
上述结果不仅完成了涉及Iermite矩阵的诸主对角元和诸特征值间的关系的推理过程,而且能够解释优化关系自身的几何意义。双随机矩阵 A ∈ M n A \in M_{n} A ∈ M n 有 n 2 n^{2} n 2 个非负元,且每行和每列的诸元之和是 + 1 +1 + 1 。Brikhoff定理(8.7.1)保证每个双随机矩阵是有限多个置换矩阵的一个凸组合,反之亦然。
4.3.33 定理 设 α = [ α i ] ∈ R n \alpha = [\alpha_{i}] \in \mathbb{R}^{n} α = [ α i ] ∈ R n 和 β = [ β i ] ∈ R n \beta = [\beta_{i}] \in \mathbb{R}^{n} β = [ β i ] ∈ R n 是两个给定的实向量,则下列条件等价:
(a) β \beta β 优化 α \alpha α ;
(b)存在双随机矩阵 S ∈ M n S \in M_{n} S ∈ M n 使得 β = S α \beta = S\alpha β = S α
(c) β ∈ { ∑ i = 1 N p i α i } \beta \in \left\{\sum_{i=1}^{N} p_i \alpha_i\right\} β ∈ { ∑ i = 1 N p i α i } , 其中 1 ⩽ N < ∞ , p i ⩾ 0 , ∑ i = 1 N p i = 1 1 \leqslant N < \infty, p_i \geqslant 0, \sum_{i=1}^{N} p_i = 1 1 ⩽ N < ∞ , p i ⩾ 0 , ∑ i = 1 N p i = 1 , 而 α π i ∈ R n \alpha_{\pi_i} \in \mathbb{R}^n α π i ∈ R n 是一个向量, 它的诸分量是已知向量 α \alpha α 的诸分量的某个置换.
证明:如果假定(a)成立,则根据(4.3.32),存在有主对角元 b n = β n b_{n} = \beta_{n} b n = β n 和特征值 λ i ( B ) = α i \lambda_{i}(B) = \alpha_{i} λ i ( B ) = α i 的实对称矩阵.根据谱定理,有酉(甚至实正交)矩阵 U = ⌊ u i j ⌋ ⊂ M n U = \lfloor u_{ij}\rfloor \subset M_n U = ⌊ u ij ⌋ ⊂ M n 使得 B = U Λ U ∗ B = U\Lambda U^{*} B = U Λ U ∗ ,其中 Λ = d i a g ( α 1 , … , α n ) \Lambda = \mathrm{diag}(\alpha_1,\dots ,\alpha_n) Λ = diag ( α 1 , … , α n ) ,而考察 B B B 的诸主对角元可知 β = S α \beta = S\alpha β = S α ,其中 S = [ s i j ] ∈ M n S = [s_{ij}]\in M_n S = [ s ij ] ∈ M n 是由 S i j = ∣ u i j ∣ 2 S_{ij} = |u_{ij}|^2 S ij = ∣ u ij ∣ 2 给定的.因为 U U U 的每行和每列是单位向量,这个 S S S 的每个行和及每个列和都等于1,所以 S S S 是双随机矩阵(称这个特殊形式的矩阵为正交随机矩阵),这就证明了(a)蕴涵(b).
(b) 蕴涵(a)的证明在本节末的习题9中概述.
如果假定(b)成立,则Birkhoff定理(8.7.1)说明,
S = ∑ i = 1 N p i P i , 其 中 p i ⩾ 0 , ∑ i = 1 N p i = 1 , S = \sum_ {i = 1} ^ {\mathrm {N}} p _ {i} P _ {i}, \quad \text {其 中} p _ {i} \geqslant 0, \quad \sum_ {i = 1} ^ {\mathrm {N}} p _ {i} = 1, S = i = 1 ∑ N p i P i , 其 中 p i ⩾ 0 , i = 1 ∑ N p i = 1 , 而每个 P i P_{i} P i 是置换矩阵.因此,
β = S α = ∑ i = 1 N p i P i α = ∑ i = 1 N p i α π i , 其 中 P i α ≡ α π i . \beta = S _ {\alpha} = \sum_ {i = 1} ^ {N} p _ {i} P _ {i} \alpha = \sum_ {i = 1} ^ {N} p _ {i} \alpha_ {\pi_ {i}}, \quad \text {其 中} P _ {i} \alpha \equiv \alpha_ {\pi_ {i}}. β = S α = i = 1 ∑ N p i P i α = i = 1 ∑ N p i α π i , 其 中 P i α ≡ α π i . 这个恒等式也证明了逆蕴涵关系.
这样--来,由某个向量 β = [ β 1 , … , β n ] T \beta = [\beta_{1},\dots ,\beta_{n}]^{T} β = [ β 1 , … , β n ] T 优化的所有向量 α = [ α 1 , … , α n ] T \alpha = [\alpha_{1},\dots ,\alpha_{n}]^{T} α = [ α 1 , … , α n ] T 组成的集合,可以先计算出 n ! n! n ! 个向量然后作这些向量的凸包来得到,而这 n ! n! n ! 个向量是采用置换 β \beta β 向量的 n n n 个分量的办法得来的(当然,如果诸项 β i \beta_{i} β i 不全不同,则这些向量也不全不同).
附注 虽然一致赞同优化这一基本概念是很重要的,但采用的记号常不一致。有些作者用(4.3.25)中的反向不等式定义优化,而有些作者定义优化是按递减顺序排列两个集合。因此,当人们从不同的文献中采用或引用有关优化的结果时,一定要倍加小心。参看习题11中促使我们选择优化定义的理由。
196
197
习题 我们知道,矩阵 A ∈ M n A \in M_{n} A ∈ M n 的谱半径是数值
ρ ( A ) = max { ∣ λ 1 ( A ) ∣ } . \rho (A) = \max \left\{\mid \lambda_ {1} (A) \mid \right\}. ρ ( A ) = max { ∣ λ 1 ( A ) ∣ } . 设 A A A , B ∈ M n B\in M_{n} B ∈ M n 是Hermite矩阵.试用Weyl定理(4.3.1)证明
λ 1 ( B ) ⩽ λ k ( A + B ) − λ k ( A ) ⩽ λ n ( B ) , \lambda_ {1} (B) \leqslant \lambda_ {k} (A + B) - \lambda_ {k} (A) \leqslant \lambda_ {n} (B), λ 1 ( B ) ⩽ λ k ( A + B ) − λ k ( A ) ⩽ λ n ( B ) , 因而,对所有 k = 1 , 2 , … , n k = 1,2,\dots ,n k = 1 , 2 , … , n 有
∣ λ k ( A + B ) − λ k ( A ) ∣ ⩽ ρ ( B ) . \mid \lambda_ {k} (A + B) - \lambda_ {k} (A) \mid \leqslant \rho (B). ∣ λ k ( A + B ) − λ k ( A ) ∣ ⩽ ρ ( B ) . 这是关于Hermite矩阵的特征值的扰动定理[参看(6.3)]的一个简单例子.
试说明仅利用定理(4.3.4)证明中所导出的第一组不等式如何得到定理中所确定的所有不等式。提示: A = ( A ± z z ∗ ) ∓ z z ∗ A = (A \pm zz^{*}) \mp zz^{*} A = ( A ± z z ∗ ) ∓ z z ∗ 。
详细证明(4.3.6b)等价于(4.3.6a).
Weyl 定理 (4.3.7) 的证明中只用到了不等式 λ n ( A + B ) ⩾ λ n \lambda_{n}(A + B) \geqslant \lambda_{n} λ n ( A + B ) ⩾ λ n , ( A ) (A) ( A ) , 其中 B B B 至多有秩 r r r . 证明这个不等式无须利用 Courant-Fischer 定理, 而是用需要提供详细论述的下述论断. 假定 B = β 1 y 1 y 1 ∗ + ⋯ + β r y r y r ∗ B = \beta_{1}y_{1}y_{1}^{*} + \dots + \beta_{r}y_{r}y_{r}^{*} B = β 1 y 1 y 1 ∗ + ⋯ + β r y r y r ∗ , 并且设 A = U Λ U ∗ A = U\Lambda U^{*} A = U Λ U ∗ , 其中 U = [ u 1 ⋯ u n ] U = [u_{1}\cdots u_{n}] U = [ u 1 ⋯ u n ] 是酉矩阵. 则存在 r + 1 r + 1 r + 1 个纯量 α n , α n − r − 1 , … , α n \alpha_{n}, \alpha_{n-r-1}, \dots, \alpha_{n} α n , α n − r − 1 , … , α n , 使得对所有 i = 1 , 2 , … , r i = 1, 2, \dots, r i = 1 , 2 , … , r , 向量 x = α n , u n , + ⋯ + α n u n x = \alpha_{n}, u_{n}, +\cdots + \alpha_{n}u_{n} x = α n , u n , + ⋯ + α n u n 适合 x ⊥ y i x \perp y_{i} x ⊥ y i , 且 x ⋅ x = ∣ α n − r ∣ 2 + ⋯ + ∣ a n ∣ 2 = 1 x \cdot x = |\alpha_{n-r}|^{2} + \dots + |a_{n}|^{2} = 1 x ⋅ x = ∣ α n − r ∣ 2 + ⋯ + ∣ a n ∣ 2 = 1 . 于是
198
λ n ( A − B ) ⩾ x ∗ ( A ⋅ B ) x = ∑ i = π r n ∣ α i ∣ 2 λ i ( A ) ⩾ λ n , ( A ) . \lambda_ {n} (A - B) \geqslant x ^ {*} (A \cdot B) x = \sum_ {i = \pi r} ^ {n} | \alpha_ {i} | ^ {2} \lambda_ {i} (A) \geqslant \lambda_ {n}, (A). λ n ( A − B ) ⩾ x ∗ ( A ⋅ B ) x = i = π r ∑ n ∣ α i ∣ 2 λ i ( A ) ⩾ λ n , ( A ) . 试应用定理(4.3.8) n − r n - r n − r 次来证明定理(1.3.15).
试说明,如果 A A A 和 B B B 不是Hermite矩阵,则Weyl的简单不等式组不一定成立。提示:考虑 A = [ 0 1 0 0 ] A = \begin{bmatrix} 0 & 1 \\ 0 & 0 \end{bmatrix} A = [ 0 0 1 0 ] 和 B = [ 0 0 1 0 ] B = \begin{bmatrix} 0 & 0 \\ 1 & 0 \end{bmatrix} B = [ 0 1 0 0 ] 。
如果 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是Hermite矩阵,它们的特征值按递增顺序排列,又如果 1 ⩽ k ⩽ n 1 \leqslant k \leqslant n 1 ⩽ k ⩽ n 证明 λ k ( A ∣ B ) ⩽ min { λ i ( A ) + λ j ( B ) : i + j = k + n } \lambda_{k}(A|B) \leqslant \min \{\lambda_{i}(A) + \lambda_{j}(B): i + j = k + n\} λ k ( A ∣ B ) ⩽ min { λ i ( A ) + λ j ( B ) : i + j = k + n } .
试对定理(4.3.10)的证明中有相同项 λ i \lambda_{i} λ i 的情形给出详细说明。提示:如果 λ 1 \lambda_{1} λ 1 是 g ( t ) = 0 g(t) = 0 g ( t ) = 0 的 k k k 重根, k ⩾ 2 k \geqslant 2 k ⩾ 2 ,证明,在得到的(4.3.14)中,(4.3.14)的分母中的 g ′ ( t ) g'(t) g ′ ( t ) 的因式 ( t − λ 1 ) k − 1 (t - \lambda_1)^{k-1} ( t − λ 1 ) k − 1 可消去(4.3.14)的分子中 f ( t ) f(t) f ( t ) 的因式 ( t − λ 1 ) k − 1 (t - \lambda_1)^{k-1} ( t − λ 1 ) k − 1 。
设 S = [ s i j ] ∈ M n S = [s_{ij}] \in M_n S = [ s ij ] ∈ M n 是双随机矩阵(8.7), x ∈ R n x \in \mathbb{R}^n x ∈ R n 是实向量,证明 S i S_i S i 优化 x x x 。提示:设 y = S x y = S_x y = S x 。只要对 y 1 ⩽ ⋯ ⩽ y n y_1 \leqslant \cdots \leqslant y_n y 1 ⩽ ⋯ ⩽ y n 与 x 1 ⩽ ⋯ ⩽ x n x_1 \leqslant \cdots \leqslant x_n x 1 ⩽ ⋯ ⩽ x n 的情形证明就可以了,因为如果不是这样,就可以对适当的置换矩阵 P P P 和 Q Q Q 来考虑 P y Py P y 和 Q x Qx Q x ;而 P T S Q T P^T SQ^T P T S Q T 仍是双随机矩阵。设 w j ( k ) − ∑ i = 1 k s i j w_j^{(k)} - \sum_{i=1}^{k} s_{ij} w j ( k ) − ∑ i = 1 k s ij ,于是, 0 ⩽ w j ( k ) ⩽ 1 0 \leqslant w_j^{(k)} \leqslant 1 0 ⩽ w j ( k ) ⩽ 1 ,且 ∑ j = 1 n w j ( k ) = k \sum_{j=1}^{n} w_j^{(k)} = k ∑ j = 1 n w j ( k ) = k 。证明
∑ i = 1 k ( y i − x i ) = ∑ j = 1 n w j ( k ) x j , ∑ i = 1 k x i + x k ( k − ∑ j = 1 n w j ( k ) ) = ∑ j = 1 k ( 1 − w j ( k ) ) ( x k − x j ) + ∑ j = 1 n w j ( k ) ( x j − x k ) . \begin{array}{l} \sum_ {i = 1} ^ {k} \left(y _ {i} - x _ {i}\right) = \sum_ {j = 1} ^ {n} w _ {j} ^ {(k)} x _ {j}, \quad \sum_ {i = 1} ^ {k} x _ {i} + x _ {k} \left(k - \sum_ {j = 1} ^ {n} w _ {j} ^ {(k)}\right) \\ = \sum_ {j = 1} ^ {k} \left(1 - w _ {j} ^ {(k)}\right) \left(x _ {k} - x _ {j}\right) + \sum_ {j = 1} ^ {n} w _ {j} ^ {(k)} \left(x _ {j} - x _ {k}\right). \\ \end{array} ∑ i = 1 k ( y i − x i ) = ∑ j = 1 n w j ( k ) x j , ∑ i = 1 k x i + x k ( k − ∑ j = 1 n w j ( k ) ) = ∑ j = 1 k ( 1 − w j ( k ) ) ( x k − x j ) + ∑ j = 1 n w j ( k ) ( x j − x k ) . 用下述思路给出定理(4.3.26)的另一个证明:若 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n 是Hermite矩阵,则 A = U Λ U ∗ A = U\Lambda U^* A = U Λ U ∗ ,其中 U = [ u i j ] ∈ M n U = [u_{ij}] \in M_n U = [ u ij ] ∈ M n 是酉矩阵, Λ = d i a g ( λ 1 , … , λ n ) \Lambda = \mathrm{diag}(\lambda_1, \dots, \lambda_n) Λ = diag ( λ 1 , … , λ n ) 是实对角矩阵。设 a = [ a 11 , a 22 , … , a n n ] T a = [a_{11}, a_{22}, \dots, a_{nn}]^T a = [ a 11 , a 22 , … , a nn ] T 是由 Λ \Lambda Λ 的主对角元组成的向量,且 x = [ λ 1 , λ 2 , … , λ n ] T x = [\lambda_1, \lambda_2, \dots, \lambda_n]^T x = [ λ 1 , λ 2 , … , λ n ] T 。证明 a − P x a - Px a − P x ,其中 P = [ p i j ] = [ ∣ u i j ∣ 2 ] P = [p_{ij}] = [|u_{ij}|^2] P = [ p ij ] = [ ∣ u ij ∣ 2 ] 。证明 P P P 是双随机矩阵,然后利用习题9。
设 x = [ x 1 , ⋯ , x n ] t x = [x_1, \cdots, x_n]^t x = [ x 1 , ⋯ , x n ] t 和 y = [ y 1 , ⋯ , y n ] t y = [y_1, \cdots, y_n]^t y = [ y 1 , ⋯ , y n ] t 是两个给定的非负实向量,且假定 y y y 优化 x x x . 证明 y 1 ⋯ y n ⩾ x 1 ⋯ x n y_1 \cdots y_n \geqslant x_1 \cdots x_n y 1 ⋯ y n ⩾ x 1 ⋯ x n . 提示:利用(4.3.32)构造一个实对称矩阵 A = [ a i j ] ∈ M n ( R ) A = [a_{ij}] \in M_n(\mathbb{R}) A = [ a ij ] ∈ M n ( R ) ,其中主对角元 a n ≡ y i a_n \equiv y_i a n ≡ y i ,而特征值 λ i ( A ) = x i \lambda_i(A) = x_i λ i ( A ) = x i ,则 Hadamard 不等式(7.8.1)是指 a 11 ⋯ a n n ⩾ det A = λ 1 ⋯ λ n a_{11} \cdots a_{nn} \geqslant \det A = \lambda_1 \cdots \lambda_n a 11 ⋯ a nn ⩾ det A = λ 1 ⋯ λ n .
附注 这就是促使我们选择优化定义(4.3.24)的理由。如果有人选择与(4.3.24)中的不等式相反的方向,则所得结论与习题11中的不等式相反,即,如果在这个意义下 y ′ ′ y^{\prime \prime} y ′′ 优化。则 y i y_{i} y i 的乘积小于 x i x_{i} x i 的乘积。我们喜欢的定义形式是,乘积不等式的走向与优化的方向相同。
设 A ∈ M n A \in M_{n} A ∈ M n 是具有正特征值 0 < λ 1 ⩽ λ 7 ⩽ ⋯ ⩽ λ n 0 < \lambda_{1} \leqslant \lambda_{7} \leqslant \dots \leqslant \lambda_{n} 0 < λ 1 ⩽ λ 7 ⩽ ⋯ ⩽ λ n 的 Hermite 矩阵,又设 1 ⩽ r ⩽ n 1 \leqslant r \leqslant n 1 ⩽ r ⩽ n 是一个给定的整数。用习题 11 证明
λ 1 λ 2 … λ i = min ( u 1 ∗ A u 1 ) ( u ∗ A u 2 ) … ( u ∗ A u r ) , \lambda_ {1} \lambda_ {2} \dots \lambda_ {i} = \min \left(u _ {1} ^ {*} A u _ {1}\right) \left(u ^ {*} A u _ {2}\right) \dots \left(u ^ {*} A u _ {r}\right), λ 1 λ 2 … λ i = min ( u 1 ∗ A u 1 ) ( u ∗ A u 2 ) … ( u ∗ A u r ) , 其中极小取遍所有标准正交组 { u 1 , u 2 , ⋯ , u s } ⊂ C n \{u_{1}, u_{2}, \cdots, u_{s}\} \subset \mathbb{C}^{n} { u 1 , u 2 , ⋯ , u s } ⊂ C n 。说明为什么这个结果可以相继看作(4.3.19)的乘法模拟,Hadamard不等式(7.8.1)的推广,联系Rayleigh-Ritz定理(4.2.2)与Hadamard不等式的不等式系列。提示:情形 r = n r = n r = n 是(7.8.1)。情形 r − 1 r - 1 r − 1 是什么?若 2 ⩽ r ⩽ n 2 \leqslant r \leqslant n 2 ⩽ r ⩽ n ,用(4.3.19)证明,向量 [ u 1 ′ A u 1 , u 2 ′ A u 2 , ⋯ , u s ′ A u s ] T [u_{1}^{\prime}Au_{1}, u_{2}^{\prime}Au_{2}, \cdots, u_{s}^{\prime}Au_{s}]^{T} [ u 1 ′ A u 1 , u 2 ′ A u 2 , ⋯ , u s ′ A u s ] T 优化向量 [ μ 1 , ⋯ , μ r ] T [\mu_{1}, \cdots, \mu_{r}]^{T} [ μ 1 , ⋯ , μ r ] T ,其中,对所有 i = 1 , 2 , ⋯ , r − 1 , μ i − λ i i = 1, 2, \cdots, r - 1, \mu_{i} - \lambda_{i} i = 1 , 2 , ⋯ , r − 1 , μ i − λ i ,而
μ r = ( u 1 ′ A u 1 + ⋯ ⋅ u r − 1 ∗ A u r − 1 ) − ( λ 1 − ⋯ + λ r − 1 ) + u r ∗ A u r ⩾ u r ∗ A u r . \mu_ {r} = \left(u _ {1} ^ {\prime} A u _ {1} + \dots \cdot u _ {r - 1} ^ {*} A u _ {r - 1}\right) - \left(\lambda_ {1} - \dots + \lambda_ {r - 1}\right) + u _ {r} ^ {*} A u _ {r} \geqslant u _ {r} ^ {*} A u _ {r}. μ r = ( u 1 ′ A u 1 + ⋯ ⋅ u r − 1 ∗ A u r − 1 ) − ( λ 1 − ⋯ + λ r − 1 ) + u r ∗ A u r ⩾ u r ∗ A u r . 然后用习题11证明 λ 1 ⋯ λ i , u i ∗ A u i ⩽ ∏ i = 1 i u i ∗ A u i \lambda_1\cdots \lambda_i, u_i^* Au_i \leqslant \prod_{i=1}^{i} u_i^* Au_i λ 1 ⋯ λ i , u i ∗ A u i ⩽ ∏ i = 1 i u i ∗ A u i 。
设 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n 是具有非负特征值 0 ⩽ λ 1 ⩽ λ 2 ⩽ ⋯ ⩽ λ n 0 \leqslant \lambda_1 \leqslant \lambda_2 \leqslant \dots \leqslant \lambda_n 0 ⩽ λ 1 ⩽ λ 2 ⩽ ⋯ ⩽ λ n 的Hermite矩阵。证明,对每个 r = 1 , 2 , … , n r = 1, 2, \dots, n r = 1 , 2 , … , n ,乘积 λ 1 … λ r \lambda_1 \dots \lambda_r λ 1 … λ r 小于或等于 A A A 的 r r r 个最小主对角元之乘积。
如果 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是Hermite 矩阵, A − B A - B A − B 具有唯一非负特征值,证明对所有 i = 1 , 2 , … , n i = 1, 2, \dots, n i = 1 , 2 , … , n 有 λ i ( A ) ⩾ λ i ( B ) \lambda_{i}(A) \geqslant \lambda_{i}(B) λ i ( A ) ⩾ λ i ( B ) .
试用(4.3.18)证明(1.3.26). 提示:用置换矩阵调整 A = [ a i j ] A = [a_{ij}] A = [ a ij ] 使 a 11 ⩽ a 22 ⩽ ⋯ ⩽ a m 1 a_{11} \leqslant a_{22} \leqslant \cdots \leqslant a_{m1} a 11 ⩽ a 22 ⩽ ⋯ ⩽ a m 1 . 然后取 U = ⌊ e 1 e 2 ⋯ e r ⌋ ∈ M n , r U = \left\lfloor e_1 e_2 \cdots e_r \right\rfloor \in M_{n,r} U = ⌊ e 1 e 2 ⋯ e r ⌋ ∈ M n , r ,并且证明 λ 1 ( A ) + ⋯ + λ r ( A ) ⩽ tr U ∗ A U = a 11 + ⋯ + a n \lambda_1(A) + \cdots + \lambda_r(A) \leqslant \operatorname{tr} U^* A U = a_{11} + \cdots + a_n λ 1 ( A ) + ⋯ + λ r ( A ) ⩽ tr U ∗ A U = a 11 + ⋯ + a n
假定 A ∈ M n A \in M_{n} A ∈ M n 是Hermite矩阵,设 λ 1 ⩽ ⋯ ⩽ λ n \lambda_{1} \leqslant \cdots \leqslant \lambda_{n} λ 1 ⩽ ⋯ ⩽ λ n 是 A A A 的特征值,而 λ i , 1 ⩽ ⋯ ⩽ λ i , n − 1 \lambda_{i,1} \leqslant \cdots \leqslant \lambda_{i,n-1} λ i , 1 ⩽ ⋯ ⩽ λ i , n − 1 是 ( n − 1 ) × ( n − 1 ) (n-1) \times (n-1) ( n − 1 ) × ( n − 1 ) 主子矩阵 A ( { i } ) A(\{i\}) A ({ i }) 的特征值,证明
λ 1 ⩽ λ n − 1 ⩽ λ 2 ⩽ λ n − 2 ⩽ ⋯ ⩽ λ n − 1 ⩽ λ n . \lambda_ {1} \leqslant \lambda_ {n - 1} \leqslant \lambda_ {2} \leqslant \lambda_ {n - 2} \leqslant \dots \leqslant \lambda_ {n - 1} \leqslant \lambda_ {n}. λ 1 ⩽ λ n − 1 ⩽ λ 2 ⩽ λ n − 2 ⩽ ⋯ ⩽ λ n − 1 ⩽ λ n . 这些交错不等式常归功于 Cauchy. 同时证明这些不等式蕴涵(4.3.15)中的诸不等式. 提示: 利用(4.3.8)或(4.3.15).
如果 A − [ a i j ] ∈ M n A - [a_{ij}] \in M_n A − [ a ij ] ∈ M n 是Hermite矩阵,且对某个 i i i , a i i − λ i a_{ii} - \lambda_i a ii − λ i 、证明,对所有 k = 1 , 2 , … , n k = 1, 2, \dots, n k = 1 , 2 , … , n , k ≠ i k \neq i k = i ,有 a i k − a k i = 0 a_{ik} - a_{ki} = 0 a ik − a ki = 0 ;如果 a i i = λ 1 a_{ii} = \lambda_1 a ii = λ 1 ,则也有类似的结论。提示:对 n > 2 n > 2 n > 2 采用直接计算,然后应用交错性便可证明结论。
设 A ∈ M n A \in M_{n} A ∈ M n 是Hermite矩阵且设 a i = det A ( { 1 , 2 , … , i } ) a_{i} = \det A(\{1, 2, \dots, i\}) a i = det A ({ 1 , 2 , … , i }) , i = 1 , 2 , … , n i = 1, 2, \dots, n i = 1 , 2 , … , n 。若 A A A 是非奇异的,证明 A A A 的非负特征值的个数等于序列 ± 1 \pm 1 ± 1 , a 1 , a 2 , … , a n a_{1}, a_{2}, \dots, a_{n} a 1 , a 2 , … , a n 中正负号的变化次数。特别地,若这些主子式都是正的,则 A A A 就不会有负特征值。如果某个 a i = 0 a_{i} = 0 a i = 0 ,会出现什么情形?提示:利用交错性。
设 A = [ a y ] ∈ M n A = [a_{y}] \in M_{n} A = [ a y ] ∈ M n 是正规矩阵。证明,若 A A A 有“小”列或行,则 A A A 一定有“小”特征值。说得更明确些,设 A A A 的诸特征值的绝对值的平方 { ∣ λ i ∣ 2 : i = 1 , ⋯ , n } \{|\lambda_{i}|^{2} : i = 1, \cdots, n\} { ∣ λ i ∣ 2 : i = 1 , ⋯ , n } 按非减顺序排列,并且用 v i 2 ≤ v 2 2 ≤ v 3 2 ≤ ⋯ ≤ v n 2 v_{i}^{2} \leq v_{2}^{2} \leq v_{3}^{2} \leq \cdots \leq v_{n}^{2} v i 2 ≤ v 2 2 ≤ v 3 2 ≤ ⋯ ≤ v n 2 表示所得到的有序值。设各行(或各列)元素的绝对值的平方和的平方根 { ( ∑ k = 1 n ∣ a k ∣ 2 ) 1 / 2 : i = 1 , ⋯ , n } \left\{\left(\sum_{k=1}^{n} |a_{k}|^{2}\right)^{1/2} : i = 1, \cdots, n\right\} { ( ∑ k = 1 n ∣ a k ∣ 2 ) 1/2 : i = 1 , ⋯ , n } 按非减顺序排列,并且用 R 1 ⩽ R 2 ⩽ ⋯ ⩽ R n R_{1} \leqslant R_{2} \leqslant \cdots \leqslant R_{n} R 1 ⩽ R 2 ⩽ ⋯ ⩽ R n 表示所得到的有序值。证明
∑ i = 1 k v i 2 ⩽ ∑ i = 1 k R i 2 , 其 中 k = 1 , … , n , \sum_ {i = 1} ^ {k} v _ {i} ^ {2} \leqslant \sum_ {i = 1} ^ {k} R _ {i} ^ {2}, \quad \text {其 中} k = 1, \dots , n, i = 1 ∑ k v i 2 ⩽ i = 1 ∑ k R i 2 , 其 中 k = 1 , … , n , 一个类似的上界可用列平方和表示。提示:数量 v i 2 v_{i}^{2} v i 2 是Hermite矩阵 A A ∗ AA^{*} A A ∗ 的特征值。 A A ∗ AA^{*} A A ∗ 的诸主对角元是什么?用优化和定理(4.3.26)。关于列相不等式可考虑 A ′ A A^{\prime}A A ′ A
进一步阅读 关于优化的另外信息可参看[MOL]. 在定理(4.3.10)下面提到了诸主子矩阵的特征值间的一般交错不等式组,有关的讨论可参看C.R.Johnson and H.A.Robinson,“Eigenvalue Inequalities for Principal Submatrices,”Lin.Alg.Appl.37(1981),11-22. 习题4中概述的论断的原始证明可参看H.Weyl,“Das asymptotische Verteilungsgesetz der Eigenwerte linearer partieller Differentialgleichungen (mit einer Anwendung auf die Theorie der Hohlaumstrahlung,“Math.Annalen71(1912). 441ff.;在文献的444-445(页)可看到其引理的证明.Weyl用积分方程叙述并证明了他的结果,但把它转化成线性代数的形式是直接的.