7.2 正定矩阵的特征 正定矩阵有一些有用的和简单的特征.
7.2.1 定理 Hermite 矩阵 A ∈ M n A \in M_{n} A ∈ M n 是半正定的,当且仅当它的所有特征值都是非负的。它是正定的,当且仅当它的所有特征值都是正的。
证明:如果 A A A 的每个特征值都是正的,则对于任意非零 x ∈ C n x \in \mathbf{C}^{n} x ∈ C n 有
x ∗ A x = x ∗ U ∗ D U x = y ∗ D y = ∑ t = 1 n d i y ~ i y i = ∑ i = 1 n d i ∣ y i ∣ 2 > 0 , x ^ {*} A x = x ^ {*} U ^ {*} D U x = y ^ {*} D y = \sum_ {t = 1} ^ {n} d _ {i} \tilde {y} _ {i} y _ {i} = \sum_ {i = 1} ^ {n} d _ {i} | y _ {i} | ^ {2} > 0, x ∗ A x = x ∗ U ∗ D Ux = y ∗ Dy = t = 1 ∑ n d i y ~ i y i = i = 1 ∑ n d i ∣ y i ∣ 2 > 0 , 其中, D = d i a g ( d 1 , d 2 , … , d n ) D = \mathrm{diag}(d_1,d_2,\dots ,d_n) D = diag ( d 1 , d 2 , … , d n ) 是由 A A A 的特征值组成的对角矩阵, y = U x y = Ux y = Ux ,且 U U U 是酉矩阵.其逆命题包含在论断(7.1.4),而半正定的情形是类似的. □
练习 证明,非奇异矩阵 A ∈ M n A \in M_{n} A ∈ M n 是正定的当且仅当 A − 1 A^{-1} A − 1 是正定的。
练习 设 A ∈ M n A \in M_{n} A ∈ M n 是半正定矩阵。试用(7.2.1)证明, A A A 是正定的,当且仅当 rank A = n \operatorname{rank} A = n rank A = n 。试与(7.1)节习题1比较。
7.2.2 推论 如果 A ∈ M n A \in M_{n} A ∈ M n 是半正定矩阵,则对所有 k = 1 , 2 , … , A k k = 1, 2, \dots, A^{k} k = 1 , 2 , … , A k 也是半正定矩阵。
证明:如果 A A A 的特征值是 λ 1 , … , λ k \lambda_1, \dots, \lambda_k λ 1 , … , λ k ,则 A k A^k A k 的特征值是 λ 1 k , … , λ n k \lambda_1^k, \dots, \lambda_n^k λ 1 k , … , λ n k .
7.2.3 推论 如果 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n 是Hermite矩阵,且是严格对角占优的,又如果对所有 i = 1 , 2 , … , n i = 1, 2, \dots, n i = 1 , 2 , … , n 有 a n > 0 a_n > 0 a n > 0 ,则 A A A 是正定矩阵。
证明:这是定理(6.1.10)的一部分。诸条件指出 A A A 的每个Gersgorin圆盘位于开右半平面中。因Hermite矩阵的特征值都是实数,所以 A A A 的诸特征值必须都是正的,因此由定理(7.2.1)可知 A A A 是正定矩阵。
练习 如果Hermite矩阵 A ∗ A^* A ∗ 相合于具有正对角元的严格对角占优矩阵,证明 A A A 是正定矩阵.
下面的特征对于通过计算来确定正定性没有多大的实用价值,但是在理论上它可能很有用.
7.2.4 推论 设 A A A 是Hermite矩阵,又设
p 4 ( t ) = t n + a m − 1 t n − 1 + … ∣ a n m t n p _ {4} (t) = t ^ {n} + a _ {m - 1} t ^ {n - 1} + \dots | a _ {n} m t ^ {n} p 4 ( t ) = t n + a m − 1 t n − 1 + … ∣ a n m t n 是 A A A 的特征多项式。假定 0 ⩽ m ⩽ n 0 \leqslant m \leqslant n 0 ⩽ m ⩽ n 且 a n − m ≠ 0 a_{n-m} \neq 0 a n − m = 0 ,则 A A A 是半正定矩阵,当且仅当 a k ≠ 0 a_{k} \neq 0 a k = 0 对所有 n − m ⩽ k ⩽ n n-m \leqslant k \leqslant n n − m ⩽ k ⩽ n 成立且 a k a k − 1 < 0 a_{k} a_{k-1} < 0 a k a k − 1 < 0 对 k = n − m , ⋯ , n − 1 k=n-m, \cdots, n-1 k = n − m , ⋯ , n − 1 成立。我们规定 a n ≡ 1 a_{n} \equiv 1 a n ≡ 1 。
证明:论断只是要求,前面的诸系数 a k a_{k} a k 是非零的,且它们的符号是严格交错的。如果这个条件被满足, p A ( t ) p_A(t) p A ( t ) 就不可能有任何负的零点;因此 A A A 的所有特征值必须是非负的。反过来,如果 A A A 是半正定矩阵,它的正特征值记作 λ 1 , λ 2 , … , λ m \lambda_1, \lambda_2, \dots, \lambda_m λ 1 , λ 2 , … , λ m (其余 n − m n - m n − m 个特征值都是零)。用归纳法可以证明,各个多项式 ( t − λ 1 ) , ( t − λ 1 ) ( t − λ 2 ) , … , ( t − λ 1 ) ( t − λ 2 ) … ( t − λ m ) (t - \lambda_1), (t - \lambda_1)(t - \lambda_2), \dots, (t - \lambda_1)(t - \lambda_2) \dots (t - \lambda_m) ( t − λ 1 ) , ( t − λ 1 ) ( t − λ 2 ) , … , ( t − λ 1 ) ( t − λ 2 ) … ( t − λ m ) 的诸系数都是非零的,且它们的符号是交错的。乘以 t n t^n t n “便得 p A ( t ) p_A(t) p A ( t ) □
为了使下面的特征更容易被接受,用 A i A_{i} A i 表示由 A A A 前 i i i 行和前 i i i 列确定的 A A A 的前主子矩阵, A i ≡ A ( { 1 , 2 , … , i } ) A_{i} \equiv A(\{1, 2, \dots, i\}) A i ≡ A ({ 1 , 2 , … , i }) , i = 2 , … , n i = 2, \dots, n i = 2 , … , n 。我们已经知道,如果 A A A 是正定矩阵,则 A A A 的所有主子式都是正数,事实上,当 A A A 是Hermite矩阵时,逆命题成立。但是可以得出一个更强的结论。需要指出的是,如果 A A A 是Hermite矩阵,则每个 A i A_{i} A i 也是Hermite矩阵,因此每个 A i A_{i} A i 有实行列式。
7.2.5 定理 如果 A ∈ M n A \in M_{n} A ∈ M n 是Hermite矩阵,则 A A A 是正定矩阵,当且仅当 det A i > 0 \det A_{i} > 0 det A i > 0 对 i = 1 , 2 , ⋯ , n i = 1, 2, \cdots, n i = 1 , 2 , ⋯ , n 成立。更一般地, A A A 的 n n n 个主子式(不一定是诸前主子式)所组成的任一套序列的正性是 A A A 为正定矩阵的必要充分条件。
证明:由(7.1.5)可知,只要 A A A 是正定矩阵, det A i > 0 \operatorname{det} A_i > 0 det A i > 0 就对所有 i = 1 , 2 , … , n i = 1, 2, \dots, n i = 1 , 2 , … , n 都成立。我们用归纳法和Hermite矩阵的交错不等式组(4.3.8)来证明其逆命题,因为 det A 1 > 0 \operatorname{det} A_1 > 0 det A 1 > 0 ,且 A 1 A_1 A 1 是 1 × 1 1 \times 1 1 × 1 阶的,所以 A 1 A_1 A 1 是正定矩阵。如果对某个 k < n k < n k < n , A k A_k A k 是正定矩阵,则 A k A_k A k 的所有特征值都是正数,因而由交错不等式组可知,或许除了 A k + 1 A_{k+1} A k + 1 的最小特征值以外, A k + 1 A_{k+1} A k + 1 的所有特征值都是正的。但是 A k + 1 A_{k+1} A k + 1 的各特征值之积正好是 det A k + 1 \operatorname{det} A_{k+1} det A k + 1 ,根据假定,它是正数,因此 A k + 1 A_{k+1} A k + 1 不可能有负特征值。由此可知, A k + 1 A_{k+1} A k + 1 的最小特征值也是正数,因而 A k + 1 A_{k+1} A k + 1 必须是正定矩阵。因为 A n = A A_n = A A n = A ,所以 A A A 是正定矩阵。对于一般套序列情形,只要考虑 A A A 的各行和各列的适当置换就可以了。□
定理(7.2.5)说明,当(且仅当)Hermite的各前主子式是正数的时候,它就是正定矩阵。再想到(7.2.1),于是为了验证正定性,可以检验与 A A A 相关的这两组数中的任何一组。
练习 试用(7.2.5)证明矩阵
A = [ 5 − 1 3 − 1 2 − 2 3 − 2 3 ] A = \left[ \begin{array}{r r r} 5 & - 1 & 3 \\ - 1 & 2 & - 2 \\ 3 & - 2 & 3 \end{array} \right] A = 5 − 1 3 − 1 2 − 2 3 − 2 3 是正定的.
练习 证明对称矩阵 [ 0 0 0 − 1 ] \left[ \begin{array}{cc}0 & 0\\ 0 & -1 \end{array} \right] [ 0 0 0 − 1 ] 的各前主子式是非负的,但它不是半正定的.
401
练习 设 A ∈ M n A \in M_{n} A ∈ M n 是Hermite矩阵,又假定 det A 1 > 0 \det A_{1} > 0 det A 1 > 0 , det A 2 > 0 \det A_{2} > 0 det A 2 > 0 ,…, det A n − 1 > 0 \det A_{n-1} > 0 det A n − 1 > 0 ,且 det A n ⩾ 0 \det A_{n} \geqslant 0 det A n ⩾ 0 。证明 A A A 是半正定矩阵。提示:如果将 A n A_{n} A n 的诸特征值与 A n − 1 A_{n-1} A n − 1 的诸特征值比较,交错不等式指的是什么?
练习 假定Hermite矩阵 A ∈ M n A \in M_{n} A ∈ M n 有全部正对角元和正行列式,考察矩阵
[ 1 2 1 2 1 1 1 1 t ] , \left[ \begin{array}{c c c} 1 & 2 & 1 \\ 2 & 1 & 1 \\ 1 & 1 & t \end{array} \right], 1 2 1 2 1 1 1 1 t , 对适当的 t t t 值证明,仅有上述假定还不能确定 A A A 的正定性。证明,若另有某个 ( n − 1 ) × ( n − 1 ) (n-1) \times (n-1) ( n − 1 ) × ( n − 1 ) 主子矩阵是对角占优的,则这个假定条件是充分的。
练习 设 A ∈ M n A \in M_{n} A ∈ M n 是Hermite矩阵,证明, Λ \Lambda Λ 是半正定矩阵,当且仅当存在一系列Hermite矩阵 Λ ϵ \Lambda_{\epsilon} Λ ϵ ,使得当 ϵ → 0 \epsilon \to 0 ϵ → 0 时 A ϵ → A A_{\epsilon} \to A A ϵ → A ,且 A ϵ A_{\epsilon} A ϵ 的每个主子矩阵有止行列式。由此得出,如果 Λ \Lambda Λ 的所有主子式都是非负的,则 A A A 是半正定矩阵。
对所有 k = 1 , 2 , … k = 1,2,\dots k = 1 , 2 , … ,每个正实数有唯一的正的 k \pmb{k} k 次方根.类似的结果对正定矩阵也成立.
7.2.6 定理 设 A ∈ M n A \in M_{n} A ∈ M n 是半正定矩阵,且 k ⩾ 1 k \geqslant 1 k ⩾ 1 是给定的整数,则存在唯一的半正定Hermite矩阵 B B B 使得 B k = A B^{k} = A B k = A 。同时还有
(a) B A = A B BA = AB B A = A B (b) rank B = rank A B = \operatorname{rank} A B = rank A ,因而,只要 A A A 是正定矩阵, B B B 就是正定矩阵; (c)如果 A A A 是实矩阵,则 B B B 也是实矩阵.
证明:我们知道Hermite矩阵 A A A 可酉对角化成 A = U Λ U ′ A = U\Lambda U^{\prime} A = U Λ U ′ ,其中 Λ = d i a g ( λ 1 , … , λ n ) \Lambda = \mathrm{diag}(\lambda_1,\dots ,\lambda_n) Λ = diag ( λ 1 , … , λ n ) 且所有 λ i ⩾ 0 \lambda_{i}\geqslant 0 λ i ⩾ 0 。定义 B = U Λ 1 / k U ∗ B = U\Lambda^{1 / k}U^{*} B = U Λ 1/ k U ∗ ,其中 Λ 1 , k ≡ d i a g ( λ 1 1 , … , λ n 1 ) \Lambda^{1,k}\equiv \mathrm{diag}(\lambda_{1}^{1},\dots ,\lambda_{n}^{1}) Λ 1 , k ≡ diag ( λ 1 1 , … , λ n 1 ) ,且每个 λ i \lambda_{i} λ i 都取唯一的 k k k 次非负根。显然, B k = A B^{k} = A B k = A 且 B B B 是半正定Hermite矩阵。此外, A B = U Λ U ′ U Λ 1 / k U ⋆ = U Λ Λ 1 / k U ⋆ = AB = U\Lambda U^{\prime}U\Lambda^{1 / k}U^{\star} = U\Lambda \Lambda^{1 / k}U^{\star} = A B = U Λ U ′ U Λ 1/ k U ⋆ = U Λ Λ 1/ k U ⋆ = U Λ 1 / k Λ U ⋆ = U Λ 1 / k U ⋆ U Λ U ⋆ = B A U\Lambda^{1 / k}\Lambda U^{\star} = U\Lambda^{1 / k}U^{\star}U\Lambda U^{\star} = BA U Λ 1/ k Λ U ⋆ = U Λ 1/ k U ⋆ U Λ U ⋆ = B A ,又因为所有 λ i \lambda_{i} λ i (因而它们的 k k k 次方根)都是非负的,所以 B B B 是半正定矩阵。 B B B 的秩正好是非零 λ i \lambda_{i} λ i 项的个数,它也是 A A A 的秩。如果 A A A 是半正定实矩阵,则我们知道 U U U 可以选为实正交矩阵,因而在这种情形 B B B 显然可以选为实矩阵。余下要考虑的只是唯一性问题。
首先要指出的是,存在多项式 p ( t ) p(t) p ( t ) ,使得 p ( A ) = B p(A) = B p ( A ) = B ;为了得到 p ( Λ ) = λ 1 / t p(\Lambda) = \lambda^{1 / t} p ( Λ ) = λ 1/ t ,从而得到 p ( A ) = p ( U Λ U ∗ ) − U p ( A ) U ∗ = U Λ 1 / k U ∗ = B p(A) = p(U\Lambda U^*) - Up(A)U^* = U\Lambda^{1 / k}U^* = B p ( A ) = p ( U Λ U ∗ ) − U p ( A ) U ∗ = U Λ 1/ k U ∗ = B ,我们只需选取 p ( t ) p(t) p ( t ) 为适合数组 ( λ 1 , λ 1 / k ) , … , ( λ n , λ n 1 / k ) (\lambda_1, \lambda^{1 / k}), \dots, (\lambda_n, \lambda_{n}^{1 / k}) ( λ 1 , λ 1/ k ) , … , ( λ n , λ n 1/ k ) 的Lagrange插值多项式(0.9.11). 另一方面,如果 C C C 是使得 C k = A C^k = A C k = A 的任一半正定Hermite矩阵,则有 B = p ( A ) = p ( C k ) B = p(A) = p(C^k) B = p ( A ) = p ( C k ) ,因而 C B = C p ( C k ) − p ( C k ) C = B C CB = Cp(C^k) - p(C^k)C = BC CB = Cp ( C k ) − p ( C k ) C = BC 。因为 B B B 和 C C C 是可交换的Hermite矩阵,它们可以同时酉对角化;即存在某个酉矩阵 V V V 和具有非负对角元的对角矩阵 Λ 1 \Lambda_1 Λ 1 和 Λ 2 \Lambda_2 Λ 2 ,使得 B = V A 1 V ∗ B = VA_1V^* B = V A 1 V ∗ 和 C = V A 2 V ∗ C = VA_2V^* C = V A 2 V ∗ 。于是从 B k = A = C k B^k = A = C^k B k = A = C k 的事实可以推出 Λ 1 k = Λ 2 k \Lambda_1^k = \Lambda_2^k Λ 1 k = Λ 2 k 。又因为非负数的非负 k k k 次方根是唯一的,因而得出, ( Λ 1 k ) 1 / k = Λ 1 = Λ 2 = ( Λ 2 k ) 1 / k (\Lambda_1^k)^{1 / k} = \Lambda_1 = \Lambda_2 = (\Lambda_2^k)^{1 / k} ( Λ 1 k ) 1/ k = Λ 1 = Λ 2 = ( Λ 2 k ) 1/ k ,因而 B = C B = C B = C 。
上述定理最有用的情形是 k = 2 k = 2 k = 2 的情形。正定(半正定)矩阵 A A A 的唯一正定(半正定)平方根通常记作 A 1 , 2 A^{1,2} A 1 , 2 。类似地,对每个 k = 1 , 2 , … , A 1 , k k = 1, 2, \dots, A^{1,k} k = 1 , 2 , … , A 1 , k 表示 A A A 的唯一正定(半正定) k k k 次方根。
练习 确定 [ 5 3 3 2 ] 1.2 \left[ \begin{array}{ll}5 & 3\\ 3 & 2 \end{array} \right]^{1.2} [ 5 3 3 2 ] 1.2
练习 如果 A A A 是正定矩阵,证明 ( A 1 ′ ) − 1 = ( A − 1 ) 1.2 (A^{1^{\prime}})^{-1} = (A^{-1})^{1.2} ( A 1 ′ ) − 1 = ( A − 1 ) 1.2
7.2.7 定理 矩阵 B ∈ M n B \in M_{n} B ∈ M n 是正定矩阵,当且仅当存在非奇异矩阵 C ∈ M n C \in M_{n} C ∈ M n 使得 B ⋅ C ∗ C B \cdot C^{*}C B ⋅ C ∗ C
证明:如果 B B B 可以这样表示,则根据(7.1.6), B B B 是正定矩阵。为了证明可以得到所要求的分解,只要设 C = B 12 C = B^{12} C = B 12 ,甚至还可以取 C C C 为Hermite矩阵。
7.2.8 推论 Hermite 矩阵 A A A 是正定矩阵,当且仅当它'相合于单位矩阵
证明:这只是重述(7.2.7).
练习 如果 A ∈ M n A \in M_{n} A ∈ M n 是正定矩阵,又如果 A = C 1 ∗ C 1 A = C_{1}^{*}C_{1} A = C 1 ∗ C 1 且 A = C 2 ∗ C 2 A = C_{2}^{*}C_{2} A = C 2 ∗ C 2 ,其中 C 1 , C 2 ∈ M n C_{1}, C_{2} \in M_{n} C 1 , C 2 ∈ M n ,证明 C 2 = V C 1 C_{2} = V C_{1} C 2 = V C 1 ,其中 V V V 是酉矩阵。特别地,证明 A = C ∗ C A = C^{*}C A = C ∗ C 的任何解 C C C 具有形式 C = V A 12 C = V A^{12} C = V A 12 ,其中 V V V 是酉矩阵。提示:证明
A ^ {- 1} ^ {2} C ^ {*} C A ^ {1, 2} = \left(C A ^ {- 1} ^ {2}\right) ^ {*} \left(C A ^ {1, 2}\right) = I
能够明确指出半正定矩阵 A A A 的分解 A = C ′ C A = C^{\prime}C A = C ′ C ,这有时是很有用的,每个方阵 C C C 有 Q R QR QR 分解(2.6.1),且 C C C 可写成 C = Q R C = QR C = QR ,其中, Q Q Q 是酉矩阵.而 R R R 是与 A A A 有相同秩的上三角矩阵.另一方面, A = C ′ C − ( Q R ) ∗ Q R = R ′ Q ∗ Q R = R ′ R A = C^{\prime}C - (QR)^{*}QR = R^{\prime}Q^{*}QR = R^{\prime}R A = C ′ C − ( QR ) ∗ QR = R ′ Q ∗ QR = R ′ R ,如果 C C C 非奇异,则可以选择 R R R 使得它的所有对角元都是正数(实际上,存在这种形式的唯一分解 C = Q R C = QR C = QR ),又如果 C C C 为实矩阵,则 Q Q Q 和 R R R 均可取为实矩阵.这就证明了下述推论,它给出了 A A A 的Cholesky分解.
7.2.9 推论 矩阵 A A A 是正定的,当且仅当存在具有正对角元的非奇异下三角矩阵 L ∈ M n L \in M_n L ∈ M n 使得 A = L L ⋅ A = LL^{\cdot} A = L L ⋅ 。如果 A A A 是实矩阵,则 L L L 可以取为实矩阵。
设 v 1 , ⋯ , v k v_{1}, \cdots, v_{k} v 1 , ⋯ , v k 是内积空间 V V V 中 k k k 个给定的向量组成的集合,又设 ⟨ ⋅ , ⋅ ⟩ \langle \cdot, \cdot \rangle ⟨ ⋅ , ⋅ ⟩ 是 V V V 上给定的内积。向量组 v 1 , ⋯ , v k v_{1}, \cdots, v_{k} v 1 , ⋯ , v k 关于内积 ⟨ ⋅ , ⋅ ⟩ \langle \cdot, \cdot \rangle ⟨ ⋅ , ⋅ ⟩ 的 Gram 矩阵是用 g i j = ⟨ v j , v i ⟩ g_{ij} = \langle v_{j}, v_{i} \rangle g ij = ⟨ v j , v i ⟩ 定义的矩阵 G = [ g i j ] ∈ M k G = [g_{ij}] \in M_{k} G = [ g ij ] ∈ M k 。半正定矩阵的最后一个特征是,它们总是 Gram 矩阵(7.2.11)。
7.2.10 定理 设 G ∈ M k G \in M_k G ∈ M k 是向量组 { w 1 , ⋯ , w k } ⊂ C n \{w_1, \cdots, w_k\} \subset \mathbb{C}^n { w 1 , ⋯ , w k } ⊂ C n 关于给定的内积 ⟨ ⋅ , ⋅ ⟩ \langle \cdot, \cdot \rangle ⟨ ⋅ , ⋅ ⟩ 的 Gram 矩阵,又设 W = [ w 1 w 2 ⋯ w k ] ∈ M n , k W = [w_1w_2 \cdots w_k] \in M_{n,k} W = [ w 1 w 2 ⋯ w k ] ∈ M n , k ,则
(a) G G G 是半正定矩阵; (b) G G G 是非奇异矩阵,当且仅当向量组 ω 1 , … , ω k \omega_{1},\dots ,\omega_{k} ω 1 , … , ω k 是无关的; (c)存在正定矩阵 A ∈ M n A \in M_{n} A ∈ M n ,使得 G = W ∗ A W G = W^{*}AW G = W ∗ A W ; (d) rank G = rank W = G = \operatorname{rank} W = G = rank W = 向量组 { w 1 , … , w k } \{w_1, \dots, w_k\} { w 1 , … , w k } 中极大无关组的向量个数.
证明:如果 G = [ g i j ] G = [g_{ij}] G = [ g ij ] ,且 g i j = ⟨ w j , w i ⟩ g_{ij} = \langle w_j, w_i \rangle g ij = ⟨ w j , w i ⟩ ,于是因为内积有Hermite性质,所以 G G G 是Hermite矩阵,且
x ′ G x = ∑ i , j = 1 k g i j x ˉ i j x j − ∑ i , j = 1 k ⟨ w j , w i ⟩ x ˉ i j x j = ∑ i , j = 1 k ⟨ x i w j , x j w i ⟩ − ⟨ ∑ j = 1 k x j w j , ∑ i = 1 k x i w i ⟩ = ∥ ∑ i = 1 k x i w i ∥ 2 ⩾ 0 , \begin{array}{l} x ^ {\prime} G x = \sum_ {i, j = 1} ^ {k} g _ {i j} \bar {x} _ {i j} x _ {j} - \sum_ {i, j = 1} ^ {k} \left\langle w _ {j}, w _ {i} \right\rangle \bar {x} _ {i j} x _ {j} = \sum_ {i, j = 1} ^ {k} \left\langle x _ {i} w _ {j}, x _ {j} w _ {i} \right\rangle \\ - \left\langle \sum_ {j = 1} ^ {k} x _ {j} w _ {j}, \quad \sum_ {i = 1} ^ {k} x _ {i} w _ {i} \right\rangle = \left\| \sum_ {i = 1} ^ {k} x _ {i} w _ {i} \right\| ^ {2} \geqslant 0, \\ \end{array} x ′ G x = ∑ i , j = 1 k g ij x ˉ ij x j − ∑ i , j = 1 k ⟨ w j , w i ⟩ x ˉ ij x j = ∑ i , j = 1 k ⟨ x i w j , x j w i ⟩ − ⟨ ∑ j = 1 k x j w j , ∑ i = 1 k x i w i ⟩ = ∑ i = 1 k x i w i 2 ⩾ 0 , 其中 ∥ ⋅ ∥ \| \cdot \| ∥ ⋅ ∥ 是由已给内积诱导的范数。根据范数的正定性,只有当
406
∑ i = 1 k x i w i = 0 \sum_ {i = 1} ^ {k} x _ {i} w _ {i} = 0 i = 1 ∑ k x i w i = 0 时等式才成立,而且只有当给定的向量组相关时,上式才对非平凡系数组 x i x_{i} x i 成立。如果 G G G 是奇异矩阵,则存在某个非零向量 x x x 使得 G x = 0 Gx = 0 G x = 0 ,因而 x ∗ G x = 0 x^{*}Gx = 0 x ∗ G x = 0 ,这推出向量组 w t \pmb{w}_{t} w t 是相关的。反过来,如果 x 1 w 1 + ⋯ + x k w k = 0 x_{1}w_{1} + \dots + x_{k}w_{k} = 0 x 1 w 1 + ⋯ + x k w k = 0 ,且 x = [ x i ] ≠ 0 x = [x_i] \neq 0 x = [ x i ] = 0 ,则我们已经证明 x ∗ G x = 0 x^{*}Gx = 0 x ∗ G x = 0 ,因而 G G G 一定是奇异矩阵。
如果 { e 1 , ⋯ , e n } \{e_1, \cdots, e_n\} { e 1 , ⋯ , e n } 是 C n \mathbf{C}^n C n 的标准正交基,则根据(a)和(b), A = ( ⟨ e j , e i ⟩ ) A = (\langle e_j, e_i \rangle) A = (⟨ e j , e i ⟩) 是正定矩阵。对任意向量 x , y ∈ C n x, y \in \mathbf{C}^n x , y ∈ C n 有
⟨ y , x ⟩ = ⟨ ∑ j = 1 n y i e j , ∑ i = 1 n x i e i ⟩ = ∑ i , j = 1 n ⟨ e i , e i ⟩ x ˉ i y j = x ∗ A y , \langle y, x \rangle = \left\langle \sum_ {j = 1} ^ {n} y _ {i} e _ {j}, \sum_ {i = 1} ^ {n} x _ {i} e _ {i} \right\rangle = \sum_ {i, j = 1} ^ {n} \langle e _ {i}, e _ {i} \rangle \bar {x} _ {i} y _ {j} = x ^ {*} A y, ⟨ y , x ⟩ = ⟨ j = 1 ∑ n y i e j , i = 1 ∑ n x i e i ⟩ = i , j = 1 ∑ n ⟨ e i , e i ⟩ x ˉ i y j = x ∗ A y , 于是有 g i j = ⟨ w j , w i ⟩ = w j ∗ A w j g_{ij} = \langle w_j, w_i \rangle = w_j^* A w_j g ij = ⟨ w j , w i ⟩ = w j ∗ A w j ,因而 G = W ⋅ A W G = W \cdot AW G = W ⋅ A W .
最后,如果 G x = 0 Gx = 0 G x = 0 ,则 x ∗ G x = x ∗ W ∗ A W x = ( W x ) ∗ A ( W x ) = 0 x^{*}Gx = x^{*}W^{*}AWx = (Wx)^{*}A(Wx) = 0 x ∗ G x = x ∗ W ∗ A W x = ( W x ) ∗ A ( W x ) = 0 ,因为 A A A 是正定矩阵,这就蕴涵 W x = 0 Wx = 0 W x = 0 。反之, W x = 0 Wx = 0 W x = 0 蕴涵 G x = W ∗ A ( W x ) = 0 Gx = W^{*}A(Wx) = 0 G x = W ∗ A ( W x ) = 0 ,于是 A A A 与 W W W 有相同的零空间,因而有相同的秩。 W W W 的列秩是向量组 { w 1 , … , w k } \{w_{1},\dots ,w_{k}\} { w 1 , … , w k } 中极大无关组的向量个数。
练习 定理最常见的应用是针对所给内积为普通 Euclid 内积 ⟨ x , y ⟩ = y ∗ x \langle x, y \rangle = y^{*}x ⟨ x , y ⟩ = y ∗ x 的情形的。证明,在这种情形, A = I A = I A = I ,并且证明给定的向量组 { w i , … , w k } ⊂ C n \{w_{i}, \dots, w_{k}\} \subset \mathbf{C}^{n} { w i , … , w k } ⊂ C n 中极大无关组的向量个数恰好是矩阵 G = [ w 1 ∗ w j ] ∈ M i G = [w_{1}^{*}w_{j}] \in M_{i} G = [ w 1 ∗ w j ] ∈ M i 的秩。
7.2.11 推论 设 A ∈ M n A \in M_n A ∈ M n 是给定的矩阵。则 A A A 是秩为 r ⩽ n r \leqslant n r ⩽ n 的半正定矩阵,当且仅当存在恰好含有 r r r 个无关向量的向量组 S = { w 1 , … , w n } ⊂ C n S = \{w_1, \dots, w_n\} \subset \mathbf{C}^n S = { w 1 , … , w n } ⊂ C n ,使得 A A A 是 S S S 关于 Euclidi 内积的 Gram 矩阵。
证明:充分性部分在上述定理中已有论述。至于必要性,可以利用(7.2.6)把 A A A 写成 A = B 2 A = B^2 A = B 2 , B B B 是半正定矩阵。 B B B 的秩与 A A A 的秩相同,且 A = B 2 = B 2 ⋅ B A = B^2 = B^2 \cdot B A = B 2 = B 2 ⋅ B 是 B B B 的各列在 Euclid 内积下的 Gram 矩阵。□
习题 证明,如果 A A A 是 Hermite 矩阵,则对所有 k = 1 , 2 , … , A 2 k k = 1, 2, \dots, A^{2k} k = 1 , 2 , … , A 2 k 是半正定矩阵,而 e A e^A e A 是正定矩阵。参看(5.6.15)下面的练习。
如果 A A A 是半正定矩阵,又如果 p ( t ) p(t) p ( t ) 是使 p ( t ) > 0 p(t) > 0 p ( t ) > 0 时对所有 t ⩾ 0 t \geqslant 0 t ⩾ 0 都成立的任一多项式,证明 p ( A ) p(A) p ( A ) 是半正定矩阵。提示: p ( A ) p(A) p ( A ) 的诸特征值是什么?这是如何推广了习题1?
试用(7.2.5)证明,用 a i j ≡ min { i , j } a_{ij} \equiv \min \{i, j\} a ij ≡ min { i , j } 定义的矩阵 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n 是正定矩阵。提示:计算 det A i \det A_i det A i ;从所有其余行中减去第1行,然后对第1列也这样做, a i j ≡ max { i , j } a_{ij} \equiv \max \{i, j\} a ij ≡ max { i , j } 说明什么?
如果 A A A 和 B B B 是正定矩阵,证明直和 [ A 0 0 B ] \left[ \begin{array}{ll}A & 0\\ 0 & B \end{array} \right] [ A 0 0 B ] 也是正定矩阵.
给出一个(非Hermite)实方阵的例子,它的各前主子式都是正数,但使某个特征值有负实部。
试给出(7.2.5)中一般不等式组的详细证明。即证明, n n n 个主子式(不一定是诸前主子式,按包含关系)所构成的任一套序列的正性是 n × n n \times n n × n Hermite 矩阵为正定矩阵的充分条件。
如果用 A A A 的诸子式的符号来表示, A A A 是负定(半负定)的必要充分条件是什么?
半正定矩阵 A A A 有不同于 A 1 / 2 A^{1/2} A 1/2 的“平方根”吗?有多少?有不同于 A 1 / 2 A^{1/2} A 1/2 的 k k k 次方根吗?有非Hermite平方根吗?提示:考察 [ 1 1 0 1 ] 2 \left[ \begin{array}{cc}1 & 1\\ 0 & 1 \end{array} \right]^2 [ 1 0 1 1 ] 2 .
如果 B ∈ M n B \in M_{n} B ∈ M n 是半正定矩阵,且有秩 m m m ,证明,存在秩为 m m m 的 m × n m \times n m × n 矩阵 C C C ,使得 B = C ∗ C B = C^{*}C B = C ∗ C 。特别要指出的是,秩为1的半正定矩阵总可以写成形式 x x ∗ xx^{*} x x ∗ ,其中 x ∈ C n x \in \mathbf{C}^{n} x ∈ C n 为某个向量。
假定 A ∈ M n A \in M_{n} A ∈ M n 是半正定矩阵,且有秩 r < n r < n r < n 。证明 A A A 有 r × r r \times r r × r 阶正定主子矩阵。
设 A ∈ M n A \in M_{n} A ∈ M n 是Hermite矩阵,证明, A A A 是正定矩阵,当且仅当经典伴随 adj A \operatorname{adj} A adj A 是正定矩阵且 det A > 0 \det A > 0 det A > 0 。如果 A A A 是半正定矩阵,证明, adj A \operatorname{adj} A adj A 是半正定矩阵且 det A ⩾ 0 \det A \geqslant 0 det A ⩾ 0 。提示:考察 A ε = A + ε I , ε > 0 A_{\varepsilon} = A + \varepsilon I, \varepsilon > 0 A ε = A + ε I , ε > 0 。试考察 A = diag ( 0 , 0 , − 1 ) A = \operatorname{diag}(0, 0, -1) A = diag ( 0 , 0 , − 1 ) 来说明,如果 A A A 不是半正定矩阵,也可能 adj A \operatorname{adj} A adj A 是半正定矩阵且 det A ⩾ 0 \det A \geqslant 0 det A ⩾ 0 。
已知 r ∈ ( 0 , 1 ) r \in (0, 1) r ∈ ( 0 , 1 ) ,考虑由 a i j = r i + j a_{ij} = r^{i + j} a ij = r i + j 定义的实对称 Toeplitz 矩阵 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n 。试如下证明 A A A 是正定矩阵:(a)如果 A i j A_{ij} A ij 是 A A A 的 i , j i, j i , j 子式,证明,只要 ∣ i − j ∣ ⩾ 2 |i - j| \geqslant 2 ∣ i − j ∣ ⩾ 2 就有 det A i j = 0 \det A_{ij} = 0 det A ij = 0 。提示:如果 i = 1 i = 1 i = 1 且 j > 2 j > 2 j > 2 ,则可以看出 A i j A_{ij} A ij 的第 1 列是第 2 列的倍数。(b)设 D n = det A D_n = \det A D n = det A 。证明 D 2 = 1 − r 2 D_2 = 1 - r^2 D 2 = 1 − r 2 ,然后将 D n + 1 D_{n+1} D n + 1 按第 1 行的余子式展开,且利用(a)证明 D n + 1 = D n − r 2 D n = ( 1 − r 2 ) D n = ( 1 − r 2 ) n D_{n+1} = D_n - r^2 D_n = (1 - r^2)D_n = (1 - r^2)^n D n + 1 = D n − r 2 D n = ( 1 − r 2 ) D n = ( 1 − r 2 ) n 。(c)利用(7.2.5)推出 A A A 是正定矩阵。
证明习题 12 中的矩阵 A A A 有一个实对称三对角矩阵为其逆,再证明, ( 1 − r 2 ) A (1 - r^2)A ( 1 − r 2 ) A 在上对角线和下对角线的每个位置上有元素 − r -r − r ,且它有主对角元 1 , 1 + r 2 , … , 1 + r 2 , 1 1, 1 + r^2, \dots, 1 + r^2, 1 1 , 1 + r 2 , … , 1 + r 2 , 1 。提示:利用习题 12(a) 证明 A A A 是三对角矩阵。为什么 A A A 是一定是对称矩阵?然后利用 A A = A − 1 A = I AA = A^{-1}A = I AA = A − 1 A = I 确定 A A A 的各元素。
设 ⟨ ⋅ , ⋅ ⟩ \langle \cdot, \cdot \rangle ⟨ ⋅ , ⋅ ⟩ 是 C n \mathbf{C}^{n} C n 上给定的内积,设 B = { e 1 , … , e n } \mathcal{B} = \{e_{1}, \dots, e_{n}\} B = { e 1 , … , e n } 是 C n \mathbf{C}^{n} C n (关于普通的Euclid内积)的标准正交基,又设 G ∈ M n G \in M_{n} G ∈ M n 表示 B \mathcal{B} B 关于所给内积 ⟨ ⋅ , ⋅ ⟩ \langle \cdot, \cdot \rangle ⟨ ⋅ , ⋅ ⟩ 的Gram矩阵。证明,对所有 x , y ∈ C n x, y \in \mathbf{C}^{n} x , y ∈ C n 有
⟨ x , y ⟩ = y ∗ G x . (7.2.12) \langle x, y \rangle = y ^ {*} G x. \tag {7.2.12} ⟨ x , y ⟩ = y ∗ G x . ( 7.2.12 ) 由此可得,函数 ⟨ ⋅ , ⋅ ⟩ \langle \cdot, \cdot \rangle ⟨ ⋅ , ⋅ ⟩ : C n × C n → C \mathbf{C}^n \times \mathbf{C}^n \rightarrow \mathbf{C} C n × C n → C 是内积,当且仅当存在正定矩阵 G G G 使得(7.2.12)成立。
回忆一下在(5.4.12)中定义的对偶范数概念。设 ⟨ ⋅ , ⋅ ⟩ \langle \cdot, \cdot \rangle ⟨ ⋅ , ⋅ ⟩ 是 C n \mathbf{C}^{n} C n 上给定的内积,且设 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 是 C m \mathbf{C}^{m} C m 上给定的范数。所给范数不一定是由所给内积诱导的。我们可以定义 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 关于内积 ⟨ ⋅ , ⋅ ⟩ \langle \cdot, \cdot \rangle ⟨ ⋅ , ⋅ ⟩ 的对偶范数为
∥ r ∥ . . p ≡ max ∥ y ∥ − 1 ∣ ⟨ x , y ⟩ ∣ . \| r \| _ {..} ^ {p} \equiv \max _ {\| y \| - 1} | \langle x, y \rangle |. ∥ r ∥ .. p ≡ ∥ y ∥ − 1 max ∣ ⟨ x , y ⟩ ∣. 注意,如果 ⟨ ⋅ , ⋅ ⟩ \langle \cdot, \cdot \rangle ⟨ ⋅ , ⋅ ⟩ 是普通的 Euclid 内积,则它就是 ∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 的普通的对偶范数。对偶范数概念的这种推广可以产生用其他方法尚未得到过的向量范数吗?提示:利用习题 14,记 ⟨ x , y ⟩ = y ∗ G x \langle x, y \rangle = y^* Gx ⟨ x , y ⟩ = y ∗ G x ,然后证明
∥ x ∥ ( … ) D = ∥ G − 1 x ∥ D ≡ ( ∥ x ∥ ( … ) ) D \| x \| _ {(\dots)} ^ {D} = \| G ^ {- 1} x \| ^ {D} \equiv (\| x \| _ {(\dots)}) ^ {D} ∥ x ∥ ( … ) D = ∥ G − 1 x ∥ D ≡ ( ∥ x ∥ ( … ) ) D 设 A ∈ M n A \in M_{n} A ∈ M n 是给定的矩阵,证明, ρ ( A ) < 1 \rho(A) < 1 ρ ( A ) < 1 ,当且仅当存在正定矩阵 B ∈ M n B \in M_{n} B ∈ M n 使得 B − A ∗ B A B - A^{*}BA B − A ∗ B A 是正定矩阵。提示:如果 B B B 是正定矩阵,设 C = B 12 C = B^{12} C = B 12 ,如果
B − A ∗ B A = C ∗ C − ( C A ) ∗ ( C A ) B - A ^ {*} B A = C ^ {*} C - (C A) ^ {*} (C A) B − A ∗ B A = C ∗ C − ( C A ) ∗ ( C A ) 是正定矩阵,则对任何非零 x ∈ C n x \in \mathbf{C}^n x ∈ C n 有
409
x ∗ [ C ∗ C − ( C A ) ∗ ( C A ) ] x > 0 , x ^ {*} \left[ C ^ {*} C - (C A) ^ {*} (C A) \right] x > 0, x ∗ [ C ∗ C − ( C A ) ∗ ( C A ) ] x > 0 , 或 ∥ C x ∥ 2 > ∥ C A x ∥ 2 \|Cx\|_2 > \|CAx\|_2 ∥ C x ∥ 2 > ∥ C A x ∥ 2 。设 y = C x y = Cx y = C x ,证明对所有非零 y ∈ C n y \in \mathbb{C}^n y ∈ C n 有 ∥ y ∥ 2 > ∥ C A C − 1 y ∥ 2 \|y\|_2 > \|CAC^{-1}y\|_2 ∥ y ∥ 2 > ∥ C A C − 1 y ∥ 2 ,由此得出 ∥ C A C − 1 ∥ 2 < 1 \|CAC^{-1}\|_2 < 1 ∥ C A C − 1 ∥ 2 < 1 。因此 ρ ( A ) = − ρ ( C A C − 1 ) ⩽ − 1 C A C 2 − 1 < 1 \rho(A) = -\rho(CAC^{-1}) \leqslant^{-1}CAC^{-1}_2 < 1 ρ ( A ) = − ρ ( C A C − 1 ) ⩽ − 1 C A C 2 − 1 < 1 。反过来,如果 ρ ( A ) < 1 \rho(A) < 1 ρ ( A ) < 1 ,则存在非奇异矩阵 C ∈ M n C \in M_n C ∈ M n 使得 ∥ C A C − 1 ∥ < 1 \|CAC^{-1}\| < 1 ∥ C A C − 1 ∥ < 1 (见(5.6)节习题25],并且上述证明可以反推回去,再令 B ≡ C ⋅ C B \equiv C \cdot C B ≡ C ⋅ C 。
设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是半正定矩阵,且不都是奇异矩阵。证明 ∥ A − B ∥ 2 ⩽ ∥ A 2 − B 2 ∥ 2 / [ λ min ( A ) + λ min ( B ) ] \| A - B \|_{2} \leqslant \| A^{2} - B^{2} \|_{2} / [\lambda_{\min}(A) + \lambda_{\min}(B)] ∥ A − B ∥ 2 ⩽ ∥ A 2 − B 2 ∥ 2 / [ λ m i n ( A ) + λ m i n ( B )] 。提示:设 E = A − B E = A - B E = A − B ,设 x ∈ C n x \in \mathbb{C}^{n} x ∈ C n 是使 E x = λ x Ex = \lambda x E x = λ x 且 ∣ λ ∣ = ρ ( E ) = ∥ E ∥ 2 |\lambda| = \rho(E) = \| E \|_{2} ∣ λ ∣ = ρ ( E ) = ∥ E ∥ 2 的单位向量。于是, A 2 − B 2 = A E + E A − E 2 A^{2} - B^{2} = AE + EA - E^{2} A 2 − B 2 = A E + E A − E 2 ,并且 ∥ A 2 − B 2 ∥ 2 ⩾ ∣ x ∗ ( A E + E A − E 2 ) x ∣ = ∣ λ ∣ ( x ∗ A x + x ′ B x ) ⩾ ∣ λ ∣ ( λ min ( A ) + λ min ( B ) ) \| A^{2} - B^{2} \|_{2} \geqslant |x^{*}(AE + EA - E^{2})x| = |\lambda| (x^{*}Ax + x'Bx) \geqslant |\lambda| (\lambda_{\min}(A) + \lambda_{\min}(B)) ∥ A 2 − B 2 ∥ 2 ⩾ ∣ x ∗ ( A E + E A − E 2 ) x ∣ = ∣ λ ∣ ( x ∗ A x + x ′ B x ) ⩾ ∣ λ ∣ ( λ m i n ( A ) + λ m i n ( B )) 。
设 A , B ∈ M n A, B \in M_n A , B ∈ M n 是半正定矩阵,且假定 A A A 是正定矩阵。利用习题 17 证明
∥ A 12 − B 12 ∥ 2 ⩽ ∥ A 12 ∥ 2 ∥ A B ∥ 2 (7.2.13) \left\| A ^ {1 2} - B ^ {1 2} \right\| _ {2} \leqslant \left\| A ^ {1 2} \right\| _ {2} \| A \quad B \| _ {2} \tag {7.2.13} A 12 − B 12 2 ⩽ A 12 2 ∥ A B ∥ 2 ( 7.2.13 ) 并且说明为什么这个不等式蕴涵以下事实:定义在由 M n M_{n} M n 中的半正定矩阵所组成的集合上的函数 f : C → C 1 , 2 f: C \to C^{1,2} f : C → C 1 , 2 在这个集合的内部(它是由正定矩阵组成的开集)连续。写出并直接证明关于 [ 0 , ∞ ] [0, \infty] [ 0 , ∞ ] 上的普通纯量的平方根函数 f : t → t f: t \to \sqrt{t} f : t → t 的不等式,这个不等式是从(7.2.13)中令 n = 1 n = 1 n = 1 得来的。