7.6_相合:乘积和同时对角化

7.6 相合:乘积和同时对角化

与正实数的乘法不同,普通的矩阵乘法不总保持正定性。两个Hermite矩阵的乘积甚至可以不是Hermite矩阵(只有当它们可交换时,乘积才是Hermite矩阵),且乘积诱导的二次型可以不是非负的。我们特别把这一节的重点放在正定矩阵上;关于Hermite矩阵的更一般的结果见(4.5)节。

7.6.1 例 设 A=[5221]A = \begin{bmatrix} 5 & -2 \\ -2 & 1 \end{bmatrix}B=[2111]B = \begin{bmatrix} 2 & 1 \\ 1 & 1 \end{bmatrix} , AABB 是正矩定阵, 但 AB=[8331]AB = \begin{bmatrix} 8 & 3 \\ -3 & -1 \end{bmatrix} 不是对称矩阵, H(AB)=[8001]H(AB) = \begin{bmatrix} 8 & 0 \\ 0 & -1 \end{bmatrix} 甚至连正定矩阵都不是.

但是,正定矩阵的普通乘积至少还保留了一点正性。我们的讨论要说明某些涉及矩阵的和与积的有用技巧。

7.6.2 定义 我们知道,两个矩阵 A,BA, B' 相合,是指存在非奇异矩阵 CMnC \in M_n 使得 B=CACB = C^*AC .

注意,和相似一样,相合是等价关系。有时在复的情形采用术语共轭相合,以便把它和实相合区别开来。

7.6.3 定理 正定矩阵 AMnA \in M_{n} 与 Hermite 矩阵 BMnB \in M_{n} 的乘积是可对角化矩阵,它的所有特征值都是实数。矩阵 ABABBB 有相同数目的正特征值,负特征值和零特征值。此外,任意只具有实特征值的可对角化矩阵是一个正定矩阵与一个 Hermite 矩阵的乘积。

证明:对于前一部分,注意到 A1/2ABA1/2=A1/2BA1/2A^{-1/2}ABA^{1/2} = A^{1/2}BA^{1/2} ,于是后一个矩阵相似于 ABAB ,因而与它恰好有相同的特征值。因为 A1/2A^{1/2} 是Hermite矩阵,所以矩阵 A1/2BA1/2A^{1/2}BA^{1/2} 相合于 BB 。因此,根据Sylvester惯性定理(4.5.8), BB 的特征值与 A1/2BA1/2A^{1/2}BA^{1/2} 的,因而与 ABAB 的特征值有相同的符号集。此外,因为 A1/2BA1/2A^{1/2}BA^{1/2} 是Hermite矩阵,它可对角化,因而 ABAB 也一定可对角化。关于后一个论断,假定 CMnC \in M_n 是可对角化矩阵,且只有实特征值: C=SDS1C = SDS^1 ,其中 DD 是实对角矩阵。则 C=S(SSn1)DS1=(SS)(S1DS1)=ABC = S(S^*S^{n-1})DS^1 = (SS^*)(S^{1*}DS^{-1}) = AB ,其中 ASSA \equiv SS^* 是正定矩阵而 BS1DS1B \equiv S^{1*}DS^{-1} 是Hermite矩阵。

两个矩阵可经相似同时对角化是不常有的,需要较强的附加条件:交换性。但是,两个Hermite矩阵可经共同的相合同时对角化所需要的假设条件就很弱。经相合同时对角化对应于用诸变量的一个线性变换把两个Hermite二次型变换成诸平方项的线性组合。下面的结果是经典的;关于综合的结果见(4.5.15)。

7.6.4 定理 设 A,BMnA, B \in M_{n} 是两个Hermite矩阵,且假定存在 AABB 的一个实线性组合可以是正定矩阵,则存在非奇异矩阵 CMnC \in M_{n} 使得 CACC^{*}ACCBCC^{*}BC 都是对角矩阵。

证明:假定对某个 α,βR,P=αA+βB\alpha, \beta \in \mathbb{R}, P = \alpha A + \beta B 是正定矩阵。 α\alphaβ\beta 中至少有一个必定非零,所以可以假定 β0\beta \neq 0 。但是,因为 B=β1(PαA)B = \beta^{1}(P - \alpha A) ,如果能证明 AAPP 可经相合同时对对角化,则可以得出, AABB 也可经相合同时对角化。由(7.2.7)可知, PP^{*} 相合于单位矩阵,即存在

465

某个非奇异矩阵 C1MnC_1 \in M_n 使得 C1PC1=IC_1^* PC_1 = I . 因为 C1AC1C_1^* AC_1 是Hermite矩阵,所以存在酉矩阵 UU 使得 UC1AC1U=DU^* C_1^* AC_1 U = D 是对角矩阵。令 C=C1UC = C_1 U ,则有 CPC=IC^* PC = ICAC=DC^* AC = D ,并且 CBC=β1(IαD)C^* BC = \beta^{-1}(I - \alpha D) 是对角矩阵。

这个结果最常见的应用是针对力学中的经典情形的,其中,两个实对称二次型是给定的且有一个是正定的.

7.6.5 推论 如果 AMnA \in M_{n} 是正定矩阵,且 BMB \in M 是Hermite矩阵,则存在非奇异矩阵 CMnC \in M_{n} ,使得 CBCC^{*}BC 是对角矩阵且 CAC=IC^{*}AC = I .

练习 试求诸变量的一个变换使得两个二次型 5x22xy+y25x^{2} - 2xy + y^{2}x2+2xyy2x^{2} + 2xy - y^{2} 都是平方项的加权和.

对于一个是正定矩阵,另一个是(复)对称矩阵的矩阵偶,也有类似的结果。这个结果也可以归并到(4.5.15)中。

7.6.6 定理 如果 AMnA \in M_{n} 是正定矩阵,且 BMnB \in M_{n} 是复对称矩阵,则存在一个非奇异矩阵 CC 使得 CACC^{*}ACC?BCC^{?}BC 都是对角矩阵。

证明:我们选取非奇异矩阵 C1MnC_1 \in M_n 使得 C1AC1=IC_1^* AC_1 = I 。于是 C1TBC1C_1^T BC_1 是对称矩阵,因而根据 Takagi 分解(4.4.4),存在酉矩阵 UU 使得 UT(C1TBC1)U=DU^T (C_1^T BC_1)U = D ,其中 DD 是对角矩阵。于是也有 UC1AC1U=IU^* C_1^* AC_1 U = I ,这样,可以取 CC1UC \equiv C_1 U

这个结果可应用于复变函数论;关于单叶函数的 Grunsky 不等式是由正定 Hermite 矩阵和复对称矩阵所诱导的二次型之间的不等式。

下面的结果是(7.6.5)的直接应用

7.6.7 定理 函数 f(A)=logdetAf(A) = \log \det AMnM_{n} 中正定Hermite矩阵组成的凸集上的严格凹函数.

证明:对任意两个给定的正定矩阵 AABMnB\in M_{n} ,必须证明,

f(αA+(1α)B)αf(A)+(1α)f(B)(7.6.8)f (\alpha A + (1 - \alpha) B) \geqslant \alpha f (A) + (1 - \alpha) f (B) \tag {7.6.8}

对所有 α(0,1)\alpha \in (0,1) 成立,而其中等式成立当且仅当 A=BA = B 。利用(7.6.5)写出 A=CICA = CIC^{*}B=CACB = CAC^{*} ,其中, CMnC \in M_{n} 是某个非奇异矩阵, Λ=diag(λ1,,λn)\Lambda = \mathrm{diag}(\lambda_1,\dots,\lambda_n) ,且所有 λi>0\lambda_i > 0 。于是,

f(αA+(1α)B)=f(C[αI+(1α)A]C)=f(C+f(αI+(1α)A)=f(A)+f(αI+(1α)A),\begin{array}{l} f (\alpha A + (1 - \alpha) B) = f (C [ \alpha I + (1 - \alpha) A ] C ^ {*}) = f \left(C ^ {*} + f (\alpha I + (1 - \alpha) A\right) \\ = f (A) + f (\alpha I + (1 - \alpha) A), \\ \end{array}

αf(A)+(1α)f(B)=αf(A)+(1α)f(CAC)=αf(A)+(1α)[f((X)+f(A)]=αf(A)+(1α)f(A)+(1α)f(A)=f(A)+(1α)f(Λ).\begin{array}{l} \alpha f (A) + (1 - \alpha) f (B) = \alpha f (A) + (1 - \alpha) f (C A C ^ {*}) \\ = \alpha f (A) + (1 - \alpha) [ f ((X ^ {*}) + f (A) ] \\ = \alpha f (A) + (1 - \alpha) f (A) + (1 - \alpha) f (A) \\ = f (A) + (1 - \alpha) f (\Lambda). \\ \end{array}

因此只需证明,对所有 α(0,1)\alpha \in (0,1)f(αI+(1α)Λ)(1α)f(Λ)f(\alpha I + (1 - \alpha)\Lambda) \geqslant (1 - \alpha)f(\Lambda) 对具有正对角元的任意对角矩阵 Λ\Lambda 成立。但这容易从对数函数本身的严格凹性推出,因为

f(αI+(1α)A)=logi=1n[α+(1α)λi]=i=1nlog[α+(1α)λi]f (\alpha I + (1 - \alpha) A) = \log \prod_ {i = 1} ^ {n} [ \alpha + (1 - \alpha) \lambda_ {i} ] = \sum_ {i = 1} ^ {n} \log [ \alpha + (1 - \alpha) \lambda_ {i} ]
i=1n[αlog1+(1α)logλi]=(1α)i=1nlogλi=(1α)logi=1nλi=(1α)logdetΛ=(1α)f(Λ).\begin{array}{l} \geqslant \sum_ {i = 1} ^ {n} [ \alpha \log 1 + (1 - \alpha) \log \lambda_ {i} ] \\ = (1 - \alpha) \sum_ {i = 1} ^ {n} \log \lambda_ {i} = (1 - \alpha) \log \prod_ {i = 1} ^ {n} \lambda_ {i} \\ = (1 - \alpha) \log \det \Lambda = (1 - \alpha) f (\Lambda). \\ \end{array}

这个不等式中的等式成立,当且仅当每个 λi=1\lambda_{i} = 1 ,而这能成立当且仅当 A=IA = IB=CIC=AB = CIC^{*} = A

定理(7.6.7)常常采用下述形式,它是对不等式(7.6.8)取幂得到的,它对正定矩阵的凸组合是正定矩阵,因而一定是非奇异矩阵的事实给出了数量表示。

7.6.9 推论 设 A,BMnA, B \in M_{n} 是正定矩阵,且设 0<α<10 < \alpha < 1 。则

det[αA+(1a)B][detA]a[detB]1a,\det [ \alpha A + (1 - a) B ] \geqslant [ \det A ] ^ {a} [ \det B ] ^ {1 - a},

其中等式成立当且仅当 A=BA = B

习题

  1. 假定 AMnA \in M_{n} 适合 A=S1ASA^{*} = S^{-1}AS ,其中 SMnS \in M_{n} 是正定矩阵。证明 AA 可对角化且 AA 的所有特征值都是实数。提示:考虑 AS=SAAS = SA^{*} 。证明 ASAS 是Hermite矩阵,然后利用(7.6.3)。

  2. 证明 f(A)=trAf(A) = \operatorname{tr} A 是关于正定矩阵的严格凸函数。提示:(7.6.7)的证明。

  3. 如果 AMnA \in M_{n} 是半正定矩阵,如何推广(7.6.3)?证明, ABAB 的特征值还是实数,且 ABAB 的正特征值和负特征值不会比 BB 的多,不过它可能有更多的零特征值。

  4. 如果 BMnB \in M_{n} 不是Hermite矩阵,(7.6.3)可以推广到什么程度?

  5. 试用例子说明,可能两个Hermite矩阵可经相合同时对角化,但它们不满足(7.6.4)的假设条件。

  6. A,BM2A, B \in M_2 是给定的 Hermite 矩阵,就 AABB 的特征值而论, ABAB 的两个特征值的实部的所有可能符号是什么?你能把它推广到 MnM_n 吗?

  7. A,BMnA, B \in M_{n} 是Hermite矩阵,且 AA 是正定矩阵。试用(7.6.5)证明, A+BA + B 是正定矩阵,当且仅当 A1BA^{-1}B 的每个特征值大于 1-1 。提示: A+B=A(I+A1B)A + B = A(I + A^{-1}B)

  8. HMnH \in M_{n} 是 Hermite 矩阵,将 HH 写成 H=A+iBH = A + iB ,其中 A,BMn(R)A, B \in M_{n}(\mathbb{R}) 。验证 AA 是对称矩阵而 BB 是斜对称矩阵,因而 BB 的特征值是纯虚的,且成共轭对出现。试证 HH 是正定矩阵当且仅当 AA 是正定矩阵且 iA1BiA^{-1}B 的每个特征值大于 -1。提示:利用 xHx=xAxx^{*}Hx = x^{*}Ax 对所有 xRnx \in \mathbb{R}^{n} 成立的事实。利用习题 7。如果 AA 是正定矩阵,证明,如果 λ\lambdaiA1BiA^{-1}B 的特征值,则 λ-\lambda 亦是它的特征值。由此得出, HH 是正定矩阵,当且仅当 AA 是正定矩阵且 iA1BiA^{-1}B 的每个特征值位于区间 (1,1)(-1, 1) 内,并且 iA1BiA^{-1}B 的特征值成对 {λ,λ}\{-\lambda, \lambda\} 出现。由此得出 0detiA1B<10 \leqslant \det iA^{-1}B < 1 ,因而 detB<detA\det B < \det A ,这是 H.P.Robertson 的不等式。现在记 H=A+iB=A(I+iA1B)H = A + iB = A(I + iA^{-1}B) ,然后证明,如果 HH 是正定矩阵,则 detH=detAdet(I+iA1B)\det H = \det A\det (I + iA^{-1}B)0<det(I+iA1B)<10 < \det (I + iA^{-1}B) < 1 。由此得出,如果 HH 是正定矩阵,则 detHdetA\det H \leqslant \det A ,这是 0。Taussky 的不等式。

  9. 由定理(4.1.7)可知,矩阵 AMnA \in M_{n} 是两个Hermite矩阵的乘积,当且仅当 AA 相似于实矩阵。试用(7.6.3)证明, AMnA \in M_{n} 是两个正定的Hermite矩阵的乘积,当且仅当 AA 可对角化且

只有正特征值. 提示: 关于逆命题, 考虑 A=SΔS1=SS(S1)AS1A = S \Delta S^{-1} = SS^{*}(S^{-1})^{*} A S^{-1} .

  1. 如果 A,BMnA, B \in M_{n} 是正定矩阵,则我们知道,乘积 ABAB 是正定矩阵当且仅当 ABAB 是Hermite 矩阵。证明相同的结论对三个正定矩阵的乘积也成立;也就是说,如果 A,B,CMnA, B, C \in M_{n} 是正定矩阵,则乘积 S=ABCS = ABC 是正定矩阵,当且仅当它是Hermite 矩阵。提示:记 S=(AB)C=ECS = (AB)C = EC ,根据习题9,其中 EEnn 个正特征值。利用(7.6.3)证明,如果 SS 是Hermite 矩阵,则 E=SC1E = SC^{-1}SS 有相同数目的正特征值。

  2. 对习题 10 中的结果的下述另一个证明作详细的论述:设 S(α)[(1α)C+αA]BCS(\alpha) \equiv [(1 - \alpha)C + \alpha A]BC ,其中 0α10 \leqslant \alpha \leqslant 1 。如果 S(1)S(1) 是 Hermite 矩阵,又因为 S(0)=CBCS(0) = CBC 自然是 Hermite 矩阵,所以所有 S(α)S(\alpha) 都是 Hermite 矩阵。证明所有 S(α)S(\alpha) 都是非奇异的,因为 (1α)C+αA(1 - \alpha)C + \alpha A 是非奇异的。 S(α)S(\alpha) 的诸特征值连续地依赖 α\alpha ,当 α=0\alpha = 0 时所有特征值是正的,因为所有 S(α)S(\alpha) 是非奇异的,故它无零特征值。由此得出 S(1)S(1) 的所有特征值是正的。

进一步阅读 关于取自各种正定类的矩阵所作乘积的其他结果,以及关于多个正定矩阵之积的较早结果,其有关的资料可参看 C. S. Ballantine and C. R. Johnson“Accretive Matrix Products,” Lin. Multilin. Alg. 3(1975),169-185.

7.6_相合:乘积和同时对角化 - 矩阵分析 | OpenTech