7.6 相合:乘积和同时对角化
与正实数的乘法不同,普通的矩阵乘法不总保持正定性。两个Hermite矩阵的乘积甚至可以不是Hermite矩阵(只有当它们可交换时,乘积才是Hermite矩阵),且乘积诱导的二次型可以不是非负的。我们特别把这一节的重点放在正定矩阵上;关于Hermite矩阵的更一般的结果见(4.5)节。
7.6.1 例 设 A=[5−2−21] 和 B=[2111] , A 和 B 是正矩定阵, 但 AB=[8−33−1] 不是对称矩阵, H(AB)=[800−1] 甚至连正定矩阵都不是.
但是,正定矩阵的普通乘积至少还保留了一点正性。我们的讨论要说明某些涉及矩阵的和与积的有用技巧。
7.6.2 定义 我们知道,两个矩阵 A,B′ 相合,是指存在非奇异矩阵 C∈Mn 使得 B=C∗AC .
注意,和相似一样,相合是等价关系。有时在复的情形采用术语共轭相合,以便把它和实相合区别开来。
7.6.3 定理 正定矩阵 A∈Mn 与 Hermite 矩阵 B∈Mn 的乘积是可对角化矩阵,它的所有特征值都是实数。矩阵 AB 与 B 有相同数目的正特征值,负特征值和零特征值。此外,任意只具有实特征值的可对角化矩阵是一个正定矩阵与一个 Hermite 矩阵的乘积。
证明:对于前一部分,注意到 A−1/2ABA1/2=A1/2BA1/2 ,于是后一个矩阵相似于 AB ,因而与它恰好有相同的特征值。因为 A1/2 是Hermite矩阵,所以矩阵 A1/2BA1/2 相合于 B 。因此,根据Sylvester惯性定理(4.5.8), B 的特征值与 A1/2BA1/2 的,因而与 AB 的特征值有相同的符号集。此外,因为 A1/2BA1/2 是Hermite矩阵,它可对角化,因而 AB 也一定可对角化。关于后一个论断,假定 C∈Mn 是可对角化矩阵,且只有实特征值: C=SDS1 ,其中 D 是实对角矩阵。则 C=S(S∗Sn−1)DS1=(SS∗)(S1∗DS−1)=AB ,其中 A≡SS∗ 是正定矩阵而 B≡S1∗DS−1 是Hermite矩阵。
两个矩阵可经相似同时对角化是不常有的,需要较强的附加条件:交换性。但是,两个Hermite矩阵可经共同的相合同时对角化所需要的假设条件就很弱。经相合同时对角化对应于用诸变量的一个线性变换把两个Hermite二次型变换成诸平方项的线性组合。下面的结果是经典的;关于综合的结果见(4.5.15)。
7.6.4 定理 设 A,B∈Mn 是两个Hermite矩阵,且假定存在 A 和 B 的一个实线性组合可以是正定矩阵,则存在非奇异矩阵 C∈Mn 使得 C∗AC 和 C∗BC 都是对角矩阵。
证明:假定对某个 α,β∈R,P=αA+βB 是正定矩阵。 α 和 β 中至少有一个必定非零,所以可以假定 β=0 。但是,因为 B=β1(P−αA) ,如果能证明 A 和 P 可经相合同时对对角化,则可以得出, A 和 B 也可经相合同时对角化。由(7.2.7)可知, P∗ 相合于单位矩阵,即存在
465
某个非奇异矩阵 C1∈Mn 使得 C1∗PC1=I . 因为 C1∗AC1 是Hermite矩阵,所以存在酉矩阵 U 使得 U∗C1∗AC1U=D 是对角矩阵。令 C=C1U ,则有 C∗PC=I 和 C∗AC=D ,并且 C∗BC=β−1(I−αD) 是对角矩阵。
这个结果最常见的应用是针对力学中的经典情形的,其中,两个实对称二次型是给定的且有一个是正定的.
7.6.5 推论 如果 A∈Mn 是正定矩阵,且 B∈M 是Hermite矩阵,则存在非奇异矩阵 C∈Mn ,使得 C∗BC 是对角矩阵且 C∗AC=I .
练习 试求诸变量的一个变换使得两个二次型 5x2−2xy+y2 和 x2+2xy−y2 都是平方项的加权和.
对于一个是正定矩阵,另一个是(复)对称矩阵的矩阵偶,也有类似的结果。这个结果也可以归并到(4.5.15)中。
7.6.6 定理 如果 A∈Mn 是正定矩阵,且 B∈Mn 是复对称矩阵,则存在一个非奇异矩阵 C 使得 C∗AC 和 C?BC 都是对角矩阵。
证明:我们选取非奇异矩阵 C1∈Mn 使得 C1∗AC1=I 。于是 C1TBC1 是对称矩阵,因而根据 Takagi 分解(4.4.4),存在酉矩阵 U 使得 UT(C1TBC1)U=D ,其中 D 是对角矩阵。于是也有 U∗C1∗AC1U=I ,这样,可以取 C≡C1U □
这个结果可应用于复变函数论;关于单叶函数的 Grunsky 不等式是由正定 Hermite 矩阵和复对称矩阵所诱导的二次型之间的不等式。
下面的结果是(7.6.5)的直接应用
7.6.7 定理 函数 f(A)=logdetA 是 Mn 中正定Hermite矩阵组成的凸集上的严格凹函数.
证明:对任意两个给定的正定矩阵 A , B∈Mn ,必须证明,
f(αA+(1−α)B)⩾αf(A)+(1−α)f(B)(7.6.8) 对所有 α∈(0,1) 成立,而其中等式成立当且仅当 A=B 。利用(7.6.5)写出 A=CIC∗ 和 B=CAC∗ ,其中, C∈Mn 是某个非奇异矩阵, Λ=diag(λ1,…,λn) ,且所有 λi>0 。于是,
f(αA+(1−α)B)=f(C[αI+(1−α)A]C∗)=f(C∗+f(αI+(1−α)A)=f(A)+f(αI+(1−α)A), 且
αf(A)+(1−α)f(B)=αf(A)+(1−α)f(CAC∗)=αf(A)+(1−α)[f((X∗)+f(A)]=αf(A)+(1−α)f(A)+(1−α)f(A)=f(A)+(1−α)f(Λ). 因此只需证明,对所有 α∈(0,1) , f(αI+(1−α)Λ)⩾(1−α)f(Λ) 对具有正对角元的任意对角矩阵 Λ 成立。但这容易从对数函数本身的严格凹性推出,因为
f(αI+(1−α)A)=logi=1∏n[α+(1−α)λi]=i=1∑nlog[α+(1−α)λi] ⩾∑i=1n[αlog1+(1−α)logλi]=(1−α)∑i=1nlogλi=(1−α)log∏i=1nλi=(1−α)logdetΛ=(1−α)f(Λ). 这个不等式中的等式成立,当且仅当每个 λi=1 ,而这能成立当且仅当 A=I 且 B=CIC∗=A
定理(7.6.7)常常采用下述形式,它是对不等式(7.6.8)取幂得到的,它对正定矩阵的凸组合是正定矩阵,因而一定是非奇异矩阵的事实给出了数量表示。
7.6.9 推论 设 A,B∈Mn 是正定矩阵,且设 0<α<1 。则
det[αA+(1−a)B]⩾[detA]a[detB]1−a, 其中等式成立当且仅当 A=B
习题
假定 A∈Mn 适合 A∗=S−1AS ,其中 S∈Mn 是正定矩阵。证明 A 可对角化且 A 的所有特征值都是实数。提示:考虑 AS=SA∗ 。证明 AS 是Hermite矩阵,然后利用(7.6.3)。
证明 f(A)=trA 是关于正定矩阵的严格凸函数。提示:(7.6.7)的证明。
如果 A∈Mn 是半正定矩阵,如何推广(7.6.3)?证明, AB 的特征值还是实数,且 AB 的正特征值和负特征值不会比 B 的多,不过它可能有更多的零特征值。
如果 B∈Mn 不是Hermite矩阵,(7.6.3)可以推广到什么程度?
试用例子说明,可能两个Hermite矩阵可经相合同时对角化,但它们不满足(7.6.4)的假设条件。
设 A,B∈M2 是给定的 Hermite 矩阵,就 A 和 B 的特征值而论, AB 的两个特征值的实部的所有可能符号是什么?你能把它推广到 Mn 吗?
设 A,B∈Mn 是Hermite矩阵,且 A 是正定矩阵。试用(7.6.5)证明, A+B 是正定矩阵,当且仅当 A−1B 的每个特征值大于 −1 。提示: A+B=A(I+A−1B) 。
设 H∈Mn 是 Hermite 矩阵,将 H 写成 H=A+iB ,其中 A,B∈Mn(R) 。验证 A 是对称矩阵而 B 是斜对称矩阵,因而 B 的特征值是纯虚的,且成共轭对出现。试证 H 是正定矩阵当且仅当 A 是正定矩阵且 iA−1B 的每个特征值大于 -1。提示:利用 x∗Hx=x∗Ax 对所有 x∈Rn 成立的事实。利用习题 7。如果 A 是正定矩阵,证明,如果 λ 是 iA−1B 的特征值,则 −λ 亦是它的特征值。由此得出, H 是正定矩阵,当且仅当 A 是正定矩阵且 iA−1B 的每个特征值位于区间 (−1,1) 内,并且 iA−1B 的特征值成对 {−λ,λ} 出现。由此得出 0⩽detiA−1B<1 ,因而 detB<detA ,这是 H.P.Robertson 的不等式。现在记 H=A+iB=A(I+iA−1B) ,然后证明,如果 H 是正定矩阵,则 detH=detAdet(I+iA−1B) 且 0<det(I+iA−1B)<1 。由此得出,如果 H 是正定矩阵,则 detH⩽detA ,这是 0。Taussky 的不等式。
由定理(4.1.7)可知,矩阵 A∈Mn 是两个Hermite矩阵的乘积,当且仅当 A 相似于实矩阵。试用(7.6.3)证明, A∈Mn 是两个正定的Hermite矩阵的乘积,当且仅当 A 可对角化且
只有正特征值. 提示: 关于逆命题, 考虑 A=SΔS−1=SS∗(S−1)∗AS−1 .
如果 A,B∈Mn 是正定矩阵,则我们知道,乘积 AB 是正定矩阵当且仅当 AB 是Hermite 矩阵。证明相同的结论对三个正定矩阵的乘积也成立;也就是说,如果 A,B,C∈Mn 是正定矩阵,则乘积 S=ABC 是正定矩阵,当且仅当它是Hermite 矩阵。提示:记 S=(AB)C=EC ,根据习题9,其中 E 有 n 个正特征值。利用(7.6.3)证明,如果 S 是Hermite 矩阵,则 E=SC−1 与 S 有相同数目的正特征值。
对习题 10 中的结果的下述另一个证明作详细的论述:设 S(α)≡[(1−α)C+αA]BC ,其中 0⩽α⩽1 。如果 S(1) 是 Hermite 矩阵,又因为 S(0)=CBC 自然是 Hermite 矩阵,所以所有 S(α) 都是 Hermite 矩阵。证明所有 S(α) 都是非奇异的,因为 (1−α)C+αA 是非奇异的。 S(α) 的诸特征值连续地依赖 α ,当 α=0 时所有特征值是正的,因为所有 S(α) 是非奇异的,故它无零特征值。由此得出 S(1) 的所有特征值是正的。
进一步阅读 关于取自各种正定类的矩阵所作乘积的其他结果,以及关于多个正定矩阵之积的较早结果,其有关的资料可参看 C. S. Ballantine and C. R. Johnson“Accretive Matrix Products,” Lin. Multilin. Alg. 3(1975),169-185.