4.5 Hermite 矩阵、对称矩阵的相合与同时对角化 任一二阶线性偏微分算子 L L L 可以写成形式
L f = ∑ i , j = 1 n a i j ( x ) ∂ 2 f ( x ) ∂ x i ∂ x j + 诸 低 阶 项 , x = [ x i ] ∈ D ⊂ R n , (4.5.1) L f = \sum_ {i, j = 1} ^ {n} a _ {i j} (x) \frac {\partial^ {2} f (x)}{\partial x _ {i} \partial x _ {j}} + \text {诸 低 阶 项}, \quad x = [ x _ {i} ] \in D \subset \mathbf {R} ^ {n}, \tag {4.5.1} L f = i , j = 1 ∑ n a ij ( x ) ∂ x i ∂ x j ∂ 2 f ( x ) + 诸 低 阶 项 , x = [ x i ] ∈ D ⊂ R n , ( 4.5.1 ) 其中,假定系数 a i j ( x ) a_{ij}(x) a ij ( x ) 定义在某个区域 D ⊂ R n D \subset \mathbb{R}^n D ⊂ R n 上,函数 f f f 在 D D D 上二次连续可微。正如在(4.0.3)所看到的那样,我们不妨假定,对所有 x ∈ D x \in D x ∈ D ,系数矩阵 Λ ( x ) = [ a i j ( x ) ] \Lambda(x) = [a_{ij}(x)] Λ ( x ) = [ a ij ( x )] 是实对称矩阵。我们所说的低阶项指的是只包含 f f f 及其一阶偏导数的那些项。
如果作自变量到新变量 s = [ s t ] ∈ D ⊂ R n s = [s_t] \in D \subset \mathbb{R}^n s = [ s t ] ∈ D ⊂ R n 的非奇异变换,则每个 s t = s t [ x ] = s t ( x 1 , … , x n ) s_t = s_t[x] = s_t(x_1, \dots, x_n) s t = s t [ x ] = s t ( x 1 , … , x n ) ,而非奇异性则说明 Jacobi 矩阵
S ( x ) = [ ∂ S i ( x ) ∂ x j ] ∈ M n S (x) = \left[ \frac {\partial_ {S _ {i}} (x)}{\partial x _ {j}} \right] \in M _ {n} S ( x ) = [ ∂ x j ∂ S i ( x ) ] ∈ M n 在 D D D 的每一点非奇异,这个假定保证变量 x = x ( s ) x = x(s) x = x ( s ) 的逆变换局部存在。直接应用链法则可证,[218] 在这些新坐标下,算子 L L L 有形式
L f = ∑ i , j n [ ∑ p , q = 1 n ∂ s i ∂ x p a p i − ∂ s j ∂ x q ] ∂ 2 f ∂ s i + 诸 低 阶 项 = ∑ i , j = 1 n b i j ∂ 2 f ∂ s i ∂ s j + 诸 低 阶 项 . (4.5.2) \begin{array}{l} L f = \sum_ {i, j} ^ {n} \left[ \sum_ {p, q = 1} ^ {n} \frac {\partial s _ {i}}{\partial x _ {p}} a _ {p i} - \frac {\partial s _ {j}}{\partial x _ {q}} \right] \frac {\partial^ {2} f}{\partial s _ {i}} + \text {诸 低 阶 项} \\ = \sum_ {i, j = 1} ^ {n} b _ {i j} \frac {\partial^ {2} f}{\partial s _ {i} \partial s _ {j}} + \text {诸 低 阶 项}. \tag {4.5.2} \\ \end{array} L f = ∑ i , j n [ ∑ p , q = 1 n ∂ x p ∂ s i a p i − ∂ x q ∂ s j ] ∂ s i ∂ 2 f + 诸 低 阶 项 = ∑ i , j = 1 n b ij ∂ s i ∂ s j ∂ 2 f + 诸 低 阶 项 . ( 4.5.2 ) 因此,(在坐标 s = ⌈ s i ⌉ s = \lceil s_i\rceil s = ⌈ s i ⌉ 下)新的系数矩阵 B B B 与(在坐标 x − [ x , ] x - [x,] x − [ x , ] 下)旧的实系数矩阵 A A A 的关系可用关系式
B = S A S T (4.5.3) B = S A S ^ {T} \tag {4.5.3} B = S A S T ( 4.5.3 ) 表示,其中 S S S 是非奇异实矩阵.
如果微分算子 L L L 与某个物理定律有关(例如,Laplace 算子 L = V ‾ 2 L = \overline{V}^2 L = V 2 和静电势),尽管对自变量的坐标选择显然会影响 L L L 的形式,但它决不会影响该定律。因此,我们不禁要问,通过关系式(4.5.3)与已知矩阵 A A A 相关联的所有矩阵 B B B 的集合具有什么不变量。
另一个像(4.5.3)那样的变换例子来源于概率与统计。假定在有期望算子 E E E 的某个概率空间上, X 1 , X 2 , ⋯ , X n X_{1}, X_{2}, \cdots, X_{n} X 1 , X 2 , ⋯ , X n 是具有二阶矩的实或复随机变量,且设 μ i = E ( X i ) \mu_{i} = E(X_{i}) μ i = E ( X i ) 表示相应的平均值。Hermite矩阵 A = [ a i j ] = ( E [ ( X i − μ i ) ( X ˉ j − μ j ) ] ) ≡ Cov ( X ) A = [a_{ij}] = (E[(X_{i} - \mu_{i})(\bar{X}_{j} - \mu_{j})]) \equiv \operatorname{Cov}(X) A = [ a ij ] = ( E [( X i − μ i ) ( X ˉ j − μ j )]) ≡ Cov ( X ) 是随机向量 X = [ X 1 , ⋯ , X n ] T X = [X_{1}, \cdots, X_{n}]^{T} X = [ X 1 , ⋯ , X n ] T 的协方差矩阵。如果 S = [ s i j ] ∈ M n S = [s_{ij}] \in M_{n} S = [ s ij ] ∈ M n 是给定的矩阵,则 S X SX SX 是其分量为 X X X 的诸分量的线性组合的随机向量。 S X SX SX 的诸分量的平均值是
E ( ( S X ) 1 ) = E ( ∑ k n s k X k ) − ∑ k = 1 n s k E ( X k ) = ∑ k = 1 n s k f t k , E ((S X) _ {1}) = E \left(\sum_ {k} ^ {n} s _ {k} X _ {k}\right) - \sum_ {k = 1} ^ {n} s _ {k} E \left(X _ {k}\right) = \sum_ {k = 1} ^ {n} s _ {k f t _ {k}}, E (( SX ) 1 ) = E ( k ∑ n s k X k ) − k = 1 ∑ n s k E ( X k ) = k = 1 ∑ n s k f t k , 而 S X SX SX 的协方差矩阵是
Cov ( S X ) = ( E [ ( ( S X ) , − E ( ( S X ) , ) ) ( S X ‾ ) , − E ( ( S X ‾ ) , ) ) ] ) = ( E [ ( ∑ p = 1 n s r p ( X p − μ p ) ) ( ∑ q = 1 n s r q ( X q − μ q ) ) ] ) = ( ∑ p , q = 1 n s i p E [ ( X p − μ p ) ( X ˉ q − μ ˉ q ) ] s ˉ i q ) − ( ∑ p , q = 1 n s i p a p q s m q ) = S A S ′ . \begin{array}{l} \operatorname {C o v} (S X) = \left(E \left[ ((S X), - E ((S X),)) (\overline {{S X}}), - E ((\overline {{S X}}),)) \right]\right) \\ = \left(E \left[ \left(\sum_ {p = 1} ^ {n} s _ {r p} \left(X _ {p} - \mu_ {p}\right)\right) \left(\sum_ {q = 1} ^ {n} s _ {r q} \left(X _ {q} - \mu_ {q}\right)\right) \right]\right) \\ = \left(\sum_ {p, q = 1} ^ {n} s _ {i p} E \left[ \left(X _ {p} - \mu_ {p}\right) \left(\bar {X} _ {q} - \bar {\mu} _ {q}\right) \right] \bar {s} _ {i q}\right) - \left(\sum_ {p, q = 1} ^ {n} s _ {i p} a _ {p q} s _ {m q}\right) \\ = S A S ^ {\prime}. \\ \end{array} Cov ( SX ) = ( E [ (( SX ) , − E (( SX ) , )) ( SX ) , − E (( SX ) , )) ] ) = ( E [ ( ∑ p = 1 n s r p ( X p − μ p ) ) ( ∑ q = 1 n s r q ( X q − μ q ) ) ] ) = ( ∑ p , q = 1 n s i p E [ ( X p − μ p ) ( X ˉ q − μ ˉ q ) ] s ˉ i q ) − ( ∑ p , q = 1 n s i p a pq s m q ) = S A S ′ . 这说明
Cov ( S X ) − SCov ( X ) S ′ . (4.5.3’) \operatorname {C o v} (S X) - \operatorname {S C o v} (X) S ^ {\prime}. \tag {4.5.3'} Cov ( SX ) − SCov ( X ) S ′ . ( 4.5.3’ ) 因此,随机向量的协方差矩阵的变化规律与 ( 1.5.3 T ) (1.5.3^{T}) ( 1.5. 3 T ) 稍有不同,但是,如果矩阵 S S S 是实的,它便简化成 ( 4.5.3 T ) (4.5.3^{T}) ( 4.5. 3 T ) 。
作为最后一个例子,考虑一般二次型
Q 1 ( t ) = ∑ i , j n a i j r i x j − t ′ A i j , t = [ r i ] ∈ C n , Q _ {1} (t) = \sum_ {i, j} ^ {n} a _ {i j} r _ {i} x _ {j} - t ^ {\prime} A _ {i j}, \quad t = [ r _ {i} ] \in \mathbb {C} ^ {n}, Q 1 ( t ) = i , j ∑ n a ij r i x j − t ′ A ij , t = [ r i ] ∈ C n , 以及Hermite型
H B ( r ) − ∑ i , j = 1 n b i j x i x j = r B i , r − [ r i j ∈ C ′ , H _ {B} (r) - \sum_ {i, j = 1} ^ {n} b _ {i j} x _ {i} x _ {j} = r B _ {i}, \quad r - [ r _ {i j} \in \mathbf {C} ^ {\prime}, H B ( r ) − i , j = 1 ∑ n b ij x i x j = r B i , r − [ r ij ∈ C ′ , 其中 A = [ a n ] ∥ B − [ b n ] A = [a_{n}] \parallel B - [b_{n}] A = [ a n ] ∥ B − [ b n ] 。如果 S ∈ M n S \in M_{n} S ∈ M n 是给定的矩阵,则
Q 1 ( S r ) − ( S r ) T A ( S t ) J ′ ( S ′ \ S ) J = Q s ′ i , ( r ) . Q _ {1} \left(S _ {r}\right) - \left(S r\right) ^ {T} A \left(S _ {t}\right) \quad J ^ {\prime} \left(S ^ {\prime} \backslash S\right) J = Q _ {s ^ {\prime} i, (r)}. Q 1 ( S r ) − ( S r ) T A ( S t ) J ′ ( S ′ \ S ) J = Q s ′ i , ( r ) . 219
H A ( S r ) = ( S x ) ∗ B ( S x ) = x ∗ ( S ∗ B S ) r = H s ∗ ( x ) . H _ {A} (S r) = (S x) ^ {*} B (S x) = x ^ {*} (S ^ {*} B S) r = H _ {s ^ {*}} (x). H A ( S r ) = ( S x ) ∗ B ( S x ) = x ∗ ( S ∗ BS ) r = H s ∗ ( x ) . 在这个例子中, A A A , B B B , S S S 和 x \pmb{x} x 为实的或为复的是无关紧要的.这里,有两种稍微不同的变换规律在起作用,而这正是给出下述定义的理由.
4.5.4 定义 设 A , B ∈ M n A, B \in M_n A , B ∈ M n 是给定的矩阵。如果存在非奇异矩阵 S S S 使得
(a) B = S A S ∗ B = S A S^{*} B = S A S ∗ ,则称 B B B 是相合(“星相合”)于 A A A . (b) B = S A S ′ B = SAS^{\prime} B = S A S ′ ,则称 B B B 是 r \pmb{r} r 相合(T-相合)于A.
显然,这两个相合概念肯定有密切关系;如果 S S S 是实矩阵,它们是相同的。当区分这两个概念是无关紧要的时候,采用术语相合,而不加词头。有些作者用术语共轭相合表示相合,而我们采用更便于记忆的术语。
练习 证明相合的矩阵有相同的秩.
值得提出的是,如果 A A A 是Hermite矩阵,则SAS亦是Hermite矩阵(即使S是奇异矩阵);如果 A A A 是对称矩阵,则 S A S ⊺ \mathsf{SAS}^{\intercal} SAS ⊺ 也是对称矩阵。通常,对保持矩阵类型不变的相合感兴趣,例如,关于Hermite矩阵的'相合和关于对称矩阵的'相合。但是,如果 A A A 是实对称矩阵,则它是对称矩阵,也是Hermite矩阵;于是SAS'是Hermite矩阵,而 S A S ⊺ \mathsf{SAS}^{\intercal} SAS ⊺ 是对称矩阵。对于实对称矩阵,我们可能想按相关的内容来考虑'相合或'相合。这两种相合共同具有一个重要的类似性质。
4.5.5 定理 *相合和'相合都是等价关系。即对任 A ∈ M n A \in M_{n} A ∈ M n
(a) A A A 与 A A A 相合. (b) 如果 A A A 与 B B B 相合,则 B B B 与 A A A 相合. (c) 如果 A A A 与 B B B 相合且 B B B 与 C C C 相合, 则 A A A 与 C C C 相合.
证明:对于(a),我们把 A A A 写成 A = I A I ∗ A = IAI^{*} A = I A I ∗ ,如果 A = S B S ∗ A = SBS^{*} A = SB S ∗ ,且 S S S 是非奇异矩阵,则 B = S − 1 A ( S − 1 ) ∗ B = S^{-1}A(S^{-1})^{*} B = S − 1 A ( S − 1 ) ∗ ,最后,如果 A = S 1 B S 1 ∗ A = S_{1}BS_{1}^{*} A = S 1 B S 1 ∗ 且 B = S 2 C S 2 ∗ B = S_{2}CS_{2}^{*} B = S 2 C S 2 ∗ ,则 A = ( S 1 S 2 ) C ( S 1 S 2 ) ∗ A = (S_{1}S_{2})C(S_{1}S_{2})^{*} A = ( S 1 S 2 ) C ( S 1 S 2 ) ∗ ,对于 τ \pmb{\tau} τ 相合的证明形式上是相同的.
因此,所有 n × n n \times n n × n 矩阵的集合按相合关系划分成等价类。作为一个理论问题,可以在每一相合关系下找到每个等价类的一个标准代表元。这个问题对'相合更复杂一些,所以先讨论这种情形。
通过识别相合关系的诸不变量可以辨认并划分各微分算子,这个实际问题促使我们去分析研究由(经实矩阵S)相合于某个矩阵的诸实对称矩阵组成的等价类的标准代表元问题。结果证明,这个问题有一个简单的解答:只要计算正、负特征值和零特征值的个数。因为这个理由,引进下述专有名词。
4.5.6 定义 设 A ∈ M n A \in M_n A ∈ M n 是Hermite矩阵。 A A A 的惯性是有序三元组
i ( A ) = ( i 1 ( A ) , i − ( A ) , i 0 ( A ) ) , i (A) = \left(i _ {1} (A), i _ {-} (A), i _ {0} (A)\right), i ( A ) = ( i 1 ( A ) , i − ( A ) , i 0 ( A ) ) , 其中, i − ( A ) i_{-}(A) i − ( A ) 是 A A A 的特征值的个数, i ( A ) i(A) i ( A ) 是 A A A 的负特征值的个数, i 3 ( A ) i_{3}(A) i 3 ( A ) 是 A A A 的零特征值的个数,并且都计相重特征值的个数。注意, A A A 的秩等于 i + ( A ) + i ( A ) i_{+}(A) + i(A) i + ( A ) + i ( A ) 。 A A A 的符号差等于数值 i 1 ( A ) − i − ( A ) i_{1}(A) - i_{-}(A) i 1 ( A ) − i − ( A ) 。
练习 证明,如果知道 A A A 的符号差和秩,则Hermite矩阵 A ∈ M n A \in M_{n} A ∈ M n 的惯性是唯一确定的,反之亦然。
如果 Λ ∈ M n \Lambda \in M_{n} Λ ∈ M n 是给定的Hermite矩阵,则 A = U Λ U ∗ A = U\Lambda U^{*} A = U Λ U ∗ ,其中 Λ = d i a g ( λ 1 , … , λ n ) \Lambda = \mathrm{diag}(\lambda_1,\dots ,\lambda_n) Λ = diag ( λ 1 , … , λ n ) 而 U U U 是酉矩阵.为方便起见,假定 Λ \pmb{\Lambda} Λ 的诸对角元中首先出现的是正特征值,然后是负特征值,最后是零特征值.于是, λ 1 , λ 2 , … , λ t + > 0 , λ t + + 1 , … , λ t − − t + < 0 \lambda_1,\lambda_2,\dots ,\lambda_{t_+} > 0,\lambda_{t_+ + 1},\dots ,\lambda_{t_{-} - t_+} < 0 λ 1 , λ 2 , … , λ t + > 0 , λ t + + 1 , … , λ t − − t + < 0 ,而 λ t − t − + t − = ⋯ = λ n = 0 \lambda_{t_{-}t_{-} + t_{-}} = \dots = \lambda_{n} = 0 λ t − t − + t − = ⋯ = λ n = 0 ,如果令
D = diag ( + λ 1 , … , + λ t + , + − λ t + 1 , … , + − λ t + t + , 1 , … , 1 ) D = \operatorname {d i a g} (+ \sqrt {\lambda_ {1}}, \dots , + \sqrt {\lambda_ {t _ {+}}}, + \sqrt {- \lambda_ {t _ {+ 1}}}, \dots , + \sqrt {- \lambda_ {t _ {+ t _ {+}}}}, 1, \dots , 1) D = diag ( + λ 1 , … , + λ t + , + − λ t + 1 , … , + − λ t + t + , 1 , … , 1 ) 则 D D D 是非奇异实对角矩阵,且
Λ = D [ 1 ⋱ 1 0 − 1 ⋱ 1 0 0 ⋱ 0 ] D , \Lambda = D \left[ \begin{array}{c c c c c c c c c} 1 & & & & & & & & \\ & \ddots & & & & & & \\ & & 1 & & & & & 0 & \\ & & & - 1 & & & & \\ & & & & \ddots & & & \\ & & & & & 1 & & \\ & & 0 & & & & 0 & \\ & & & & & & \ddots & \\ & & & & & & & 0 \end{array} \right] D, Λ = D 1 ⋱ 1 0 − 1 ⋱ 1 0 ⋱ 0 0 D , 其中所展示的矩阵恰好有 i + ( A ) i_{+}(A) i + ( A ) 项“+1”, i ( A ) i(A) i ( A ) 项“-1”和 i 0 ( A ) i_0(A) i 0 ( A ) 项“0”。于是,矩阵 A A A 可以写成
A = U Δ U ∗ = S [ 1 ⋱ 0 1 1 ⋱ 1 0 0 ⋱ 0 ] S ∗ = S I ( A ) S ∗ , (4.5.7) A = U \Delta U ^ {*} = S \left[ \begin{array}{c c c c c c c c} 1 & & & & & & & \\ & \ddots & & & & & 0 & \\ & & 1 & & & & & \\ & & & 1 & & & & \\ & & & & \ddots & & & \\ & & & & & 1 & & \\ & & & & & & 0 & \\ & & 0 & & & & \ddots & \\ & & & & & & & 0 \end{array} \right] S ^ {*} = S I (A) S ^ {*}, \tag {4.5.7} A = U Δ U ∗ = S 1 ⋱ 1 0 1 ⋱ 1 0 0 ⋱ 0 S ∗ = S I ( A ) S ∗ , ( 4.5.7 ) 其中 S = U D S = UD S = U D 是非奇异矩阵,而 I ( A ) I(A) I ( A ) 是 A A A 的惯性矩阵。因此,每个Hermite矩阵'相合于一个形式很简单的对角矩阵,只要知道了该矩阵的惯性,便知道了这个对角矩阵。用惯性矩阵作为'相合于 A A A 的矩阵等价类的标准代表元应当是有吸引力的,不过,要做到这一点,必须确认'相合的Hermite矩阵有相同的惯性。这正是下述定理的内容,通常称该定理为Sylveter惯性定律。
4.5.8 定理 设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是 Hermite 矩阵,则存在非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n 使得 A = S B S ∗ A = SBS^{*} A = SB S ∗ ,当且仅当 A A A 和 B B B 有相同的惯性,即有相同个数的正、负特征值和零特征值。
证明:如果 A A A 和 B B B 有相同的惯性,则每一个矩阵都可表示成形式(4.5.7),其中每个矩阵的 S S S 可能不同,但却有相同的惯性矩阵。因为相合关系是传递的,又 A A A 和 B B B 相合于同一个矩阵,所以它们彼此相合,这正是要证的逆命题。
假定 A A A 与 B B B 相合,且对某个非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n 有 A = S B S ∗ A = SBS^{*} A = SB S ∗ ,因为相合矩阵有相同的秩,所以 i 11 ( A ) − i 0 ( B ) i_{11}(A) - i_{0}(B) i 11 ( A ) − i 0 ( B ) ,因而只需证明 i + ( A ) = i − ( B ) i_{+}(A) = i_{-}(B) i + ( A ) = i − ( B ) 。设 v 1 , v 2 , ⋯ , v r + ( A ) v_{1}, v_{2}, \cdots, v_{r_{+}(A)} v 1 , v 2 , ⋯ , v r + ( A ) 是 A A A 的相应于正特征值 λ 1 ( A ) , ⋯ , λ r + ( A ) ( A ) \lambda_{1}(A), \cdots, \lambda_{r_{+}(A)}(A) λ 1 ( A ) , ⋯ , λ r + ( A ) ( A ) 的正交单位向量,另外设 S 1 ( A ) − Span { v 1 , ⋯ , v r + ( A ) } S_{1}(A) - \operatorname{Span}\{v_{1}, \cdots, v_{r_{+}(A)}\} S 1 ( A ) − Span { v 1 , ⋯ , v r + ( A ) } 。
S 1 ( A ) S_{1}(A) S 1 ( A ) 的维数是 i + ( A ) i_{+}(A) i + ( A ) ,又如果 x = α 1 v 1 + ⋯ + α i , ( A ) v i , ( A ) ≠ 0 x = \alpha_{1}v_{1} + \dots +\alpha_{i,(A)}v_{i,(A)}\neq 0 x = α 1 v 1 + ⋯ + α i , ( A ) v i , ( A ) = 0 ,则 x ∗ A x = λ 1 ( A ) ∣ α 1 ∣ 2 + … x^{*}Ax = \lambda_{1}(A)\mid \alpha_{1}\mid^{2} + \dots x ∗ A x = λ 1 ( A ) ∣ α 1 ∣ 2 + … + λ i , ( A ) ( A ) ∣ α i , ( A ) ∣ 2 > 0. +\lambda_{i,(A)}(A)\mid \alpha_{i,(A)}\mid^{2} > 0. + λ i , ( A ) ( A ) ∣ α i , ( A ) ∣ 2 > 0. 另一方面,
x ∗ SBS ∗ x = ( S ∗ x ) ′ B ( S ∗ x ) > 0 , x ^ {*} \operatorname {S B S} ^ {*} x = (S ^ {*} x) ^ {\prime} B (S ^ {*} x) > 0, x ∗ SBS ∗ x = ( S ∗ x ) ′ B ( S ∗ x ) > 0 , 因而,对于具有维数 i + ( A ) i_{+}(A) i + ( A ) 的 Span { S ∗ v 1 , … , S ∗ v i + ( A ) } \operatorname{Span}\{S^{*}v_{1},\dots ,S^{*}v_{i_{+}(A)}\} Span { S ∗ v 1 , … , S ∗ v i + ( A ) } 中所有非零向量 y y y 有 y ∗ B y > 0 y^{*}By > 0 y ∗ B y > 0 根据推论(4.3.23),必须有 i + ( B ) ⩾ i + ( A ) i_{+}(B)\geqslant i_{+}(A) i + ( B ) ⩾ i + ( A ) 但是,因为 A A A 和 B B B 在这个证明中的作用可以颠倒过来,所以得出 i + ( B ) = i . ( A ) i_{+}(B) = i.(A) i + ( B ) = i . ( A ) □
练习 设 A ∈ M n A \in M_{n} A ∈ M n 是Hermite矩阵。证明 A ∗ A^{*} A ∗ 相合于单位矩阵,当且仅当 A A A 的所有特征值都是正的。
练习 设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是对称矩阵,证明 A A A 和 B B B 可经复矩阵相合,当且仅当它们可经实矩阵相合.
练习 设 A 1 B ∈ M n A_{1}B \in M_{n} A 1 B ∈ M n 是实对称矩阵。证明 A A A 和 B B B 可经实矩阵相合,当且仅当 A A A 和 B B B 有相同的惯性。
练习 在由 n × n n \times n n × n 复 Hermite 矩阵所组成的集合中,在相合下有多少个不同的等价类?在由 n × n n \times n n × n 实对称矩阵组成的集合中呢?
由于Sylvester定理保证在相合下Hermite矩阵的诸特征值的符号不变,从而完全解决了在相合下从Hermite矩阵的每个等价类选取一个代表元的问题。但是在'相合下诸特征值的大小如何变化呢?利用Weyl定理(4.3.1)最简单的形式,可以给出Sylvester定理的数量形式。
4.5.9 定理(Ostrowski)设 A , S ∈ M n A, S \in M_n A , S ∈ M n , A A A 是 Hermite 矩阵,而 S S S 是非奇异矩阵。设 A A A 和 S S ∗ SS^* S S ∗ 的诸特征值按递增顺序(4.2.1)排列,则对每个 k = 1 , 2 , … k = 1, 2, \dots k = 1 , 2 , … ,存在正实数 θ k \theta_k θ k ,使得 λ i ( S S ∗ ) ⩽ θ k ⩽ λ n ( S S ∗ ) \lambda_i(SS^*) \leqslant \theta_k \leqslant \lambda_n(SS^*) λ i ( S S ∗ ) ⩽ θ k ⩽ λ n ( S S ∗ ) 且
λ k ( S A S ∗ ) = θ k λ k ( A ) . (4.5.10) \lambda_ {k} (S A S ^ {*}) = \theta_ {k} \lambda_ {k} (A). \tag {4.5.10} λ k ( S A S ∗ ) = θ k λ k ( A ) . ( 4.5.10 ) 证明:首先,若 S S ∗ x = λ x SS^*x = \lambda x S S ∗ x = λ x 且 x ≠ 0 x \neq 0 x = 0 ,则 λ = x ∗ S S ∗ x / x ∗ x = ( S ∗ x ) ∗ ( S ∗ x ) / x ∗ x > 0 \lambda = x^*SS^*x / x^*x = (S^*x)^*(S^*x) / x^*x > 0 λ = x ∗ S S ∗ x / x ∗ x = ( S ∗ x ) ∗ ( S ∗ x ) / x ∗ x > 0 ,因而 S S ∗ SS^* S S ∗ 的所有特征值都是正的。设 k k k 是某个整数, 1 ⩽ k ⩽ n 1 \leqslant k \leqslant n 1 ⩽ k ⩽ n ,且考察Hermite矩阵 A − λ k ( A ) I A - \lambda_k(A)I A − λ k ( A ) I ,它的第 k k k 个特征值是零。根据Sylvester定理(4.5.8), S ( A − λ k ( A ) I ) S ∗ = S A S ∗ − λ k ( A ) S S ∗ S(A - \lambda_k(A)I)S^* = SAS^* - \lambda_k(A)SS^* S ( A − λ k ( A ) I ) S ∗ = S A S ∗ − λ k ( A ) S S ∗ 的第 k k k 个特征值也是零。Weyl不等式(4.3.2)说明, S A S ∗ − λ k ( A ) S S ∗ SAS^* - \lambda_k(A)SS^* S A S ∗ − λ k ( A ) S S ∗ 的第 k k k 个特征值有如下的上、下界
λ k ( S A S ∗ ) + λ 1 ( − λ k ( A ) S S ∗ ) ⩽ λ k ( S A S ∗ − λ k ( A ) S S ∗ ) = 0 ⩽ λ k ( S A S ′ ) + λ n ( − λ k ( A ) S S ′ ) , \begin{array}{l} \lambda_ {k} \left(S A S ^ {*}\right) + \lambda_ {1} \left(- \lambda_ {k} (A) S S ^ {*}\right) \leqslant \lambda_ {k} \left(S A S ^ {*} - \lambda_ {k} (A) S S ^ {*}\right) = 0 \\ \leqslant \lambda_ {k} (S A S ^ {\prime}) + \lambda_ {n} (- \lambda_ {k} (A) S S ^ {\prime}), \\ \end{array} λ k ( S A S ∗ ) + λ 1 ( − λ k ( A ) S S ∗ ) ⩽ λ k ( S A S ∗ − λ k ( A ) S S ∗ ) = 0 ⩽ λ k ( S A S ′ ) + λ n ( − λ k ( A ) S S ′ ) , 或
λ k ( S A S ∗ ) ⩽ − λ 1 ( − λ k ( A ) S S ∗ ) = λ n ( λ k ( A ) S S ∗ ) = { λ k ( A ) λ n ( S S ∗ ) , 如 果 λ k ( A ) ⩾ 0 , λ k ( A ) λ 1 ( S S ∗ ) , 如 果 λ l ( A ) ⩽ 0 , \begin{array}{l} \lambda_ {k} (S A S ^ {*}) \leqslant - \lambda_ {1} (- \lambda_ {k} (A) S S ^ {*}) = \lambda_ {n} (\lambda_ {k} (A) S S ^ {*}) \\ = \left\{ \begin{array}{l l} \lambda_ {k} (A) \lambda_ {n} \left(S S ^ {*}\right), & \text {如 果} \lambda_ {k} (A) \geqslant 0, \\ \lambda_ {k} (A) \lambda_ {1} \left(S S ^ {*}\right), & \text {如 果} \lambda_ {l} (A) \leqslant 0, \end{array} \right. \\ \end{array} λ k ( S A S ∗ ) ⩽ − λ 1 ( − λ k ( A ) S S ∗ ) = λ n ( λ k ( A ) S S ∗ ) = { λ k ( A ) λ n ( S S ∗ ) , λ k ( A ) λ 1 ( S S ∗ ) , 如 果 λ k ( A ) ⩾ 0 , 如 果 λ l ( A ) ⩽ 0 , H
λ k ( S A S ∗ ) ⩾ λ n ( − λ k ( A ) S S ∗ ) = λ 1 ( λ k ( A ) S S ∗ ) = { λ k ( A ) λ 1 ( S S ∗ ) , 如 果 λ k ( A ) ⩾ 0 , λ k ( A ) λ n ( S S ∗ ) , 如 果 λ k ( A ) ⩽ 0. \begin{array}{l} \lambda_ {k} \left(S A S ^ {*}\right) \geqslant \lambda_ {n} \left(- \lambda_ {k} (A) S S ^ {*}\right) = \lambda_ {1} \left(\lambda_ {k} (A) S S ^ {*}\right) \\ = \left\{ \begin{array}{l l} \lambda_ {k} (A) \lambda_ {1} (\mathrm {S S} ^ {*}), & \text {如 果} \lambda_ {k} (A) \geqslant 0, \\ \lambda_ {k} (A) \lambda_ {n} (\mathrm {S S} ^ {*}), & \text {如 果} \lambda_ {k} (A) \leqslant 0. \end{array} \right. \\ \end{array} λ k ( S A S ∗ ) ⩾ λ n ( − λ k ( A ) S S ∗ ) = λ 1 ( λ k ( A ) S S ∗ ) = { λ k ( A ) λ 1 ( SS ∗ ) , λ k ( A ) λ n ( SS ∗ ) , 如 果 λ k ( A ) ⩾ 0 , 如 果 λ k ( A ) ⩽ 0. 在任何一种情形 [ λ k ( A ) ⩾ 0 [\lambda_k(A) \geqslant 0 [ λ k ( A ) ⩾ 0 或者 λ k ( A ) ⩽ 0 ] \lambda_k(A) \leqslant 0] λ k ( A ) ⩽ 0 ] 下,这些不等式都推出 λ k ( S A S ∗ ) = θ k λ k ( A ) \lambda_k(SAS^*) = \theta_k\lambda_k(A) λ k ( S A S ∗ ) = θ k λ k ( A ) 对适合 λ 1 ( S S ∗ ) ⩽ θ k ⩽ λ n ( S S ∗ ) \lambda_1(SS^*) \leqslant \theta_k \leqslant \lambda_n(SS^*) λ 1 ( S S ∗ ) ⩽ θ k ⩽ λ n ( S S ∗ ) 的某个 θ k \theta_k θ k 成立. □
在 Ostrowki 定理中,如果 A = I ∈ M n A = I \in M_{n} A = I ∈ M n ,则所有 λ k ( A ) = 1 \lambda_{k}(A) = 1 λ k ( A ) = 1 且 θ k = λ k ( S S ∗ ) \theta_{k} = \lambda_{k}(SS^{*}) θ k = λ k ( S S ∗ ) 。如果 S ∈ M n S \in M_{n} S ∈ M n 是酉矩阵,则 λ 1 ( S S ∗ ) = λ n ( S S ∗ ) = 1 \lambda_{1}(SS^{*}) = \lambda_{n}(SS^{*}) = 1 λ 1 ( S S ∗ ) = λ n ( S S ∗ ) = 1 且所有 θ k = 1 \theta_{k} = 1 θ k = 1 ;这表明在酉相似下特征值的不变性。因此,定理中给出的关于 θ k \theta_{k} θ k 的界对任一给定的 A A A 和任一给定的非奇异矩阵 S S S 是最合适的。
通过简单的连续性论证,Ostrowski定理可以推广到包括 S S S 是奇异矩阵的情形.在这种情形,设 ε > 0 \varepsilon >0 ε > 0 ,然后用 S + ε I S + \varepsilon I S + ε I 代替 S S S 来应用定理可知 λ k ( ( S + ε I ) A ( S + ε I ) ∗ ) = θ k λ k ( A ) \lambda_{k}((S + \varepsilon I)A(S + \varepsilon I)^{*}) = \theta_{k}\lambda_{k}(A) λ k (( S + ε I ) A ( S + ε I ) ∗ ) = θ k λ k ( A ) ,并且 λ 1 ( ( S + ε I ) ( S + ε I ) ∗ ) ⩽ θ k ⩽ λ n ( ( S + ε I ) ( S + ε I ) ∗ ) \lambda_1((S + \varepsilon I)(S + \varepsilon I)^*)\leqslant \theta_k\leqslant \lambda_n((S + \varepsilon I)(S + \varepsilon I)^*) λ 1 (( S + ε I ) ( S + ε I ) ∗ ) ⩽ θ k ⩽ λ n (( S + ε I ) ( S + ε I ) ∗ ) .现在让 ε → 0 \varepsilon \to 0 ε → 0 便得到界 0 ⩽ θ k ⩽ λ n ( S S ∗ ) 0\leqslant \theta_{k}\leqslant \lambda_{n}(SS^{*}) 0 ⩽ θ k ⩽ λ n ( S S ∗ ) 这个结果可以看作Sylvester惯性定律到奇异"相合的推广.
4.5.11 推论 设 A 1 S ∈ M n A_{1}S \in M_{n} A 1 S ∈ M n ,且 A A A 是Hermite矩阵。设 A A A 和 S S ∗ SS^{*} S S ∗ 的诸特征值按递增顺序(4.2.1)排列,那么对每个 k = 1 , 2 , … , n k = 1, 2, \dots, n k = 1 , 2 , … , n ,存在非负实数 θ k \theta_{k} θ k 使得 λ 1 ( S S ∗ ) ⩽ θ k ⩽ λ n ( S S ∗ ) \lambda_{1}(SS^{*}) \leqslant \theta_{k} \leqslant \lambda_{n}(SS^{*}) λ 1 ( S S ∗ ) ⩽ θ k ⩽ λ n ( S S ∗ ) 且
λ k ( S A S ∗ ) = θ k λ k ( A ) . \lambda_ {k} (S A S ^ {*}) = \theta_ {k} \lambda_ {k} (A). λ k ( S A S ∗ ) = θ k λ k ( A ) . 特别是 S A S ∗ SAS^{*} S A S ∗ 的正(负)特征值的个数小于或等于 A A A 的正(负)特征值的个数.
求复对称矩阵在 7 ^7 7 相合下的诸等价类的标准代表元问题有一个更简便的解法:只要计算秩.
4.5.12 定理 设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是 (复或实) 对称矩阵。那么,存在非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n 使得 A = S B S T A = SBS^{T} A = SB S T ,当且仅当 A A A 和 B B B 有相同的秩。
证明:如果 A = S B S T A = SBS^{\mathrm{T}} A = SB S T ,且 S S S 非奇异,则由(0.4.6)可知, A A A 与 B B B 有相同的秩.反过来,利用(4.4.4)可导出
A = U 1 Σ 1 U 1 T = U 1 I ( Σ 1 ) D 1 2 U 1 T = ( U 1 D 1 ) I ( Σ 1 ) ( U 1 D 1 ) T , A = U _ {1} \Sigma_ {1} U _ {1} ^ {T} = U _ {1} I (\Sigma_ {1}) D _ {1} ^ {2} U _ {1} ^ {T} = (U _ {1} D _ {1}) I (\Sigma_ {1}) (U _ {1} D _ {1}) ^ {T}, A = U 1 Σ 1 U 1 T = U 1 I ( Σ 1 ) D 1 2 U 1 T = ( U 1 D 1 ) I ( Σ 1 ) ( U 1 D 1 ) T , 其中, I ( Σ 1 ) I(\Sigma_1) I ( Σ 1 ) 是 Σ 1 \Sigma_1 Σ 1 的惯性矩阵(4.5.7),它由 A A A 的秩完全确定, U 1 U_{1} U 1 是酉矩阵, Σ 1 = d i a g ( σ 1 , \Sigma_{1} = \mathrm{diag}(\sigma_{1}, Σ 1 = diag ( σ 1 , σ 2 , … , σ n ) \sigma_{2},\dots ,\sigma_{n}) σ 2 , … , σ n ) 且所有 σ i ⩾ 0 \sigma_{i}\geqslant 0 σ i ⩾ 0 , D 1 = d i a g ( d 1 , d 2 , … , d n ) D_{1} = \mathrm{diag}(d_{1},d_{2},\dots ,d_{n}) D 1 = diag ( d 1 , d 2 , … , d n ) 且
d t = { σ t , 如 果 σ t > 0 , 1 , 如 果 σ t = 0. d _ {t} = \left\{ \begin{array}{l l} \sqrt {\sigma_ {t}}, & \text {如 果} \sigma_ {t} > 0, \\ 1, & \text {如 果} \sigma_ {t} = 0. \end{array} \right. d t = { σ t , 1 , 如 果 σ t > 0 , 如 果 σ t = 0. 注意, D 1 D_{1} D 1 是非奇异矩阵.也可以用同样的方式导出 B = ( U 2 D 2 ) I ( Σ 2 ) ( U 2 D 2 ) T B = (U_2D_2)I(\Sigma_2)(U_2D_2)^T B = ( U 2 D 2 ) I ( Σ 2 ) ( U 2 D 2 ) T ,且其中各矩阵有类似的定义.如果假定 rank A = rank B \operatorname{rank} A = \operatorname{rank} B rank A = rank B ,则 I ( Σ 1 ) = I ( Σ 2 ) I(\Sigma_{1}) = I(\Sigma_{2}) I ( Σ 1 ) = I ( Σ 2 ) ,且
I ( Σ 1 ) = ( U 1 D 1 ) − 1 A [ ( U 1 D 1 ) T ] − 1 = I ( Σ 2 ) = ( U 2 D 2 ) − 1 B [ ( U 2 D 2 ) T ] − 1 , I \left(\Sigma_ {1}\right) = \left(U _ {1} D _ {1}\right) ^ {- 1} A \left[ \left(U _ {1} D _ {1}\right) ^ {T} \right] ^ {- 1} = I \left(\Sigma_ {2}\right) = \left(U _ {2} D _ {2}\right) ^ {- 1} B \left[ \left(U _ {2} D _ {2}\right) ^ {T} \right] ^ {- 1}, I ( Σ 1 ) = ( U 1 D 1 ) − 1 A [ ( U 1 D 1 ) T ] − 1 = I ( Σ 2 ) = ( U 2 D 2 ) − 1 B [ ( U 2 D 2 ) T ] − 1 , 因此
A = ( U 1 D 1 ) ( U 2 D 2 ) − 1 B [ ( U 1 D 1 ) ( U 2 D 2 ) − 1 ] t . A = \left(U _ {1} D _ {1}\right) \left(U _ {2} D _ {2}\right) ^ {- 1} B \left[ \left(U _ {1} D _ {1}\right) \left(U _ {2} D _ {2}\right) ^ {- 1} \right] ^ {t}. A = ( U 1 D 1 ) ( U 2 D 2 ) − 1 B [ ( U 1 D 1 ) ( U 2 D 2 ) − 1 ] t . 由此得出 A A A 与 B ′ B^{\prime} B ′ 相合.
练习 在相合下, n × n n \times n n × n 复对称矩阵组成的集合中有多少不同的等价类?在 n × n n \times n n × n 实对称矩阵组成的集合中呢?
练习 设 A ∈ M n A \in M_{n} A ∈ M n 是对称矩阵。证明存在非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n 使得 A = S S T A = SS^{T} A = S S T ,当且仅当 A A A 是非奇异矩阵。
练习 设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是对称矩阵。证明存在非奇异矩阵 X , Y ∈ M n X, Y \in M_{n} X , Y ∈ M n 使得 A = X B Y A = XBY A = XB Y ,也就是说, A A A 与 B B B 等价,当且仅当存在非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n 使得 A = S B S T A = SBS^{T} A = SB S T ,即 A A A 与 B T B^{T} B T 相合。提示:
如果 A = Z B Y A = ZBY A = ZB Y , A A A 和 B B B 的秩是什么关系?
上述结果相当于关于复矩阵的 7 {}^{7} 7 相合的Sylvester惯性定律。下述结果相当于Sylvester定理的(Ostrowski数量形式[(4.5.9)和(4.5.11)]。
4.5.13 定理 设 A , S ∈ M n A, S \in M_{n} A , S ∈ M n , 且 A − 1 A T A^{-1} A^{T} A − 1 A T . 设 A = U Σ U T A = U \Sigma U^{T} A = U Σ U T 和 S A S T = V M V T SAS^{T} = VMV^{T} S A S T = V M V T 是 A A A 和 S A S T SAS^{T} S A S T 的 Takagi 分解 (4.4.4), 其中 U U U 和 V V V 是酉矩阵, Σ = diag ( σ 1 , σ 2 , … , σ n ) \Sigma = \operatorname{diag}(\sigma_{1}, \sigma_{2}, \dots, \sigma_{n}) Σ = diag ( σ 1 , σ 2 , … , σ n ) , M = diag ( μ 1 , μ 2 , … , μ n ) M = \operatorname{diag}(\mu_{1}, \mu_{2}, \dots, \mu_{n}) M = diag ( μ 1 , μ 2 , … , μ n ) , 且所有 σ i , μ i ⩾ 0 \sigma_{i}, \mu_{i} \geqslant 0 σ i , μ i ⩾ 0 . 设 λ i ( S S ∗ ) \lambda_{i}(SS^{*}) λ i ( S S ∗ ) 表示 S S ∗ SS^{*} S S ∗ 的特征值. 假定数 σ i , μ i \sigma_{i}, \mu_{i} σ i , μ i 和 λ i ( S S ∗ ) \lambda_{i}(SS^{*}) λ i ( S S ∗ ) 都按递增顺序 (4.2.1) 排列. 则对每个 k = 1 , 2 , … , n k = 1, 2, \dots, n k = 1 , 2 , … , n , 存在适合 λ 1 ( S S ∗ ) ⩽ θ k ⩽ λ n ( S S ∗ ) \lambda_{1}(SS^{*}) \leqslant \theta_{k} \leqslant \lambda_{n}(SS^{*}) λ 1 ( S S ∗ ) ⩽ θ k ⩽ λ n ( S S ∗ ) 的非负实数 θ k \theta_{k} θ k 使得 μ k − θ k σ k \mu_{k} - \theta_{k} \sigma_{k} μ k − θ k σ k . 如果 S S S 非奇异, 则所有 θ k > 0 \theta_{k} > 0 θ k > 0 .
证明:数 μ 2 \mu^2 μ 2 是 B B ∗ BB^{*} B B ∗ 的特征值,其中 B = S A S ′ B = SAS^{\prime} B = S A S ′ ,因而
μ k 2 = λ k ( B B ′ ) = λ k ( S A S T S ‾ A ˉ S ∗ ) = λ k ( S [ A S T S ˉ A ∣ S ∗ ] − θ k λ k ( A S T S A ˉ ) \mu_ {k} ^ {2} = \lambda_ {k} (B B ^ {\prime}) = \lambda_ {k} (\text {S A S} ^ {T} \overline {{\text {S}}} \bar {A} S ^ {*}) = \lambda_ {k} (\text {S} [ A S ^ {T} \bar {S} A | S ^ {*} ] - \theta_ {k} \lambda_ {k} (A S ^ {T} S \bar {A}) μ k 2 = λ k ( B B ′ ) = λ k ( S A S T S A ˉ S ∗ ) = λ k ( S [ A S T S ˉ A ∣ S ∗ ] − θ k λ k ( A S T S A ˉ ) 对适合 λ 1 ( S S ∗ ) ⩽ θ ^ k ⩽ λ n ( S S ∗ ) \lambda_1(SS^*)\leqslant \hat{\theta}_k\leqslant \lambda_n(SS^*) λ 1 ( S S ∗ ) ⩽ θ ^ k ⩽ λ n ( S S ∗ ) 的某个 θ ^ k \hat{\theta}_k θ ^ k 成立:为得到最后一个等式,我们利用了(4.5.11).因为两个矩阵乘积的特征值与乘积(1.3.20)的顺序无关,又因为特征值 λ k \lambda_{k} λ k 是实数,所以还有
μ k 2 = θ ^ k λ k ( A S t S ˙ A ˉ ) = θ ^ k λ k ( S A A S T ) − θ ^ k λ k ( S A A ˉ S ⋅ ) . \mu_ {k} ^ {2} = \hat {\theta} _ {k} \lambda_ {k} (A S ^ {t} \dot {S} \bar {A}) = \hat {\theta} _ {k} \lambda_ {k} (S A A S ^ {T}) - \hat {\theta} _ {k} \lambda_ {k} (S A \bar {A} S ^ {\cdot}). μ k 2 = θ ^ k λ k ( A S t S ˙ A ˉ ) = θ ^ k λ k ( S AA S T ) − θ ^ k λ k ( S A A ˉ S ⋅ ) . 再应用(4.5.11),则对适合 λ 1 ( S S ∗ ) ⩽ θ ^ k ⩽ λ n ( S S ∗ ) \lambda_1(SS^*)\leqslant \hat{\theta}_k\leqslant \lambda_n(SS^*) λ 1 ( S S ∗ ) ⩽ θ ^ k ⩽ λ n ( S S ∗ ) 的某个 θ ^ k \hat{\theta}_k θ ^ k 有
μ k ′ = θ ^ k θ ˉ k λ k ( Λ A ˉ ) − θ ^ k θ ˉ k σ k ′ . \mu_ {k} ^ {\prime} = \hat {\theta} _ {k} \bar {\theta} _ {k} \lambda_ {k} (\Lambda \bar {A}) - \hat {\theta} _ {k} \bar {\theta} _ {k} \sigma_ {k} ^ {\prime}. μ k ′ = θ ^ k θ ˉ k λ k ( Λ A ˉ ) − θ ^ k θ ˉ k σ k ′ . 因此, μ k − θ ^ k θ ^ k σ k = θ k σ k \mu_k - \sqrt{\hat{\theta}_k \hat{\theta}_k} \sigma_k = \theta_k \sigma_k μ k − θ ^ k θ ^ k σ k = θ k σ k 。且 θ k = θ ^ k θ ˉ k \theta_k = \sqrt{\hat{\theta}_k \bar{\theta}_k} θ k = θ ^ k θ ˉ k 在所要求的上下界之间。
我们从(1.3.19)得知,两个可对角化的矩阵可经同一个相似变换同时对角化,当且仅当它们可交换。关于通过相合同时对角化的相应结果是什么呢?
或许最早是由于研究关于稳定平衡的“最小振动”力学问题。才促使人们去考虑关于通过相合同时对角化的有关结果。如果动力系统的组态由广义(Lagrange)坐标 q 1 , q 2 , ⋯ , q n q_{1}, q_{2}, \cdots, q_{n} q 1 , q 2 , ⋯ , q n 来确定,其中原点是稳定平衡点,则在原点附近,势能函数 V V V 可以通过用广义坐标 q i q_{i} q i 表示的实二次型
V = ∑ i , j = 1 n a i j q i q j V = \sum_ {i, j = 1} ^ {n} a _ {i j} q _ {i} q _ {j} V = i , j = 1 ∑ n a ij q i q j 来逼近.动能 T T T 可以通过用广义速度 q i q_{i} q i 表示的实二次型
T = ∑ i , j = 1 n b i , q ˙ i , q ˙ j T = \sum_ {i, j = 1} ^ {n} b _ {i}, \dot {q} _ {i}, \dot {q} _ {j} T = i , j = 1 ∑ n b i , q ˙ i , q ˙ j 来逼近.系统的变化过程由Lagrange方程组
d d t ( ∂ T ∂ q ˙ i ) − ∂ T ∂ q i + ∂ V ∂ q i = 0 \frac {\mathrm {d}}{\mathrm {d} t} \left(\frac {\partial T}{\partial \dot {q} _ {i}}\right) - \frac {\partial T}{\partial q _ {i}} + \frac {\partial V}{\partial q _ {i}} = 0 d t d ( ∂ q ˙ i ∂ T ) − ∂ q i ∂ T + ∂ q i ∂ V = 0 所决定,它是常系数二阶线性常微分方程组,如果两个二次型 T T T 和 V V V 是非对角的,这些方程就是耦合的(因而要解这些方程是较困难的)。我们可以假定实矩阵 A = [ a i j ] A = [a_{ij}] A = [ a ij ] 和 B = [ b i j ] B = [b_{ij}] B = [ b ij ] 是对称的。
如果可以求得非奇异变换 S = [ s n ] ∈ M n S = [s_n] \in M_n S = [ s n ] ∈ M n 使得 S A S T SAS^T S A S T 和 S B S T SBS^T SB S T 都是对角矩阵,则关于适合关系
q i = ∑ j = 1 n s i j p j (4.5.14) q _ {i} = \sum_ {j = 1} ^ {n} s _ {i j} p _ {j} \tag {4.5.14} q i = j = 1 ∑ n s ij p j ( 4.5.14 ) 的新广义坐标 p i p_i p i ,动能二次型 T \pmb{T} T 和势能二次型 V \pmb{V} V 都是对角矩阵,在这种情形,Lagrange方程组就是由 n n n 个分离的常系数二阶线性常微分方程组成的非耦合组.利用指数函数和三角函数不
难解出这些方程,而原问题的解可利用(4.5.14)求得
因此,如果可以通过相合同时对角化两个实对称矩阵,则一类重要的力学问题的实质性简化是可以实现的。根据物理知识,动能二次型是正定的,结果证明,这是可通过相合同时对角化的充分(而不是必要的)条件。
我们可能要考虑的同时对角化结果有多种形式。可能有两个Hermite矩阵 A A A 和 B B B ,并且可能希望对某个酉矩阵 U U U 使 U A U ′ UAU^{\prime} U A U ′ 和 U B U ′ UBU^{\prime} U B U ′ 都是对角矩阵,或者可能满足于较弱的结果,对某个非奇异矩阵 S S S 使 S A S ′ SAS^{\prime} S A S ′ 和 S B S ′ SBS^{\prime} SB S ′ 都是对角矩阵。类似地,如果 A A A 和 B B B 是对称矩阵,我们可能希望 U A U ′ UAU^{\prime} U A U ′ 和 U B U ′ UBU^{\prime} U B U ′ ,或 S A S ′ SAS^{\prime} S A S ′ 和 S B S ′ SBS^{\prime} SB S ′ 都是对角矩阵。甚至可能会有这样的混合问题, A A A 是Hermite矩阵,而 B B B 是对称矩阵,希望 U A U ′ UAU^{\prime} U A U ′ 和 U B U ′ UBU^{\prime} U B U ′ ,或 S A S ′ SAS^{\prime} S A S ′ 和 S B S ′ SBS^{\prime} SB S ′ 都是对角矩阵。在每种情形,要考虑的自然相合是保持相应矩阵的特殊代数特征的相合。所有这些情形都出现在应用之中。它们都可以用同样的技巧来处理,而要考虑的最简单情形是两个矩阵之中有一个是非奇异的情形。在表4.5.15T中列出了若干结果,它对每种情形都给出一系列等价的必要充分条件。将这些必要充分条件按指定顺序编号是为了显示各种情形中相平行的条件。
4.5.15 定理 设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是给定的。设 U U U 表示酉矩阵, S S S 表示非奇异矩阵,且 U , S ∈ M n U, S \in M_{n} U , S ∈ M n ,则有表 4.5.15T。
表4.5.15f
证明:在六组条件的每一组中,所述大部分条件的等价性只是属于定义的推论。[a]组中(3)和(4)的等价性可以从以下论断推出:如果 A A A 和 B B B 是Hermite矩阵,则 A B AB A B 是Hermite
矩阵当且仅当 A A A 与 B B B 可交换,以及 A A A 是Hermite矩阵当且仅当 A − 1 A^{-1} A − 1 是Hermite矩阵。类似地可证明Ⅲ(a)(3)和(4)的等价性,这是因为, B B B 是对称矩阵当且仅当 B − 1 B^{-1} B − 1 是对称矩阵,还因为,如果 A A A 是Hermite矩阵,则 A T = A ‾ A^T = \overline{A} A T = A 。
在六组条件的每一组中,条件(1)的必要性可直接从相应的相合具有对角形式的假设推出。例如,在情形Ⅱ(b),如果 S A S T = Λ SAS^T = \Lambda S A S T = Λ 和 S B S T = M SBS^T = M SB S T = M 都是对角矩阵,则
A − 1 B = ( S T Λ − 1 S ) [ S − 1 M ( S T ) − 1 ] = S T ( Λ − 1 M ) ( S T ) − 1 , A ^ {- 1} B = \left(S ^ {T} \Lambda^ {- 1} S\right) \left[ S ^ {- 1} M \left(S ^ {T}\right) ^ {- 1} \right] = S ^ {T} \left(\Lambda^ {- 1} M\right) \left(S ^ {T}\right) ^ {- 1}, A − 1 B = ( S T Λ − 1 S ) [ S − 1 M ( S T ) − 1 ] = S T ( Λ − 1 M ) ( S T ) − 1 , 因而 R = S T R = S^T R = S T 将对角化 C = A − 1 B C = A^{-1}B C = A − 1 B . 类似地,在情形 I(b) 和 III(b), R = S ∗ R = S^{*} R = S ∗ 也将起对角化作用. 如果 S S S 是酉矩阵,则每种情形的相应矩阵 R R R 也是酉矩阵.
考虑情形I,其中 A A A 和 B B B 是Hermite矩阵,且 A A A 是非奇异矩阵。假定I(b)(1)成立,即存在非奇异矩阵 R = [ r 1 r 2 … r n ] ∈ M n R = [r_1r_2\dots r_n]\in M_n R = [ r 1 r 2 … r n ] ∈ M n ,每个 r i ∈ C n r_i\in \mathbf{C}^n r i ∈ C n ,以及对角矩阵 Λ = d i a g ( λ 1 , λ 2 , … , λ n ) \Lambda = \mathrm{diag}(\lambda_1,\lambda_2,\dots ,\lambda_n) Λ = diag ( λ 1 , λ 2 , … , λ n ) 其中所有 λ i \lambda_{i} λ i 是实数,使得 R − 1 A − 1 B R = Λ R^{-1}A^{-1}BR = \Lambda R − 1 A − 1 BR = Λ ,因而 B R = A R Λ BR = AR\Lambda BR = A R Λ 且 R ∗ B R = R ∗ A R Λ R^{*}BR = R^{*}AR\Lambda R ∗ BR = R ∗ A R Λ 。不失一般性,假定相重的 λ i \lambda_{i} λ i 项的值是排放在一起的,因而 Λ \pmb{\Lambda} Λ 有分块形式
Λ = [ Λ 1 0 Λ 2 0 ⋱ Λ k ] , (4.5.16) \Lambda = \left[ \begin{array}{c c c c} \Lambda_ {1} & & & 0 \\ & \Lambda_ {2} & & \\ 0 & & \ddots & \\ & & & \Lambda_ {k} \end{array} \right], \tag {4.5.16} Λ = Λ 1 0 Λ 2 ⋱ 0 Λ k , ( 4.5.16 ) Λ i ∈ M n ; 1 ⩽ n i ⩽ n ; Λ i = μ i I , i = 1 , 2 , … , k , \Lambda_ {i} \in M _ {n}; \quad 1 \leqslant n _ {i} \leqslant n; \quad \Lambda_ {i} = \mu_ {i} I, \quad i = 1, 2, \dots , k, Λ i ∈ M n ; 1 ⩽ n i ⩽ n ; Λ i = μ i I , i = 1 , 2 , … , k , 其中,所有 μ i \mu_{i} μ i 是实数,且如果 i ≠ j i\neq j i = j ,则 μ i ≠ μ j \mu_{i}\neq \mu_{j} μ i = μ j .如果所有 λ i \lambda_{i} λ i 项未必相等,选取适合 1 ⩽ i 1\leqslant i 1 ⩽ i , j ⩽ n j\leqslant n j ⩽ n 的任意 i i i , j j j 使 λ i ≠ λ j \lambda_{i}\neq \lambda_{j} λ i = λ j ,并且考察恒等式 R ∗ B R = R ∗ A R Λ R^{*}BR = R^{*}AR\Lambda R ∗ BR = R ∗ A R Λ 两边的 i i i , j j j 项.这就是
r i ∗ A r j λ j = r i ∗ B r j = r j ∗ B r i ‾ = r j ∗ A r i λ i ‾ = r i ∗ A r j λ i , r _ {i} ^ {*} A r _ {j} \lambda_ {j} = r _ {i} ^ {*} B r _ {j} = \overline {{r _ {j} ^ {*} B r _ {i}}} = \overline {{r _ {j} ^ {*} A r _ {i} \lambda_ {i}}} = r _ {i} ^ {*} A r _ {j} \lambda_ {i}, r i ∗ A r j λ j = r i ∗ B r j = r j ∗ B r i = r j ∗ A r i λ i = r i ∗ A r j λ i , 这里,用到了 A A A 和 B B B 是Hermite矩阵(因而对所有 x , y ∈ C n x, y \in \mathbb{C}^n x , y ∈ C n 有 x ∗ A y = y ∗ A x ‾ x^{*}Ay = \overline{y^{*}Ax} x ∗ A y = y ∗ A x )以及 λ i \lambda_{i} λ i 和 λ j \lambda_{j} λ j 是实数的事实.因为 λ i ≠ λ j \lambda_{i} \neq \lambda_{j} λ i = λ j ,我们推出 r i ∗ A r j = 0 r_{i}^{*}Ar_{j} = 0 r i ∗ A r j = 0 因而 r j ∗ A r i = r i ∗ B r j = r j ∗ B r i = 0 r_{j}^{*}Ar_{i} = r_{i}^{*}Br_{j} = r_{j}^{*}Br_{i} = 0 r j ∗ A r i = r i ∗ B r j = r j ∗ B r i = 0 。这表明矩阵 R ∗ B R R^{*}BR R ∗ BR 和 R ∗ A R R^{*}AR R ∗ A R 都是分块对角矩阵,且与(4.5.16)有相同的形式;即
R ′ B R = [ B 1 0 B 2 0 ⋱ B k ] = R ′ A R A = [ μ 1 A 1 0 μ 2 A 2 0 ⋱ μ k A k ] , \begin{array}{l} R ^ {\prime} B R = \left[ \begin{array}{c c c c} B _ {1} & & & 0 \\ & B _ {2} & & \\ 0 & & \ddots & \\ & & & B _ {k} \end{array} \right] = R ^ {\prime} A R A \\ = \left[ \begin{array}{c c c c} \mu_ {1} A _ {1} & & & 0 \\ & \mu_ {2} A _ {2} & & \\ 0 & & \ddots & \\ & & & \mu_ {k} A _ {k} \end{array} \right], \\ \end{array} R ′ BR = B 1 0 B 2 ⋱ 0 B k = R ′ A R A = μ 1 A 1 0 μ 2 A 2 ⋱ 0 μ k A k , 其中,对 i = 1 , 2 , … , k i = 1,2,\dots ,k i = 1 , 2 , … , k , B i B_{i} B i , A i ∈ M n i A_{i}\in M_{n_{i}} A i ∈ M n i ,这部分化简到对角形式,如果 k = n k = n k = n ,即如果所有 λ i \lambda_{i} λ i 都互不相同,它将完全化简成了对角形式.如果 k < n k < n k < n ,则某个子块有 n i > 1 n_i > 1 n i > 1 ,且 B i = μ i A i B_{i} = \mu_{i}A_{i} B i = μ i A i ,因为 A i A_{i} A i 和 B i B_{i} B i 是Hermite矩阵,可以利用谱定理(4.1.5)导出 A i = U i D i U i ∗ A_{i} = U_{i}D_{i}U_{i}^{*} A i = U i D i U i ∗ ,其中 U i U_{i} U i , D i ∈ M n i D_{i}\in M_{n_{i}} D i ∈ M n i U i U_{i} U i 是酉矩阵,而 D i D_{i} D i 是实对角矩阵,则 B i = μ i A i = U i ( μ i D i ) U i ∗ B_{i} = \mu_{i}A_{i} = U_{i}(\mu_{i}D_{i})U_{i}^{*} B i = μ i A i = U i ( μ i D i ) U i ∗ 也可对角化.如果令
U = [ U 1 0 U 2 0 ⋱ U k ] , D = [ D 1 0 D 2 0 ⋱ D k ] , U = \left[ \begin{array}{c c c c} U _ {1} & & & 0 \\ & U _ {2} & & \\ 0 & & \ddots & \\ & & & U _ {k} \end{array} \right], D = \left[ \begin{array}{c c c c} D _ {1} & & & 0 \\ & D _ {2} & & \\ 0 & & \ddots & \\ & & & D _ {k} \end{array} \right], U = U 1 0 U 2 ⋱ 0 U k , D = D 1 0 D 2 ⋱ 0 D k , 且当 n r = 1 n_r = 1 n r = 1 时 U r = [ 1 ] U_r = [1] U r = [ 1 ] ,则 U U U 是酉矩阵, D D D 是实对角矩阵,且
R ′ B R = U ( D Λ ) U ′ , R ′ A R = U D U ′ . R ^ {\prime} B R = U (D \Lambda) U ^ {\prime}, R ^ {\prime} A R = U D U ^ {\prime}. R ′ BR = U ( D Λ ) U ′ , R ′ A R = U D U ′ . 最后,欲求的表示式是
A = [ ( R − 1 ) ∗ U ] D [ ( R − 1 ) ∗ U ] ∗ 和 B = [ ( R − 1 ) ∗ U ] ( D A ) [ ( R − 1 ) ∗ U ] ∗ . A = \left[ \left(R ^ {- 1}\right) ^ {*} U \right] D \left[ \left(R ^ {- 1}\right) ^ {*} U \right] ^ {*} \text {和} B = \left[ \left(R ^ {- 1}\right) ^ {*} U \right] (D A) \left[ \left(R ^ {- 1}\right) ^ {*} U \right] ^ {*}. A = [ ( R − 1 ) ∗ U ] D [ ( R − 1 ) ∗ U ] ∗ 和 B = [ ( R − 1 ) ∗ U ] ( D A ) [ ( R − 1 ) ∗ U ] ∗ . 注意,如果假定I(a)(1)成立,证法是相同的,只是我们还知道 R R R 是酉矩阵.在这种情形, ( R − 1 ) ∗ U = R U (R^{-1})^{*}U = RU ( R − 1 ) ∗ U = R U 是酉矩阵且I(a)(1)的充分性得证.
余下的四种情形中所要作的证明是类似的。利用相应的假设得到相合矩阵,它们是分块对角矩阵,然后利用关于Hermite矩阵的谱定理或关于对称矩阵的Takagi分解(4.4.4)便完成了到对角形式的化简。
考虑情形Ⅱ,其中, A A A 和 B B B 是对称矩阵,且 A A A 是非奇异矩阵。假定 I ( b ) ( l ) \mathbf{I}(\mathbf{b})(\mathbf{l}) I ( b ) ( l ) 成立,即存在非奇异矩阵 R − [ r 1 r 2 … r n ] ∈ M n R - [r_1r_2\dots r_n]\in M_n R − [ r 1 r 2 … r n ] ∈ M n ,每个 r i ∈ C n r_i\in \mathbb{C}^n r i ∈ C n ,以及(不一定是实的)对角矩阵 Λ = d i a g ( λ 1 , \Lambda = \mathrm{diag}(\lambda_1, Λ = diag ( λ 1 , λ 2 , … , λ n ) \lambda_{2},\dots ,\lambda_{n}) λ 2 , … , λ n ) ,使得 R − 1 A − 1 B R = A R^{-1}A^{-1}BR = A R − 1 A − 1 BR = A ,因而 B R = A R Λ BR = AR\Lambda BR = A R Λ 且 R T B R = R T A R Λ R^{T}BR = R^{T}AR\Lambda R T BR = R T A R Λ 。又假定相重的 λ i \lambda_{i} λ i 项是排放在一起的,因而 Λ \pmb{\Lambda} Λ 有形式(4.5.16),且所有 μ i \mu_{i} μ i 互不相同。如果不是所有 λ i \lambda_{i} λ i 都相等,选取适合 1 ⩽ i 1\leqslant i 1 ⩽ i , j ⩽ n j\leqslant n j ⩽ n 的任意 i i i , j j j 使 λ i ≠ λ j \lambda_{i}\neq \lambda_{j} λ i = λ j ,并考察恒等式 R T B R = R T A R Λ R^{T}BR = R^{T}AR\Lambda R T BR = R T A R Λ 两边的 i , j i,j i , j 元。这就是
r i T A r j λ j = r i T B r j = r j T B r i = r j T A r i λ i = r i T A r j λ j r _ {i} ^ {T} A r _ {j} \lambda_ {j} = r _ {i} ^ {T} B r _ {j} = r _ {j} ^ {T} B r _ {i} = r _ {j} ^ {T} A r _ {i} \lambda_ {i} = r _ {i} ^ {T} A r _ {j} \lambda_ {j} r i T A r j λ j = r i T B r j = r j T B r i = r j T A r i λ i = r i T A r j λ j 这里,用到了 A A A 和 B B B 的对称性(对所有 x , y ∈ C n x, y \in \mathbb{C}^n x , y ∈ C n , x T A y = y T A x x^T Ay = y^T Ax x T A y = y T A x )。因 λ i ≠ λ j \lambda_i \neq \lambda_j λ i = λ j ,推出 r i T A r j = 0 r_i^T Ar_j = 0 r i T A r j = 0 ,因而 r j T A r i = r i T B r j − r j T B r i = 0 r_j^T A r_i = r_i^T Br_j - r_j^T Br_i = 0 r j T A r i = r i T B r j − r j T B r i = 0 。这表明矩阵 R T B R R^T BR R T BR 和 R T A R R^T AR R T A R 都是分块对角矩阵且与(4.5.16)有相同的形式;即
R T B R = [ B 1 0 B 2 0 ⋱ B k ] = R T A R Λ = [ μ 1 A 1 0 μ 2 A 2 0 ⋱ μ k A k ] , \begin{array}{l} R ^ {T} B R = \left[ \begin{array}{c c c c} B _ {1} & & & 0 \\ & B _ {2} & & \\ 0 & & \ddots & \\ & & & B _ {k} \end{array} \right] = R ^ {T} A R \Lambda \\ = \left[ \begin{array}{c c c c} \mu_ {1} A _ {1} & & & 0 \\ & \mu_ {2} A _ {2} & & \\ 0 & & \ddots & \\ & & & \mu_ {k} A _ {k} \end{array} \right], \\ \end{array} R T BR = B 1 0 B 2 ⋱ 0 B k = R T A R Λ = μ 1 A 1 0 μ 2 A 2 ⋱ 0 μ k A k , 其中 B i , A i ∈ M n i B_{i}, A_{i} \in M_{n_{i}} B i , A i ∈ M n i ,如果 k = n k = n k = n ,这就是所要求的化简。如果 k < n k < n k < n ,则某个子块有 n i > 1 n_{i} > 1 n i > 1 且 B i = μ i A i B_{i} = \mu_{i}A_{i} B i = μ i A i 。因为 A i A_{i} A i 和 B i B_{i} B i 都是对称矩阵。可以利用 Takagi 分解 (4.4.4) 导出 A i = U i Σ i U i T A_{i} = U_{i}\Sigma_{i}U_{i}^{T} A i = U i Σ i U i T ,其中, U i , Σ i ∈ M n i , U i U_{i}, \Sigma_{i} \in M_{n_{i}}, U_{i} U i , Σ i ∈ M n i , U i 是酉矩阵,而 Σ i \Sigma_{i} Σ i 是具有非负对角元的对角矩阵。于是 B i = μ i A i = U i ( μ i Σ i ) B_{i} = \mu_{i}A_{i} = U_{i}(\mu_{i}\Sigma_{i}) B i = μ i A i = U i ( μ i Σ i ) , U i T U_{i}^{T} U i T 。如果令
230
U = [ U 1 0 U 2 0 ⋱ U k ] , Σ = [ Σ 1 0 Σ 2 0 ⋱ Σ k ] , U = \left[ \begin{array}{c c c c} U _ {1} & & & 0 \\ & U _ {2} & & \\ 0 & & \ddots & \\ & & & U _ {k} \end{array} \right], \quad \Sigma = \left[ \begin{array}{c c c c} \Sigma_ {1} & & & 0 \\ & \Sigma_ {2} & & \\ 0 & & \ddots & \\ & & & \Sigma_ {k} \end{array} \right], U = U 1 0 U 2 ⋱ 0 U k , Σ = Σ 1 0 Σ 2 ⋱ 0 Σ k , 且当 n r = 1 n_r = 1 n r = 1 时 U r = [ 1 ] U_r = [1] U r = [ 1 ] ,则 U U U 是酉矩阵, Σ \Sigma Σ 是(具有非负对角元的)对角矩阵,且
R ⊺ B R = U ( Σ Λ ) U ⊺ 和 R ⊺ A R = U Σ U ⊺ . R ^ {\intercal} B R = U (\Sigma \Lambda) U ^ {\intercal} \text {和} R ^ {\intercal} A R = U \Sigma U ^ {\intercal}. R ⊺ BR = U ( ΣΛ ) U ⊺ 和 R ⊺ A R = U Σ U ⊺ . 最后,欲求的表示式是
A = [ ( R − 1 ) T U ] Σ [ ( R − 1 ) T U ] T 和 B = [ ( R − 1 ) T U ] Σ A [ ( R − 1 ) T U ] T . A = \left[ (R ^ {- 1}) ^ {T} U \right] \Sigma \left[ (R ^ {- 1}) ^ {T} U \right] ^ {T} \text {和} B = \left[ (R ^ {- 1}) ^ {T} U \right] \Sigma A \left[ (R ^ {- 1}) ^ {T} U \right] ^ {T}. A = [ ( R − 1 ) T U ] Σ [ ( R − 1 ) T U ] T 和 B = [ ( R − 1 ) T U ] Σ A [ ( R − 1 ) T U ] T . 如果假定 I ( a ) ( 1 ) \mathbb{I}(\mathbf{a})(1) I ( a ) ( 1 ) 成立,则 R R R 是酉矩阵且 ( R − 1 ) T U = R U (R^{-1})^T U = R U ( R − 1 ) T U = R U 是酉矩阵,因此 I ( a ) ( 1 ) \mathbb{I}(\mathbf{a})(1) I ( a ) ( 1 ) 的充分性也得到了证明.
在情形Ⅲ,证明需作一点修改。设 A A A , B ∈ M n B \in M_n B ∈ M n ,且 A A A 是非奇异的Hermite矩阵, B B B 是对称矩阵。假定Ⅲ(b)(1)成立,即存在非奇异矩阵 R = [ r 1 r 2 ⋯ r n ] ∈ M n R = [r_1 r_2 \cdots r_n] \in M_n R = [ r 1 r 2 ⋯ r n ] ∈ M n 和对角矩阵 Λ = d i a g ( λ 1 , λ 2 , ⋯ , λ n ) \Lambda = \mathrm{diag}(\lambda_1, \lambda_2, \cdots, \lambda_n) Λ = diag ( λ 1 , λ 2 , ⋯ , λ n ) 使得 R − 1 A − 1 B R = Λ R^{-1} A^{-1} B R = \Lambda R − 1 A − 1 BR = Λ ,因而 B R = A R Λ B R = A R \Lambda BR = A R Λ 且 R ∗ B R = R ˉ T B R ˉ = R ∗ A R Λ R^* B R = \bar{R}^T B \bar{R} = R^* A R \Lambda R ∗ BR = R ˉ T B R ˉ = R ∗ A R Λ 。现在假定模相同的 λ 1 \lambda_1 λ 1 项排放在一起使 Λ \Lambda Λ 有形式
Λ = [ Λ 1 0 Λ 2 0 ⋱ Λ k ] , \Lambda = \left[ \begin{array}{c c c c} \Lambda_ {1} & & & 0 \\ & \Lambda_ {2} & & \\ 0 & & \ddots & \\ & & & \Lambda_ {k} \end{array} \right], Λ = Λ 1 0 Λ 2 ⋱ 0 Λ k , 其 中 , Λ i = [ μ i ( 1 ) 0 μ i ( 2 ) 0 ⋱ μ i ( n i ) ] , i = 1 , … , k , \text {其 中}, \Lambda_ {i} = \left[ \begin{array}{c c c c} {\mu_ {i} ^ {(1)}} & & & {0} \\ & {\mu_ {i} ^ {(2)}} & & \\ {0} & & {\ddots} & \\ & & & {\mu_ {i} ^ {(n _ {i})}} \end{array} \right], \quad i = 1, \dots , k, 其 中 , Λ i = μ i ( 1 ) 0 μ i ( 2 ) ⋱ 0 μ i ( n i ) , i = 1 , … , k , 并且对 j , k = 1 , 2 , … , n j, k = 1, 2, \dots, n j , k = 1 , 2 , … , n 有 ∣ μ i ( j ) ∣ = ∣ μ i ( k ) ∣ |\mu_i^{(j)}| = |\mu_i^{(k)}| ∣ μ i ( j ) ∣ = ∣ μ i ( k ) ∣ ,而如果 i ≠ j i \neq j i = j ,则 ∣ μ i ( p ) ∣ ≠ ∣ μ j ( q ) ∣ |\mu_i^{(p)}| \neq |\mu_j^{(q)}| ∣ μ i ( p ) ∣ = ∣ μ j ( q ) ∣ 。如果不是所有 λ i \lambda_i λ i 项有相同的模,则选取适合 1 ≤ i , j ≤ n 1 \leq i, j \leq n 1 ≤ i , j ≤ n 和 ∣ λ i ∣ ≠ ∣ λ j ∣ |\lambda_i| \neq |\lambda_j| ∣ λ i ∣ = ∣ λ j ∣ 的任意 i , j i, j i , j ,然后考察恒等式 R T B B ‾ = R ∗ A R A R^T B \overline{B} = R^* A R A R T B B = R ∗ A R A 两边的 i , j i, j i , j 。这就是
r 1 ∗ A r 1 λ 1 = r ˉ 1 T B r ˉ 1 − : r ˉ 1 2 B r ˉ 1 = r 1 ∗ A r 1 λ 1 = r ˉ 1 ∗ A ‾ r ˉ 1 , r _ {1} ^ {*} A r _ {1} \lambda_ {1} = \bar {r} _ {1} ^ {T} B \bar {r} _ {1} -: \bar {r} _ {1} ^ {2} B \bar {r} _ {1} = r _ {1} ^ {*} A r _ {1} \lambda_ {1} = \bar {r} _ {1} ^ {*} \overline {{A}} \bar {r} _ {1}, r 1 ∗ A r 1 λ 1 = r ˉ 1 T B r ˉ 1 − : r ˉ 1 2 B r ˉ 1 = r 1 ∗ A r 1 λ 1 = r ˉ 1 ∗ A r ˉ 1 , 这里,用到了 A A A 是Hermite矩阵及 B B B 是对称矩阵的事实。于是 ∣ r i ∗ A r j ∣ ∣ λ i ∣ = ∣ r i ∗ A r j ∣ ∣ λ i ∣ \left|r_{i}^{*} A r_{j}\right| \left|\lambda_{i}\right| = \left|r_{i}^{*} A r_{j}\right| \left|\lambda_{i}\right| ∣ r i ∗ A r j ∣ ∣ λ i ∣ = ∣ r i ∗ A r j ∣ ∣ λ i ∣ ,又因为 ∣ λ i ∣ ≠ ∣ λ j ∣ \left|\lambda_{i}\right| \neq \left|\lambda_{j}\right| ∣ λ i ∣ = ∣ λ j ∣ ,由此推出 r i ∗ A r j = 0 r_{i}^{*} A r_{j} = 0 r i ∗ A r j = 0 ,因而 r j ∗ A r i = r i T ‾ B r j ‾ = r ˙ j T B r i = 0 r_{j}^{*} A r_{i} = \overline{r_{i}^{T}} B \overline{r_{j}} = \dot{r}_{j}^{T} B r_{i} = 0 r j ∗ A r i = r i T B r j = r ˙ j T B r i = 0 。这表明矩阵 R ˉ T B R ˉ \bar{R}^{T} B \bar{R} R ˉ T B R ˉ 和 R ∗ A R R^{*} A R R ∗ A R 都是分块对角矩阵且与(4.5.16)有相同的形式,即
R ˉ T B R ˉ = [ B 1 0 B 2 0 ⋱ B k ] = R ∗ A R Λ , \bar {R} ^ {T} B \bar {R} = \left[ \begin{array}{c c c c} B _ {1} & & & 0 \\ & B _ {2} & & \\ 0 & & \ddots & \\ & & & B _ {k} \end{array} \right] = R ^ {*} A R \Lambda , R ˉ T B R ˉ = B 1 0 B 2 ⋱ 0 B k = R ∗ A R Λ , [ A 1 Λ 1 0 Λ 2 Λ 2 0 ⋱ A k Λ k ] , \left[ \begin{array}{c c c c} A _ {1} \Lambda_ {1} & & & 0 \\ & \Lambda_ {2} \Lambda_ {2} & & \\ 0 & & \ddots & \\ & & & A _ {k} \Lambda_ {k} \end{array} \right], A 1 Λ 1 0 Λ 2 Λ 2 ⋱ 0 A k Λ k , 其中,所有 B t , A t , Λ t ∈ M n B_{t}, A_{t}, \Lambda_{t} \in M_{n} B t , A t , Λ t ∈ M n ,且 Λ t = σ t D t 2 , σ t ⩾ 0 \Lambda_{t} = \sigma_{t}D_{t}^{2}, \sigma_{t} \geqslant 0 Λ t = σ t D t 2 , σ t ⩾ 0
D j − diag ( e θ 1 , e i θ 2 , … , e i θ n ) , D _ {j} - \operatorname {d i a g} \left(e ^ {\theta_ {1}}, e ^ {i \theta_ {2}}, \dots , e ^ {i \theta_ {n}}\right), D j − diag ( e θ 1 , e i θ 2 , … , e i θ n ) , 所有 θ i j ∈ R \theta_{ij} \in \mathbb{R} θ ij ∈ R 。如果 k = n k = n k = n ,这就是所要求的化简。如果 k < n k < n k < n ,那么某个子块有 n i > 1 n_i > 1 n i > 1 ( B i = A i A i = σ i A i D i 2 B_i = A_i A_i = \sigma_i A_i D_i^2 B i = A i A i = σ i A i D i 2 ,因为 D i D_i D i 是两对角矩阵,所以 D i ′ = D ˉ i = D ˉ i T = D i D_i^{\prime} = \bar{D}_i = \bar{D}_i^T = D_i D i ′ = D ˉ i = D ˉ i T = D i ),因而
D ˉ t T B t D ˉ t = σ t D t ∗ A t D t . (4.5.17) \bar {D} _ {t} ^ {T} B _ {t} \bar {D} _ {t} = \sigma_ {t} D _ {t} ^ {*} A _ {t} D _ {t}. \tag {4.5.17} D ˉ t T B t D ˉ t = σ t D t ∗ A t D t . ( 4.5.17 ) 这个恒等式左边是对称矩阵 D ˉ i T B i D i \bar{D}_i^T B_i D_i D ˉ i T B i D i ,而右边是Hermite矩阵 σ i D i ∗ A i D i \sigma_i D_i^* A_i D_i σ i D i ∗ A i D i ,且所有 σ i \sigma_i σ i 是实数。如果 σ i ≠ 0 \sigma_i \neq 0 σ i = 0 ,推出 D i ∗ A i D i D_i^* A_i D_i D i ∗ A i D i 是Hermite矩阵,又是对称矩阵。而一个Hermite矩阵只有在它是实矩阵时才能是对称矩阵。因而,如果 σ i ≠ 0 \sigma_i \neq 0 σ i = 0 , D i ∗ A i D i D_i^* A_i D_i D i ∗ A i D i 就是实对称矩阵。如果 σ i = 0 \sigma_i = 0 σ i = 0 (至多对 i i i 的一个值可能出现这种情形),则 D i ∗ A i D i D_i^* A_i D_i D i ∗ A i D i 是Hermite矩阵,但不一定是实矩阵。根据谱定理,对每个 i − 1 , ⋯ , k i - 1, \cdots, k i − 1 , ⋯ , k 存在酉矩阵 U i ∈ M n i U_i \in M_{n_i} U i ∈ M n i 以及实对角矩阵 M i M_i M i ,使得 D i ∗ A i D i = U i M i U i ∗ D_i^* A_i D_i = U_i M_i U_i^* D i ∗ A i D i = U i M i U i ∗ ,如果 σ i ≠ 0 \sigma_i \neq 0 σ i = 0 ,则 U i U_i U i 可以选为实正交矩阵,这时 U i T = U i ∗ U_i^T = U_i^* U i T = U i ∗ 。
D ˉ i 1 B i D ˉ i = σ i D i ′ A i D i = U i ( σ i M i ) U i T . \bar {D} _ {i} ^ {1} B _ {i} \bar {D} _ {i} = \sigma_ {i} D _ {i} ^ {\prime} A _ {i} D _ {i} = U _ {i} (\sigma_ {i} M _ {i}) U _ {i} ^ {T}. D ˉ i 1 B i D ˉ i = σ i D i ′ A i D i = U i ( σ i M i ) U i T . 如果 σ i = 0 \sigma_{i} = 0 σ i = 0 ,则 U i + − U i T U_{i}^{+} - U_{i}^{T} U i + − U i T 可能不成立,但是,因为两边都是零,所给出的等式仍然正确.因此,对所有 i − 1 , 2 , … , k i - 1,2,\dots ,k i − 1 , 2 , … , k ,有
A t − ( D t U t ) M t ( D t U t ) ∗ 和 B t = ( D t U t ) ( σ t M t ) ( D t U t ) 7 . A _ {t} - (D _ {t} U _ {t}) M _ {t} (D _ {t} U _ {t}) ^ {*} \text {和} B _ {t} = (D _ {t} U _ {t}) (\sigma_ {t} M _ {t}) (D _ {t} U _ {t}) ^ {7}. A t − ( D t U t ) M t ( D t U t ) ∗ 和 B t = ( D t U t ) ( σ t M t ) ( D t U t ) 7 . 如果令
U = [ D 1 U 1 0 D 2 U 2 0 ⋱ D k U k ] , U = \left[ \begin{array}{c c c c} D _ {1} U _ {1} & & & 0 \\ & D _ {2} U _ {2} & & \\ 0 & & \ddots & \\ & & & D _ {k} U _ {k} \end{array} \right], U = D 1 U 1 0 D 2 U 2 ⋱ 0 D k U k , M = [ M 1 0 M 2 0 ⋱ M k ] , Σ = [ σ 1 I 0 σ 2 I 0 ⋱ σ k I ] . M = \left[ \begin{array}{c c c c} M _ {1} & & & 0 \\ & M _ {2} & & \\ 0 & & \ddots & \\ & & & M _ {k} \end{array} \right], \quad \Sigma = \left[ \begin{array}{c c c c} \sigma_ {1} I & & & 0 \\ & \sigma_ {2} I & & \\ 0 & & \ddots & \\ & & & \sigma_ {k} I \end{array} \right]. M = M 1 0 M 2 ⋱ 0 M k , Σ = σ 1 I 0 σ 2 I ⋱ 0 σ k I . 则 B = [ ( R ˉ − 1 ) T U ] Σ M [ U T R ˉ − 1 ] B = \left[(\bar{R}^{-1})^{T}U\right]\Sigma M\left[U^{T}\bar{R}^{-1}\right] B = [ ( R ˉ − 1 ) T U ] Σ M [ U T R ˉ − 1 ] 且 A = [ ( R − 1 ) ∗ U ] M [ U ∗ R ] A = \left[(R^{-1})^{*}U\right]M\left[U^{*}R\right] A = [ ( R − 1 ) ∗ U ] M [ U ∗ R ] ,这正是所要证明的。如果假定Ⅲ(a)(1)成立,则 R R R 是酉矩阵,因而 ( R − 1 ) ∗ U = R U (R^{-1})^{*}U = RU ( R − 1 ) ∗ U = R U 和 ( R ˉ − 1 ) T U = R U (\bar{R}^{-1})^{T}U = RU ( R ˉ − 1 ) T U = R U 是酉矩阵,因此Ⅲ(a)(1)的充分性得证。
当 A A A 是非奇异矩阵时,这就完成了Ⅲ的证明。如果 B B B 是非奇异矩阵,Ⅲ(b)(1)的假定说明,存在非奇异矩阵 R ∈ M n R \in M_{n} R ∈ M n 使得 R − 1 B − 1 A R ˉ = A R^{-1} B^{-1} A \bar{R} = A R − 1 B − 1 A R ˉ = A 是对角矩阵,因而 A R = B R A A R = B R A A R = BR A 且 R ˉ ⋅ A R ˉ = R ′ B R A \bar{R} \cdot A \bar{R} = R^{\prime} B R A R ˉ ⋅ A R ˉ = R ′ BR A 。此后的证明形式上与 A A A 是非奇异矩阵的情形相同。在证明中仅仅交换 A A A 和 B B B 的地
位,且用 Takagi 分解(4.4.4)对角化 D i T B i D D_{i}^{T}B_{i}D D i T B i D ,而不是用谱定理
在定理(4.5.15)(表1.5.15T)的情形I和Ⅱ,有一个关于 A − 1 B A^{-1}B A − 1 B 的熟知的条件,它等价于 A A A 和 B B B 可通过相应的相合同时对角化,这就是 A − 1 B A^{-1}B A − 1 B 可对角化(或许其特征值都是实的),即 A − 1 B A^{-1}B A − 1 B 具有形式 R A R − 1 \mathsf{RAR}^{-1} RAR − 1 ,其中 Λ \pmb{\Lambda} Λ 是对角矩阵(或许 Λ \pmb{\Lambda} Λ 是实矩阵)。原则上,这个条件可以通过验证 A − 1 B A^{-1}B A − 1 B 的极小多项式是否有不同的线性(或许是实的)因式来检验。但是在情形Ⅲ,所述条件是不多见的,即 A − 1 B A^{-1}B A − 1 B 只有形式 R A R − 1 \mathsf{RAR}^{-1} RAR − 1 ,其中 Λ \pmb{\Lambda} Λ 是对角矩阵。这个条件说明 A − 1 B A^{-1}B A − 1 B 可通过合相似而不是通常的相似对角化。关于合相似性的讨论见(1.6)节。定理(4.6.11)证明,条件(4.5.15Ⅲ(b)(1))等价于条件: C C \mathbb{C}\mathbb{C} CC 的特征值均为非负实数, C C ˉ \mathbb{C}\bar{\mathbb{C}} C C ˉ 可对角化,且 rank C = rank C C ˉ \operatorname{rank} C = \operatorname{rank} \mathbb{C}\bar{\mathbb{C}} rank C = rank C C ˉ 。
在定理(4.5.15)中作非奇异性假定是方便的,但是在酉相合的情形I(a),II(a)和Ⅲ(a)中,这个假定可以取消,在情形I(a),这种计算方法给出了关于可交换的Hermite矩阵可同时酉对角化的经典结果(4.4.6)的又一个证明。
4.5.18 推论 设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n . (a) 如果 A A A 和 B B B 都是Hermite 矩阵,则存在两矩阵 U ∈ M n U \in M_{n} U ∈ M n 使得 U A U ∗ U A U^{*} U A U ∗ 和 U B U ∗ U B U^{*} U B U ∗ 都是对角矩阵,当且仅当 A B AB A B 是Hermite 矩阵:即 A B = B A AB = BA A B = B A . (b)如果 A A A 和 B B B 都是对称矩阵,则存在酉矩阵 U ∈ M n U \in M_{n} U ∈ M n 使得 U A U T U A U^{T} U A U T 和 U B U T U B U^{T} U B U T 都是对角矩阵,当且仅当 A B ‾ A\overline{B} A B 是正规矩阵:即 A B ‾ B A = B A ‾ A B ‾ A\overline{B}BA = B\overline{A}A\overline{B} A B B A = B A A B . (c)如果 A A A 是Hermite矩阵,而 B B B 是对称矩阵,则存在酉矩阵 U ∈ M n U \in M_{n} U ∈ M n ,使得 U A U ∗ UAU^{*} U A U ∗ 和 U B U r UBU^{r} U B U r 都是对角矩阵,当且仅当 A B AB A B 是对称矩阵;即 A B = B A AB = BA A B = B A .
证明:(a)如果 U A U ∗ − A U A U^{*} - A U A U ∗ − A 和 U B U ∗ = M U B U^{*} = M U B U ∗ = M 都是对角矩阵,则 A = U ∗ A U , B = U ∗ M U , A = U^{*} A U, B = U^{*} M U, A = U ∗ A U , B = U ∗ M U , 因而 A B = U ∗ A U U ∗ M U − U ∗ A M U − U ∗ M A U = U ∗ M U U ∗ A U = B A . AB = U^{*} A U U^{*} M U - U^{*} A M U - U^{*} M A U = U^{*} M U U^{*} A U = B A. A B = U ∗ A U U ∗ M U − U ∗ A M U − U ∗ M A U = U ∗ M U U ∗ A U = B A . 反过来,如果 A B = B A AB = BA A B = B A 则对某个 ε > 0 \varepsilon > 0 ε > 0 , A ε = A + ε I A_{\varepsilon} = A + \varepsilon I A ε = A + ε I 是非奇异Hermite矩阵,且 A ε B = ( A + ε I ) B = A B + ε B = B A + ε B = B ( A + ε I ) = B A ε A_{\varepsilon} B = (A + \varepsilon I) B = AB + \varepsilon B = BA + \varepsilon B = B(A + \varepsilon I) = BA_{\varepsilon} A ε B = ( A + ε I ) B = A B + εB = B A + εB = B ( A + ε I ) = B A ε 。因此, B B B 与 A ε A_{\varepsilon} A ε 和 A ε A_{\varepsilon} A ε 可交换,因而 A ε B A_{\varepsilon} B A ε B 是Hermite矩阵根据(4.5.15)(表4.5.15T)的I(a)(3),存在酉矩阵 U ε U_{\varepsilon} U ε ,使得 U ε A ε U ε ∗ − U ε A U ε ∗ + ε I = A ε U_{\varepsilon} A_{\varepsilon} U_{\varepsilon}^{*} - U_{\varepsilon} A U_{\varepsilon}^{*} + \varepsilon I = A_{\varepsilon} U ε A ε U ε ∗ − U ε A U ε ∗ + ε I = A ε 和 U ε B U ε ∗ − M ε U_{\varepsilon} B U_{\varepsilon}^{*} - M_{\varepsilon} U ε B U ε ∗ − M ε 都是对角矩阵,因而 U ε A U ε ∗ − A ε − ε I U_{\varepsilon} A U_{\varepsilon}^{*} - A_{\varepsilon} - \varepsilon I U ε A U ε ∗ − A ε − ε I 和 U ε B U ε ∗ = M ε U_{\varepsilon} B U_{\varepsilon}^{*} = M_{\varepsilon} U ε B U ε ∗ = M ε 都是对角矩阵。
(b)如果 U A U ′ = Λ U A U^{\prime} = \Lambda U A U ′ = Λ 和 U B U ′ = M UBU^{\prime} = M U B U ′ = M 都是对角矩阵,则 A = U ∗ Λ U ‾ A = U^{*}\Lambda \overline{U} A = U ∗ Λ U , B = U ∗ M U ‾ B = U^{*}M\overline{U} B = U ∗ M U ,且 A B = AB = A B = U ∗ A U ˉ U ′ M ‾ U = U ′ ( Λ M ‾ ) U U^{*}A\bar{U} U^{\prime}\overline{M} U = U^{\prime}(\Lambda \overline{M})U U ∗ A U ˉ U ′ M U = U ′ ( Λ M ) U 可西对角化,因而是正规矩阵.关于逆命题,假定 A B \pmb{AB} A B 是正规矩阵且 A A A 是非奇异矩阵,则 A B = ( A − 1 ) − 1 B ‾ AB = (A^{-1})^{-1}\overline{B} A B = ( A − 1 ) − 1 B 是正规矩阵,而(1.5.15)的Ⅱ(a)(3)说明,两个对角矩阵 A − 1 A^{-1} A − 1 和 B B B 是同时可西对角化的.因此,存在酉矩阵 U ∈ M n U\in M_{n} U ∈ M n 和对角矩阵 A \pmb{A} A , M ∈ M n M\in M_{n} M ∈ M n ,使得 A − 1 = U A U ′ A^{-1} = UAU^{\prime} A − 1 = U A U ′ 和 B ⃗ = U M U ′ \vec{B} = UMU^{\prime} B = U M U ′ .于是 A = U ‾ Λ − 1 U ′ A = \overline{U}\Lambda^{-1}U^{\prime} A = U Λ − 1 U ′ 和 B = U M U ′ ‾ B = \overline{UMU^{\prime}} B = U M U ′ ,这正是所要求的 A A A 和 B B B 同时对角化形式.如果 A A A 是奇异矩阵,则根据(4.4.4),存在西矩阵 U ∈ M n U\in M_{n} U ∈ M n ,使得UAU是对角矩阵,如果必要,还可以交换 U U U 的诸列使得
U A U r = [ Σ 0 − 0 0 ] . Σ ∈ M k , 1 ⩽ k < n . U A U ^ {r} = \left[ \begin{array}{l l} \Sigma & 0 \\ - 0 & 0 \end{array} \right]. \quad \Sigma \in M _ {k}, \quad 1 \leqslant k < n. U A U r = [ Σ − 0 0 0 ] . Σ ∈ M k , 1 ⩽ k < n . 且 Σ \Sigma Σ 是非奇异对称矩阵(实际上是对角矩阵)。如果把 U B U ⊺ UBU^{\intercal} U B U ⊺ 写成相应的分块形式
U B U T = [ B 12 B 12 B 12 T B 22 ] , B 11 ∈ M k , B 22 ∈ M n − k , U B U ^ {T} = \left[ \begin{array}{l l} B _ {1 2} & B _ {1 2} \\ B _ {1 2} ^ {T} & B _ {2 2} \end{array} \right], \quad B _ {1 1} \in M _ {k}, \quad B _ {2 2} \in M _ {n - k}, U B U T = [ B 12 B 12 T B 12 B 22 ] , B 11 ∈ M k , B 22 ∈ M n − k , 则子块 B 11 B_{11} B 11 和 B 22 B_{22} B 22 是对称矩阵,且有
( U A U T ) ( U ˉ B ˉ U ˉ l ) = U A B U l = [ Σ 0 0 0 ] [ B 11 B 12 B 12 B ˉ 22 ] = [ Σ B 11 Σ B 12 0 0 ] . (U A U ^ {T}) (\bar {U} \bar {B} \bar {U} ^ {l}) = U A B U ^ {l} = \left[ \begin{array}{l l} \Sigma & 0 \\ 0 & 0 \end{array} \right] \left[ \begin{array}{l l} B _ {1 1} & B _ {1 2} \\ B _ {1 2} & \bar {B} _ {2 2} \end{array} \right] = \left[ \begin{array}{l l} \Sigma B _ {1 1} & \Sigma B _ {1 2} \\ 0 & 0 \end{array} \right]. ( U A U T ) ( U ˉ B ˉ U ˉ l ) = U A B U l = [ Σ 0 0 0 ] [ B 11 B 12 B 12 B ˉ 22 ] = [ Σ B 11 0 Σ B 12 0 ] . 但是 U A B ‾ U ∗ U A \overline{B} U^{*} U A B U ∗ 还是正规矩阵,因而 Σ B ‾ 12 = 0 \Sigma \overline{B}_{12} = 0 Σ B 12 = 0 (见本节末习题20),又因为 Σ \Sigma Σ 是非奇异矩阵,所以 B 12 = 0 B_{12} = 0 B 12 = 0 。这说明
U A U 7 = [ Σ 0 0 0 ] , U B U 7 = [ B 11 0 0 B 22 ] , U A U ^ {7} = \left[ \begin{array}{l l} \Sigma & 0 \\ 0 & 0 \end{array} \right], \quad U B U ^ {7} = \left[ \begin{array}{l l} B _ {1 1} & 0 \\ 0 & B _ {2 2} \end{array} \right], U A U 7 = [ Σ 0 0 0 ] , U B U 7 = [ B 11 0 0 B 22 ] , 14
( U A U T ) ( U B U T ‾ ) = [ Σ B 11 0 0 0 ] . (U A U ^ {T}) (\overline {{U B U ^ {T}}}) = \left[ \begin{array}{c c} \Sigma B _ {1 1} & 0 \\ 0 & 0 \end{array} \right]. ( U A U T ) ( U B U T ) = [ Σ B 11 0 0 0 ] . 根据上述关于非奇异情形的证明,得知,存在酉矩阵 V 1 ∈ M k V_{1} \in M_{k} V 1 ∈ M k 和对角矩阵 Λ 1 , Λ 2 ∈ M k \Lambda_{1}, \Lambda_{2} \in M_{k} Λ 1 , Λ 2 ∈ M k ,使得 Σ = V 1 Λ 1 V 1 T \Sigma = V_{1} \Lambda_{1} V_{1}^{T} Σ = V 1 Λ 1 V 1 T 和 B 11 = V 1 Λ 2 V 1 T B_{11} = V_{1} \Lambda_{2} V_{1}^{T} B 11 = V 1 Λ 2 V 1 T 。因为 B 22 B_{22} B 22 是对称矩阵,我们还知道,存在酉矩阵 V 2 ∈ M n V_{2} \in M_{n} V 2 ∈ M n 和对角矩阵 Λ 3 ∈ M n \Lambda_{3} \in M_{n} Λ 3 ∈ M n ,使得 B 22 = V 2 Λ 3 V T B_{22} = V_{2} \Lambda_{3} V^{T} B 22 = V 2 Λ 3 V T 。如果设 Λ = Λ 1 ⊕ 0 ∈ M n \Lambda = \Lambda_{1} \oplus 0 \in M_{n} Λ = Λ 1 ⊕ 0 ∈ M n , M = Λ 2 ⊕ Λ 3 M = \Lambda_{2} \oplus \Lambda_{3} M = Λ 2 ⊕ Λ 3 ,且 V = V 1 ⊕ V 2 V = V_{1} \oplus V_{2} V = V 1 ⊕ V 2 ,则有 U A U T = V A V T U A U^{T} = V A V^{T} U A U T = V A V T , U B U T = V M V T U B U^{T} = V M V^{T} U B U T = V M V T 。因此, A = ( U ∗ V ) A ( U ∗ V ) T A = (U^{*} V) A (U^{*} V)^{T} A = ( U ∗ V ) A ( U ∗ V ) T 和 B = ( U ∗ V ) M ( U ∗ V ) T B = (U^{*} V) M (U^{*} V)^{T} B = ( U ∗ V ) M ( U ∗ V ) T 是所有要求的同时对角化形式。
(c) 如果 U A U ∗ = Λ UAU^* = \Lambda U A U ∗ = Λ 和 U B U T = M UBU^T = M U B U T = M 都是对角矩阵,则 Λ \Lambda Λ 一定是实矩阵。有 A = U ∗ Λ U A = U^*\Lambda U A = U ∗ Λ U , B = U ∗ M U B = U^*MU B = U ∗ M U 以及
A B = U ∗ Λ U U ∗ M U − U ∗ Λ M U − U ∗ M A U ˉ = U ∗ M U U t Λ U ˉ = ( U ∗ M U ˉ ) ( U ∗ ‾ A U ‾ ) = B A ˉ . \begin{array}{l} A B = U ^ {*} \Lambda U U ^ {*} M U - U ^ {*} \Lambda M U - U ^ {*} M A \bar {U} \\ = U ^ {*} M U U ^ {t} \Lambda \bar {U} = (U ^ {*} M \bar {U}) (\overline {{U ^ {*}}} \overline {{A U}}) = B \bar {A}. \\ \end{array} A B = U ∗ Λ U U ∗ M U − U ∗ Λ M U − U ∗ M A U ˉ = U ∗ M U U t Λ U ˉ = ( U ∗ M U ˉ ) ( U ∗ A U ) = B A ˉ . 反之,如果 A B = B A ‾ AB = B\overline{A} A B = B A ,则对某个 ε > 0 \varepsilon > 0 ε > 0 , A ε = A + ε I A_{\varepsilon} = A + \varepsilon I A ε = A + ε I 是非奇异的Hermite矩阵,且 A ε B = A B + ε B = B A ‾ + ε B = B A ε A_{\varepsilon}B = AB + \varepsilon B = B\overline{A} + \varepsilon B = BA_{\varepsilon} A ε B = A B + εB = B A + εB = B A ε 。因此,(4.5.15)的条件Ⅲ(a)(1)被满足,且存在酉矩阵 U ε ∈ M n U_{\varepsilon} \in M_{n} U ε ∈ M n 使得 U ε A ε U ε ∗ = U ε A U ε ∗ + ε I = Λ ε U_{\varepsilon}A_{\varepsilon}U_{\varepsilon}^{*} = U_{\varepsilon}A U_{\varepsilon}^{*} + \varepsilon I = \Lambda_{\varepsilon} U ε A ε U ε ∗ = U ε A U ε ∗ + ε I = Λ ε 和 U ε B U ε T = M ε U_{\varepsilon}B U_{\varepsilon}^{T} = M_{\varepsilon} U ε B U ε T = M ε 都是对角矩阵,因而 U ε A U ε ∗ = A ε − ε I U_{\varepsilon}A U_{\varepsilon}^{*} = A_{\varepsilon} - \varepsilon I U ε A U ε ∗ = A ε − ε I 和 U ε B U ε T − M ε U_{\varepsilon}B U_{\varepsilon}^{T} - M_{\varepsilon} U ε B U ε T − M ε 都是对角矩阵。
两个奇异Hermite矩阵经(不一定是酉的)相合同时对角化的问题在习题8中讨论.
我们已经看到,在相合下,一个Hermite矩阵总可以取非常简单的形式(在对角线上有±1或0的对角矩阵),并且,在一定的条件下,一对Hermite矩阵经'相合可以同时变成对角矩阵。于是,自然要提出的问题是:一般的Hermite矩阵偶 A A A , B ∈ M n B\in M_{n} B ∈ M n 在同时'相合下可以变成什么样的标准形?即经 C C C 一次相合,矩阵偶
C ∙ A C 和 C ∙ B C C ^ {\bullet} A C \text {和} C ^ {\bullet} B C C ∙ A C 和 C ∙ BC 可以取什么样的标准形?虽然这个问题是针对(可能都是奇异的)一般Hermite矩阵偶来讨论的,但是不论是提出还是证明其一般结果都是相当复杂的。这里,对其中至少有一个矩阵是非奇异的Hermite矩阵偶,不加证明地叙述标准形偶定理。我们已经讨论了可经相合同时对角化的特殊情形。
4.5.19 定理 假定 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是Hermite矩阵,且 A A A 是非奇异矩阵,则存在正整数 k k k 和非奇异矩阵 C ∈ M n C \in M_{n} C ∈ M n ,使得
C ⋅ A C = [ A 1 0 A 2 0 ⋱ A k ] , C ⋅ B C = [ B 1 0 B 2 0 ⋱ B k ] , C ^ {\cdot} A C = \left[ \begin{array}{c c c c} A _ {1} & & & 0 \\ & A _ {2} & & \\ 0 & & \ddots & \\ & & & A _ {k} \end{array} \right], \quad C ^ {\cdot} B C = \left[ \begin{array}{c c c c} B _ {1} & & & 0 \\ & B _ {2} & & \\ 0 & & \ddots & \\ & & & B _ {k} \end{array} \right], C ⋅ A C = A 1 0 A 2 ⋱ 0 A k , C ⋅ BC = B 1 0 B 2 ⋱ 0 B k , 其中,每对 A i , B i ∈ M n , i = 1 , 2 , … , k A_{i}, B_{i} \in M_{n}, i = 1, 2, \dots, k A i , B i ∈ M n , i = 1 , 2 , … , k ,是两种可能形式之一:
B i = ϵ [ 0 α ⋱ 1 ⋱ ⋱ a 1 0 ] , A i − ϵ [ 0 1 ⋱ 1 0 ] , (4.5.20) B _ {i} = \epsilon \left[ \begin{array}{c c c c} 0 & & & \alpha \\ & & \ddots & 1 \\ & \ddots & \ddots & \\ a & 1 & & 0 \end{array} \right], A _ {i} - \epsilon \left[ \begin{array}{c c c} 0 & & 1 \\ & \ddots & \\ 1 & & 0 \end{array} \right], \tag {4.5.20} B i = ϵ 0 a ⋱ 1 ⋱ ⋱ α 1 0 , A i − ϵ 0 1 ⋱ 1 0 , ( 4.5.20 ) 且 α \alpha α 是实数,或
B i = [ 0 α 0 ⋱ 1 ⋱ ⋱ α 1 0 … … … … … 0 α ˉ ⋱ 1 0 ⋱ ⋱ α ˉ 1 0 ] , A i = [ 0 1 ⋱ 1 0 ] , (4.5.21) B _ {i} = \left[ \begin{array}{c c c c c c c c} & & & & 0 & & & \alpha \\ & & 0 & & & & \ddots & 1 \\ & & & & & \ddots & \ddots \\ & & & & \alpha & 1 & & 0 \\ \dots & & & \dots & \dots & \dots & \dots & \\ 0 & & & \bar {\alpha} & & & \\ & & \ddots & 1 & & 0 \\ & \ddots & \ddots & \\ \bar {\alpha} & 1 & & 0 & & \end{array} \right], A _ {i} = \left[ \begin{array}{c c c c} 0 & & 1 \\ & \ddots & \\ 1 & & 0 \\ \end{array} \right], \tag {4.5.21} B i = … 0 α ˉ ⋱ 1 0 ⋱ ⋱ … α ˉ 1 0 0 α … ⋱ 1 … 0 ⋱ ⋱ … α 1 0 , A i = 0 1 ⋱ 1 0 , ( 4.5.21 ) 且 α \alpha α 是复数. 在(4.5.20)中 ε \varepsilon ε 是 + 1 +1 + 1 或 − 1 -1 − 1 , 而在(4.5.21)中 n t n_{t} n t 是偶数且两个非零子块都在 M ( 1 , 2 ) n t M_{(1,2)n_{t}} M ( 1 , 2 ) n t 中.
说明:
在 α \alpha α 是实数的情形,可能有 n i = 1 n_i = 1 n i = 1 ,于是两个子块具有形式上 α \alpha α , ± 1 \pm 1 ± 1 。相应于同一个 α \alpha α 值(例如还相应于同一个值 ε = 1 \varepsilon = 1 ε = 1 )的多个 1 × 1 1 \times 1 1 × 1 子块,在 C ∗ B C C^* BC C ∗ BC 中将产生形如 α I \alpha I α I 的子块,而在 C ∗ A C C^* AC C ∗ A C 中则是 I I I 。
在 α \alpha α 是复数的情形,可能 n 1 = 2 n_{1} = 2 n 1 = 2 ,于是两个子块具有形式
B i = [ 0 α α ˉ 0 ] , A i = [ 0 1 1 0 ] . B _ {i} = \left[ \begin{array}{l l} 0 & \alpha \\ \bar {\alpha} & 0 \end{array} \right], \quad A _ {i} = \left[ \begin{array}{l l} 0 & 1 \\ 1 & 0 \end{array} \right]. B i = [ 0 α ˉ α 0 ] , A i = [ 0 1 1 0 ] . 在定理中,同时产生的子块结构恰好对应于 A A A 的 Jordan 标准形。即 A ⋅ B A \cdot B A ⋅ B 的诸基本 Jordan 块恰好是 A i ⋅ B i A_{i} \cdot B_{i} A i ⋅ B i 。注意到 ( C ⋅ A C ) − 1 ( C ⋅ B C ) = C − 1 ( A ⋅ B ) C (C \cdot AC)^{-1}(C \cdot BC) = C^{-1}(A \cdot B)C ( C ⋅ A C ) − 1 ( C ⋅ BC ) = C − 1 ( A ⋅ B ) C ,因而 C C C 也是使 A − 1 B A^{-1}B A − 1 B 取 Jordan 标准形的相似矩阵。于是定理所确认的形式可以从 A − 1 B A^{-1}B A − 1 B 的 Jordan 标准形求得(确定诸惯性因子 ε \varepsilon ε 是不难的)。
4.5.22 注释 就像两个 Hermite 矩阵 A , B A, B A , B 在相合下的标准形偶 (4.5.19) 类似于 A − 1 B A^{-1}B A − 1 B 的 Jordan 标准形一样,关于两个实对称矩阵 A , B A, B A , B ,在实相合下也存在一个标准形偶,它类似于 A − 1 B A^{-1}B A − 1 B 的实 Jordan 标准形。其中,形如 (4.5.21) 的子块 B B B 用形如 (3.4.4) 的类似子块来代
替,而其他可能形式的子块取原来的形式。
习题 设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n , 且假定 B B B 是非奇异矩阵. 证明存在 C ∈ M n C \in M_{n} C ∈ M n 使得 A = B C A = BC A = BC . 此外, 对任一非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n , 有 S A S ∗ = ( S B S ∗ ) C ∗ SAS^{*} = (SBS^{*})C^{*} S A S ∗ = ( SB S ∗ ) C ∗ , 其中 C ∗ C^{*} C ∗ 相似于 C C C .
Sylvester 惯性定律 (4.5.8) 的证明中较难理解的部分是要证明, 若 D 1 D_{1} D 1 和 D 2 D_{2} D 2 是相合的 n × n n \times n n × n 惯性矩阵 (4.5.7), 则它们有相同个数的正对角元. 正文中给出的证明依赖于 Courant-Fischer 定理的推论. 请对下述初等证明作详细的论述. 假定 D 2 = S ∗ D 1 S D_{2} = S^{*} D_{1} S D 2 = S ∗ D 1 S , 并且假定 D 1 D_{1} D 1 恰好有 s s s 个正对角元且至少有一个负对角元. 假定 D 1 D_{1} D 1 的前 s s s 个对角元和 D 2 D_{2} D 2 的前 t t t 个对角元是正的, 其中 1 ⩽ s , t < n 1 \leqslant s, t < n 1 ⩽ s , t < n . 如果 s < t s < t s < t , 证明存在一个非零向量 x = [ x t ] ∈ C n x = [x_{t}] \in \mathbb{C}^{n} x = [ x t ] ∈ C n 使得 x t + 1 = x t + 2 = ⋯ = x n = 0 x_{t + 1} = x_{t + 2} = \cdots = x_{n} = 0 x t + 1 = x t + 2 = ⋯ = x n = 0 及 ( S x ) 1 = ( S x ) 2 = ⋯ = ( S x ) s = 0 (Sx)_{1} = (Sx)_{2} = \cdots = (Sx)_{s} = 0 ( S x ) 1 = ( S x ) 2 = ⋯ = ( S x ) s = 0 . 然后证明 x ∗ D 2 x > 0 x^{*} D_{2} x > 0 x ∗ D 2 x > 0 而 ( S x ) ∗ D 1 ( S x ) < 0 (Sx)^{*} D_{1}(Sx) < 0 ( S x ) ∗ D 1 ( S x ) < 0 从而得出矛盾.
设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 都是 Hermite 矩阵。证明下列四个条件等价:(a) A A A 和 B B B 可经相合同时对角化。(b)对某两个非零实纯量 a , b , a A + b B a, b, aA + bB a , b , a A + b B 与 B B B 可经相合同时对角化。(c) A A A 和 B B B 同时相合于一对可交换的矩阵。(d) A + i B A + iB A + i B 相合于正规矩阵。
试用定理(4.5.15)证明中的证明方法以及交换族定理(1.3.19)和(4.1.6)证明定理(4.5.15)之I(b)的如下推广.设 A 1 , A 2 , ⋯ , A k ∈ M n A_{1}, A_{2}, \cdots, A_{k} \in M_{n} A 1 , A 2 , ⋯ , A k ∈ M n 是给定的Hermite矩阵,其中 A i A_{i} A i 是非奇异的,则存在一个非奇异矩阵 T ∈ M n T \in M_{n} T ∈ M n 使得对所有 i = 1 , 2 , ⋯ , k i = 1, 2, \cdots, k i = 1 , 2 , ⋯ , k , T ∗ A i T T^{*}A_{i}T T ∗ A i T 是对角矩阵,当且仅当(a)对所有 i = 2 , ⋯ , k i = 2, \cdots, k i = 2 , ⋯ , k , A 1 − 1 A i A_{1}^{-1}A_{i} A 1 − 1 A i 相似于实对角矩阵,且(b) { A i − 1 A i : i = 2 , ⋯ , n } \{A_{i}^{-1}A_{i}: i = 2, \cdots, n\} { A i − 1 A i : i = 2 , ⋯ , n } 是一个矩阵交换族.提示:设 C i = A 1 − 1 A i C_{i} = A_{1}^{-1}A_{i} C i = A 1 − 1 A i 且对于所有 i = 2 , ⋯ , k } i = 2, \cdots, k\} i = 2 , ⋯ , k } , S C i S − 1 SC_{i}S^{-1} S C i S − 1 是实对角矩阵.设 B i = ( S ∗ ) − 1 A i S − 1 B_{i} = (S^{*})^{-1}A_{i}S^{-1} B i = ( S ∗ ) − 1 A i S − 1 ,然后证明 { B i } \{B_{i}\} { B i } 一个Hermite矩阵交换族.存在一个酉矩阵 U U U 使得对所有 i = 2 , ⋯ , k i = 2, \cdots, k i = 2 , ⋯ , k , U B i U ∗ UB_{i}U^{*} U B i U ∗ 是对角矩阵,而 T = U S T = US T = U S 是所要求的相合矩阵.相应于(4.5.15)之Ⅱ(b)的推广是什么?
由(4.0.4)给出的具有实对称系数矩阵 A ( x ) = [ a i j ( x ) ] A(x) = [a_{ij}(x)] A ( x ) = [ a ij ( x )] 的微分算子 L L L 在点 x ∈ D ⊂ R n x \in D \subset \mathbb{R}^n x ∈ D ⊂ R n 是椭圆型的,是指其系数矩阵 A ( x ) A(x) A ( x ) 是非奇异的且它的所有特征值有相同的符号。称 L L L 在 x x x 是双曲型的,是指 A ( x ) A(x) A ( x ) 是非奇异矩阵,且它的 n − 1 n - 1 n − 1 个特征值有相同的符号,而一个特征值有相反的符号。试说明,为什么关于一个坐标系一个微分算子在一个点是椭圆型(或双曲型),则关于其他每个坐标系,这个微分算子在那个点也是椭圆型(或双曲型)。Laplace 方程
∇ 2 f = ∂ 2 f ∂ x 2 + ∂ 2 f ∂ y 2 + ∂ 2 f ∂ z 2 = 0 \nabla^ {2} f = \frac {\partial^ {2} f}{\partial x ^ {2}} + \frac {\partial^ {2} f}{\partial y ^ {2}} + \frac {\partial^ {2} f}{\partial z ^ {2}} = 0 ∇ 2 f = ∂ x 2 ∂ 2 f + ∂ y 2 ∂ 2 f + ∂ z 2 ∂ 2 f = 0 给出了椭圆微分算子的一个例子,而波动方程
□ 2 f = − ∂ 2 f ∂ x 2 + ∂ 2 f ∂ y 2 − ∂ 2 f ∂ t 2 = 0 \square^ {2} f = - \frac {\partial^ {2} f}{\partial x ^ {2}} + \frac {\partial^ {2} f}{\partial y ^ {2}} - \frac {\partial^ {2} f}{\partial t ^ {2}} = 0 □ 2 f = − ∂ x 2 ∂ 2 f + ∂ y 2 ∂ 2 f − ∂ t 2 ∂ 2 f = 0 是双曲型算子的一个例子。这两个方程都是在笛卡儿坐标系中给出的。在球极坐标,柱面坐标或其他坐标系下,这两个方程的差别就很大。
设 X = [ X 1 , ⋯ , X n ] T X = [X_{1}, \cdots, X_{n}]^{T} X = [ X 1 , ⋯ , X n ] T 和 Y = [ Y 1 , ⋯ , Y n ] T Y = [Y_{1}, \cdots, Y_{n}]^{T} Y = [ Y 1 , ⋯ , Y n ] T 是由具有有限二阶矩的实随机变量组成的两个向量。事实上(见第7章), X X X 和 Y Y Y 的协方差矩阵都只有非负特征值。假定其中至少一个协方差矩阵是非奇异的,证明存在实非奇异矩阵 S ∈ M n S \in M_{n} S ∈ M n ,使得 S X SX SX 和 S Y SY S Y 的协方差矩阵都是对角矩阵。用统计学术语表述是,可以求得一个非奇异线性变换 S S S 使 S X SX SX 和 S Y SY S Y 的诸分量各不
相关.
利用习题 4 给出三个或多个随机向量满足什么条件就能保证有一个非奇异线性变换使变换后的诸随机向量的各分量是不相关的。
定理(4.5.15)的情形I(b)考虑了两个Hermite矩阵在至少有一个矩阵是非奇异的情形下经相合同时对角化的问题。推论(4.5.18a)考虑了两个矩阵可能都是奇异的情形下用酉相合同时对角化的问题。若两个矩阵都是奇异的,则经(不一定是酉的)相合同时对角化它们的问题最终可化成(4.5.15),但必须考察这两个矩阵的两个零空间之交的正交补的性质。设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是Hermite矩阵,且假定它们都是奇异的。设 N ( A ) N(A) N ( A ) 和 N ( B ) N(B) N ( B ) 分别表示 A A A 和 B B B 的零空间。(a)考察 [ 0 0 0 1 ] \left[ \begin{array}{cc}0 & 0 \\ 0 & 1\end{array} \right] [ 0 0 0 1 ] 和 [ 1 0 0 0 ] \left[ \begin{array}{cc}1 & 0 \\ 0 & 0\end{array} \right] [ 1 0 0 0 ] 可以证明,存在一对奇异Hermite矩阵可经相合同时对角化。(b)假定 N ( A ) ∩ N ( B ) = { 0 } N(A) \cap N(B) = \{0\} N ( A ) ∩ N ( B ) = { 0 } 。证明,若 A A A 和 B B B 可经相合同时对角化,则存在一个实数 a a a 使得 a A + B aA + B a A + B 是非奇异的。提示:若 C ∈ M n C \in M_{n} C ∈ M n 是非奇异的, C ∗ A C = A 1 C^{*}AC = A_{1} C ∗ A C = A 1 ,且 C ∗ B C = A 2 C^{*}BC = A_{2} C ∗ BC = A 2 ,其中 A 1 A_{1} A 1 和 A 2 A_{2} A 2 是对角矩阵,证明 A 1 A_{1} A 1 和 A 2 A_{2} A 2 的零主对角元不会处在相同位置。你能选取 a a a 使得 a A 1 + A 2 aA_{1} + A_{2} a A 1 + A 2 的主对角元都不为零吗?(c)利用(b)证明
A = [ 0 1 0 1 0 0 0 0 0 ] 和 B = [ 0 0 0 0 0 1 0 1 0 ] A = \left[ \begin{array}{l l l} 0 & 1 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 0 \end{array} \right] \quad \text {和} \quad B = \left[ \begin{array}{l l l} 0 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{array} \right] A = 0 1 0 1 0 0 0 0 0 和 B = 0 0 0 0 0 1 0 1 0 不能经“相合同时对角化. (d) 若
N ( A ) ∩ N ( B ) = { 0 } , N (A) \cap N (B) = \{0 \}, N ( A ) ∩ N ( B ) = { 0 } , 又 a ∈ R a \in \mathbb{R} a ∈ R 不为零且 a A + B aA + B a A + B 是非奇异的,利用习题3(b), A A A 和 B B B 可经相合同时对角化当且仅当 ( a A + B ) − 1 B (aA + B)^{-1}B ( a A + B ) − 1 B 可对角化且只有实特征值。(e)若 dim N ( A ) ∩ N ( B ) = k ⩾ 1 \dim N(A) \cap N(B) = k \geqslant 1 dim N ( A ) ∩ N ( B ) = k ⩾ 1 ,设 { u 1 , u 2 , … , u n } \{u_1, u_2, \dots, u_n\} { u 1 , u 2 , … , u n } 是 R n \mathbb{R}^n R n 的一个标准正交基,而其中的 { u 1 , u 2 , … , u k } \{u_1, u_2, \dots, u_k\} { u 1 , u 2 , … , u k } 是 N ( A ) ∩ N ( B ) N(A) \cap N(B) N ( A ) ∩ N ( B ) 的一个标准正交基。若 U = [ u 1 , u 2 , … , u n ] ∈ M n U = [u_1, u_2, \dots, u_n] \in M_n U = [ u 1 , u 2 , … , u n ] ∈ M n ,证明
240
U ⋆ A U = [ 0 0 0 A ′ ] 和 U ⋆ B U = [ 0 0 0 B ′ ] , U ^ {\star} A U = \left[ \begin{array}{l l} {0} & {0} \\ {0} & {A ^ {\prime}} \end{array} \right] \quad \text {和} \quad U ^ {\star} B U = \left[ \begin{array}{l l} {0} & {0} \\ {0} & {B ^ {\prime}} \end{array} \right], U ⋆ A U = [ 0 0 0 A ′ ] 和 U ⋆ B U = [ 0 0 0 B ′ ] , 其中 A ′ , B ′ ∈ M n − k A^{\prime}, B^{\prime} \in M_{n - k} A ′ , B ′ ∈ M n − k , N ( A ′ ) ∩ N ( B ′ ) = { 0 } N(A^{\prime}) \cap N(B^{\prime}) = \{0\} N ( A ′ ) ∩ N ( B ′ ) = { 0 } , 而左上角的零子块是 k × k k \times k k × k 的. 证明, A A A 和 B B B 可经相合同时对角化当且仅当 A ′ A^{\prime} A ′ 和 B ′ B^{\prime} B ′ 可经相合同时对角化. 虽然 A ′ A^{\prime} A ′ 和 B ′ B^{\prime} B ′ 可能都是奇异的, 但它们的零空间之交是平凡的. (f)试收集从(a)到(e)的信息来叙述并证明关于两个Hermite矩阵经相合同时对角化的一般定理.
如果 A , B ∈ M n A, B \in M_{n} A , B ∈ M n , 且 B B B 非奇异, 证明 A A A 与 B B B 可交换, 当且仅当 A A A 与 B B B 可交换.
证明 [ 0 1 1 0 ] \left[ \begin{array}{ll}0 & 1\\ 1 & 0 \end{array} \right] [ 0 1 1 0 ] 和 [ 1 0 0 − 1 ] \left[ \begin{array}{ll}1 & 0\\ 0 & -1 \end{array} \right] [ 1 0 0 − 1 ] 可经酉相合同时化简成对角形式,但不能经相合同时化简成对角形式。试用(4.5.15)情形Ⅱ(b)证明中所采用的构造法实现化简,且顺便求出实施这个化简的酉相合矩阵。
证明 [ 1 1 1 0 ] \left[ \begin{array}{ll}1 & 1\\ 1 & 0 \end{array} \right] [ 1 1 1 0 ] 和 [ 0 1 1 0 ] \left[ \begin{array}{ll}0 & 1\\ 1 & 0 \end{array} \right] [ 0 1 1 0 ] 不能经相合或相合同时化简成对角形式.
设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n , 且 A A A 非奇异. 证明, 下列条件中的每一个, 是 A A A 和 B B B 在定理(4.5.15) (表4.5.15T)所指每种情形的假设下经相应意义下的相合同时对角化的必要充分条件.
设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是对称矩阵(可能都是奇异矩阵),且假定存在酉矩阵 U ∈ M n U \in M_{n} U ∈ M n 使得 U A U ⊤ = A U A U^{\top} = A U A U ⊤ = A 和 U B U ⊤ = M U B U^{\top} = M U B U ⊤ = M 都是对角矩阵,证明存在酉矩阵 V V V 使得 B A ‾ − A V B ‾ B \overline{A} - A V \overline{B} B A − A V B . 提示:如果 A = diag ( λ 1 , λ 2 , … , λ n ) A = \operatorname{diag}(\lambda_{1}, \lambda_{2}, \dots, \lambda_{n}) A = diag ( λ 1 , λ 2 , … , λ n ) ,证明存在酉对角矩阵 D D D 使得 A ‾ − D A = A D \overline{A} - D A = A D A − D A = A D . 然后证明
B A ˙ = U ∗ M A ˉ U − U ∗ A D 1 D 2 M ¨ U = A ( U ⊤ D 1 D 2 U ˉ ) B ˙ , B \dot {A} = U ^ {*} M \bar {A} U - U ^ {*} A D _ {1} D _ {2} \ddot {M} U = A (U ^ {\top} D _ {1} D _ {2} \bar {U}) \dot {B}, B A ˙ = U ∗ M A ˉ U − U ∗ A D 1 D 2 M ¨ U = A ( U ⊤ D 1 D 2 U ˉ ) B ˙ , 其中 D 1 D_{1} D 1 和 D 2 D_{2} D 2 是酉对角矩阵.
利用习题 13 的必要条件证明,习题 8(c) 的两个对称矩阵不能经酉 了 ^{\text{了}} 了 相合同时对角化提示:计算 B A ‾ B\overline{A} B A 和 A U B AUB A U B 的第一列.利用(1.5.18b)证明同样的结论更容易.
如果 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是对称矩阵,证明,只要 A A A 和 B B B 都是非奇异矩阵,习题 13 中经 T {}^T T 相合同时对角化的必要条件也是充分条件。提示:如果 B A ‾ = A U B B\overline{A} = AUB B A = A U B ,且 A A A 和 B B B 是非奇异矩阵,则 A − 1 B A B ‾ − 1 = U A^{-1}BA\overline{B}^{-1} = U A − 1 B A B − 1 = U 且 I = U U − 1 I = UU^{-1} I = U U − 1 ,这便推出 A B ‾ : B : A = B : A A ‾ B ‾ \overline{AB}: B: A = B: A\overline{A}\overline{B} A B : B : A = B : A A B 。两边取逆推出 A − 1 B A^{-1}B A − 1 B 是正规矩阵。
设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 是对称矩阵(可能都是奇异矩阵),并且假定存在一个酉矩阵 U ∈ M n U \in M_{n} U ∈ M n 使得 U A U T = A UAU^{T} = A U A U T = A 和 U B U T = M UBU^{T} = M U B U T = M 都是对角矩阵。证明 A A AA AA 与 B B BB BB 可交换,通过考察习题8(c)中的两个矩阵说明,经酉相合同时对角化的上述必要条件不是充分条件。用推论(4.4.5)证明,这个必要条件是充分条件。只要 A A AA AA 和 B B BB BB 都有 n n n 个不同的特征值。
设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n , Λ \Lambda Λ 是Hermite 矩阵, B B B 是对称矩阵, 又假定存在两矩阵 U ∈ M n U \in M_{n} U ∈ M n 使得 U A U ∗ = Λ UAU^{*} = \Lambda U A U ∗ = Λ 和 U B U r = M UBU^{r} = M U B U r = M 都是对角矩阵. 证明 A A A 与 B B BB BB 可交换. 通过考察习题11中的两个矩阵说明这个可经 ( ∗ (^{*} ( ∗ 和 T ) {}^{T}) T ) 相合同时对角化的必要条件不是充分条件. 试用推论(4.4.5)证明, 只要 B B BB BB 的所有特征值互不相同, 则这个必要条件也是充分条件.
设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 且 A A A 和 B B B 是对称矩阵, A A A 还是非奇异矩阵。证明:如果广义特征多项式 p 1 , B ( t ) ≡ det ( t A − B ) p_{1,B}(t) \equiv \operatorname{det}(tA - B) p 1 , B ( t ) ≡ det ( t A − B ) 有 n n n 个不同的零点,则 A A A 和 B B B 可经相合同时对角化。提示: A − 1 B A^{-1}B A − 1 B 的诸特征值是什么?
对 Sylvester 惯性定律 (4.5.8) 的下述另一个证明作详细的论述。若 A ∈ M n A \in M_n A ∈ M n 是一个非奇异 Hermite 矩阵,且 S ∈ M n S \in M_n S ∈ M n 是非奇异矩阵,设 S − Q R S - QR S − QR 是一个分解,其中 Q ∈ M n Q \in M_n Q ∈ M n 是酉矩阵,而 R ∈ M n R \in M_n R ∈ M n 是一个具有正主对角元的上三角矩阵(见 2.6.1)。证明,若 0 ⩽ t ⩽ 1 0 \leqslant t \leqslant 1 0 ⩽ t ⩽ 1 ,则 S ( t ) = t Q + ( 1 − t ) Q R S(t) = tQ + (1 - t)QR S ( t ) = tQ + ( 1 − t ) QR 是非奇异矩阵。设 A ( t ) = S ( t ) A S ( t ) ∗ A(t) = S(t)AS(t)^* A ( t ) = S ( t ) A S ( t ) ∗ , A ( 0 ) A(0) A ( 0 ) 和 A ( 1 ) A(1) A ( 1 ) 是什么矩阵?因为 A ( t ) A(t) A ( t ) 是非奇异矩阵,且当 t t t 由 0 变到 1 时, A ( t ) A(t) A ( t ) 是连续地变化,证明 A ( 0 ) A(0) A ( 0 ) 与 A ( 1 ) A(1) A ( 1 ) 有相同个数的正(负)特
征值.对较小的 ε > 0 \varepsilon >0 ε > 0 考察 A ± ε I A\pm \varepsilon I A ± ε I ,并论述一般的情形.
如果 A = [ B C 0 0 ] ∈ M n A = \begin{bmatrix} B & C \\ 0 & 0 \end{bmatrix} \in M_n A = [ B 0 C 0 ] ∈ M n ,且 B ∈ M k B \in M_k B ∈ M k , 1 ⩽ k ⩽ n 1 \leqslant k \leqslant n 1 ⩽ k ⩽ n 。证明 A A A 是正规矩阵,当且仅当 B B B 是正规矩阵且 C = 0 C = 0 C = 0 。提示:计算 A A ∗ AA^* A A ∗ 和 A ∗ A A^* A A ∗ A ,如果 C ∗ C = 0 C^* C = 0 C ∗ C = 0 ,则对于所有 x ∈ C n − k x \in \mathbf{C}^{n-k} x ∈ C n − k , ( C x ) ∗ ( C x ) = 0 (Cx)^*(Cx) = 0 ( C x ) ∗ ( C x ) = 0 ,因而对所有 x ∈ C n − k x \in \mathbf{C}^{n-k} x ∈ C n − k , C x = 0 Cx = 0 C x = 0 。
说明(4.5.18)(b)中所采用的证法也可以用来证明(a)和(c)这两部分.
设 F = { A 1 , … , A k } ⊂ M n \mathcal{F} = \{A_1, \dots, A_k\} \subset M_n F = { A 1 , … , A k } ⊂ M n 是给定的复对称矩阵族,又设 G = { A i A ‾ j : i , j = 1 , 2 , … , k } \mathcal{G} = \{A_i \overline{A}_j : i, j = 1, 2, \dots, k\} G = { A i A j : i , j = 1 , 2 , … , k } 。如果存在一个两矩阵 U ∈ M n U \in M_n U ∈ M n 使得对所有的 i = 1 , … , k i = 1, \dots, k i = 1 , … , k , U A i U T UA_i U^T U A i U T 是对角矩阵,证明 G \mathcal{G} G 是一个交换族。当 k = 2 k = 2 k = 2 时这简化成什么结论,且与(4.5.18b)有什么关系?事实上, G \mathcal{G} G 的交换性也足以确保 F \mathcal{F} F 经酉相合可同时对角化;请参看本节末的“进一步阅读”中所引用的 Hong 和 Horn 的文章。
设 F = { A 1 , … , A k } ⊂ M n \mathcal{F} = \{A_1, \dots, A_k\} \subset M_n F = { A 1 , … , A k } ⊂ M n 是给定的复对称矩阵族, H = { B 1 , … , B m } ⊂ M n \mathcal{H} = \{B_1, \dots, B_m\} \subset M_n H = { B 1 , … , B m } ⊂ M n 是给定的Hermite 矩阵族,又设 g = { A i A ‾ i : i = 1 , … , k } g = \{A_i \overline{A}_i : i = 1, \dots, k\} g = { A i A i : i = 1 , … , k } 。如果存在一个酉矩阵 U ∈ M n U \in M_n U ∈ M n 使得每个 U A i U T UA_i U^T U A i U T 和每个 U B i U UB_i U U B i U 是对角矩阵。证明 g g g 和 H \mathcal{H} H 都是交换族,且对于所有 i = 1 , … , k i = 1, \dots, k i = 1 , … , k 和所有 j = 1 , … , m j = 1, \dots, m j = 1 , … , m , B i A i B_i A_i B i A i 是对称矩阵。当 k = m = 1 k = m = 1 k = m = 1 时,这简化成什么结论,且与(4.5.18c)有什么关系?事实上,这些条件也足以确保 F \mathcal{F} F 和 H \mathcal{H} H 分别经相合同时对角化。请参看本节末的“进一步阅读”中所引用的Hong和Horn的文章。
进一步阅读 定理(4.5.9)的Ostrowski的证明以及有关的结果可参看“A Quantitative Formulation of Sylvester's Law of Inertia,” Proc. Nat. Acad. Sci. 45 (1959), 740-744. 定理(4.5.25)的另一种形式在[GLR 82]中给出;包括两个矩阵是奇异矩阵的情形的一个详细证明还在R.C.Thompson未发表的手稿中。有关两个以上矩阵同时对角化的结果可参看Y.P.Hong and R.A.Horn, “On Simultaneous Reduction of Families of Matrices to Triangular or Diagonal Form by Unitary Congruence,” Linear and Multilinear Algebra 17 (1985), 271-288.