2.3 Schur 酉三角化定理 初等矩阵理论最有用的基本事实或许是任一矩阵 A ∈ M n A \in M_{n} A ∈ M n 西等价于一个上三角矩阵 T T T [也西等价于一下三角矩阵]. T T T 的诸对角元自然是 A A A 的特征值. 尽管这种形式不唯一, 但是它是在西等价下所能得到的最简形式.
2.3.1 定理(Schur)已知 A ∈ M n A \in M_{n} A ∈ M n 有特征值 λ 1 , … , λ n \lambda_{1}, \ldots, \lambda_{n} λ 1 , … , λ n ,它们按任意规定的次序排列,那么存在一个酉矩阵 U ∈ M n U \in M_{n} U ∈ M n ,使得
U ∗ A U = T = [ t y ] U ^ {*} A U = T = \left[ t _ {y} \right] U ∗ A U = T = [ t y ] 是具有对角元 t n = λ i t_{n} = \lambda_{i} t n = λ i , i = 1 i = 1 i = 1 ,…, n n n 的上三角矩阵,即每个方阵 A A A 两等价于其对角元依次是 A A A 的特征值的三角矩阵.此外,如果 A ∈ M n ( R ) A\in M_n(\mathbf{R}) A ∈ M n ( R ) ,且 A A A 的所有特征值都是实数,那么,可选择 U U U 为实正交矩阵.
证明:证明本身就是实施一系列相同形式的化简算法并得到化简结果。设 x ( 1 ) x^{(1)} x ( 1 ) 是 A A A 的相应于征特值 λ 1 \lambda_{1} λ 1 的正规化特征向量,非零向量 x ( 1 ) x^{(1)} x ( 1 ) 可以扩充为 C n \mathbf{C}^n C n 的一个基
x ( 1 ) , y ( 2 ) , y ( 3 ) , … , y ( n ) . x ^ {(1)}, y ^ {(2)}, y ^ {(3)}, \dots , y ^ {(n)}. x ( 1 ) , y ( 2 ) , y ( 3 ) , … , y ( n ) . 应用Gram-Schmidt标准正交化过程(0.6.4)于这个基,便得到 C n \mathbf{C}^n C n 的一个标准正交基
x ( 1 ) , z ( 2 ) , … , z ( m ) . x ^ {(1)}, z ^ {(2)}, \dots , z ^ {(m)}. x ( 1 ) , z ( 2 ) , … , z ( m ) . 从左至右把这些标准正交向量排成两矩阵 U 1 U_{1} U 1 的诸列,因为 A U 1 AU_{1} A U 1 的第1列是 λ 1 x ( f ) \lambda_{1}x^{(f)} λ 1 x ( f ) ,计算表明: U 1 ∗ ( A U 1 ) U_{1}^{*}(AU_{1}) U 1 ∗ ( A U 1 ) 有形式
U i ∗ A U i = [ λ 1 ∗ … … 0 A 1 ] U _ {i} ^ {*} A U _ {i} = \left[ \begin{array}{l l} \lambda_ {1} & * \\ \dots & \dots \\ 0 & A _ {1} \end{array} \right] U i ∗ A U i = λ 1 … 0 ∗ … A 1 矩阵 λ 1 ∈ M n − 1 \lambda_{1} \in M_{n-1} λ 1 ∈ M n − 1 有特征值 λ 2 , … , λ n \lambda_{2}, \ldots, \lambda_{n} λ 2 , … , λ n . 设 x ( n ) ∈ C n − 1 x^{(n)} \in \mathbb{C}^{n-1} x ( n ) ∈ C n − 1 是 A 1 A_{1} A 1 的相应于 λ 2 \lambda_{2} λ 2 的正规化特征向量,然后完全重复上述步骤,确定一个酉矩阵 U 2 ∈ M n − 1 U_{2} \in M_{n-1} U 2 ∈ M n − 1 ,使得
U 2 ∗ A 1 U 2 = [ λ 2 ∗ 0 A 2 ] , U _ {2} ^ {*} A _ {1} U _ {2} = \left[ \begin{array}{c c c} \lambda_ {2} & * \\ 0 & A _ {2} \end{array} \right], U 2 ∗ A 1 U 2 = [ λ 2 0 ∗ A 2 ] , 并设
V 2 = [ 1 0 0 U 2 ] . V _ {2} = \left[ \begin{array}{l l} 1 & 0 \\ 0 & U _ {2} \end{array} \right]. V 2 = [ 1 0 0 U 2 ] . 于是,矩阵 V 2 V_{2} V 2 和 U 1 V 2 U_{1}V_{2} U 1 V 2 是酉矩阵,因而 V 2 ∗ U 1 ∗ A U 1 V 2 V_{2}^{*}U_{1}^{*}AU_{1}V_{2} V 2 ∗ U 1 ∗ A U 1 V 2 有形式
V 2 ∗ U 1 ∗ A U 1 V 2 = = [ λ 1 ∗ 0 λ 2 ∗ 0 … 0 A 2 ] . V _ {2} ^ {*} U _ {1} ^ {*} A U _ {1} V _ {2} = = \left[ \begin{array}{c c c} \lambda_ {1} & * & \\ 0 & \lambda_ {2} & * \\ 0 & \dots & \\ 0 & A _ {2} \end{array} \right]. V 2 ∗ U 1 ∗ A U 1 V 2 == λ 1 0 0 0 ∗ λ 2 … A 2 ∗ . 79
继续作这种化简便到酉矩阵 U i ∈ M n − 1 + 1 U_{i} \in M_{n-1+1} U i ∈ M n − 1 + 1 , i = 1 , ⋯ , n − 1 i=1, \cdots, n-1 i = 1 , ⋯ , n − 1 和酉矩阵 V i ∈ M n V_{i} \in M_{n} V i ∈ M n , i = 2 , ⋯ , n − 1 i=2, \cdots, n-1 i = 2 , ⋯ , n − 1 。矩阵
U = U 1 V 2 V 3 … V n − 1 U = U _ {1} V _ {2} V _ {3} \dots V _ {n - 1} U = U 1 V 2 V 3 … V n − 1 是酉矩阵,而 U ′ A U U^{\prime}AU U ′ A U 给出了所要求的形式
如果 A ∈ M n ( R ) A \in M_{n}(\mathbf{R}) A ∈ M n ( R ) 的所有特征值恰好是实数,那么,相应的特征向量可以选实向量,且上述所有步骤可以用实的算术运算来完成,这就是证明了后一个论断。
附注 仿照(2.3.1)的证明便可看出,在定理的叙述中,可用“下三角”代替“上三角”,
当然它对应于一个不同的酉等价 U U U
[80] 2.3.2 例 不论是酉矩阵 U U U ,还是定理(2.3.1)中的三角矩阵 T T T ,都不是唯一的。不仅 T T T 的对角元( A A A 的特征值)可以依任何顺序出现,而且酉等价的上三角矩阵在其对角线上方可以呈现完全不同的形式。例如,
T 1 = [ 1 1 4 0 2 2 0 0 3 ] 和 T 2 = [ 2 − 1 3 2 0 1 2 0 0 3 ] T _ {1} = \left[ \begin{array}{l l l} 1 & 1 & 4 \\ 0 & 2 & 2 \\ 0 & 0 & 3 \end{array} \right] \text {和} T _ {2} = \left[ \begin{array}{l l l} 2 & - 1 & 3 \sqrt {2} \\ 0 & 1 & \sqrt {2} \\ 0 & 0 & 3 \end{array} \right] T 1 = 1 0 0 1 2 0 4 2 3 和 T 2 = 2 0 0 − 1 1 0 3 2 2 3 是经
U = 1 2 [ 1 0 1 0 0 2 ] U = \frac {1}{\sqrt {2}} \left[ \begin{array}{c c c} 1 & & 0 \\ 1 & & 0 \\ 0 & & \sqrt {2} \end{array} \right] U = 2 1 1 1 0 0 0 2 的酉等价。一般说来,许多不同的上一角矩阵可以在同一个酉等价类之中。
附注 应指出的是,证明(2.3.1)的技巧不过是如1.4节中习题8所概述的顺序压缩技巧。
练习 如果 A = { a i j } A = \{a_{ij}\} A = { a ij } 和 B = { b i j } ∈ M 2 B = \{b_{ij}\} \in M_2 B = { b ij } ∈ M 2 相似,且 ∑ i , j ∣ a i j ∣ 2 = ∑ i , j ∣ b i j ∣ 2 \sum_{i,j}|a_{ij}|^2 = \sum_{i,j}|b_{ij}|^2 ∑ i , j ∣ a ij ∣ 2 = ∑ i , j ∣ b ij ∣ 2 ,证明 A A A 和 B B B 酉等价.用例子说明这在高维情形不成立.提示:注意到,如果 A A A 和 B B B 酉等价,那么 A − A ∗ A - A^{*} A − A ∗ 和 B + B ∗ B + B^{*} B + B ∗ 也酉等价.考虑
A = [ 1 3 0 0 2 4 0 0 3 ] 和 B = [ 1 0 0 − 0 2 5 0 0 3 ] . A = \left[ \begin{array}{l l l} 1 & 3 & 0 \\ 0 & 2 & 4 \\ 0 & 0 & 3 \end{array} \right] \text {和} B = \left[ \begin{array}{l l l} 1 & 0 & 0 ^ {-} \\ 0 & 2 & 5 \\ 0 & 0 & 3 \end{array} \right]. A = 1 0 0 3 2 0 0 4 3 和 B = 1 0 0 0 2 0 0 − 5 3 . (2.3.1)的有用推论是,矩阵交换族可以同时上三角化
2.3.3 定理 设 F ⊆ M n \mathcal{F} \subseteq M_n F ⊆ M n 是交换族,那么存在一个酉矩阵 U ∈ M U \in M U ∈ M ,使得对每个 A ∈ F A \in \mathcal{F} A ∈ F , U ∗ A U U^* A U U ∗ A U 是上三角的。
证明:同到(2.3.1)的证明,在原证明的每一步运用(1.3.17),在每一步都可选定一个特征向量(和酉矩阵),且对每个 Λ ∈ F \Lambda \in \mathcal{F} Λ ∈ F 都可以选定这同一个特征向量(和酉矩阵)。又西等价保持交换性,且分块矩阵乘法计算表明,如果形如
[ A 11 A 12 0 A 22 ] 和 [ B 11 B 12 0 B 22 ] \left[ \begin{array}{c c} {A _ {1 1}} & {A _ {1 2}} \\ {0} & {A _ {2 2}} \end{array} \right] \text {和} \left[ \begin{array}{c c} {B _ {1 1}} & {B _ {1 2}} \\ {0} & {B _ {2 2}} \end{array} \right] [ A 11 0 A 12 A 22 ] 和 [ B 11 0 B 12 B 22 ] 81
两个矩阵可交换,那么 A 22 A_{22} A 22 和 B 22 B_{22} B 22 也可交换。因此,在证明(2.3.1)的化简过程中的每一步,每个 A i A_{i} A i 都继承了交换族性质。我们得出,对交换族的所有成员,可用相同的方式选择(2.3.1)的 U U U 中的所有组成部分,这就证明了(2.3.3)。值得指出的是,这里并没有断言,对各个族的成员的特征值,可以选取任一特定的次序。它取定的只是应用(1.3.17)时所得到的那个次序。□
下面的定理包括了(2.3.1)的严格的实形式,
2.3.4 定理 如果 A ∈ M n ( R ) A \in M_{n}(\mathbf{R}) A ∈ M n ( R ) ,那么有实正交矩阵 Q ∈ M n ( R ) Q \in M_{n}(\mathbf{R}) Q ∈ M n ( R ) ,使得
Q I A Q = [ A 1 ∗ A 2 ⋱ 0 A k ] ∈ M n ( R ) , 1 ⩽ k ⩽ n , (2.3.5) Q ^ {I} A Q = \left[ \begin{array}{c c c c} A _ {1} & & & * \\ & A _ {2} & & \\ & & \ddots & \\ 0 & & & A _ {k} \end{array} \right] \in M _ {n} (\mathbf {R}), \quad 1 \leqslant k \leqslant n, \tag {2.3.5} Q I A Q = A 1 0 A 2 ⋱ ∗ A k ∈ M n ( R ) , 1 ⩽ k ⩽ n , ( 2.3.5 ) 其中每个 A i A_{i} A i 或是 1 × 1 1 \times 1 1 × 1 实矩阵或是具有一对非实的复共轭特征值的 2 × 2 2 \times 2 2 × 2 实矩阵。对角子块 A i A_{i} A i 可以按任意的次序排列。
一般说来,不能指望通过一个实相似(更不用说实正交相似了)把一个实矩阵化成上三角形式,因为可能的话,对角元将是特征值,而特征值可以不是实数。形式(2.3.5)是通过实正交相似所能得到的与三角形式最接近的形式。如果 A A A 有任何非实特征值,形式(2.3.5)就不会是上三角矩阵,但它总是呈上Hessenberg形状。
练习 试修改(2.3.1)的论证以证明(2.3.4),提示:如果 λ \lambda λ 是实矩阵 A A A 的实特征值,那么有一个相应的实特征向量,可以用它来压缩 A A A ,使呈(2.3.1)中的形状。如果 λ = α + i β \lambda = \alpha + i\beta λ = α + i β 是 A A A 的非实特征值,且 A x − λ x , x = u + i v ≠ 0 , u , v ∈ R n Ax - \lambda x, x = u + iv \neq 0, u, v \in \mathbb{R}^n A x − λ x , x = u + i v = 0 , u , v ∈ R n ,证明 A u − α u − β v , A v = α v + β u Au - \alpha u - \beta v, Av = \alpha v + \beta u A u − αu − β v , A v = αv + β u 和 A x = λ x Ax = \lambda x A x = λ x ,再证明 { x , x ‾ } \{x, \overline{x}\} { x , x } 是无关组。证明 { u , v } \{u, v\} { u , v } 是无关组,然后对它应用Gram-Schmidt过程得到实的标准正交组 { ω , z } \{\omega, z\} { ω , z } 。设 Q 1 Q_1 Q 1 是前两列为 w w w 和 z z z 的实正交矩阵,证明
Q 1 T A Q 1 = [ ∗ ∗ ⋮ ∗ ∗ ∗ … … … … A ~ ] , Q _ {1} ^ {T} A Q _ {1} = \left[ \begin{array}{c c c c} * & * & \vdots & \\ * & * & & * \\ \dots \dots \dots \dots & & \tilde {A} \end{array} \right], Q 1 T A Q 1 = ∗ ∗ ………… ∗ ∗ ⋮ A ~ ∗ , 这时,一次可使 A A A 压缩两列。应该指出,在(2.3.5)中,相应于每个实特征值和每对复共轭特征值的子块 A i A_{i} A i 可以按任意规定的顺序排列。
(2.3.3)也有一个在实的情形下的变形,
2.3.6 定理 设 F ⊆ M n ( R ) \mathcal{F} \subseteq M_n(\mathbf{R}) F ⊆ M n ( R ) 是交换族, 则存在实正交矩阵 Q ∈ M n ( R ) Q \in M_n(\mathbf{R}) Q ∈ M n ( R ) , 使得对每个 Λ ∈ F \Lambda \in \mathcal{F} Λ ∈ F , Q T A Q Q^T A Q Q T A Q 为(2.3.5)的形式.
练习 试修改(2.3.3)的论证以证明(2.3.6). 提示: 首先, 用所有实的公共特征向量压缩 ν \pmb{\nu} ν 的所有成员. 然后考察非实公共特征向量, 且如(2.3.4)的证明所做的那样一次压缩两列. 要注意的是, 经一个公共的实正交相似之后, F \mathcal{F} F 的不同成员可以有不同的 2 × 2 2 \times 2 2 × 2 对角子块, 但是, 如果一个成员在某个位置有一个 2 × 2 2 \times 2 2 × 2 子块, 而另一个成员却没有, 那么后者必须在相应位置有一对相同的 1 × 1 1 \times 1 1 × 1 子块.
习题
设 x ∈ C n x \in \mathbf{C}^{n} x ∈ C n 是给定的单位向量 ( x ∗ x = 1 ) (x^{*}x = 1) ( x ∗ x = 1 ) ,且记 x − [ x 1 , y 1 ] 2 x - [x_{1}, y^{1}]^{2} x − [ x 1 , y 1 ] 2 ,其中 x 1 ∈ C x_{1} \in \mathbf{C} x 1 ∈ C ,而 y ∈ C n − 1 y \in \mathbf{C}^{n-1} y ∈ C n − 1 .
83
选取 θ ∈ R \theta \in \mathbb{R} θ ∈ R 使 e i θ x 1 ⩾ 0 e^{i\theta}x_{1} \geqslant 0 e i θ x 1 ⩾ 0 ,然后定义 z = e i θ x = [ z 1 , ζ T ] z = e^{i\theta}x = [z_1, \zeta^T] z = e i θ x = [ z 1 , ζ T ] ,其中 z 1 ∈ R z_{1} \in \mathbb{R} z 1 ∈ R 是非负实数,而 ζ ∈ C n − 1 \zeta \in \mathbf{C}^{n-1} ζ ∈ C n − 1 。证明矩阵
V = [ z 1 ζ ∗ ζ − I + 1 1 + z 1 ζ ∗ ] V = \left[ \begin{array}{c c} z _ {1} & \zeta^ {*} \\ \hline \zeta & - I + \frac {1}{1 + z _ {1}} \zeta^ {*} \end{array} \right] V = [ z 1 ζ ζ ∗ − I + 1 + z 1 1 ζ ∗ ] 是酉矩阵。提示:计算 V ∗ V = V 2 V^{*}V = V^{2} V ∗ V = V 2 。得出矩阵 U = e − i θ V = [ x u 2 … u n ] U = e^{-i\theta}V = [xu_{2}\dots u_{n}] U = e − i θ V = [ x u 2 … u n ] 是其第一列为已知向量 x \pmb{x} x 的酉矩阵。这为Schur定理(2.3.1)的证明中的逐个压缩步骤,提供了一个求所需酉矩阵的构造性方法。
如果 x ∈ R n x \in \mathbb{R}^n x ∈ R n 是给定的单位向量,说明如何改进习题1中所描述的构造法,以便得到第一列是 x x x 的实正交矩阵 Q ∈ M n ( R ) Q \in M_{n}(\mathbb{R}) Q ∈ M n ( R ) 。证明你的构造方法是可行的。
设 A ∈ M n ( R ) A \in M_{n}(\mathbf{R}) A ∈ M n ( R ) . 解释 A A A 的非实特征值(如果有的话)必须成共轭对出现
考虑族
F = { [ 0 − 1 0 − 1 ] , [ 1 1 0 − 1 ] } , \mathcal {F} = \left\{\left[ \begin{array}{l l} 0 & - 1 \\ 0 & - 1 \end{array} \right], \left[ \begin{array}{l l} 1 & 1 \\ 0 & - 1 \end{array} \right] \right\}, F = { [ 0 0 − 1 − 1 ] , [ 1 0 1 − 1 ] } , 试说明定理(2.3.3)中的交换性假设虽然是 F \mathcal{F} F 可同时酉上三角化的充分条件,但它不是必要条件。
设 F = { A 1 , … , A k } ⊂ M n \mathcal{F} = \{A_1, \dots, A_k\} \subset M_n F = { A 1 , … , A k } ⊂ M n 是给定的族,且设
G = { A i A j : i , j = 1 , 2 , … , k } \mathcal {G} = \left\{A _ {i} A _ {j}: i, j = 1, 2, \dots , k \right\} G = { A i A j : i , j = 1 , 2 , … , k } 是 F \mathcal{F} F 中矩阵的所有两两乘积组成的族。事实上,如果 G \mathcal{G} G 是交换族,那么, F \mathcal{F} F 可以同时酉上三角化的充分必要条件是每个换位子 A i A j − A j A i A_{i}A_{j} - A_{j}A_{i} A i A j − A j A i 的每个特征值都是零。证明关于 G \mathcal{G} G 的交换性假设是比 F \mathcal{F} F 的交换性假设要弱的假设。同时证明,习题4中的族 F \mathcal{F} F 有一个相应的交换族 G \mathcal{G} G ,它还满足零特征值条件。
设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n 已知,且假设 A A A 和 B B B 同时相似于上三角矩阵;即对某个非奇异矩阵 S ∈ M n , S − 1 A S S \in M_{n}, S^{-1}AS S ∈ M n , S − 1 A S 和 S − 1 B S S^{-1}BS S − 1 BS 都是上三角矩阵。证明 A B − B A AB - BA A B − B A 的每个特征值必定是零。提示:如果 Δ 1 , Δ 2 ∈ M n \Delta_{1}, \Delta_{2} \in M_{n} Δ 1 , Δ 2 ∈ M n 都是上三角矩阵 Δ 1 Δ 2 − Δ 2 Δ 1 \Delta_{1}\Delta_{2} - \Delta_{2}\Delta_{1} Δ 1 Δ 2 − Δ 2 Δ 1 的主对角线是什么?
虽然每个方阵可经酉相似化成上三角形式,但这对复正交相似不成立。如果某个 A ∈ M n A \in M_n A ∈ M n 可以写成 A = Q Δ Q T A = Q\Delta Q^T A = Q Δ Q T ,其中, Q ∈ M n Q \in M_n Q ∈ M n 是复正交矩阵,而 Δ ∈ M n \Delta \in M_n Δ ∈ M n 是上三角矩阵,证明 A A A 至少有一个特征向量 x ∈ C n x \in \mathbb{C}^n x ∈ C n 使 x T x ≠ 0 x^T x \neq 0 x T x = 0 。考察 A = [ 1 i i − 1 ] A = \begin{bmatrix} 1 & i \\ i & -1 \end{bmatrix} A = [ 1 i i − 1 ] ,试说明不是每个 A ∈ M n A \in M_n A ∈ M n 可以经一个复正交相似上三角化。
设 Q ∈ M n Q \in M_{n} Q ∈ M n 是给定的复正交矩阵,且假定 x ∈ C n x \in \mathbb{C}^{n} x ∈ C n 是 Q Q Q 的相应于特征值 λ ≠ ± 1 \lambda \neq \pm 1 λ = ± 1 的特征向量。证明 x T x = 0 x^T x = 0 x T x = 0 。提示:在恒等式 Q x = λ x Qx = \lambda x Q x = λ x 的两边各乘以自己的转置。关于两个特征值都不同于 ± 1 \pm 1 ± 1 的 2 × 2 2 \times 2 2 × 2 复正交矩阵族的例子,可参看(2.1)节的习题8(a)。证明,这些矩阵中没有任何矩阵可经正交相似化为上三角矩阵。
进一步阅读 关于习题5所确立的定理(2.3.3)的较强形式,其证明可参看Y.P.Hong and R.A.Horn, “On Simultaneous Reduction of Families of Matrices to Triangular or Diagonal Form by Unitary Congruences,” Linear and Multilinear Algebra 17(1985), 271-288.