1.5 几类特殊矩阵 1.5.1 对称正定矩阵 定义1.16 设 A ∈ C n × n A \in \mathbb{C}^{n \times n} A ∈ C n × n
若对所有向量 x ∈ C n x \in \mathbb{C}^n x ∈ C n 有 Re ( x ∗ A x ) ≥ 0 \operatorname{Re}(x^{*}Ax) \geq 0 Re ( x ∗ A x ) ≥ 0 , 则称 A A A 是半正定的;
若对所有非零向量 x ∈ C n x \in \mathbb{C}^n x ∈ C n 有 Re ( x ∗ A x ) > 0 \operatorname{Re}(x^*Ax) > 0 Re ( x ∗ A x ) > 0 , 则称 A A A 是正定的;
若 A A A 是Hermite的且半正定, 则称 A A A 为Hermite半正定;
若 A A A 是Hermite的且正定, 则称 A A A 为Hermite正定;
若 A ∈ R n × n A \in \mathbb{R}^{n \times n} A ∈ R n × n 是对称的且半正定, 则称 A A A 为对称半正定;
若 A ∈ R n × n A \in \mathbb{R}^{n \times n} A ∈ R n × n 是对称的且正定, 则称 A A A 为对称正定.
若对所有向量 x ∈ C n x\in \mathbb{C}^n x ∈ C n 有 x ∗ A x ∈ R x^{*}Ax\in \mathbb{R} x ∗ A x ∈ R ,则 A ∗ = A A^{*} = A A ∗ = A A 本讲义中, 正定和半正定矩阵不要求是对称或Hermite.
若 − A -A − A 是半正定的, 则称 A A A 是半负定的; 若 − A -A − A 是正定的, 则称 A A A 是负定的.
定理1.50 设 A ∈ C n × n A \in \mathbb{C}^{n \times n} A ∈ C n × n , 则 A A A 正定 (或半正定) 的充要条件是矩阵 H = 1 2 ( A + A ∗ ) H = \frac{1}{2}(A + A^*) H = 2 1 ( A + A ∗ ) 正定 (或半正定). (留作练习)
如果 A A A 是实矩阵, 则只需在实数域中考虑即可.
定理1.51 设 A ∈ R n × n A \in \mathbb{R}^{n \times n} A ∈ R n × n , 则 A A A 正定 (或半正定) 的充要条件是对任意非零向量 x ∈ R n x \in \mathbb{R}^n x ∈ R n 有 x ⊤ A x > 0 x^\top A x > 0 x ⊤ A x > 0 (或 x ⊤ A x ≥ 0 x^\top A x \geq 0 x ⊤ A x ≥ 0 ). (留作练习)
对称正定矩阵的基本性质 设 A ∈ C n × n A\in \mathbb{C}^{n\times n} A ∈ C n × n
(1) A A A Hermite 正定当且仅当 A A A Hermite 且所有特征值都是正的; (2) A A A Hermite 正定当且仅当存在酉矩阵 U U U 使得 A = U Λ U ∗ A = U\Lambda U^{*} A = U Λ U ∗ , 其中 Λ \Lambda Λ 为对角矩阵且对角线均为正实数; (3) A Hermite 正定当且仅当 S ∗ A S S^{*}AS S ∗ A S 对称正定, 其中 S ∈ C n × n S \in \mathbb{C}^{n \times n} S ∈ C n × n 是一个任意的非奇异矩阵; (4) 若 A A A Hermite 正定, 则 A A A 的任意主子矩阵都 Hermite 正定; (5) 若 A A A Hermite 正定, 则 A A A 的所有对角线元素都是正的, 且 max i ≠ j { ∣ a i j ∣ } < max i { a i i } \max_{i \neq j} \{|a_{ij}|\} < \max_{i} \{a_{ii}\} max i = j { ∣ a ij ∣ } < max i { a ii } , 即绝对值最大的元素出现在对角线上.
A 以上结论在实数域中也成立.
平方根 如果 A A A 是Hermite(半)正定矩阵, 则可以定义其平方根, 即存在唯一的Hermite(半)正定矩阵 B B B , 使得 B 2 = A B^{2} = A B 2 = A . 事实上, 我们有下面更一般的结论[73].
定理1.52 设 A ∈ C n × n A \in \mathbb{C}^{n \times n} A ∈ C n × n 是一个Hermite半正定矩阵, k k k 是一个给定的正整数, 则存在唯一的Hermite半正定矩阵 B ∈ C n × n B \in \mathbb{C}^{n \times n} B ∈ C n × n 使得
同时,我们还有下面的性质:
(1) rank ( B ) = rank ( A ) \operatorname{rank}(B) = \operatorname{rank}(A) rank ( B ) = rank ( A ) , 因此, 若 A A A 是正定的, 则 B B B 也正定; (2) 如果 A A A 是实矩阵的, 则 B B B 也是实矩阵.
特别地, 当 k = 2 k = 2 k = 2 时, 称 B B B 为 A A A 的平方根, 记为 A 1 2 A^{\frac{1}{2}} A 2 1 .
(留作课外自习)
Hermite 正定矩阵与内积 Hermite 正定矩阵与内积之间有如下的一一对应关系.
定理1.53 设 ( ⋅ , ⋅ ) (\cdot, \cdot) ( ⋅ , ⋅ ) 是 C n \mathbb{C}^n C n 上的一个内积, 则存在一个Hermite正定矩阵 A ∈ C n × n A \in \mathbb{C}^{n \times n} A ∈ C n × n 使得
( x , y ) = y ∗ A x . (x, y) = y ^ {*} A x. ( x , y ) = y ∗ A x . 反之, 若 A ∈ C n × n A \in \mathbb{C}^{n \times n} A ∈ C n × n 是Hermite正定矩阵, 则
f ( x , y ) ≜ y ∗ A x f (x, y) \triangleq y ^ {*} A x f ( x , y ) ≜ y ∗ A x 是 C n \mathbb{C}^n C n 上的一个内积
(留作练习)
该结论在实数域中也成立.
1.5.2 对角占优矩阵 定义1.17 设 A ∈ C n × n A \in \mathbb{C}^{n \times n} A ∈ C n × n , 若
∣ a i i ∣ ≥ ∑ j ≠ i ∣ a i j ∣ \left| a _ {i i} \right| \geq \sum_ {j \neq i} \left| a _ {i j} \right| ∣ a ii ∣ ≥ j = i ∑ ∣ a ij ∣ 对所有 i = 1 , 2 , … , n i = 1,2,\dots ,n i = 1 , 2 , … , n 都成立,且至少有一个不等式严格成立,则称 A A A 为弱行对角占优,简称弱对角占优或对角占优.若所有不等式都严格成立,则为严格行对角占优或严格对角占优.
类似地,可以定义列对角占优和严格列对角占优
定理1.54 若 A ∈ C n × n A \in \mathbb{C}^{n \times n} A ∈ C n × n 是严格对角占优矩阵, 则 A A A 非奇异. (板书)
证明. 我们使用反证法. 假设 A A A 奇异, 即 A x = 0 Ax = 0 A x = 0 存在非零解, 不妨设为 x = [ x 1 , x 2 , … , x n ] ⊤ x = [x_{1}, x_{2}, \ldots, x_{n}]^{\top} x = [ x 1 , x 2 , … , x n ] ⊤ . 不失一般性, 设下标 k k k 满足 ∥ x ∥ ∞ = ∣ x k ∣ \|x\|_{\infty} = |x_{k}| ∥ x ∥ ∞ = ∣ x k ∣ , 则 ∣ x k ∣ > 0 |x_{k}| > 0 ∣ x k ∣ > 0 . 考察 A x = 0 Ax = 0 A x = 0 的第 k k k 个方程:
a k 1 x 1 + a k 2 x 2 + ⋯ + a k n x n = 0. a _ {k 1} x _ {1} + a _ {k 2} x _ {2} + \dots + a _ {k n} x _ {n} = 0. a k 1 x 1 + a k 2 x 2 + ⋯ + a kn x n = 0. 可得
∣ a k k ∣ = 1 ∣ x k ∣ ∣ ∑ j = 1 , j ≠ i n a k j x j ∣ ≤ ∑ j = 1 , j ≠ i n ∣ a k j ∣ ⋅ ∣ x j ∣ ∣ x k ∣ ≤ ∑ j = 1 , j ≠ i n ∣ a k j ∣ , \left| a _ {k k} \right| = \frac {1}{\left| x _ {k} \right|} \left| \sum_ {j = 1, j \neq i} ^ {n} a _ {k j} x _ {j} \right| \leq \sum_ {j = 1, j \neq i} ^ {n} \left| a _ {k j} \right| \cdot \frac {\left| x _ {j} \right|}{\left| x _ {k} \right|} \leq \sum_ {j = 1, j \neq i} ^ {n} \left| a _ {k j} \right|, ∣ a kk ∣ = ∣ x k ∣ 1 j = 1 , j = i ∑ n a kj x j ≤ j = 1 , j = i ∑ n ∣ a kj ∣ ⋅ ∣ x k ∣ ∣ x j ∣ ≤ j = 1 , j = i ∑ n ∣ a kj ∣ , 这与 A A A 严格对角占优矛盾. 所以 A A A 非奇异
如果 A A A 是严格对角占优的, 则可以给出 ∥ A − 1 ∥ 1 \| A^{-1}\| _1 ∥ A − 1 ∥ 1 的一个估计.
定理1.55 [57] 设 A ∈ R n × n A \in \mathbb{R}^{n \times n} A ∈ R n × n 严格列对角占优, 记
δ ≜ min 1 ≤ j ≤ n ( ∣ a j j ∣ − ∑ i = 1 n ∣ a i j ∣ ) > 0 , \delta \triangleq \min _ {1 \leq j \leq n} \left(\left| a _ {j j} \right| - \sum_ {i = 1} ^ {n} \left| a _ {i j} \right|\right) > 0, δ ≜ 1 ≤ j ≤ n min ( ∣ a jj ∣ − i = 1 ∑ n ∣ a ij ∣ ) > 0 , 则有
∥ A − 1 ∥ 1 ≤ δ − 1 . \left\| A ^ {- 1} \right\| _ {1} \leq \delta^ {- 1}. A − 1 1 ≤ δ − 1 . 该定理中的 δ \delta δ 是衡量对角占优程度的一个重要指标:如果 δ \delta δ 接近于0,则表示对角占优性很弱.
1.5.3 不可约矩阵 定义1.18 设 A ∈ C n × n A \in \mathbb{C}^{n \times n} A ∈ C n × n , 如果存在置换矩阵 P P P 使得 P A P ⊤ PAP^{\top} P A P ⊤ 为块上三角矩阵, 即
P A P ⊤ = [ A 11 A 12 0 A 22 ] , A 11 ∈ C k × k , A 22 ∈ C ( n − k ) × ( n − k ) (1.11) P A P ^ {\top} = \left[ \begin{array}{c c} A _ {1 1} & A _ {1 2} \\ 0 & A _ {2 2} \end{array} \right], \quad A _ {1 1} \in \mathbb {C} ^ {k \times k}, \quad A _ {2 2} \in \mathbb {C} ^ {(n - k) \times (n - k)} \tag {1.11} P A P ⊤ = [ A 11 0 A 12 A 22 ] , A 11 ∈ C k × k , A 22 ∈ C ( n − k ) × ( n − k ) ( 1.11 ) 其中 1 ≤ k < n 1 \leq k < n 1 ≤ k < n , 则称 A A A 是可约的, 否则就称 A A A 为不可约的.
如果 A A A 是 1 × 1 1 \times 1 1 × 1 矩阵, 则 A A A 不可约当且仅当 A A A 非零.
如果 A ∈ C n × n A \in \mathbb{C}^{n \times n} A ∈ C n × n 是可约的, 则 A A A 至少有 n − 1 n - 1 n − 1 个零.
不可约的意义 若 A A A 可约, 即存在置换矩阵 P P P , 使得
P A P T = [ A 11 A 12 0 A 22 ] , P A P ^ {\mathsf {T}} = \left[ \begin{array}{c c} A _ {1 1} & A _ {1 2} \\ 0 & A _ {2 2} \end{array} \right], P A P T = [ A 11 0 A 12 A 22 ] , 则线性方程组 A x = b Ax = b A x = b 等价于 P A P T P x = P b PAP^{\mathsf{T}}Px = Pb P A P T P x = P b . 记 y ≜ P x , f ≜ P b y \triangleq Px, f \triangleq Pb y ≜ P x , f ≜ P b , 则
[ A 11 A 12 0 A 22 ] [ y 1 y 2 ] = [ f 1 f 2 ] . \left[ \begin{array}{c c} A _ {1 1} & A _ {1 2} \\ 0 & A _ {2 2} \end{array} \right] \left[ \begin{array}{c} y _ {1} \\ y _ {2} \end{array} \right] = \left[ \begin{array}{c} f _ {1} \\ f _ {2} \end{array} \right]. [ A 11 0 A 12 A 22 ] [ y 1 y 2 ] = [ f 1 f 2 ] . 因此, 原方程组就转化为下面两个更小规模的子方程组
{ A 22 y 2 = f 2 , A 11 y 1 = f 1 − A 12 y 2 . \left\{ \begin{array}{l} A _ {2 2} y _ {2} = f _ {2}, \\ A _ {1 1} y _ {1} = f _ {1} - A _ {1 2} y _ {2}. \end{array} \right. { A 22 y 2 = f 2 , A 11 y 1 = f 1 − A 12 y 2 . 显然, 求解这两个方程组比求解原方程组所需的运算量更少.
对于特征值问题, A A A 的特征值就是 A 11 A_{11} A 11 和 A 22 A_{22} A 22 的特征值的并, 因此也只需考虑子矩阵 A 11 A_{11} A 11 和
A 22 A_{22} A 22 的特征值即可.
如果 A 22 A_{22} A 22 或 A 11 A_{11} A 11 仍然是可约的, 则可以转化为更小规模的子问题, 直到不可约为止. 因此我们在讨论某些算法的性质时, 一般只需考虑不可约情形.
由于 P A P ⊤ PAP^{\top} P A P ⊤ 保持 A A A 的对角线元素仍然在对角线上, 因此由定理 1.59 可知, 主对角线元素是否为零并不影响矩阵的可约性.
推论1.56 设 A = [ a i j ] ∈ C n × n A = [a_{ij}] \in \mathbb{C}^{n \times n} A = [ a ij ] ∈ C n × n 不可约, 则 A + D A + D A + D 也不可约, 其中 D D D 是任意对角矩阵. 特别地, B ≜ A − d i a g ( a 11 , a 22 , … , a n n ) B \triangleq A - \mathrm{diag}(a_{11}, a_{22}, \ldots, a_{nn}) B ≜ A − diag ( a 11 , a 22 , … , a nn ) 不可约.
如果 A A A 可约, 即存在置换矩阵 P P P 使得 P A P ⊤ PAP^{\top} P A P ⊤ 具有(1.11)的形式, 则对任意正整数 k k k , 有
P A k P ⊺ = ( P A P ⊺ ) k = [ A 11 k A ~ 12 ( k ) 0 A 22 k ] . (1.12) P A ^ {k} P ^ {\intercal} = \left(P A P ^ {\intercal}\right) ^ {k} = \left[ \begin{array}{c c} A _ {1 1} ^ {k} & \tilde {A} _ {1 2} ^ {(k)} \\ 0 & A _ {2 2} ^ {k} \end{array} \right]. \tag {1.12} P A k P ⊺ = ( P A P ⊺ ) k = [ A 11 k 0 A ~ 12 ( k ) A 22 k ] . ( 1.12 ) 于是我们有下面的结论
定理1.57 设 A ∈ C n × n A \in \mathbb{C}^{n \times n} A ∈ C n × n . 若 A A A 可约, 则 A k A^k A k 也可约. 反之, 若存在一个正整数 k k k , 使得 A k A^k A k 是不可约的, 则 A A A 也不可约.
需要指出的是, 不可约矩阵的幂不一定是不可约的. 如 A = [ − 1 1 1 1 ] A = \left[ \begin{array}{ll} -1 & 1 \\ 1 & 1 \end{array} \right] A = [ − 1 1 1 1 ] 不可约, 但 A 2 = [ 2 0 0 2 ] A^2 = \left[ \begin{array}{ll}2 & 0 \\ 0 & 2 \end{array} \right] A 2 = [ 2 0 0 2 ] 可约.
下面的定理给出了一个矩阵不可约的充要条件
定理1.58 设 A = [ a i j ] ∈ C n × n A = [a_{ij}] \in \mathbb{C}^{n \times n} A = [ a ij ] ∈ C n × n , 指标集 Z n = { 1 , 2 , … , n } \mathbb{Z}_n = \{1, 2, \dots, n\} Z n = { 1 , 2 , … , n } , 则 A A A 可约的充要条件是存在非空指标集 S , T ⊂ Z n S, T \subset \mathbb{Z}_n S , T ⊂ Z n 满足 S ⊕ T = Z n S \oplus T = \mathbb{Z}_n S ⊕ T = Z n , 使得
a i j = 0 , i ∈ S , j ∈ T . a _ {i j} = 0, \quad i \in \mathcal {S}, \quad j \in \mathcal {T}. a ij = 0 , i ∈ S , j ∈ T . (板书)
证明. 必要性. 设 A A A 可约, 即存在置换矩阵 P P P 使得 P A P T = [ A 11 A 12 0 A 22 ] PAP^{\mathsf{T}} = \left[ \begin{array}{cc}A_{11} & A_{12}\\ 0 & A_{22} \end{array} \right] P A P T = [ A 11 0 A 12 A 22 ] . 设 P A PA P A 是将 A A A 的第 i 1 , i 2 , … , i k i_1,i_2,\ldots ,i_k i 1 , i 2 , … , i k 行置换到前 k k k 行, 则 P A P T PAP^{\mathsf{T}} P A P T 是将 P A PA P A 的第 i 1 , i 2 , … , i k i_1,i_2,\ldots ,i_k i 1 , i 2 , … , i k 列置换到前 k k k 列. 令 T = { i 1 , i 2 , … , i k } , S = Z ∖ T \mathcal{T} = \{i_1,i_2,\dots ,i_k\}, S = \mathbb{Z}\setminus \mathcal{T} T = { i 1 , i 2 , … , i k } , S = Z ∖ T , 则有
a i j = 0 , i ∈ S , j ∈ T . a _ {i j} = 0, \quad i \in \mathcal {S}, \quad j \in \mathcal {T}. a ij = 0 , i ∈ S , j ∈ T . 充分性. 设存在非空集合 S S S 和 T \mathcal{T} T 满足 J ⊕ T = Z n J \oplus \mathcal{T} = \mathbb{Z}_n J ⊕ T = Z n , 使得对任意 i ∈ S , j ∈ T i \in S, j \in \mathcal{T} i ∈ S , j ∈ T 都有 a i j = 0 a_{ij} = 0 a ij = 0 . 设 T = { i 1 , i 2 , … , i k } \mathcal{T} = \{i_1, i_2, \ldots, i_k\} T = { i 1 , i 2 , … , i k } , 构造置换矩阵 P P P , 其作用是将矩阵 A A A 的第 i 1 , i 2 , … , i k i_1, i_2, \ldots, i_k i 1 , i 2 , … , i k 行置换到前 k k k 行, 则
P A P T PAP^{\mathsf{T}} P A P T 的第 k + 1 k + 1 k + 1 行至第 n n n 行和前 k k k 列组成的子矩阵是0矩阵,故 P A P T PAP^{\mathsf{T}} P A P T 具有(1.11)结构,即 A A A 可约. □
下面是判断矩阵是否可约的另一个充要条件
定理1.59 设 A = [ a i j ] ∈ C n × n A = [a_{ij}] \in \mathbb{C}^{n \times n} A = [ a ij ] ∈ C n × n , 指标集 Z n = { 1 , 2 , … , n } \mathbb{Z}_n = \{1, 2, \dots, n\} Z n = { 1 , 2 , … , n } , 则 A A A 可约的充要条件是存在两个相异的正整数 k , l ∈ Z n k, l \in \mathbb{Z}_n k , l ∈ Z n , 使得对任意指标序列 { i 1 , i 2 , … , i r } ⊆ Z n \{i_1, i_2, \dots, i_r\} \subseteq \mathbb{Z}_n { i 1 , i 2 , … , i r } ⊆ Z n , 都有
a k i 1 a i 1 i 2 … a i r l = 0. a _ {k i _ {1}} a _ {i _ {1} i _ {2}} \dots a _ {i _ {r} l} = 0. a k i 1 a i 1 i 2 … a i r l = 0. 这里 r > 0 r > 0 r > 0 是任意正整数
(留作课外自习)
定理1.60的等价描述 矩阵 A = [ a i j ] ∈ C n × n A = [a_{ij}]\in \mathbb{C}^{n\times n} A = [ a ij ] ∈ C n × n 不可约的充要条件是:对任意两个相异正整数 k , l ∈ Z n k,l\in \mathbb{Z}_n k , l ∈ Z n ,都存在一个指标序列 { i 1 , i 2 , … , i m } ⊆ Z n \{i_1,i_2,\dots ,i_m\} \subseteq \mathbb{Z}_n { i 1 , i 2 , … , i m } ⊆ Z n 使得
a k i 1 a i 1 i 2 … a i m l ≠ 0. a _ {k i _ {1}} a _ {i _ {1} i _ {2}} \dots a _ {i _ {m} l} \neq 0. a k i 1 a i 1 i 2 … a i m l = 0. 如果用有向图表示矩阵, 则不可约当且仅当有向图是强连通的, 即任意两个节点之间都存在一条路径.
我们知道, 严格对角占优矩阵是非奇异的. 如果 A A A 是不可约对角占优矩阵, 则可以同样证明 A A A 是非奇异的.
定理1.60 设 A ∈ C n × n A \in \mathbb{C}^{n \times n} A ∈ C n × n 是不可约的弱对角占优矩阵, 则 A A A 非奇异.
(留作练习)
关于严格对角占优矩阵和不可约弱对角占优矩阵的非奇异性, 也可以使用 Gerschgorin 圆盘定理证明, 参见 [145].
一个有意思的现象 通常, 如果某个元素全不为零的矩阵具有某种性质, 则这个性质往往能推广到不可约矩阵.