6.1 Gersgorin 圆盘 如果 A ∈ M n A \in M_{n} A ∈ M n , 总可以把 A A A 写成 A = D + B A = D + B A = D + B . 其中, D = diag ( a 11 , ⋯ , a n n ) D = \operatorname{diag}(a_{11}, \cdots, a_{nn}) D = diag ( a 11 , ⋯ , a nn ) 正好是 A A A 的主对角部分, 而 B B B 有零主对角线. 如果对任意 ε ∈ C \varepsilon \in C ε ∈ C , 令 A ε ≡ D + ε B A_{\varepsilon} \equiv D + \varepsilon B A ε ≡ D + εB , 则 A 0 = D A_{0} = D A 0 = D , 而 A 1 = A A_{1} = A A 1 = A . A 0 = D A_{0} = D A 0 = D 的特征值是容易确定的: 它们恰好是复平面中的点 a 11 , ⋯ , a n n a_{11}, \cdots, a_{nn} a 11 , ⋯ , a nn . 我们有理由推测, 如果 ε \varepsilon ε 足够小, 则 A ε A_{\varepsilon} A ε 的特征值将位于点 a 11 , ⋯ , a n n a_{11}, \cdots, a_{nn} a 11 , ⋯ , a nn 的某些小的邻域中. 下述定理 (常称为 Gersgorin 圆盘定理) 使这个论断更为明确: 确实存在某些以点 a i a_{i} a i 为中心的容易计算的圆盘, 它们肯定包含诸特征值.
6.1.1 定理(Gersgorin) 设 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n ,又设
R i ′ ( A ) ≡ ∑ j = 1 j ≠ i n ∣ a i j ∣ , 1 ⩽ i ⩽ n R _ {i} ^ {\prime} (A) \equiv \sum_ {\substack {j = 1 \\ j \neq i}} ^ {n} | a _ {i j} |, \quad 1 \leqslant i \leqslant n R i ′ ( A ) ≡ j = 1 j = i ∑ n ∣ a ij ∣ , 1 ⩽ i ⩽ n 表示 A A A 的各去心绝对行和,则 A A A 的所有特征值都位于 n n n 个圆盘的并
⋃ i = 1 n { z ∈ C : ∣ z − a v ∣ ⩽ R i ′ ( A ) } ≡ G ( A ) (6.1.2) \bigcup_ {i = 1} ^ {n} \left\{z \in \mathbf {C}: | z - a _ {v} | \leqslant R _ {i} ^ {\prime} (A) \right\} \equiv G (A) \tag {6.1.2} i = 1 ⋃ n { z ∈ C : ∣ z − a v ∣ ⩽ R i ′ ( A ) } ≡ G ( A ) ( 6.1.2 ) 中.此外,如果这 n \pmb{n} n 个圆盘中有 k \pmb{k} k 个之并形成一个连通区域,且它与所有余下的 n − k n - k n − k 个圆盘
都不相交,则在这个区域中恰好有 A A A 的 k k k 个特征值.
证明:设 λ \lambda λ 是 A A A 的特征值,且假定 A x = λ x Ax = \lambda x A x = λ x , x = [ x i ] ≠ 0 x = [x_{i}] \neq 0 x = [ x i ] = 0 。 x x x 有一个元素具有最大的绝对值,例如,对所有 i = 1 , 2 , … , n i = 1, 2, \dots, n i = 1 , 2 , … , n , ∣ x p ∣ ⩾ ∣ x i ∣ |x_{p}| \geqslant |x_{i}| ∣ x p ∣ ⩾ ∣ x i ∣ ,且 x p ≠ 0 x_{p} \neq 0 x p = 0 。于是 A x − λ x Ax - \lambda x A x − λ x 的假定说明
λ r p − [ λ x ] p = [ A x ] p = ∑ i n a p j x j , \lambda r _ {p} - \left[ \lambda x \right] _ {p} = \left[ A x \right] _ {p} = \sum_ {i} ^ {n} a _ {p j} x _ {j}, λ r p − [ λ x ] p = [ A x ] p = i ∑ n a p j x j , 它等价于
344
x p ( λ − a p p ) = ∑ j = 1 j ≠ p n a p j x j x _ {p} (\lambda - a _ {p p}) = \sum_ {\substack {j = 1 \\ j \neq p}} ^ {n} a _ {p j} x _ {j} x p ( λ − a pp ) = j = 1 j = p ∑ n a p j x j 另一方面,三角不等式使我们得出,
∣ x p ∣ ∣ λ − a p p ∣ = ∣ ∑ j = 1 j ≠ p n a p j x j ∣ ⩽ ∑ j = 1 j ≠ p n ∣ a p j x j ∣ = ∑ i = 1 i ≠ p n ∣ a p i ∣ ∣ x j ∣ ⩽ ∣ x p ∣ ∑ j = 1 j ≠ p n ∣ a p j ∣ − − ∣ x p ∣ R p ′ . \begin{array}{l} \left| x _ {p} \right| \left| \lambda - a _ {p p} \right| = \left| \sum_ {\substack {j = 1 \\ j \neq p}} ^ {n} a _ {p j} x _ {j} \right| \leqslant \sum_ {\substack {j = 1 \\ j \neq p}} ^ {n} \left| a _ {p j} x _ {j} \right| = \sum_ {\substack {i = 1 \\ i \neq p}} ^ {n} \left| a _ {p i} \right| \left| x _ {j} \right| \\ \leqslant \left| x _ {p} \right| \sum_ {\substack {j = 1 \\ j \neq p}} ^ {n} \left| a _ {p j} \right| ^ {- - } \left| x _ {p} \right| R _ {p} ^ {\prime}. \\ \end{array} ∣ x p ∣ ∣ λ − a pp ∣ = ∑ j = 1 j = p n a p j x j ⩽ ∑ j = 1 j = p n ∣ a p j x j ∣ = ∑ i = 1 i = p n ∣ a p i ∣ ∣ x j ∣ ⩽ ∣ x p ∣ ∑ j = 1 j = p n ∣ a p j ∣ −− ∣ x p ∣ R p ′ . 因而,对某个 p p p , ∣ λ − a p p ∣ ⩽ R p ′ \mid \lambda -a_{pp}\mid \leqslant R_p^{\prime} ∣ λ − a pp ∣ ⩽ R p ′ :即 λ \lambda λ 位于中心为 a p p a_{pp} a pp ,半径为 R p ′ R_{p}^{\prime} R p ′ 的闭圆盘中.因为不知道哪个 p \pmb{p} p 适合每个特征值 λ \lambda λ (除非知道相应的特征向量,要是这样,我们就准确地知道了 λ \lambda λ ,况且可能对确定 λ \lambda λ 不感兴趣),所以只能得出, λ \lambda λ 位于所有这些圆盘的并中,它就是区域(6.1.2).
为了证明定理的第二个论断,记 A = D + B A = D + B A = D + B ,其中 D = diag ( a 11 , ⋯ , a n n ) D = \operatorname{diag}(a_{11}, \cdots, a_{nn}) D = diag ( a 11 , ⋯ , a nn ) ,且令 A ε ≡ D + ε B A_{\varepsilon} \equiv D + \varepsilon B A ε ≡ D + εB 。注意, R i ′ ( A i ) = R i ′ ( ε B ) = ε R i ′ ( A ) R_{i}^{\prime}(A_{i}) = R_{i}^{\prime}(\varepsilon B) = \varepsilon R_{i}^{\prime}(A) R i ′ ( A i ) = R i ′ ( εB ) = ε R i ′ ( A ) 。为方便起见,假定前 k k k 个圆盘
⋃ i = 1 k { z ∈ C : ∣ z − a α ∣ ⩽ R i ′ } \bigcup_ {i = 1} ^ {k} \left\{z \in \mathbf {C}: | z - a _ {\alpha} | \leqslant R _ {i} ^ {\prime} \right\} i = 1 ⋃ k { z ∈ C : ∣ z − a α ∣ ⩽ R i ′ } 形成连通区域 G k G_{k} G k ,且它与余下的 n − k n - k n − k 个圆盘组成的补区域 G k ′ G_{k}^{\prime} G k ′ 不相交,即 G k ′ = G ( A ) ∖ G k G_{k}^{\prime} = G(A) \setminus G_{k} G k ′ = G ( A ) ∖ G k 。值得指出的是,对所有 ϵ ∈ [ 0 , 1 ] \epsilon \in [0,1] ϵ ∈ [ 0 , 1 ] , A ϵ A_{\epsilon} A ϵ 的前 k k k 个圆盘的并
G k ( ε ) ≡ ⋃ i = 1 k { z ∈ C : ∣ z − a n : ⩽ R r ′ ( A k ) = ε R r ′ ( Λ ) } G _ {k} (\varepsilon) \equiv \bigcup_ {i = 1} ^ {k} \left\{z \in \mathbf {C}: | z - a _ {n} : \leqslant R _ {r} ^ {\prime} (A _ {k}) = \varepsilon R _ {r} ^ {\prime} (\Lambda) \right\} G k ( ε ) ≡ i = 1 ⋃ k { z ∈ C : ∣ z − a n : ⩽ R r ′ ( A k ) = ε R r ′ ( Λ ) } 包含在连通集 G k ≡ G k ( 1 ) G_{k} \equiv G_{k}(1) G k ≡ G k ( 1 ) 中,不过,对所有这样的 ε \varepsilon ε , G k ( ε ) G_{k}(\varepsilon) G k ( ε ) 可能本身不是连通集。另外,补区域 G k ( ε ) ≡ G n ( ε ) ∖ G k ( ε ) G_{k}(\varepsilon) \equiv G_{n}(\varepsilon) \setminus G_{k}(\varepsilon) G k ( ε ) ≡ G n ( ε ) ∖ G k ( ε ) 中没有一个与 G k G_{k} G k 相交。对于每个 i = 1 , … , k i = 1, \dots, k i = 1 , … , k ,考虑特征值 λ i ( A 0 ) = a n \lambda_{i}(A_{0}) = a_{n} λ i ( A 0 ) = a n 以及 λ i ( A ε ) , ε > 0 \lambda_{i}(A_{\varepsilon}), \varepsilon > 0 λ i ( A ε ) , ε > 0 。因为特征值是 A A A 诸元的连续函数(见附录Ⅰ),又因为对所有 ε ∈ [ 0 , 1 ] \varepsilon \in [0, 1] ε ∈ [ 0 , 1 ] 都有 λ i ( A ε ) ∈ G k ( ε ) ⊂ G k \lambda_{i}(A_{\varepsilon}) \in G_{k}(\varepsilon) \subset G_{k} λ i ( A ε ) ∈ G k ( ε ) ⊂ G k ,所以每个 λ i ( A 0 ) \lambda_{i}(A_{0}) λ i ( A 0 ) 通过 G k G_{k} G k 中由 { λ i ( A ε ) : 0 ⩽ ε ⩽ 1 } \{\lambda_{i}(A_{\varepsilon}): 0 \leqslant \varepsilon \leqslant 1\} { λ i ( A ε ) : 0 ⩽ ε ⩽ 1 } 给出的连续曲线与某个 λ i ( A 1 ) = λ i ( A ) \lambda_{i}(A_{1}) = \lambda_{i}(A) λ i ( A 1 ) = λ i ( A ) 相连结。对于每个 ε ∈ [ 0 , 1 ] \varepsilon \in [0, 1] ε ∈ [ 0 , 1 ] ,得知,在 G k ( ε ) G_{k}(\varepsilon) G k ( ε ) 中至少包含 A ε A_{\varepsilon} A ε 的 k k k 个特征值。但是, G k ( ε ) G_{k}(\varepsilon) G k ( ε ) 中 A ε A_{\varepsilon} A ε 的特征值又不会多于 k k k 个,这是因为, A 0 A_{0} A 0 的其余 n − k n - k n − k 个特征值作为一些连续曲线的起点落在连通集 G k G_{k} G k 以外,而其终点肯定在补区域 G k G_{k} G k 内;因为连续性和连通性(这是关于连续函数的中间值定理),它们不可能跳越 G k G_{k} G k 与 G k G_{k} G k 之间的空隙。
345
(6.1.2)中的区域 G ( A ) G(A) G ( A ) 常常称为 A A A 的(关于行的)Gersgorin 区域; G ( A ) G(A) G ( A ) 中的各个圆盘称为 Gersgorin 圆盘,且这些圆盘的边界称为 Gersgorin 圆。因为 A A A 和 A ′ A^{\prime} A ′ 有相同的特征值,为了得到用去心绝对列和
C j ′ ( A ) ≡ ∑ r − 1 r − j n a i j C _ {j} ^ {\prime} (A) \equiv \sum_ {\substack {r - 1 \\ r - j}} ^ {n} a _ {i j} C j ′ ( A ) ≡ r − 1 r − j ∑ n a ij 描述的且包含 A A A 的各特征值的区域。可以把Gersgorin圆盘定理应用于 A T A^{\mathrm{T}} A T ,得到关于列的Gersgorin圆盘定理。
6.1.3 推论 如果 A = [ a n ] ∈ M n A = [a_{n}] \in M_{n} A = [ a n ] ∈ M n ,则 A A A 的所有特征值都位于 n n n 个圆盘的并
⋃ i = 1 n { z ∈ C : ∣ z − a n ∣ ⩽ C r ′ } = G ( A T ) (6.1.4) \bigcup_ {i = 1} ^ {n} \left\{z \in \mathbf {C}: | z - a _ {n} | \leqslant C _ {r} ^ {\prime} \right\} = G \left(A ^ {T}\right) \tag {6.1.4} i = 1 ⋃ n { z ∈ C : ∣ z − a n ∣ ⩽ C r ′ } = G ( A T ) ( 6.1.4 ) 中.此外,如果这些圆盘中的 k k k 个之并形成一个连通区域,且与所有其余 n − k n - k n − k 个圆盘不相交,则在这个区域内恰好有 A A A 的 k k k 个特征值.
练习 证明, A A A 的所有特征值都位于区域(6.1.2)和(6.1.4)的交中,也就是说,它们位于 G ( A ) ∩ G ( A τ ) G(A) \cap G(A^{\tau}) G ( A ) ∩ G ( A τ ) 中。试用具有 a i j = i / j a_{ij} = i / j a ij = i / j 的 3 × 3 3 \times 3 3 × 3 矩阵 [ a i j ] [a_{ij}] [ a ij ] 来说明。
因为 A A A 的所有特征值都位于(6.1.2)和(6.1.4)这两个区域中,所以 A A A 的最大模特征值也在其中.在 G ( A ) G(A) G ( A ) 的第 i \pmb{i} i 个圆盘中,离原点最远的点有模
∣ a n ∣ + R i ′ = ∑ j = 1 n ∣ a y ∣ , \mid a _ {n} \mid + R _ {i} ^ {\prime} = \sum_ {j = 1} ^ {n} \mid a _ {y} \mid , ∣ a n ∣ + R i ′ = j = 1 ∑ n ∣ a y ∣ , 因而这些值的最大者一定是 A A A 的最大模特征值的一个上界。当然,类似的论述也可对绝对列和作出。
6.1.5 推论 如果 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n ,则
ρ ( A ) ⩽ min { max i ∑ j = 1 n ∣ a i j ∣ , max j ∑ i = 1 n ∣ a i j ∣ } . \rho (A) \leqslant \min \left\{\max _ {i} \sum_ {j = 1} ^ {n} | a _ {i j} |, \max _ {j} \sum_ {i = 1} ^ {n} | a _ {i j} | \right\}. ρ ( A ) ⩽ min { i max j = 1 ∑ n ∣ a ij ∣ , j max i = 1 ∑ n ∣ a ij ∣ } . 这个结论是我们意料之中的,因为它是说, ρ ( A ) ⩽ ∥ A ∥ 1 \rho(A) \leqslant \|A\|_1 ρ ( A ) ⩽ ∥ A ∥ 1 和 ∥ A T ∥ 1 \|A^T\|_1 ∥ A T ∥ 1 (极大绝对行和范数和极大绝对列和范数),且这个不等式对任意矩阵范数成立。但是,有趣的是,这个结论有一个本质的几何推论。
因为只要 S S S 是可逆矩阵, S − 1 A S S^{-1}AS S − 1 A S 与 A A A 就有相同的特征值,所以可以把Gersgorin定理应用于 S − 1 A S S^{-1}AS S − 1 A S ;也许对 S S S 的某个选择,所得到的界可能更准确。一个特别方便的选择是 S = D = d i a g ( p 1 , p 2 , … , p n ) S = D = \mathrm{diag}(p_1, p_2, \dots, p_n) S = D = diag ( p 1 , p 2 , … , p n ) ,其中所有 p i > 0 p_i > 0 p i > 0 。容易算出, D − 1 A D = [ p i a i j / p j ] D^{-1}AD = [p_i a_{ij} / p_j] D − 1 A D = [ p i a ij / p j ] 。把Gersgorin定理应用于 D − 1 A D D^{-1}AD D − 1 A D 和它的转置便得到下面的推论。
6.1.6 推论 设 A = [ a n ] ∈ M n A = [a_{n}] \in M_{n} A = [ a n ] ∈ M n ,且设 p 1 , p 2 , ⋯ , p n p_{1}, p_{2}, \cdots, p_{n} p 1 , p 2 , ⋯ , p n 是正实数,则 A A A 的所有特征值位于区域
⋃ i = 1 n { z ∈ C : ∣ z − a i i ∣ ⩽ 1 p i ∑ j = 1 j ≠ i n p j ∣ a i j ∣ } = G ( D − 1 A D ) \bigcup_ {i = 1} ^ {n} \left\{z \in \mathbf {C}: | z - a _ {i i} | \leqslant \frac {1}{p _ {i}} \sum_ {\substack {j = 1 \\ j \neq i}} ^ {n} p _ {j} | a _ {i j} | \right\} = G (D ^ {- 1} A D) i = 1 ⋃ n ⎩ ⎨ ⎧ z ∈ C : ∣ z − a ii ∣ ⩽ p i 1 j = 1 j = i ∑ n p j ∣ a ij ∣ ⎭ ⎬ ⎫ = G ( D − 1 A D ) 中,同时也位于区域
⋃ j = 1 n { z ∈ C : ∣ z − a j ∣ ⩽ p j ∑ i = 1 n 1 p i ∣ a i j ∣ } = G [ ( D − 1 A D ) T ] \bigcup_ {j = 1} ^ {n} \left\{z \in \mathbf {C}: | z - a _ {j} | \leqslant p _ {j} \sum_ {i = 1} ^ {n} \frac {1}{p _ {i}} | a _ {i j} | \right\} = G [ (D ^ {- 1} A D) ^ {T} ] j = 1 ⋃ n { z ∈ C : ∣ z − a j ∣ ⩽ p j i = 1 ∑ n p i 1 ∣ a ij ∣ } = G [( D − 1 A D ) T ] 中.
矩阵 A = [ 1 1 0 2 ] A = \begin{bmatrix} 1 & 1 \\ 0 & 2 \end{bmatrix} A = [ 1 0 1 2 ] 有特征值1和2. 直接应用Gersgorin定理只给出特征值的一个相当粗略的估计(图6.1.7a),而后一个论断中的备用参数却为得到特征值的一个令人满意的估计提供了很大的灵活性(图6.1.7b).
(a)
(b) 图6.1.7
练习 考虑矩阵
A = [ 7 − 16 8 − 16 7 − 8 8 − 8 5 ] . A = \left[ \begin{array}{r r r} 7 & - 1 6 & 8 \\ - 1 6 & 7 & - 8 \\ 8 & - 8 & 5 \end{array} \right]. A = 7 − 16 8 − 16 7 − 8 8 − 8 5 . 试用Gersgorin定理估计一下 A \pmb{A} A 的特征值以及 A A A 的谱半径,然后考虑 D ′ A D D^{\prime}AD D ′ A D ,其中, D = d i a g ( p 1 , p 2 , p 3 ) D = \mathrm{diag}(p_1,p_2,p_3) D = diag ( p 1 , p 2 , p 3 ) ,并且在你的特征值估计中,看一看能否作出什么改进,最后,计算出实际的特征值,试对你所作估计的好坏给一个评价.
练习 证明, A A A 的每个特征值位于集合 ⋂ D G ( D − 1 A D ) \bigcap_{D} G(D^{-1}AD) ⋂ D G ( D − 1 A D ) 中,其中交取遍只具有正主对角元的所有对角矩阵。
我们也可以利用引进自由参数的思想得到关于谐半径估计(6.1.5)的更一般的形式。
6.1.8 推论 设 A = [ a n ] ∈ M n A = [a_{n}] \in M_{n} A = [ a n ] ∈ M n . 则
ρ ( A ) ⩽ min p 1 , … , p n → 0 max 1 ⩽ i ⩽ n 1 p i ∑ j n p j ∣ a j ∣ , \rho (A) \leqslant \min _ {p _ {1}, \dots , p _ {n} \rightarrow 0} \max _ {1 \leqslant i \leqslant n} \frac {1}{p _ {i}} \sum_ {j} ^ {n} p _ {j} | a _ {j} |, ρ ( A ) ⩽ p 1 , … , p n → 0 min 1 ⩽ i ⩽ n max p i 1 j ∑ n p j ∣ a j ∣ , 且
ρ ( A ) ⩽ min p 1 , … , p n … max 1 , … , n p i ∑ i = 1 n 1 p i ∣ a i j ∣ . \rho (A) \leqslant \min _ {p _ {1}, \dots , p _ {n} \dots} \max _ {1, \dots , n} p _ {i} \sum_ {i = 1} ^ {n} \frac {1}{p _ {i}} | a _ {i j} |. ρ ( A ) ⩽ p 1 , … , p n … min 1 , … , n max p i i = 1 ∑ n p i 1 ∣ a ij ∣. 练习 证明推论(6.1.8).
练习 设 A = [ a b c d ] A = \begin{bmatrix} a & b \\ c & d \end{bmatrix} A = [ a c b d ] ,其中 a , b , c a, b, c a , b , c 和 d d d 恒为实正数。
(a) 用直接计算求出一个具体的对角矩阵 D ~ \widetilde{D} D , 使得 ∥ D ~ − 1 A D ∥ = min D ∥ D − 1 A D ∥ \| \widetilde{D}^{-1}AD \| = \min_{D} \| D^{-1}AD\| ∥ D − 1 A D ∥ = min D ∥ D − 1 A D ∥ , 其中极小取遍只具有正主对角元的所有对角矩阵.
(b) 计算 ∥ D ~ − 1 Λ D ~ ∥ ∞ = r \|\widetilde{D}^{-1}\Lambda\widetilde{D}\|_{\infty} = r ∥ D − 1 Λ D ∥ ∞ = r
(c) 直接计算 ρ ( A ) \rho(A) ρ ( A ) .
(d) 指出 r = ρ ( A ) r = \rho(A) r = ρ ( A ) .
以后将证明,如果 A A A 是任意一个 n × n n \times n n × n 正矩阵(或更一般地为不可约矩阵和非负矩阵),则 D ′ A D D^{\prime}AD D ′ A D 的极大行和在所有 D D D 上取极小一定等于谱半径。这对一般情形不成立。
练习 考虑 A − [ 1 1 − 1.5 2 ] A - \left[ \begin{array}{rr}1 & 1\\ -1.5 & 2 \end{array} \right] A − [ 1 − 1.5 1 2 ] ,证明,对具有正 p 1 p_1 p 1 和 p 2 p_2 p 2 的所有 D = d i a g ( p 1 , p 2 ) D = \mathrm{diag}(p_1, p_2) D = diag ( p 1 , p 2 ) , ρ ( A ) < min ∥ D − 1 A D ∥ \rho(A) < \min \| D^{-1}AD\| ρ ( A ) < min ∥ D − 1 A D ∥ .
如果有关于一个矩阵的某些附加信息,它要求特征值位于(或不位于)某些集合中,那么,可以利用这个信息以及Gersgorin定理给出特征值的更为准确的估计。例如,如果 A A A 是Hermite矩阵,则 A A A 的特征值一定都是实的,因而它们一定位于集 R ∩ G ( A ) \mathbb{R} \cap G(A) R ∩ G ( A ) 中,它是实闭区间的有限并。
练习 关于斜Hermite矩阵的特征值的估计你能说些什么?关于两矩阵呢?关于实正交矩阵呢?
因为一个矩阵是可逆的当且仅当0不是其特征值,所以,值得研究的是导出从包含特征值的已知区域中去掉原点的条件.
6.1.9 定义 设 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n ,矩阵 A A A 称为对角占优的,是指
∣ a n ∣ ⩾ ∑ j = 1 n ∣ a n ∣ = R t ′ \mid a _ {n} \mid \geqslant \sum_ {j = 1} ^ {n} \mid a _ {n} \mid = R _ {t} ^ {\prime} ∣ a n ∣ ⩾ j = 1 ∑ n ∣ a n ∣= R t ′ 对所有 i = 1 , … , n i = 1, \dots, n i = 1 , … , n 成立,称 A A A 为严格对角占优的,是指
∣ a n ∣ > ∑ j = 1 n ∣ a n ∣ = R i ′ \mid a _ {n} \mid > \sum_ {j = 1} ^ {n} \mid a _ {n} \mid = R _ {i} ^ {\prime} ∣ a n ∣> j = 1 ∑ n ∣ a n ∣= R i ′ 对所有 i = 1 , … , n i = 1, \dots, n i = 1 , … , n 成立.
从位置几何学可知,如果 A A A 是严格对角占优的,0不可能位于任何闭Gersgorin圆盘中。另外,如果所有主对角元 a n a_{n} a n 都是正实数,则每个圆盘实际上位于开右半平面内;如果 A A A 还是Hermite 矩阵,则特征值一定都是正数。把这些论断总结为下述定理,其中(a)部分称为Levy-Desplangues 定理[见推论(5.6.17)]。
6.1.10 定理 设 A − [ a i j ] ∈ M n A - [a_{ij}] \in M_n A − [ a ij ] ∈ M n 是严格对角占优的。那么
(a) A A A 是可逆矩阵.
(b)如果 A A A 的所有主对角元都是正数,则 A A A 的所有特征值都有正实部
(c) 如果 A A A 是 Hermite 矩阵, 且 A A A 的所有主对角元都是正数, 则 A A A 的所有特征值都是正实数.
练习 考察 [ 1 1 1 1 ] \left[ \begin{array}{ll}1 & 1\\ 1 & 1 \end{array} \right] [ 1 1 1 1 ] 和 [ 1 1 1 − ε 1 ] \left[ \begin{array}{ll}1 & 1\\ 1 - \varepsilon & 1 \end{array} \right] [ 1 1 − ε 1 1 ] ,说明仅有对角占优性质还不足以确保可逆性,并且说明严格对角占优性对可逆性不是必要条件。
利用推论(6.1.6)的备用参数,作为可逆性的充分条件的严格对角占优性假设可以稍微放宽一些。
6.1.11 定理 设 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n 的所有对角元非零,且 A A A 是对角占优的,又除了 i = 1 , … , n i = 1, \dots, n i = 1 , … , n 的一个值以外,对所有其他的值有 ∣ a n ∣ > R i ′ |a_n| > R_i' ∣ a n ∣ > R i ′ 。则 A A A 是可逆矩阵。
证明:假设条件是说,对某个 k k k , ∣ a k k ∣ = R k ′ \mid a_{kk}\mid = R_k^{\prime} ∣ a kk ∣= R k ′ ,且对所有 i ≠ k i\neq k i = k , ∣ a n ∣ > R r ′ \mid a_n\mid >R_r' ∣ a n ∣> R r ′ ,在(6.1.6)
中,对所有 i ≠ k i \neq k i = k 设 p i = 1 p_i = 1 p i = 1 ,且设 p k = 1 + ε , ε > 0 p_k = 1 + \varepsilon, \varepsilon > 0 p k = 1 + ε , ε > 0 。于是,对任意 ε > 0 \varepsilon > 0 ε > 0
1 p k ∑ j = 1 j ≠ k n p j ∣ a i j ∣ = 1 1 + ϵ R k ′ < ∣ a k k ∣ , \frac {1}{p _ {k}} \sum_ {\substack {j = 1 \\ j \neq k}} ^ {n} p _ {j} | a _ {i j} | = \frac {1}{1 + \epsilon} R _ {k} ^ {\prime} < | a _ {k k} |, p k 1 j = 1 j = k ∑ n p j ∣ a ij ∣ = 1 + ϵ 1 R k ′ < ∣ a kk ∣ , 且对所有 i ≠ k i \neq k i = k ,
1 p i ∑ j = 1 j ≠ i n p j ∣ a i j ∣ = R i ′ + ε ∣ a i k ∣ . \frac {1}{p _ {i}} \sum_ {\substack {j = 1 \\ j \neq i}} ^ {n} p _ {j} \mid a _ {i j} \mid = R _ {i} ^ {\prime} + \varepsilon \mid a _ {i k} \mid . p i 1 j = 1 j = i ∑ n p j ∣ a ij ∣= R i ′ + ε ∣ a ik ∣ . 但是,因为 R i ′ < ∣ a k ∣ R_{i}^{\prime} < |a_{k}| R i ′ < ∣ a k ∣ 对所有 i ≠ k i \neq k i = k 成立,所以选择充分小的 ε > 0 \varepsilon > 0 ε > 0 ,使得 R i ′ + ε ∣ a k ∣ < ∣ a n ∣ R_{i}^{\prime} + \varepsilon |a_{k}| < |a_{n}| R i ′ + ε ∣ a k ∣ < ∣ a n ∣ 对所有 i ≠ k i \neq k i = k 成立。因此,根据推论(6.1.6),点 z = 0 z = 0 z = 0 在 G ( D − 1 A D ) G(D^{-1}AD) G ( D − 1 A D ) 之外,因而 A A A 必定是可逆矩阵。
Gersgorin 定理及其各种变形给出了 A A A 的特征值的各种包含区域,这些区域只依赖于 A A A 的诸主对角元以及各非主对角元的绝对值。利用 S − 1 A S S^{-1}AS S − 1 A S 与 A A A 有相同的特征值的事实,可以得出(6.1.6),并且得出闭集
⋂ D G ( D − 1 A D ) , D = d i a g ( p 1 , … , p n ) , 所 有 p i > 0 (6.1.12) \bigcap_ {D} G (D ^ {- 1} A D), \quad D = \mathrm {d i a g} (p _ {1}, \dots , p _ {n}), \quad \text {所 有} p _ {i} > 0 \tag {6.1.12} D ⋂ G ( D − 1 A D ) , D = diag ( p 1 , … , p n ) , 所 有 p i > 0 ( 6.1.12 ) 包含 A ∈ M n A \in M_{n} A ∈ M n 的所有特征值的结论。我们知道,如果可以采用比对角相似更复杂的相似,就有可能得到包含特征值的更小的区域,但是,如果只局限于对角相似,并且只限于利用主对角元以及非对角元的绝对值,能否设法得到比(6.1.12)更好的估计呢?
回答是否定的,其理由如下:设 z z z 是集合(6.1.12)的边界上任一给定的点。那么,R. Varga 已经证明,存在矩阵 B = [ b i j ] ∈ M n B = [b_{ij}] \in M_n B = [ b ij ] ∈ M n ,使得对所有 i − 1 , ⋯ , n i - 1, \cdots, n i − 1 , ⋯ , n 有 b n = a n b_n = a_n b n = a n ,而对所有 i , j = 1 , ⋯ , n i, j = 1, \cdots, n i , j = 1 , ⋯ , n 有 ∣ b i ∣ = ∣ a j ∣ |b_i| = |a_j| ∣ b i ∣ = ∣ a j ∣ ,并且 z z z 是 B B B 的特征值。
习题 350
考虑 n × n n \times n n × n 线性方程组 A x = y Ax = y A x = y ,其中 A A A 和 y y y 是给定的:
(i)定义 B ≡ I − A B \equiv I - A B ≡ I − A ,然后把原方程组改写成 x = B x + y x = Bx + y x = B x + y
(ii)按你所需要的任一方式选择解的初始逼近 x ( 0 ) x^{(0)} x ( 0 )
(Ⅲ)对 m = 0 , 1 , 2 , … m = 0,1,2,\dots m = 0 , 1 , 2 , … ,计算 x ( m + 1 ) = B x ( m ) + y . x^{(m + 1)} = Bx^{(m)} + y. x ( m + 1 ) = B x ( m ) + y .
(iv)可以指望,当 m → ∞ m \to \infty m → ∞ 时, x ( m ) → x x^{(m)} \to x x ( m ) → x (解).
(a) 试用 ε ( m ) = x ( m ) − x \varepsilon^{(m)} = x^{(m)} - x ε ( m ) = x ( m ) − x 表示第 m m m 次逼近与解的误差,并且证明 ε ( m ) = B m ( x ( 0 ) − x ) \varepsilon^{(m)} = B^{m}(x^{(0)} - x) ε ( m ) = B m ( x ( 0 ) − x ) 。(b)证明,如果 ρ ( I − A ) < 1 \rho(I - A) < 1 ρ ( I − A ) < 1 ,则不论初始逼近 x ( 0 ) x^{(0)} x ( 0 ) 如何选择,在 m → ∞ m \to \infty m → ∞ 时 x ( m ) → x x^{(m)} \to x x ( m ) → x 的意义下这个算法总是可行的。(c)试用 Gersgorin 定理给出关于 A A A 的一个简单明确的条件以保证这个算法可行。
证明, ⋂ S G ( S − 1 A S ) = σ ( A ) \bigcap_{S} G(S^{-1}AS) = \sigma(A) ⋂ S G ( S − 1 A S ) = σ ( A ) ,只要这个交取遍所有非奇异矩阵 S S S 。
利用(6.1.5)证明,对任意 A ∈ M n A \in M_{n} A ∈ M n
∣ det A ∣ ⩽ ∏ i = 1 n ( ∑ j = 1 n ∣ a i j ∣ ) , \mid \det A \mid \leqslant \prod_ {i = 1} ^ {n} \left(\sum_ {j = 1} ^ {n} \mid a _ {i j} \mid\right), ∣ det A ∣ ⩽ i = 1 ∏ n ( j = 1 ∑ n ∣ a ij ∣ ) , 且对列也有类似的不等式。提示:如果 A A A 的任意一行是零,那就无需证明。如果 A A A 的所有行都非零,则设 B B B 是这样的矩阵,它的各行是 A A A 的对应行除以该行的绝对行和,于是,根据(6.1.5), ρ ( B ) ⩽ 1 \rho(B) \leqslant 1 ρ ( B ) ⩽ 1 ,因而 ∣ det B ∣ ⩽ 1 |\det B| \leqslant 1 ∣ det B ∣ ⩽ 1 。注意,这说明,
∣ det A ∣ ⩽ ∏ i = 1 n ∥ a i ∥ 1 , \mid \det A \mid \leqslant \prod_ {i = 1} ^ {n} \| a _ {i} \| _ {1}, ∣ det A ∣ ⩽ i = 1 ∏ n ∥ a i ∥ 1 , 其中向量 a i a_{i} a i 是 A A A 的相应行(或列). 对其他范数,存在这样的不等式吗?提示:见(7.8.2).
在正文中,由 Gersgerin 定理 (6.1.1) 导出了定理 (6.1.10a)-Levy-Desplanques 定理。证明,由 (6.1.10) 的 (a) 部分可推出 (6.1.1) 的前一部分 [区域 (6.1.2) 包含 A A A 的所有特征值的论断]。提示:把 (6.1.10a) 应用于矩阵 λ I − A \lambda I - A λ I − A 。
假定 A ∈ M n A \in M_{n} A ∈ M n 是实矩阵,且它的 n n n 个Gersgorin圆盘都彼此分离。证明 A A A 的所有特征值都是实数。更一般地,如果复矩阵 A ∈ M n A \in M_{n} A ∈ M n 只有实主对角元,且它的特征多项式只有实系数,又它的 n n n 个Gersgorin圆盘都彼此分离,证明 A A A 的所有特征值都是实数。
证明,如果 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n ,且对于 i i i 的 k k k 个不同的值有 ∣ a n ∣ > R i ′ |a_n| > R_i' ∣ a n ∣ > R i ′ ,则 k ⩽ rank A k \leqslant \operatorname{rank} A k ⩽ rank A .
假定 A ∈ M n A \in M_{n} A ∈ M n 是幂零的 ( A 2 = A ) (A^{2} = A) ( A 2 = A ) 但是 A ≠ I A \neq I A = I ,证明 A A A 不可能是严格对角占优矩阵[或不可约对角占优矩阵;见(6.2.25)和(6.2.27)]。
假定 A ∈ M n A \in M_{n} A ∈ M n 是严格对角占优矩阵,即 ∣ a n ∣ > R i ′ \left|a_{n}\right| > R_{i}^{\prime} ∣ a n ∣ > R i ′ 对所有 i = 1 , ⋯ , n i = 1, \cdots, n i = 1 , ⋯ , n 成立。证明 ∣ a k ∣ > C k ′ \left|a_{k}\right| > C_{k}^{\prime} ∣ a k ∣ > C k ′ 对 k = 1 , ⋯ , n k = 1, \cdots, n k = 1 , ⋯ , n 的至少一个值成立。
假定 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n 是严格对角占优矩阵,且设 D = d i a g ( a 11 , a 22 , … , a n n ) D = \mathrm{diag}(a_{11}, a_{22}, \dots, a_{nn}) D = diag ( a 11 , a 22 , … , a nn ) ,证明, D D D 是可逆矩阵,且 ρ ( I − D − 1 A ) < 1 \rho(I - D^{-1}A) < 1 ρ ( I − D − 1 A ) < 1 。提示:利用推论(6.1.5)。
设 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n ,且 R i − R i ′ + ∣ a n ∣ R_i - R_i' + |a_n| R i − R i ′ + ∣ a n ∣ 表示 A A A 的第 i i i 行所有元素的绝对值的和,证明
rank A ⩾ ∑ i = 1 n ∣ a i n ∣ R i , \operatorname {r a n k} A \geqslant \sum_ {i = 1} ^ {n} \frac {\left| a _ {i n} \right|}{R _ {i}}, rank A ⩾ i = 1 ∑ n R i ∣ a in ∣ , 其中约定在这个和中 0 / 0 = 0 0 / 0 = 0 0/0 = 0 ,提示:用同一个非零纯量乘一行的所有元素不改变矩阵的秩,因而可以假定所有 a n ⩾ 0 a_{n} \geqslant 0 a n ⩾ 0 且所有 R i R_{i} R i 或者是零或者是1.在这种情形, A A A 的所有特征值都位于单位圆盘内且可以证明
rank A ⩾ ∑ i = 1 n a i . \operatorname {r a n k} A \geqslant \sum_ {i = 1} ^ {n} a _ {i}. rank A ⩾ i = 1 ∑ n a i . 证明, ∑ a n = tr A = ∑ λ i ⩽ ∑ ∣ λ i ∣ ⩽ A \sum a_{n} = \operatorname{tr} A = \sum \lambda_{i} \leqslant \sum |\lambda_{i}| \leqslant A ∑ a n = tr A = ∑ λ i ⩽ ∑ ∣ λ i ∣ ⩽ A 的非零特征值的个数 ⩽ rank A \leqslant \operatorname{rank} A ⩽ rank A .
如果 A = [ a i j ] = [ a 1 a 2 ⋯ a n ] ∈ M n A = [a_{ij}] = [a_1 a_2 \cdots a_n] \in M_n A = [ a ij ] = [ a 1 a 2 ⋯ a n ] ∈ M n ,证明
rank A ⩾ ∑ i = 1 n ∣ a n ∣ 2 ∥ a i ∥ 2 2 , \operatorname {r a n k} A \geqslant \sum_ {i = 1} ^ {n} \frac {\left| a _ {n} \right| ^ {2}}{\left\| a _ {i} \right\| _ {2} ^ {2}}, rank A ⩾ i = 1 ∑ n ∥ a i ∥ 2 2 ∣ a n ∣ 2 , 其中约定在这个和中 0 / 0 = 0 0 / 0 = 0 0/0 = 0 ,提示:如同习题10,说明只需考虑下述情形就可以了: A A A 的所有列有Euclid单位长度,即所有 ∣ a t ∣ 2 = 1 \mid a_{t}\mid_{2} = 1 ∣ a t ∣ 2 = 1 ;且在这种情形可以证明
rank A ⩾ ∑ i = 1 n ∣ a i ∣ 2 = ∑ i = 1 n ∣ e i ∗ a i ∣ 2 , \operatorname {r a n k} A \geqslant \sum_ {i = 1} ^ {n} | a _ {i} | ^ {2} = \sum_ {i = 1} ^ {n} | e _ {i} ^ {*} a _ {i} | ^ {2}, rank A ⩾ i = 1 ∑ n ∣ a i ∣ 2 = i = 1 ∑ n ∣ e i ∗ a i ∣ 2 , 其中 { e 1 , e 2 , … , e n } \{e_1, e_2, \dots, e_n\} { e 1 , e 2 , … , e n } 是 C n \mathbf{C}^n C n 的标准正交基。如果 A A A 有秩 k k k ,证明存在 k k k 个标准正交向量 v 1 , … , v k ∈ C n v_1, \dots, v_k \in \mathbf{C}^n v 1 , … , v k ∈ C n 使得 Span { v 1 , … , v k } = Span { a 1 , … , a n } \operatorname{Span}\{v_1, \dots, v_k\} = \operatorname{Span}\{a_1, \dots, a_n\} Span { v 1 , … , v k } = Span { a 1 , … , a n } 。于是
a i = ∑ j = 1 k ( v j ∗ a i ) v j , 因 而 e i ∗ a i = ∑ j = 1 k ( v j ∗ a i ) ( e i ∗ v j ) , a _ {i} = \sum_ {j = 1} ^ {k} (v _ {j} ^ {*} a _ {i}) v _ {j}, \quad \text {因 而} \quad e _ {i} ^ {*} a _ {i} = \sum_ {j = 1} ^ {k} (v _ {j} ^ {*} a _ {i}) (e _ {i} ^ {*} v _ {j}), a i = j = 1 ∑ k ( v j ∗ a i ) v j , 因 而 e i ∗ a i = j = 1 ∑ k ( v j ∗ a i ) ( e i ∗ v j ) , 且
∑ i = 1 n ∣ e i ∗ a i ∣ 2 ⩽ ∑ i = 1 n [ ( ∑ j = 1 k ∣ v j ∗ a i ∣ 2 ) ( ∑ j = 1 k ∣ e i ∗ v j ∣ 2 ) ] = ∑ j = 1 k ∑ i = 1 n ∣ e i ∗ v j ∣ 2 = ∑ j = 1 k 1 = k = rank A . \begin{array}{l} \sum_ {i = 1} ^ {n} \left| e _ {i} ^ {*} a _ {i} \right| ^ {2} \leqslant \sum_ {i = 1} ^ {n} \left[ \left(\sum_ {j = 1} ^ {k} \left| v _ {j} ^ {*} a _ {i} \right| ^ {2}\right) \left(\sum_ {j = 1} ^ {k} \left| e _ {i} ^ {*} v _ {j} \right| ^ {2}\right) \right] = \sum_ {j = 1} ^ {k} \sum_ {i = 1} ^ {n} \left| e _ {i} ^ {*} v _ {j} \right| ^ {2} = \sum_ {j = 1} ^ {k} 1 \\ = k = \operatorname {r a n k} A. \\ \end{array} ∑ i = 1 n ∣ e i ∗ a i ∣ 2 ⩽ ∑ i = 1 n [ ( ∑ j = 1 k v j ∗ a i 2 ) ( ∑ j = 1 k ∣ e i ∗ v j ∣ 2 ) ] = ∑ j = 1 k ∑ i = 1 n ∣ e i ∗ v j ∣ 2 = ∑ j = 1 k 1 = k = rank A . 进一步阅读 用数值例子讨论Gersgorin定理可以在[Stc]中找到。原始资料可参看S. Gersgorin, “Uber die Abgrenzung der Eigenwerte einer Matrix,” Izv. Akad. Nauk. S. S. S. R. 7(1931), 749-754. Gersgorin定理有一个推广,它给出了关于广义特征值问题 A x = λ B x Ax = \lambda Bx A x = λ B x 的谱的包含区域,其中包括 B B B 是奇异矩阵的情形;可参看G. W. Stewart, “Gerschgorin Theory for the Generalized Eigenvalue Problem,” Math. Comput. 29(1975), 600-606. 关于本节最后一段提到区域(6.1.12)是否有更好的性质,可参看R. Varga, “Minimal Gerschgorin Sets,” Pacific J. Math. 15(1965), 719-729.
6.2 Gersgorin 圆盘——更细致的讨论 我们已经看到,严格对角占优性对于可逆性是充分的,但对角占优性则不是。某些 2 × 2 2 \times 2 2 × 2 的矩阵例子所需条件启发我们猜测,对角占优性连同严格不等式
; a n ∣ > ∑ i = 1 n ∣ a n ∣ 对 i = 1 , … , n 中 至 少 一 个 值 成 立 (6.2.1) ; a _ {n} \mid > \sum_ {i = 1} ^ {n} \mid a _ {n} \mid \quad \text {对} i = 1, \dots , n \text {中 至 少 一 个 值 成 立} \tag {6.2.1} ; a n ∣> i = 1 ∑ n ∣ a n ∣ 对 i = 1 , … , n 中 至 少 一 个 值 成 立 ( 6.2.1 ) 可能是可逆性的充分条件。令人失望的是,正如例子
[ 4 2 1 0 1 1 0 1 1 ] (6.2.2) \left[ \begin{array}{l l l} 4 & 2 & 1 \\ 0 & 1 & 1 \\ 0 & 1 & 1 \end{array} \right] \tag {6.2.2} 4 0 0 2 1 1 1 1 1 ( 6.2.2 ) 所说明的那样,情况并非如此。这里究竟会出现什么情形呢?
但是,关于对角占优矩阵,存在一些普通条件,在这些条件下,(6.2.1)足以保证可逆性,并且它们在图论中诱导出一些很有意义的想法。一个重要论断是,如果 A A A 是对角占优矩阵,则0不可能是任何单个Gersgorin圆盘的内点。
练习 证明,如果一个给定点 λ \lambda λ 不是 A A A 的任一Gersgorin 圆盘的内点,当且仅当
∣ λ − a n ∣ ⩾ R i ′ = ∑ j = 1 n ∣ a i j ∣ (6.2.2a) \mid \lambda - a _ {n} \mid \geqslant R _ {i} ^ {\prime} = \sum_ {j = 1} ^ {n} \mid a _ {i j} \mid \tag {6.2.2a} ∣ λ − a n ∣ ⩾ R i ′ = j = 1 ∑ n ∣ a ij ∣ ( 6.2.2a ) 对所有 i = 1 , ⋯ , n i = 1, \cdots, n i = 1 , ⋯ , n 成立。证明 G ( A ) G(A) G ( A ) 边界上的每一点 λ \lambda λ 适合这些不等式。考察 λ = 0 \lambda = 0 λ = 0 和 A = [ 1 1 1 i ] ⊕ [ − 1 1 1 − i ] A = \left[ \begin{array}{cc}1 & 1 \\ 1 & i\end{array} \right] \oplus \left[ \begin{array}{cc}-1 & 1 \\ 1 & -i\end{array} \right] A = [ 1 1 1 i ] ⊕ [ − 1 1 1 − i ] 来证明, G ( A ) G(A) G ( A ) 的一个内点也可能满足不等式(6.2.2a)。
仔细分析定理(6.1.1)的证明,当 A A A 的特征值满足不等式(6.2.2a)时会出现什么情形
6.2.3 引理 设 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n , λ \lambda λ 是 A A A 的位于 G ( A ) G(A) G ( A ) 的边界上的特征值。设 A x = λ x Ax = \lambda x A x = λ x , x = [ x t ] ≠ 0 x = [x_t] \neq 0 x = [ x t ] = 0 ,且假定 p p p 是使 ∣ x p ∣ = max 1 ≤ i < j ≤ n ∣ x i ∣ = ∥ x ∥ n ≠ 0 |x_p| = \max_{1 \leq i < j \leq n} |x_i| = \|x\|_n \neq 0 ∣ x p ∣ = max 1 ≤ i < j ≤ n ∣ x i ∣ = ∥ x ∥ n = 0 的一个下标。那么,
(a) 如果 k k k 是使 ∣ x k ∣ = ∣ x p ∣ \left|x_{k}\right| = \left|x_{p}\right| ∣ x k ∣ = ∣ x p ∣ 的任一个下标,则 ∣ λ − a k k ∣ = R k ′ \left|\lambda - a_{kk}\right| = R_{k}^{\prime} ∣ λ − a kk ∣ = R k ′ ;即第 k k k 个Gersgorin圆经过 λ \lambda λ ; (b)如果对某个 k = 1 , … , n k = 1,\dots ,n k = 1 , … , n , ∣ x k ∣ = ∣ x p ∣ \mid x_{k}\mid = \mid x_{p}\mid ∣ x k ∣=∣ x p ∣ ,又如果对某个 j ≠ k j\neq k j = k , a k j ≠ 0 a_{kj}\neq 0 a kj = 0 ,则也有
∣ x j ∣ = ∣ x p ∣ . \mid x _ {j} \mid = \mid x _ {p} \mid . ∣ x j ∣=∣ x p ∣ . 证明:正如在Gersgorin定理的证明中所证明的,有
( λ − a u ) x i = ∑ j = 1 j ≠ i n a i j x j (\lambda - a _ {u}) x _ {i} = \sum_ {\substack {j = 1 \\ j \neq i}} ^ {n} a _ {i j} x _ {j} ( λ − a u ) x i = j = 1 j = i ∑ n a ij x j 对所有 i = 1 , … , n i = 1, \dots, n i = 1 , … , n 成立,因而
∣ λ − a n ∣ ∣ x 1 = ∣ ∑ j = 1 n a i j x j ∣ ⩽ ∑ j = 1 n ∣ a i j x j ∣ = ∑ j = 1 n ∣ a i j ∣ ∣ x j ∣ ⩽ ∑ i = 1 n ∣ a i j ∣ ∣ x p ∣ = R i ′ ∣ x p ∣ . (6.2.4) \begin{array}{l} \left| \lambda - a _ {n} \right| | x _ {1} = \left| \sum_ {j = 1} ^ {n} a _ {i j} x _ {j} \right| \leqslant \sum_ {j = 1} ^ {n} | a _ {i j} x _ {j} | = \sum_ {j = 1} ^ {n} | a _ {i j} | | x _ {j} | \\ \leqslant \sum_ {i = 1} ^ {n} | a _ {i j} | | x _ {p} | = R _ {i} ^ {\prime} | x _ {p} |. \tag {6.2.4} \\ \end{array} ∣ λ − a n ∣ ∣ x 1 = ∑ j = 1 n a ij x j ⩽ ∑ j = 1 n ∣ a ij x j ∣ = ∑ j = 1 n ∣ a ij ∣∣ x j ∣ ⩽ ∑ i = 1 n ∣ a ij ∣∣ x p ∣ = R i ′ ∣ x p ∣. ( 6.2.4 ) 因此,如果 k k k 是使 ∣ x k ∣ = ∣ x p ∣ \left|x_{k}\right| = \left|x_{p}\right| ∣ x k ∣ = ∣ x p ∣ 的任一下标,一定有 ∣ λ − a k k ∣ ⩽ R k ′ \left|\lambda - a_{kk}\right| \leqslant R_{k}^{\prime} ∣ λ − a kk ∣ ⩽ R k ′ 。但是,假设条件是,对所有 i = 1 , ⋯ , n i = 1, \cdots, n i = 1 , ⋯ , n 有 ∣ λ − a n ∣ ⩾ R n ′ \left|\lambda - a_{n}\right| \geqslant R_{n}^{\prime} ∣ λ − a n ∣ ⩾ R n ′ ,因此,对 i = k i = k i = k ,在(6.2.4)的不等式两边,实际上应取等式;即
∣ λ − a k k ∣ ∣ x k ∣ = ∑ j = 1 j ≠ k n ∣ a k j ∣ ∣ x j ∣ = ∑ j = 1 j ≠ k n ∣ a k j ∣ ∣ x k ∣ = R k ′ ∣ x k ∣ . \mid \lambda - a _ {k k} \mid \mid x _ {k} \mid = \sum_ {\substack {j = 1 \\ j \neq k}} ^ {n} \mid a _ {k j} \mid \mid x _ {j} \mid = \sum_ {\substack {j = 1 \\ j \neq k}} ^ {n} \mid a _ {k j} \mid \mid x _ {k} \mid = R _ {k} ^ {\prime} \mid x _ {k} \mid . ∣ λ − a kk ∣∣ x k ∣= j = 1 j = k ∑ n ∣ a kj ∣∣ x j ∣= j = 1 j = k ∑ n ∣ a kj ∣∣ x k ∣= R k ′ ∣ x k ∣ . 因为 ∣ x k ∣ = ∥ x ∥ ∞ > 0 |x_k| = \| x\|_{\infty} > 0 ∣ x k ∣ = ∥ x ∥ ∞ > 0 ,所以论断(a)可以从恒等式
∣ λ − a k k ∣ ∣ x k ∣ = R k ′ ∣ x k ∣ \left| \lambda - a _ {k k} \right| \left| x _ {k} \right| = R _ {k} ^ {\prime} \left| x _ {k} \right| ∣ λ − a kk ∣ ∣ x k ∣ = R k ′ ∣ x k ∣ 推出. 论断(b)可从(f)中的中间恒等式
∑ j = 1 j ≠ k n ∣ a k j ∣ ( ∣ x k ∣ − ∣ x j ∣ ) = 0 \sum_ {j = 1 \atop j \neq k} ^ {n} | a _ {k j} | (| x _ {k} | - | x _ {j} |) = 0 j = k j = 1 ∑ n ∣ a kj ∣ ( ∣ x k ∣ − ∣ x j ∣ ) = 0 推出,因为在这个和中每一项必是非负的。
□
这个引理看起来更偏重于技巧,但是它有下述有用的结果及其推论作为直接推论。
6.2.5 定理 设 A ∈ M n A \in M_{n} A ∈ M n , 又设 λ \lambda λ 是 A A A 的特征值, 且 λ \lambda λ 是 G ( A ) G(A) G ( A ) 的边界点, 或更一般地, λ \lambda λ 满足不等式(6.2.2a), 假定 A A A 的所有元都是非零元. 那么
(a) A A A 的每个Gersgorin圆经过 λ \lambda λ ; (b)如果 A x = λ x Ax = \lambda x A x = λ x , x = [ x i ] ≠ 0 x = [x_{i}] \neq 0 x = [ x i ] = 0 ,则对所有 i i i , j = 1 , … , n j = 1, \dots, n j = 1 , … , n 有 ∣ x i ∣ = ∣ x j ∣ |x_{i}| = |x_{j}| ∣ x i ∣ = ∣ x j ∣
练习 从引理(6.2.3)推导定理(6.2.5).
6.2.6 推论 设 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n ,且假定 A A A 的所有元都是非零元。如果 A A A 是对角占优的,且对 i = 1 , … , n i = 1, \dots, n i = 1 , … , n 的至少一个值有 ∣ a i i ∣ > R i ′ |a_{ii}| > R_i' ∣ a ii ∣ > R i ′ ,则 A A A 是可逆矩阵。
证明:假如 A A A 不是可逆矩阵,则0就是 A A A 的一个特征值。因为 A A A 是对角占优矩阵,所以0不可能是 G ( A ) G(A) G ( A ) 的内点,因而它一定是一个边界点。定理(6.2.5)说明,每个Gersgorin圆必定经过0,但是,如果 ∣ a n ∣ > R 1 ′ \left|a_{n}\right| > R_{1}^{\prime} ∣ a n ∣ > R 1 ′ ,则第 i i i 个圆不可能经过0。
前一个结果既实用,也有意义,不过,如果利用引理(6.2.3)中更细致的结果,还可以得到更好的结论(不涉及 A A A 中有关零元的假设条件).
6.2.7 定义 我们称矩阵 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n 具有性质 SC,是指对适合 1 ⩽ p , q ⩽ n 1 \leqslant p, q \leqslant n 1 ⩽ p , q ⩽ n 的每对不同的整数 p , q p, q p , q ,存在一系列互不相同的整数 k 1 = p , k 2 , k 3 , … , k m − 1 , k m = q , 1 ⩽ m ⩽ n k_1 = p, k_2, k_3, \dots, k_{m-1}, k_m = q, 1 \leqslant m \leqslant n k 1 = p , k 2 , k 3 , … , k m − 1 , k m = q , 1 ⩽ m ⩽ n ,使得所
354
有矩阵元素 a k 1 k n , a k n k 3 , … , a k m … k m a_{k_1k_n}, a_{k_nk_3}, \dots, a_{k_m\dots k_m} a k 1 k n , a k n k 3 , … , a k m … k m 都是非零元.
例如,矩阵(6.2.2)不具有性质 S C SC SC ,因为数对2,1不容许有这样的非零元序列。但是数对1,2的确有这样的序列。
利用这个概念和引理(6.2.3),可以得到关于(6.2.5)的下述改进
6.2.8 较好定理 设 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n ,又假定 λ \lambda λ 是 A A A 的特征值,且 λ \lambda λ 还是 G ( A ) G(A) G ( A ) 的边界点,或更一般地, λ \lambda λ 满足不等式(6.2.2a)。如果 A A A 有性质 SC,那么,
(a) 每个 Gersgorin 圆经过 λ \lambda λ ; (b) 如果 A x = λ x A x = \lambda x A x = λ x ,且 x = [ x i ] ≠ 0 x = [x_{i}] \neq 0 x = [ x i ] = 0 ,则对所有 i , j = 1 , … , n i, j = 1, \dots, n i , j = 1 , … , n 有 ∣ x i ∣ = ∣ x j ∣ |x_{i}| = |x_{j}| ∣ x i ∣ = ∣ x j ∣ .
证明:设 A x = λ x Ax = \lambda x A x = λ x ,且对所有 i = 1 , … , n i = 1, \dots, n i = 1 , … , n 有 ∣ x i ∣ ⩽ ∣ x p ∣ = ∥ x ′ ∥ 2 > 0 |x_i| \leqslant |x_p| = \|x'\|^2 > 0 ∣ x i ∣ ⩽ ∣ x p ∣ = ∥ x ′ ∥ 2 > 0 。于是由引理(6.2.3), ∣ λ − a p p ′ ∣ = R p ′ |\lambda - a_{pp'}| = R_p' ∣ λ − a p p ′ ∣ = R p ′ 。设 q q q 是任一其他下标, 1 ⩽ q ⩽ n 1 \leqslant q \leqslant n 1 ⩽ q ⩽ n , q ≠ p q \neq p q = p 。因为 A A A 有性质 SC,所以存在一系列互不相同的下标 k 1 = p k_1 = p k 1 = p , k 2 = k 3 k_2 = k_3 k 2 = k 3 , … \dots … , k m = q k_m = q k m = q ,使得所有矩阵元素 a k 1 k 2 a_{k_1k_2} a k 1 k 2 , … \dots … , a k m − 1 k m a_{k_m-1k_m} a k m − 1 k m 都非零。因为 a k 1 k 2 = a p , q ≠ 0 a_{k_1k_2} = a_{p,q} \neq 0 a k 1 k 2 = a p , q = 0 ,根据(6.2.3)的论断(b)可知, ∣ x p ∣ = ∣ x k 2 ∣ |x_p| = |x_{k_2}| ∣ x p ∣ = ∣ x k 2 ∣ 。但另一方面, a k 2 k 1 ≠ 0 a_{k_2k_1} \neq 0 a k 2 k 1 = 0 ,因而 ∣ x k 3 ∣ = ∣ x k 2 ∣ = ∣ x p ∣ |x_{k_3}| = |x_{k_2}| = |x_p| ∣ x k 3 ∣ = ∣ x k 2 ∣ = ∣ x p ∣ 。继续这样做下去,得知,对所有 i = 1 , … , m i = 1, \dots, m i = 1 , … , m 有 ∣ x k ∣ = ∣ x p ∣ |x_k| = |x_p| ∣ x k ∣ = ∣ x p ∣ ,因而[由(6.2.3)(a)]有, ∣ λ − a k m k m ∣ = ∣ λ − a q i ∣ = R q ′ |\lambda - a_{k_m k_m}| = |\lambda - a_{q_i}| = R_q' ∣ λ − a k m k m ∣ = ∣ λ − a q i ∣ = R q ′ ;即第 q q q 个Gersgorin圆经过 λ \lambda λ 且 ∣ x q ∣ = ∣ x p ∣ |x_q| = |x_p| ∣ x q ∣ = ∣ x p ∣ ,但因为 q q q 是任意下标,得知每个Gersgorin圆经过 λ \lambda λ 且所有 ∣ x i ∣ = ∣ x p ∣ |x_i| = |x_p| ∣ x i ∣ = ∣ x p ∣ , i = 1 , … , n i = 1, \dots, n i = 1 , … , n 。
如同(6.2.6)中那样,从这个结果可以推导出一个关于可逆性的有用充分条件。
6.2.9 较好推论 设 A = [ a n ] ∈ M n A = [a_{n}] \in M_{n} A = [ a n ] ∈ M n , 且假定 A A A 有性质 SC. 如果 Λ \Lambda Λ 是对角占优的, 又如果对 i = 1 , … , n i = 1, \dots, n i = 1 , … , n 的至少一个值有 ∣ a n ∣ > R i ′ |a_{n}| > R_{i}^{\prime} ∣ a n ∣ > R i ′ , 则 Λ \Lambda Λ 是可逆矩阵.
练习 由(6.2.8)推导(6.2.9).
练习 证明矩阵(6.2.2)不具有性质SC.
这个陌生的性质SC指的是什么?注意到,它只涉及 A A A 的非零非对角元的位置,不涉及主对角元,且非主对角元的具体值是无关紧要的。由于这个缘故,我们定义与 A A A 有关的两个矩阵。
6.2.10 定义 如果 A = [ a i j ] ∈ M m , n A = [a_{ij}] \in M_{m,n} A = [ a ij ] ∈ M m , n , 令 ∣ A ∣ = [ ∣ a i j ∣ ] |A| = [|a_{ij}|] ∣ A ∣ = [ ∣ a ij ∣ ] 和 M ( A ) = [ μ i j ] M(A) = [\mu_{ij}] M ( A ) = [ μ ij ] , 其中, 如果 a i j ≠ 0 a_{ij} \neq 0 a ij = 0 , 则 μ i j = 1 \mu_{ij} = 1 μ ij = 1 , 如果 a i j = 0 a_{ij} = 0 a ij = 0 , 则 μ i j = 0 \mu_{ij} = 0 μ ij = 0 . 矩阵 M ( A ) M(A) M ( A ) 称为 A A A 的指标矩阵.
356
练习 证明,矩阵 A ∈ M n A \in M_{n} A ∈ M n 有性质 SC,当且仅当 ∣ A ∣ |A| ∣ A ∣ 或者 M ( A ) M(A) M ( A ) (因而两者都)有性质 SC.
在叙述性质 S C SC SC 过程中出现了 A A A 的非零元序列概念,它可以用与 A A A 相关联的一个图中的某些确定道路来形象地描述.
6.2.11 定义 A ∈ M n A \in M_{n} A ∈ M n 的有向图,记作 Γ ( A ) \Gamma(A) Γ ( A ) ,是关于 n n n 个结点 P 1 , P 2 , ⋯ , P n P_{1}, P_{2}, \cdots, P_{n} P 1 , P 2 , ⋯ , P n 的有向图,且有以下性质:在 Γ ( A ) \Gamma(A) Γ ( A ) 中存在一条从 P i P_{i} P i 到 P j P_{j} P j 的有向弧,当且仅当 a i j ≠ 0 ( μ i j ≠ 0 ) a_{ij} \neq 0 (\mu_{ij} \neq 0) a ij = 0 ( μ ij = 0 ) .
例
A = [ 1 1 1 1 ] ; A = \left[ \begin{array}{l l} 1 & 1 \\ 1 & 1 \end{array} \right]; A = [ 1 1 1 1 ] ;
A = [ 0 1 1 0 ] ; A = \left[ \begin{array}{l l} 0 & 1 \\ 1 & 0 \end{array} \right]; A = [ 0 1 1 0 ] ;
A = [ 1 1 0 0 ] ; A = \left[ \begin{array}{c c} 1 & 1 \\ 0 & 0 \end{array} \right]; A = [ 1 0 1 0 ] ; A = [ 4 2 1 0 1 1 0 1 1 ] ; A = \left[ \begin{array}{l l l} 4 & 2 & 1 \\ 0 & 1 & 1 \\ 0 & 1 & 1 \end{array} \right]; A = 4 0 0 2 1 1 1 1 1 ;
6.2.12 定义 图 Γ \Gamma Γ 中的有向道路 γ \gamma γ 是 Γ \Gamma Γ 中的一个弧序列 P t 1 P t 2 P_{t_1}P_{t_2} P t 1 P t 2 , P t 2 P t 3 P_{t_2}P_{t_3} P t 2 P t 3 , P t 3 P t 1 P_{t_3}P_{t_1} P t 3 P t 1 ,…。有向道路 γ \gamma γ 中的有序结点表是 P t 1 P_{t_1} P t 1 , P t 2 P_{t_2} P t 2 ,…。如果在有向道路中,依次出现的弧的数目是有限的,就称这个数为该有向道路的长;否则,就称有向道路有无限长。一个回路是起点和终点在同一个结点的有向道路;这个结点在该道路的有序结点表中恰好出现两次,且在该表中,没有其他结点出现两次以上;有些作者称这个回路为简单有向回路。长为 1 的回路称为圈或平凡回路。 6.2.13 定义 有向图 Γ \Gamma Γ 是强连通的,是指在 Γ \Gamma Γ 中的每对不同结点 P i P_{i} P i , P j P_{j} P j 之间都存在一条以 P i P_{i} P i 为起点, P j P_{j} P j 为终点的有向道路,且有有限长。 6.2.14 定理 设 A ∈ M A \in M A ∈ M ,那么, A A A 有性质 SC,当且仅当有向图 Γ ( A ) \Gamma(A) Γ ( A ) 是强连通的。
练习 证明定理6.2.14.
练习 证明如果 Γ \Gamma Γ 具有性质:每对结点至少属于一个回路,则 Γ \Gamma Γ 是强连通的,但是,逆命题不成立。提示:
[ 0 1 0 1 0 1 0 1 0 ] . \left[ \begin{array}{l l l} 0 & 1 & 0 \\ 1 & 0 & 1 \\ 0 & 1 & 0 \end{array} \right]. 0 1 0 1 0 1 0 1 0 . 在有向图的两个结点之间,可能存在多条有向道路,但是具有不同长度的这样两条道路可能没有本质的差别;它们可能包含一条或多条重复出现的子道路。显然,如果我们沿着一条有向道路前进时,曾两次遇到某个结点,那么去掉第一次遇到该结点到第二次遇到该结点间的所有中间弧(去掉的子图是一条回路或包含一条回路),这条有向道路便可以缩短(且两个端点不受影响)。
6.2.15 论断 设 Γ \Gamma Γ 是 n n n 个结点上的有向图。如果在两个给定的结点之间存在 Γ \Gamma Γ 中的一条有向道路,则在这两个结点之间存在一条长不超过 n − 1 n - 1 n − 1 的有向道路。
我们应该怎样说明给定的矩阵 A A A 是否具有性质SC呢?这等价于验证 Γ ( A ) \Gamma(A) Γ ( A ) 是否是强连通
的。如果 n n n 不很大,或者如果 M ( A ) M(A) M ( A ) 有一个特殊的结构,那么可以只检查 Γ ( A ) \Gamma(A) Γ ( A ) 并划出所有可能的结点对之间的道路。但是,这在一般情形下是不实用的,因此需有某个明确的计算方法。
6.2.16 定理 设 A ∈ M n A \in M_{n} A ∈ M n 是给定的矩阵,又设 P i P_{i} P i 和 P j P_{j} P j 是 Γ ( A ) \Gamma(A) Γ ( A ) 的给定结点。那么,在 P i P_{i} P i 和 P j P_{j} P j 之间存在 Γ ( A ) \Gamma(A) Γ ( A ) 中的一条长为 m m m 的有向道路,当且仅当 ( ∣ A ∣ m ) i j ≠ 0 (|A|^{m})_{ij} \neq 0 ( ∣ A ∣ m ) ij = 0 ,或等价地,如果 [ M ( A ) m ] i j ≠ 0 [M(A)^{m}]_{ij} \neq 0 [ M ( A ) m ] ij = 0 。
证明:我们用归纳法证明.对 m = 1 m = 1 m = 1 ,结论是明显的.对 m − 2 m - 2 m − 2 ,算出
[ ∣ A 12 ] j = ∑ k = 1 n [ ∣ A ∣ ] i k [ ∣ A ∣ ] k j = ∑ k = 1 n ∣ a k ∣ ∣ a k j ∣ , [ \mid A ^ {1 2} ] _ {j} = \sum_ {k = 1} ^ {n} [ \mid A \mid ] _ {i k} [ \mid A \mid ] _ {k j} = \sum_ {k = 1} ^ {n} \left| a _ {k} \right| \left| a _ {k j} \right|, [ ∣ A 12 ] j = k = 1 ∑ n [ ∣ A ∣ ] ik [ ∣ A ∣ ] kj = k = 1 ∑ n ∣ a k ∣ ∣ a kj ∣ , 因而, [ ∣ A ∣ 2 ] i j ≠ 0 [|A|^2]_ij \neq 0 [ ∣ A ∣ 2 ] i j = 0 ,当且仅当对 k k k 的至少一个值, a i k a_{ik} a ik 和 a k j a_{kj} a kj 都是非零的。但是,这种情况成立,当且仅当在 Γ ( A ) \Gamma(A) Γ ( A ) 中存在一条从 P i P_i P i 到 P j P_j P j 的道路。一般地,假定对 m = q m = q m = q 结论已经证明。于是
[ ∣ A ∣ q + 1 ] i j = ∑ k = 1 n [ ∣ A ∣ q ] i k [ ∣ A i ] k j = ∑ k = 1 n [ ∣ A ∣ q ] i k ∣ a k i ∣ ≠ 0 [ | A | ^ {q + 1} ] _ {i j} = \sum_ {k = 1} ^ {n} [ | A | ^ {q} ] _ {i k} [ | A _ {i} ] _ {k j} = \sum_ {k = 1} ^ {n} [ | A | ^ {q} ] _ {i k} | a _ {k i} | \neq 0 [ ∣ A ∣ q + 1 ] ij = k = 1 ∑ n [ ∣ A ∣ q ] ik [ ∣ A i ] kj = k = 1 ∑ n [ ∣ A ∣ q ] ik ∣ a ki ∣ = 0 当且仅当对 k k k 的至少一个值, [ ∣ A ∣ q ] ∗ \left[ \mid A \mid^q \right]_* [ ∣ A ∣ q ] ∗ 和 ∣ a k j ∣ \left| a_{kj} \right| ∣ a kj ∣ 都是非零的。这等价于有一条从 P i P_i P i 到 P k P_k P k 的长为 q q q 的道路及一条从 P k P_k P k 到 P j P_j P j 的长为 1 的道路,而这种情况成立,当且仅当存在一条从 P i P_i P i 到 P j P_j P j 的长为 q + 1 q + 1 q + 1 的道路。同样的证明对 M ( A ) M(A) M ( A ) 也是可行的。
6.2.17 定义 设 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n ,我们说 A ⩾ 0 A \geqslant 0 A ⩾ 0 ( A A A 是非负矩阵),是指它的元素 a i j a_{ij} a ij 都是非负实数。我们说 A > 0 A > 0 A > 0 ( A A A 是正矩阵),是指它的元素 a i j a_{ij} a ij 都是正实数。 6.2.18 推论 设 A ∈ M n A \in M_{n} A ∈ M n . 那么, ∣ A ∣ m > 0 |A|^{m} > 0 ∣ A ∣ m > 0 , 当且仅当从 Γ ( A ) \Gamma(A) Γ ( A ) 中的每个结点 P i P_{i} P i 到每个结点 P j P_{j} P j , 在 Γ ( A ) \Gamma(A) Γ ( A ) 中都存在一条长恰好为 m m m 的有向道路. 相同的结论对 M ( A ) m M(A)^{m} M ( A ) m 也成立. 6.2.19 推论 设 A ∈ M n A \in M_{n} A ∈ M n . 那么, A A A 有性质 SC, 当且仅当 ( I + ∣ A ∣ ) n − 1 > 0 (I + |A|)^{n-1} > 0 ( I + ∣ A ∣ ) n − 1 > 0 , 或等价地, 如果 [ I + M ( A ) ] n − 1 > 0 [I + M(A)]^{n-1} > 0 [ I + M ( A ) ] n − 1 > 0 .
证明: ( I + ∣ A ∣ ) n − 1 = I + ( n − 1 ) ∣ A ∣ + ( n − 1 2 ) ∣ A ∣ 2 + ⋯ + ( n − 1 n − 2 ) ∣ A ∣ n − 1 > 0 (I + |A|)^{n - 1} = I + (n - 1) |A| + \binom{n - 1}{2} |A|^2 + \cdots + \binom{n - 1}{n - 2} |A|^{n - 1} > 0 ( I + ∣ A ∣ ) n − 1 = I + ( n − 1 ) ∣ A ∣ + ( 2 n − 1 ) ∣ A ∣ 2 + ⋯ + ( n − 2 n − 1 ) ∣ A ∣ n − 1 > 0 ,当且仅当对诸结点的每对 ( i , j ) (i, j) ( i , j ) , i ≠ j i \neq j i = j ,在诸项 ∣ A ∣ |A| ∣ A ∣ , ∣ A ∣ 2 |A|^2 ∣ A ∣ 2 ,…, ∣ A ∣ n − 1 |A|^{n - 1} ∣ A ∣ n − 1 中,至少有一个正 ( i , j ) (i, j) ( i , j ) 元。但是,定理(6.2.16)说明,这种情况成立,当且仅当在 Γ ( A ) \Gamma(A) Γ ( A ) 中存在从 P i P_i P i 到 P j P_j P j 的某条有向道路。它等价于 Γ ( A ) \Gamma(A) Γ ( A ) 是强连通的,而这又等价于 A A A 具有性质 SC。
练习 证明推论(6.2.19)中涉及 M ( A ) M(A) M ( A ) 的论断。
6.2.20推论在 Γ ( A ) \Gamma (A) Γ ( A ) 中存在从 P i P_{i} P i 到 P j P_{j} P j 的道路,当且仅当 [ I + ∣ a ∣ ) n − 1 ] i j ≠ 0. [I + |a|)^{n - 1}]_{ij}\neq 0. [ I + ∣ a ∣ ) n − 1 ] ij = 0.
练习 试用推论(6.2.19)给出关于性质 S C SC SC 的一个明确的计算检验法,它只需要对矩阵自乘大约 log 2 ( n − 1 ) \log_2(n - 1) log 2 ( n − 1 ) 次,而不是 n − 2 n - 2 n − 2 次。提示:考虑 ( I + ∣ A ∣ ) 2 (I + |A|)^2 ( I + ∣ A ∣ ) 2 ,这是平方,然后依此类推。
在结束这个论题以前,我们要引进性质SC的另外一个等价的描述。它基于 Γ ( A ) \Gamma(A) Γ ( A ) 的强连通性只是 Γ ( A ) \Gamma(A) Γ ( A ) 的拓扑性质这一事实……它与 Γ ( A ) \Gamma(A) Γ ( A ) 的诸结点所规定的下标毫无关系。如果改变诸结点的下标顺序,图仍然保持其强连通性或非强连通性。要注意的是,如果交换 A A A 的第 i i i 行和第 j j j 行以及第 i i i 列和第 j j j 列,这对 Γ ( A ) \Gamma(A) Γ ( A ) 的影响是交换结点 P i P_{i} P i 和 P j P_{j} P j 的下标,反过来也
一样.
我们知道,转置矩阵 P P P 是方阵,它的所有元素为0或1;在 A A A 的每一行和每一列恰好有一个1。显然,这样的矩阵是酉矩阵,因而是正交矩阵,所以 P T = P − 1 P^{\mathrm{T}} = P^{-1} P T = P − 1 。最简单的置换矩阵 P P P 对 i , j i, j i , j 的每个固定选择有 p i i = p j j = 1 p_{ii} = p_{jj} = 1 p ii = p jj = 1 ,且所有其他非对角元为0。于是,相似 P T A P P^{\mathrm{T}}AP P T A P 对 A A A 的作用是交换 A A A 的第 i i i 列和第 j j j 列以及交换 A A A 的第 i i i 行和第 j j j 行。 A A A 的行和列的任一置换可以依次用这种形式的交换来得到,并且任一置换矩阵是这样一些简单置换矩阵的有限乘积。因此,如果 P P P 是置换矩阵,则通过适当置换 A A A 的若干行和列可由 A A A 得到相似 P T A P P^{\mathrm{T}}AP P T A P 。重要的是要知道,是否可以求得 A A A 的行和列的某个置换把 A A A 变成下述特殊的分块形式。
6.2.21 定义 矩阵 A A A 称为可约的,指的是
(a) n = 1 n = 1 n = 1 且 A = 0 A = 0 A = 0 :或者
(b) n ⩾ 2 n \geqslant 2 n ⩾ 2 ,存在置换矩阵 P ∈ M n P \in M_{n} P ∈ M n ,且存在适合 1 ⩽ r ⩽ n − 1 1 \leqslant r \leqslant n - 1 1 ⩽ r ⩽ n − 1 的某个整数 r r r ,使得
P T A P = [ B C 0 D ] , P ^ {T} A P = \left[ \begin{array}{c c} B & C \\ 0 & D \end{array} \right], P T A P = [ B 0 C D ] , 其中, B ∈ M r B\in M_r B ∈ M r , D ∈ M n − r D\in M_{n - r} D ∈ M n − r , C ∈ M r , n − r C\in M_{r,n - r} C ∈ M r , n − r ,且 0 ∈ M n − r 0\in M_{n - r} 0 ∈ M n − r 是零矩阵.
注意,我们并没要求子块 B B B , C C C 和 D D D 有非零元,而只要求通过一系列行的交换和列的交换可以在指定的位置上得到一个由0元组成的 ( n − r ) × r (n - r)\times r ( n − r ) × r 子块.如果 ∣ A ∣ > 0 \mid A\mid >0 ∣ A ∣> 0 ,显然 A A A 不是可约的,又如果 A A A 是可约,则它至少必须有 ( n − 1 ) (n - 1) ( n − 1 ) 个0元.
附注假如想解线性方程组 A x = y Ax = y A x = y ,且假定 A A A 是可约的,于是,如果记 A ~ = P T A P = [ B C 0 D ] \widetilde{A} = P^T A P = \left[ \begin{array}{cc}B & C\\ 0 & D \end{array} \right] A = P T A P = [ B 0 C D ] 则有 Λ x = P A ~ P T x = y \Lambda x = P\widetilde{A} P^{T}x = y Λ x = P A P T x = y ,或 A ~ ( P T x ) = P T y \widetilde{A} (P^T x) = P^T y A ( P T x ) = P T y 令 P T x = x ^ = [ z T : ζ T ] T P^T x = \widehat{x} = [z^T:\zeta^T ]^T P T x = x = [ z T : ζ T ] T (未知)和 P T y = y ˉ = [ w T : ω T ] T P^T y = \bar{y} = [w^T:\omega^T ]^T P T y = y ˉ = [ w T : ω T ] T (已知),其中, z z z , ω ∈ C r \omega \in \mathbf{C}^{r} ω ∈ C r ,而 ζ , ω ∈ C n − r \zeta ,\omega \in \mathbf{C}^{n - r} ζ , ω ∈ C n − r ,因此,要解的方程组等价于 A ~ x ~ = y ~ = [ B C 0 D ] [ z ζ ] = [ ω ω ] \widetilde{A}\widetilde{x} = \widetilde{y} = \left[ \begin{array}{ll}B & C\\ 0 & D \end{array} \right]\left[ \begin{array}{l}z\\ \zeta \end{array} \right] = \left[ \begin{array}{l}\omega \\ \omega \end{array} \right] A x = y = [ B 0 C D ] [ z ζ ] = [ ω ω ] 即等价于
B z + C ζ = w , D ζ = ω . \begin{array}{l} B z + C \zeta = w, \\ D \zeta = \omega . \\ \end{array} B z + Cζ = w , D ζ = ω . 如果首先对 ζ \zeta ζ 来解 D ζ = ω D\zeta = \omega D ζ = ω ,然后在第一个方程中采用 ζ \zeta ζ 并且对 z z z 来解 B z = w − C ζ Bz = w - C\zeta B z = w − Cζ ,那么就把原来的问题化简成两个较小的问题,一般说来,它们应该是比较容易解决的。这番评注就是促成定义术语可约矩阵的理由。
6.2.22 定义 如果矩阵 A ∈ M n A \in M_{n} A ∈ M n 不是可约的,就称 A A A 是不可约的。
6.2.23 定理 矩阵 A ∈ M n A \in M_{n} A ∈ M n 是不可约的,当且仅当
( I + ∣ A ∣ ) n − 1 > 0 , (I + \mid A \mid) ^ {n - 1} > 0, ( I + ∣ A ∣ ) n − 1 > 0 , 或等价地,如果 [ I + M ( A ) ] n > 0 [I + M(A)]^n > 0 [ I + M ( A ) ] n > 0
证明:我们实际上要证明, A A A 是可约的,当且仅当 ( I + ∣ A ∣ ) n − 1 (I + |A|)^{n - 1} ( I + ∣ A ∣ ) n − 1 至少有一个零元.首先假定 A A A 是可约的,且对某个置换矩阵 P P P 有
A = P [ B C 0 D ] P T = P A ~ P T , A = P \left[ \begin{array}{l l} B & C \\ 0 & D \end{array} \right] P ^ {T} = P \tilde {A} P ^ {T}, A = P [ B 0 C D ] P T = P A ~ P T , 360
其中 B , C , 0 B, C, 0 B , C , 0 和 D D D 是定义(6.2.21)中的分块矩阵,注意到 P P P 的作用仅仅是交换行和列的顺序,所以 ∣ A ∣ = ∣ P A ~ P T ∣ = P ∣ A ~ ∣ P T |A| = |P\widetilde{A} P^{\mathrm{T}}| = P|\widetilde{A}|P^{\mathrm{T}} ∣ A ∣ = ∣ P A P T ∣ = P ∣ A ∣ P T ;同时还注意到, ∣ A ~ ∣ 2 , ∣ A ~ ∣ 3 , ⋯ , ∣ A ~ ∣ n |\widetilde{A}|^{2}, |\widetilde{A}|^{3}, \cdots, |\widetilde{A}|^{n} ∣ A ∣ 2 , ∣ A ∣ 3 , ⋯ , ∣ A ∣ n 和 A ~ \widetilde{A} A 一样,在其左下角都有相同的 ( n − r ) × r (n - r)\times r ( n − r ) × r 0子块.因此
( I + ∣ A ∣ ) n − 1 = ( I + P ∣ Λ ~ ∣ P T ) n − 1 = ( P [ I + ∣ Λ ~ ∣ ] P T ) n − 1 = P ( I + ∣ Λ ~ ∣ ) n − 1 P T = P [ I + ( n − 1 ) ∣ A ~ ∣ + ( n − 1 2 ) ∣ A ~ ∣ 2 + ⋯ + ( n − 1 n − 1 ) ∣ A ~ ∣ n − 1 ] P T , \begin{array}{l} (I + | A |) ^ {n - 1} = (I + P | \tilde {\Lambda} | P ^ {T}) ^ {n - 1} = (P [ I + | \tilde {\Lambda} | ] P ^ {T}) ^ {n - 1} = P (I + | \tilde {\Lambda} |) ^ {n - 1} P ^ {T} \\ = P \left[ I + (n - 1) \mid \tilde {A} \mid + \binom {n - 1} {2} \mid \tilde {A} \mid^ {2} + \dots + \binom {n - 1} {n - 1} \mid \tilde {A} \mid^ {n - 1} \right] P ^ {T}, \\ \end{array} ( I + ∣ A ∣ ) n − 1 = ( I + P ∣ Λ ~ ∣ P T ) n − 1 = ( P [ I + ∣ Λ ~ ∣ ] P T ) n − 1 = P ( I + ∣ Λ ~ ∣ ) n − 1 P T = P [ I + ( n − 1 ) ∣ A ~ ∣ + ( 2 n − 1 ) ∣ A ~ ∣ 2 + ⋯ + ( n − 1 n − 1 ) ∣ A ~ ∣ n − 1 ] P T , 361
且上述方括号中的所有项在其左下角都有 ( n − r ) × r (n - r) \times r ( n − r ) × r 0子块。于是, ( I + ∣ A ∣ ) n − 1 (I + |A|)^{n-1} ( I + ∣ A ∣ ) n − 1 是可约的,因而它的所有元不可能都是非零的。
反之,假定对某个 p ≠ q p \neq q p = q , ( I + ∣ A ∣ ) n − 1 (I + |A|)^{n-1} ( I + ∣ A ∣ ) n − 1 的 ( p , q ) (p, q) ( p , q ) 元是 0。于是得知在 Γ ( A ) \Gamma(A) Γ ( A ) 中不存在从 P p P_p P p 到 P q P_q P q 的有向道路。定义结点集
S 1 ≡ { P i : P i = P q 或 在 Γ ( A ) 中 有 一 条 从 P i 到 P q 的 道 路 } S _ {1} \equiv \{P _ {i}: P _ {i} = P _ {q} \text {或 在} \Gamma (A) \text {中 有 一 条 从} P _ {i} \text {到} P _ {q} \text {的 道 路} \} S 1 ≡ { P i : P i = P q 或 在 Γ ( A ) 中 有 一 条 从 P i 到 P q 的 道 路 } 又设 S 2 S_{2} S 2 包含 Γ ( A ) \Gamma(A) Γ ( A ) 的所有不在 S 1 S_{1} S 1 中的结点。因 S 1 ∪ S 2 = { P 1 , ⋯ , P n } S_{1} \cup S_{2} = \{P_{1}, \cdots, P_{n}\} S 1 ∪ S 2 = { P 1 , ⋯ , P n } 且 P ˙ q ∈ S 1 ≠ ∅ \dot{P}_{q} \in S_{1} \neq \emptyset P ˙ q ∈ S 1 = ∅ ,所以 S 2 ≠ { P 1 , ⋯ , P n } S_{2} \neq \{P_{1}, \cdots, P_{n}\} S 2 = { P 1 , ⋯ , P n } ,如果从 S 2 S_{2} S 2 的某结点 P i P_{i} P i 到 S 1 S_{1} S 1 的某结点 P j P_{j} P j 有一条道路,则(根据 S 1 S_{1} S 1 的定义)存在从 P i P_{i} P i 到 P q P_{q} P q 的道路,因而 P i P_{i} P i 已在 S 1 S_{1} S 1 中。因此,从 S 2 S_{2} S 2 的任一结点到 S 1 S_{1} S 1 的任一结点不可能有任何道路。现在我们重新标记结点,使 S 1 = { P ~ 1 , ⋯ , P ~ n } S_{1} = \{\tilde{P}_{1}, \cdots, \tilde{P}_{n}\} S 1 = { P ~ 1 , ⋯ , P ~ n } 和 S 2 = { P ~ i + 1 , ⋯ , P ~ n } S_{2} = \{\tilde{P}_{i+1}, \cdots, \tilde{P}_{n}\} S 2 = { P ~ i + 1 , ⋯ , P ~ n } ,注意到
A ~ = P T A P = [ B C 0 D ] , B ∈ M r , 0 ∈ M n − r , r , \tilde {A} = P ^ {T} A P = \left[ \begin{array}{l l} B & C \\ 0 & D \end{array} \right], \quad B \in M _ {r}, \quad 0 \in M _ {n - r, r}, A ~ = P T A P = [ B 0 C D ] , B ∈ M r , 0 ∈ M n − r , r , 因此 A A A 是可约的.关于 [ I + M ( A ) ] n > 0 [I + M(A)]^{n} > 0 [ I + M ( A ) ] n > 0 的证明不过是作同样的论述.
我们作一下总结.
6.2.24 定理 设 A ∈ M n A \in M_{n} A ∈ M n ,则下列命题等价:
(a) A A A 是不可约矩阵; (b) ( I + ∣ A ∣ ) n − 1 > 0 (I + |A|)^{n - 1} > 0 ( I + ∣ A ∣ ) n − 1 > 0 (c) [ I + M ( A ) ] n − 1 > 0 [I + M(A)]^{n - 1} > 0 [ I + M ( A ) ] n − 1 > 0 (d) Γ ( A ) \Gamma(A) Γ ( A ) 是强连通的; (e) A A A 具有性质SC.
6.2.25 定义 设 A ∈ M n A \in M_{n} A ∈ M n 。称 A A A 是不可约对角占优矩阵,是指 A A A 适合以下条件:
(a) A A A 是不可约的; (b) A A A 是对角占优的,即对所有 i = 1 , … , n i = 1, \dots, n i = 1 , … , n 有 ∣ a n ∣ ⩾ R i ′ ( A ) |a_{n}| \geqslant R_{i}^{\prime}(A) ∣ a n ∣ ⩾ R i ′ ( A ) ; (c) 对 i i i 的至少一个值,有 ∣ a n ∣ > R r ′ ( A ) \left|a_{n}\right| > R_{r}^{\prime}(A) ∣ a n ∣ > R r ′ ( A )
练习 用例子说明,一个矩阵可能是不可约的和对角占优的,但不是不可约对角占优的。
采用现在的术语,可以重新表述“较好定理”(6.2.8)及其推论如下:
6.2.26 定理 设 A ∈ M n A \in M_{n} A ∈ M n 是不可约的, 则仅当每个 Gersgorin 圆经过 λ \lambda λ 时, Gersgorin 区域 G ( A ) G(A) G ( A ) 的边界点 λ \lambda λ 才可以为 A A A 的特征值.
6.2.27 推论(Taussky)设 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n 是不可约对角占优矩阵,那么,
(a) A A A 是可逆矩阵;
(b) 如果所有 a n > 0 a_{n} > 0 a n > 0 ,则对 A A A 的所有特征值 λ i \lambda_{i} λ i 有 Re ( λ i ) > 0 \operatorname{Re}(\lambda_i) > 0 Re ( λ i ) > 0 ;
(c) 如果 A A A 是Hermite矩阵(或更一般地, A A A 只有实特征值),又如果 A A A 的所有主对角元都是正的,则 A A A 的所有特征值都是正的.
6.2.28 推论 设 A ∈ M n A \in M_{n} A ∈ M n 是不可约矩阵,且假定对 i i i 的至少一个值有
R i = ∑ j = 1 n ∣ a i j ∣ < ∥ A ∥ r , R _ {i} = \sum_ {j = 1} ^ {n} | a _ {i j} | < \| A \| _ {r}, R i = j = 1 ∑ n ∣ a ij ∣ < ∥ A ∥ r , 即不是所有绝对行和等于极大绝对行和. 则 ρ ( A ) < ∥ A ∥ ∞ \rho(A) < \|A\|_{\infty} ρ ( A ) < ∥ A ∥ ∞ . 更一般地, 如果 p 1 , ⋯ , p n > 0 p_1, \cdots, p_n > 0 p 1 , ⋯ , p n > 0 , 如果
D = diag ( p 1 , p 2 , … , p n ) , D = \operatorname {d i a g} \left(p _ {1}, p _ {2}, \dots , p _ {n}\right), D = diag ( p 1 , p 2 , … , p n ) , 又如果对 i i i 的至少一个值有 R i ( D − 1 A D ) < ∥ D − 1 A D ∥ R_{i}(D^{-1}AD) < \left\| D^{-1}AD\right\| R i ( D − 1 A D ) < D − 1 A D , 则 ρ ( A ) < ∥ D − 1 A D ∥ ∞ \rho(A) < \left\| D^{-1}AD\right\|_{\infty} ρ ( A ) < D − 1 A D ∞ .
证明:我们总有界 ρ ( A ) ⩽ ∥ A ∥ ∞ \rho(A) \leqslant \|A\|_{\infty} ρ ( A ) ⩽ ∥ A ∥ ∞ ,而等式成立,当且仅当存在 A A A 的某个特征值 λ \lambda λ 适合 ∣ λ ∣ = ∥ A ∥ ∞ |\lambda| = \|A\|_{\infty} ∣ λ ∣ = ∥ A ∥ ∞ 。另一方面,根据定理(6.2.26),每个Gersgorin圆必定经过 λ \lambda λ 。但是,某个 R t < ∥ A ∥ ∞ R_t < \|A\|_{\infty} R t < ∥ A ∥ ∞ 的假设条件与这相矛盾。把同样的证明应用于 D − 1 A D D^{-1}AD D − 1 A D 便得出第二个论断。 □ \square □
习题 证明不可约矩阵不可能有0行和0列
用例子说明推论(6.2.28)中的不可约性假设是必不可少的。
假定 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n , λ \lambda λ 是 ∣ A ∣ ≡ [ ∣ a i j ∣ ] |A| \equiv [\mid a_{ij} \mid] ∣ A ∣ ≡ [ ∣ a ij ∣ ] 的特征值,且存在所有 x i > 0 x_i > 0 x i > 0 的向量 x = [ x 1 ] ∈ R n x = [x_1] \in \mathbb{R}^n x = [ x 1 ] ∈ R n 使得 ∣ A ∣ x = λ x |A| x = \lambda x ∣ A ∣ x = λ x 。设 D = diag ( x 1 , x 2 , … , x n ) D = \operatorname{diag}(x_1, x_2, \dots, x_n) D = diag ( x 1 , x 2 , … , x n ) ,证明 D ′ ∣ A ∣ D D' \mid A \mid D D ′ ∣ A ∣ D 的每个Gersgorin圆经过 λ \lambda λ ,画出它的图形。关于 D ′ A D D'AD D ′ A D 的绝对行和,你能说些什么?
在第8章中将证明,具有正元素的方阵总有正特征值和相应的正特征向量。利用这一事实和上一个习题证明,只要 A A A 的所有元是非零的,就有
ρ ( A ) ⩽ ρ ( ∣ A ∣ ) . \rho (A) \leqslant \rho (\mid A \mid). ρ ( A ) ⩽ ρ ( ∣ A ∣ ) . 试用连续性证明, A A A 的所有元是非零的条件可以略去,因而对所有 A ∈ M n A \in M_{n} A ∈ M n 有
ρ ( A ) ⩽ ρ ( ∣ A ∣ ) . \rho (A) \leqslant \rho (\mid A \mid). ρ ( A ) ⩽ ρ ( ∣ A ∣ ) . 试用推论(6.2.28)证明,关于多项式
p ( z ) = z n + a n − 1 z n − 1 + ⋯ + a 1 z + a 0 , a 0 ≠ 0 p (z) = z ^ {n} + a _ {n - 1} z ^ {n - 1} + \dots + a _ {1} z + a _ {0}, \quad a _ {0} \neq 0 p ( z ) = z n + a n − 1 z n − 1 + ⋯ + a 1 z + a 0 , a 0 = 0 的根的 Cauchy 界 (5.6.40) 在不出现下述情形
∣ a 0 ∣ = ∣ a 1 ∣ + 1 = ∣ a 2 ∣ + 1 = ⋯ = ∣ a n − 1 ∣ + 1 \left| a _ {0} \right| = \left| a _ {1} \right| + 1 = \left| a _ {2} \right| + 1 = \dots = \left| a _ {n - 1} \right| + 1 ∣ a 0 ∣ = ∣ a 1 ∣ + 1 = ∣ a 2 ∣ + 1 = ⋯ = ∣ a n − 1 ∣ + 1 的假设下可稍许改进为
∣ z ˉ ∣ < max { ∣ a 0 ∣ , ∣ a 1 ∣ + 1 , ∣ a 2 ∣ + 1 , … , ∣ a n − 1 ∣ + 1 } . | \bar {z} | < \max \left\{\left| a _ {0} \right|, \left| a _ {1} \right| + 1, \left| a _ {2} \right| + 1, \dots , \left| a _ {n - 1} \right| + 1 \right\}. ∣ z ˉ ∣ < max { ∣ a 0 ∣ , ∣ a 1 ∣ + 1 , ∣ a 2 ∣ + 1 , … , ∣ a n − 1 ∣ + 1 } . 提示:证明,若 a 0 ≠ 0 a_0 \neq 0 a 0 = 0 ,则(5.6.39)中的友矩阵 C ( p ) C(p) C ( p ) 是不可约的,对Montel界(5.6.41),Carmichael和Mason界(5.6.42),Montel界(5.6.43),以及Kojima界(5.6.45)可作何改进?
进一步阅读 关于Levy-Desplanques定理的讨论以及许多有关的参考文献可参看O. Taussky, “A Recurring Theorem on Determinants,” Amer. Math. Monthly 56 (1949), 672-676.