8.2 正矩阵 对正矩阵来说,非负矩阵理论显示出它的最简单和最优美的形式,关于这种情形,O.Perron在1607年做出了主要的贡献.
8.2.1 引理 设 A ∈ M n A \in M_{n} A ∈ M n ,且假定 Λ > 0 \Lambda > 0 Λ > 0 , Λ x = λ x \Lambda x = \lambda x Λ x = λ x , x ≠ 0 x \neq 0 x = 0 ,以及 ∣ λ ∣ = ρ ( A ) |\lambda| = \rho(A) ∣ λ ∣ = ρ ( A ) 。则 A ∣ x ∣ = ρ ( A ) ∣ x ∣ A \mid x \mid = \rho(A) \mid x \mid A ∣ x ∣= ρ ( A ) ∣ x ∣ 且 ∣ x ∣ > 0 |x| > 0 ∣ x ∣ > 0 。
证明:计算
ρ ( A ) ∣ x ∣ = ∣ λ ∣ ∣ x ∣ = ∣ λ x ∣ = ∣ A x ∣ ⩽ ∣ A ∣ ∣ x ∣ = A ∣ x ∣ \rho (A) | x | = | \lambda | | x | = | \lambda x | = | A x | \leqslant | A | | x | = A | x | ρ ( A ) ∣ x ∣ = ∣ λ ∣∣ x ∣ = ∣ λ x ∣ = ∣ A x ∣ ⩽ ∣ A ∣∣ x ∣ = A ∣ x ∣ 因而 y ≡ A ∣ x ∣ − ρ ( A ) ∣ x ∣ ⩾ 0 y \equiv A \mid x \mid -\rho(A) \mid x \mid \geqslant 0 y ≡ A ∣ x ∣ − ρ ( A ) ∣ x ∣ ⩾ 0 ,因为 ∣ x ∣ ⩾ 0 |x| \geqslant 0 ∣ x ∣ ⩾ 0 且 ∣ x ∣ ≠ 0 |x| \neq 0 ∣ x ∣ = 0 ,所以由(8.1.14)可知 A ∣ x ∣ > 0 A \mid x \mid > 0 A ∣ x ∣> 0 。又推论(8.1.25)保证 ρ ( A ) > 0 \rho(A) > 0 ρ ( A ) > 0 ,所以,当 y = 0 y = 0 y = 0 时有 A ∣ x ∣ = ρ ( A ) ∣ x ∣ A \mid x \mid = \rho(A) \mid x \mid A ∣ x ∣= ρ ( A ) ∣ x ∣ 和 ∣ x ∣ = ρ ( A ) ⋅ A ∣ x ∣ > 0 |x| = \rho(A) \cdot A \mid x \mid > 0 ∣ x ∣ = ρ ( A ) ⋅ A ∣ x ∣> 0 。如果 y ≠ 0 y \neq 0 y = 0 ,令 z ≡ A ∣ x ∣ > 0 z \equiv A \mid x \mid > 0 z ≡ A ∣ x ∣> 0 ,再运用(8.1.14):
0 < A y = A z − ρ ( A ) z 或 A z > ρ ( A ) z 0 < A y = A z - \rho (A) z \quad {\text {或}} \quad A z > \rho (A) z 0 < A y = A z − ρ ( A ) z 或 A z > ρ ( A ) z 但是根据推论(8.1.29),我们有荒谬的结论 ρ ( A ) > ρ ( A ) \rho(A) > \rho(A) ρ ( A ) > ρ ( A ) 。从而得知 y = 0 y = 0 y = 0 ,证毕。
由这个技术性引理,容易推导出关于正矩阵的第一个基本结果。
8.2.2 定理 设 A ∈ M n A \in M_{n} A ∈ M n ,且假定 A A A 是正矩阵,则 ρ ( A ) > 0 \rho(A) > 0 ρ ( A ) > 0 , ρ ( A ) \rho(A) ρ ( A ) 是 A A A 的特征值,且存在正向量 x x x 使得 A x = ρ ( A ) x Ax = \rho(A)x A x = ρ ( A ) x .
证明:存在特征值 λ \lambda λ ,且 ∣ λ ∣ = ρ ( A ) > 0 |\lambda| = \rho(A) > 0 ∣ λ ∣ = ρ ( A ) > 0 ,而相应的特征向量 x ≠ 0 x \neq 0 x = 0 。根据引理,所要求的向量是 ∣ x ∣ |x| ∣ x ∣ 。
练习 如果 A ∈ M n A \in M_{n} A ∈ M n ,且 A > 0 A > 0 A > 0 ,试用推论(8.1.31)证明
ρ ( A ) = max x > 0 min 1 ⩽ i ⩽ n 1 x i ∑ j − 1 n a i j x j = min r > 0 max 1 ⩽ i ⩽ n 1 x i ∑ j − 1 n a i j x j . \rho (A) = \max _ {x > 0} \min _ {1 \leqslant i \leqslant n} \frac {1}{x _ {i}} \sum_ {j - 1} ^ {n} a _ {i j} x _ {j} = \min _ {r > 0} \max _ {1 \leqslant i \leqslant n} \frac {1}{x _ {i}} \sum_ {j - 1} ^ {n} a _ {i j} x _ {j}. ρ ( A ) = x > 0 max 1 ⩽ i ⩽ n min x i 1 j − 1 ∑ n a ij x j = r > 0 min 1 ⩽ i ⩽ n max x i 1 j − 1 ∑ n a ij x j . 只要稍微强化一下引理(8.2.1)的叙述,就可以加深对 A A A 的特征值的估计的认识。
8.2.3 引理 设 A ∈ M n A \in M_{n} A ∈ M n ,且假定 A > 0 A > 0 A > 0 , A x = λ x Ax = \lambda x A x = λ x , x ≠ 0 x \neq 0 x = 0 ,以及 ∣ λ ∣ = ρ ( A ) |\lambda| = \rho(A) ∣ λ ∣ = ρ ( A ) 。则对某个 θ ∈ R \theta \in \mathbb{R} θ ∈ R , e i θ x = ∣ x ∣ > 0 \operatorname{e}^{\operatorname{i}\theta}x = |x| > 0 e i θ x = ∣ x ∣ > 0 。
证明:假设条件保证 ∣ A x ∣ = ∣ λ x ∣ = ρ ( A ) ∣ x ∣ |Ax| = |\lambda x| = \rho(A) |x| ∣ A x ∣ = ∣ λ x ∣ = ρ ( A ) ∣ x ∣ ,且由引理(8.2.1)可知, A ∣ x ∣ = ρ ( A ) ∣ x ∣ A|x| = \rho(A) |x| A ∣ x ∣ = ρ ( A ) ∣ x ∣ 且 ∣ x ∣ > 0 |x| > 0 ∣ x ∣ > 0 。综合这两个恒等式和三角不等式,对每个 k = 1 , … , n k = 1, \dots, n k = 1 , … , n ,有
ρ ( A ) ∣ x k ∣ = ∣ λ ∣ ∣ x k ∣ = ∣ λ x k ∣ = ∣ ∑ p = 1 n a k p x p ∣ ⩽ ∑ p = 1 n ∣ a k p ∣ ∣ x p ∣ = ∑ p − 1 n a k p ∣ x p ∣ = ρ ( A ) ∣ x k ∣ . \begin{array}{l} \rho (A) \mid x _ {k} \mid = \mid \lambda \mid \mid x _ {k} \mid = \mid \lambda x _ {k} \mid = \left| \sum_ {p = 1} ^ {n} a _ {k p} x _ {p} \right| \\ \leqslant \sum_ {p = 1} ^ {n} | a _ {k p} | | x _ {p} | = \sum_ {p - 1} ^ {n} a _ {k p} | x _ {p} | = \rho (A) | x _ {k} |. \\ \end{array} ρ ( A ) ∣ x k ∣=∣ λ ∣∣ x k ∣=∣ λ x k ∣= ∑ p = 1 n a k p x p ⩽ ∑ p = 1 n ∣ a k p ∣∣ x p ∣ = ∑ p − 1 n a k p ∣ x p ∣ = ρ ( A ) ∣ x k ∣. 因此,在三角不等式中等式必须成立,因而(非零)复数 a k p x p a_{kp}x_p a k p x p , p = 1 p = 1 p = 1 ,…, n n n ,一定都位于复平面的同一条射线上.如果用 θ \theta θ 表示它们的公共辐角,则 e − i θ a k p x p > 0 e^{-i\theta}a_{kp}x_p > 0 e − i θ a k p x p > 0 对所有 p = 1 p = 1 p = 1 ,…, n n n 成立.但是,因为所有 a k p > 0 a_{kp} > 0 a k p > 0 ,所以有 e − i θ x > 0 e^{-i\theta}x > 0 e − i θ x > 0 □
8.2.4 定理 设 Λ ∈ M n \Lambda \in M_{n} Λ ∈ M n ,且假定 A A A 是正矩阵,则对每个特征值 λ ≠ ρ ( A ) \lambda \neq \rho(A) λ = ρ ( A ) 有 ∣ λ ∣ < ρ ( A ) |\lambda| < \rho(A) ∣ λ ∣ < ρ ( A ) .
证明:根据定义, ∣ λ ∣ ⩽ ρ ( A ) |\lambda |\leqslant \rho (A) ∣ λ ∣ ⩽ ρ ( A ) 对 A A A 的所有特征值 λ \lambda λ 成立.假如 ∣ λ ∣ = ρ ( A ) |\lambda | = \rho (A) ∣ λ ∣ = ρ ( A ) ,且 A x = Ax = A x =
495
λ x , x ≠ 0 \lambda x, x \neq 0 λ x , x = 0 。根据引理(8.2.3),对某个 θ ∈ R \theta \in \mathbb{R} θ ∈ R 有 w ≡ e i θ x > 0 w \equiv e^{i\theta}x > 0 w ≡ e i θ x > 0 ,所以 A w = λ w A w = \lambda w A w = λ w 。但是根据推论(8.1.30)有 λ = ρ ( A ) \lambda = \rho(A) λ = ρ ( A ) □
[496]
现在我们知道,如果 A > 0 A > 0 A > 0 ,则 ρ ( A ) \rho(A) ρ ( A ) 可以看成严格最大模特征值,而不会有其他可能性。下一个结果说明, ρ ( A ) \rho(A) ρ ( A ) 是几何重数为1的特征值;即相应于 ρ ( A ) \rho(A) ρ ( A ) 的特征空间有维数1。实际上,我们马上就会看到, ρ ( A ) \rho(A) ρ ( A ) 的代数重数也是1。
8.2.5 定理 设 A ∈ M n A \in M_{n} A ∈ M n ,且假定 A > 0 A > 0 A > 0 , w w w 和 z z z 是适 A w ′ = ρ ( A ) w A w' = \rho(A) w A w ′ = ρ ( A ) w 和 A z = ρ ( A ) z A z = \rho(A) z A z = ρ ( A ) z 的非零向量,则存在某个 α ∈ C \alpha \in \mathbb{C} α ∈ C 使得 w ′ = α z w' = \alpha z w ′ = α z .
证明:根据引理(8.2.3),存在实数 θ 1 \theta_{1} θ 1 和 θ 2 \theta_{2} θ 2 使得 p ≡ e − θ 1 z > 0 p \equiv e^{-\theta_{1}}z > 0 p ≡ e − θ 1 z > 0 和 q ≡ e − i θ 2 w > 0 q \equiv e^{-i\theta_{2}}w > 0 q ≡ e − i θ 2 w > 0 。令 β ≡ min q 1 p 1 \beta \equiv \min q_{1}p_{1} β ≡ min q 1 p 1 且定义 r ≡ q − β p r \equiv q - \beta p r ≡ q − βp ,注意到 r ⩾ 0 r \geqslant 0 r ⩾ 0 且 r r r 至少有一个坐标为 0,所以 r r r 不是正向量。但是 A r = A q − β A p = ρ ( A ) q − β ρ ( A ) p = ρ ( A ) r Ar = Aq - \beta Ap = \rho(A)q - \beta \rho(A)p = \rho(A)r A r = A q − β A p = ρ ( A ) q − βρ ( A ) p = ρ ( A ) r ,所以,如果 r ≠ 0 r \neq 0 r = 0 ,由(8.1.14)可知, r = ρ ( A ) − 1 A r > 0 r = \rho(A)^{-1}Ar > 0 r = ρ ( A ) − 1 A r > 0 。因为这不成立,得出 r = 0 r = 0 r = 0 ,因而 q = β p q = \beta p q = βp 且 w = β e i ( θ 2 − θ 1 ) z w = \beta e^{i(\theta_{2} - \theta_{1})}z w = β e i ( θ 2 − θ 1 ) z □
8.2.6 推论 设 A ∈ M n A \in M_{n} A ∈ M n ,且假定 A > 0 A > 0 A > 0 ,则存在唯一向量 x x x ,使得 A x = ρ ( Λ ) x Ax = \rho(\Lambda)x A x = ρ ( Λ ) x , x > 0 x > 0 x > 0 且 ∑ i = 1 n x i = 1 \sum_{i=1}^{n} x_{i} = 1 ∑ i = 1 n x i = 1 .
练习 证明推论(8.2.6).
推论(8.2.6)中所描述的唯一的正规化特征向量常常称为 A A A 的Perron 向量; ρ ( A ) \rho(A) ρ ( A ) 常常称为 A A A 的 Perron 根。当然,如果 A A A 是正矩阵,则 A T A^T A T 亦是,所以,上述所有结果也可以应用于 A T A^T A T 。 A T A^T A T 的 Perron 向量称为 A A A 的左 Perron 向量。
练习 如果 A ∈ M n A \in M_{n} A ∈ M n ,且 A > 0 A > 0 A > 0 ,又如果存在某个 x ∈ C n x \in \mathbf{C}^{n} x ∈ C n ,使得 x ⩾ 0 x \geqslant 0 x ⩾ 0 , x ≠ 0 x \neq 0 x = 0 ,且 A x = λ x Ax = \lambda x A x = λ x ,证明 x x x 是 A A A 的 Perron 向量的倍数且 λ = ρ ( A ) \lambda = \rho(A) λ = ρ ( A ) 。
我们对研究 m → ∞ m \to \infty m → ∞ 时幂 A m A^{m} A m 的变化过程感兴趣,因为这些幂出现在数值分析的应用中以及概率论中的Markov链理论的应用中。下面的引理把对于非负矩阵的各个极限定理是本质的诸条件分离开来。注意,如果 A > 0 A > 0 A > 0 且 λ = ρ ( A ) \lambda = \rho(A) λ = ρ ( A ) ,则所有假设条件都适合。
497
8.2.7 引理 设 A ∈ M n A \in M_{n} A ∈ M n 是给定的矩阵, λ ∈ C \lambda \in \mathbb{C} λ ∈ C 是给定的数,且假定 x x x 和 y y y 是适合
(1) A x = λ x A x = \lambda x A x = λ x (2) A T y = λ y A^T y = \lambda y A T y = λ y ; (3) x T y = 1 x^T y = 1 x T y = 1 ;
的向量.定义 L ≡ x y t L\equiv xy^t L ≡ x y t ,则
(a) L x = x Lx = x Lx = x 且 y T L = y T y^{T}L = y^{T} y T L = y T (b) L m = L L^{m} = L L m = L 对所有 m = 1 , 2 , … m = 1,2,\dots m = 1 , 2 , … 成立; (c) A m L = L A m = λ m L A^{m}L = LA^{m} = \lambda^{m}L A m L = L A m = λ m L 对所有 m = 1 , 2 , … m = 1,2,\dots m = 1 , 2 , … 成立; (d) L ( A − λ L ) = 0 L(A - \lambda L) = 0 L ( A − λ L ) = 0 (c) ( A − λ L ) m = A m − λ m L (A - \lambda L)^{m} = A^{m} - \lambda^{m}L ( A − λ L ) m = A m − λ m L 对所有 m = 1 , 2 , … m = 1,2,\dots m = 1 , 2 , … 成立; (f) A − λ L A - \lambda L A − λ L 的每个非零特征值也是 A A A 的特征值.
如果另外还假定
(4) λ ≠ 0 \lambda \neq 0 λ = 0 (5) λ \lambda λ 是的 A A A 的特征值,且有几何重数 1;于是还有 (g) λ \lambda λ 不是 A − λ L A - \lambda L A − λ L 的特征值;即 λ I − ( A − λ L ) \lambda I - (A - \lambda L) λ I − ( A − λ L ) 是可逆矩阵.
最后,如果假定
(6) ∣ λ ∣ = ρ ( Λ ) > 0 |\lambda| = \rho(\Lambda) > 0 ∣ λ ∣ = ρ ( Λ ) > 0 ;
(7) λ \lambda λ 是 A A A 的模为 ρ ( A ) \rho(A) ρ ( A ) 的仅有特征值;又如果把 A A A 的特征值排成顺序 ∣ λ 1 ∣ ⩽ ∣ λ 2 ∣ ⩽ ⋯ ⩽ ∣ λ n ∣ < ∣ λ n ∣ = ∣ λ ∣ = ρ ( A ) |\lambda_1| \leqslant |\lambda_2| \leqslant \cdots \leqslant |\lambda_n| < |\lambda_n| = |\lambda| = \rho(A) ∣ λ 1 ∣ ⩽ ∣ λ 2 ∣ ⩽ ⋯ ⩽ ∣ λ n ∣ < ∣ λ n ∣ = ∣ λ ∣ = ρ ( A ) ,则
(h) ρ ( A − λ I ) ⩽ ∣ λ n ∣ < ρ ( A ) ; \rho (A - \lambda I)\leqslant |\lambda_{n}| < \rho (A); ρ ( A − λ I ) ⩽ ∣ λ n ∣ < ρ ( A ) ;
(i) 当 m → ∞ m \to \infty m → ∞ 时, ( λ − 1 A ) m = L + ( λ − 1 A − L ) m → L ; (\lambda^{-1}A)^{m} = L + (\lambda^{-1}A - L)^{m} \to L; ( λ − 1 A ) m = L + ( λ − 1 A − L ) m → L ;
(j)对每个适合 [ ∣ λ n ∣ ∣ / ρ ( A ) ] < r < 1 \left[\mid \lambda_{n}\mid \mid /\rho (A)\right] < r < 1 [ ∣ λ n ∣∣ / ρ ( A ) ] < r < 1 的 r r r ,存在某个 C = C ( r , A ) C = C(r,A) C = C ( r , A ) ,使得 ∥ ( λ − 1 A ) m − L ∥ \| (\lambda^{-1}A)^{m} - L\| ∥ ( λ − 1 A ) m − L ∥ < C r m < Cr^{m} < C r m 对所有 m = 1 m = 1 m = 1 ,2,成立.
证明:论断(a),(b)和(c)可直接从假定(1),(2)和(3)推出;注意(3)推出, x x x 和 y y y 都是非零向量。论断(d)可以由(b)和(c)推出。命题(e)可以用(b)和(c)来归纳证明。如果 μ ≠ 0 \mu \neq 0 μ = 0 是 A − λ L A - \lambda L A − λ L 的特征值,又如果对某个 w ≠ 0 w \neq 0 w = 0 有 ( A − λ L ) w = μ w (A - \lambda L)w = \mu w ( A − λ L ) w = μ w ,则 L ( A − λ L ) w = 0 w = 0 = μ L w L(A - \lambda L)w = 0w = 0 = \mu Lw L ( A − λ L ) w = 0 w = 0 = μL w ,因而 L w = 0 Lw = 0 L w = 0 。因此, ( A − λ L ) w = A w = μ w (A - \lambda L)w = Aw = \mu w ( A − λ L ) w = A w = μ w ,所以 μ \mu μ 也是 A A A 的特征值,(f) 得证。
如果现在引用假设(4)且取 μ = λ \mu = \lambda μ = λ ,上述论证说明,如果 w w w 是 A − λ L A - \lambda L A − λ L 的特征向量,则 w w w 也是 A A A 的 λ \lambda λ 的特征向量。根据假设(5),我们一定可得出 w = α x w = \alpha x w = αx 对某个 α ≠ 0 \alpha \neq 0 α = 0 成立。另一方面, μ w = λ w = ( A − λ L ) w = ( A − λ L ) α x = α λ x − λ α x = 0 \mu w = \lambda w = (A - \lambda L)w = (A - \lambda L)\alpha x = \alpha \lambda x - \lambda \alpha x = 0 μ w = λ w = ( A − λ L ) w = ( A − λ L ) αx = α λ x − λ αx = 0 ,又因为 λ ≠ 0 \lambda \neq 0 λ = 0 且 w ≠ 0 w \neq 0 w = 0 ,所以这是不可能的。这个矛盾证明了(g)。因为(f),我们知道,或者对 A A A 的某个特征值 λ k \lambda_{k} λ k 有 ρ ( A − λ L ) = ∣ λ k ∣ \rho(A - \lambda L) = |\lambda_k| ρ ( A − λ L ) = ∣ λ k ∣ ,或者 ρ ( A − λ L ) = 0 \rho(A - \lambda L) = 0 ρ ( A − λ L ) = 0 。因为已给出了 A A A 的特征值的递增顺序,且 ∣ λ n ∣ = ∣ λ ∣ = ρ ( A ) |\lambda_n| = |\lambda| = \rho(A) ∣ λ n ∣ = ∣ λ ∣ = ρ ( A ) ,所以由(g)可知,在这两种情形, ρ ( A − λ L ) ⩽ ∣ λ n − 1 ∣ \rho(A - \lambda L) \leqslant |\lambda_{n-1}| ρ ( A − λ L ) ⩽ ∣ λ n − 1 ∣ 。因此(h)中的不等式可直接由(7)推出。把(h)和(e)结合起来不难算出,当 m → ∞ m \to \infty m → ∞ 时 ( λ − 1 A − L ) m = ( λ − 1 A ) m − L → 0 (\lambda^{-1}A - L)^{m} = (\lambda^{-1}A)^{m} - L \to 0 ( λ − 1 A − L ) m = ( λ − 1 A ) m − L → 0 ,这是因为 ρ ( λ − 1 A − L ) = ρ ( A − λ L ) / ρ ( A ) ⩽ ∣ λ n ∣ / ρ ( A ) ⩽ 1 \rho(\lambda^{-1}A - L) = \rho(A - \lambda L) / \rho(A) \leqslant |\lambda_n| / \rho(A) \leqslant 1 ρ ( λ − 1 A − L ) = ρ ( A − λ L ) / ρ ( A ) ⩽ ∣ λ n ∣/ ρ ( A ) ⩽ 1 。(j)中的收敛速度是推论(5.6.13)应用于矩阵 λ − 1 A − L \lambda^{-1}A - L λ − 1 A − L 的直接推论,其中选取 ε \varepsilon ε 适合 ρ ( λ − 1 A − L ) + ε ⩽ [ ∣ λ n ∣ / ρ ( A ) ] + ε < r < 1 \rho(\lambda^{-1}A - L) + \varepsilon \leqslant [|\lambda_n| / \rho(A)] + \varepsilon < r < 1 ρ ( λ − 1 A − L ) + ε ⩽ [ ∣ λ n ∣/ ρ ( A )] + ε < r < 1 □
练习 给出引理中(a),(b)和(c)的证明细节.
8.2.8 定理 设 A ∈ M n A \in M_{n} A ∈ M n 且假定 A > 0 A > 0 A > 0 ,则
lim m , n [ ρ ( A ) ′ A ] m = I , \lim _ {m, n} \left[ \rho (A) ^ {\prime} A \right] ^ {m} = I, m , n lim [ ρ ( A ) ′ A ] m = I , 其中, L ≡ x y T L\equiv xy^T L ≡ x y T , A x = ρ ( A ) x A x = \rho (A)x A x = ρ ( A ) x , A ′ y = ρ ( A ) y A^{\prime}y = \rho (A)y A ′ y = ρ ( A ) y , x > 0 x > 0 x > 0 , y > 0 y > 0 y > 0 且 x T y = 1 x^{T}y = 1 x T y = 1
证明:引理的假定(1)-(7)为 λ = ρ ( A ) \lambda = \rho(A) λ = ρ ( A ) 所满足, x x x 是 A A A 的 Perron 向量,且 y = ( x ′ z ) − 1 z y = (x^{\prime}z)^{-1}z y = ( x ′ z ) − 1 z 其中 z z z 是 A T A^T A T 的 Perron 向量。结论可由(i)推出。
8.2.9 推论 如果 A ∈ M n A \in M_{n} A ∈ M n 且 A > 0 A > 0 A > 0 ,则 L ≡ lim m → ∞ [ ρ ( A ) − 1 A ] m L \equiv \lim_{m \to \infty} [\rho(A)^{-1} A]^m L ≡ lim m → ∞ [ ρ ( A ) − 1 A ] m 是秩 1 的正矩阵。
8.2.10 定理 如果 A ∈ M n A \in M_{n} A ∈ M n 且 A > 0 A > 0 A > 0 ,则 ρ ( A ) \rho(A) ρ ( A ) 是代数重数为 1 的特征值;即 ρ ( A ) \rho(A) ρ ( A ) 是特征方程 p A ( t ) = 0 p_{A}(t) = 0 p A ( t ) = 0 的单根。
证明:根据Schur三角化定理(2.3.1),可以记 A = U Δ U ∗ A = U\Delta U^{*} A = U Δ U ∗ ,其中, U \pmb{U} U 是酉矩阵, Δ \pmb{\Delta} Δ 是主对角元为 ρ , … , ρ , λ k + 1 , … , λ n \rho ,\dots ,\rho ,\lambda_{k + 1},\dots ,\lambda_n ρ , … , ρ , λ k + 1 , … , λ n 的上三角矩阵,且 ρ = ρ ( A ) \rho = \rho (A) ρ = ρ ( A ) 是代数重数 k ⩾ 1 k\geqslant 1 k ⩾ 1 的特征值;对所有
499 \boxed{499} 499 i = k + 1 i = k + 1 i = k + 1 ,…,n,特征值的模都严格小于 ρ ( A ) \rho (A) ρ ( A ) .另一方面,
L = lim m → ∞ [ ρ ( A ) − 1 A ] m = U lim m [ 1 ⋱ ∗ 1 λ k + 1 ρ ⋱ 0 λ n ρ ] m = U [ 1 ⋱ ∗ 1 0 0 ⋱ 0 ] U ∗ , \begin{array}{l} L = \lim _ {m \rightarrow \infty} [ \rho (A) ^ {- 1} A ] ^ {m} \\ = U \lim _ {m} \left[ \begin{array}{c c c c c} 1 & & & & \\ & \ddots & & * & \\ & & 1 & & \\ & & & \frac {\lambda_ {k + 1}}{\rho} & \\ & & & & \\ & & & & \ddots \\ & 0 & & & \frac {\lambda_ {n}}{\rho} \end{array} \right] ^ {m} \\ = U \left[ \begin{array}{c c c c c} 1 & & & & \\ & \ddots & & * \\ & & 1 & & \\ & & & 0 & \\ & 0 & & & \ddots \\ & & & & 0 \end{array} \right] U ^ {*}, \\ \end{array} L = lim m → ∞ [ ρ ( A ) − 1 A ] m = U lim m 1 ⋱ 0 1 ∗ ρ λ k + 1 ⋱ ρ λ n m = U 1 ⋱ 0 1 ∗ 0 ⋱ 0 U ∗ , 其中,在后两个表示中对角元1重复 k k k 次,在最后一个表示式中对角0元重复 n − k n - k n − k 次,因为最后表示式中的上三角矩阵至少有秩 k k k ,又因为 L L L 有秩1,得知, k > 1 k > 1 k > 1 是不可能的. □
我们现在总结一下在本节中得到的关于正矩阵的基本结果.
8.2.11 Perron定理 如果 A ∈ M n A\in M_{n} A ∈ M n 且 A > 0 A > 0 A > 0 ,则
(a) ρ ( A ) > 0 \rho (A) > 0 ρ ( A ) > 0 (b) ρ ( A ) \rho(A) ρ ( A ) 是 A A A 的特征值; (c) 存在 x ∈ C n x \in \mathbf{C}^n x ∈ C n ,适合 x > 0 x > 0 x > 0 且 A x = ρ ( A ) x Ax = \rho(A)x A x = ρ ( A ) x ; (d) ρ ( A ) \rho(A) ρ ( A ) 是 A A A 的代数(因而几何)单重特征值; (e) ∣ λ ∣ < ρ ( A ) |\lambda| < \rho(A) ∣ λ ∣ < ρ ( A ) 对每个特征值 λ ≠ ρ ( A ) \lambda \neq \rho(A) λ = ρ ( A ) 成立,即 ρ ( A ) \rho(A) ρ ( A ) 是唯一的最大模特征值; (f) 当 m → ∞ m \to \infty m → ∞ 时 [ ρ ( A ) − 1 A ] m → L [\rho(A)^{-1}A]^{m} \to L [ ρ ( A ) − 1 A ] m → L , 其中 L ≡ x y T L \equiv xy^T L ≡ x y T , A x = ρ ( A ) x Ax = \rho(A)x A x = ρ ( A ) x , A T y = ρ ( A ) y A^T y = \rho(A)y A T y = ρ ( A ) y , x > 0 x > 0 x > 0 , y > 0 y > 0 y > 0 且 x † y = 1 x^{\dagger}y = 1 x † y = 1 .
500
Perron定理有许多应用. 一个优美而又有效的应用是, 利用占优非负矩阵的谱半径和主对角元得到了矩阵 A A A 的特征值包含区域.
8.2.12 定理(樊)设 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n ,且假定 B = [ b i j ] ∈ M n B = [b_{ij}] \in M_n B = [ b ij ] ∈ M n 有非负元和 B ⩾ ∣ A ∣ B \geqslant |A| B ⩾ ∣ A ∣ ,则 A A A 的每个特征值位于区域
⋃ i = 1 n { z ∈ C : ∣ z − a n i ∣ ⩽ ρ ( B ) − b n } \bigcup_ {i = 1} ^ {n} \left\{z \in \mathbf {C}: | z - a _ {n i} | \leqslant \rho (B) - b _ {n} \right\} i = 1 ⋃ n { z ∈ C : ∣ z − a ni ∣ ⩽ ρ ( B ) − b n } 中.
证明:可以假定 B > 0 B > 0 B > 0 ,因为如果 B B B 的某个元是零,我们可以考虑 B ϵ ≡ [ b i j + ϵ ] B_{\epsilon} \equiv [b_{ij} + \epsilon] B ϵ ≡ [ b ij + ϵ ] ,其中 ϵ > 0 \epsilon > 0 ϵ > 0 ; B ϵ > ∣ A ∣ B_{\epsilon} > |A| B ϵ > ∣ A ∣ ,且当 ϵ → 0 \epsilon \to 0 ϵ → 0 时 ρ ( B ϵ ) − ( b i i + ϵ ) → ρ ( B ) − b i i \rho(B_{\epsilon}) - (b_{ii} + \epsilon) \to \rho(B) - b_{ii} ρ ( B ϵ ) − ( b ii + ϵ ) → ρ ( B ) − b ii 。根据Perron定理,存在正向量 x x x 使
得 B x = ρ ( B ) x Bx = \rho(B)x B x = ρ ( B ) x ,因而对所有 i = 1 , 2 , … , n i = 1, 2, \dots, n i = 1 , 2 , … , n 有
∑ j − 1 j ≠ t n ∣ a t j ∣ x j ⩽ ∑ j − 1 j ≠ t n b n x j = ρ ( B ) x t − b u x t . \sum_ {\substack {j - 1 \\ j \neq t}} ^ {n} | a _ {t j} | x _ {j} \leqslant \sum_ {\substack {j - 1 \\ j \neq t}} ^ {n} b _ {n} x _ {j} = \rho (B) x _ {t} - b _ {u} x _ {t}. j − 1 j = t ∑ n ∣ a t j ∣ x j ⩽ j − 1 j = t ∑ n b n x j = ρ ( B ) x t − b u x t . 因此,对所有 i = 1 , 2 , … , n i = 1,2,\dots ,n i = 1 , 2 , … , n 有
1 x i ∑ j = 1 j ≠ i n ∣ a i j ∣ x j ⩽ ρ ( B ) − b i . \frac {1}{x _ {i}} \sum_ {\substack {j = 1 \\ j \neq i}} ^ {n} | a _ {i j} | x _ {j} \leqslant \rho (B) - b _ {i}. x i 1 j = 1 j = i ∑ n ∣ a ij ∣ x j ⩽ ρ ( B ) − b i . 在推论(6.1.6)中取 p i = x i p_{i} = x_{i} p i = x i 便推出要求的结果
(8.2.11)中的(f)保证确定的极限存在,而(8.2.7)中的(j)给出了关于收敛速度的一个上界
∥ [ ρ ( A ) − 1 A ] m − L ∥ ∞ < C r m , \| [ \rho (A) ^ {- 1} A ] ^ {m} - L \| _ {\infty} < C r ^ {m}, ∥ [ ρ ( A ) − 1 A ] m − L ∥ ∞ < C r m , 这个上界对某个与 A A A 和 r r r 有关的正常数 C C C 和任何适合
∣ λ r − 1 ∣ ρ ( A ) < r < 1 \frac {\left| \lambda_ {r - 1} \right|}{\rho (A)} < r < 1 ρ ( A ) ∣ λ r − 1 ∣ < r < 1 的 r r r 成立,其中 λ n − 1 \lambda_{n-1} λ n − 1 是 A A A 的有第二大模的特征值。即使 ρ ( A ) \rho(A) ρ ( A ) 已知或容易估计,但是要想得出关于比值 ∣ λ n − 1 ∣ / ρ ( A ) |\lambda_{n-1}| / \rho(A) ∣ λ n − 1 ∣/ ρ ( A ) 的有用界,计算或估计 ∣ λ n − 1 ∣ |\lambda_{n-1}| ∣ λ n − 1 ∣ 也许不方便或者不可能。在这种情形,知道一个容易计算的界可能很有用,这个界属于 E E E 。Hopf,它对任何正矩阵 A = [ a i j ] ∈ M n A = [a_{ij}] \in M_n A = [ a ij ] ∈ M n 都成立:
∣ λ n − 1 ∣ ρ ( A ) ⩽ M − μ M + μ < 1 , \frac {\left| \lambda_ {n - 1} \right|}{\rho (A)} \leqslant \frac {M - \mu}{M + \mu} < 1, ρ ( A ) ∣ λ n − 1 ∣ ⩽ M + μ M − μ < 1 , 其中 M = max { a i j : i , j = 1 , 2 , … , n } M = \max \{a_{ij} : i, j = 1, 2, \dots, n\} M = max { a ij : i , j = 1 , 2 , … , n } 而 μ = min { a i j : i , j = 1 , 2 , … , n } \mu = \min \{a_{ij} : i, j = 1, 2, \dots, n\} μ = min { a ij : i , j = 1 , 2 , … , n } .
习题
如果 A > 0 A > 0 A > 0 , x x x 是 A A A 的 Perron 向量,又如果 z z z 是 A T A^T A T 的 Perron 向量,证明 x T z > 0 x^T z > 0 x T z > 0 .
如果 Δ ∈ M n \Delta \in M_{n} Δ ∈ M n 是具有 k k k 个非零主对角元的上三角矩阵,证明 rank Δ ⩾ k \operatorname{rank} \Delta \geqslant k rank Δ ⩾ k 。用例子说明,在这些条件下,有可能秩大于 k k k 。
把本节推导出的结果应用于矩阵
A = [ 1 − α β α 1 − β ] , 0 < α , β < 1 , A = \left[ \begin{array}{c c} 1 - \alpha & \beta \\ \alpha & 1 - \beta \end{array} \right], \quad 0 < \alpha , \quad \beta < 1, A = [ 1 − α α β 1 − β ] , 0 < α , β < 1 , 且与(8.0)节中的相关结论相比较
如(8.0)节中所描述的那样,考虑具有 n > 2 n > 2 n > 2 个城市的一般城市间的人口流动模型。如果所有人口流动系数 a i j a_{ij} a ij 是正的,那么,当 m → ∞ m \to \infty m → ∞ 时,人口分布 p ( m ) p^{(m)} p ( m ) 的渐近变化过程是什么?
如果 A > 0 A > 0 A > 0 ,详细描述当 m → ∞ m \to \infty m → ∞ 时 A m A^{m} A m 的渐近变化过程。提示:存在三种情形: A m → 0 A^{m} \to 0 A m → 0 , A m A^{m} A m 发散和收敛于正矩阵。说明并分析每种情形。
在推论(6.1.8)下面有一个讨论 2 × 2 2 \times 2 2 × 2 正矩阵的练习试用定理(8.2.2)下面的练习讨论这个例子。
设 A , B ∈ M n A, B \in M_{n} A , B ∈ M n , 且假定 A > B > 0 A > B > 0 A > B > 0 . 试且 ρ ( B ) \rho(B) ρ ( B ) 的“min max”特征证明 ρ ( A ) > ρ ( B ) \rho(A) > \rho(B) ρ ( A ) > ρ ( B ) . 提示: 设 x x x 是 A A A 的适合 A x > B x Ax > Bx A x > B x 的 Perron 向量.
如果 A > 0 A > 0 A > 0 ,且 x x x 是 A A A 的 Perron 向量,证明
ρ ( A ) = ∑ i , j = 1 n a i j x j . \rho (A) = \sum_ {i, j = 1} ^ {n} a _ {i j} x _ {j}. ρ ( A ) = i , j = 1 ∑ n a ij x j . 由定义可知, x 1 + ⋯ + x n = 1 x_{1} + \dots +x_{n} = 1 x 1 + ⋯ + x n = 1
如果正矩阵是非奇异的,证明其逆矩阵可能不是非负的。如果非负矩阵 A A A 是非奇异的,证明,仅当 A A A 的每一列中恰好有一个非零元时,其逆矩阵才可以是非负的。这样的矩阵与置换矩阵有何关系?
试给出定理(8.2.10)的下述另一个证明的细节:如果 ρ = ρ ( A ) \rho = \rho(A) ρ = ρ ( A ) 有代数重数 k > 1 k > 1 k > 1 ,又如果 y y y 和 x x x 分别是 A A A 的左和右 Perron 向量,则存在非零向量 z z z 使得 x = ( A − ρ I ) z x = (A - \rho I)z x = ( A − ρ I ) z 。另一方面, y T x = y T ( A − ρ I ) z = 0 T z = 0 y^T x = y^T (A - \rho I)z = 0^T z = 0 y T x = y T ( A − ρ I ) z = 0 T z = 0 ,因为 y T x > 0 y^T x > 0 y T x > 0 ,所以这是不可能的。提示:因为 ρ \rho ρ 的几何重数是 1,所以 A − ρ I A - \rho I A − ρ I 的 Jordan 形一定恰好有一个幂零子块,它至少应该是二阶。证明秩为 k − 1 ( k > 1 ) k - 1 (k > 1) k − 1 ( k > 1 ) 的任一幂零矩阵 B ∈ M k B \in M_k B ∈ M k 有以下性质:如果对某个 u ∈ C k u \in \mathbf{C}^k u ∈ C k 有 B u = 0 Bu = 0 B u = 0 ,则存在某个 v ∈ C k v \in \mathbf{C}^k v ∈ C k 使得 B v = u Bv = u B v = u 。
进一步阅读 集中论述各种界(其中包括本节最后一段提到的Hopf界)以及有关这方面的众多文献,可参看U.Rothblum and C.Tan,“Upper Bounds on the Maximum Modulus of Subdominant Eigenvalues of Nonnegative Matrices,”Linear Algebra Appl.66(1985),45-86.也可参看[Kel]chapterⅡ,theorem2.