6.2_收敛性分析

6.2 收敛性分析

6.2.1 基本概念

首先给出向量序列收敛的定义

定义6.2 (向量序列的收敛) 设 {x(k)}k=1\left\{x^{(k)}\right\}_{k=1}^{\infty}Rn\mathbb{R}^n (或 Cn\mathbb{C}^n ) 中的一个向量序列. 如果存在向量 x=[x1,x2,,xn]Rnx = [x_1, x_2, \ldots, x_n]^\top \in \mathbb{R}^n (或 Cn\mathbb{C}^n ) 使得

limkxi(k)=xi,i=1,2,,n,\lim _ {k \to \infty} x _ {i} ^ {(k)} = x _ {i}, i = 1, 2, \ldots , n,

其中 xi(k)x_{i}^{(k)} 表示 x(k)x^{(k)} 的第 ii 个分量, 则称 {x(k)}\{x^{(k)}\} (按分量) 收敛到 xx , 即 xxx(k)x^{(k)} 的极限, 记为

limkx(k)=x.\lim _ {k \to \infty} x ^ {(k)} = x.

类似地, 我们可以给出矩阵序列收敛的定义.

定义6.3 (矩阵序列的收敛) 设 {A(k)=[aij(k)]}k=0\left\{A^{(k)} = \left[a_{ij}^{(k)}\right]\right\}_{k=0}^{\infty}Rm×n\mathbb{R}^{m \times n} (或 Cm×n\mathbb{C}^{m \times n} ) 中的一个矩阵序列. 如果存在矩阵 A=[aij]Rm×nA = [a_{ij}] \in \mathbb{R}^{m \times n} (或 Cm×n\mathbb{C}^{m \times n} ) 使得

limkaij(k)=aij,i=1,2,,m,j=1,2,,n,\lim _ {k \to \infty} a _ {i j} ^ {(k)} = a _ {i j}, \quad i = 1, 2, \dots , m, j = 1, 2, \dots , n,

则称 A(k)A^{(k)} 收敛到 AA , 即 AAA(k)A^{(k)} 的极限, 记为

limkA(k)=A.\lim _ {k \to \infty} A ^ {(k)} = A.

关于向量序列和矩阵序列的收敛性, 我们有下面的基本判别方法 [144].

定理6.1 设向量序列 {x(k)}k=0Rn\{x^{(k)}\}_{k=0}^{\infty} \subset \mathbb{R}^{n} (或 Cn\mathbb{C}^{n} ), 矩阵序列 {A(k)=[aij(k)]}k=0Rm×n\left\{A^{(k)}=\left[a_{ij}^{(k)}\right]\right\}_{k=0}^{\infty} \subset \mathbb{R}^{m \times n} (或 Cm×n\mathbb{C}^{m \times n} ), 则

(1) limkx(k)=xlimkx(k)x=0,\lim_{k\to \infty}x^{(k)} = x\Longleftrightarrow \lim_{k\to \infty}\| x^{(k)} - x\| = 0, 其中 \| \cdot \| 为任一向量范数;
(2) limkA(k)=AlimkA(k)A=0,\lim_{k\to \infty}A^{(k)} = A\Longleftrightarrow \lim_{k\to \infty}\| A^{(k)} - A\| = 0, 其中 \| \cdot \| 为任一矩阵范数;
(3) limkA(k)=0limkA(k)x=0,xRn\lim_{k\to \infty}A^{(k)} = 0\Longleftrightarrow \lim_{k\to \infty}A^{(k)}x = 0,\forall x\in \mathbb{R}^n (或 Cn\mathbb{C}^n)

由定理6.1和引理1.39,我们可以立即得到下面的结论

定理6.2 设矩阵 ARn×nA \in \mathbb{R}^{n \times n} (或 Cn×n\mathbb{C}^{n \times n} ), 则 limkAk=0\lim_{k \to \infty} A^k = 0 当且仅当 ρ(A)<1\rho(A) < 1 . (板书)

证明. 充分性: 设 ρ(A)<1\rho(A) < 1 , 则由引理 1.39 可知, 存在某个矩阵范数 \| \cdot \| 使得 A<1\| A \| < 1 . 因此由 0AkAk0(k)0 \leq \| A^k \| \leq \| A \|^k \to 0 (k \to \infty) 可得

limkAk=0.\lim _ {k \to \infty} \| A ^ {k} \| = 0.

根据定理6.1,我们有 limkAk=0.\lim_{k\to \infty}A^k = 0.

必要性:设 limkAk=0\lim_{k\to \infty}A^k = 0 ,则由定理6.1可知

limkAk=0.\lim _ {k \to \infty} \| A ^ {k} \| = 0.

所以由 0ρ(A)k=ρ(Ak)Ak0 \leq \rho(A)^{k} = \rho(A^{k}) \leq \|A^{k}\| 可得

limkρ(A)k=0,\lim_{k\to \infty}\rho (A)^{k} = 0,

ρ(A)<1\rho (A) < 1

下面给出谱半径与范数之间的一个重要关系式, 有时也用来定义矩阵的谱半径.

定理6.3 设 ARn×nA \in \mathbb{R}^{n \times n} (或 Cn×n\mathbb{C}^{n \times n} ), 则对任意矩阵范数 \|\cdot\| , 有

ρ(A)=limkAk1k.\rho (A) = \lim _ {k \rightarrow \infty} \left\| A ^ {k} \right\| ^ {\frac {1}{k}}.

(板书)

证明. 由谱半径与范数之间的关系可知

ρ(A)k=ρ(Ak)Ak.\rho (A) ^ {k} = \rho (A ^ {k}) \leq \| A ^ {k} \|.

另一方面, 对任意 ε>0\varepsilon > 0 , 构造矩阵

Aε=1ρ(A)+εA.A _ {\varepsilon} = \frac {1}{\rho (A) + \varepsilon} A.

ρ(Aε)<1\rho(A_{\varepsilon}) < 1 ,故 limkAεk=0\lim_{k \to \infty} A_{\varepsilon}^{k} = 0 。因此存在正整数 NN ,使得当 k>Nk > N 时,有 Aεk<1\|A_{\varepsilon}^{k}\| < 1 ,即

Ak(ρ(A)+ε)k=Ak(ρ(A)+ε)k<1.\left\| \frac {A ^ {k}}{(\rho (A) + \varepsilon) ^ {k}} \right\| = \frac {\| A ^ {k} \|}{(\rho (A) + \varepsilon) ^ {k}} < 1.

所以

ρ(A)Ak1kρ(A)+ε,\rho (A) \leq \left\| A ^ {k} \right\| ^ {\frac {1}{k}} \leq \rho (A) + \varepsilon ,

即对任意 ε>0\varepsilon > 0 ,存在正整数 NN ,使得当 k>Nk > N 时,有

Ak1kρ(A)<ε.\left| \left\| A ^ {k} \right\| ^ {\frac {1}{k}} - \rho (A) \right| < \varepsilon .

根据极限定义可知, Ak1kρ(A)\left\| A^k\right\| ^{\frac{1}{k}}\to \rho (A)

下面给出基本迭代法收敛的定义.

定义6.4 考虑基本迭代法(6.3),如果对任意的初始向量 x(0)x^{(0)} ,都有

limkx(k)x,\lim _ {k \to \infty} x ^ {(k)} \to x _ {*},

则称基本迭代法 (6.3) 是收敛的, 否则就称其为发散的.

基于矩阵分裂的迭代法, 其收敛性取决于迭代矩阵的谱半径.

下面考虑基本迭代法 (6.3) 的收敛性. 首先给出一个迭代法收敛的充分条件.

引理6.4 若存在算子范数 \| \cdot \| , 使得 G<1\| G \| < 1 , 则迭代法 (6.3) 收敛.

(板书)

证明. 由 x(k+1)=Gx(k)+gx^{(k + 1)} = Gx^{(k)} + gx=Gx+gx_{*} = Gx_{*} + g 可得

x(k+1)x=G(x(k)x).x ^ {(k + 1)} - x _ {*} = G \left(x ^ {(k)} - x _ {*}\right).

x(k+1)xGx(k)x.\left\| x ^ {(k + 1)} - x _ {*} \right\| \leq \| G \| \left\| x ^ {(k)} - x _ {*} \right\|.

依此类推, 可得

x(k+1)xGk+1x(0)x.\left\| x ^ {(k + 1)} - x _ {*} \right\| \leq \| G \| ^ {k + 1} \left\| x ^ {(0)} - x _ {*} \right\|.

由于 G<1\| G\| < 1 ,当 kk\to \infty 时,上式右端 0\rightarrow 0 ,即 x(k+1)x0.\left\| x^{(k + 1)} - x_{*}\right\| \to 0. 因此迭代法收敛.

事实上, 由习题1.10可知, 引理6.4条件中的算子范数可以改为任意矩阵范数
我们记 e(k)x(k)xe^{(k)} \triangleq x^{(k)} - x_{*} 为第 kk 步迭代解 x(k)x^{(k)} 的误差向量.

定理 6.5 (基本收敛性定理) 对任意初始向量 x(0)x^{(0)} , 迭代法 (6.3) 收敛的充要条件是 ρ(G)<1\rho(G) < 1 . (板书)

证明. 必要性: 用反证法, 假设 ρ(G)1\rho(G) \geq 1 . 设 λ\lambdaGG 的模最大的特征值, 即 λ=ρ(G)1|\lambda| = \rho(G) \geq 1 . 令 x0x \neq 0 为其对应的特征向量. 取迭代初始向量 x(0)=x+xx^{(0)} = x_{*} + x , 则

x(k)x=G(x(k1)x)==Gk(x(0)x)=Gkx=λkx,x ^ {(k)} - x _ {*} = G (x ^ {(k - 1)} - x _ {*}) = \dots = G ^ {k} (x ^ {(0)} - x _ {*}) = G ^ {k} x = \lambda^ {k} x,

不可能收敛到0,即方法不收敛.故假设不成立,因此 ρ(G)<1\rho (G) < 1

充分性: 若 ρ(G)<1\rho(G) < 1 , 则由引理 1.39 可知, 存在一个算子范数 ε\|\cdot\|_{\varepsilon} , 使得 Gε<1\|G\|_{\varepsilon} < 1 . 再由引理 6.4 可知, 方法收敛. \square

定义6.5 设 GG 是迭代矩阵, 则迭代法 (6.3) 的平均收敛速度定义为

Rk(G)lnGk1k,R _ {k} (G) \triangleq - \ln \| G ^ {k} \| ^ {\frac {1}{k}},

渐进收敛速度定义为

R(G)limkRk(G)=lnρ(G).R (G) \triangleq \lim _ {k \rightarrow \infty} R _ {k} (G) = - \ln \rho (G).

平均收敛速度与迭代步数和所用的范数有关, 但渐进收敛速度只依赖于迭代矩阵的谱半径.

数值分析中关于收敛速度的定义:

设点列 {εk}k=1\{\varepsilon_k\}_{k=1}^{\infty} 收敛, 且 limkεk=0\lim_{k \to \infty} \varepsilon_k = 0 . 若存在一个有界常数 0<c<0 < c < \infty , 使得

limkεk+1εkp=c,\lim _ {k \to \infty} \frac {\left| \varepsilon_ {k + 1} \right|}{\left| \varepsilon_ {k} \right| ^ {p}} = c,

则称点列 {εk}\{\varepsilon_k\}pp 次 (渐进) 收敛的. 若 1<p<21 < p < 2p=1p = 1c=0c = 0 , 则称点列是超线性收敛的.

定理6.6 考虑迭代法 (6.3). 如果存在某个算子范数 \| \cdot \| 使得 G=q<1\| G\| = q < 1 ,则

(1) x(k)xqkx(0)x\| x^{(k)} - x_{*}\| \leq q^{k}\| x^{(0)} - x_{*}\|
(2) x(k)xq1qx(k)x(k1)\| x^{(k)} - x_{*}\| \leq \frac{q}{1 - q}\| x^{(k)} - x^{(k - 1)}\|
(3) x(k)xqk1qx(1)x(0)\| x^{(k)} - x_{*}\| \leq \frac{q^{k}}{1 - q}\| x^{(1)} - x^{(0)}\|

(板书)

证明. (1) 由 x(k)=Gx(k1)+gx^{(k)} = Gx^{(k-1)} + gx=Gx+gx_{*} = Gx_{*} + g 可得

x(k)x=G(x(k1)x).x ^ {(k)} - x _ {*} = G \left(x ^ {(k - 1)} - x _ {*}\right).

因此有

x(k)xGx(k1)x=qx(k1)x.(6.7)\left\| x ^ {(k)} - x _ {*} \right\| \leq \| G \| \cdot \left\| x ^ {(k - 1)} - x _ {*} \right\| = q \| x ^ {(k - 1)} - x _ {*} \|. \tag {6.7}

反复利用结论 (\refeq:2)(\ref{eq:2}) 即可得 x(k)xqkx(0)x\| x^{(k)} - x_{*}\| \leq q^{k}\| x^{(0)} - x_{*}\|

(2) 由 x(k+1)=Gx(k)+gx^{(k + 1)} = Gx^{(k)} + gx=Gx+gx_{*} = Gx_{*} + g 可得

x(k+1)x(k)=G(x(k)x(k1))x ^ {(k + 1)} - x ^ {(k)} = G \left(x ^ {(k)} - x ^ {(k - 1)}\right)

因此有

x(k+1)x(k)qx(k)x(k1),(6.8)\left\| x ^ {(k + 1)} - x ^ {(k)} \right\| \leq q \| x ^ {(k)} - x ^ {(k - 1)} \|, \tag {6.8}

根据 (\refeq:1)(\ref{eq:1}) ,我们有 x(k+1)xqx(k)x\| x^{(k + 1)} - x_{*}\| \leq q\| x^{(k)} - x_{*}\| .所以

x(k+1)x(k)=xx(k)+x(k+1)xxx(k)x(k+1)x(1q)x(k)x.\begin{array}{l} \left\| x ^ {(k + 1)} - x ^ {(k)} \right\| = \left\| x _ {*} - x ^ {(k)} + x ^ {(k + 1)} - x _ {*} \right\| \\ \geq \left\| x _ {*} - x ^ {(k)} \right\| - \left\| x ^ {(k + 1)} - x _ {*} \right\| \\ \geq (1 - q) \| x ^ {(k)} - x _ {*} \|. \\ \end{array}

结合 (\refeq:1)(\ref{eq:1}) 可得

xx(k)11qx(k+1)x(k)q1qx(k)x(k1).\| x _ {*} - x ^ {(k)} \| \leq \frac {1}{1 - q} \| x ^ {(k + 1)} - x ^ {(k)} \| \leq \frac {q}{1 - q} \| x ^ {(k)} - x ^ {(k - 1)} \|.

(3) 反复利用 (\refeq:1)(\ref{eq:1}) 即可得

x(k+1)x(k)qkx(1)x(0).\left\| x ^ {(k + 1)} - x ^ {(k)} \right\| \leq q ^ {k} \left\| x ^ {(1)} - x ^ {(0)} \right\|.

所以

xx(k)11qx(k+1)x(k)qk1qx(1)x(0).\| x _ {*} - x ^ {(k)} \| \leq \frac {1}{1 - q} \| x ^ {(k + 1)} - x ^ {(k)} \| \leq \frac {q ^ {k}}{1 - q} \| x ^ {(1)} - x ^ {(0)} \|.

一般来说,好的迭代法应该满足[30]:

(1) ρ(G)\rho (G) 很小;
(2) 以 MM 为系数矩阵的线性方程组比较容易求解

6.2.2 不可约对角占优矩阵

这里我们考虑 AA 是严格对角占优或不可约对角占优情形

定理6.7 设 ARn×nA \in \mathbb{R}^{n \times n} , 若 AA 严格对角占优, 则 Jacobi 迭代法和 G-S 迭代法都收敛, 且

GGSGJ<1.\| G _ {\mathrm {G S}} \| _ {\infty} \leq \| G _ {\mathrm {J}} \| _ {\infty} < 1.

(板书)

证明. 首先证明 GJ<1\| G_{\mathrm{J}} \|_{\infty} < 1 . 由于 AA 严格行对角占优, 故 jiaij/aii<1\sum_{j \neq i} |a_{ij}| / |a_{ii}| < 1 . 所以

GJ=D1(L+U)=max1injiaijaii<1.\| G _ {\mathrm {J}} \| _ {\infty} = \| D ^ {- 1} (L + U) \| _ {\infty} = \max _ {1 \leq i \leq n} \sum_ {j \neq i} \frac {| a _ {i j} |}{| a _ {i i} |} < 1.

下面证明 GGSGJ\| G_{\mathrm{GS}}\|_{\infty}\leq \| G_{\mathrm{J}}\|_{\infty} ,只需证明 GGSeGJe|G_{\mathrm{GS}}|e\leq |G_{\mathrm{J}}|e 即可,其中 e=[1,1,,1]Te = [1,1,\dots ,1]^{\mathsf{T}}

L~=D1L\tilde{L} = D^{-1}LU~=D1U\tilde{U} = D^{-1}U . 则 L~\tilde{L} 是严格下三角矩阵, 故 L~n=0\tilde{L}^n = 0 , 所以

(IL~)1=I+L~+L~2++L~n1.(I - \tilde {L}) ^ {- 1} = I + \tilde {L} + \tilde {L} ^ {2} + \dots + \tilde {L} ^ {n - 1}.

于是

GGSe=(DL)1Ue=(IL~)1U~e=(I+L~+L~2++L~n1)U~e(I+L~+L~2++L~n1)U~e=(IL~)1U~e.(6.9)\begin{array}{l} | G _ {\mathrm {G S}} | e = | (D - L) ^ {- 1} U | e = | (I - \tilde {L}) ^ {- 1} \tilde {U} | e \\ = | (I + \tilde {L} + \tilde {L} ^ {2} + \dots + \tilde {L} ^ {n - 1}) \tilde {U} | e \\ \leq \left(I + | \tilde {L} | + | \tilde {L} | ^ {2} + \dots + | \tilde {L} | ^ {n - 1}\right) | \tilde {U} | e \\ = (I - | \tilde {L} |) ^ {- 1} | \tilde {U} | e. \tag {6.9} \\ \end{array}

AA 的严格行对角占优性可知 1jiaijaii>0,1 - \sum_{j\neq i}\frac{|a_{ij}|}{|a_{ii}|} >0,(IL~U~)e>0.(I - |\tilde{L}| - |\tilde{U}|)e > 0. 两边同乘 L~0|\tilde{L} |\geq 0 可得

0L~(IL~U~)e=(L~L~2+U~L~U~U~)e=((IL~)(L~+U~)U~)e,\begin{array}{l} 0 \leq | \tilde {L} | (I - | \tilde {L} | - | \tilde {U} |) e = (| \tilde {L} | - | \tilde {L} | ^ {2} + | \tilde {U} | - | \tilde {L} | \cdot | \tilde {U} | - | \tilde {U} |) e \\ = \big ((I - | \tilde {L} |) (| \tilde {L} | + | \tilde {U} |) - | \tilde {U} | \big) e, \\ \end{array}

U~e(IL~)(L~+U~)e.|\tilde{U}|e \leq (I - |\tilde{L}|)(|\tilde{L}| + |\tilde{U}|)e. 两边同乘 (IL~)10(I - |\tilde{L}|)^{-1} \geq 0 可得

(IL~)1U~e(L~+U~)e.(I - | \tilde {L} |) ^ {- 1} | \tilde {U} | e \leq (| \tilde {L} | + | \tilde {U} |) e.

L~+U~=D1(L+U)=GJ|\tilde{L}| + |\tilde{U}| = |D^{-1}(L + U)| = |G_{\mathrm{J}}| , 由 (6.9) 可知 GGSeGJe|G_{\mathrm{GS}}|e \leq |G_{\mathrm{J}}|e , 即定理结论成立.

AA 是严格列对角占优时, 该结论也成立.

定理6.8 设 ARn×nA \in \mathbb{R}^{n \times n} , 若 AA 不可约对角占优, 则 Jacobi 迭代法和 G-S 迭代法都收敛. 进一步, 若 AA 是非负矩阵, 则

ρ(GGS)<ρ(GJ)<1.\rho \left(G _ {\mathrm {G S}}\right) < \rho \left(G _ {\mathrm {J}}\right) < 1.

(留作课外自习, 需利用非负矩阵的相关知识, 可参见 [139])

思考:若 ARn×nA\in \mathbb{R}^{n\times n} 严格对角占优且非负,则是否有结论 ρ(GGS)ρ(GJ)?\rho (G_{\mathrm{GS}})\leq \rho (G_{\mathrm{J}})?

上述定理中的结论对一般矩阵并不成立:对某些矩阵,Jacobi迭代法收敛,但G-S迭代法却不一定收敛,见思考题6.23.

关于SOR迭代法,我们有下面的结论

定理6.9 设 ARn×nA \in \mathbb{R}^{n \times n} , 若 AA 严格对角占优且 0<ω10 < \omega \leq 1 , 则SOR迭代法收敛.

(板书)

证明. 反证法. 假设SOR迭代法不收敛, 即 ρ(GSOR)1\rho(G_{\mathrm{SOR}}) \geq 1 . 因此 GSORG_{\mathrm{SOR}} 存在特征值 λ\lambda , 满足 λ1|\lambda| \geq 1 . 由 det(λIGSOR)=0\operatorname*{det}(\lambda I - G_{\mathrm{SOR}}) = 0 可知

det(λI(DωL)1((1ω)D+ωU))=det((DωL)1)det(λ(DωL)(1ω)DωU)=det((DωL)1)det((λ+ω1)DλωLωU)=0.\begin{array}{l} \det \left(\lambda I - (D - \omega L) ^ {- 1} \big ((1 - \omega) D + \omega U \big)\right) = \det \left((D - \omega L) ^ {- 1}\right) \cdot \det \left(\lambda (D - \omega L) - (1 - \omega) D - \omega U\right) \\ = \det \left(\left(D - \omega L\right) ^ {- 1}\right) \cdot \det \left(\left(\lambda + \omega - 1\right) D - \lambda \omega L - \omega U\right) \\ = 0. \\ \end{array}

det((DωL)1)0\operatorname{det}\left((D - \omega L)^{-1}\right) \neq 0 ,所以

det((λ+ω1)DλωLωU)=0.\det \left((\lambda + \omega - 1) D - \lambda \omega L - \omega U\right) = 0.

0<ω10 < \omega \leq 1λ1|\lambda| \geq 1 可知, λ+ω10\lambda + \omega - 1 \neq 0 . 所以 det(G~)=0\operatorname{det}(\tilde{G}) = 0 , 其中

G~=Dλωλ+ω1Lωλ+ω1U.(6.10)\tilde {G} = D - \frac {\lambda \omega}{\lambda + \omega - 1} L - \frac {\omega}{\lambda + \omega - 1} U. \tag {6.10}

λ=a+ib\lambda = a + \mathbf{i}b ,其中 a,bRa,b\in \mathbb{R} .则根据 0<ω10 < \omega \leq 1λ1|\lambda |\geq 1 ,可得

λ+ω12λω2=(a+ω+1)2+b2ω2(a2+b2)=(1ω)((a1)2+ω(a2+b21)+b2)0.(6.11)\begin{array}{l} \left| \lambda + \omega - 1 \right| ^ {2} - \left| \lambda \omega \right| ^ {2} = (a + \omega + 1) ^ {2} + b ^ {2} - \omega^ {2} \left(a ^ {2} + b ^ {2}\right) \\ = (1 - \omega) \left((a - 1) ^ {2} + \omega \left(a ^ {2} + b ^ {2} - 1\right) + b ^ {2}\right) \tag {6.11} \\ \geq 0. \\ \end{array}

所以

ωλ+ω1λωλ+ω11.\frac {| \omega |}{| \lambda + \omega - 1 |} \leq \frac {| \lambda \omega |}{| \lambda + \omega - 1 |} \leq 1.

AA 是严格对角占优的, 所以由 (6.10) 和 (6.11) 可知, G~\tilde{G} 也严格对角占优. 这意味着 det(G~)0\operatorname*{det}(\tilde{G}) \neq 0 , 矛盾.

定理6.10 设 ARn×nA \in \mathbb{R}^{n \times n} , 若 AA 不可约对角占优且 0<ω10 < \omega \leq 1 , 则SOR迭代法收敛.

(留作课外自习)

6.2.3 对称正定矩阵

首先给出Richardson迭代法的收敛性

定理6.11 设 ARn×nA \in \mathbb{R}^{n \times n} 是对称正定矩阵, λ1\lambda_{1}λn\lambda_{n} 分别是 AA 的最大和最小特征值, 则Richardson迭代法收敛当且仅当

0<ω<2λ1.0 < \omega < \frac {2}{\lambda_ {1}}.

另外, Richardson 迭代法的最优参数为

ω=argminωρ(GR)=2λ1+λn,\omega_ {*} = \arg \min _ {\omega} \rho (G _ {\mathrm {R}}) = \frac {2}{\lambda_ {1} + \lambda_ {n}},

即当 ω=ω\omega = \omega_{*} 时,迭代矩阵的谱半径达到最小,并且有

ρ(GR)={1ωλn,i fωω,λ1λnλ1+λn=κ(A)1κ(A)+1,i fω=ω,ωλ11,i fωω.\rho (G _ {\mathrm {R}}) = \left\{ \begin{array}{l l} 1 - \omega \lambda_ {n}, & \text {i f} \omega \leq \omega_ {*}, \\ \frac {\lambda_ {1} - \lambda_ {n}}{\lambda_ {1} + \lambda_ {n}} = \frac {\kappa (A) - 1}{\kappa (A) + 1}, & \text {i f} \omega = \omega_ {*}, \\ \omega \lambda_ {1} - 1, & \text {i f} \omega \geq \omega_ {*}. \end{array} \right.

(留作练习)

下面考虑 Jacobi, Gauss-Seidel 和 SOR 的收敛性, 先介绍两个引理.

引理6.12 设 ACn×nA \in \mathbb{C}^{n \times n} 是Hermite的, 矩阵分裂 A=MNA = M - N , 其中 MM 非奇异, 则 M+NM^{*} + N 也是Hermite的, 且对任意 xCnx \in \mathbb{C}^{n}

xAxx~Ax~=u(M+N)u,x ^ {*} A x - \tilde {x} ^ {*} A \tilde {x} = u ^ {*} (M ^ {*} + N) u,

其中 x~=M1Nx,u=xx~\tilde{x} = M^{-1}Nx,u = x - \tilde{x}

(板书)

证明. 由于 AA 是Hermite的, 所以 M+N=M+MAM^{*} + N = M^{*} + M - A 也是Hermite的.

由于 x~=M1Nx\tilde{x} = M^{-1}Nx ,所以 Mx~=NxM\tilde{x} = Nx ,因此

Mu=MxMx~=MxNx=Ax,M u = M x - M \tilde {x} = M x - N x = A x,
Nu=NxNx~=Mx~Nx~=Ax~.N u = N x - N \tilde {x} = M \tilde {x} - N \tilde {x} = A \tilde {x}.

M+NM^{*} + N 的对称性可知 M=M+NNM = M^{*} + N - N^{*}(Nx)=(Mx~)(Nx)^{*} = (M\tilde{x})^{*} ,所以

xAxx~Ax~=xMux~Nu=x(M+NN)ux~Nu=xMuxNu+xNux~Nu=xMux~Mu+uNu=u(M+N)u.\begin{array}{l} x ^ {*} A x - \tilde {x} ^ {*} A \tilde {x} = x ^ {*} M u - \tilde {x} ^ {*} N u \\ = x ^ {*} (M ^ {*} + N - N ^ {*}) u - \tilde {x} ^ {*} N u \\ = x ^ {*} M ^ {*} u - x ^ {*} N ^ {*} u + x ^ {*} N u - \tilde {x} ^ {*} N u \\ = x ^ {*} M ^ {*} u - \tilde {x} ^ {*} M ^ {*} u + u ^ {*} N u \\ = u ^ {*} (M ^ {*} + N) u. \\ \end{array}

引理6.13 设 ARn×nA \in \mathbb{R}^{n \times n} 对称, 矩阵分裂 A=MNA = M - N 满足 M+NM^{\top} + N 正定, 则 ρ(M1N)<1\rho(M^{-1}N) < 1 当且仅当 AA 是正定的. (板书)

证明. 充分性. 设 λC\lambda \in \mathbb{C}M1NM^{-1}N 的一个特征值, 对应的特征向量为 x0x \neq 0 , 即

M1Nx=λx.M ^ {- 1} N x = \lambda x.

我们首先说明 λ1\lambda \neq 1 假设 λ=1\lambda = 1 ,则可得 Mx=NxMx = Nx ,即 Ax=0Ax = 0 .由于 AA 非奇异,所以 x=0x = 0 ,矛盾.

x~=M1Nx=λx,u=xx~=(1λ)x.\tilde{x} = M^{-1}Nx = \lambda x, u = x - \tilde{x} = (1 - \lambda)x. 则由引理6.12可得

(1λ2)xAx=1λ2x(M+N)x.(1 - | \lambda | ^ {2}) x ^ {*} A x = | 1 - \lambda | ^ {2} x ^ {*} (M ^ {\intercal} + N) x.

由于 AAMT+NM^{\mathsf{T}} + N 都是正定矩阵, 所以上式右端为正, 故 λ<1|\lambda| < 1 . 因此 ρ(M1N)<1\rho(M^{-1}N) < 1 .

必要性. 反证法. 假设 AA 不是正定的. 由于 ρ(M1N)<1\rho(M^{-1}N) < 1 , 所以 A=M(IM1N)A = M(I - M^{-1}N) 非奇异, 因此存在 x(0)Rnx^{(0)} \in \mathbb{R}^n , 使得

η(x(0))Ax(0)<0.\eta \triangleq \left(x ^ {(0)}\right) ^ {\intercal} A x ^ {(0)} < 0.

x(0)x^{(0)} 为初始点,构造迭代序列

x(k)=M1Nx(k1),k=1,2,.x ^ {(k)} = M ^ {- 1} N x ^ {(k - 1)}, \quad k = 1, 2, \ldots .

ρ(M1N)<1\rho (M^{-1}N) < 1 可知

limkx(k)=limk(M1N)kx(0)=0.(6.12)\lim _ {k \rightarrow \infty} x ^ {(k)} = \lim _ {k \rightarrow \infty} (M ^ {- 1} N) ^ {k} x ^ {(0)} = 0. \tag {6.12}

u(k)=x(k1)x(k)u^{(k)} = x^{(k - 1)} - x^{(k)} ,则由引理6.12可得

(x(k1))TAx(k1)(x(k))TAx(k)=(u(k))T(MT+N)u(k).\left(x ^ {(k - 1)}\right) ^ {\mathsf {T}} A x ^ {(k - 1)} - \left(x ^ {(k)}\right) ^ {\mathsf {T}} A x ^ {(k)} = \left(u ^ {(k)}\right) ^ {\mathsf {T}} (M ^ {\mathsf {T}} + N) u ^ {(k)}.

由于 MT+NM^{\mathsf{T}} + N 对称正定, 上式右端非负, 所以

(x(k))TAx(k)(x(k1))TAx(k1).\left(x ^ {(k)}\right) ^ {\mathsf {T}} A x ^ {(k)} \leq \left(x ^ {(k - 1)}\right) ^ {\mathsf {T}} A x ^ {(k - 1)}.

依此类推, 可得

(x(k))Ax(k)(x(0))Ax(0)=η<0.\left(x ^ {(k)}\right) ^ {\top} A x ^ {(k)} \leq \left(x ^ {(0)}\right) ^ {\top} A x ^ {(0)} = \eta < 0.

这与 (6.12) 矛盾. 因此 AA 一定是正定的

我们首先给出SOR迭代法收敛的一个必要条件

定理6.14 对于SOR迭代法,有 ρ(GSOR)1ω\rho (G_{\mathrm{SOR}})\geq |1 - \omega | ,故SOR迭代法收敛的必要条件是 0<ω<20 < \omega < 2 (板书)

证明.SOR的迭代矩阵为

GSOR=(DωL)1((1ω)D+ωU)=(IωL~)1((1ω)I+ωU~).G _ {\mathrm {S O R}} = (D - \omega L) ^ {- 1} \bigl ((1 - \omega) D + \omega U \bigr) = (I - \omega \tilde {L}) ^ {- 1} \bigl ((1 - \omega) I + \omega \tilde {U} \bigr).

所以 GSORG_{\mathrm{SOR}} 的行列式为

det(GSOR)=det((IωL~)1)det((1ω)I+ωU~)=(1ω)n.\det \left(G _ {\mathrm {S O R}}\right) = \det \left(\left(I - \omega \tilde {L}\right) ^ {- 1}\right) \cdot \det \left((1 - \omega) I + \omega \tilde {U}\right) = (1 - \omega) ^ {n}.

GSORG_{\mathrm{SOR}} 的特征为 λ1,λ2,,λn\lambda_1,\lambda_2,\ldots ,\lambda_n ,则

λ1λ2λn=det(GSOR)=(1ω)n,\lambda_ {1} \lambda_ {2} \dots \lambda_ {n} = \det \left(G _ {\mathrm {S O R}}\right) = (1 - \omega) ^ {n},

故至少有一个特征值的模不小于 1ω|1 - \omega| , 即 ρ(GSOR)1ω\rho(G_{\mathrm{SOR}}) \geq |1 - \omega| .

若SOR收敛,则 ρ(GSOR)<1\rho (G_{\mathrm{SOR}}) < 1 ,因此 1ω<1|1 - \omega | < 1 ,即 0<ω<20 < \omega < 2

定理6.15 设 ARn×nA \in \mathbb{R}^{n \times n} 对称正定

(1) 若 2DA2D - A 正定, 则 Jacobi 迭代法收敛.
(2) 若 0<ω<20 < \omega < 2 ,则SOR迭代法和SSOR迭代法收敛
(3) G-S 迭代法收敛.

(留作课外自习, 直接利用前面的引理即可)

定理6.16 设 ARn×nA \in \mathbb{R}^{n \times n} 对称, 且 DD 正定

(1) 若 Jacobi 迭代法收敛, 则 AA2DA2D - A 都正定;
(2) 若存在 ω(0,2)\omega \in (0, 2) 使得 SOR (或 SSOR) 迭代法收敛, 则 AA 正定;
(3) 若 G-S 迭代法收敛, 则 AA 正定.

(板书, 只证明 (1), (2) 和 (3) 利用引理 6.13 即可)

证明. 设 Jacobi 迭代收敛. 由于 AA 对称, DD 对称正定, 所以 D1A=D12(D12AD12)D12D^{-1}A = D^{-\frac{1}{2}}\left(D^{-\frac{1}{2}}AD^{-\frac{1}{2}}\right)D^{\frac{1}{2}} 的特征值都是实数. 又

GJ=D1(DA)=ID1A,G _ {\mathrm {J}} = D ^ {- 1} (D - A) = I - D ^ {- 1} A,

ρ(GJ)<1\rho (G_{\mathrm{J}}) < 1 可知 λ(D1A)>0\lambda \left(D^{-1}A\right) > 0 ,即 λ(D12AD12)>0,\lambda \left(D^{-\frac{1}{2}}AD^{-\frac{1}{2}}\right) > 0, 所以 λ(A)>0,\lambda (A) > 0,AA 正定.

下面证明 2DA2D - A 的正定性. 根据 ρ(GJ)<1\rho(G_{\mathbf{J}}) < 1 可知

0<λ(D1A)<2,0 < \lambda (D ^ {- 1} A) < 2,

所以

0<λ(2ID1A)<2.0 < \lambda (2 I - D ^ {- 1} A) < 2.

2DA2D - AD12(2DA)D12D^{-\frac{1}{2}}(2D - A)D^{-\frac{1}{2}} 合同, 而

D12(2DA)D12=2ID12AD12=D12(2ID1A)D12,D ^ {- \frac {1}{2}} (2 D - A) D ^ {- \frac {1}{2}} = 2 I - D ^ {- \frac {1}{2}} A D ^ {- \frac {1}{2}} = D ^ {\frac {1}{2}} \left(2 I - D ^ {- 1} A\right) D ^ {- \frac {1}{2}},

D12(2DA)D12D^{-\frac{1}{2}}(2D - A)D^{-\frac{1}{2}}2ID1A2I - D^{-1}A 有相同的特征值, 所以 2DA2D - A 的特征值也都是正数, 即 2DA2D - A 正定. \square

推论6.17 设 ARn×nA \in \mathbb{R}^{n \times n} 对称且 DD 正定, 则

(1) Jacobi 收敛的充要条件是 AA2DA2D - A 都正定;
(2) G-S 收敛的充要条件是 AA 正定;
(3)SOR收敛的充要条件是 AA 正定且 ω(0,2)\omega \in (0,2)

6.2.4 相容次序矩阵*

针对一类特殊的矩阵, Jacobi 迭代矩阵和 SOR 迭代矩阵的特征值之间存在一种特殊的关系式, 根据这个关系式, 在某些场合下就可以确定 SOR 的最优参数的取值.

定义6.6设 ARn×nA\in \mathbb{R}^{n\times n} 的对角线元素全不为零,记 L~=D1L,U~=D1U\tilde{L} = D^{-1}L,\tilde{U} = D^{-1}U ,即 A=D(IL~U~)A = D(I - \tilde{L} -\tilde{U}) 若矩阵 G(α)αL~+1αU~G(\alpha)\triangleq \alpha \tilde{L} +\frac{1}{\alpha}\tilde{U} 的特征值与 α\alpha 无关 (α0)(\alpha \neq 0) ,则称 AA 是相容次序矩阵 (consistentlyordered matrix).

下面我们讨论一类特殊的相容次序矩阵. 首先给出一个引理

引理6.18 设 BRn×nB \in \mathbb{R}^{n \times n} 具有下面的结构

B=[0B12B210],其 中B12Rk×(nk),B21R(nk)×k,0kn.B = \left[ \begin{array}{c c} {{0}} & {{B _ {1 2}}} \\ {{B _ {2 1}}} & {{0}} \end{array} \right], \quad \text {其 中} B _ {1 2} \in \mathbb {R} ^ {k \times (n - k)}, B _ {2 1} \in \mathbb {R} ^ {(n - k) \times k}, \quad 0 \leq k \leq n.

BLB_{L}BUB_{U} 分别表示 BB 的下三角和上三角部分, 则

(1) 若 μ\muBB 的特征值, 则 μ-\mu 也是 BB 的特征值;
(2) B(α)B(\alpha) 的特征值与 α\alpha 无关, 其中

B(α)=αBL+1αBU,α0.B (\alpha) = \alpha B _ {L} + \frac {1}{\alpha} B _ {U}, \quad \alpha \neq 0.

(板书)

证明. (1) 若 [x,y][x, y]BB 的对应于 μ\mu 的特征向量, 则 [x,y][x, -y]BB 对应于 μ-\mu 的特征向量.

(2) 由于 α0\alpha \neq 0 , 我们有

[I00αI]1B(α)[I00αI]=[I001αI][01αB12αB210][I00αI]=[0B12B210],\left[ \begin{array}{c c} I & 0 \\ 0 & \alpha I \end{array} \right] ^ {- 1} B (\alpha) \left[ \begin{array}{c c} I & 0 \\ 0 & \alpha I \end{array} \right] = \left[ \begin{array}{c c} I & 0 \\ 0 & \frac {1}{\alpha} I \end{array} \right] \left[ \begin{array}{c c} 0 & \frac {1}{\alpha} B _ {1 2} \\ \alpha B _ {2 1} & 0 \end{array} \right] \left[ \begin{array}{c c} I & 0 \\ 0 & \alpha I \end{array} \right] = \left[ \begin{array}{c c} 0 & B _ {1 2} \\ B _ {2 1} & 0 \end{array} \right],

故引理结论成立.

该结论对复矩阵也成立.
由引理6.18中结论(2)可知, B(α)+βIB(\alpha) + \beta I 的特征值也与 α\alpha 无关,其中 β\beta 为任意常数

定义6.7 设 ARn×nA \in \mathbb{R}^{n \times n} , 如果存在一个置换矩阵 PP , 使得

PAPT=[D1FED2],(6.13)P A P ^ {\mathsf {T}} = \left[ \begin{array}{c c} D _ {1} & F \\ E & D _ {2} \end{array} \right], \tag {6.13}

其中 D1,D2D_{1}, D_{2} 为对角矩阵, 则称 AA 具有性质 A\mathbf{A} .

性质A意味着指标集 Zn={1,2,,n}\mathbb{Z}_n = \{1,2,\dots ,n\} 可以分成两个互不相交的子集之和,在同一个子集内的未知量相互独立,因此在迭代更新时可以并行计算. (也就是说, Zn=ST,ST=\mathbb{Z}_n = \mathcal{S}\cup \mathcal{T},\mathcal{S}\cap \mathcal{T} = \emptysetiji\neq ji,jSi,j\in Si,jTi,j\in T 时,有 aij=0.a_{ij} = 0. )
相容次序矩阵和性质A有不同的定义方式,我们这里采用的是Demmel(1997)[30]中的定义.其他定义可参见Varga(1962,2000)[139]或Young(1971)[141].事实上,根据Axelsson(1994)[6, page 239]中的说法,Yong(1950)[140]也是按照定义6.6和定义6.7来定义相容次序矩阵和性质A的.

根据引理6.18, 我们可以直接得到下面的结论

定理 6.19 设 AA 的对角线元素全不为零, 若 AA 具有性质 A, 则存在置换矩阵 PP , 使得 PAPP A P^{\top} 是相容次序矩阵.

如果矩阵 AA 本身就具有(6.7)的形式, 则 AA 就是相容次序矩阵
事实上, (6.7) 可推广到分块三对角矩阵情形, 见下面的例子.

例6.1 设 DiD_{i} 是非奇异的对角矩阵, 则任意块三对角矩阵

[D1A1B1AN1BN1DN]\left[ \begin{array}{c c c c} D _ {1} & A _ {1} & & \\ B _ {1} & \ddots & \ddots & \\ & \ddots & \ddots & A _ {N - 1} \\ & & B _ {N - 1} & D _ {N} \end{array} \right]

都是相容次序矩阵

(留作练习, 参见 [141])

用有限差分法离散的二维偏微分方程(左图是网格点自然排序, 右图是红黑排序)

定理6.20 设 AA 是相容次序矩阵且 ω0\omega \neq 0 , 则下列命题成立

(1) Jacobi迭代矩阵 GJG_{\mathrm{J}} 的特征值正负成对出现;
(2) 若 μ\muGJG_{\mathbb{J}} 的一个特征值且 λ\lambda 满足

(λ+ω1)2=λω2μ2,(6.14)(\lambda + \omega - 1) ^ {2} = \lambda \omega^ {2} \mu^ {2}, \tag {6.14}

λ\lambda 是SOR迭代矩阵 GSORG_{\mathrm{SOR}} 的特征值;

(3) 反之, 若 λ0\lambda \neq 0GSORG_{\mathrm{SOR}} 的一个特征值且 μ\mu 满足 (6.8), 则 μ\muGJG_{\mathrm{J}} 的特征值.

(板书)

证明. (1) 易知 GJ=G(1)G_{\mathrm{J}} = G(1) . 设 μ\muG(1)G(1) 的特征值, 因为 G(1)=G(1)G(-1) = -G(1) , 所以 μ-\muG(1)G(-1) 的特征值. 又 G(α)G(\alpha) 的特征值与 α\alpha 无关, 故 μ-\mu 也是 G(1)G(1) 的特征值, 所以命题结论成立.
(2) 若 λ=0\lambda = 0 , 则由 (6.8) 可知 ω=1\omega = 1 , 此时 GSOR=(IL~)1U~G_{\mathrm{SOR}} = (I - \tilde{L})^{-1}\tilde{U} 为奇异矩阵, 故 λ=0\lambda = 0 是其特征值, 即命题结论成立.

λ0\lambda \neq 0 ,则 GSORG_{\mathrm{SOR}} 的特征多项式为

det(λIGSOR)=det(λI(IωL~)1((1ω)I+ωU~))=det((IωL~)1)det(λ(IωL~)(1ω)IωU~)=det((λ+ω1)IλωL~ωU~)\begin{array}{l} \det (\lambda I - G _ {\mathrm {S O R}}) = \det \left(\lambda I - (I - \omega \tilde {L}) ^ {- 1} \big ((1 - \omega) I + \omega \tilde {U} \big)\right) \\ = \det \left(\left(I - \omega \tilde {L}\right) ^ {- 1}\right) \cdot \det \left(\lambda (I - \omega \tilde {L}) - (1 - \omega) I - \omega \tilde {U}\right) \\ = \det \left((\lambda + \omega - 1) I - \lambda \omega \tilde {L} - \omega \tilde {U}\right) \\ \end{array}
=det(λω2((λ+ω1λω2)IλL~1λU~))=(λω2)n/2det((λ+ω1λω2)IL~U~),(6.15)\begin{array}{l} = \det \left(\sqrt {\lambda \omega^ {2}} \left(\left(\frac {\lambda + \omega - 1}{\sqrt {\lambda \omega^ {2}}}\right) I - \sqrt {\lambda} \tilde {L} - \frac {1}{\sqrt {\lambda}} \tilde {U}\right)\right) \\ = \left(\lambda \omega^ {2}\right) ^ {n / 2} \det \left(\left(\frac {\lambda + \omega - 1}{\sqrt {\lambda \omega^ {2}}}\right) I - \tilde {L} - \tilde {U}\right), \tag {6.15} \\ \end{array}

其中最后一个等式由引理6.18推得. 令

μ=λ+ω1λω2(λ+ω1)2=λω2μ2,\mu = \frac {\lambda + \omega - 1}{\sqrt {\lambda \omega^ {2}}} \quad \text {即} \quad (\lambda + \omega - 1) ^ {2} = \lambda \omega^ {2} \mu^ {2},

则由 (6.14) 和性质(1)可知 λ\lambdaGSORG_{\mathrm{SOR}} 的特征值当且仅当 μ\muGJ=L~+U~G_J = \tilde{L} +\tilde{U} 的特征值,即命题结论成立.

(3) 已经由 (2) 证明.

推论6.21设 AA 是相容次序矩阵.若 GJG_{\mathrm{J}} 的特征值全部为实数,则SOR迭代法收敛的充要条件是 0<ω<20 < \omega < 2ρ(GJ)<1.\rho (G_{\mathrm{J}}) < 1. (留作练习)

推论6.22 若 AA 是相容次序矩阵, 则 ρ(GGS)=ρ(GJ)2\rho(G_{\mathrm{GS}}) = \rho(G_{\mathrm{J}})^2 , 即当 Jacobi 迭代法收敛时, Gauss-Seidel 迭代法比 Jacobi 迭代法快一倍.

下面是关于SOR迭代法的最优参数选取

定理6.23 设 AA 是相容次序矩阵。若 GJG_{\mathrm{J}} 的特征值全部为实数,且 ρJρ(GJ)<1\rho_{\mathrm{J}} \triangleq \rho(G_{\mathrm{J}}) < 1 ,则SOR迭代法的最优参数为

ωopt=21+1ρJ2,\omega_ {o p t} = \frac {2}{1 + \sqrt {1 - \rho_ {\mathrm {J}} ^ {2}}},

此时

ρ(GSOR)=ωopt1=ρJ2(1+1ρJ2)2.\rho \left(G _ {\mathrm {S O R}}\right) = \omega_ {o p t} - 1 = \frac {\rho_ {\mathrm {J}} ^ {2}}{\left(1 + \sqrt {1 - \rho_ {\mathrm {J}} ^ {2}}\right) ^ {2}}.

进一步, 有

ρ(GSOR)={ω1,ωoptω21ω+12ω2ρJ2+ωρJ1ω+14ω2ρJ2,0<ωωopt.\rho (G _ {\mathrm {S O R}}) = \left\{ \begin{array}{l l} \omega - 1, & \omega_ {o p t} \leq \omega \leq 2 \\ 1 - \omega + \frac {1}{2} \omega^ {2} \rho_ {\mathrm {J}} ^ {2} + \omega \rho_ {\mathrm {J}} \sqrt {1 - \omega + \frac {1}{4} \omega^ {2} \rho_ {\mathrm {J}} ^ {2}}, & 0 < \omega \leq \omega_ {o p t} \end{array} \right..

(留作课外自习, 直接求解等式 (6.8), 分情况讨论即可, 可参见 [141, page 173])