7.4 收敛性分析
7.4.1 CG的收敛性
设 x∗ 是解析解, x(m)∈x(0)+Km 是CG算法在 x(0)+Km 中找到的近似解, 即
x(m)=argx∈x(0)+Kmmin∥x−x∗∥A. 记 Pk 为所有次数不超过 k 的多项式的集合. 对任意 x∈x(0)+Km , 存在 p(t)∈Pm−1 , 使得
x=x(0)+p(A)r0. 于是有
x−x∗=ε0+p(A)(b−Ax(0))=ε0+p(A)(Ax∗−Ax(0))=(I−Ap(A))ε0≜q(A)ε0, 其中 ε0=x(0)−x∗ ,多项式 q(t)=1−tp(t)∈Pm 且 q(0)=1 .所以
∥x−x∗∥A2=ε0Tq(A)TAq(A)ε0. 设 A=QΛQT 是 A 的特征值分解, 其中 Q 是正交矩阵, Λ=diag(λ1,λ2,…,λn) 是对角阵, 且 λi>0. 记 y=[y1,y2,…,yn]T≜QTε0 , 则
∥x(m)−x∗∥A2=minx∈x(0)+Km∥x−x∗∥A2=minq∈Pm,q(0)=1ε0⊤q(A)⊤Aq(A)ε0=minq∈Pm,q(0)=1ε0TQq(Λ)TΛq(Λ)QTε0=minq∈Pm,q(0)=1yTq(Λ)TΛq(Λ)y=minq∈Pm,q(0)=1∑i=1nyi2λiq(λi)2≤minq∈Pm,q(0)=1max1≤i≤n{q(λi)2}∑i=1nyi2λi=minq∈Pm,q(0)=1max1≤i≤n{q(λi)2}yTΛy=minq∈Pm,q(0)=1max1≤i≤n{q(λi)2}ε0⊤Aε0=minq∈Pm,q(0)=1max1≤i≤n{q(λi)2}∥ε0∥A2, 即
x(0)−x∗A2x(m)−x∗A2≤q∈Pm,q(0)=1min1≤i≤nmax{q(λi)2}. 因此, 我们有下面的结论
引理7.8 设 A∈Rn×n 对称正定, x(m) 是CG算法迭代 m 步后得到的近似解. 则
x(0)−x∗Ax(m)−x∗A≤q∈Pm,q(0)=1min1≤i≤nmax∣q(λi)∣.(7.20) 由于 A 的特征值通常是不知道的, 因此不等式 (7.19) 右端通常难以计算. 但在许多情况下, 我们可以通过一些近似方法估计出 A 的最大特征值 λ1 和最小特征值 λn . 假设 λ1 和 λn 已知, 则不等式 (7.19) 右端可以放缩为
q∈Pm,q(0)=1minλn≤λ≤λ1max∣q(λ)∣.(7.21) 由 Chebyshev 多项式的最佳逼近性质 (定理 6.33) 可知, 最小最大问题 (7.20) 的解为
q∗(t)=Tm(−λ1−λnλ1+λn)Tm(λ1−λn2t−(λ1+λn)), 其中 Tm 为 m 次 Chebyshev 多项式. 由于 Tm(t)=(−1)mTm(t) , 且当 ∣t∣≤1 时有 ∣Tm(t)∣≤1 , 所以
∣q∗(t)∣≤Tm(λ1−λnλ1+λn)1. 又当 ∣t∣>1 时
Tm(t)=21[(t+t2−1)m+(t+t2−1)−m]≥21(t+t2−1)m, 所以
Tm(λ1−λnλ1+λn)≥21(λ1−λnλ1+λn+(λ1−λn)2(λ1+λn)2−1)m=21(λ1−λnλ1+λn+λ1−λn2λ1λn)m=21(λ1−λnλ1+λn)m=21(κ(A)−1κ(A)+1)m. 其中 κ(A)=λnλ1 为 A 的条件数. 因此我们可以得到下面的收敛性定理
定理7.9 设 A∈Rn×n 对称正定, x(m) 是CG算法迭代 m 步后得到的近似解. 则
x(0)−x∗Ax(m)−x∗A≤2(κ(A)+1κ(A)−1)m.(7.22) 7.4.2 CG的超收敛性
如果我们能够获得 A 的更多的特征值信息, 则能得到更好的误差限 [6].
定理7.10 设 A 对称正定, 特征值为
0<λn≤⋯≤λn+1−i≤b1≤λn−i≤⋯≤λj+1≤b2≤λj≤⋯≤λ1. 则当 m≥i+j 时有
x(0)−x∗Ax(m)−x∗A≤2(b+1b−1)m−i−jλ∈[b1,b2]max{k=n+1−i∏n(λkλ−λk)k=1∏j(λkλk−λ)},(7.23) 其中
b=(b1b2)21≥1. 由此可知, 当 b1 与 b2 非常接近时, 迭代 i+j 步后, CG 算法收敛会非常快.
推论7.11 设 A 对称正定, 特征值为
0<δ≤λn≤⋯≤λn+1−i≤1−ε≤λn−i≤⋯≤λj+1≤1+ε≤λj≤⋯≤λ1. 则当 m≥i+j 时有
x(0)−x∗Ax(m)−x∗A≤2(δ1+ε)iεm−i−j.(7.24) 7.4.3 GMRES的收敛性
正规矩阵情形
设 A 是正规矩阵, 即
A=UΛU∗, 其中 Λ=diag(λ1,λ2,…,λn) 的对角线元素 λ2∈C 为 A 的特征值
设 x∈x(0)+Kk(A,r0) , 则存在多项式 p(t)∈Pk−1 使得 x=x(0)+p(A)r0 . 于是
b−Ax=b−Ax(0)−Ap(A)r0=(I−Ap(A))r0≜q(A)r0,(7.25) 其中 q(t)=1−tp(t)∈Pk 满足 q(0)=1 .直接计算可知
∥b−Ax∥2=∥q(A)r0∥2=∥Uq(Λ)U∗r0∥2≤∥U∥2∥U∗∥2∥q(Λ)∥2∥r0∥2=∥q(Λ)∥2∥r0∥2. 又 Λ 是对角矩阵,所以
∥q(Λ)∥2=1≤i≤nmax∣q(λi)∣. 设 x(k) 是近似解, 则由GMRES方法的最优性可知, x(k) 极小化残量的2-范数. 因此,
∥b−Ax(k)∥2=minx∈x(0)+Kk(A,r0)∥b−Ax∥2=minq∈Pk,q(0)=1∥q(A)r0∥2≤minq∈Pk,q(0)=1∥q(Λ)∥2∥r0∥2=∥r0∥2minq∈Pk,q(0)=1max1≤i≤n∣q(λi)∣. 于是, 我们有下面的结论

定理7.12 设 A∈Rn×n 是正规矩阵, x(k) 是GMRES方法得到的近似解, 则
∥r0∥2∥b−Ax(k)∥2≤q∈Pk,q(0)=1min1≤i≤nmax∣q(λi)∣.(7.26) 需要指出的是, 上界 (7.28) 是紧凑的 [60, 79]. 与 CG 算法类似, 我们也可以选取一个包含 A 的所有特征值的区域 Ω⊂C , 然后将定理 7.12 中的上界缩放为
q∈Pk,q(0)=1minλ∈Ωmax∣q(λ)∣.(7.27) 通常 Ω 必须是连通的, 否则 (7.26) 的求解非常困难. 即使是两个区间的并都没法求解 [45]. 另外, Ω 不能包含原点.
我们首先考虑一种最简单的情形, 即 Ω 是复平面上的一个圆盘, 圆心为 C(c,0) , 半径 r>0 . 这里假定 r<c , 因此原点不在 Ω 内.
定义复系数多项式 qk(z)=((c−z)/c)k ,则 qk(z)∈Pk 且 qk(0)=1 .所以
q∈Pk,q(0)=1min1≤i≤nmax∣q(λi)∣≤1≤i≤nmax∣qk(λi)∣=1≤i≤nmaxck(c−λi)k≤∣c∣krk. 由此可见, 当 r 越小或 c 越大时, 右式趋向于 0 的速度就越快.
设 A 是正规矩阵, 其特征值包含在一个圆盘内, 则圆盘的半径越小或者圆心离原点越远, 则 GMRES 收敛越快.
如果用椭圆来代替圆盘, 则可得出更紧凑的上界. 设 A 的特征值全部包含在椭圆 E(c,d,a) 内, 其中 d>0 为焦距, a>0 为半长轴长, C(c,0) 为椭圆中心. 并且假定原点不在椭圆内. 如下图所示.


令 Tk 为 k 次复 Chebyshev 多项式, 则多项式
T~k(z)=Tk(dc)Tk(dc−z) 就是极小极大问题
q∈Pk,q(0)=1minλ∈E(c,d,a)max∣q(λ)∣(7.28) 的渐进最优解. 于是
q∈Pk,q(0)=1min1≤i≤nmax∣q(λi)∣≤q∈Pk,q(0)=1minλ∈E(c,d,a)max∣q(λ)∣≤λ∈E(c,d,a)max∣T~k(λ)∣. 由复 Chebyshev 多项式的性质可知
λ∈E(c,d,a)max∣T~k(λ)∣=∣Tk(dc)∣Tk(da). 因此
q∈Pk,q(0)=1min1≤i≤nmax∣q(λi)∣≤∣Tk(dc)∣Tk(da). 所以我们可得下面的结论
推论7.13 设 A∈Rn×n 是正规矩阵, x(k) 是由GMRES得到的近似解, 则
∥r0∥2b−Ax(k)2≤Tk(dc)Tk(da).(7.29) 虽然 T~k(z) 通常不是极小极大问题 (7.27) 的解, 但上界 (7.28) 却往往能给出 GMRES 方法收敛速度的一个很好的估计 [92].
非正规情形
当 A 不是正规矩阵时, 在一般情况下, GMRES 方法的收敛性很难分析.
如果 A∈Rn×n 是可对角化的,即
A=XΛX−1, 其中 X∈Cn×n 非奇异, Λ=diag(λ1,λ2,…,λn) 的对角线元素 λi∈C 为 A 的特征值, 则
∥b−Ax(k)∥2=x∈x(0)+Kk(A,r0)min∥b−Ax∥2=q∈Pk,q(0)=1min∥q(A)r0∥2.(7.30) 相类似地, 我们可以得到下面的结论 [111].
定理7.14 设 A=XΛX−1 , 其中 X∈Cn×n 非奇异, Λ 是对角矩阵, x(k) 是GMRES方法得到的近似解, 则
∥r0∥2∥b−Ax(k)∥2≤∥X∥2∥X−1∥2minq∈Pk,q(0)=1max1≤i≤n∣q(λi)∣=κ(X)minq∈Pk,q(0)=1max1≤i≤n∣q(λi)∣,(7.31) 其中 κ(X) 是 X 的谱条件数.
如果 A 接近正规, 则 κ(X)≈1 . 此时上界 (7.30) 在一定程度上能描述 GMRES 的收敛速度. 当如果 X 远非正交, 则 κ(X) 会很大, 此时该上界就失去实际意义了.
需要指出的是, 上面的分析并不意味着非正规矩阵就一定比正规矩阵收敛慢. 事实上, 对任意一个非正规矩阵, 总存在一个相应的正规矩阵, 使得 GMRES 方法的收敛速度是一样的 (假定初始残量相同) [3, 61, 62, 91].
虽然GMRES方法的收敛性与系数矩阵的特征值有关, 但显然并不仅仅取决于特征值的分布. 事实上, 我们有下面的结论.
定理7.15 对于任意给定的特征值分布和一条不增的收敛曲线, 则总存在一个矩阵 A 和一个右端项 b , 使得 A 具有指定的特征值分布, 且 GMRES 方法的收敛曲线与给定的收敛曲线相同.
例7.1 考虑线性方程组 Ax=b 其中
A=0a010a11⋱a2⋱0…1an−1,b=e1. 当 a0=0 时, A 非奇异. 易知, A 的特征值多项式为
p(x)=λn−an−1λn−1−an−2λn−2−⋯−a1λ−a0. 方程组的精确解为
x=[−a1/a0,1,0,…,0]T. 以零向量为迭代初值, 则 GMRES 迭代到第 n 步时才收敛. (前 n−1 步残量范数不变).
(GMRES_example01.m)
如果 A 不可以对角化, 我们在分析 GMRES 方法的收敛性时, 通常会想办法用一个新的极小化问题来近似原来的极小化问题 (7.29). 当然, 这个新的极小化问题应该是比较容易求解的.
事实上, 我们有
∥r0∥2∥b−Ax(k)∥2=∥r0∥2minq∈Pk,q(0)=1∥q(A)r0∥2≤max∥v∥2=1minq∈Pk,q(0)=1∥q(A)v∥2(7.32)≤minq∈Pk,q(0)=1∥q(A)∥2.(7.33) 不等式 (7.31) 右端代表的是在最坏情况下的 GMRES 收敛性, 而且是紧凑的, 即它是所能找到的不依赖于 r0 的最好上界. 但我们仍然不清楚, 到底是 A 的那些性质决定着这个上界 [43].
可以证明, 当 A 是正规矩阵时, 上界 (7.31) 和 (7.32) 是相等的 [60, 79]. 但是, 对于大多数非正规矩阵而言, 这两者是否相等或者非常接近, 迄今仍不太清楚.
最后需要指出的是, 算法的收敛性也依赖于迭代初值和右端项. 所以定理 7.9, 7.12 和 7.14 中的上界描述的都是最坏情况下的收敛速度. 也就是说, 在实际计算中, 算法的收敛速度可能会比预想的要快得多.