5.2 Rayleigh商迭代法

在反迭代算法中, $x^{(k)}$ 的Rayleigh商是特征值 $\lambda_{k}$ 的近似, 因此我们可以把它作为位移, 于是就得到下面的Rayleigh商迭代法.

算法 5.4. Rayleigh 商迭代算法 (RQI, Rayleigh Quotient Iterations)
1: Given an initial guess $x^{(0)}$ with $\| x^{(0)}\|_2 = 1$
2: compute the Rayleigh quotient $\rho_0 = (x^{(0)}, Ax^{(0)})$
3: set $k = 1$
4: while not converge do
5: $\sigma = \rho_{k-1}$
6: $y^{(k)} = (A - \sigma I)^{-1} x^{(k-1)}$
7: $x^{(k)} = y^{(k)} / \| y^{(k)}\|_2$
8: $\rho_k = (x^{(k)}, Ax^{(k)})$
9: $k = k + 1$
10: end while

关于Rayleigh商迭代的收敛性, 我们有下面的结论

定理5.5如果特征值是单重的,则当误差足够小时,Rayleigh商迭代法中每步迭代所得的正确数字的位数增至三倍，即Rayleigh商迭代是局部三次收敛的. (板书)

证明. 设 $A = Q\Lambda Q^{\mathsf{T}}$ ，令 $\hat{x}^{(k)} = Q^{\mathsf{T}}x^{(k)}$ ，则在Rayleigh商迭代算法中

\rho_ {k} = (x ^ {(k)}) ^ {\mathsf {T}} A x ^ {(k)} = (\hat {x} ^ {(k)}) ^ {\mathsf {T}} Q ^ {\mathsf {T}} A Q \hat {x} ^ {(k)} = (\hat {x} ^ {(k)}) ^ {\mathsf {T}} \Lambda \hat {x} ^ {(k)}.

令 $\hat{y}^{(k)} = Q^{\mathsf{T}}y^{(k)}$ ，则

\hat {y} ^ {(k)} = Q ^ {\mathsf {T}} (A - \rho_ {k - 1} I) ^ {- 1} x ^ {(k)} = (Q ^ {\mathsf {T}} A Q - \rho_ {k - 1} I) ^ {- 1} \hat {x} ^ {(k - 1)} = (\Lambda - \rho_ {k - 1} I) ^ {- 1} \hat {x} ^ {(k - 1)},

即，“以初始向量 $x^{(0)}$ 对 $A$ 做Rayleigh商迭代”等价于“以初始向量 $\hat{x}^{(0)}$ 对 $\Lambda$ 做Rayleigh商迭代”，即它们有相同的收敛性.因此，不失一般性，我们可以假定 $A = \Lambda$ 为对角阵,此时 $A$ 的特征向量为 $e_i,i = 1,2,\ldots ,n.$

我们假定 $x^{(k)}$ 收敛到 $e_1$ . 令 $d_k = x^{(k)} - e_1$ , 则 $\| d_k \|_2 \to 0$ . 为了证明算法具有局部三次收敛, 我们需要证明: 当 $\varepsilon_k = \| d_k \|_2$ 充分小时, 有 $\varepsilon_{k+1} = \| d_{k+1} \|_2 = \| x^{(k+1)} - e_1 \|_2 = \mathcal{O}(\varepsilon_k^3)$ .

我们注意到

1 = (x ^ {(k)}) ^ {\mathsf {T}} x ^ {(k)} = (e _ {1} + d _ {k}) ^ {\mathsf {T}} (e _ {1} + d _ {k}) = 1 + 2 d _ {k} (1) + d _ {k} ^ {\mathsf {T}} d _ {k} = 1 + 2 d _ {k} (1) + \varepsilon_ {k} ^ {2},

其中 $d_k(1)$ 表示 $d_k$ 的第一个元素. 故 $d_k(1) = -\varepsilon_k^2 / 2$ . 所以

\rho_ {k} = (x ^ {(k)}) ^ {\mathsf {T}} \Lambda x ^ {(k)} = (e _ {1} + d _ {k}) ^ {\mathsf {T}} \Lambda (e _ {1} + d _ {k}) = e _ {k} ^ {\mathsf {T}} \Lambda e _ {1} + 2 e _ {1} ^ {\mathsf {T}} \Lambda d _ {k} + d _ {k} ^ {\mathsf {T}} \Lambda d _ {k} \triangleq \lambda_ {1} - \eta ,

其中 $\eta = -(2e_1^\top \Lambda d_k + d_k^\top \Lambda d_k) = -2\lambda_1d_k(1) - d_k^\top \Lambda d_k = \lambda_1\varepsilon_k^2 -d_k^\top \Lambda d_k.$ 于是

| \eta | \leq | \lambda_ {1} | \varepsilon_ {k} ^ {2} + \| \Lambda \| _ {2} \cdot \| d _ {k} \| _ {2} ^ {2} \leq 2 \| \Lambda \| _ {2} \varepsilon_ {k} ^ {2}.

由Rayleigh商算法5.4可知

\begin{array}{l} y ^ {(k + 1)} = (\Lambda - \rho_ {k} I) ^ {- 1} x ^ {(k)} \\ = \left[ \frac {x ^ {(k)} (1)}{\lambda_ {1} - \rho_ {k}}, \frac {x ^ {(k)} (2)}{\lambda_ {2} - \rho_ {k}}, \dots , \frac {x ^ {(k)} (n)}{\lambda_ {n} - \rho_ {k}} \right] ^ {\mathsf {T}} \\ = \left[ \frac {1 + d _ {k} (1)}{\lambda_ {1} - \rho_ {k}}, \frac {d _ {k} (2)}{\lambda_ {2} - \rho_ {k}}, \dots , \frac {d _ {k} (n)}{\lambda_ {n} - \rho_ {k}} \right] ^ {\mathsf {T}} \\ = \left[ \frac {1 - \varepsilon_ {k} ^ {2} / 2}{\eta}, \frac {d _ {k} (2)}{\lambda_ {2} - \lambda_ {1} + \eta}, \dots , \frac {d _ {k} (n)}{\lambda_ {n} - \lambda_ {1} + \eta} \right] ^ {\mathsf {T}} \\ = \frac {1 - \varepsilon_ {k} ^ {2} / 2}{\eta} \left[ 1, \frac {d _ {k} (2) \eta}{(1 - \varepsilon_ {k} ^ {2} / 2) (\lambda_ {2} - \lambda_ {1} + \eta)}, \ldots , \frac {d _ {k} (n) \eta}{(1 - \varepsilon_ {k} ^ {2} / 2) (\lambda_ {n} - \lambda_ {1} + \eta)} \right] ^ {\intercal} \\ \triangleq \frac {1 - \varepsilon_ {k} ^ {2} / 2}{\eta} \cdot (e _ {1} + \hat {d} _ {k + 1}). \\ \end{array}

其中

\hat {d} _ {k + 1} = \left[ 0, \frac {d _ {k} (2) \eta}{(1 - \varepsilon_ {k} ^ {2} / 2) (\lambda_ {2} - \lambda_ {1} + \eta)}, \dots , \frac {d _ {k} (n) \eta}{(1 - \varepsilon_ {k} ^ {2} / 2) (\lambda_ {n} - \lambda_ {1} + \eta)} \right] ^ {\mathsf {T}}.

因为 $\lambda_{1}$ 是单重特征值, 所以

\operatorname {g a p} (\lambda_ {1}, \Lambda) \triangleq \min _ {i \neq 1} | \lambda_ {i} - \lambda_ {1} | > 0,

故对于 $i = 2,3,\ldots ,n$ ，当 $\varepsilon_{k}$ 足够小时有

\left| \lambda_ {i} - \lambda_ {1} + \eta \right| \geq \left| \lambda_ {i} - \lambda_ {1} \right| - \left| \eta \right| \geq \operatorname {g a p} \left(\lambda_ {1}, \Lambda\right) - \left| \eta \right| \geq \operatorname {g a p} \left(\lambda_ {1}, \Lambda\right) - 2 \| \Lambda \| _ {2} \varepsilon_ {k} ^ {2} > 0.

于是我们有

\left\| \hat {d} _ {k + 1} \right\| _ {2} \leq \frac {\| d _ {k} \| _ {2} | \eta |}{(1 - \varepsilon_ {k} ^ {2} / 2) (\operatorname {g a p} (\lambda_ {1} , \Lambda) - | \eta |)} \leq \frac {2 \| \Lambda \| _ {2} \varepsilon_ {k} ^ {3}}{(1 - \varepsilon_ {k} ^ {2} / 2) (\operatorname {g a p} (\lambda_ {1} , \Lambda) - | \eta |)},

即 $\left\| \hat{d}_{k + 1}\right\| _2 = \mathcal{O}(\varepsilon_k^3)$ 又

1 - \left\| \hat {d} _ {k + 1} \right\| _ {2} \leq \left\| e _ {1} + \hat {d} _ {k + 1} \right\| _ {2} \leq 1 + \left\| \hat {d} _ {k + 1} \right\| _ {2},

即

\left| 1 - \left\| e _ {1} + \hat {d} _ {k + 1} \right\| _ {2} \right| \leq \left\| \hat {d} _ {k + 1} \right\| _ {2}.

由于

x ^ {(k + 1)} = \frac {y ^ {(k + 1)}}{\| y ^ {(k + 1)} \| _ {2}} = \frac {e _ {1} + \hat {d} _ {k + 1}}{\left\| e _ {1} + \hat {d} _ {k + 1} \right\| _ {2}},

所以

\begin{array}{l} \| d _ {k + 1} \| _ {2} = \| x ^ {(k + 1)} - e _ {1} \| _ {2} = \frac {\left\| \left(1 - \left\| e _ {1} + \hat {d} _ {k + 1} \right\| _ {2}\right) e _ {1} + \hat {d} _ {k + 1} \right\| _ {2}}{\left\| e _ {1} + \hat {d} _ {k + 1} \right\| _ {2}} \\ \leq \frac {\left| 1 - \left\| e _ {1} + \hat {d} _ {k + 1} \right\| _ {2} \right| + \left\| \hat {d} _ {k + 1} \right\| _ {2}}{\left\| e _ {1} + \hat {d} _ {k + 1} \right\| _ {2}} \leq \frac {2 \left\| \hat {d} _ {k + 1} \right\| _ {2}}{\left\| e _ {1} + \hat {d} _ {k + 1} \right\| _ {2}}. \\ \end{array}

又 $\left\| \hat{d}_{k + 1}\right\| _2 = \mathcal{O}(\varepsilon_k^3)$ ，故 $\varepsilon_{k + 1} = \| d_{k + 1}\| _2 = \mathcal{O}(\varepsilon_k^3)$

RQI算法具有局部三次收敛性, 但无法确定收敛到哪个特征向量 (特征值), 因此可以作为其他算法的加速手段, 即先使用其他算法 (比如幂迭代) 计算出所需特征值的近似值, 然后再使用RQI算法加速.

A 实际计算时, 判断 $(\rho_{k}, x^{(k)})$ 是否收敛可以观察残量 $r_{k} = (A - \rho_{k}I)x^{(k)}$ 是否趋于零.

下面是关于RQI算法的全局收敛性，可参见文献[100].

定理5.6 在RQI算法中, 设 $r_k = (A - \rho_k I)x^{(k)}$ , 则有

\| r _ {k + 1} \| \leq \| r _ {k} \|,

其中等号成立当且仅当 $\rho_{k + 1} = \rho_k$ 且 $x^{(k)}$ 是 $(A - \rho_k I)^2$ 的特征向量.

5.2_Rayleigh商迭代法

5.2 Rayleigh商迭代法