5.5 对分法和反迭代法

对分法 (Bisection) 的基本思想是利用惯性定理来计算所需的部分特征值.

定义5.1 设 $A$ 为对称矩阵, 则其惯性定义为

\operatorname {I n e r t i a} (A) = (\nu , \zeta , \pi)

其中 $\nu, \zeta, \pi$ 分别表示 $A$ 的负特征值，零特征值和正特征值的个数。

定理 5.11 (Sylvester 惯性定理) 设 $A \in \mathbb{R}^{n \times n}$ 是对称矩阵, $X \in \mathbb{R}^{n \times n}$ 非奇异, 则 $X^{\top}AX$ 与 $A$ 有相同的惯性.

利用LU分解可得 $A - zI = LDL^{\mathsf{T}}$ ，其中 $L$ 为非奇异下三角矩阵， $D$ 为对角阵，则

\operatorname {I n e r t i a} (A - z I) = \operatorname {I n e r t i a} (D).

由于 $D$ 是对角矩阵, 所以 $\operatorname{Inertia}(D)$ 很容易计算.

设 $\alpha \in \mathbb{R}$ , 记 Negcount $(A, \alpha)$ 为小于 $\alpha$ 的 $A$ 的特征值的个数, 即

\operatorname {N e g c o u n t} (A, \alpha) = \# (\lambda (A) < \alpha).

设 $\alpha_{1} < \alpha_{2}$ , 则 $A$ 在区间 $[\alpha_{1}, \alpha_{2})$ 中的特征值个数为

\operatorname {N e g c o u n t} (A, \alpha_ {2}) - \operatorname {N e g c o u n t} (A, \alpha_ {1}).

如果 $\alpha_{2} - \alpha_{1} < tol$ (其中 $tol \ll 1$ 为事先给定的阈值), 且 $A$ 在 $[\alpha_{1}, \alpha_{2})$ 中有特征值, 则我们可将 $[\alpha_{1}, \alpha_{2})$ 中的任意一个值作为 $A$ 在该区间中的特征值的近似. 由此我们可以给出下面的对分法.

算法5.8.对分法：计算 $A$ 在 $[a,b)$ 中的所有特征值

1: Let $tol$ be a given threshold
2: compute $n_a = \mathrm{Negcount}(A, a)$
3: compute $n_b = \mathrm{Negcount}(A, b)$
4: if $n_a = n_b$ then return %此时[a,b)中没有A的特征值
5: put $(a, n_a, b, n_b)$ onto worklist
6: % worklist 中的元素是 “四元素对”, 即由四个数组成的数对
7: while worklist not empty do
8: remove $(low, n_{low}, up, n_{up})$ from the worklist
9: $\%$ (low, $n_{low}, up, n_{up}$ ) 是 worklist 中的任意一个元素
10: if $(up - low) < tol$ then
11: print "There are $n_{up} - n_{low}$ eigenvalues in [low, up)"
12: else
13: compute $\text{mid} = (\text{low} + \text{up}) / 2$
14: compute $n_{mid} = \mathrm{Negcount}(A, mid)$
15: if $(n_{mid} > n_{low})$ then

16: put (low, $n_{low}$ , mid, $n_{mid}$ ) onto worklist
17: end if
18: if $(n_{up} > n_{mid})$ then
19: put (mid, $n_{mid}$ , up, $n_{up}$ ) onto worklist
20: end if
21: end if
22: end while

显然，对分法的主要运算量集中在计算 $\mathrm{Negcount}(A,z)$ 。通常是事先将 $A$ 转化成对称三对角矩阵，这样计算 $A - zI$ 的 $\mathrm{LDL}^{\mathrm{T}}$ 分解就非常简单：

\begin{array}{l} A - z I = \left[ \begin{array}{c c c c} a _ {1} - z & b _ {1} & & \\ b _ {1} & \ddots & \ddots & \\ & \ddots & \ddots & b _ {n - 1} \\ & & b _ {n - 1} & a _ {n} - z \end{array} \right] \\ = \left[ \begin{array}{c c c c} 1 & & & \\ l _ {1} & \ddots & & \\ & \ddots & \ddots & \\ & & l _ {n - 1} & 1 \end{array} \right] \left[ \begin{array}{c c c c} d _ {1} & & & \\ & \ddots & & \\ & & \ddots & \\ & & & d _ {n} \end{array} \right] \left[ \begin{array}{c c c c} 1 & l _ {1} & & \\ & \ddots & \ddots & \\ & & \ddots & l _ {n - 1} \\ & & & 1 \end{array} \right] \triangleq L D L ^ {\mathsf {T}}. \\ \end{array}

利用待定系数法, 可以得到下面的递推公式

d _ {1} = a _ {1} - z, \quad d _ {i} = \left(a _ {i} - z\right) - \frac {b _ {i - 1} ^ {2}}{d _ {i - 1}}, \quad i = 2, 3, \dots , n. \tag {5.8}

用上面的公式计算 $d_{i}$ 的运算量约为 $4n$

注意这里没有选主元, 但针对对称三对角矩阵, 该算法是非常稳定的, 即使当 $d_{i}$ 有可能很小时, 算法依然很稳定.

定理5.12 [30]利用公式(5.5)计算所得的 $d_{i}$ 与精确计算 $\hat{A}$ 的 $\hat{d}_i$ 有相同的符号，故有相同的惯性.这里 $\hat{A}$ 与 $A$ 非常接近，即

\hat {A} (i, i) = a _ {i}, \quad \hat {A} (i, i + 1) = b _ {i} (1 + \varepsilon_ {i}),

其中 $|\varepsilon_i| \leq 2.5\varepsilon + \mathcal{O}(\varepsilon^2)$ , 这里的 $\varepsilon$ 为机器精度.

由于单独调用一次 Negcount 的运算量为 $4n$ , 故计算 $k$ 个特征值的总运算量约为 $\mathcal{O}(kn)$ .

当特征值计算出来后, 我们可以使用带位移的逆迭代来计算对应的特征向量. 通常只需迭代 1 至 2 次即可, 由于 $A$ 是三对角矩阵, 故计算每个特征向量的运算量为 $\mathcal{O}(n)$ . 整个合起来就构成对分法和逆迭代.

当特征值紧靠在一起时，计算出来的特征向量可能会失去正交性，此时需要进行再正交化，可通过MGS的QR分解来实现.

5.5_对分法和反迭代法

5.5 对分法和反迭代法

算法5.8.对分法：计算 AAA 在 [a,b)[a,b)[a,b) 中的所有特征值

算法5.8.对分法：计算 $A$ 在 $[a,b)$ 中的所有特征值