6.3 扰动定理

设 $D = \mathrm{diag}(\lambda_1, \lambda_2, \dots, \lambda_n) \in M_n$ ，设 $E = [e_{ij}] \in M_n$ ，并且考虑被扰动矩阵 $D + E$ 。根据定理(6.1.1)， $D + E$ 的特征值在诸圆盘

\left\{z \in \mathbf {C}: | z - \lambda_ {i} - e _ {n} | \leqslant R _ {i} ^ {\prime} (E) = \sum_ {\substack {j - 1 \\ j \neq i}} ^ {n} | e _ {i j} | \right\}, \quad i = 1, \dots , n

364 中，它们又包含在诸圆盘

\left\{z \in \mathbf {C}: | z - \lambda_ {i} | \leqslant R _ {i} (E) = \sum_ {j = 1} ^ {n} | e _ {i j} | \right\}, \quad i = 1, \dots , n

中，因此，如果 $\hat{\lambda}$ 是 $D + E$ 的特征值，则存在 $D$ 的某个特征值 $\lambda_{1}$ ，使得 $|\hat{\lambda} - \lambda_{1}| \leqslant \|E\|$ 。遗憾的是，这个简单的估计不能推广到一般（非对角）的情形，但是，在矩阵是可对角化的情形，可以给出一个简单的界。

6.3.1 论断设 $A \in M_{n}$ 是可对角化矩阵，且 $A = S\Lambda S^{-1}$ 和 $\Lambda = \mathrm{diag}(\lambda_1, \dots, \lambda_n)$ ，设 $E \in M_{n}$ 。如果 $\hat{\lambda}$ 是 $A + E$ 的一个特征值，则存在 $\Lambda$ 的某个特征值 $\lambda_{i}$ ，使得

\left| \hat {\lambda} - \lambda_ {1} \right| \leqslant \left| S \right| \quad \left| S ^ {- 1} \dots \right| E \| = \kappa . (S) | E \|

其中 $\kappa_{\cdot}(\cdot)$ 表示关于矩阵范数 $\| \cdot \|$ 的条件数.

证明：因为 $A + E$ 和 $S^{-1}(A + E)S = \Lambda + S^{-1}ES$ 有相同的特征值，又因为 $\pmb{\Lambda}$ 是对角矩阵，所以，前述论证说明，存在某个 $\lambda_{i}$ ，使得 $\mid \hat{\lambda} -\lambda_i\mid \leqslant \| S^{-1}ES\|$ 。因为 $\| \cdot \|$ 是矩阵范数，因此所述不等式成立。

在技巧上稍作修改，便可把这个结果推广到不同于极大行和范数的其他矩阵范数。矩阵范数的关键假设都被单调或绝对向量范数诱导的所有诱导矩阵范数满足；见(5.6.37)。

6.3.2 定理设 $A \in M_{n}$ 是可对角化矩阵，且 $A = S\Lambda S^{-1}$ 和 $\Lambda = \mathrm{diag}(\lambda_1, \dots, \lambda_n)$ ，设 $E \in M_{n}$ ，又设 $\|\cdot\|$ 是这样的矩阵范数，使得 $\|D\| = \max_{1 \leq i \leq n} |d_i|$ 对所有对角矩阵 $D = \mathrm{diag}(d_1, \dots, d_n) \in M_{n}$ 成立。如果 $\hat{\lambda}$ 是 $A + E$ 的一个特征值，则存在 $A$ 的某个特征值 $\lambda_{i}$ ，使得

\left| \lambda - \lambda_ {1} \right| \leqslant \left\| S \right\| \left\| S ^ {- 1} \right\| \left\| E \right\| = \kappa (S) \left\| E \right\|, \tag {6.3.3}

其中 $\kappa (\cdot)$ 是关于矩阵范数 $\| \cdot \|$ 的条件数.

证明：如同上一个结果那样，只要考虑 $S^{-1}(A + E)S = A + S^{-1}ES$ 的特征值就可以了。如果 $\lambda$ 是 $A + S^{-1}ES$ 的特征值，则 $\lambda I - \Lambda - S^{-1}ES$ 是奇异矩阵。如果 $\lambda I - \Lambda$ 是奇异矩阵，则对每个 $i$ 有 $\lambda = \lambda_i$ ，因而界(6.3.3)显然被满足。但是，假定 $\lambda I - \Lambda$ 是非奇异矩阵。在这种情形，矩阵

(\lambda I - \Lambda) ^ {- 1} (\lambda I - \Lambda - S ^ {- 1} E S) = I - (\lambda I - \Lambda) ^ {- 1} S ^ {- 1} E S

是奇异矩阵，因而，根据(5.6.16)，--定有 $\| (\lambda I - \Lambda)^{-1}S^{-1}ES\| \geqslant 1$ ，于是，因为假定矩阵范数 $\cdot$ 关于对角矩阵所具有的性质，有

\begin{array}{l} 1 \leqslant \left\| (\hat {\lambda} I - \Lambda) ^ {- 1} S ^ {1} E S \right\| \leqslant \left\| S ^ {1} E S \right\| \left| (\hat {\lambda} I - \Lambda) ^ {- 1} \right| \\ = \| S ^ {\prime} E S \| _ {\max _ {1, t, n}} | \bar {\lambda} - \lambda_ {t} | ^ {- 1} = \frac {\| S ^ {\prime} E S \|}{\min _ {1 , t , n} | \bar {\lambda} - \lambda_ {t} |}, \\ \end{array}

因此

\min _ {1 \leqslant k \leqslant n} | \lambda_ {i} - \lambda_ {i} | \leqslant \| S ^ {\prime} E S \| \leqslant \| S ^ {\prime} \| \| S \|, E \| = \kappa (S) \| F.

练习给出一个矩阵范数，它不满足定理(6.3.2)的假设。

练习证明 $\|U\|_{2} = 1$ 对任何酉矩阵成立.

虽然在(5.8)中曾出现过条件数 $\kappa(\cdot)$ ，它是由于线性方程组解的误差界引起的，但是我们看到，现在在(6.3.3)中也出现了条件数，不过它是在计算可对角化矩阵的特征值中作为误差比

\frac {\left| \hat {\lambda} - \lambda_ {i} \right|}{\left| E \right|} \leqslant \kappa (S)

的上界而出现的。如果 $\kappa(S)$ 较小（接近 1），则小的数据扰动可以使特征值产生扰动，不过特征值的变化范围以数据变化的相同数量级为界。但是，如果 $\kappa(S)$ 很大，则小的数据扰动可能引起特征值的比较大的变化。

与(5.8)中关于线性方程组解的情况不同的是，在这里 $\kappa(A)$ 没有多大意义，但是 $\kappa(S)$ 是很重要的，其中， $A = S A S^{-1}$ ，而 $S$ 是以 $A$ 的特征向量为列的矩阵。关于谱范数的条件数具有 $\kappa(S) = \cot(\theta / 2)$ 的几何解释，其中 $\theta$ 是当 $x$ 和 $y$ 取遍所有可能的非零正交向量时 $S x$ 与 $S y$ 之间的最小夹角[见例(7.1.26)]。因此，它不依赖 $A$ 的条件数。如果 $A$ 的一对线性无关的特征向量接近平行，那么 $S$ 的两列（例如，第 $p$ 列和第 $q$ 列， $p \neq q$ ）可能接近平行，因而，即使单位基向量 $e_{p}$ 和 $e_{q}$ 是正交的， $S e_{p}$ 与 $S e_{q}$ 的夹角仍可能很小。在这种情形，谱条件数 $\kappa(S)$ 将很大，而确定 $A$ 的特征值问题就可能是病态的。

但是，如果 $S$ 是酉(或接近于酉)矩阵，则 $S$ 将把一对正交向量变成正交(或将近于正交)向量，并且 $S$ 的谱条件数将会很小(实际上，如果 $S$ 是酉矩阵，它等于1)．在这种情形，确定 $A$ 的特征值的问题一定是良态的．当然，一个矩阵(恰好)可以两对角化，当且仅当它是正规矩阵，所以，(6.3.2)给出了关于整个正规矩阵(特别是Hermite矩阵和实对称矩阵)类的扰动定理，它与原来的关于对角矩阵的论断具有同样简单的形式．正规矩阵关于特征值的计算是优态的.

6.3.4 推论设 $A \in M_{n}$ 是具有特征值 $\lambda_{1}, \cdots, \lambda_{n}$ 的正规矩阵，又设 $E \in M_{n}$ ，如果 $\hat{\lambda}$ 是 $A + E$ 的特征值，则存在 $A$ 的某个特征值 $\lambda_{i}$ ，使得 $|\hat{\lambda} - \lambda_{i}| \leqslant \|E\|_{2}$ .

注意，扰动矩阵 $E$ 和被扰动矩阵 $A + E$ 都不一定是正规矩阵。推论(6.3.4)常常应用于实对称矩阵 $A$ 的情形。

练习给出推论(6.3.4)的详细证明.

练习如果知道 $A$ 和 $E$ 都是Hermite矩阵，则可以利用Weyl定理(4.3.1)给出比(6.3.4)中的界更好的界。如果 $A, E \in M_{n}$ 是Hermite矩阵，又如果 $\lambda_{1} \leqslant \lambda_{2} \leqslant \cdots \leqslant \lambda_{n}$ 是 $A$ 的有序特征值， $\hat{\lambda}_{1} \leqslant \hat{\lambda}_{2} \leqslant \cdots \leqslant \hat{\lambda}_{n}$ 是 $A + E$ 的有序特征值，且 $\lambda_{1}(E) \leqslant \cdots \leqslant \lambda_{n}(E)$ 是 $E$ 的有序特征值，试用不等式(1.3.2)证明，对所有 $k = 1, 2, \cdots, n$

\lambda_ {1} (E) \leqslant \hat {\lambda} _ {k} - \lambda_ {k} \leqslant \lambda_ {n} (E).

且

\left| \hat {\lambda} _ {k} - \lambda_ {k} \right| \leqslant \rho (E) = \left\| E \right\| _ {2}.

说明为什么这个界比(6.3.4)好．如果已知 $\pmb{E}$ 的所有特征值是非负的，这提供了什么信息？

[367]

在数值应用中，原矩阵 $A$ 和扰动矩阵 $E$ 都是实对称的情形并不少见，在这种情形以及在 $A$ 和 $A + E$ 都是正规矩阵的更一般的情形，关于扰动，存在一个对所有特征值都适用的涉及全局的界.

6.3.5 定理（Hoffman 和 Wielandt）设 $A, E \in M_n$ ，假定 $A$ 和 $A + E$ 都是正规矩阵，设 $\{\lambda_1, \dots, \lambda_n\}$ 是按某个顺序给定的 $A$ 的特征值， $\{\dot{\lambda}_1, \dots, \dot{\lambda}_n\}$ 是按某个顺序给定的 $A + E$ 的特征值。则存在整数 1，2，…， $n$ 的一个排列 $\sigma(i)$ 使得

\left[ \sum_ {i = 1} ^ {n} \left| \hat {\lambda} _ {\sigma (i)} - \lambda_ {i} \right| ^ {2} \right] ^ {1 / 2} \leqslant \| E \| _ {2}. \tag {6.3.6}

证明：设 $\Lambda = \mathrm{diag}(\lambda_1,\dots ,\lambda_n)$ ， $\hat{\Lambda} = \mathrm{diag}(\hat{\lambda}_1,\dots ,\hat{\lambda}_n)$ ，设 $V\in M_{n}$ 是使 $A = V\Lambda V^{*}$ 的酉矩阵，而 $W\in M_{n}$ 是使 $A + E = W\bar{A} W^{*}$ 的酉矩阵．于是，因为Frobenius范数是两不变的，有

\begin{array}{l} \| E \| _ {2} ^ {2} = \| (A + E) - A \| _ {2} ^ {2} \\ = \left\| W \hat {A} W ^ {*} - V A V ^ {*} \right\| _ {2} ^ {2} \\ = \| V ^ {*} W \tilde {A} W ^ {*} V - \Lambda \| _ {2} ^ {2} \\ = \| Z \dot {A} Z ^ {*} - A \| _ {2} ^ {2} \\ = \operatorname {t r} \left(Z \hat {A} Z ^ {*} - A\right) \left(Z \hat {A} Z ^ {*} - A\right) ^ {*} \\ = \operatorname {t r} \left(\hat {A} \hat {A} ^ {*} + A A ^ {*}\right) - \operatorname {t r} \left(Z \hat {A} Z ^ {*} A ^ {*} + A Z \hat {A} ^ {*} Z ^ {*}\right) \\ = \sum_ {i = 1} ^ {n} \left(\left| \hat {\lambda} _ {i} \right| ^ {2} + \left| \lambda_ {i} \right| ^ {2}\right) - 2 \operatorname {R e t r} \left(Z \hat {A} Z ^ {*} A ^ {*}\right), \\ \end{array}

其中已令 $Z = V^{*}W$ ，这个表示式说明

\| E \| _ {2} ^ {2} \geqslant \sum_ {i = 1} ^ {n} (| \hat {\lambda} _ {i} | ^ {2} + | \lambda_ {i} | ^ {2}) - 2 \max \{\mathrm {R e t r} (U \hat {\Lambda} U ^ {*} \Lambda^ {*}); U \text {是 西 矩 阵} \}. \tag {6.3.7}

我们要证明，这个下界的精确值就是所确定的界(6.3.6). 如果 $U \equiv [u_{ij}] \in M_n$ ，则容易算出

\operatorname {R e} \operatorname {t r} (U \hat {\Lambda} U ^ {*} \Lambda^ {*}) = \sum_ {i, j = 1} ^ {n} | u _ {i j} | ^ {2} \operatorname {R e} (\bar {\lambda} _ {i}, \bar {\lambda} _ {j}),

而我们感兴趣的是，当 $U$ 取遍所有 $n \times n$ 两矩阵组成的紧集时，这个表示式的极大值。如果令 $c_{ij} = |u_{ij}|^2$ ，且设 $C = [c_{ij}]$ ，则矩阵 $C \in M_n$ 就是具有非负元的矩阵，且它的所有行和与所有列和恰好都是 +1（因为 $UU^* = U^*U = I$ ）。因而，只要 $U$ 是酉矩阵， $C$ 就是双随机矩阵，又如果修改我们的极值问题，允许取所有双随机矩阵，则我们将在一个知道其结构的紧凸集上更有利地考虑这个极值问题，在这个较大的区域上的极大值当然可能更大一些：

\begin{array}{l} \max \{\mathrm {R e} \operatorname {t r} (U \tilde {\Lambda} U ^ {*} \Lambda^ {*}): U \text {是 西 矩 阵} \} = \max \left\{\sum_ {i, j = 1} ^ {n} | u _ {i j} | ^ {2} \mathrm {R e} (\bar {\lambda}, \hat {\lambda} _ {j}): U \text {是 西 矩 阵} \right\} \\ \leqslant \max \left\{\sum_ {i, j = 1} ^ {n} c _ {i j} \operatorname {R e} (\bar {\lambda} _ {i} \hat {\lambda} _ {j}): C \text {是 双 随 机 矩 阵} \right\} \\ \end{array}

368

但是，这个求极大值的函数是紧凸集上的线性函数，所以在该凸集的一个端点上取得极大值（见附录B并且注意到线性函数是凸函数）。根据Birkhoff定理(8.7.1)，双随机矩阵集合的各端点都是置换矩阵，因而存在置换矩阵 $P \in M_{n}$ ，使得

\max \Bigl \{\sum_ {i, j = 1} ^ {n} c _ {i j} \mathrm {R e} (\bar {\lambda} _ {i} \hat {\lambda} _ {j}), C \text {是 双 随 机 矩 阵} \Bigr \} = \mathrm {R e t r} (P \hat {\Lambda} P ^ {T} \Lambda^ {*}).

因为置换矩阵是酉矩阵，所以也有

\max \{\operatorname {R e} \operatorname {t r} (U \hat {\Lambda} U ^ {*} \Lambda^ {*}): U \text {是 西 矩 阵} \} = \operatorname {R e} \operatorname {t r} (P \hat {\Lambda} P ^ {T} \Lambda^ {*}).

如果对 $i - 1,2,\dots ,n$ 有 $Pe_{t} - e_{\sigma (t)}$ ，则

\operatorname {R e t r} \left(P \hat {\Lambda} P ^ {T} \Lambda^ {*}\right) = \sum_ {i = 1} ^ {n} \operatorname {R e} \left(\hat {\lambda} _ {\sigma (i)} \bar {\lambda} _ {i}\right),

而(6.3.7)说明

\begin{array}{l} \| E \| _ {2} ^ {2} \geqslant \sum_ {i = 1} ^ {N} \left[ | \hat {\lambda} _ {\sigma (t)} | ^ {2} + | \lambda_ {i} | ^ {2} - 2 \operatorname {R e} (\hat {\lambda} _ {\sigma (t)} \lambda_ {i}) \right] \\ = \sum_ {t = 1} ^ {N} \left| \hat {\lambda} _ {\alpha (t)} \quad \lambda_ {t} \right| ^ {2}. \\ \end{array}

定理(6.3.5)说明，对正规矩阵的特征值集合，存在很强的全局稳定性，但是它没有说明究竟是特征值的哪个排列将满足所述不等式，并不是特征值的每个排列都满足这个不等式，实际上，至少存在特征值的一个排列，可使(6.3.6)的不等式反向（见本节未习题7）。然而，在Hermite矩阵这一重要特殊情形，特征值的自然顺序能满足(6.3.6)中的不等式。

6.3.8 推论设 $A, E \in M_n$ ，假定 $A$ 是 Hermite 矩阵。 $A + E$ 是正规矩阵，设 $\{\lambda_1, \dots, \lambda_n\}$ 是 $A$ 的特征值，且排成递增顺序（ $\lambda_1 \leqslant \lambda_2 \leqslant \dots \leqslant \lambda_n$ ），又设 $\{\hat{\lambda}_1, \dots, \hat{\lambda}_n\}$ 是 $A + E$ 的特征值，使其有顺序 $\operatorname{Re} \hat{\lambda}_1 \leqslant \operatorname{Re} \hat{\lambda}_2 \leqslant \dots \leqslant \operatorname{Re} \hat{\lambda}_n$ 。则

\left[ \sum_ {i = 1} ^ {n} | \hat {\lambda} _ {i} - \lambda_ {i} | ^ {2} \right] ^ {1 / 2} \leqslant \| E \| _ {2}.

证明：根据定理(6.3.5)，存在 $A + E$ 的特征值的给定顺序（递增实部)的某个排列 $\sigma$ ，使得

\left[ \sum_ {i = 1} ^ {n} \mid \hat {\lambda} _ {\sigma (i)} - \lambda_ {i} \mid^ {2} \right] ^ {1, 2} \leqslant \| E \| _ {2}. \tag {6.3.9}

如果 $A + E$ 的特征值在表 $\hat{\lambda}_{\sigma(1)}, \cdots, \hat{\lambda}_{\sigma(n)}$ 中已使它们的实部成递增顺序，那就没有什么可证的了。否则，在上述表中有两个相邻的特征值，其实部不按递增顺序排列，例如，对某个适合 $1 \leqslant k < n$ 的 $k$ ，

\operatorname {R e} \lambda_ {\sigma (k)} > \operatorname {R e} \lambda_ {\sigma (k + 1)}.

但是，因为

\begin{array}{l} \left| \hat {\lambda} _ {\sigma (k)} - \lambda_ {k} \right| ^ {2} + \left| \hat {\lambda} _ {\sigma (k + 1)} - \lambda_ {k + 1} \right| ^ {2} = \left| \hat {\lambda} _ {\sigma (k - 1)} - \lambda_ {k} \right| ^ {2} + \left| \hat {\lambda} _ {\sigma (k)} - \lambda_ {k + 1} \right| ^ {2} \\ + 2 \left(\lambda_ {k} - \lambda_ {k + 1}\right) \left(\operatorname {R e} \tilde {\lambda} _ {\sigma (k + 1)} - \operatorname {R e} \tilde {\lambda} _ {\sigma (k)}\right), \\ \end{array}

又因为根据假定， $\lambda_{k} - \lambda_{k + 1}\leqslant 0$ ，所以得知

\left| \hat {\lambda} _ {\sigma (k)} - \lambda_ {k} \right| ^ {2} + \left| \hat {\lambda} _ {\sigma (k + 1)} - \lambda_ {k + 1} \right| ^ {2} \geqslant \left| \hat {\lambda} _ {\sigma (k + 1)} - \lambda_ {k} \right| ^ {2} + \left| \hat {\lambda} _ {\sigma (k)} - \lambda_ {k + 1} \right| ^ {2}.

因此，可以交换两个特征值 $\hat{\lambda}_{\sigma(k)}$ 和 $\hat{\lambda}_{\sigma(k+1)}$ 且不增加平方差之和。通过有限次这样的交换，特征

369

值表 $\hat{\lambda}_{\sigma(1)}, \cdots, \hat{\lambda}_{\sigma(n)}$ 可以变换成表 $\hat{\lambda}_1, \hat{\lambda}_2, \cdots, \hat{\lambda}_n$ ，使其实部是递增的，且所确定的界成立。

实际上，这个推论经常应用于 $A$ 和 $A + E$ 都是Hermite矩阵或者甚至于是实对称矩阵的情形.

练习证明，如果 $A, B \in M_n$ 是Hermite矩阵又如果它们的特征值都按递增顺序或都按递减顺序排列，则

\left(\sum_ {i = 1} ^ {n} \left[ \lambda_ {i} (A) - \lambda_ {i} (B) \right] ^ {2}\right) ^ {1 2} \leqslant \| A - B \| _ {2}.

练习说明，如果 $A$ 和 $B = A + E$ 不都是正规矩阵，则定理(6.3.5)中的结论不一定成立. 提示：设 $A = \begin{bmatrix} 0 & 0 \\ 0 & 4 \end{bmatrix}$ ， $B = \begin{bmatrix} -1 & -1 \\ 1 & 1 \end{bmatrix}$ ，然后说明，对特征值的任--顺序，

\sum_ {i = 1} ^ {2} \left[ \lambda_ {i} (A) - \lambda_ {i} (B) \right] ^ {2} = 1 6.

如果 $A$ 不可对角化，就不知道有像定理(6.3.2)中那样简单的界。但是有可能导出一个简明的公式，它说明，当矩阵的元素产生扰动时，矩阵的代数单重特征值（代数重数等于1）如何变化。首先给出一个引理，说明相应于一个单重特征值的左特征向量与右特征向量具有非正交性。

6.3.10 引理如果 $A \in M_{n}$ ，且 $\lambda$ 是 $A$ 的代数单重特征值，又如果 $x$ 和 $y$ 分别是相应于 $A$ 的特征值 $\lambda$ 的右特征向量和左特征向量，则 $y^{*}x \neq 0$ .

证明：如果 $Ax = \lambda x$ ， $x\neq 0$ ，则可以采用在Schur-角化定理(2.3.1)的证明中所使用过的方法，构造其第1列是 $x / \| x\| _2$ 的酉矩阵 $U$ ，使得

U \cdot A U = \left[ \begin{array}{c c} \lambda & * \\ \dots & B \end{array} \right], B \in M _ {n - 1}.

因为 $\lambda$ 是 $A$ 的单重特征值，所以它不可能是 $B$ 的特征值。单位基向量 $e_1$ 是 $U^*AU$ 的属于 $\lambda$ 的特征向量。现在考虑

(U ^ {*} A U) ^ {*} = U ^ {*} A ^ {*} U = \left[ \begin{array}{c c} \lambda & 0 \\ \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \end{array} \right],

且假定 $U^{*}A^{*}Uz = \lambda z$ ，其中 $z\neq 0$ ，如果 $z^{*} = [0|\xi^{*}]$ ，则 $\xi \neq 0$ 且 $\xi$ 是 $B^{*}$ 的属于 $\lambda$ 的特征向量.另一方面， $\lambda$ 就应是 $B$ 的特征值，这与假设相矛盾，由此得知， $z$ 不能以零作为第一个分量，即 $z^{\prime}e_{1}\neq 0$ ，但是 $(Uz)^{*}(Ue_{1}) = z^{*}e_{1}\neq 0$ ，且向量 $Uz$ 和 $Ue_{1}$ 是 $A$ 的属于 $\lambda$ 的左特征向量和右特征向量．因为根据假定， $A$ 的关于 $\lambda$ 的左特征空间和右特征空间都是一维的，所以对某个 $\alpha$ $\neq 0$ ，一定有 $y = aUz$ ，但是 $x = \| x\| _2Ue_1$ ，因此 $y^{\star}x\neq 0$ 一定成立. □

练习考虑 $A = \begin{bmatrix} 1 & 1 \\ 0 & 1 \end{bmatrix}$ ，说明，如果从假设条件中略去“代数单重”，则引理不成立。

现在假定 $\lambda$ 是 $A$ 的代数单重特征值。于是 $A$ 有唯一（除了差一个纯量因子 $\alpha$ 以外， $|\alpha| = 1$ ）确定的正规化右 $\lambda$ 特征向量 $x$ 和唯一确定的左 $\lambda$ 特征向量 $y$ ，它可以通过关系 $y^{\star} x = 1$ 正

规化．如果考虑可微的参数族 $A(t)$ ，使得 $A(0) = A$ [例如， $A(t) = A + tE$ ， $\pmb{E}$ 为固定的扰动矩阵]，则对所有充分小的 $\pmb{\mathcal{T}}$ ，存在 $A(t)$ 的唯一确定的单重特征值 $\lambda (t)$ ，使得 $\lambda (0) = \lambda$ ，同时存在一个右 $\lambda (t)$ 的特征向量 $x(t)$ ，它由条件 $x^{*}(t)x(t)\equiv 1$ 唯一确定(如前，差一个因子 $\alpha$ )还存在一个左 $\lambda (t)$ 特征向量 $y(t)$ ，它由条件 $y^{*}(t)x(t)\equiv 1$ 唯一确定.

如果微分这后一个正规化条件，则得到恒等式

y ^ {\prime *} (t) x (t) + y ^ {*} (t) x ^ {\prime} (t) = 0. \tag {6.3.11}

因为 $A(t)x(t) = \lambda (t)x(t)$ 对所有小的 $t$ 成立，所以也有恒等式 $y^{*}(t)A(t)x(t) = \lambda (t)y^{*}(t)x(t) = \lambda (t)$ 。如果微分这个恒等式，便得出

\lambda^ {\prime} (t) = y ^ {\prime *} (t) A (t) x (t) + y ^ {*} (t) A ^ {\prime} (t) x (t) + y ^ {*} (t) A (t) x ^ {\prime} (t).

但是，因为 $A(t)x(t) = \lambda (t)x(t)$ 和 $y^{*}(t)A(t) = \lambda (t)y^{*}(t)$ ，这就变成

\lambda^ {\prime} (t) = \lambda (t) \left\{y ^ {*} (t) x (t) + y ^ {*} (t) x ^ {\prime} (t) \right\} + y ^ {*} (t) A ^ {\prime} (t) x (t) - y ^ {\prime} (t) A ^ {\prime} (t) x (t).

我们已经用到了恒等式(6.3.11). 在 $t = 0$ ，这在正规化条件 $x^{*}x = 1$ 和 $y^{*}x = 1$ 下，正好是恒等式 $\lambda^{\prime}(0) = y^{*}A^{\prime}(0)x$ 如果 $x$ 和 $y$ 是右 $\pmb{\lambda}$ 特征向量和左 $\pmb{\lambda}$ 特征向量，它们不一定用上述方式正规化，可以用 $x / (x^{*}x)^{12}$ 代替 $x$ ，用 $(x^{*}x)^{12}y / x^{*}y$ 代替 $y$ 来得到一般的恒等式 $\lambda^{\prime}(0)y^{*}x = y^{*}A^{\prime}(0)x$ ，至此已经证明了关于矩阵 $A$ 的下述结果，它不要求 $A$ 一定可对角化.

6.3.12 定理设 $A(t) \in M_n$ 在 $t = 0$ 可微。假定 $\lambda$ 是 $A(0)$ 的代数单重特征值，并且假定对小的 $t$ ， $\lambda(t)$ 是 $A(t)$ 的特征值，且使 $\lambda(0) = \lambda$ 。设 $x$ 是 $A$ 的右 $\lambda$ 特征向量， $y$ 是 $A$ 的左 $\lambda$ 特征向量，则

\lambda^ {\prime} (0) = \frac {y ^ {\prime} A ^ {\prime} (0) x}{y ^ {\prime} x}.

练习设 $A(t) = A + tE$ ，其中 $E$ 是固定的扰动矩阵，（在定理(6.3.12)的假定下）证明，在 $t = 0$ ，

\frac {\mathrm {d} \lambda}{\mathrm {d} t} = \frac {y ^ {*} E x}{y ^ {*} x}.

练习在定理(6.3.12)假定下，证明，对任意 $i, j$

\frac {\partial \lambda}{\partial a _ {i j}} = \frac {\bar {y} _ {i} x _ {j}}{y ^ {*} x}. \tag {372}

这个公式说明，相对于 $A$ 的任一元素的变化， $\lambda$ 如何变化。提示：设 $E = E_{n}$ ，它是 $n \times n$ 矩阵，且其仅有的非零元在 $i, j$ 位置上。

练习考察矩阵 $A = \begin{bmatrix} 1 & 1 \\ 0 & 1 + \varepsilon \end{bmatrix}$ ，如果 $\varepsilon \neq 0$ ，特征值 $\lambda = 1$ 就是单重的。对所有四对 $i, j$ ，直接算出 $\partial \lambda / \partial a_{ij}$ 。当 $\varepsilon \to 0$ 时，这些变化具有什么性质？由此可知，如果 $x$ 和 $y$ 接近正交，那么，对于 $A$ 的某些扰动，特征值 $\lambda$ 可能是很灵敏的。

与特征值的情形形成对比，仅仅因为矩阵元素的小扰动，即使是对角矩阵的特征向量，也可能会有很大的变化。例如，如果 $A = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$ ，且 $E = \begin{bmatrix} \varepsilon & \delta \\ 0 & 0 \end{bmatrix}$ ，其中 $\varepsilon, \delta \neq 0$ ，则 $A + E$ 的特征值是 $\lambda = 1$ 和 $1 + \varepsilon$ ，而相应的正规化特征向量是

\frac {1}{(\epsilon^ {2} + \delta^ {2}) ^ {1 . 2}} \left[ \begin{array}{c} {- \delta} \\ {\varepsilon} \end{array} \right] \quad \text {和} \quad \left[ \begin{array}{c} {1} \\ {0} \end{array} \right].

对于任意小的 $\varepsilon$ 和 $\delta$ ，通过适当选择 $\varepsilon$ 与 $\delta$ 之比，可以把第一个特征向量选定为任意方向上的点已解.

如果令 $\varepsilon = 0$ ，则对任意 $\delta \neq 0$ ，被扰动矩阵 $A + E = \begin{bmatrix} 1 & \delta \\ 0 & 1 \end{bmatrix}$ 只有一个无关的特征向量，而 $A$ 却有两个无关的特征向量.

迄今我们的所有估计是关于矩阵的扰动所引起的特征值误差的先验界；它们不涉及所计算的特征值或特征向量，或由它们导出的任何量。假定“近似特征向量” $\hat{x} \neq 0$ 和“近似特征值” $\hat{\lambda}$ 已经用某种方式求出来，可能不是 $A\hat{x}$ 恰好等于 $\hat{\lambda}\hat{x}$ 的情形，但是，当 $A$ 可对角化时，可以利用剩余向量 $r = A\hat{x} - \hat{\lambda}\hat{x}$ 得到一个估计，确定 $\hat{\lambda}$ 是如何接近 $A$ 的一个特征值。

记 $A = S\Lambda S^{\perp}$ ，且假定 $\hat{\lambda}$ 不恰好等于 $A$ 的任何特征值．于是

r = A \hat {x} - \hat {\lambda} \hat {x} = S (\Lambda - \hat {\lambda} I) S ^ {- 1} \hat {x},

所以 $\hat{x} = S(A - \hat{\lambda} I)^{-1}S^{-1}r$ 因此，

\begin{array}{l} \left\| \hat {x} \right\| = \left\| S (\Lambda - \hat {\lambda I}) ^ {- 1} S ^ {- 1} r \right\| \leqslant \left\| S (\Lambda - \hat {\lambda I}) ^ {- 1} S ^ {- 1} \right\| \| r \| \\ \leqslant | S | \left| S ^ {1} \right| \left| (\Lambda - \hat {\lambda} I) ^ {- 1} \right| \| r \| = \kappa (S) \left\| (\Lambda - \hat {\lambda} I) ^ {- 1} \right\| \| r \| \\ - \kappa (S) \left(\min _ {1: n} | \lambda_ {i} - \bar {\lambda} |\right) ^ {1} \| r \|, \\ \end{array}

从而

\| \hat {x} | \min _ {1: r \leqslant n} | \lambda , - \hat {\lambda} | \leqslant \kappa (S) \| r \|.

显然，即使当某个 $\lambda_{i} = \bar{\lambda}$ 时，后一个不等式仍然成立。对于上述论证，已经假定

(a) $\| \cdot \|$ 是 $\mathbf{C}^n$ 上的向量范数；
(b) $M_{n}$ 上的矩阵范数 $\| \cdot \|$ 与 $\| \cdot \|$ 相容；
(c) $\| D\| = \max_{1\leqslant i,j\leqslant n}|d_i|$ ，如果 $D = \mathrm{diag}(d_1,\dots ,d_n)\in M_n;$ （20

且条件数 $\kappa(S)$ 是用矩阵范数 $\|\cdot\|$ 来计算的。如果 $A$ 是正规矩阵，则 $S$ 可以取为酉矩阵，又如果采用 $l_{2}$ 向量范数和谐矩阵范数，则有 $\kappa(S) = 1$ 。条件(c)等价于要求矩阵范数 $\|\cdot\|$ 是由单调向量范数诱导的[定理(5.6.37)]。因此，如果 $\|\cdot\|$ 是 $\mathbf{C}^{n}$ 上的单调向量范数，且 $\|\cdot\|$ 是由 $\|\cdot\|$ 诱导的 $M_{n}$ 上矩阵范数，则(6.3.13)的所有条件都被满足。这样，就证明了关于后验界的结果，它与定理(6.3.2)和推论(6.3.4)具有相同的形式。

6.3.14 定理设 $A \in M_{n}$ 是可对角化矩阵，且 $A = S\Lambda S^{-1}$ 和 $\Lambda = \mathrm{diag}(\lambda_1, \dots, \lambda_n)$ 。设 $\mathbf{C}^{n}$ 上的向量范数 $\|\cdot\|$ 和 $M_{n}$ 上的矩阵范数 $\|\cdot\|$ 适合条件(6.3.13)，设 $\hat{x} \in \mathbf{C}^{n}$ 是给定的非零向量， $\hat{\lambda}$ 是给定的复数，且 $r = A\hat{x} - \lambda \hat{x}$ ，则存在 $A$ 的某个特征值 $\lambda_{1}$ ，使得

| \lambda - \lambda_ {1} | \leqslant \| S \| \| S ^ {- 1} \| \frac {\| r \|}{\| \hat {x} \|} = \kappa (S) \quad \begin{array}{l} \| r \| \\ \| \hat {x} \| \end{array} . \tag {6.3.15}

如果 $\pmb{A}$ 是正规矩阵，则存在 $A$ 的某个特征值 $\lambda_{1}$ ，使得

\left| \lambda - \lambda_ {r} \right| \leqslant \frac {\left\| r \right\| _ {2}}{\left\| \hat {x} \right\| _ {2}}. \tag {6.3.16}

这后一个结果可能不同于线性方程组的解的相对误差的后验界的相应结果。如果线性方程组的系数矩阵是病态的，（5.8.11）说明，小的剩余向量并不蕴涵解的小的相对误差。然而，(6.3.16)却说明，如果 $A$ 是正规矩阵（实际上， $A$ 通常是Hermite矩阵或实对称矩阵），又如果近似特征向量——特征值偶有小的剩余向量，则可以保证特征值的绝对误差是小的；没有条件数出现在界中。

这个关于特征值的惬意结果没有关于特征向量的类似的惬意结果相匹配。即使对于实对称矩阵，一个小的剩余向量并不保证近似特征向量接近于一个特征向量。例如，考虑 $A = \left[ \begin{array}{ll}1 & \varepsilon \\ \varepsilon & 1 \end{array} \right]$ ， $\varepsilon > 0$ 。如果取 $\hat{\lambda} = 1$ 和 $\hat{x} = [1, 0]^T$ ，则剩余向量是 $r = [0, \varepsilon]^T$ 。对所有 $\varepsilon > 0$ ， $A$ 的特征向量是 $[1, 1]^T$ 和 $[1, -1]^T$ ，而不论 $\varepsilon$ 如何小， $\hat{x}$ 不近似平行于这两个向量中的任何一个。

练习证明上述例子中 $A$ 的特征值是 $1 + \epsilon$ 和 $1 - \epsilon$ ，并且验证在这种情形下的界(6.3.16).

习题

如果 $\lambda, \mu$ 是 $A$ 的特征值，且 $\lambda \neq \mu$ ，证明 $A$ 的相应于 $\mu$ 的任一左特征向量与 $A$ 的相应于 $\lambda$ 的任一右特征向量正交。
在 $A$ 有互不相同的特征值的假定下，利用上一个习题给出引理(6.3.10)的另一个证明。
考察

A _ {\varepsilon} = \left[ \begin{array}{l l} 0 & 1 \\ \varepsilon & 0 \end{array} \right] \in M _ {2}, \quad A _ {0} = \left[ \begin{array}{l l} 0 & 1 \\ 0 & 0 \end{array} \right],

其中 $\varepsilon \geqslant 0$ ，试验证本节第一段最后一句话中所表现出的遗憾．证明，对 $\varepsilon > 0$ ， $A_{\varepsilon}$ 可对角化，且 $A_{\varepsilon}$ 的一个特征值与 $A_{0}$ 的每一个特征值间的极小距离是 $\sqrt{\varepsilon}$ ：记 $A_{\varepsilon} = A_{0} + E$ ，并证明

\frac {\mid \hat {\lambda} - \lambda_ {t} \mid}{\parallel E \parallel} \geqslant O (\varepsilon^ {- 1 / 2}) \rightarrow \infty , \quad \text {若} \varepsilon \rightarrow 0

因此，一般说来，没有形如 $|\hat{\lambda} - \lambda_i| \leqslant \|E\|$ 的界可能是正确的。然后计算在这种情形下定理(6.3.2)的界，并且说明会出现什么情形。

考察多项式 $p(x) = (x - x_0)^2$ ，它在 $x_0$ 有重根，即 $p(x_0) = p'(x_0) = 0$ ，但 $p''(x_0) = 0$ 。证明，对较小的 $\varepsilon > 0$ ， $p(x) - \varepsilon$ 有形如 $x_0 \pm \varepsilon^{1/2}$ 与 $x_0$ 接近的两个根。因此，一个多项式的各个系数中阶 $\varepsilon$ 的一个改变就可以使它的各个根按阶 $\sqrt{\varepsilon}$ 的一个相当量发生改变。对于一个多项式，一个零点的扰动与各系数的扰动之比可能是无界的。
考虑界(6.3.4)，它是说，对于Hermite矩阵(或更一般地，正规矩阵)，特征值的扰动与矩阵诸元素的扰动之比是有界的。因为矩阵的各特征值正好是其特征多项式的各个根。解释为何这个合意情形与习题4中的结论是一致的。历史的经验是，按传统习惯去构造特征多项式然后求它的各根的方法来计算Hermite矩阵(或任何其他矩阵)的各特征值是不可取的。这有可

能把原本良态的问题转为病态问题！

考虑Givens给的例子，设 $A = I$ 是 $2 \times 2$ 实对称矩阵，而

E (\varepsilon) = \left[ \begin{array}{c c} \varepsilon \cos (2 / \varepsilon) & \varepsilon \sin (2 / \varepsilon) \\ \varepsilon \sin (2 / \varepsilon) & - \varepsilon \cos (2 / \varepsilon) \end{array} \right], \quad \varepsilon > 0

是一个实对称扰动矩阵，且 $E(0) \equiv \lim_{\varepsilon \to 0} E(\varepsilon) = 0$ 。证明， $A + E(\varepsilon)$ 的特征值是 $1 + \varepsilon$ 和 $1 - \varepsilon$ ，而 $A + E(\varepsilon)$ 相应的（唯一确定到相差一个符号）的正规化特征向量分别是 $\left[\cos (1 / \varepsilon), \sin (1 / \varepsilon)\right]^T$ 和 $\left[\sin (1 / \varepsilon), -\cos (1 / \varepsilon)\right]^T$ ，其中 $\varepsilon > 0$ 。证明，当 $\varepsilon \to 0$ 时，每个特征向量可随意地指向任一给定的方向。因此，即使我们仅考虑实对称矩阵，如果它的特征值与其他特征值没有明显的区别，则有个别特征向量可以快速地变化。

试用定理(6.3.5)的证法证明，（在该定理的假设条件下）存在整数 $1, 2, \cdots, n$ 的一个排列 $\tau$ ，使得

\left(\sum_ {i = 1} ^ {n} \left| \hat {\lambda} _ {r (i)} - \lambda_ {i} \right| ^ {2}\right) ^ {1. 2} \geqslant \| E \| _ {2}.

提示：考虑 $\min \left\{\sum_{i,j=1}^{n} c_{ij} \operatorname{Re}(\hat{\lambda}_i \bar{\lambda}_j)\right\}; C = \lfloor c_{ij} \rfloor$ 是双随机矩阵}.

设 $A \in M_{n}$ 是给定的正规矩阵，其特征值集为 $\{\lambda_{i}(A)\}$ ，又设 $r > 0$ 是给定的，且定义

S (A, r) \equiv \{B \in M _ {n}: B \text {是 正 规 矩 阵}, \text {且} \| B - A \| _ {2} \leqslant r \}

证明 $\{\hat{\lambda}_1,\dots ,\hat{\lambda}_n\}$ 是矩阵 $B\in S(A,r)$ 的特征值集合当且仅当

\min \bigl \{\sum_ {r} ^ {n} | \lambda , (A) - \hat {\lambda} _ {\sigma (r)} | ^ {2}: \sigma \text {是} 1, \dots , n \text {的 一 个 排 列} \bigr \} \leqslant r ^ {2}.

376

这给出了一个给定的正规矩阵的邻域中的诸正规矩阵的可能特征值集合的完整特征。提示：必要性用定理(6.3.5)。关于充分性，设 $A = U\Lambda U^{*}$ ，其中 $\Lambda = \mathrm{diag}(\lambda_1(A), \dots, \lambda_n(A))$ ，然后定义 $B = U\hat{\Lambda} U^{*}$ ，其中 $\hat{\Lambda} - \mathrm{diag}(\hat{\lambda}_1, \dots, \hat{\lambda}_n)$ 。

在定理(6.3.5)的证明中，用到了如下事实：如果 $U = [u_{ij}] \in M_n$ 是酉矩阵，则 $A \equiv [\left|u_{ij}\right|^2]$ 是双随机矩阵。说明不是每个双随机矩阵可以用这种方式由酉矩阵产生。提示：考虑例子

\frac {1}{2} \left[ \begin{array}{c c c} 1 & 1 & 0 \\ 1 & 0 & 1 \\ 0 & 1 & 1 \end{array} \right].

假定 $A \in M_{s}$ 是给定的Hermite矩阵，且假定用某种方式已求得一个酉矩阵 $U$ ，使得

U A U ^ {*} = \left[ \begin{array}{r r r} 3. 0 5 & - 0. 0 6 & 0. 0 2 \\ - 0. 0 6 & - 6. 9 1 & 0. 0 7 \\ 0. 0 2 & 0. 0 7 & 8. 4 4 \end{array} \right]

对于 $A$ 的特征值，给出你所能做到的最佳估计.

不能指望非正规矩阵有形如(6.3.4)的界．考虑 $A$ ， $E \in M_{n}$ ，其中，

\begin{array}{l} A = \left[ \begin{array}{c c c c c} 0 & a & & & \\ & & 0 & & 0 \\ & & \ddots & \ddots & \\ 0 & & & & 0 \\ & & & & 0 \end{array} \right], \\ E = \left[ \begin{array}{c c c c c c} 0 & & 0 & & & \\ & & & \varepsilon & & 0 \\ \vdots & & & & \varepsilon & \\ & 0 & & \ddots & & \ddots \\ 0 & & & & & \varepsilon \\ \varepsilon & 0 & & & \dots & 0 \end{array} \right], \quad a, \varepsilon \geqslant 0. \\ \end{array}

证明 $A$ 的所有特征值都是 0，而 $A + E$ 的特征值是关于 $\sqrt[n]{a\varepsilon^{n - 1}}$ 的 $n$ 个不同的值。无论 $\epsilon > 0$ 为何值，只要适当地选取 $a$ ，就可使 $A + E$ 的所有特征值任意大。当 $A$ 是正规矩阵时，情况有何不同？

进一步阅读定理(6.3.5)的原始形式可参看A.J.Hoffman and H.Wielandt.“The Variation of the Spectrum of a Normal Matrix,"Duke Math. J. 20(1953), 37-39. 这个结果关于实对称情形的一个初等证明见[Wil], pp. 104-109.

6.3_扰动定理

6.3 扰动定理

习题