5.6_矩阵范数

5.6 矩阵范数

因为 MnM_{n} 本身是 n2n^2 维向量空间,所以可以采用 Cn2\mathbf{C}^{n^2} 上的任一种向量范数来度量矩阵的“大小”。但是, MnM_{n} 不仅仅是高维向量空间;它还有通常的乘法运算,并且在度量矩阵的“大小”时,建立起 ABAB 的“大小”与 AABB 的“大小”间的关系常常是有用的。

我们称函数 \| \cdot \|MnRM_{n}\rightarrow \mathbf{R} 是矩阵范数,指的是,对所有 AABMnB\in M_{n} ,它满足下列五条公理:

[289]

(1) A0\left\| A \right\| \geqslant 0 非负性:
(1a) A=0|A| = 0 ,当且仅当 A=0A = 0 正定性;
(2) cA=cA\left|cA\right| = \left|c\right|\left|A\right| 对所有复纯量 cc 成立, 齐次性;
(3) A+BA+B\cdot A + B\| \leqslant |A| + |B| , 三角不等式:
(4) ABAB|AB||\leqslant A||B| 次乘性.

注意,性质(1)~(3)与向量范数(5.1.1)的公理相同。关于矩阵的向量范数,即满足(1)~(3)而不一定满足(4)的函数,称为广义矩阵范数。矩阵半范数和广义矩阵半范数的概念也可以通过取消公理(1a)来定义。

对任意矩阵范数有 A=AA1A^{\prime} = \left\| AA^{\prime}\right\|_{1}A=AA^{\prime} = A ,所以对适合 A=AA^{\prime} = A 的任意非零矩阵 AA ,一定有 A1A^{\prime}\geq 1 ,特别是 I1I\geq 1 对任何矩阵范数成立,如果 AA 是可逆矩阵,则 I=AA1I = AA^{-1} 因而, I=AA<AAI = AA^{\prime} < A - A^{\prime} ,且有下界

A1IA,\left| A ^ {- 1} \right| \geqslant \frac {\left| I \right|}{\left| A \right|},

290 它对任何矩阵范数 \| \cdot \| 都成立.

练习 证明。如果 \| \cdot \| 是矩阵范数,则 AkAkA^k \geqslant A^k 对每个 k=1,2,k = 1, 2, \cdots 和所有 AMnA \in M_n 成立。给出一个例子,使得这个不等式对关于矩阵的向量范数不成立。

当把在(5.2)中引进的某些向量范数应用于向量空间 MnM_{n} 时,它们就是矩阵范数,而有些向量范数则不是矩阵范数。最熟悉的例子是 p=1,2,p = 1, 2, \infty 时的 lpl_{p} 范数,已经知道它们是向量范数,所以只需要验证公理(4)。

例 对 AMκA \in M_{\kappa} ,用

A1=i,t1nai\| A \| _ {1} = \sum_ {i, t - 1} ^ {n} | a _ {i} |

定义的 l1l_{1} 范数是矩阵范数,这是因为

AB1=i,j=1nk=1naikbkjr,j,k=1naikbkji,j,k,m=1naikbmj=(i,k1naik)(j,m1nbmq)==A;B.\begin{array}{l} \| A B \| _ {1} = \sum_ {i, j = 1} ^ {n} \left| \sum_ {k = 1} ^ {n} a _ {i k} b _ {k j} \right| \leqslant \sum_ {r, j, k = 1} ^ {n} | a _ {i k} b _ {k j} | \\ \leqslant \sum_ {i, j, k, m = 1} ^ {n} | a _ {i k} b _ {m j} | = \left(\sum_ {i, k - 1} ^ {n} | a _ {i k} |\right) \left(\sum_ {j, m - 1} ^ {n} | b _ {m q} |\right) \\ = = \left| ^ {\prime} A ^ {\prime} \right|; \left| B \right|. \\ \end{array}

第一个不等式可以从三角不等式得到,而第二个不等式是把一些附加项加到和中得来的。

例 对 AMnA \in M_{n} ,用

A2=(i,j=1naij2)1.2\left| A \right| _ {2} = \left(\sum_ {i, j = 1} ^ {n} \mid a _ {i j} \mid^ {2}\right) ^ {1. 2}

定义的Euclid范数或 lγl_{\gamma} 范数是矩阵范数,这是因为

AB22=i,j=1nk=1naikbkj2i,j=1n(k=1naik2)(m=1nbmj2)\left\| A B \right\| _ {2} ^ {2} = \sum_ {i, j = 1} ^ {n} \left| \sum_ {k = 1} ^ {n} a _ {i k} b _ {k j} \right| ^ {2} \leqslant \sum_ {i, j = 1} ^ {n} \left(\sum_ {k = 1} ^ {n} \left| a _ {i k} \right| ^ {2}\right) \left(\sum_ {m = 1} ^ {n} \left| b _ {m j} \right| ^ {2}\right)
=(i,k=1naik2)(m,j=1nbmj2)=A22B22.= \left(\sum_ {i, k = 1} ^ {n} | a _ {i k} | ^ {2}\right) \left(\sum_ {m, j = 1} ^ {n} | b _ {m j} | ^ {2}\right) = \| A \| _ {2} ^ {2} \| B \| _ {2} ^ {2}.

这个不等式正是Cauchy-Schwarz不等式。当应用于矩阵时,这个范数有时称为Frobenius范数,Schur范数或Hilbert-Schmidt范数。如果用 AMnA \in M_{n} 的列向量 aiCna_{i} \in \mathbf{C}^{n} 表示 A=[a1a2an]MnA = [a_{1}a_{2}\dots a_{n}] \in M_{n} ,则

A22=a122++an22.\| A \| _ {2} ^ {2} = \| a _ {1} \| _ {2} ^ {2} + \dots + \| a _ {n} \| _ {2} ^ {2}.

因为 Cn\mathbf{C}^n 上的 l2l_{2} 范数是酉不变的,我们有重要的事实:

UA22=Ua122++Uan22=a122++an22=A22,\left\| U A \right\| _ {2} ^ {2} = \left\| U a _ {1} \right\| _ {2} ^ {2} + \dots + \left\| U a _ {n} \right\| _ {2} ^ {2} = \left\| a _ {1} \right\| _ {2} ^ {2} + \dots + \left\| a _ {n} \right\| _ {2} ^ {2} = \left\| A \right\| _ {2} ^ {2},

其中 UMnU \in M_{n} 是任意酉矩阵,因为 B2=B2\| B^{*} \|_{2} = |B|_{2} 对所有 BMnB \in M_{n} 成立,这蕴涵

UAV2=AV2=VA2=A2=A2,\left| U A V \right| _ {2} = \left\| A V \right\| _ {2} = \left\| V ^ {*} A ^ {*} \right\| _ {2} = \left\| A ^ {*} \right\| _ {2} = \left\| A \right\| _ {2},

其中 U,VMnU, V \in M_{n} 是任意酉矩阵,因此, MnM_{n} 上的 l2l_{2} 范数是酉不变矩阵范数。

例 对 AMnA \in M_{n} ,用

A1max1,i,j:naij\left\| A \right\| _ {1} \equiv \max _ {1, i, j: n} | a _ {i j} |

定义的 ll 范数是向量空间 MnM_{n} 上的范数,但不是矩阵范数。考虑矩阵 J=[1111]M2J = \begin{bmatrix} 1 & 1 \\ 1 & 1 \end{bmatrix} \in M_{2} ,由计算可知, J2=2JJ^{2} = 2JJ=1\| J \|_{\infty} = 1J2=2J=2J=2\| J^{2} \| = \| 2J \| = 2 \| J \|_{\infty} = 2 。它不适合 J2J2\| J^{2} \|_{\infty} \leqslant \| J \|_{\infty}^{2} ,因而 \| \cdot \|_{\infty} 不是次乘性范数。但是,如果定义

AnA,AMn,\| A \| \equiv n \| A \|, A \in M _ {n},

则有

AB=nmax1i,jnk=1naikbkjnmax1i,jnk=1naikbkjnmax1,2,3,4,5,nk=1nAB=nAnB=AB.\begin{array}{l} \left| A B \right| = n \max _ {1 \leqslant i, j \leqslant n} \left| \sum_ {k = 1} ^ {n} a _ {i k} b _ {k j} \right| \leqslant n \max _ {1 \leqslant i, j \leqslant n} \sum_ {k = 1} ^ {n} \left| a _ {i k} b _ {k j} \right| \\ \leqslant n \max _ {1, 2, 3, 4, 5, n} \sum_ {k = 1} ^ {n} \| A \| _ {\infty} \| B \| _ {\infty} = n \| A \| _ {\infty} n \| B \| _ {\infty} \\ = \| A \| \cdot B \|. \\ \end{array}

因此,只需要对向量范数 \| \cdot \| 作稍许改动就可以使它成为矩阵范数。

Cn\mathbf{C}^n 上的每个向量范数 \| \cdot \| 相关联的矩阵范数 \| \cdot \| 自然是由 MnM_{n} 上的 \| \cdot \| “诱导”的矩阵范数。该范数 \| \cdot \| 是由 \| \cdot \| 构造出来的,而这种构造法也是从一种范数产生另一种范数的方法。

5.6.1 定义 设 \|\cdot\|Cn\mathbf{C}^{n} 上的向量范数。定义 MnM_{n} 上的 \|\cdot\|

AmaxiAx.\left\| A \right\| \equiv \max _ {i} \left\| A x \right\|.

上述定义中取“max”(而不是“sup”)是合理的,这是因为 Ar\| A_{r}\|xx 的连续函数且单位球 BB\parallel \cdot \parallel 是紧集(见附录E).

练习 证明范数(5.6.1)也可以用下述等价方式来计算:

A=maxi,j=1Ax=maxi,j=1Ar\| A \| = \max _ {i, j = 1} \| A x \| = \max _ {i, j = 1} \| A r \|

291

292

maxa0Axx=maxxa=1Axx,其 中a是 任 意 向 量 范 数.- \max _ {a \neq 0} \frac {\| A x \|}{\| x \|} = \max _ {\| x _ {a} = 1} \frac {\| A x \|}{\| x \|}, \text {其 中} \| \cdot \| _ {a} \text {是 任 意 向 量 范 数}.

5.6.2 定理 (5.6.1) 中定义的函数 \| \cdot \|MnM_{n} 上的矩阵范数, AxAx\| Ax \| \leqslant \| A \| \| x \| 对所有 AMnA \in M_{n} 和所有 xCnx \in \mathbf{C}^{n} 成立,且 I=1\| I \| = 1

证明 因为 A\| A\| 是非负值函数的极大值,所以本节开头所述公理(1)成立,又 Ax=0Ax = 0 对所有 rr 成立仅当 A=0A = 0 时才成立,所以公理(1a)成立.由计算可知,

cA=maxcAx=maxcAx=cmaxAx=cA,\left\| c A \right\| = \max \| c A x \| = \max | c | \| A x \| = | c | \max \| A x \| = | c | \| A \|,

由此推出公理(2)成立。类似地,三角不等式(3)被继承下来,这是因为

A+B=max(A+B)x=maxAx+Bxmax(Ax+Bx)maxAx+maxBx=A+B.\begin{array}{l} \| A + B \| = \max \| (A + B) x \| = \max \| A x + B x \| \leqslant \max (\| A x \| + \| B x \|) \\ \leqslant \max \| A x \| + \max \| B x \| = \| A \| + \| B \|. \\ \end{array}

次乘性公理(4)可从下述事实得出:

AB=maxAB.rx=maxABxBxBxxmaxAyymaxBxx=AB,\begin{array}{l} \| A B \| = \max \frac {\| A B . r \|}{\| x \|} = \max \frac {\| A B x \|}{\| B x \|} \frac {\| B x \|}{\| x \|} \\ \leqslant \max \frac {\| A y \|}{\| y \|} \max \frac {\| B x \|}{\| x \|} = \| A \| \| B \|, \\ \end{array}

这里,不妨假定极大值只取遍那些不在 BB 的零空间的 xx 。对于下一个论断,因为范数 \| \cdot \| 是以取极大值的方式来定义的,由此得知,如果 x0x \neq 0 ,则 Ax/xA\| Ax / \| x \| \leqslant \| A \| ,由向量范数的齐次性可知, AxAx\| Ax \| \leqslant \| A \| \| x \| ,当 x=0x = 0 时,不等式也成立。最后

I=maxx,1Ix=maxx,1x=1.\| I \| = \max _ {\| x, - 1} \| I x \| = \max _ {\| x, - 1} \| x \| = 1.

5.6.3 定义 我们称(5.6.1)中定义的矩阵范数 \| \cdot \| 是由向量范数 \| \cdot \| 诱导的矩阵范数。有时称它为算子范数或与向量范数 \| \cdot \| 相关联的 lub(最小上界) 范数。

注意,算子范数是矩阵范数可以作为所有向量范数的一般性质的推论。因此,一种证明 MnM_{n} 上的某个函数是矩阵范数的方法是,证明它是由某个向量范数所诱导的。当讨论称之为谱范数的重要矩阵范数时,将采用这种方法。

定理(5.6.2)中所述不等式说明,向量范数 \| \cdot \| 与所诱导的矩阵范数 \| \cdot \| 是相容的,因而这个定理说明了,相应于 Cn\mathbf{C}^n 上的任一向量范数,都存在 MnM_{n} 上的一个相容矩阵范数。该定理也给出了矩阵范数 \| \cdot \| 是由某个向量范数诱导的必要条件: I=1\| I \| = 1 ;遗憾的是,这个必要条件并不是充分的。

下面,介绍几个重要的矩阵范数的例子,它们是由熟知的 lpl_{p} 范数诱导的,不过,不借助定义(5.6.1)也可以计算出来,在以下每种情形,取 A=[aij]MnA = [a_{ij}] \in M_n

5.6.4 极大列和矩阵范数 1\| \cdot \|_{1}MnM_{n} 上定义为

A1max1<i,j<ni1naij.\| A \| _ {1} \equiv \max _ {1 < i, j < n} \sum_ {i - 1} ^ {n} | a _ {i j} |.

范数 1\| \cdot \|_{1} 是由 l1l_{1} 向量范数诱导的,因而它一定是矩阵范数。可以把这一事实证明如下。用 AA 的各列把 AMnA \in M_{n} 写成 A=[a1an]A = [a_{1} \cdots a_{n}] ,于是 A1=max1inai1\| A \|_{1} = \max_{1 \leqslant i \leqslant n} \| a_{i} \|_{1} 。如果 x=[xi]x = [x_{i}] ,则

Ax1=x1a1++xnan1i=1nxiai1=i=1nxiai1i=1nxi(max1knak1)=i=1nxiA1=x1A1.\begin{array}{l} \| A x \| _ {1} = \left\| x _ {1} a _ {1} + \dots + x _ {n} a _ {n} \right\| _ {1} \leqslant \sum_ {i = 1} ^ {n} \| x _ {i} a _ {i} \| _ {1} = \sum_ {i = 1} ^ {n} \| x _ {i} \| \| a _ {i} \| _ {1} \\ \leqslant \sum_ {i = 1} ^ {n} | x _ {i} | \left(\max _ {1 \leqslant k \leqslant n} \| a _ {k} \| _ {1}\right) = \sum_ {i = 1} ^ {n} | x _ {i} | \| A \| _ {1} = \| x \| _ {1} \| A \| _ {1}. \\ \end{array}

因而, maxx1=1Ax1A1\max_{\| x \|_1 = 1} \| Ax \|_1 \leqslant \| A \|_1 。如果现在选 x=ekx = e_k (第 kk 个单位基向量),则对任意 k=1,2,,nk = 1, 2, \dots, n

maxx1=1Ax11ak1=ak1,\max _ {x \left\| \right. _ {1} = 1} \| A x \| _ {1} \geqslant \| 1 a _ {k} \| _ {1} = \| a _ {k} \| _ {1},

因而

max1knAx1max1knak1=A1.(294)\max _ {1 \leqslant k \leqslant n} \| A x \| _ {1} \geqslant \max _ {1 \leqslant k \leqslant n} \| a _ {k} \| _ {1} = \| A \| _ {1}. \tag {294}

因为现在已经证明,由 l1l_{1} 向量范数诱导的矩阵范数既以 A\| A\| 为上界又以 A\| A\| 为下界,所以结论得证.

练习 试由定义直接证明 1\|\cdot\|_{1} 是矩阵范数.

5.6.5 极大行和矩阵范数 \| \cdot \|_{\infty}MnM_{n} 上定义为

Amax1inj=1naij.\| A \| _ {\infty} \equiv \max _ {1 \leq i \leq n} \sum_ {j = 1} ^ {n} | a _ {i j} |.

范数 \| \cdot \|_{\infty} 是由 ll_{\infty} 向量范数诱导的,因而它一定是矩阵范数。其证明与关于极大列和范数的证明类似。算出

Ax1=max1inj=1naijxjmax1inj=1naijxj,max1inj=1naijx=Ax,\| A x \| _ {1} = \max _ {1 \leqslant i \leqslant n} \left| \sum_ {j = 1} ^ {n} a _ {i j} x _ {j} \right| \leqslant \max _ {1 \leqslant i \leqslant n} \sum_ {j = 1} ^ {n} | a _ {i j} x _ {j}, | \leqslant \max _ {1 \leqslant i \leqslant n} \sum_ {j = 1} ^ {n} | a _ {i j} | \| x \| _ {\infty} = \| A \| _ {\infty} \| x \| _ {\infty},

因而 max1Ax,Ax1\max_{\| \cdot \|_{\infty -1}}\| Ax\| ,\leqslant \| A\|_{x_1} 如果 A=0A = 0 ,那就没有什么要证明的,所以可以假定 A0A\neq 0 ,假定 AA 的第 k\pmb{k} 行非零,且定义向量 z=[zi]Cnz = [z_i]\in \mathbf{C}^n

{zi=aˉkak,如 果ak0;zi=1,如 果ak=0.\left\{ \begin{array}{l l} z _ {i} = \frac {\bar {a} _ {k}}{| a _ {k} |}, \text {如 果} a _ {k} \neq 0; \\ z _ {i} = 1, \text {如 果} a _ {k} = 0. \end{array} \right.

于是 zj=1\| z\|_{j} = 1 ,且对所有 j=1,2,,nj = 1,2,\dots ,n ,有 akjzj=akja_{kj}z_j = |a_{kj}| ,并且

maxxxz=1AxAz=max1inj1naijzjj1nakjzj=j1nakj.\max _ {\| x \| _ {x z} = 1} \| A x \| _ {\infty} \geqslant \| A z \| _ {\infty} = \max _ {1 \leqslant i \leqslant n} \left| \sum_ {j - 1} ^ {n} a _ {i j} z _ {j} \right| \geqslant \left| \sum_ {j - 1} ^ {n} a _ {k j} z _ {j} \right| = \sum_ {j - 1} ^ {n} | a _ {k j} |.

因此

maxi:i=1Axnmax1<knj=1nakj=A.\max _ {i: i \parallel_ {\infty} = 1} \| A x \| _ {n} \geqslant \max _ {1 < k \leqslant n} \sum_ {j = 1} ^ {n} | a _ {k j} | = \| A \| _ {\infty}.

证毕.

练习 试由定义直接验证 \| \cdot \|MnM_{n} 上的矩阵范数.

5.6.6 谱范数 2\| \cdot \|_{2}MnM_{n} 上定义为

A2max{λ:λAA,特 征 值}.\| A \| _ {2} \equiv \max \{\sqrt {\lambda}: \lambda \text {是} A ^ {*} A, \text {特 征 值} \}.

[295]

注意,如果 AAx=λxA^{*}Ax = \lambda xx0x\neq 0 ,则 xΛΛxAx22=λx22x^{\star}\Lambda^{\star}\Lambda x - \| Ax\|_{2}^{2} = \lambda \| x\|_{2}^{2} ,所以 λ0\lambda \geqslant 0λ\sqrt{\lambda} 是非负实数.

练习 如果 BB 是正规矩阵,且 B=VλVB = V^{\star}\lambda V ,其中, UU 是酉矩阵,且 Λ=diag(λ1,,λn)\Lambda = \mathrm{diag}(\lambda_1,\dots ,\lambda_n) 证明

xRrmax{λ:λB的 特 征 值}x22.\mid x ^ {*} R r \mid \leqslant \max \{\mid \lambda \mid : \lambda \text {是} B \text {的 特 征 值} \} \| x \| _ {2} ^ {2}.

练习 证明 Ax22=xAA1x\| Ax\|_{2}^{2} = x^{\prime}AA_{1}x 对所有 xCnx\in \mathbf{C}^n 成立,然后利用上一个练习证明, 2\| \cdot \| _2 是由Euclid向量范数 2\| \cdot \| _2 诱导的矩阵范数.由此得出谱范数实际上是矩阵范数.

练习 证明 UAV2=A\|UAV\|_2 = |A| 对任意 AMnA \in M_n 和任意酉矩阵 U,VMnU, V \in M_n 成立,因此:谱范数是酉不变矩阵范数。

下面证明,经一个固定的相似,一个矩阵范数可以变换成另一个矩阵范数。

5.6.7 定理 如果 \| \cdot \|MnM_{n} 上的矩阵范数,且 SMnS \in M_{n} 是非奇异矩阵,则对所有 AMnA \in M_{n}

AsSAS\| A \| _ {s} \equiv \| S ^ {\prime} A S \|

是矩阵范数.

证明:可直接验证, s\| \cdot \|_{s} 适合公理(1),(1a). (2)和(3), s\| \cdot \|_{s} 的次乘性可通过下面的计算得出:

ABs=S1ABS=(S1AS)(S1BS)S1AS:S1BS=AsBs.\cdot A B \| _ {s} = \left\| \right. S ^ {- 1} A B S ^ {\prime} = \left\|\left(S ^ {- 1} A S\right)\left(S ^ {- 1} B S\right)\right\| \leqslant \left| S ^ {- 1} A S \right|: S ^ {- 1} B S \| = \left| \right. A \left. \right\| _ {s} \| B \| _ {s}.

为使矩阵范数适合特殊需要,定理(5.6.7)可能很有用。这种形式的某些应用将在这里和下一节阐述。

矩阵范数的一个重要用途就是给出矩阵的谱的范围.

5.6.8 定义 矩阵 AMnA \in M_{n} 的谱半径 ρ(A)\rho(A)

ρ(A)max{λ:λA的 特 征 值}.\rho (A) \equiv \max \{\mid \lambda \mid : \lambda \text {是} A \text {的 特 征 值} \}.

296

由此可知,如果 λ\lambdaAA 的任一特征值,则 λρ(A)|\lambda| \leqslant \rho(A) ;此外,至少有一个特征值 λ\lambda 可使 λ=ρ(A)|\lambda| = \rho(A) 。设 Ax=λx,x0Ax = \lambda x, x \neq 0 ,且 λ=ρ(A)|\lambda| = \rho(A) ,考虑其所有列都等于特征向量 xx 的矩阵 XMnX \in M_n 并注意到 AXλXAX - \lambda X 。如果 \|\cdot\| 是任意矩阵范数,则

λX=λX=AXAX,\left| \lambda \right| \| X \| = \| \lambda X \| = \| A X \| \leqslant \| A \| \| X \|,

因此 λ=ρ(A)Λ|\lambda| = \rho(A) \leqslant |\Lambda| . 这便证明了下述定理.

5.6.9 定理 如果 \mid \cdot \mid 是任意矩阵范数,且 AMnA\in M_{n} ,则 ρ(A)A\rho (A)\leqslant A

练习 试给出一个例子,使矩阵上的向量范数 \|\cdot\| 和矩阵 AMnA \in M_{n} 适合 A<ρ(A)\|A\| < \rho(A) .

练习 设 \| \cdot \|MnM_{n} 上的矩阵范数,考虑映射 F:CnMnF: \mathbf{C}^{n} \rightarrow M_{n} ,它定义为 F(x)=[xxx]=MnF(x) = [x x \cdots x] = M_{n} 中其所有列正好都是 xx 的矩阵。试证用 xF(x)\| x \| \equiv \| F(x) \| 定义的 Cn\mathbf{C}^{n} 上的函数 \| \cdot \|Cn\mathbf{C}^{n} 上的范数,并且证明,对所有 xCnx \in \mathbf{C}^{n} 和所有 AMnA \in M_{n} ,有 AxAx\| Ax \| \leqslant |A| \| x \| 。这个不等式说明,向量范数 \| \cdot \| 与矩阵范数 \| \cdot \| 是相容的,而这个练习说明, MnM_{n} 上的任意矩阵范数在 Cn\mathbf{C}^{n} 上有一个相容向量范数。

虽然谱半径函数本身不是 MnM_{n} 上的矩阵或向量范数(见习题19),但是,对每个固定的 AA \in

MnM_{n} ,它是关于 AA 的所有矩阵范数的值的最大下界.

5.6.10 引理 设 AMnA \in M_n ,且 ε>0\varepsilon > 0 是给定的,则至少存在一个矩阵范数 \|\cdot\| 使得 ρ(A)Aρ(A)+ε\rho(A) \leqslant \|A\| \leqslant \rho(A) + \varepsilon

证明:根据 Schur 三角化定理(2.3.1),存在酉矩阵 UU 和上三角矩阵 Δ\Delta 使得 A=UΔUA = U^{\star}\Delta U ,令 Dt=diag(t,t2,t3,,tn)D_{t} = \mathrm{diag}(t, t^{2}, t^{3}, \dots, t^{n}) ,由计算可知,

DtΔDt1=[λ1t1d12t2d13tn+1d1n0λ2t1dstn2d2n00λ3tn1dnn000t1dn1,n0000λn]D _ {t} \Delta D _ {t} ^ {- 1} = \left[ \begin{array}{c c c c c} \lambda_ {1} & t ^ {- 1} d _ {1 2} & t ^ {- 2} d _ {1 3} & \dots & t ^ {n + 1} d _ {1 n} \\ 0 & \lambda_ {2} & t ^ {- 1} d _ {\perp s} & \dots & t ^ {n - 2} d _ {2 n} \\ 0 & 0 & \lambda_ {3} & \dots & t ^ {n - 1} d _ {n n} \\ \bullet & \bullet & \bullet & \dots & \bullet \\ 0 & 0 & 0 & \dots & t ^ {- 1} d _ {n - 1, n} \\ 0 & 0 & 0 & 0 & \lambda_ {n} \end{array} \right]

因此,对足够大的 t>0t > 0 ,可以确信, DtΔDt1D_{t}\Delta D_{t}^{-1} 的所有非对角元的绝对值的和小于 ε\varepsilon ,特别是,我们可以肯定,对足够大的 ttDtΔDt11ρ(A)+ε\| D_t\Delta D_t^{-1}\|_1\leqslant \rho (A) + \varepsilon ,这样,如果定义矩阵范数 \| \cdot \|

B{DtUBUDt1}1=(UDt1)1B(UDt1)}1,B \left\| \right. \equiv \left\{D _ {t} U ^ {*} B U D _ {t} ^ {- 1} \right\} _ {1} = \left| \right.\left(U D _ {t} ^ {- 1}\right) ^ {- 1} B \left(U D _ {t} ^ {- 1}\right)\left. \right\} _ {1},

其中 BMnB \in M_{n} 为任意矩阵,又如果选择足够大的 tt ,则可以构造出适合 Aρ(A)+ε\|A\| \leqslant \rho(A) + \varepsilon 的矩阵范数。因为 Aρ(A)|A| \geqslant \rho(A) 对任何矩阵范数成立,我们完成了证明。

练习 说明为什么上述结果证明了 ρ(A)=inf{A:A=是矩阵范数}\rho(A) = \inf \{A^{\prime} : \|A\| = \text{是矩阵范数}\} .

我们的兴趣在于刻划当 kk \to \inftyAk0A^k \to 0 的矩阵 AA ,下述结果是着手解决这个问题的最后一个工具.

5.6.11 引理 设 AMnA \in M_{n} 是给定的矩阵。如果存在矩阵范数 \| \cdot \| 使得 A<1\| A \| < 1 ,则 limkAk=0\lim_{k \to \infty} A^{k} = 0 :即当 kk \to \inftyAkA^{k} 的所有元都趋于零。

证明:如果 A<1\| A \| < 1 ,则当 k()k \to (\infty) 时有 AkAk0A^k \| \leqslant \| A \|^k \to 0 。这说明,关于范数 \| \cdot \|Ak0A^k \to 0 ,但是,因为 n2n^2 维空间 MnM_n 上的所有向量范数是等价的,所以,关于向量范数 \| \cdot \| ,一定也有 Ak0A^k \to 0

练习 试给一个例子,使矩阵 AA 和矩阵范数 α\| \cdot \|_{\alpha}β\| \cdot \|_{\beta} 适合 Aα<1\| A \|_{\alpha} < 1Aβ>1\| A \|_{\beta} > 1 。其结论是什么?

适合 limk+Ak=0\lim_{k\to +\infty}A^{k} = 0 的矩阵 AMnA\in M_n 称为收敛的,并且,在许多应用中,例如,在迭代过程的分析中,这样的矩阵是很有用的。因此,重要的是能刻划收敛的矩阵。

5.6.12 定理 设 AMnA \in M_{n} . 则 limk+Ak=0\lim_{k \to +\infty} A^{k} = 0 当且仅当 ρ(A)<1\rho(A) < 1 .

证明:如果 Ak0A^k \to 0 ,又 x0x \neq 0 是适合 Ax=λxAx = \lambda x 的向量,则仅当 λ<1|\lambda| < 1 时才有 Akx=λkx0A^k x = \lambda^k x \to 0 。因为 λ<1|\lambda| < 1AA 的每个特征值一定成立,得出 ρ(A)<1\rho(A) < 1 。反过来,如果 ρ(A)<1\rho(A) < 1 ,则根据引理(5.6.10),存在某个矩阵范数 \|\cdot\| 使得 A<1\|A\| < 1 。因此由引理(5.6.11)可知,当 kk \to \inftyAk0A^k \to 0

297

练习 考虑矩阵 A=[1/2101/2]M2A = \begin{bmatrix} 1/2 & 1 \\ 0 & 1/2 \end{bmatrix} \in M_2 ,对 k=2,3,k = 2, 3, \cdots ,直接计算 AkA^kρ(Ak)=[p(A)]k\rho(A^k) = [p(A)]^k 。当 kk \to \infty 时,下列各种情形如何变化? AkA^k 的各元: Ak1\| A^k \|_1Ak\| A^k \|_\inftyAk2\| A^k \|_2

练习 设 A=[1/211/81/2]A = \begin{bmatrix} 1/2 & 1 \\ -1/8 & 1/2 \end{bmatrix} ,且用递归式 x(k+1)=Ax(k)x^{(k+1)} = Ax^{(k)}k=0,1,k = 0, 1, \cdots ,定义由向量 {x(k)}C2\{x^{(k)}\} \in \mathbf{C}^2 组成的序列。证明,不论第一个向量 x(0)x^{(0)} 如何选择,当 kk \to \inftyx(k)0x^{(k)} \to 0

有时,我们需要知道当 kk \to \infty 时,关于 AkA^k 的各元的大小的界。一个有用的界是前一个定理的直接推论。

5.6.13 推论 设 AMnA \in M_{n} 是给定的矩阵, ϵ>0\epsilon > 0 是给定的数,则存在常数 C=C(A,ϵ)C = C(A, \epsilon) ,使得

(Ak)ijC(ρ(A)+ε)k\mid (A ^ {k}) _ {i j} \mid \leqslant C (\rho (A) + \varepsilon) ^ {k}

对所有 k=1,2,3,k = 1,2,3,\dots 和所有 i,j=1,2,3,,ni,j = 1,2,3,\dots ,n 成立.

证明:因为矩阵 A~[ρ(A)+ε]tA\widetilde{A} \equiv [\rho(A) + \varepsilon]^{t} A 的谱半径严格小于1,所以 A~\widetilde{A} 收敛,因而当 kk \to \inftyA~k0\widetilde{A}^{k} \to 0 。特别是,序列 {A~k}\{\widetilde{A}^{k}\} 的各元有界,于是存在某个固定的 C>0C > 0 ,使得 (A~)ijC|(\widetilde{A})_{ij}| \leqslant C 对所有 k=1,2,3,k = 1, 2, 3, \cdots 和所有 i,j=1,2,,ni, j = 1, 2, \cdots, n 成立。这就是所要确定的界。

练习 设 A=[a10a]A = \begin{bmatrix} a & 1 \\ 0 & a \end{bmatrix} ,直接计算 AkA^k ,说明在(5.6.13)中不能总取 ε=0\varepsilon = 0

kk \to \infty 时,虽然不能像 ρ(A)k\rho(A)^{k} 那样确切地说出 AkA^{k} 的各元的变化情况,然而,对任意矩阵范数 \| \cdot \| ,序列 {Ak}\{\| A^{k} \| \} 的确具有下述渐近性质。

5.6.14 推论 设 \| \cdot \|MnM_{n} 上的矩阵范数。则对所有 AMnA \in M_{n} ,有

ρ(A)=limkAkk.\rho (A) = \lim _ {k \rightarrow \infty} \| A ^ {k} \| ^ {\prime k}.

证明:因为 ρ(A)k=ρ(Ak)Ak\rho(A)^k = \rho(A^k) \leqslant \|A^k\| ,所以,对所有 k=1,2,k = 1, 2, \cdots ,有 ρ(A)A1/k\rho(A) \leqslant \|A\|^{1/k} 。如果 ε>0\varepsilon > 0 是给定的,则矩阵 A~[ρ(A)+ε]1A\widetilde{A} \equiv [\rho(A) + \varepsilon]^{-1} A 的谱半径严格小于 1,因而 A~\widetilde{A} 收敛。因此,当 kk \to \inftyA0\|A\| \to 0 ,且存在某个 N=N(ε,A)N = N(\varepsilon, A) ,使得 Ak<1\|A^k\| < 1 对所有 kNk \geqslant N 成立。这正好说明,对所有 kNk \geqslant N ,有 Ak[ρ(A)+ε]k\|A^k\| \leqslant [\rho(A) + \varepsilon]^kAk1/kρ(A)+ε\|A^k\|^{1/k} \leqslant \rho(A) + \varepsilon 。因为 ρ(A)Ak1/k\rho(A) \leqslant \|A^k\|^{1/k} 对所有 kk 成立,又因为 ε>0\varepsilon > 0 是任意的,由此得出 limkAk1/k\lim_{k \to \infty} \|A^k\|^{1/k} 存在且等于 ρ(A)\rho(A)

正像处理向量的无穷序列或无穷级数那样,也可以用向量范数处理有关矩阵的无穷序列或无穷级数的收敛性问题。

练习 设 {Ak}Mn\{A_k\} \subset M_n 是给定的矩阵无穷序列。证明,如果在 MnM_n 上存在向量范数 \|\cdot\| 使得数值级数 k=0Ak\sum_{k=0}^{\infty} \|A_k\| 收敛(以致它的部分和有界),则级数 k=0Ak\sum_{k=0}^{\infty} A_k 收敛于 MnM_n 中的某个矩阵。提示:证明其部分和构成一个 Cauchy 序列。

关于矩阵的一种特殊情形是矩阵的幂级数情形,这在研究向量的无穷级数时没有出现。但是,因为矩阵范数的次乘性质,容易给出关于矩阵幂级数收敛性的简单的充分条件。

5.6.15 定理 设 AMnA \in M_nk=0akAk\sum_{k=0}^{\infty} a_k A^k 是无穷级数,如果存在 MnM_n 上的矩阵范数 \|\cdot\| 使得数值级数

k=0anAk\sum_{k=0}^{\infty}\left|a_{n}\right|\left|A\right|^{k} 收敛,或者这个级数的部分和有界,则级数 k=0akAk\sum_{k=0}^{\infty}a_{k}A^{k} 收敛.

练习 证明(5.6.15).

练习 用例子说明,有可能级数 k=0akAk\sum_{k=0}^{\infty} a_k A^k 收敛,而级数 k=0akAk\sum_{k=0}^{\infty} |a_k| \|A\|^k 发散。这类似于数值级数的条件收敛(收敛而不绝对收敛)。

练习 设函数 f(z)f(z) 是用幂级数 f(z)=k=0akzkf(z) = \sum_{k=0}^{\infty} a_k z^k 定义的,它有收敛半径 R>0R > 0 ,且设 \| \cdot \|MnM_n 上的矩阵范数。证明 f(A)k=0akAkf(A) \equiv \sum_{k=0}^{\infty} a_k A^k 对所有适合 A<R\| A \| < RAMnA \in M_n 有定义,更一般地,证明 f(A)f(A) 对所有适合 ρ(A)<R\rho(A) < RAMnA \in M_n 有定义。

练习 如果 AA 是可对角化的,且 A=S1ΛSA = S^{-1} \Lambda S ,有时定义 f(A)S1f(Λ)Sf(A) \equiv S^{-1} f(\Lambda) S ,其中 f(Λ)diag(f(λ1),f(λ2),,f(λn))f(\Lambda) \equiv \operatorname{diag}(f(\lambda_1), f(\lambda_2), \dots, f(\lambda_n)) 。证明,如果 AA 是可对角化的,则 f(Λ)f(\Lambda) 的这个定义与上一个练习中的幂级数定义是一致的。在这两个定义中,哪一个比较通用?

练习 证明用幂级数

eA=k=0n1k!Ake ^ {A} = \sum_ {k = 0} ^ {n} \frac {1}{k !} A ^ {k}

给出的矩阵指数函数对每个 AMnA \in M_{n} 都有定义.

练习 应如何定义 cos(A)\cos(A) ? 这对什么样的 AA 有定义?

5.6.16 推论 设矩阵 AMnA \in M_{n} ,如果存在矩阵范数 \| \cdot \| 使得 IA<1\| I - A \| < 1 ,则 AA 是可逆矩阵,且

A1=k=0(IA)k.A ^ {1} = \sum_ {k = 0} ^ {\infty} (I - A) ^ {k}.

证明:如果 IA<1\| I - A\| < 1 ,则因为级数 zk\sum z^k 的收敛半径是1,所以

k=1(IA)k\sum_ {k = 1} ^ {\infty} (I - A) ^ {k}

收敛于某个矩阵 CC 。但是,因为 NN \to \infty 时,

Ak=0N(IA)k=[I(IA)]k=0N(IA)k=I(IA)N1I,A \sum_ {k = 0} ^ {N} (I - A) ^ {k} = [ I - (I - A) ] \sum_ {k = 0} ^ {N} (I - A) ^ {k} = I - (I - A) ^ {N - 1} \rightarrow I,

所以,得出 C=A1C = A^{-1}

练习 证明上述结果等价于下述命题:如果 \| \cdot \| 是矩阵范数,又如果 A<1\| A \| < 1 ,则 IAI \cdot A 是可逆矩阵,且

(IA)1=k=0Ak.(I - A) ^ {- 1} = \sum_ {k = 0} ^ {\infty} A ^ {k}.

练习 设 \| \cdot \|MnM_{n} 上的矩阵范数,且假定给定的矩阵 AMnA \in M_{n} 有一个具有性质 BAI<1\| BA - I \| < 1 的“近似逆” BMnB \in M_{n} ,证明 AABB 都是可逆矩阵。

练习 如果矩阵范数 \| \cdot \|I=1\| I \| = 1 的性质(如果它是诱导的范数,它理应是这样),又如

300

ΛMn\Lambda \in M_{n} 适合 Λ<1\left|\Lambda\right|<1 ,证明

11+A(IA)11A.\frac {1}{1 + A} \left\| \leqslant \left| (I - A) ^ {\prime} \right| \leqslant \frac {1}{1 - \| A |}. \right.

提示:利用不等式 (IA)1k=0nAk\| (I - A)^{-1} \| \leqslant \sum_{k=0}^{n} |A|^k 可得到上界。对于下界,则利用一般的不等式 B11/B2\| B^{-1} \| \geqslant 1 / \| B^2\| 和三角不等式。

练习 如果 \parallel \cdot \parallel 是一般的矩阵范数,我们都知道 I1\| I\| \geqslant 1 ,在这种情形,证明,只要 A<1\| A\| < 1 ,就有

II+A(IA)1I(I1)A1A.\frac {\left| I \right|}{\left| I \right| + \left| A \right|} \leqslant \left\| (I - A) ^ {- 1} \right\| \leqslant \frac {\left\| I \right\| - (\left\| I \right\| - 1) \left\| A \right\|}{1 - \left| A \right|}.

练习 如果 A,BMnA, B \in M_{n} , AA 是可逆矩阵, 又 A+BA + B 是奇异矩阵, 证明 B1/A\|B\| \geqslant 1 / |A| 对任何矩阵范数 \| \cdot \| 成立. 因此, 可以用一个奇异矩阵去充分逼近一个非奇异矩阵, 不过有一个内在的限度. 提示: A+B=A(I+A1B)A + B = A(I + A^{-1}B) . 如果 A1B<1\|A^{-1}B\| < 1 , 则 I+A1BI + A^{-1}B 应该是可逆的, 因而有 A1B1|A^{-1}B| \geqslant 1 .

关于可逆性的一个有用而又容易计算的准则不难由上一个推论得出.

5.6.17 推论 设 A=[aij]MnA = [a_{ij}] \in M_n ,且假定对所有 i=1,2,,ni = 1, 2, \dots, n

an>j=1nanj,\mid a _ {n} \mid > \sum_ {j = 1} ^ {n} \mid a _ {n j} \mid ,

A\pmb{A} 是可逆矩阵.

证明:假设条件保证所有主对角元 aija_{ij} 是非零的。令 D=diag(a11,,am)D = \mathrm{diag}(a_{11},\dots ,a_{m}) ,则 DD 是可逆对角矩阵, D1AD^{-1}A 的主对角线上都是 1。 B=[bij]=ID1AB = [b_{ij}] = I - D^{-1}A 的主对角线上都是零,且当 iji \neq jbij=aij/aiib_{ij} = -a_{ij} / a_{ii} 。考虑极大行和范数 \| \cdot \| ,假设条件保证 B<1\| B \|_{\infty} < 1 ,于是根据(5.6.16), IBD1AI - B - D^{-1}A 可逆,因而 AA 可逆。

满足推论(5.6.17)的矩阵称为严格对角占优矩阵。这个可逆性的充分条件称为Levy-Desplanques定理,并且可以对它们作稍许改进。见(6.1)节,(6.2)节和(6.4)节。

现在更详细地讨论(5.6.1)中的诱导矩阵范数。这是一些最常见的矩阵范数,并且它们有一个重要的极小性质。因为常常需要采用检验 A<1\| A \| < 1 的办法证明一个给定的矩阵 AA 收敛,所以那些尽可能一致小的矩阵范数自然受到偏爱。正如要证明的那样,整个诱导矩阵范数类有这种合意的性质,并且这种性质刻化了诱导矩阵范数类。

有限维空间上的任意两种范数是等价的,所以,对每两种矩阵范数 α\| \cdot \|_{\alpha}β\| \cdot \|_{\beta} ,存在一个最小的有限正常数 CM(α,β)C_{M}(\alpha, \beta) ,使得 AαCM(α,β)Aβ\| A \|_{\alpha} \leqslant C_{M}(\alpha, \beta) \| A \|_{\beta} 对所有 AMnA \in M_{n} 成立,这个常数可以用

CM(α,β)=maxAAAσAβC _ {M} (\alpha , \beta) = \max _ {A \perp A} \frac {\left| A \right\| _ {\sigma}}{\left| A \right\| _ {\beta}}

来计算,如果将 α\alphaβ\beta 的作用颠倒过来,则一定存在一个定义类似的最小正常数 CM(β,α)C_{M}(\beta, \alpha) ,使

AβCM(β,α)Aα\| A \|_{\beta} \leqslant C_{M}(\beta, \alpha) \| A \|_{\alpha} 对所有 AMnA \in M_{n} 成立。一般地,两个常数 CM(α,β)C_{M}(\alpha, \beta)CM(β,α)C_{M}(\beta, \alpha) 之间没有明显的关系,不过,如果我们考察本节末习题23中的表,它的左上角的 3×33 \times 3 数表是对称的:即 CM(α,β)=CM(β,α)C_{M}(\alpha, \beta) = C_{M}(\beta, \alpha) 对三个矩阵范数 1,2\| \cdot \|_{1}, \| \cdot \|_{2}3\| \cdot \|_{3} 中的任意一对都成立。这三个矩阵范数都是诱导范数,而上述对称性是所有诱导范数的一个性质。

5.6.18 定理 设 α\| \cdot \|_{\alpha}β\| \cdot \|_{\beta}Cn\mathbf{C}^{n} 上两个给定的向量范数,且设 α\| \cdot \|_{\alpha}β\| \cdot \|_{\beta} 表示 MnM_{n} 上的相应诱导矩阵范数,即

Aamaxrr0AxaxpAjmaxiiAxjxj.\| A \| _ {a} \equiv \max _ {r \leq r _ {0}} \frac {\| A x \| _ {a}}{\| x \| _ {p}} \text {和} | A \| _ {j} \equiv \max _ {i \neq i} \frac {\| A x \| _ {j}}{\| x \| _ {j}}.

定义

RαβmaxijxaxdRβamaxx0xdxa(5.6.19)R _ {\alpha \beta} \equiv \max _ {i \neq j} \frac {\| x \| _ {a}}{\| x \| _ {d}} \text {和} R _ {\beta a} \equiv \max _ {x \neq 0} \frac {\| x \| _ {d}}{\| x \| _ {a}} \tag {5.6.19}

maxA0AaAi=Rn,iRan.(5.6.20)\max _ {A \neq 0} \frac {\| A \| _ {a}}{\left| A \right| _ {i}} = R _ {n, i} R _ {a n}. \tag {5.6.20}

特别是

maxA,rAaAβ=maxA=0AβAaRaβRβa.(5.6.21)\max _ {A, r ^ {\prime}} \frac {\left| A \right| _ {a}}{\left| A \right| _ {\beta}} = \max _ {A = 0} \frac {\left\| A \right\| _ {\beta}}{\left\| A \right\| _ {a}} - R _ {a \beta} R _ {\beta a}. \tag {5.6.21}

证明:设 AMnA \in M_{n}xCnx \in \mathbf{C}^{n} 是给定的,且假定 x0x \neq 0Λx0\Lambda x \neq 0 。则

AxaxaAxaAxβAxβxβxβxaRa,iAxβxβRβa,\frac {\| A x \| _ {a}}{\| x \| _ {a}} - \frac {\| A x \| _ {a}}{\| A x \| _ {\beta}} \frac {\| A x \| _ {\beta}}{\| x \| _ {\beta}} \frac {\| x \| _ {\beta}}{\| x \| _ {a}} \leqslant R _ {a, i} - \frac {\| A x \| _ {\beta}}{\| x \| _ {\beta}} R _ {\beta a},

并且,即使 Ax=0Ax = 0 ,这个不等式也成立.于是

Aamaxx0AxaxaRa,bmaxx0AxbxbR3aRa,bR3aAa,\| A \| _ {a} \equiv \max _ {x \neq 0} \frac {\| A x \| _ {a}}{\| x \| _ {a}} \leqslant R _ {a, b} \max _ {x \neq 0} \frac {\| A x \| _ {b}}{\| x \| _ {b}} R _ {3 a} \equiv R _ {a, b} R _ {3 a} \| A \| _ {a},

因而对所有非零 AMnA \in M_{n}

AaAbRa,bRba.(5.6.22)\frac {\| A \| _ {a}}{\| A \| _ {b}} \leqslant R _ {a, b} R _ {b a}. \tag {5.6.22}

(5.6.19)中的每个极值都被某个非零向量所达到,所以存在向量 y,zCny, z \in \mathbf{C}^n ,使得 y2=z2=1\| y \|_2 = \| z \|_2 = 1ya=Rαβya\| y \|_a = R_{\alpha \beta} \| y \|_aza=Rβaza\| z \|_a = R_{\beta a} \| z \|_a 。根据推论(5.5.15),存在向量 z0Cnz_0 \in \mathbf{C}^n 使得

(a) z0xxs|z_{0}^{*}x|\leqslant \| x\|_{s} 对所有 xCnx\in \mathbf{C}^n 成立;
(b) zαz=zβz_{\alpha}^{*}z = \| z\|_{\beta}

考虑矩阵 Λ0yz0\Lambda_0\equiv yz_0^* ,利用(b)有

A0zαzα=yzzαzα=yαz0zzα=yσzβzσ,\frac {\| A _ {0} z \| _ {\alpha}}{\| z \| _ {\alpha}} = \frac {\| y z ^ {\prime} z \| _ {\alpha}}{\| z \| _ {\alpha}} = \frac {\| y \| _ {\alpha} | z _ {0} z |}{\| z \| _ {\alpha}} = \frac {\| y \| _ {\sigma} \| z \| _ {\beta}}{\| z \| _ {\sigma}},

所以有下界

A0αyαzβzα=RαβRβαyβ.\| A _ {0} \| _ {\alpha} \geqslant \frac {\| y \| _ {\alpha} \| z \| _ {\beta}}{\| z \| _ {\alpha}} = R _ {\alpha \beta} R _ {\beta \alpha} \| y \| _ {\beta}.

另一方面,可以利用(a)得到

A0xiβxi=yz0xβxβ=yβz0xxβyβxβxβys,\frac {\| A _ {0} x \| _ {i \beta}}{\| x \| _ {i}} = \frac {\| y z ^ {*} _ {0} x \| _ {\beta}}{\| x \| _ {\beta}} = \frac {\| y \| _ {\beta} | z ^ {*} _ {0} x |}{\| x \| _ {\beta}} \leqslant \frac {\| y \| _ {\beta} \| x \| _ {\beta}}{\| x \| _ {\beta}} \| y \| _ {s},

因而有上界

Ai0β2yβ.\left\| A _ {i _ {0}} \right\| _ {\beta} ^ {2} \leqslant \left\| y ^ {\prime} \right\| _ {\beta}.

合并这两个界便有

AnAraRa,1Rpayrry2=Rc,1Rpa,\left| \begin{array}{l} A _ {n} \\ A _ {r} \end{array} \right| _ {a} \geqslant \frac {R _ {a , 1} R _ {p a}}{\left| \begin{array}{l} y \\ r \end{array} \right| _ {r}} \| \underline {{y}} \| _ {2} = R _ {c, 1} R _ {p a},

它说明(5.6.22)中等式可以成立,因而证明了(5.6.20). 因为恒等式(5.6.20)的右边关于 α\alphaβ\beta 是对称的,所以结论(5.6.21)成立. □

Cn\mathbf{C}^n 上的两个不同的向量范数能够诱导出 MnM_{n} 上的相同矩阵范数吗?根据(5.6.18)的下述推论可知,这种情形能够出现,当且仅当一个向量范数是另一个向量范数的常纯量倍。

5.6.23 推论 设 α\| \cdot \|_{\alpha}β\| \cdot \|_{\beta}Cn\mathbf{C}^{n} 上的向量范数,又设 α\| \cdot \|_{\alpha}β\| \cdot \|_{\beta} 表示 MnM_{n} 上的相应的诱导矩阵范数,则 Aα=AαA \|_{\alpha} = \| A \|_{\alpha} 对所有 AMnA \in M_{n} 成立,当且仅当存在一个正常数 cc ,使得 xαcxβ\| x \|_{\alpha} - c \| x \|_{\beta} 对所有 xCnx \in \mathbf{C}^{n} 成立。

证明:我们知道,

Rβamaxinxj3xc=[mininxaxj3]1[maxinxaxj3]1Raj3.R _ {\beta_ {a}} - \max _ {i \leqslant n} \frac {\left| x \right| _ {j ^ {3}}}{\left\| x \right\| _ {c}} = \left[ \min _ {i \leqslant n} \frac {\left\| x \right\| _ {a}}{\left\| x \right\| _ {j ^ {3}}} \right] ^ {1} \geqslant \left[ \max _ {i \leqslant n} \frac {\left\| x \right\| _ {a}}{\left\| x \right\| _ {j ^ {3}}} \right] ^ {1} - R _ {a j ^ {3}}.

因此,有一般不等式

RαβRβα1,(5.6.24)R _ {\alpha \beta} R _ {\beta \alpha} \geqslant 1, \tag {5.6.24}

其中等式成立,当且仅当

min1,αxβxβmax1,αxαxβ,\min _ {1, \alpha} \frac {\left| x \right| _ {\beta}}{\left\| x \right\| _ {\beta}} - \max _ {1, \alpha} \frac {\left| x \right| _ {\alpha}}{\left\| x \right\| _ {\beta}},

而这可以成立,当且仅当对所有 x0x \neq 0 ,函数 xα/xβ\| x \|_{\alpha} / \| x \|_{\beta} 是常数。因此,如果 xα=xβ\| x \|_{\alpha} = \| x \|_{\beta} ,就一定有 Rα,βRβ,α=1R_{\alpha, \beta} R_{\beta, \alpha} = 1 ,于是,由(5.6.21)可知,对所有 AMnA \in M_{n}AαAβ\| A \|_{\alpha} \leqslant \| A \|_{\beta} ,并且 AβAα\| A \|_{\beta} \leqslant \| A \|_{\alpha} ;因而,对所有 AMnA \in M_{n}Aα=Aβ\| A \|_{\alpha} = \| A \|_{\beta} 。反过来,如果两个诱导矩阵范数相同,则由(5.6.20)可知 Rα,βRβ,α=1R_{\alpha, \beta} R_{\beta, \alpha} = 1 ,因而在(5.6.24)中等式成立,由前面的证明得知,比值 xα/xβ\| x \|_{\alpha} / \| x \|_{\beta} 是常数。

5.6.25 推论 设 α\| \cdot \|_{\alpha}β\| \cdot \|_{\beta}Cn\mathbf{C}^{n} 上的向量范数,又设 α\| \cdot \|_{\alpha}β\| \cdot \|_{\beta} 表示 MnM_{n} 上的相应诱导矩阵范数。则 AαAβ\| A \|_{\alpha} \leqslant |A|_{\beta} 对所有 AMnA \in M_{n} 成立,当且仅当 Aα=AβA \|_{\alpha} = |A|_{\beta} 对所有 AMnA \in M_{n} 成立。

证明:如果 AαAβ\| A \|_{\alpha} \leqslant \| A \|_{\beta} 对所有 AMnA \in M_{n} 成立,则有 RαβRβα1R_{\alpha \beta} R_{\beta \alpha} \leqslant 1 ,[因为(5.6.24)]这蕴涵 RαβRβα=1R_{\alpha \beta} R_{\beta \alpha} = 1 。因此,根据(5.6.21),对所有 AMnA \in M_{n}AαAβ|A|_{\alpha} \leqslant \| A \|_{\beta}AβAα\| A \|_{\beta} \leqslant \| A \|_{\alpha}

最后一个推论说明,没有一个诱导矩阵范数能够一致地小于另一个诱导范数。如果允许它同其他(不一定是诱导的)矩阵范数相比较,会出现什么情形呢?

5.6.26 定理 设 \cdotMnM_{n} 上给定的矩阵范数,且设 α\| \cdot \|_{\alpha}MnM_{n} 上给定的诱导矩阵范数,则

(a) 存在 MnM_{n} 上的诱导矩阵范数 N()N(\cdot) 使得对每个 AMnA \in M_{n}N(A)AN(A) \leqslant \| A\| ;

(b) AA\left\| A \right\| \leqslant \left\| A \right\| 对每个 AMnA \in M_{n} 成立,当且仅当 A=A\left\| A \right\| = \left\| A \right\| 对每个 AMnA \in M_{n} 成立.

证明:定义 Cn\mathbf{C}^n 上的向量范数 \| \cdot \|

xX,X[xxx]Mn,(5.6.27)\| x \| \equiv \| X \|, \quad X \equiv [ x x \dots x ] \in M _ {n}, \tag {5.6.27}

并且考虑由 \| \cdot \| 诱导的 MnM_{n} 上的矩阵范数 N()N(\cdot) ,对任意 AMnA\in M_n ,有

N(A)=maxijAxx=maxxi[AxAxAx][xxx]=maxxiAXXmaxt0A:XX=A(因 为是 矩 阵 范 数),(5.6.28)\begin{array}{l} N (A) = \max _ {i \neq j} \frac {\| A x \|}{\| x \|} = \max _ {x \neq i} \frac {\| [ A x A x \cdots A x ] \|}{\| [ x x \cdots x ] \|} = \max _ {x \neq i} \frac {\| A X \|}{\| X \|} \\ \leqslant \max _ {t \neq 0} \frac {\| A : \| X \|}{\| X \|} = \| A \| \quad (\text {因 为} \| \cdot \| \text {是 矩 阵 范 数}), \tag {5.6.28} \\ \end{array}

这就证明了(a). 为了证明(b),假定 AA\left|A\right|\leqslant \left|A\right| 对所有 ΛMn\Lambda \in M_{n} 成立.则由(a)可知,对所有 AMnA\in M_n

N(A)AA0.N (A) \leqslant | A \| \leqslant \| A ^ {\prime} _ {0}.

但是 N()N(\cdot)\|_{\bullet} 都是诱导范数,所以由(5.6.25)可知, N(A)=AαN(A) = \|A\|_{\alpha} ,因而对所有 AMnA \in M_{n}A=AαA = \|A\|_{\alpha}

上述结果是促成给出下述定义的原因.

5.6.29 定义 设 \cdotMnM_{n} 上的矩阵范数,如果对所有 AMnA \in M_{n} ,适合 N(A)AN(A) \leqslant \| A\|MnM_{n} 上的矩阵范数只有 N()=N(\cdot) = \| \cdot\| ,就称 \cdotMnM_{n} 上的极小矩阵范数。

定理(5.6.26)的论断(b)说明, MπM_{\pi} 的每个诱导范数是极小的。论断(a)直接推出每个极小范数是诱导范数。因此,如果想采用一个矩阵范数,而它又不能(用所有矩阵上的小值)一致地加以改进。那么就可以采用诱导范数,并且,具有这种极小性的任一范数一定是诱导范数。

向量范数(5.6.27)是可由一个给定的矩阵范数构造出来的整个向量范数族的特殊情形。设 \| \cdot \|MnM_{n} 上给定的矩阵范数, yCny \in \mathbf{C}^{n} 是给定的非零向量,且用

x1=xy,yCn,y0(5.6.30)\| x \| _ {1} = \| x y ^ {\prime} \|, \quad y \in \mathbf {C} ^ {n}, \quad y \neq 0 \tag {5.6.30}

定义函数 xν\| x\|_{\nu}CnR\mathbf{C}^n\to \mathbb{R} ,则 y\| \cdot \| _yCn\mathbf{C}^n 上的向量范数,且对所有 AMnA\in M_n 具有性质

Λxv=A(xy)Axy=Axy.\left\| \Lambda x \right\| _ {v} = \left\| A \left(x y ^ {*}\right) \right\| \leqslant \left\| A \right\| \left\| x y ^ {*} \right\| = \left\| A \right\| \left\| x \right\| _ {y}.

如果 y=[1,1,,1]2y = [1, 1, \dots, 1]^2 ,则(5.6.30)简化成(5.6.27). 如果用 Ny()N_y(\cdot) 表示由 y\| \cdot \|_y 诱导的 MnM_n 上的矩阵范数,这个不等式说明,对所有 AMnA \in M_n ,有

Ny(A)maxx0Axyxymaxr0Axyxy=A.(5.6.31)N _ {y} (A) \equiv \max _ {x \neq 0} \frac {\| A x \| _ {y}}{\| x \| _ {y}} \leqslant \max _ {r \neq 0} \frac {\| A \| \| x \| _ {y}}{\| x \| _ {y}} = \| A \|. \tag {5.6.31}

这显然是(5.6.26a)的推广.

如果给定的矩阵范数 \| \cdot \| 是极小范数,则(5.6.31)说明,对所有 AMA\in MA=Ny(A)\| A\| = N_{y}(A) 因为在上述论证中所采用的向量 yy 可以是任意非零向量,于是,对所有非零 yyzCnz\in \mathbf{C}^{n} ,应有 Nv()==Nz().N_{v}(\bullet) = \| \bullet \| = N_{z}(\bullet).

5.6.32 定理 设 \| \cdot \|MnM_{n} 上的矩阵范数, Nν()N_{\nu}(\cdot) 是用(5.6.31)和(5.6.30)定义的诱导范数,则下列命题等价:

(a) \|\cdot\| 是诱导矩阵范数.
(b) \|\cdot\| 是极小矩阵范数.
(c) 1x1y=Ny()\frac{1}{x} \cdot \frac{1}{y} = N_{y}(\cdot) 对所有非零 yCny \in \mathbf{C}^{n} 成立.

证明:(a) 蕴涵(b)的论断正是(5.6.26b). 我们刚才已经看到,如果 \| \cdot \| 是极小范数,则 Ny()|N_{y}(\cdot) ,所以(b)蕴涵(c). 如果(c)成立,则 \| \cdot \| 是诱导范数,因为根据定义, Nv()N_{v}(\cdot) 是诱导范数. □

从这些论断还可得出一些结果。如果 Ny()=N_{y}(\cdot) = \|\cdot\| 对所有非零 yCny \in \mathbf{C}^{n} 成立,则 Ny()N_{y}(\cdot) 对所有非零 y,zCny, z \in \mathbf{C}^{n} 成立。但是推论(5.6.23)说明,除了差一个纯量因子以外,诱导一个给定的矩阵范数的向量是唯一确定的,所以,对某个正常数 cyzc_{yz} ,有 1=cyzz\| \cdot \|_{1} = c_{yz} \| \cdot \|_{z}

练习 如果 MnM_{n} 上的矩阵范数 \| \cdot \| 是由 Cn\mathbf{C}^{n} 上的向量范数 \| \cdot \| 诱导的,证明,对所有 y,zCny, z \in \mathbf{C}^{n} ,有 yz=yzD\| yz^{*} \| = \| y \| \| z \|^{D}z=zD\| \cdot \|_{z} = \| \cdot \| \| z \|^{D} 以及 cyz=yD/zDc_{yz} = \| y \|^{D} / \| z \|^{D} ,向量范数 D\| \cdot \|^{D} 如(5.4.12)中定义的那样,是向量范数 \| \cdot \| 的对偶。

5.6.33 定理 设 \| \cdot \|MnM_{n} 上给定的矩阵范数,且设 r\| \cdot \|_{\mathrm{r}} 是用(5.6.30)定义的 Cn\mathbf{C}^n 上的向量范数。则下列两个论断等价:

(a) 对每对非零向量 y,zCny, z \in \mathbf{C}^n ,有正常数 cxzc_{xz} 使 x1=cyzx2\|x\|_1 = c_{yz}\|x\|_2 对所有 xCnx \in \mathbf{C}^n 成立.
(b) xy=xzzyzz\| x y^{\prime} \| = \frac{\| x z^{\prime} \| \| z y^{\prime} \|}{\| z z^{\prime} \|} 对所有 x,y,zCnx, y, z \in \mathbb{C}^{n}z0z \neq 0 成立.

如果 \star \cdot 是诱导矩阵范数,则它满足恒等式(b),且由它通过(5.6.30)构造的向量范数满足(a).

证明:如果(a)成立,则

rzzyx2zv(1/cw)rycwzz=xyzz=xyzz\left\| r z ^ {*} \right\| \left\| z y ^ {*} \right\| - \left\| x \right\| _ {2} \left\| z \right\| _ {v} - \left(1 / c _ {w}\right) \left\| r \right\| _ {y} c _ {w} \left\| z \right\| _ {z} = \left\| x \right\| _ {y} \left\| z \right\| _ {z} = \left\| x y ^ {*} \right\| _ {z} z ^ {*}

反过来,如果(b)成立,则(a)成立,且 czz=xy1/zz3c_{zz} = |xy^{\cdot -1} / \sqrt[3]{zz^{\cdot}} . 已经证明,如果 Ny()=1212N_{y}(\cdot) = \frac{1}{2}\cdot \frac{1}{2} ,则(a)[因而(b)也]一定成立,而如果 \| \cdot \| 是诱导范数,则根据(5.6.32),情况就是这样. □

练习 我们知道,一个诱导范数的任一正纯量倍数满足恒等式(5.6.33b).证明矩阵范数 1\| \cdot \|_{1}2\| \cdot \|_{2} 都满足这个恒等式,不过这两个范数都不是一个诱导范数的纯量倍数.

在(5.6.2)中已经看到,如果 \cdot 是诱导范数,则 I=1\|I\|=1 。遗憾的是,这个性质对矩阵范数为诱导范数的事实不是充分的。容易证明,函数

Λmax{Λ1,A1}(5.6.34)\left\| \Lambda \right. \equiv \max \left\{\left\| \Lambda \right\| _ {1}, \left\| A \right\| _ {1} \right\} \tag {5.6.34}

定义了 MnM_{n} 上的一个矩阵范数,且 I=1\mathbf{I} = 1 ,但是,因为 A1A\| A \|_1 \leqslant \| A\| 对所有 AMnA \in M_n 成立,且当 A=[1013]A = \begin{bmatrix} 1 & 0 \\ 1 & 3 \end{bmatrix} 时, A1<A\| A \|_1 < \| A\| ,所以 A\| A\| 不是极小范数,因而不可能是诱导范数。

练习 验证(5.6.34)定义了一个矩阵范数。更一般地,证明,如果 (1),(k)\left\| \cdot \right\|_{(1)}, \dots \left\| \cdot \right\|_{(k)}MnM_{n} 上给定的矩阵范数,则

A1=max{A(i),Ai(k)}\left\| A _ {1} = \max \left\{\left\| A _ {(i)} \dots , \left| A _ {i} \right| _ {(k)} \right. \right. \right\}

定义了 MnM_{n} 上的一个矩阵范数

诱导范数在所有矩阵范数中是极小范数,但是,假定现在只考虑由酉不变矩阵范数组成的一类重要范数。这是一些对所有 AMnA \in M_n 和所有酉矩阵 U,VMnU, V \in M_n ,适合 A=UAV\| A \| = \| UAV\| 的矩阵范数 \| \cdot \| ,可以证明,在这类范数中只有一个极小范数,那就是谱范数。

5.6.35 推论 如果 \| \cdot \| 是酉不变矩阵范数,则 A2A\| A \|_2 \leqslant \| A \| 对所有 AMnA \in M_n 成立。谱范数 2\| \cdot \|_2MnM_n 上仅有的既为诱导的又为酉不变的矩阵范数。

证明:假定 |\cdot \cdot \cdot | 是给定的酉不变矩阵范数,由定理(5.6.26)的(a)可知, N(A)AN(A)\leqslant \| A\| 对所有 AMnA\in M_n 成立,其中 N(A)N(A) 是由用(5.6.27)定义的向量范数 \| \bullet \| 诱导的范数,如果 UMnU\in M_{n} 是酉矩阵,则有 Ux=UX=X=x\| Ux\| = \| UX\| = \| X\| = \| x\| ,因而向量范数 \| \cdot \| 是酉不变的.如果 xCnx\in \mathbf{C}^n 是给定的非零向量,则存在酉矩阵 UU 使得 Ux=x2e1Ux = \| x\|_2e_1 ,于是对所有 xCnx\in \mathbf{C}^nx=x2Ue1=x2Ue1=x2e1\| x\| = \| x\|_2U^* e_1\| = \| x\|_2\| U^* e_1\| = \| x\|_2\| e_1\| ,因而,向量范数 \| \cdot \| 是Euclid范数的纯量倍,而推论(5.6.23)说明,(用 \| \cdot \| 诱导的矩阵范数) N()N(\cdot) 等于(用 2\| \cdot \| _2 诱导的矩阵范数) 2|\cdot |_2 ,因此对所有 AMnA\in M_n2=N(A)A\left|\cdot \right|_{2} = N(A)\leqslant \| A\| 如果假定 \| \cdot \| 是诱导范数,则它是极小的,因而 A2=A\| A\| _2 = \| A\| 对所有 AMnA\in M_n 成立. □

如果 \| \cdot \|MnM_{n} 上的矩阵范数,利用

AA\| A ^ {*} \equiv \| A ^ {*} \|

定义的函数 \| \cdot \| 也是 MnM_{n} 上的矩阵范数,直接计算说明,对所有 AMnA\in M_nA2=A2=\| A\| _2^* = \| A^*\| _2 = Λ2\| \Lambda \| _2 ,且 A1=A1=A1\| A\| _1^* = \| A^*\| _1 = \| A\| _1 ,但是,并非每个矩阵范数都有这个性质,这是因为 A1=\| A\| _1^* = A1A1\| A\| _1\neq \| A\| _1 ,适合 =\| \cdot \| ^{\prime} = \| \cdot \| ^{\prime} 的矩阵范数称为自伴的.Frobenius矩阵范数和 l1l_{1} 矩阵范数是白伴的,又因为

A22=ρ(AA)=ρ(AA)=A22,\left| A ^ {*} \right| _ {2} ^ {2} = \rho \left(A A ^ {\prime}\right) = \rho \left(A ^ {*} A\right) = \left\| A \right\| _ {2} ^ {2},

所以谱范数也是自伴的。实际上, MnM_{n} 上的所有酉不变范数都是自伴的[见(7.4)节,习题2]。谱范数可看作是仅有的自伴诱导矩阵范数。

5.6.36 定理 设 \| \cdot \|MnM_{n} 上给定的矩阵范数. 则

(a) \| \cdot \| 是诱导范数,当且仅当 \| \cdot \| 是诱导范数.

(b)如果矩阵范数 \| \cdot \| 是由向量范数 \| \cdot \| 诱导的,则 \| \cdot \| 是由对偶范数 p\| \cdot \|^{p} 诱导的.
(c) 谱范数是 MnM_{n} 上仅有的既为诱导的又为自伴的矩阵范数.

证明:如果 N()N(\cdot) 是矩阵范数,又如果 N(A)A=AN(A) \leqslant \|A\| = \|A^*\| 对所有 AMnA \in M_n 成立,则 N(A)=N(A)AN(A^*) = N(A^*) \leqslant \|A\| 对所有 AMnA \in M_n 成立。如果 \cdot 是极小矩阵范数, N()=AN(\cdot)^* = \|A\| ,因而 N()=AN(\cdot) = \|A\|^* ,所以 A\|A\|^* 是极小矩阵范数。由(5.6.32)可知论断(a)成立。现在假定 A\|A\| 是由向量范数 A\|A\| 诱导的。利用对偶性定理(5.5.14),有

A=A=maxx=1Ax=max1,x=1(Axp)D=maxr=1maxzD=1(Ax)z=maxzp1maxi=1xAz=maxzp1AzD,\begin{array}{l} \| A \| ^ {*} = \left\| A ^ {*} \right\| = \max _ {\| x \| = 1} \| A ^ {*} x \| = \max _ {1, \| x \| = 1} (\| A ^ {*} x \| ^ {p}) ^ {D} \\ = \max _ {\| r = 1} \max _ {\| z \| ^ {D} = 1} | (A ^ {*} x) ^ {*} z | = \max _ {\| z ^ {p - 1}} \max _ {i = 1} | x ^ {\prime} A z | = \max _ {\| z ^ {p - 1}} | A z | ^ {D}, \\ \end{array}

因而 \| \cdot \| 是由 D\| \cdot \|^{D} 诱导的。关于最后一个论断,我们注意到,如果矩阵范数 \| \cdot \| 是由向量范数 \| \cdot \| 诱导的,且 =\| \cdot \| = \| \cdot \|^{*} ,(b) 说明 \| \cdot \| 也是由 D\| \cdot \|^{D} 诱导的。但是推论 (5.6.23) 说明,除了差一个正纯量因子外,诱导一个给定的矩阵范数的向量范数是唯一确定的,因而,存在某个 r>0r > 0 使得 D=c\| \cdot \|^{D} = c\| \cdot \| 。于是,由 (5.4.16),一定有 =2/c\| \cdot \| = \| \cdot \|_{2} / \sqrt{c} 。因为给定的向量范数是 Euclidi 范数的一个倍数,所以它们都诱导同一个矩阵范数,由此得出 =2\| \cdot \| = \| \cdot \|_{2}

练习 证明,只要 \| \cdot \| 是矩阵范数, \| \cdot \| 就是矩阵范数。

练习 给出一个例子,说明自伴矩阵范数不一定是酉不变范数。

在(5.5)中引进的绝对向量范数和单调向量范数是最通用的向量范数。用单调向量范数诱导的矩阵范数有一个简单而又有用的特征。

5.6.37 定理 设 \| \cdot \|Cn\mathbf{C}^n 上的向量范数, \| \cdot \| 是由它诱导的 MnM_n 上的矩阵范数,则下列命题等价:

(a) \| \cdot \| 是绝对范数;即 x=x\| |x| \| = \| x\| 对所有 xCnx \in \mathbb{C}^n 成立.
(b) \| \cdot \| 是单调范数;即只要 xy|x| \leqslant |y| ,就有 xy\| x \| \leqslant \| y \| .
(c) 如果 D=diag(d1,d2,,dn)MnD = \operatorname{diag}(d_1, d_2, \dots, d_n) \in M_n ,则

Dp=max1,2,ndi.\| D _ {p} = \max _ {1, 2, n} | d _ {i} |.

证明:(a)与(b)等价是(5.5.10)的内容.如果 \| \cdot \| 是单调范数,又如果令

dmax1,i,ndi,d=dk,d \equiv \max _ {1, i, n} | d _ {i} |, d = | d _ {k} |,

Dxdx|Dx| \leqslant |dx| ,因而 Dxdx\|Dx\| \leqslant d\|x\| ,且 x=ekx = e_k 时等式成立,于是

D=max1iDxx=d\| D \| = \max _ {1 \leq i} \frac {\| D x \|}{\| x \|} = d

因而(b)蕴涵(c). 如果假定(c)成立,设 x,yCnx, y \in \mathbb{C}^n 是给定的,且 xy|x| \leqslant |y| ,注意到存在一组复数 dkd_k 使得 xk=dkyk|x_k| = d_k y_k ,且 dk1|d_k| \leqslant 1k=1,,nk = 1, \dots, n . 因此,如果 D=diag(d1,,dn)D = \operatorname{diag}(d_1, \dots, d_n) ,则有 Dy=xDy = |x|D1\| D \| \leqslant 1 ,因为

x=DyDyy,\| | x | \| = \| D y \| \leqslant \| D \| \| y \| \leqslant \| y \|,

所以范数 \| \cdot \| 一定是单调的.

习题

  1. 试给一个关于矩阵的向量范数的例子,它适合 I<1\| I \| < 1

  2. 满足 A2=AA^2 = A 的矩阵 AA 称的为幂等的。试给一个不同于 II002×22 \times 2 幂等矩阵的例子。证明 0011 是幂等矩阵仅有的特征值。证明幂等矩阵 AA 一定可对角化,又如果 A0A \neq 0 ,则 A1\| A \| \geqslant 1 对任何矩阵范数成立。

  3. 如果 \| \cdot \|MnM_{n} 上的矩阵范数,证明,对所有 c1c \geqslant 1cc \parallel \cdot \parallel 是矩阵范数,但是证明,对任意 c<1c < 1c1c \parallel \cdot \parallel_{1}c1c \parallel \cdot \parallel_{1} 都不是矩阵范数。

  4. 在定义(5.6.1)中,同一种向量范数有两种不同的计算方式。更一般地,可以定义 α,β\| \cdot \|_{\alpha, \beta}

Aa,pmaxi,a=1Arp\| A \| _ {a, p} \equiv \max _ {i, a = 1} \| A r \| _ {p}

其中 a\| \cdot \|_{a}β\| \cdot \|_{\beta} 是两个(可能不同的)向量范数。这样的函数 a,β\| \cdot \|_{a,\beta} 是矩阵范数吗?试研究一下 a,β\| \cdot \|_{a,\beta} ,确定它可能具有那些有趣的性质:注意,这个概念可用来定义关于 m×nm \times n 矩阵的范数。这是因为 a\| \cdot \|_{a} 可以取 Cm\mathbf{C}^{m} 上的向量范数,而 β\| \cdot \|_{\beta} 可以取 Cn\mathbf{C}^{n} 上的向量范数。在这个意义下, a,β\| \cdot \|_{a,\beta} 有哪些性质与诱导矩阵范数是一样的?

  1. 证明 Euclid 范数 2\| \cdot \|_2 和谱范数 2\| \cdot \|_2 都是 MnM_n 上的两不变范数;也就是说,只要 UUVV 都是酉矩阵, AAUAVUAV 就有相同的范数。试就你能考虑到的各个方面,对矩阵范数 2\| \cdot \|_21\| \cdot \|_1 作一比较。注意 A2=trAA2\| A \|_2 = |\operatorname{tr} A' A|^2

  2. 证明关于 \cdot 的公理 (1)~(3) 对 (5.6.7) 中的 s\| \cdot \|_s 同样成立。这证明了,如果在 (5.6.7) 的假设和结论中用“关于矩阵的向量范数”代替“矩阵范数”,(5.6.7) 仍然成立。

  3. 如果 \| \cdot \|MnM_{n} 上的诱导矩阵范数,又如果 SMnS \in M_{n} 是非奇异矩阵,证明[如(5.6.7)中定义的] \| \cdot \| 也是诱导矩阵范数。如果 \| \cdot \| 是由向量范数 \| \cdot \| 诱导的,证明矩阵范数 \| \cdot \| 是[如(5.3.2)中定义的]向量范数 \| \cdot \| 、诱导的。

  4. 证明 MnM_{n} 的非奇异矩阵在 MnM_{n} 中是稠密的:即证明 MnM_{n} 中的每个矩阵是诸非奇异矩阵的极限,奇异矩阵也有 MnM_{n} 中稠密吗?

  5. 证明,对所有 m1m \geqslant 1 ,由 C\mathbf{C}^{\prime \prime} 上的向量范数组成的集合是凸集,但是,对任意 n2n \geqslant 2 ,由 MnM_{n} 上的矩阵范数组成的集合不是凸集。证明, N()=12[N1()+N2()]N(\cdot) = \frac{1}{2} [N_{1}(\cdot) + N_{2}(\cdot)] 是矩阵范数,当且仅当对所有 A,BMnA, B \in M_{n}

[N1(A)N2(A)][N1(B)N2(B)]2[N1(A)N1(B)N1(AB)]+2[N1(A)N2(B)N2(AB)].\begin{array}{l} \left[ N _ {1} (A) - N _ {2} (A) \right] \left[ N _ {1} (B) - N _ {2} (B) \right] \leqslant 2 \left[ N _ {1} (A) N _ {1} (B) - N _ {1} (A B) \right] \\ + 2 \left[ N _ {1} (A) N _ {2} (B) \dots N _ {2} (A B) \right]. \\ \end{array}

提示:考虑 N1()=1,N0()2,A=[0101]N_{1}(\bullet) = \left\| \cdot \right\|_{1}, N_{0}(\bullet) \left\| \cdot \right\|_{2}, A = \left[ \begin{array}{ll}0 & 1\\ 0 & 1 \end{array} \right]B=ATB = A^T ,关于矩阵范数集的一个重要子集是凸集的事实见例(7.4.54).

  1. 证明, MnM_{n} 上的 I1I_{1} 范数 A1=i,j=1naij\| A \|_{1} = \sum_{i,j=1}^{n} |a_{ij}| 是矩阵范数,但不是诱导范数。

  2. 证明下述各个恒等式都是计算谱范数(5.6.6)的等价形式:

A2max1,ξ21Ai2=max1,iki1Ax2=max0Ax2x2=maxi,j=1,2,3yAi=maxi,j=1,2,3yAj.\begin{array}{l} \left| A \right| _ {2} - \max _ {1, \left| \xi_ {2} - 1 \right.} \| A _ {i} \| _ {2} = \max _ {1, i \mid k _ {i - 1}} \| A _ {x} \| _ {2} = \max _ {\angle 0} \frac {\left| A _ {x} \right| _ {2}}{\left| x \right| _ {2}} \\ = \max _ {i, j = 1, 2, 3} | y ^ {*} A _ {i} | = \max _ {i, j = 1, 2, 3} | y ^ {*} A _ {j} |. \\ \end{array}

利用这些恒等式证明 A12A12\| A_{12} - |A^{\prime}|_{12} 对所有 AMnA\in M_n 成立,然后利用 2\| \cdot \| _2 是矩阵范数和 AAA^{\prime}A 是Hermite矩阵的事实证明 AA2=ΛA1=Λ22\| AA^{*}\|_{2} = \left|\Lambda^{*}A\right|_{1} = \left|\Lambda \right|_{2}^{2}

  1. 如果 ρ(A)<1,AMn\rho(A) < 1, A \in M_n ,证明级数 I+A+An+I + A + A^n + \cdots 收敛于和 (IA)1(I - A)^{-1} .

  2. 如果 AMnA \in M_{n} 不是可逆矩阵,证明对每个矩阵范数 {}\{\cdot\}IA1\| I - A \| \geqslant 1

  3. n\left|\cdot\right|_{n}p\left|\cdot\right|_{p}MnM_{n} 上给定的矩阵范数。证明 Amax{An,Ap}\left\|A\right\| \equiv \max \left\{\left\|A\right\|_{n},\left\|A\right\|_{p}\right\}MnM_{n} 上的矩阵范数。什么时候它是诱导范数?

  4. 试给一个矩阵 AA 的例子,使得 ρ(A)<A\rho(A) < \|A\| 对每个矩阵范数 \| \cdot \| 成立。

  5. A=[aij]MnA = [a_{ij}] \in M_n ,证明,用 Anmax1i,jnaij\| A \| \equiv n \max_{1 \leq i,j \leq n} |a_{ij}| 定义的 MnM_n 上的函数 \| \cdot \| 是矩阵范数,而当 n2n \geq 2 时,它不是诱导范数。

  6. 利用习题 12 的想法计算矩阵

[121013001]\left[ \begin{array}{c c c} 1 & - 2 & 1 \\ 0 & 1 & 3 \\ 0 & 0 & 1 \end{array} \right]

的逆. 提示: 在级数中只有三项非零.

  1. 说明如何推广习题 17 中的方法求一般非奇异上三角矩阵 AMnA \in M_{n} 的逆。提示:选一个对角矩阵 DD ,使得 DADA 的主对角线上都是 1。

  2. 证明,谱半径 ρ()\rho(\cdot)MnM_{n} 上的连续齐次函数,但是它既不是 MnM_{n} 上矩阵范数,也不是 MnM_{n} 上的向量范数,这是因为,

(a) 可能对某个 A0A \neq 0 , 有 ρ(A)=0\rho(A) = 0 ;

(b)可能有 ρ(A+B)>ρ(A)+ρ(B)\rho (A + B) > \rho (A) + \rho (B)

(c) 即使 ρ(A)\rho(A)ρ(B)\rho(B) 都是非零的,也可能有 ρ(AB)>ρ(A)ρ(B)\rho(AB) > \rho(A)\rho(B) .

提示:考虑 [0100],[0010],[0110]\left[ \begin{array}{ll}0 & 1\\ 0 & 0 \end{array} \right],\left[ \begin{array}{ll}0 & 0\\ 1 & 0 \end{array} \right],\left[ \begin{array}{ll}0 & 1\\ 1 & 0 \end{array} \right][1101].\left[ \begin{array}{ll}1 & 1\\ 0 & 1 \end{array} \right].

  1. 证明 AB2A2B2\|AB\|_{2} \leqslant \|A\|_{2}\|B\|_{2}AB2A2B2\|AB\|_{2} \leqslant \|A\|_{2}\|B\|_{2} 对所有 A,BMnA, B \in M_{n} 成立.

  2. 证明 A22A1A\| A \|_2^2 \leqslant \| A \|_1 \| A\| 对所有 AMnA \in M_n 成立。提示: ρ(AA)AA1\rho(A^* A) \leqslant \| A^* A \|_1 ,且 A1=A\| A^* \|_1 = \| A\|

  3. α\| \cdot \|_{\alpha}Cn\mathbf{C}^{n} 上给定的向量范数,定义 β(α)D\| \cdot \|_{\beta} \equiv (\| \cdot \|_{\alpha})^{D} 为对偶范数。设 α\| \cdot \|_{\alpha}β\| \cdot \|_{\beta} 分别表示由 α\| \cdot \|_{\alpha}β\| \cdot \|_{\beta} 诱导的 MnM_{n} 上的矩阵范数。利用(5.6.36)证明, Aβ=Aα\| A^{*} \|_{\beta} = \| A \|_{\alpha} 对所有 AMnA \in M_{n} 成立。证明 Aα2AαAβ\| A \|_{\alpha}^{2} \leqslant \| A \|_{\alpha} \| A \|_{\beta} 对所有 AMnA \in M_{n} 成立,并且说明是怎样推广了习题21中的结果。这个不等式与 x=yx = y 时的(5.4.13)有何关系?

  4. 验证,下表中的各值给出的诸最佳常数 CMC_M 使得 AaCMAb\| A \|_a \leqslant C_M \| A \|_b 对所有 AMnA \in M_n 成立。表中的所有范数都是矩阵范数。表下面的提示(i,j)与表中确定的(i,j)元相配。每种情形都给出了一个矩阵,对这个矩阵,不等式 AaCMAb\| A \|_a \leqslant C_M |A|_b 对常数 CMC_M 的给定值是等式。

下列矩阵都是 MnM_{n} 中的矩阵:

II 是单位矩阵;

JJ 是所有元素都是 1 的矩阵;

A1A_{1} 是其第1列的所有元素都是1而其余元素都是零的矩阵;

A2A_{2} 是其(1,1)元是1,而其余元素都是零的矩阵.

(1,2)根据(5.6.21),可从(2,1)得到

(1,3) A1A1nA\| A\|_{1}\leqslant \| A\|_{1}\leqslant n\| A\|A1A_{1}

(1, 4) A1A_{1} .

(1,5) max1jn[i=1naij]2j=1n[i=1naij]2[j=1n1][i=1naij2],\max_{1\leqslant j\leqslant n}\left[\sum_{i = 1}^{n}|a_{ij}| \right]^2\leqslant \sum_{j = 1}^{n}\left[\sum_{i = 1}^{n}|a_{ij}| \right]^2\leqslant \left[\sum_{j = 1}^{n}1\right]\left[\sum_{i = 1}^{n}|a_{ij}|^2\right],

(Cauchy-Schwarz 不等式); A1A_{1} .

(1,6) max1jni=1naijnmax1i,jnaij\max_{1\leqslant j\leqslant n}\sum_{i = 1}^{n}|a_{ij}|\leqslant n\max_{1\leqslant i,j\leqslant n}|a_{ij}| JJ

(2,1)从(2,5)和(5,1)可得; A1A_{1}^{\prime}

(2,3)从(2,5)和(5,3)可得; A1A_{1}

(2,4)从(2,5)和(5,4)可得; A2A_{2}

(2, 5) A22=ρ(AA)i=1nλi(AA)=trAA=A22;A1\| A \|_2^2 = \rho (A^* A) \leqslant \sum_{i=1}^{n} \lambda_i (A^* A) = \operatorname{tr} A^* A = \| A \|_2^2; A_1 .

(2, 6) 从 (2, 5) 和 (5, 6) 可得: JJ .

(3, 1) 根据(5.6.21),从(1, 3)可得: AiA_{i} .

(3,2)根据(5.6.21),从(2,3)可得: AiA_{i}^{*}

(3,4) AiA_{i}^{*}

(3,5)类似于(1,5); AiA_{\bullet}^{i}

(3, 6) 类似于 (1, 6); JJ .

(4, 1) j=1ni=1naijnmax1jnr=1naij\sum_{j=1}^{n} \sum_{i=1}^{n} |a_{ij}| \leqslant n \max_{1 \leqslant j \leqslant n} \sum_{r=1}^{n} |a_{ij}| ; II .

(4, 2) 从 (4, 5) 和 (5, 2) 可得; 下述矩阵用两种方式给出等式: 取 ae2πina \equiv e^{2\pi i n} , 注意 (a)k=ak(\overline{a})^k = a^{-k} , 且当 j0j \neq 0k=0n1ukj=0\sum_{k=0}^{n-1} u^{kj} = 0j=0j = 0 时它等于 nn ; 设 AA(k,j)(k, j) 元是 ukju^{kj} 并且验证, AA=nIA^* A = nI , A2=n\|A\|_2 = \sqrt{n} , A1=n2\|A\|_1 = n^2A2=n\|A\|_2 = n .

(4,3)类似于(4,1):I.

(4,5) [i,j=1naij]2=i,j,p,q=1naijapq12i,j,p,q=1n[aij2+apq2],\left[\sum_{i,j=1}^{n}\left|a_{ij}\right|\right]^2 = \sum_{i,j,p,q=1}^{n}\left|a_{ij}\right|\left|a_{pq}\right| \leqslant \frac{1}{2}\sum_{i,j,p,q=1}^{n}\left[\left|a_{ij}\right|^2 +\left|a_{pq}\right|^2\right],

(算术-几何平均值不等式); JJ

(4,6) i,j=1naijn2max1i,jnaij\sum_{i,j=1}^{n} |a_{ij}| \leqslant n^2 \max_{1 \leqslant i,j \leqslant n} |a_{ij}| ; JJ .

314

(5,1) j=1ni=1n:aij2j=1n[i=1n:aij]2n[max1i,jni=1naij]2;I.\sum_{j = 1}^{n}\sum_{i = 1}^{n}:a_{ij}\mid^2\leqslant \sum_{j = 1}^{n}\left[\sum_{i = 1}^{n}:a_{ij}\mid \right]^2\leqslant n\left[\max_{1\leqslant i,j\leqslant n}\sum_{i = 1}^{n}|a_{ij}| \right]^2;\quad I.
(5.2) i,j=1naij2trAA=i=1nλi(AA)nλmax(AA)\sum_{i,j=1}^{n} |a_{ij}|^2 - \operatorname{tr} A^* A = \sum_{i=1}^{n} \lambda_i (A^* A) \leqslant n \lambda_{\max}(A^* A) ;
(5,3) 类似于(5,1); II
(5,4) i,j=1naij2[i,j=1naij]2;A2.\sum_{i,j=1}^{n}\left|a_{ij}\right|^2 \leqslant \left[\sum_{i,j=1}^{n}\left|a_{ij}\right|\right]^2; A_2.
(5,6) i,j=1naijpn2max1ijaij\sum_{i,j=1}^{n} a_{ij} \mid p \leqslant n^2 \max_{1 \leqslant i \leqslant j} a_{ij} , JJ .
(6,1) max1i,jnaijmaxijni=1naij\max_{1\sim i,j\sim n}|a_{ij}|\leqslant \max_{i\sim j\sim n}\sum_{i = 1}^{n}|a_{ij}|
(6,2) max1i,jnuij2max1i,jnj=1nuij2=max1i,jn(AA)nρ(AA),\max_{1\leqslant i,j\leqslant n}\left|u_{ij}\right|^2\leqslant \max_{1\leqslant i,j\leqslant n}\sum_{j = 1}^{n}\left|u_{ij}\right|^2 = \max_{1\leqslant i,j\leqslant n}(A^* A)_n\leqslant \rho (A^* A),
(6.3) 类似于(6,1): II
(6.4) max1i,jnaiji,j=1naij\max_{1\leqslant i,j\leqslant n}a_{ij}\mid \leqslant \sum_{i,j = 1}^{n}|a_{ij}| AA_{\perp}
(6,5) max1i,jnaij2i,j=1naij2;Aij.\max_{1\leqslant i,j\leqslant n}|a_{ij}|^2\leqslant \sum_{i,j = 1}^{n}|a_{ij}|^2;\quad A_{ij}.

  1. 证明习题23中界(5,2)可改进为 A2[rankA]1/2A2\| A \|_2 \leqslant [\operatorname{rank} A]^{1/2} |A|_2 。提示: rankA=AA\operatorname{rank} A = A^{\prime}A 的非零特征值的个数。

  2. AMnA \in M_{n} 是给定的矩阵。由引理(5.6.10)可知,存在某个矩阵范数 \|\cdot\| 使得 ρ(A)<Λ<ρ(A)+ε\rho(A) < |\Lambda| < \rho(A) + \varepsilon 。证明存在非奇矩阵 C=C(ε)Mn\mathbf{C} = \mathbf{C}(\varepsilon) \in M_{n} 使得 ρ(A)<CAC12<ρ(A)+ε\rho(A) < \left\|CAC^{-1}\right\|_{2} < \rho(A) + \varepsilon 。提示:利用与引理(5.6.10)中相同的构造法,并且证明,当 ε>0\varepsilon > 0CAC122=ρ(A)A+O(ε)\|CAC^{-1}\|_{2}^{2} = \rho(A)^{*}A + O(\varepsilon)

  3. 证明, Ai=1nλi2\| A \| \geqslant \sum_{i=1}^{n} |\lambda_i|^2 对所有 AMnA \in M_n 成立,其中等式成立,当且仅当 AA 是正规矩阵。因为这个理由,数值

[A22i=1nλi2]1.2\left[ \left\| A \right\| _ {2} ^ {2} - \sum_ {i = 1} ^ {n} \left| \lambda_ {i} \right| ^ {2} \right] ^ {1. 2}

有时称为正规性亏损值。提示:利用 Schur 三角化定理和 Frobenius 范数是西不变范数的事实。

  1. 利用定理(5.6.9)和友矩阵可以给出实系数或复系数多项式零点的界。任意一个次数至少是1的多项式 f(z)f(z) 可以写成 f(z)=Cztp(z)f(z) = Cz^t p(z) 的形式,其中 CC 是非零常数,

p(z)znan1zn1an2zn1++a1z+a0(5.6.38)p (z) - z ^ {n} \mid a _ {n - 1} z ^ {n - 1} \mid a _ {n - 2} z ^ {n - 1} + \dots + a _ {1} z + a _ {0} \tag {5.6.38}

an0a_{n} \neq 0 . p(z)=0p(z) = 0 的根是 f(z)=0f(z) = 0 的非零根,并且对于这些根,我们可以给出各种界。(a)证明,友矩阵

(Φ(p)=[an+1ana1a0100001000010](5.6.39)\left(\mathbf {\Phi} (p) = \left[ \begin{array}{c c c c c} - a _ {n + 1} & - a _ {n} & \dots & a _ {1} & - a _ {0} \\ 1 & 0 & \dots & 0 & 0 \\ 0 & 1 & \ddots & 0 & 0 \\ \vdots & \vdots & \ddots & & \vdots \\ 0 & 0 & & 1 & 0 \end{array} \right] \right. \tag {5.6.39}

的特征多项式正好是 p(z)p(z) ,因而 C(p)C(p) 的特征值与 p(z)=0p(z) = 0 的根相同。提示:计算 det[zIC(p)]\det [zI - C(p)] 时用其第1列的代数余子式和归纳法。(b)利用定理(5.6.9)证明,若 zzp(z)=0p(z) = 0 的根 \| \cdot \|_{\parallel}MnM_{n} 上的任一矩阵范数,则 zˉ(p)\left|\bar{z}\right| \leqslant \left(\langle p\rangle\right) 如下, zˉ\bar{z} 表示 p(z)=0p(z) = 0 的任一根。(c)利用 \| \cdot \|_{\parallel} 证明

z~max{an,1+a1,,1+an1}1+max{a0,a1,,an1}.(5.6.40)\begin{array}{l} \left| \tilde {z} \right| \leqslant \max \left\{\left| a _ {n} \right|, 1 + \left| a _ {1} \right|, \dots , 1 + \left| a _ {n - 1} \right| \right\} \\ \leqslant 1 + \max \left\{\left| a _ {0} \right|, \left| a _ {1} \right|, \dots , \left| a _ {n - 1} \right| \right\}. \tag {5.6.40} \\ \end{array}

这个关于根的界称为Cauchy 界. (d) 利用 \|\cdot\| 证明

zmax{1,an+a1++an1}1+an+a1++an1.(5.6.41)| z | \leqslant \max \left\{1, \left| a _ {n} \right| + \left| a _ {1} \right| + \dots + \left| a _ {n - 1} \right| \right\} \leqslant 1 + \left| a _ {n} \right| + \left| a _ {1} \right| + \dots + \left| a _ {n - 1} \right|. \tag {5.6.41}

这个界称为Montel 界. 证明它比Cauchy 界要粗糙. (e) 利用 1\|\cdot\|_{1} 证明

zˉ(n1)+an1a2++an1,\left| \bar {z} \right| \leqslant (n - 1) + \left| a _ {n} \right| ^ {- 1} \left| a _ {2} \right| + \dots + \left| a _ {n - 1} \right|,

对于所有 n>2n > 2 ,这个界比(d)中的界粗糙.(f)利用 1\| \cdot \|_{1} 证明

z~[n+a12+a12++an12]1/2,\left| \tilde {z} \right| \leqslant \left[ n + \left| a _ {1} \right| ^ {2} + \left| a _ {1} \right| ^ {2} + \dots + \left| a _ {n - 1} \right| ^ {2} \right] ^ {1 / 2},

这个界比Carmichael和Mason界(5.6.42)粗糙.(g)利用 nn\parallel \cdot \parallel 证明

zˉnmax{1,a1,a1,,an1},| \bar {z} | \leqslant n \max \{1, \left| a _ {1} \right|, \left| a _ {1} \right|, \dots , \left| a _ {n - 1} \right| \},

它比(5.6.11)中的界粗糙

  1. 利用习题 27 中相同的记号,我们可以改进其中 (f) 项中的界。把友矩阵写成 C(p)=S+RC(p) = S + R ,其中

S[00001000010000010],S - \left[ \begin{array}{c c c c c} 0 & 0 & \dots & 0 & 0 \\ 1 & 0 & \dots & 0 & 0 \\ 0 & 1 & \ddots & 0 & 0 \\ \vdots & 0 & \ddots & \ddots & \vdots \\ \vdots & \vdots & \ddots & \ddots & \vdots \\ 0 & 0 & \dots & 1 & 0 \end{array} \right],

R=[an1an2a1a000000000],R = \left[ \begin{array}{c c c c c} - a _ {n 1} & - a _ {n 2} & \dots & - a _ {1} & - a _ {0} \\ 0 & 0 & \dots & 0 & 0 \\ \vdots & \vdots & & \vdots & \vdots \\ 0 & 0 & \dots & 0 & 0 \end{array} \right],

然后证明 SR=RS0S^{\prime}R = R^{\prime}S - 0 ,证明 SS21\left|S^{\prime}S\right|_{2} - 1RR2=an2+a12++an12\| R^{*}R\|_{2} = |a_{n}|^{2} + |a_{1}|^{2} + \dots +|a_{n - 1}|^{2}

证明

C(p)22=C(p)C(p)22=(S+R)(S+R)2=SS+RR2SS,+RR2,\begin{array}{l} \left\| C (p) \right\| _ {2} ^ {2} = \left\| C (p) ^ {*} C (p) \right\| _ {2} ^ {2} = \left\| (S + R) ^ {*} (S + R) \right\| _ {2} \\ = \| S ^ {\prime} S + R ^ {\prime} R \| _ {2} \leqslant | S ^ {\prime} S |, + \| R ^ {\prime} R \| _ {2}, \\ \end{array}

由此推导出Carmichael和Mason界

z[1+an2+a12++an12]1/2(5.6.42)| z | \leqslant [ 1 + | a _ {n} | ^ {2} + | a _ {1} | ^ {2} + \dots + | a _ {n - 1} | ^ {2} ] ^ {1 / 2} \tag {5.6.42}
  1. 把界(5.6.41)应用到多项式

q(z)(z1)p(z)=zn+1+(an11)zn+(an1an1)zn1++(a0a1)z+a0,\begin{array}{l} q (z) \equiv (z - 1) p (z) \\ = z ^ {n + 1} + \left(a _ {n - 1} - 1\right) z ^ {n} + \left(a _ {n - 1} - a _ {n - 1}\right) z ^ {n - 1} + \dots + \left(a _ {0} - a _ {1}\right) z + a _ {0}, \\ \end{array}

然后证明

zˉmax{1,a0+a0a1++an2an1+an11}.\left| \bar {z} \right| \leqslant \max \{1, \mid a _ {0} \mid + \mid a _ {0} - a _ {1} \mid + \dots + \mid a _ {n - 2} - a _ {n - 1} \mid + \mid a _ {n - 1} - 1 \mid \}.

证明这个表示式的第2项不少于1,并且推导出Montel的另一个界:

z~a11+a10a1++an2an1+an11(5.6.43)\mid \tilde {z} \mid \leqslant \mid a _ {1 1} \mid + \mid a _ {1 0} - a _ {1} \mid + \dots + \mid a _ {n - 2} - a _ {n - 1} \mid + \mid a _ {n - 1} - 1 \mid \tag {5.6.43}
  1. 试用Montel界(5.6.43)证明Kakeya定理:若 f(z)=anzn+an1zn1++a1z+a0f(z) = a_{n}z^{n} + a_{n - 1}z^{n - 1} + \dots +a_{1}z + a_{0} 是一个给定的多项式,其系数 ara_{r} 均为非负实数且在 anan1a1a0a_{n}\geqslant a_{n - 1}\geqslant \dots \geqslant a_{1}\geqslant a_{0} 的意义下是单调的,则 f(z)=0f(z) = 0 的所有根都在单位圆盘内,即 z~1|\tilde{z} |\leqslant 1

  2. 前面四个习题给出的都是关于 p(z)=0p(z) = 0 的根的绝对值的上界,其实也可以得到它们的下界。证明,若 p(z)p(z) 是由(5.6.38)给出的 a00a_0 \neq 0 的多项式,则函数

q(z)=1a0znp(1z)=zn+a1a0zn1+a2a11zn2+an1a0z1a0q (z) = \frac {1}{a _ {0}} z ^ {n} p \left(\frac {1}{z}\right) = z ^ {n} + \frac {a _ {1}}{a _ {0}} z ^ {n - 1} + \frac {a _ {2}}{a _ {1 1}} z ^ {n - 2} + \dots | \frac {a _ {n - 1}}{a _ {0}} z | \frac {1}{a _ {0}}

是一个次数为 nn 的多项式,而它的各个根正好是 p(z)=0p(z) = 0 的各个根的倒数。试用 q(z)=0q(z) = 0 的根的各相应上界得到 p(z)=0p(z) = 0 的根 zˉ\bar{z} 的下述下界。

Cauchy:

z~a0max{1,a0+an1,a0+an2,,an+a1}a1a0+max{1,an1,aπ2,,a1}.\begin{array}{l} | \tilde {z} | \geqslant \frac {\left| a _ {0} \right|}{\max \{1 , \left| a _ {0} \right| + \left| a _ {n - 1} \right| , \left| a _ {0} \right| + \left| a _ {n - 2} \right| , \cdots , \left| a _ {n} \right| + \left| a _ {1} \right| \}} \\ \geqslant \frac {\left| a _ {1} \right|}{\left| a _ {0} \right| + \max \{1 , \left| a _ {n - 1} \right| , \left| a _ {\pi_ {2}} \right| , \cdots , \left| a _ {1} \right| \}}. \\ \end{array}

Montel:

z^a0max{a0,1+a1+a2++an1}.a01+a0+a1++an1\begin{array}{l} | \hat {z} | \geqslant \frac {\left| a _ {0} \right|}{\max \left\{\left| a _ {0} \right| , 1 + \left| a _ {1} \right| + \left| a _ {2} \right| + \cdots + \left| a _ {n - 1} \right| \right\}}. \\ \geqslant \frac {\left| a _ {0} \right|}{1 + \left| a _ {0} \right| + \left| a _ {1} \right| + \cdots + \left| a _ {n - 1} \right|} \\ \end{array}

Carmichael and Mason:

38

za0[1+a02+a12++an12]1.2.| z | \geqslant \frac {\left| a _ {0} \right|}{\left[ 1 + \left| a _ {0} \right| ^ {2} + \left| a _ {1} \right| ^ {2} + \cdots + \left| a _ {n - 1} \right| ^ {2} \right] ^ {1 . 2}}.
  1. 当把习题 31 中的下界与习题 273027 \sim 30 中的上界结合起来时,就有可能把 p(z)p(z) 的根确定在一个环域 {z:r1zr2}\{z: r_1 \leqslant |z| \leqslant r_2\} 内。例如,考虑

f(z)=1n!zn+1(n1)!zn1++12z2+z+1,f (z) = \frac {1}{n !} z ^ {n} + \frac {1}{(n - 1) !} z ^ {n - 1} + \dots + \frac {1}{2} z ^ {2} + z + 1,

它是指数函数 exe^x 的幂级数的 nn 次部分和。证明 f(z)=0f(z) = 0 的所有根满足不等式

12z~1+n!.\frac {1}{2} \leqslant \left| \tilde {z} \right| \leqslant 1 + n!.

把Kakeya定理应用于 znf(1/z)z^n f(1 / z) ,试证明所有这些根实际上满足不等式 z~1\mid \tilde{z}\mid \geqslant 1

  1. 因为对任何非奇异矩阵 DDρ(A)=ρ(D1AD)\rho(A) = \rho(D^{-1}AD) ,把习题27中所采用的方法应用到 D1C(p)DD^{-1}C(p)D 可以得到(5.6.38)中的多项式 p(z)p(z) 的根的其他界。为了计算方便,我们选取 D=D =

diag(p1,p2,,pn)\operatorname{diag}(p_1, p_2, \dots, p_n) ,且所有 pi>0p_i > 0 ,然后把Cauchy界(5.6.40)推广到

z~1max{a0pnp1,a1pn1p1+pn1pn,a2pn2p1+pn2pn1,,(5.6.44)\left| \tilde {z} ^ {1} \leqslant \max \left\{\left| a _ {0} \right| \frac {p _ {n}}{p _ {1}}, \left| a _ {1} \right| \frac {p _ {n - 1}}{p _ {1}} + \frac {p _ {n - 1}}{p _ {n}}, \left| a _ {2} \right| \frac {p _ {n - 2}}{p _ {1}} + \frac {p _ {n - 2}}{p _ {n - 1}}, \dots , \right. \right. \tag {5.6.44}
an2p2p1+p2p3,an1+p1p2},\left. \left| a _ {n - 2} \right| \frac {p _ {2}}{p _ {1}} + \frac {p _ {2}}{p _ {3}}, \left| a _ {n - 1} \right| + \frac {p _ {1}}{p _ {2}} \right\},

它对任何正参数 p1,p2,,pnp_1, p_2, \dots, p_n 都成立.

  1. 如果(5.6.38)中的所有系数 aka_{k} 都不为零,选取 pkp1/ank+1p_{k} \equiv p_{1} / |a_{n - k + 1}|k=2,3,,nk = 2, 3, \dots, n ,试从(5.6.44)推导出 p(z)p(z) 的根 z~\tilde{z} 的Kojima界:

z~max{a0,2a1a2,2a2a3,,2an1an}.(5.6.45)\left| \tilde {z} \right| \leqslant \max \left\{\left| a _ {0} \right|, 2 \left| \frac {a _ {1}}{a _ {2}} \right|, 2 \left| \frac {a _ {2}}{a _ {3}} \right|, \dots , 2 \left| \frac {a _ {n - 1}}{a _ {n}} \right| \right\}. \tag {5.6.45}
  1. 现在对某个 r>0r > 0 ,选取 pkrk,k=1,2,,np_k \equiv r^k, k = 1, 2, \dots, n ,并且证明,对任意 r>0r > 0 ,(5.6.44) 蕴涵界

zˉmax{a11rn1,a1r22+r1,a2rn3+r1,,an2r+r1,an1+r1}1r+maxakrnk1{akrnk1},(5.6.46)\begin{array}{l} \left| \bar {z} \right| \leqslant \max \left\{\left| a _ {1 1} \right| r ^ {n - 1}, \left| a _ {1} \right| r ^ {2 - 2} + r ^ {- 1}, \left| a _ {2} \right| r ^ {n - 3} + r ^ {- 1}, \dots , \right. \\ \left| a _ {n - 2} \right| r + r ^ {1}, \left| a _ {n - 1} \right| + r ^ {1} \} \tag {5.6.46} \\ \leqslant \frac {1}{r} + \max _ {| a _ {k} | r ^ {n - k - 1}} \left\{\left| a _ {k} \right| r ^ {n - k - 1} \right\}, \\ \end{array}
  1. 如果 AMnA \in M_{n} , 证明 Hermite 矩阵

A˙=[0AA0]M3n\dot {A} = \left[ \begin{array}{l l} 0 & A \\ A ^ {\cdot} & 0 \end{array} \right] \in M _ {3 n}

319

A\pmb{A} 有相同的谱范数 (2)(\| \cdot \|_2) ,提示:我们知道,一般地有 A^2=ρ(A^A^)1/2\|\hat{A}\|_2 = \rho (\hat{A}^* \hat{A})^{1/2} .

  1. 如果 A,BMnA, B \in M_{n} , AA 是非奇异矩阵, BB 是奇异矩阵, 又如果 \| \cdot \| 是任意矩阵范数, 证明 AB1/A\left| A - B \right| \geqslant 1 / \| A \| . 提示: B=A(AB)=A[IA(AB)]B = A - (A - B) = A[I - A^{\prime} (A - B)] 是奇异矩阵, 所以 A(AB)1\left| A \right| (A - B) \geqslant 1 . 在 MnM_{n} 中它的几何意义是什么? 如何用一个奇异矩阵去充分逼近一个非奇异矩阵? 关于这个问题的进一步讨论见(7.4.1).

进一步阅读 习题23的表中的各个界取自下述文章B.J.Stone,“Best Possible Ratios of Certain Matrix Norms,"Numerische Math.4(1962),114-116,它还给出了另外一些界和参考文献.有关用矩阵范数确定(习题 273527\sim 35 中)多项式的根的其他参考文献以及进一步的讨论可参看M.Fujii and F.Kubo.“Operator Norms as Bounds for Roots of Algebraic Equations,"Proc.Japan Acad.49(1973),805-808.有关确定[定理(5.6.18)中]诱导范数间的界的问题的更一般讨论可见下文:H.Schneider and W.G.Strang,“Comparison Theorems for Supremum Norms,"Numerische Math.4(1962),15-20.在[Wie]中讨论了极小矩阵范数.