7.0_导引

7.0 导引

一类具有特殊正性的Hermite矩阵常常出现在许多应用中。具有这种正性的Hermite矩阵(特别是实对称矩阵)可以看作正数概念到矩阵的推广。这样考虑常常可以深入理解正定矩阵的一些性质和应用。下面给出这方面的一些例子,其中就要出现这些特殊的Hermite矩阵。

Hessian 矩阵,极小化和凸性

f(x)f(x) 是某区域 DRnD \subset \mathbb{R}^n 上的光滑实值函数。如果 y=[yi]y = [y_i]DD 的一个内点,则Taylor定理说明,

f(x)=f(y)+i=1n(xiyi)fxi,+i,j=1n(xiyj)(xjyj)2fxixjy+\begin{array}{l} f (x) = f (y) + \sum_ {i = 1} ^ {n} \left(x _ {i} - y _ {i}\right) \frac {\partial f}{\partial x _ {i}} \Bigg |, \\ + \sum_ {i, j = 1} ^ {n} \left(x _ {i} - y _ {j}\right) \left(x _ {j} - y _ {j}\right) \frac {\partial^ {2} f}{\partial x _ {i} \partial x _ {j}} \Bigg | _ {y} + \dots \\ \end{array}

yy 附近的点 xDx \in D 成立,如果 yyff 的临界点,则所有一阶偏导数在 yy 点为零,因而,关于 ffyy 附近的性态,有表示式

f(x)f(y)=i,j=1n(xiyi)(xjyj)2fxixjy+=(xy)TH(f;y)(xy)+,\begin{array}{l} f (x) - f (y) = \sum_ {i, j = 1} ^ {n} \left(x _ {i} - y _ {i}\right) \left(x _ {j} - y _ {j}\right) \frac {\partial^ {2} f}{\partial x _ {i} \partial x _ {j}} \Bigg | _ {y} + \dots \\ = (x - y) ^ {T} H (f; y) (x - y) + \dots , \\ \end{array}

m×nm \times n 矩阵

H(f;y)[2fxixjyH (f; y) \equiv \left[ \frac {\partial^ {2} f}{\partial x _ {i} \partial x _ {j}} \right| _ {y}

称为 ffy\mathbf{y} 点的Hessian矩阵;因为 ff 的混合偏导数相等,所以它是对称矩阵.如果二次型

zTH(f;y)z,z0,zRn(7.0.1)z ^ {T} H (f; y) z, \quad z \neq 0, z \in \mathbf {R} ^ {n} \tag {7.0.1}

总是正的,则 yyff 的相对极小点,如果这个二次型总是负的,则 yyff 的相对极大点。当然,如果这个二次型对所有非零 zRnz \in \mathbb{R}^n 可能没有确定的符号,在这种情况下,临界点 yy 的性质就不确定。在 n=1n = 1 的情形,验证相对极小点或极大点的这些准则不过是通常的二阶导数检验法。对于 n=1n = 1 ,第三种可能性只在拐点出现;当 n>1n > 1 时,情况可能要复杂得多。

如果二次型(7.0.1)在 DD 的所有点(不只是在 ff 的临界点)非负,则 ffDD 中的凸函数。这是 n=1n = 1 的熟悉情形的直接推广。

方差-协方差矩阵

X1,X2,,XnX_{1}, X_{2}, \cdots, X_{n} 是在某个具有期望函数 EE 的概率空间上的具有有限二阶矩的实或复随机变量,且假定 μi=E(Xi)\mu_{i} = E(X_{i}) 是相应的平均值。随机向量 X=(X1,,Xn)TX = (X_{1}, \cdots, X_{n})^{T} 的协方差矩阵是矩阵 A=[aij]A = [a_{ij}] ,其中

aij=E[(X˙iμi)(Xjμj)],i,j=1,,n.a _ {i j} = E \left[ \left(\dot {X} _ {i} - \mu_ {i}\right) \left(X _ {j} - \mu_ {j}\right) \right], \quad i, j = 1, \dots , n.

显然, AA 是Hermite矩阵,并且容易算出,如果 z=[zi]Cnz = [z_i] \in \mathbf{C}^n ,则

zAzE[i,j=1nzi(Xiμˉi)zj(Xjμj)]=Ei=1nzi(Xiμi)20.z ^ {\prime} A z - E \left[ \sum_ {i, j = 1} ^ {n} z _ {i} \left(X _ {i} - \bar {\mu} _ {i}\right) z _ {j} \left(X _ {j} - \mu_ {j}\right) \right] = E \left| \sum_ {i = 1} ^ {n} z _ {i} \left(X _ {i} - \mu_ {i}\right) \right| ^ {2} \geqslant 0.

在这个结论中所涉及到的期望函数的仅有性质是它的线性、齐性和非负性三个性质;即只要 YY 是非负随机变量,就有 E[Y]0E[Y] \geqslant 0 .

392

不借助概率术语也可以作出同样的结论。如果在直线上有一族复值函数 f1,f2,,fnf_{1}, f_{2}, \cdots, f_{n} ,如果 gg 是实值函数,又如果所有积分

aij=fˉi(x)fj(x)g(x)dx,i,j=1,,na _ {i j} = \int_ {- \infty} ^ {\infty} \bar {f} _ {i} (x) f _ {j} (x) g (x) d x, i, j = 1, \dots , n

都有定义且收敛,则矩阵 A=[aη]A = [a_{\eta}] 显然是Hermite矩阵,容易算出,

zΛz=i,j=1nizˉifˉi(x)zjfj(x)g(x)dxii=1nzifi(x)2g(x)dx.z ^ {\prime} \Lambda z = \sum_ {i, j = 1} ^ {n} \int_ {i} \quad \bar {z} _ {i} \bar {f} _ {i} (x) z _ {j} f _ {j} (x) g (x) d x - \int_ {i} ^ {\infty} \left| \sum_ {i = 1} ^ {n} z _ {i} f _ {i} (x) \right| ^ {2} g (x) d x.

因此,如果 g(x)g(x) 是非负函数,则这个二次型就是非负的。

非负函数的代数矩

f(x)f(x) 是单位区间 [0,1][0, 1] 上的绝对可积实值函数,并且考虑数

ak01xkf(x)dr.(7.0.2)a _ {k} \equiv \int_ {0} ^ {1} x ^ {k} f (x) d r. \tag {7.0.2}

序列 a0,a1,a2,a_0, a_1, a_2, \cdots 称为Hausdorff矩序列,且它自然与实二次型

j,k=0naj+kzjzk=j,k=0n01xjkzjzkf(x)dx=01(k=0nzkxk)2f(x)dx(7.0.3)\sum_ {j, k = 0} ^ {n} a _ {j + k} z _ {j} z _ {k} = \sum_ {j, k = 0} ^ {n} \int_ {0} ^ {1} x ^ {j - k} z _ {j} z _ {k} f (x) d x = \int_ {0} ^ {1} \left(\sum_ {k = 0} ^ {n} z _ {k} x ^ {k}\right) ^ {2} f (x) d x \tag {7.0.3}

有联系。如果令 A[aij]A \equiv [a_{i - j}] ,则 AA 就是实对称矩阵,又如果对所有 x[0,1]x \in [0,1]f(x)0f(x) \geqslant 0 ,则对所有 ZRn+1Z \in \mathbb{R}^{n + 1} ,将有 zTAz0z^T A z \geqslant 0 。这对每个 n=1,2,n = 1,2,\dots 都成立,不论其二次型是否非负,具有 AA 的结构的矩阵(即元素 ana_{n} 只是 i+ji + j 的函数)称为 Hankel 矩阵。见(0.9.8)节。

非负函数的三角矩

(θ)(\theta)[0,2π][0, 2\pi] 上的绝对可积实值函数,并且考虑数

ak02πeikθf(θ)dθ.k=±1,±2,.(7.0.4)a _ {k} \equiv \int_ {0} ^ {2 \pi} e ^ {i k \theta} f (\theta) d \theta . \quad k = \pm 1, \pm 2, \dots . \tag {7.0.4}

[393] 序列 a0,a1,a1,a2,a2,a_{0}, a_{1}, a_{-1}, a_{2}, a_{-2}, \cdots 称为 Toeplitz 矩序列,并且它自然与二次型

j,k=1najkzjzk=j,kn02πe(jk)θzjzkf(θ)dθ=02πk=0nzkeλkθ2f(θ)dθ(7.0.5)\sum_ {j, k = 1} ^ {n} a _ {j - k} z _ {j} z _ {k} = \sum_ {j, k} ^ {n} \int_ {0} ^ {2 \pi} e ^ {(j - k) \theta} z _ {j} z _ {k} f (\theta) d \theta = \int_ {0} ^ {2 \pi} \left| \sum_ {k = 0} ^ {n} z _ {k} e ^ {\lambda k \theta} \right| ^ {2} f (\theta) d \theta \tag {7.0.5}

有联系,如果令 A=[aij]A = [a_{i - j}] ,则 AA 就是Hermite矩阵,又如果对所有 θ[0,2π]\theta \in [0,2\pi ]f(θ)0f(\theta)\geqslant 0 则对所有 zCn+1z\in \mathbf{C}^{n + 1} 将有 zAz0z^{\prime}Az\geqslant 0 ,这对每个 n=1n = 1 ,2,…都成立.不论其二次型是否非负,实有 AA 的结构的矩阵(即元素 aija_{ij} 只是 iji - j 的函数)称为Teoplitz矩阵.见(0.9.7)节.事具上,对公式(7.0.4)稍加修改(其中,非负测度 dμd_{\mu} 代替 f(θ)dθ)f(\theta)\mathrm{d}\theta) ,则二次型(7.0.5)是非负的,当且仅当 aka_{k} 由修改后的公式得出(Bochner定理).

关于微分方程的数值解的离散化和差分法

假定我们有形如

y(x)+σ(x)y(x)=f(r),0r1,- y ^ {\prime \prime} (x) + \sigma (x) y (x) = f (r), \quad 0 \leqslant r \leqslant 1,
y(0)=a,y (0) = a,
y(1)=βy (1) = \beta

的两点边值问题,其中, α\alphaβ\beta 是给定的实常数, f(x)f(x)σ(x)\sigma(x) 是给定的实值函数。如果我们把这个问题离散化,且只求 y(kh)=yky(kh) = y_k 的值, k=0,1,,n+1k = 0, 1, \dots, n + 1 ,又如果利用均差逼近导数项

y(x)y((k+1)h)2y(kh)+y((k1)h)h3=yk+12yk+yk1h3,y ^ {\prime \prime} (x) \cong \frac {y ((k + 1) h) - 2 y (k h) + y ((k - 1) h)}{h ^ {3}} = \frac {y _ {k + 1} - 2 y _ {k} + y _ {k - 1}}{h ^ {3}},

那么,就得到线性方程组

yk1+2ykyk1h2+σkykfi,k=1,2,,n,y0α,yn1=β.\begin{array}{l} \frac {- y _ {k - 1} + 2 y _ {k} - y _ {k - 1}}{h ^ {2}} + \sigma_ {k} y _ {k} - f _ {i}, \quad k = 1, 2, \dots , n, \\ y _ {0} - \alpha , \\ y _ {n - 1} = \beta . \\ \end{array}

这里,对于正整数 nn ,可以取 h=1/(n+1)h = 1 / (n + 1)yk=y(kh)y_{k} = y(kh)σk=σ(kh)\sigma_{k} = \sigma (kh)fkf(kh)f_{k} - f(kh) ,可以把边值问题编入第一个 (k=1)(k = 1) 方程和最后一个 (k=n)(k = n) 方程而给出方程组

(2+h2σ1)y1y2=h2f1+α,yk1+(2+h2σl)ykyl1=h2fk,k=2,3,,n1,yn1+(2+h2σn)yn=h2fn+β,\begin{array}{l} \left(2 + h ^ {2} \sigma_ {1}\right) y _ {1} - y _ {2} = h ^ {2} f _ {1} + \alpha , \\ - y _ {k - 1} + \left(2 + h ^ {2} \sigma_ {l}\right) y _ {k} - y _ {l - 1} = h ^ {2} f _ {k}, \quad k = 2, 3, \dots , n - 1, \\ - y _ {n - 1} + \left(2 + h ^ {2} \sigma_ {n}\right) y _ {n} = h ^ {2} f _ {n} + \beta , \\ \end{array}

还可以更紧凑地把它写成 Ay=wAy = w ,其中 y=[yk]Rny = [y_k] \in \mathbb{R}^nw=[h2f1+α,h2f2,,h2fn]w = [h^2 f_1 + \alpha, h^2 f_2, \dots, h^2 f_n]h2fn+β]τRnh^2 f_n + \beta]^\tau \in \mathbb{R}^n ,且 ΛMn\Lambda \in M_n 是一对角矩阵

A=[2+h2σ1112+h2σ210012+h2σn1112+h2σn].(7.0.6)A = \left[ \begin{array}{c c c c c c} 2 + h ^ {2} \sigma_ {1} & - 1 & & & & \\ - 1 & 2 + h ^ {2} \sigma_ {2} & - 1 & & 0 \\ & \ddots & \ddots & \ddots & \ddots & \\ 0 & 1 & 2 + h ^ {2} \sigma_ {n - 1} & & - 1 \\ & & - 1 & & 2 + h ^ {2} \sigma_ {n} \end{array} \right]. \tag {7.0.6}

应该指出,不论 σ(x)\sigma(x) 为何值, AA 都是实对称三对角矩阵,但是,如果希望 Ay=wAy = w 对右边任意给定的值都是可解的,那么必须对 σ(x)\sigma(x) 作某些限制以保证 AA 是非奇异矩阵。

容易算出相应于 Λ\Lambda 的实二次型:

xTAx[x12+i=1n1(xixi+1)2+xn2]+h2i=1nσixi2.x ^ {T} A x - \left[ x _ {1} ^ {2} + \sum_ {i = 1} ^ {n - 1} \left(x _ {i} - x _ {i + 1}\right) ^ {2} + x _ {n} ^ {2} \right] + h ^ {2} \sum_ {i = 1} ^ {n} \sigma_ {i} x _ {i} ^ {2}.

等式右边中的括号内各项之和是非负的,且只有当 xx 的各分量都相等,又都等于零时它才可能为零.如果 σ(x)0\sigma(x) \geq 0 ,则后一个和式是非负的,且

xAx[x12+t=1n1(xtxt1)2+xn2]0.(7.0.7)x ^ {\prime} A x \geqslant \left[ x _ {1} ^ {2} + \sum_ {t = 1} ^ {n - 1} \left(x _ {t} - x _ {t - 1}\right) ^ {2} + x _ {n} ^ {2} \right] \geqslant 0. \tag {7.0.7}

如果 AA 是奇异矩阵,则存在某个非零向量 x^Rn\hat{x} \in \mathbb{R}^n 使得 Ax^=0A\hat{x} = 0 ,因而 x^TAx^=0\hat{x}^T A\hat{x} = 0 。另一方面,(7.0.7) 中括号内各项之和必定为零,由此推出 x^0\hat{x} - 0 。因此,如果 σ(x)0\sigma(x) \geqslant 0 ,则矩阵 AA 非奇异,且离散的边值问题对任意边界条件 α\alphaβ\beta 都是可解的。

这是在研究常微分方程或偏微分方程的数值解时的典型情形。为了计算上的稳定性,最好

是设计一种方法能把微分方程问题离散化,使得在所得到的线性方程组 Ay=wAy = wAA 是正定矩阵,而当微分方程是椭圆型时,通常可以做到这一点.

在上述这些例子中所列举的矩阵具有特殊的正性,这正是本章要研究的对象。这些矩阵出现在许多应用中:调和分析中,复分析中,力学体系的振动理论中,以及矩阵理论的其他领域(例如奇异值分解和线性最小二乘方问题的解)中。

习题

  1. 如果序列 aka_{k} 是由非负函数 ff 通过公式(7.0.2)产生的,证明

i,j=1nai+1+1zizji,j=1n{ai+jai+j1}zizj,z=[z1]Rn\sum_ {i, j = 1} ^ {n} a _ {i + 1 + 1} z _ {i} z _ {j} \quad \text {和} \quad \sum_ {i, j = 1} ^ {n} \{a _ {i + j} - a _ {i + j - 1} \} z _ {i} z _ {j}, \quad z = [ z _ {1} ] \in \mathbf {R} ^ {n}

都是非负的.

  1. 用示意图说明 Hankel 矩阵中哪些对角线取常值。对 Toeplitz 矩阵作同样的说明。

  2. 证明,(7.0.6)中的矩阵 AA 总是不可约的,又如果 σ(x)0\sigma(x) \geqslant 0 ,则它是不可约对角占优矩阵。试用推论(6.2.27)证明, AA 是非奇异矩阵,且 AA 的所有特征值是正数。

进一步阅读 关于实正定矩阵的一个简短的综述可参看 C. R. Johnson, “Positive Definite Matrices,” Amer. Math. Monthly 77(1970), 259-264. 关于一般正定矩阵的其他综述以及有关这方面的大批参考资料可参看 O. Taussky, “Positive Definite Matrices,” pp. 309-319 of Inequalities, ed. O. Shisha, Academic Press, New York, 1967; 以及 O. Taussky, “Positive Definite Matrices and Their Role in the Study of the Characteristic Roots of General Matrices,” Advan. Math. 2(1968), 175-186.

7.0_导引 - 矩阵分析 | OpenTech