1.4_矩阵标准型

1.4 矩阵标准型

1.4.1 Jordan标准型

在计算矩阵的特征值时, 一个基本的思想是通过相似变换, 将其转化成一个形式尽可能简单的矩阵, 使得其特征值更易于计算. Jordan 标准型则是矩阵在相似变化下的最简形式.

定理 1.44 设 ACn×nA \in \mathbb{C}^{n \times n} (或 Rn×n\mathbb{R}^{n \times n} ) 有 pp 个互不相同的特征值, 则存在非奇异矩阵 XCn×nX \in \mathbb{C}^{n \times n} , 使得

X1AX=[J1J2Jp]J,(1.8)X ^ {- 1} A X = \left[ \begin{array}{c c c c} J _ {1} & & & \\ & J _ {2} & & \\ & & \ddots & \\ & & & J _ {p} \end{array} \right] \triangleq J, \tag {1.8}

其中 JiJ_{i} 的维数等于 λi\lambda_{i} 的代数重数,且具有下面的结构

Ji=[Ji(1)Ji(2)Ji(νi)],Ji(k)=[λi1λi1λi].J _ {i} = \left[ \begin{array}{c c c c} J _ {i} ^ {(1)} & & & \\ & J _ {i} ^ {(2)} & & \\ & & \ddots & \\ & & & J _ {i} ^ {(\nu_ {i})} \end{array} \right], \quad J _ {i} ^ {(k)} = \left[ \begin{array}{c c c c} \lambda_ {i} & 1 & & \\ & \ddots & \ddots & \\ & & \lambda_ {i} & 1 \\ & & & \lambda_ {i} \end{array} \right].

这里的 νi\nu_{i}λi\lambda_{i} 的几何重数, Ji(k)J_{i}^{(k)} 称为 (对应于 λi\lambda_{i} 的) Jordan 块, JJ 就称为 AA 的 Jordan 标准型.

该定理可以通过 λ\lambda -矩阵来证明(见高等代数教材),也可以通过后面的Schur分解来证明.
除了 Jordan 块的排列次序外, Jordan 标准型是唯一确定的.
可以证明, 对于每一个 Jordan 块 Ji(k)J_{i}^{(k)} , 都存在一个列满秩矩阵 Xi(k)X_{i}^{(k)} 使得

AXi(k)=Xi(k)Ji(k).A X _ {i} ^ {(k)} = X _ {i} ^ {(k)} J _ {i} ^ {(k)}.

Jordan 标准型的基本性质

  • Jordan 块的个数等于 AA 的线性无关的特征向量的个数;

  • AA 可对角化的充要条件是每个 Jordan 块都是 1×11 \times 1 的, 此时 XX 的列向量就是 AA 的特征向量.

根据 Jordan 标准型和特征值的连续性, 我们可以得到下面的结论.

推论1.45所有可对角化矩阵组成的集合在所有矩阵组成的集合中是稠密的,即任何一个矩阵都可以通过可对角化矩阵来逼近.

Jordan 标准型的一个重要应用是可以用来计算矩阵的最小多项式.

定理1.46 设 λ1,λ2,,λp\lambda_1, \lambda_2, \ldots, \lambda_pACn×nA \in \mathbb{C}^{n \times n} 的互不相等的特征值, 则 AA 的最小多项式为

p(λ)=i=1q(λλi)ri,p (\lambda) = \prod_ {i = 1} ^ {q} \left(\lambda - \lambda_ {i}\right) ^ {r _ {i}},

其中 rir_i 是与 λi\lambda_{i} 所对应的最大Jordan块的维数

1.4.2 Schur分解

Jordan标准型在理论研究中非常有用,但数值计算比较困难.下面我们介绍一个比较实用的矩阵分解,即Schur分解

定理1.47 设 ACn×nA \in \mathbb{C}^{n \times n} (或 Rn×n\mathbb{R}^{n \times n} ), 则存在酉矩阵 UCn×nU \in \mathbb{C}^{n \times n} 使得

UAU=[λ1r12r1n0λ2r2n00λn]RA=URU,(1.9)U ^ {*} A U = \left[ \begin{array}{c c c c} {\lambda_ {1}} & {r _ {1 2}} & {\dots} & {r _ {1 n}} \\ {0} & {\lambda_ {2}} & {\dots} & {r _ {2 n}} \\ {\vdots} & & {\ddots} & {\vdots} \\ {0} & {\dots} & {0} & {\lambda_ {n}} \end{array} \right] \triangleq R \quad \text {或} \quad A = U R U ^ {*}, \tag {1.9}

其中 λ1,λ2,,λn\lambda_1, \lambda_2, \ldots, \lambda_nAA 的特征值 (可以按任意顺序排列).

(板书)

证明. 我们对 nn 使用归纳法

n=1n = 1 时,结论显然成立

假设结论对阶数为 n1n - 1 的矩阵都成立. 考虑 nn 阶矩阵 ACn×nA \in \mathbb{C}^{n \times n} . 设 λ\lambdaAA 的一个特征值, 其对应的单位特征向量为 xCnx \in \mathbb{C}^n . 构造一个以 xx 为第一列的酉矩阵 X=[x,X~]X = [x, \tilde{X}] . 于是

XAX=[xX~]A[x,X~]=[xAxxAX~X~AxX~AX~].X ^ {*} A X = \left[ \begin{array}{c} x ^ {*} \\ \tilde {X} ^ {*} \end{array} \right] A \left[ x, \tilde {X} \right] = \left[ \begin{array}{c c} x ^ {*} A x & x ^ {*} A \tilde {X} \\ \tilde {X} ^ {*} A x & \tilde {X} ^ {*} A \tilde {X} \end{array} \right].

因为 xAx=λxx=λx^{*}Ax = \lambda x^{*}x = \lambda ,且 X~Ax=X~(λx)=λX~x=0,\tilde{X}^* Ax = \tilde{X}^* (\lambda x) = \lambda \tilde{X}^* x = 0,

XAX=[λxAX~0X~AX~][λA~120A~22],X ^ {*} A X = \left[ \begin{array}{c c} \lambda & x ^ {*} A \tilde {X} \\ 0 & \tilde {X} ^ {*} A \tilde {X} \end{array} \right] \triangleq \left[ \begin{array}{c c} \lambda & \tilde {A} _ {1 2} \\ 0 & \tilde {A} _ {2 2} \end{array} \right],

其中 A~22C(n1)×(n1)\tilde{A}_{22} \in \mathbb{C}^{(n-1) \times (n-1)} . 根据归纳假设, 存在酉矩阵 U~C(n1)×(n1)\tilde{U} \in \mathbb{C}^{(n-1) \times (n-1)} , 使得 U~A22U~=R~C(n1)×(n1)\tilde{U}^* A_{22} \tilde{U} = \tilde{R} \in \mathbb{C}^{(n-1) \times (n-1)} 是一个上三角矩阵. 令

U=X[100U~],U = X \left[ \begin{array}{c c} 1 & 0 \\ 0 & \tilde {U} \end{array} \right],

则有

UAU=[100U~]XAX[100U~]=[100U~][λA~120A~22][100U~]=[λA~12U~0U~A~22U~]=[λA~12U~0R~]R.\begin{array}{l} U ^ {*} A U = \left[ \begin{array}{c c} 1 & 0 \\ 0 & \tilde {U} ^ {*} \end{array} \right] X ^ {*} A X \left[ \begin{array}{c c} 1 & 0 \\ 0 & \tilde {U} \end{array} \right] \\ = \left[ \begin{array}{c c} 1 & 0 \\ 0 & \tilde {U} ^ {*} \end{array} \right] \left[ \begin{array}{c c} \lambda & \tilde {A} _ {1 2} \\ 0 & \tilde {A} _ {2 2} \end{array} \right] \left[ \begin{array}{c c} 1 & 0 \\ 0 & \tilde {U} \end{array} \right] = \left[ \begin{array}{c c} \lambda & \tilde {A} _ {1 2} \tilde {U} \\ 0 & \tilde {U} ^ {*} \tilde {A} _ {2 2} \tilde {U} \end{array} \right] = \left[ \begin{array}{c c} \lambda & \tilde {A} _ {1 2} \tilde {U} \\ 0 & \tilde {R} \end{array} \right] \triangleq R. \\ \end{array}

由于 R~\tilde{R} 是上三角矩阵, 故 RR 也是一个上三角矩阵, 其对角线元素即为 AA 的特征值.

由归纳法可知, 定理结论成立.

关于Schur分解的几点说明

  • 该结论告诉我们, 任意一个矩阵都可以酉三角化.

  • 三角矩阵可以说是一般矩阵在酉相似变化下的最简形式.

  • 定理中的 UURR 不是唯一的.

  • RR 的对角线元素可以按任意顺序排列, 特别地, 可以按模从大到小排列.

推论1.48 设 ACn×nA \in \mathbb{C}^{n \times n} , 则

(1) AA 是正规矩阵当且仅当 RR 是对角矩阵, 即 AA 可酉对角化当且仅当 AA 是正规矩阵;
(2) AA 是Hermite矩阵当且仅当 RR 是实对角矩阵

众所周知, 当 AA 是实矩阵时, 其特征值和特征向量仍可能是复的. 在计算实矩阵的特征值时, 通常希望尽可能地避免复数运算. 这时, 我们就需要用到下面的实 Schur 分解 (或拟 Schur 分解).

定理1.49 设 ARn×nA \in \mathbb{R}^{n \times n} , 则存在正交矩阵 QRn×nQ \in \mathbb{R}^{n \times n} , 使得

QTAQ=T,(1.10)Q ^ {\mathsf {T}} A Q = T, \tag {1.10}

其中 TRn×nT \in \mathbb{R}^{n \times n} 是拟上三角矩阵, 即 TT 是块上三角的, 且对角块为 1×11 \times 12×22 \times 2 的块矩阵. 若对角块是 1×11 \times 1 的, 则其就是 AA 的一个特征值, 若对角块是 2×22 \times 2 的, 则其特征值是 AA 的一对共轭复特征值. (板书)

证明. 同样对 nn 使用数学归纳法

n=1n = 1 时,结论显然成立

假定结论对所有不超过 n1n - 1 阶的矩阵都成立. 考虑 nn 阶实矩阵 AA . 设 λ\lambdaAA 的一个特征值. 若 λ\lambda 是实的, 则存在一个对应的实特征向量, 后面的证明与定理 1.47 的证明类似.

λ\lambda 是复数 (虚部不为 0), 设其对应的单位复特征向量为 uu . 由于

λˉuˉ=λu=Auˉ=Aˉuˉ=Auˉ,\bar {\lambda} \bar {u} = \overline {{\lambda u}} = \bar {A u} = \bar {A} \bar {u} = A \bar {u},

(λˉ,uˉ)(\bar{\lambda},\bar{u}) 也是 AA 的一个特征对,且 uuuˉ\bar{u} 线性无关.令

u~=12(u+uˉ),v~=12i(uuˉ),\tilde {u} = \frac {1}{2} (u + \bar {u}), \qquad \tilde {v} = \frac {1}{2 \mathbf {i}} (u - \bar {u}),

u~,v~\tilde{u},\tilde{v} 分别为 uu 的实部与虚部,于是 u~Rn,v~Rn\tilde{u}\in \mathbb{R}^n,\tilde{v}\in \mathbb{R}^n .由定理1.22可知, span{u~,v~}=span{u,uˉ}\operatorname {span}\{\tilde{u},\tilde{v}\} = \operatorname {span}\{u,\bar{u}\}AA 的一个不变子空间.将 {u~,v~}\{\tilde{u},\tilde{v}\} 进行正交化(利用Gram-Schmidt正交化过程):可得列正交矩阵 Q~Rn×2\tilde{Q}\in \mathbb{R}^{n\times 2} 和非奇异上三角矩阵 R~R2×2\tilde{R}\in \mathbb{R}^{2\times 2} ,使得 [u~,v~]=Q~R~[\tilde{u},\tilde{v}] = \tilde{Q}\tilde{R} .于是 span{Q~}=span{u~,v~}\operatorname {span}\{\tilde{Q}\} = \operatorname {span}\{\tilde{u},\tilde{v}\} 也是 AA 的不变子空间.

根据定理1.23,存在矩阵 BR2×2B\in \mathbb{R}^{2\times 2} 使得 AQ~=Q~BA\tilde{Q} = \tilde{Q} BQ~\tilde{Q} 扩充成一个正交矩阵,即构造矩阵 Q^Rn×(n2)\hat{Q}\in \mathbb{R}^{n\times (n - 2)} ,使得 [Q~,Q^]\left[\tilde{Q},\hat{Q}\right] 是正交矩阵.于是有

[Q~,Q^]TA[Q~,Q^]=[Q~TAQ~Q~TAQ^Q^TAQ~Q^TAQ^]=[BQ~TAQ^0Q^TAQ^],\left[ \tilde {Q}, \hat {Q} \right] ^ {\mathsf {T}} A \left[ \tilde {Q}, \hat {Q} \right] = \left[ \begin{array}{c c} \tilde {Q} ^ {\mathsf {T}} A \tilde {Q} & \tilde {Q} ^ {\mathsf {T}} A \hat {Q} \\ \hat {Q} ^ {\mathsf {T}} A \tilde {Q} & \hat {Q} ^ {\mathsf {T}} A \hat {Q} \end{array} \right] = \left[ \begin{array}{c c} B & \tilde {Q} ^ {\mathsf {T}} A \hat {Q} \\ 0 & \hat {Q} ^ {\mathsf {T}} A \hat {Q} \end{array} \right],

其中 Q^TAQ^R(n2)×(n2)\hat{Q}^{\mathsf{T}}A\hat{Q}\in \mathbb{R}^{(n - 2)\times (n - 2)}Q^TAQ^\hat{Q}^{\mathrm{T}}A\hat{Q} 使用归纳假设, 即可证明定理结论成立.