9._矩阵相似的几何意义 - 线性代数

矩阵相似的几何意义

相似矩阵的定义是:如果有可逆方阵 $\boldsymbol{P}$ , 使得方阵 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 满足 $\boldsymbol{A}=\boldsymbol{P B } \boldsymbol{P}^{-1}$ , 那么矩阵 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 被互称为相似矩阵。多么简洁、深刻的定义啊。深刻得让人看了 $n$ 遍都不明白怎么俩矩阵就相似了? 哪里相似了。矩阵相似通俗理解就是给一头小猪拍的不同角度的照片。

什么是相似矩阵

前面讲过, 线性变换用矩阵表示是与空间的一组基相联系的。一般情况下, 一个线性变换就是一个描述, 比如平面旋转 $\pi / 4$ 弧度的变换, 比如四维空间对于一个平面镜像的变换等。那么要把这些线性变换转化为矩阵, 就要根据情况选择某一个坐标系及其单位等。选择坐标系及其单位就是确定某一个基。所以一个线性变换在不同的基下的表示矩阵是不相同的, 下面的定义及定理揭示了同一个线性变换在不同基下的矩阵之间的相互关系。

相似方阵 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 满足 $\boldsymbol{A}=\boldsymbol{P} \boldsymbol{B} \boldsymbol{P}^{-1}$ , 那么矩阵 $\boldsymbol{A}$ 变换到矩阵 $\boldsymbol{B}$ 的过程, 被称为矩阵的相似变换。

实际上，相似矩阵 $A$ 和 $B$ 是同一个线性变换（在同一线性空间中 ) 在两个不同基下的表示矩阵, 而可逆矩阵 $P$ 就是基变换矩阵。

同一个线性变换在不同基下的矩阵是相似矩阵; 反之, 两个矩阵 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 如果是相似矩阵,并且 $\boldsymbol{A}$ 是一个线性变换在一个基下的矩阵, 那么矩阵 $\boldsymbol{B}$ 必然是这个线性变换在另一个基下的矩阵。

呵呵, 前面的定义、定理绕来绕去的, 其实核心一可话就是:

相似矩阵 $A$ 和 $B$ 是同一个线性变换在两个不同基下的表示矩阵。

这也是相似矩阵的几何意义。

通俗解释 打个比方说, 就像两个观众看一场演出, 台上演员的某一演出动作就是一个变换, 是实实在在的、唯物主义的不以谁看为转移的一个变换。但是两个观众张三和李四的位置不一样, 从不同角度观看, 这就是取的坐标不同, 基不同了。显然, 基不同, 看到的演员的动作也不同了。扮演猴子的演员在舞台中间从左往右翻跟头, 假设演员功夫好, 翻的是标准的圆周运动。左前方的张三看起来猴子的 “跟头” 变换是顺时针椭圆周运动, 此运动表示为矩阵 $A$ ; 在后方一角落的李四 (李四是剧团工作人员, 在帷幕后面闲看) 看起来猴子的 “跟头” 变换是逆时针椭圆周运动, 此运动表示为矩阵 $\boldsymbol{B}$ 。两个人看到的运动应是差不多的, 很相似, 因此 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 称为相似矩阵 (注意: 不止这两人, 所有的观众看到的运动都是相似矩阵)。

还有第三个人王二麻子很明智, 知道两个人看的运动有些走样了。就到观众席的正中央正襟危坐观看, 呵! 标准的圆周运动。王二麻子告诉我们: 在一大堆相似矩阵中, 正面的矩阵看起来不走样, 最爽 (矩阵有用啊, 证明了为何前排中间的位置票价最贵啊)。

什么是基呢? 这里只要把基看成是线性空间里的坐标系就可以了。注意是坐标系, 不是坐标值, 这两者可是一个 “对立矛盾统一体”。这样一来, “选定一组基”就是说在线性空间里选定一个坐标系。就这意思。好, 最后我们把矩阵的定义完善如下:

“矩阵是线性空间中的线性变换的一个描述。在一个线性空间中, 只要我们选定一组基, 那么对于任何一个线性变换, 都能够用一个确定的矩阵来加以描述。”

理解这句话的关键在于把 “线性变换”与 “线性变换的一个描述” 区别开。一个是那个对象, 一个是对那个对象的表述。就好像我们熟悉的面向对象编程中, 一个对象可以有多个引用, 每个引用可以叫不同的名字, 但都是指的同一个对象。如果还不形象, 那就干脆来个很通俗的类比。

比如有一头宠物小萌猪, 你打算给它拍照片, 只要你给照相机选定一个镜头位置, 那么就可以给这头猪拍一张照片。这个照片可以看成是这头猪的一个描述, 但只是一个片面的描述, 因为换一个镜头位置给这头猪拍照, 能得到一张不同的照片, 也是这头猪的另一个片面的描述。所有这样照出来的照片都是这同一头猪的描述，但是又都不是这头猪本身。同样地, 对于一个线性变换, 只要你选定一组基, 那么就可以找到一个矩阵来描述这个线性变换。换一组基, 就得到一个不同的矩阵。所有这些矩阵都是这同一个线性变换的描述, 但又都不是线性变换本身。

但是这样的话, 问题就来了: 如果你给我两张猪的照片, 我怎么知道这两张照片上的是同一头猪呢? 同样地, 你给我两个矩阵, 我怎么知道这两个矩阵描述的是同一个线性变换呢? 如果是同一个线性变换的不同的矩阵描述, 那就是本家兄弟了, 见面不认识, 岂不成了笑话。

好在, 我们可以找到同一个线性变换的矩阵兄弟们的一个性质, 那就是: 若矩阵 $\boldsymbol{A}$ 与 $\boldsymbol{B}$ 是同一个线性变换的两个不同的描述 (之所以会不同, 是因为选定了不同的基, 也就是选定了不同的坐标系), 则一定能找到一个非奇异矩阵 $\boldsymbol{P}$ , 使得 $\boldsymbol{A} 、 \boldsymbol{B}$ 之间满足这样的关系:

\boldsymbol{A}=\boldsymbol{P} \boldsymbol{B} \boldsymbol{P}^{-1}

对线性代数稍微熟悉一点的读者一下就看出来, 这就是相似矩阵的定义。没错, 所谓相似矩阵, 就是同一个线性变换的不同的描述矩阵。按照这个定义, 同一头猪的不同角度的照片也可以成为相似照片。俗了一点, 不过能让人明白。

而在上面式子里那个矩阵 $\boldsymbol{P}$ , 其实就是矩阵 $\boldsymbol{A}$ 所基于的基与矩阵 $\boldsymbol{B}$ 所基于的基这两组基之间的一个变换关系。关于这个结论, 可以用一种非常直觉的方法来证明。这个发现太重要了。原来一族相似矩阵都是同一个线性变换的描述啊! 难怪这么重要! 工科研究生课程中有矩阵论、矩阵分析等, 其中讲了各种各样的相似变换, 比如什么相似标准型, 对角化之类的内容, 都要求变换以后得到的矩阵与先前的那个矩阵式相似, 为什么这么要求? 因为只有这样要求, 才能保证变换前后的两个矩阵是描述同一个线性变换的。 当然, 同一个线性变换的不同矩阵描述, 从实际运算性质来看并不是不分好坏的。有些描述矩阵就比其他的矩阵性质好得多。这很容易理解, 同一头猪的照片也有美丑之分嘛。所以矩阵的相似变换可以把一个比较丑的矩阵变成一个比较美的矩阵, 而保证这两个矩阵都是描述了同一个线性变换。这样一来, 矩阵作为线性变换描述的一面, 基本上说清楚了。下面通过一个例题进行解释。

例题

例设有一线性变换: 如图 5-49所示, 它将任意向量 $\left(\begin{array}{l}x \\ y\end{array}\right)$ 映射为关于 $45^{\circ}$ 直线的镜像 $\left(\begin{array}{l}y \\ x\end{array}\right)$ 。

$图片$ {width=500px}

解：取直角坐标系, 其标准正交基 $\boldsymbol{e}_1=\left(\begin{array}{l}1 \\ 0\end{array}\right)$ 和 $\boldsymbol{e}_2=\left(\begin{array}{l}0 \\ 1\end{array}\right)$ , 根据线性变换的矩阵定理, 则相应的线性变换矩阵 $A$ 容易求出。因为 $A$ 将 $e_1$ 映射为 $e_2$ , 将 $e_2$ 映射为 $e_1$ , 所以这个镜像映射在基 $e_1$ 和 $e_2$ 下的坐标表达式为

\left(\begin{array}{l} y \\ x \end{array}\right)=\left[\begin{array}{ll} 0 & 1 \\ 1 & 0 \end{array}\right]\left(\begin{array}{l} x \\ y \end{array}\right)

其中把变换矩阵记为 $[\boldsymbol{A}]_e=\left[\begin{array}{ll}0 & 1 \\ 1 & 0\end{array}\right]$ , 表示矩阵 $\boldsymbol{A}$ 是以 $\boldsymbol{e}_i$ 为基的。下面我们再找一个新的基底 (见图 5-50), 使得新的基向量之一 $\boldsymbol{e}_1{ }^{\prime}$ 沿着 $45^{\circ}$ 直线, 即 $\boldsymbol{e}_1{ }^{\prime}=\left(\begin{array}{l}1 \\ 1\end{array}\right)$ ,而另一个基向量与之垂直, 即 $\boldsymbol{e}_2{ }^{\prime}=\left(\begin{array}{c}-1 \\ 1\end{array}\right)$ 。则新基与旧基的转换关系为

\left\{\begin{array}{l} \boldsymbol{e}_1^{\prime}=\boldsymbol{e}_1+\boldsymbol{e}_2 \\ \boldsymbol{e}_2^{\prime}=-\boldsymbol{e}_1+\boldsymbol{e}_2 \end{array}\right.

将其改写为

\left(e_1^{\prime}, e_2^{\prime}\right)=\left(e_1, e_2\right)\left[\begin{array}{cc} 1 & -1 \\ 1 & 1 \end{array}\right]

其中把基变换矩阵记为 $\boldsymbol{P}=\left[\begin{array}{cc}1 & -1 \\ 1 & 1\end{array}\right]$ 。

$图片$ {width=500px}

在这组新基上, 这个镜像运动的线性变换 $A$ 事实上被简化了。因为新基向量 $e_1{ }^{\prime}$ 在 $45^{\circ}$ 直线上,它是它本身的镜像, 即 $A e_1{ }^{\prime}=e_1{ }^{\prime}$ 。另一个新基向量 $\boldsymbol{e}_2{ }^{\prime}$ 正好被翻转过来, 即 $A e_2{ }^{\prime}=-e_2{ }^{\prime}$ 。于是,原矩阵 $\boldsymbol{A}$ 所表示的线性变换在新基 $\boldsymbol{e}_1{ }^{\prime}$ 和 $\boldsymbol{e}_2{ }^{\prime}$ 下的坐标表达式为

\left(\begin{array}{c} x^{\prime} \\ -y^{\prime} \end{array}\right)=\left[\begin{array}{cc} 1 & 0 \\ 0 & -1 \end{array}\right]\left(\begin{array}{l} x^{\prime} \\ y^{\prime} \end{array}\right)

其中把线性变换矩阵记为 $[\boldsymbol{B}]_{e^{\prime}}=\left[\begin{array}{cc}1 & 0 \\ 0 & -1\end{array}\right]$ , 表示矩阵 $\boldsymbol{B}$ 是以 $\boldsymbol{e}_{\boldsymbol{i}}{ }^{\prime}$ 为基的。这个矩阵 $\boldsymbol{B}$ 与单位矩阵很接近, 确实比较简单。好了, 下面把这个例子和前面的内容对对号: (1) 矩阵 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 是一对相似矩阵, 因为哥俩都是表示的同一变换 “关于固定的一直线的镜像映射”。 (2) 矩阵 $\boldsymbol{P}$ 是基变换矩阵, 其作用就是过河的小桥, 把一个旧基换成另一个新基, 乘以 $\boldsymbol{P}$ ;回去的小桥是乘以 $\boldsymbol{P}^{-1}$ 。 (3) 矩阵 $\boldsymbol{P}$ 的每个列都是由 $\boldsymbol{A}$ 的特征向量组成的，特征向量用旧基上的坐标表示。 (4) 矩阵 $\boldsymbol{B}$ 是简单的对角阵, 对角上的元素就是特征值, 从左上到右下排列的特征值分别对应着 $\boldsymbol{P}$ 矩阵的从左到右排列的特征向量。 (5) $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 俩矩阵既然表示同样的线性变换, 因此特征值也是同样的, 它和基没关系。

矩阵相似的几何意义

进一步细究啊, 因为线性变换是一个运动, 描述的是一个投射的瞬态过程。因此这头猪应该是一头身手矫健的猪猪侠, 在打一个降龙十巴掌的招数。矩阵呢应该是一个高速摄像机录下的一小段视频。不同位置录下的视频是相似的, 最能直接表现猪猪侠的武功招数的那段视频应该是对角矩阵。

好在前面的讲述算是相似矩阵的物理意义吧。下面咱们回归到两个基下的线性变换的讨论上来。

如图 5-48 所示, 矩阵 $\boldsymbol{A}$ 表示一个线性变换, 把一个向量 $\boldsymbol{x}$ 变换成另一个向量 $\boldsymbol{A x}: \boldsymbol{x} \rightarrow \boldsymbol{A x}$ (这是张三看到的演出动作); 在另外一个基下 (等于换了一个坐标系, 改变了观察角度), 同样的一个变换动作表示成了 $x^{\prime} \rightarrow \boldsymbol{B x}$ (这是李四看到的演出动作)。

从张三的坐标系变换到李四的坐标系, 就要乘以一个 $\boldsymbol{P}$ (图 5-48中给出的是向量 $\boldsymbol{x}$ 的变换,因此乘以 $\boldsymbol{P}^{-1}$ ); 现实地操作就是张三跑到李四的座位上去就可以了。小学肄业的张三不知道,他竟然使用了高等代数的矩阵乘法。

$图片$