深入浅出Jordan标准型（兼博客数学公式渲染测试）

前言

线性代数课上老师讲的 $Jordan$ 标准型晦涩难懂，我在仔细看了席南华和丘维声的课本以后，觉得自己茅塞顿开， $Jordan$ 标准型的产生其实也是十分有逻辑的。于是写下此文，既是让自己来未来需要的时候能快速回忆有关知识点，又可以给后来者一个浅显的指北。

为什么会有Jordan标准型这个概念？

我们知道，对于一个给定的线性变换，它对应的矩阵并不唯一，而是取决于选定的基。这样，很自然的，我们可能会提出这样一个问题——在一个给定的线性变换对应的矩阵里面，最简单的那一个是什么？ $Jordan$ 标准型的提出正是来回答这个问题。

在开始解决这个问题之前，我们先来清晰一下“简单”的定义。“简单”是一个相当模糊的词语，通常没有明确的定义。在这里，我们将“简单”理解为针对不同的计算场景化成的利于计算的形式可以被认为是该情景下的“简单”形式。 $Jordan$ 标准型的提出针对的是方阵的乘方运算，或者说，针对的是方阵的多项式运算。因此这里的“简单形式”指的是这个矩阵应当尽可能被化成（分块）对角形式以便进行乘方运算。因为对于分块对角矩阵，乘方是很容易计算的：

{\left(\begin{matrix}J_1&\ &\ \\\ &\ddots&\ \\\ &\ &J_s\\\end{matrix}\right)_n^k=\left(\begin{matrix}{J_1}^k&\ &\ \\\ &\ddots&\ \\\ &\ &{J_s}^k\\\end{matrix}\right)_n^\ }_\

由上式的规则可知，对于每一个矩阵块，我们一定也希望它的形式能尽量的利于乘方运算。

怎么“创造” $Jordan$ 标准型？

创造 $Jordan$ 标准型的过程就是求解下面问题的过程：

任意给定一个确定的线性变换，如何找到其对应的简单分块对角矩阵？

请牢记这个问题，在下面我将一步一步的解决这个问题。

Step1：转化为不变子空间

（1.1）我们发现，如果对V上的线性变换 $\mathcal{A}$ 能有一个非平凡的 $\mathcal{A}$ -不变子空间 $U$ ，那么将 $U$ 的一组基 $(e_1,\ldots,e_r)$ 扩充成 $V$ 的一组基 $(e_1,\ldots,e_r,e_{r+1},\ldots,e_n)$ 后，在这组基下的矩阵A将是分块上三角矩阵：（证明方法：基在 $\mathcal{A}$ 作用下的线性表达式）

\left(\begin{matrix}A_1&A_0\\\ &A_2\\\end{matrix}\right)

且 $A_1$ 是线性变换 $\mathcal{A}$ 在 $U$ 上的限制。（一下子就把矩阵这么多的位置都变成0了，好耶！）

（1.2）更进一步的，如果 $W=<e_{r+1},\ldots,e_n>$ 也是 $\mathcal{A}$ -不变子空间，那么基 $(e_1,\ldots,e_r,e_{r+1},\ldots,e_n)$ 下的矩阵可以更进一步的化为分块对角矩阵：

\left(\begin{matrix}A_1&\ \\\ &A_2\\\end{matrix}\right)

此时，我们将空间 $V$ 拆分成了两个 $\mathcal{A}$ -不变子空间的直和，即 $V=U\oplus\ W$ ，使得矩阵A成为分块对角矩阵。（分块对角的模样已经开始显现了！）

（1.3）再进一步的，我们归纳发现，如果空间 $V$ 可以被拆分成 $s$ 个 $\mathcal{A}$ -不变子空间的直和

V=U_1\oplus\ldots\oplus\ U_s

那么矩阵 $A$ 可以写成有 $s$ 个块的分块对角矩阵

\left(\begin{matrix}J_1&\ &\ \\\ &\ddots&\ \\\ &\ &J_s\\\end{matrix}\right)_\ ^\

至此，寻找 $A$ 成为分块对角矩阵的任务被转化为寻找将空间 $V$ 拆分成数个 $\mathcal{A}$ -不变子空间的直和的任务。

Step2：转化为多项式

（2.1）对于一个确定的线性变换 $\mathcal{A}$ ，有没有什么办法找到一个非平凡的不变子空间呢？好在我们知道， $ker\mathcal{A}$ 和 $Im\mathcal{A}$ 都是 $\mathcal{A}$ -不变子空间。更进一步的，对于任意一个多项式 $f\left(x\right)\in K[x]$ ， $kerf(A)$ 也是 $\mathcal{A}$ -不变子空间。（证明方法： $\mathcal{A}$ 和 $f(\mathcal{A})$ 可交换）

（2.2）核核分解定理（桥引理）

如果多项式 $F(x)$ 可以被分解成两个互素的多项式 $f\left(x\right)$ 和 $g(x)$ 的乘积，那么核空间 $kerF(\mathcal{A})$ 可以被对应分解为两个不变子核空间 $kerf\left(\mathcal{A}\right)$ 和 $kerg(A)$ 的直和。

即：

F\left(x\right)=f\left(x\right)g\left(x\right)

\Rightarrow kerF\left(\mathcal{A}\right)=kerf\left(\mathcal{A}\right)\oplus kerg(\mathcal{A})

(证明非常重要，且引申了多条重要性质，看课本席P83)

（2.3）分解定理的推广

如果多项式 $F(x)$ 可以被分解成s个互素的多项式 $p_1^{r_1}\left(x\right),\ldots,p_s^{r_s}\left(x\right)$ 的乘积，那么核空间 $kerF(\mathcal{A})$ 可以被对应分解为 $s$ 个不变子核空间 ${kerp}_1^{r_1}\left(\mathcal{A}\right),\ldots,{kerp}_s^{r_s}\left(\mathcal{A}\right)$ 的直和。

即：

F\left(x\right)=p_1^{r_1}\left(x\right)\ldots p_s^{r_s}\left(x\right)

\Rightarrow kerF\left(\mathcal{A}\right)={kerp}_1^{r_1}\left(\mathcal{A}\right)\oplus\ldots\oplus{kerp}_s^{r_s}\left(\mathcal{A}\right)

（2.4）回归题目，我们希望将将空间 $V$ 拆分成数个 $\mathcal{A}$ -不变子空间的直和。

注意到 $\ker{\left(0\right)}=V$ ，由分解定理得知如果我们能找到一个多项式 $F\left(x\right)$ 使得 $F\left(\mathcal{A}\right)=0$ （我们称这样的 $F(x)$ 为 $\mathbf{A}$ 的一个零化多项式），那么空间 $V$ 就可以被表示成核空间的形式 $V=\ker{\left(0\right)}=\ker{\left(F\left(\mathcal{A}\right)\right)}$ 。此时再由分解定理的推广， $F(x)$ 可以被分解成 $s$ 个互素的多项式 $f_1\left(x\right),\ldots,f_s\left(x\right)$ 的乘积，那么核空间 $kerF(\mathcal{A})=V$ 便可以被对应分解为 $s$ 个不变子核空间 ${kerf}_1\left(\mathcal{A}\right),\ldots,{kerf}_s\left(\mathcal{A}\right)$ 的直和。

所以，我们找到了一种将空间 $V$ 拆分成数个 $\mathcal{A}$ -不变子空间的直和的方法。至此，将空间 $V$ 拆分成数个 $\mathcal{A}$ -不变子空间的直和的任务又被转化为找到 $\mathcal{A}$ 的零化多项式并对其进行素因子分解的任务。

Step3： $\mathbf{A}$ 的零化多项式

（3.1） $Cayley-hamilton$ 定理

$\mathcal{A}$ 的特征多项式 $\chi_\mathcal{A}(t)$ 是 $\mathcal{A}$ 的一个零化多项式。

$Cayley-hamilton$ 定理让我们有了一个很好的切入点来寻找 $\mathcal{A}$ 的零化多项式。

（3.2） $\mathbf{A}$ 的最小多项式

很明显， $\mathcal{A}$ 的零化多项式不唯一，因为一个零化多项式乘上任意一个多项式后仍然是零化多项式。因此抱着一种希望多项式尽可能简单的想法，很自然的，我们希望找到所有 $\mathcal{A}$ 的零化多项式中次数最低的那个多项式。又为了能让其具有代表性，我们希望找到所有 $\mathcal{A}$ 的零化多项式中次数最低且首一的那个多项式，我们将其称为 $\mathcal{A}$ 的最小多项式 $\mu_\mathcal{A}(t)$ 。

最小多项式定理告诉我们， $\mathcal{A}$ 的最小多项式 $\mu_\mathcal{A}(t)\in K[t]$ 和 $\mathcal{A}$ 的特征多项式 $\chi_\mathcal{A}(t)\in K[t]$ 在 $K$ 的代数闭包 $\bar{K}$ 中拥有相同的根（不记重数，根的重数可能不同）。因为一个线性变换的特征多项式的相关内容是很好计算的，最小多项式定理为我们找到最小多项式提供了有力工具。我们通过特征多项式找到 $\mathcal{A}$ 的特征值，然后就可以以此找到 $\mathcal{A}$ 的最小多项式 $\mu_\mathcal{A}(t)$ 。

（3.2）在跑题的边缘将注意力拉回题目，为了完成题目的任务，我们现在已经有了最简单的零化多项式 $\mu_\mathcal{A}(t)$ 了，我们还需要写出对应的矩阵。对于找到的直和分解

V=ker\mu_\mathcal{A}(\mathcal{A})

={kerp}_1^{r_1}\left(\mathcal{A}\right)\oplus\ldots\oplus{kerp}_s^{r_s}\left(\mathcal{A}\right)

我们需要找到与之对应的分块对角矩阵

\left(\begin{matrix}J_1&\ &\ \\\ &\ddots&\ \\\ &\ &J_s\\\end{matrix}\right)_\ ^\

此时，根据多项式的分解情况往下产生了两种不同的路子。

a)如果在给定的域中 $\mu_\mathcal{A}(t)$ 能有计入重数的 $m(=deg\mu_\mathcal{A}(t))$ 个根，或者换句话说， $\mu_\mathcal{A}(t)$ 能在给定的域中被分解为一次因子的乘积，即

\mu_\mathcal{A}(t)={(t-\lambda_1)}_\ ^{r_1}\ldots{(t-\lambda_s)}_\ ^{r_s}

\Rightarrow V={ker(\mathcal{A}-\lambda_1I)}_\ ^{r_1}\oplus\ldots\oplus{ker(\mathcal{A}-\lambda_sI)}_\ ^{r_s}

那么进一步将问题归约，我们只要找到 $\mathcal{A}$ 在核空间 $ker(A-\lambda_iI) ri$ 上的限制的矩阵表达形式即可。这种形式找到的简单形式叫做（狭义） $Jordan$ 标准型（也就是目前代数课本上讲的 $Jordan$ 标准型）。

但是，如果给定的域不是代数闭包，上述条件就有很可能不被满足，比如实数域中多项式做素因子分解可能会出现诸如 $x^2+x+1$ 的非一次因子。

b)为了应对上述不满足的情况，我们需要找到限定条件更加宽松的条件，比如只要求将最小多项式分解为互素的多项式即可：

\mu_\mathcal{A}(t)=p_1^{r_1}\left(t\right)\ldots p_s^{r_s}\left(t\right)

V={kerp}_1^{r_1}\left(\mathcal{A}\right)\oplus\ldots\oplus{kerp}_s^{r_s}\left(\mathcal{A}\right)

同样的，我们可以进一步将问题归约，我们只要找到 $\mathcal{A}$ 在素多项式核空间 ${kerp}_i^{r_i}\left(\mathcal{A}\right)$ 上的限制的矩阵表达形式 $F_i$ 即可，我们根据后面的知识可知，这样找到的找到的矩阵简单形式被称为有理标准型。

总之，到这一步，我们只要再找到 $\mathcal{A}$ 在 ${ker(\mathcal{A}-\lambda_iI)}_\ ^{r_i}$ 或者 ${kerp}_i^{r_i}\left(\mathcal{A}\right)$ 上的限制的矩阵表达形式，然后再将各个矩阵块拼成分块对角矩阵即可即可。

我们下面只讨论（狭义） $Jordan$ 标准型的情况。

Step4：幂零变换的 $Jordan$ 标准型：

（4.1）由核空间的定义可知，线性变换 ${(\mathcal{A}-\lambda_iI)}_\ ^{r_i}$ 在子空间 ${ker(\mathcal{A}-\lambda_iI)}_\ ^{r_i}$ 上的限制是0变换，等价说法是，线性变换 ${(\mathcal{A}-\lambda_iI)}_\ ^{r_i}$ 在子空间 ${ker(\mathcal{A}-\lambda_iI)}_\ ^{r_i}$ 上的限制是幂零变换，且幂零指数为 $r_i$ 。

（4.2）幂零变换有一个很特殊的性质：幂零变换可以用来生成子空间。

我们知道， $\mathcal{B}$ 是m维空间 $W$ 上的幂零指数为 $r$ 的幂零变换，那么对于向量 $\eta{\left(\mathrlap{\,/}{=}0\right)}$ ,一定存在 $t(\le r)$ 使得 $\mathcal{B}^{t-1}\eta\mathrlap{\,/}{=}0$ 且 $\mathcal{B}^t\eta=0$ 。而且我们还直到这样找到的 $\ \mathcal{B}^{t-1}\eta,\mathcal{B}^{t-2}\eta,\ldots$ , $\mathcal{B}\eta,\eta$ 线性无关，因此他们可以作为一个子空间的一组基。特别的 ${<\mathcal{B}}^{t-1}\eta,\mathcal{B}^{t-2}\eta,\ldots,\mathcal{B}\eta,\eta>$ 叫做一个 $\mathcal{B}$ -强循环子空间。

更令我们惊喜的是，这个空间有更好的性质——它是一个非平凡的 $\mathcal{B}$ -不变子空间，而且这样找到的矩阵结构相当稳定， $\mathcal{B}$ 在 ${<\mathcal{B}}^{t-1}\eta,\mathcal{B}^{t-2}\eta,\ldots,\mathcal{B}\eta,\eta>$ 上的限制还是幂零变换，但是幂零指数变为了 $t$ ——这恰好是 ${<\mathcal{B}}^{t-1}\eta,\mathcal{B}^{t-2}\eta,\ldots,\mathcal{B}\eta,\eta>$ 空间的维数！因此， $\mathcal{B}$ 在 ${<\mathcal{B}}^{t-1}\eta,\mathcal{B}^{t-2}\eta,\ldots,\mathcal{B}\eta,\eta>$ 上的限制的对应的矩阵表达为

J_t\left(0\right) =\begin{pmatrix} 0& 1& 0&\cdots&0\\ & 0& 1& 0&\vdots\\ & & 0& 1&0\\ & & & 0&1\\ & & & &0 \end{pmatrix}

这种结构的稳定性可以让我们放心的将其作为一个基本结构，而且可以证明，这样选取的结构有一个很好的性质——唯一性。具体来说，对于一个给定的幂零变换有且仅有一种这样形式的矩阵表达。剩下的就和我们一直以来的大思路很自然的融洽在一起——能否将一个大空间W分解为这样的不变子空间的直和呢？

（4.3）很幸运地，我们有结论：

$\mathcal{B}$ 是m维空间 $W$ 上的幂零指数为r的幂零变换，那么 $W$ 可以分解为 $dimker\mathcal{B}$ 个 $\mathcal{B}$ -强循环子空间的直和，其中维数为 $t$ 的 $\mathcal{B}$ -强循环子空间的个数为 $N\left(t\right)=rank\mathcal{B}^{t+1}+rank\mathcal{B}^{t-1}-2rank\mathcal{B}^t$ 。

至此，我们已经得到了所有我们需要的知识，现在只需要将我们的思路整合理顺。

Step5：得到 $Jordan$ 标准型

线性变换 ${(\mathcal{A}-\lambda_iI)}_\ ^{r_i}$ 在子空间 ${ker(\mathcal{A}-\lambda_iI)}_\ ^{r_i}$ 上的限制是幂零变换，且幂零指数为 $r_i$ 。那么 ${ker(\mathcal{A}-\lambda_iI)}_\ ^{r_i}$ 可以分解为 $dimker({\mathcal{A}-\lambda_iI}_\ ^\ )$ 个强循环子空间的直和，其中维数为 $t$ 的强循环子空间的个数为

N\left(t\right)=rank{({\mathcal{A}-\lambda_iI}_\ ^\ )}^{t+1} \\ +rank{({\mathcal{A}-\lambda_iI}_\ ^\ )}^{t-1}-2rank{({\mathcal{A}-\lambda_iI}_\ ^\ )}^t

那么 $\mathcal{A}$ 在维数为t的强循环子空间上的限制的表达矩阵形式为

J_t(\lambda_i)=J_i\left(0\right)+\lambda_iI

=\begin{pmatrix} \lambda_i& 1& 0&\cdots&0\\ & \lambda_i& 1& 0&\vdots\\ & & \lambda_i& 1&0\\ & & & \lambda_i&1\\ & & & &\lambda_i \end{pmatrix}

$J_t(\lambda_i)$ 被称为一个 $Jordan$ 块。

子空间 ${ker(\mathcal{A}-\lambda_iI)}_\ ^{r_i}$ 被分解为强循环子空间的直和，那么对应的 $\mathcal{A}$ 在子空间 ${ker(\mathcal{A}-\lambda_iI)}_\ ^{r_i}$ 上的矩阵可以写成由数个 $Jordan$ 块构成的分块对角的形式

{\left(\begin{matrix}J_1&\ &\ \\\ &\ddots&\ \\\ &\ &J_s\\\end{matrix}\right)_\ ^\ }_{\lambda_i}

写成具体的数字形式以后，我们可以观察到这个矩阵具有明显特征：

对角线上的元素为 $\lambda_i$ ，更精确的说是 $\mathcal{A}$ 的特征多项式 $\chi_\mathcal{A}(t)$ 的 $n$ 个根（记重数）
平行于对角线且紧贴对角线往上的线上只有0或1
除1.2.描述的位置以外，其余全部元素均为0

至此， $\mathcal{A}$ 在 ${ker(\mathcal{A}-\lambda_iI)}_\ ^{r_i}$ 上的限制的矩阵表达形式已经被我们找到。而且，这种矩阵形式具有三个特别棒的性质，完美符合我们问题要求：

唯一性：用这种方法寻找的“最简矩阵”具有唯一性，这是我们成功将"最简"这个模糊定义严格化的标志。
稳定性：每一个块都具有相同的结构，说明最终的分块矩阵具有内部结构的稳定性。
简便性：这样的块结构对于乘方运算而言是简便的（证明提示：写成 $J_t(\lambda_i)=J_i\left(0\right)+\lambda_iI$ ）

倒着回去，再将各个 ${\left(\begin{matrix}J_1&\ &\ \\\ &\ddots&\ \\\ &\ &J_s\\\end{matrix}\right)_\ ^\ }_{\lambda_i}$ 矩阵块拼成分块对角矩阵，此时就完成了我们的任务。至此，我们找到了 $\mathcal{A}$ 的 $Jordan$ 标准型。

补充： $Jordan$ 标准型相关计算问题

给定矩阵 $A$ ，计算其 $Jordan$ 标准型

计算 $A$ 的特征多项式，得到 $A$ 的特征值
计算 $(\mathcal{A}-\lambda_iI)$ 各幂次的秩
计算各级 $Jordan$ 块的阶数

$Jordan$ 块的数学特征汇总：

$\lambda_i-Jordan$ 块的个数等于 $\lambda_i$ 的几何重数
$\lambda_i-Jordan$ 块的总阶数等于 $\lambda_i$ 的代数重数
$\lambda_i-Jordan$ 块的最大阶数等于最小多项式里面 $(\mathcal{A}-\lambda_iI)$ 的次数

如何理解两个最重要的 $Jordan$ 块个数的计算公式

（以幂零变换 $\mathbf{B}$ 为例）：

总 $Jordan$ 块个数:

N=dimker\mathcal{B}=n-rank\mathcal{B}

阶数为 $t$ 的 $Jordan$ 块个数:

N\left(t\right)=rank\mathcal{B}^{t+1}+rank\mathcal{B}^{t-1}-2rank\mathcal{B}^t

不同阶的 $Jordan$ 块的幂零指数是不同的， $t$ 阶的幂零指数为 $t$ 。在 $\mathcal{B}$ 的幂次小于等于 $t$ 时，每乘方一次，一个 $Jordan$ 块的秩就减1。所以看看 $rank\mathcal{B}^{t-1}$ 和 $rank\mathcal{B}^t$ 相差多少，这个差值就是大于等于 $t$ 阶的 $Jordan$ 块的个数。 $t$ 阶的 $Jordan$ 块的个数=大于等于 $t+1$ 阶的 $Jordan$ 块的个数-大于等于 $t$ 阶的 $Jordan$ 块的个数。

计算的时候不要背公式，直接每一步写下大于等于 $t$ 阶的 $Jordan$ 块的个数即可。

所以阶数为t的Jordan块个数: $N\left(t\right)=rank\mathcal{B}^{t+1}+rank\mathcal{B}^{t-1}-2rank\mathcal{B}^t$

Elivis' Blog