广义特征向量 编辑
考虑前面例子中的矩阵M 。M 的若尔当标准型可以写成P −1 MP = J ,即
M
P
=
P
J
{\displaystyle \;MP=PJ}
其中变换矩阵 P 的四个列向量为:p i , i = 1, ..., 4,于是
M
[
p
1
p
2
p
3
p
4
]
=
[
p
1
p
2
p
3
p
4
]
[
1
0
0
0
0
2
0
0
0
0
4
1
0
0
0
4
]
=
[
p
1
2
p
2
4
p
3
p
3
+
4
p
4
]
{\displaystyle M{\begin{bmatrix}p_{1}&p_{2}&p_{3}&p_{4}\end{bmatrix}}={\begin{bmatrix}p_{1}&p_{2}&p_{3}&p_{4}\end{bmatrix}}{\begin{bmatrix}1&0&0&0\\0&2&0&0\\0&0&4&1\\0&0&0&4\end{bmatrix}}={\begin{bmatrix}p_{1}&2p_{2}&4p_{3}&p_{3}+4p_{4}\end{bmatrix}}}
也就是:
(
M
−
1
I
)
p
1
=
0
,
(
M
−
2
I
)
p
2
=
0
{\displaystyle \;(M-1I)p_{1}=0,\;\,(M-2I)p_{2}=0}
(
M
−
4
I
)
p
3
=
0
,
(
M
−
4
I
)
p
4
=
p
3
{\displaystyle \;(M-4I)p_{3}=0,\;\,(M-4I)p_{4}=p_{3}}
对于i = 1、2、3,
p
i
{\displaystyle p_{i}}
都是某个特征值所对应的特征向量:
p
i
∈
Ker
(
M
−
λ
I
)
{\displaystyle p_{i}\in \operatorname {Ker} (M-\lambda I)}
。然而,当i =4时,
p
4
{\displaystyle p_{4}}
并不是特征值4所对应的特征向量。尽管如此:
(
M
−
4
I
)
2
p
4
=
(
M
−
4
I
)
p
3
=
0
{\displaystyle \;(M-4I)^{2}p_{4}=(M-4I)p_{3}=0}
于是
p
4
∈
Ker
(
M
−
λ
I
)
2
{\displaystyle p_{4}\in \operatorname {Ker} (M-\lambda I)^{2}}
。像
p
4
{\displaystyle p_{4}}
这样的向量被称为M 的广义特征向量 。
给定一个特征值
λ
{\displaystyle \scriptstyle \lambda }
,它对应的若尔当块
J
λ
,
m
{\displaystyle \displaystyle J_{\lambda ,m}}
:
[
λ
1
0
⋯
0
0
λ
1
⋯
0
⋮
⋮
⋱
⋮
⋮
0
0
0
λ
1
0
0
0
0
λ
]
{\displaystyle {\begin{bmatrix}\lambda &1&0&\cdots &0\\0&\lambda &1&\cdots &0\\\vdots &\vdots &\ddots &\vdots &\vdots \\0&0&0&\lambda &1\\0&0&0&0&\lambda \\\end{bmatrix}}}
对应着一个由广义特征向量所张成的子空间,因为对应的基底
e
λ
,
1
,
e
λ
,
2
,
⋯
,
e
λ
,
m
{\displaystyle \displaystyle e_{\lambda ,1},e_{\lambda ,2},\cdots ,e_{\lambda ,m}}
满足:
(
M
−
λ
I
)
e
λ
,
1
=
0
(
M
−
λ
I
)
e
λ
,
2
=
e
λ
,
1
,
⋯
,
(
M
−
λ
I
)
e
λ
,
m
=
e
λ
,
m
−
1
{\displaystyle \;(M-\lambda I)e_{\lambda ,1}=0\;(M-\lambda I)e_{\lambda ,2}=e_{\lambda ,1},\cdots ,(M-\lambda I)e_{\lambda ,m}=e_{\lambda ,m-1}}
也就是说
(
M
−
λ
I
)
e
λ
,
1
=
0
,
(
M
−
λ
I
)
2
e
λ
,
2
=
0
,
⋯
,
(
M
−
λ
I
)
m
e
λ
,
m
=
0
{\displaystyle \;(M-\lambda I)e_{\lambda ,1}=0,\;(M-\lambda I)^{2}e_{\lambda ,2}=0,\cdots ,(M-\lambda I)^{m}e_{\lambda ,m}=0}
因此,“所有特征值在
K
{\displaystyle \mathbb {K} }
中的矩阵都相似于某个若尔当标准型”这个命题等价于存在一个由这个矩阵的特征向量和广义特征向量构成的全空间的基底。
幂零矩阵的情况 编辑
当矩阵A 为幂零矩阵(即存在m 使得
A
m
=
0
{\displaystyle A^{m}=0}
)时,可以证明整个空间总是可以分解为若干个A -循环子空间的直和[1] 。所谓的A -循环子空间就是由某个向量v 以及基底:
B
v
=
{
v
,
A
v
,
A
2
v
,
⋯
}
{\displaystyle {\mathit {B}}_{v}=\left\{v,Av,A^{2}v,\cdots \right\}}
线性张成的子空间。显然,这样的子空间是A -不变子空间。同时,注意到
B
v
{\displaystyle {\mathit {B}}_{v}}
是由A 的特征向量和广义特征向量构成的(
∀
j
≥
0
,
A
j
v
∈
Ker
A
m
{\displaystyle \forall j\geq 0,A^{j}v\in \operatorname {Ker} A^{m}}
)。因此在这个循环子空间里,A 在基底
B
v
{\displaystyle \displaystyle {\mathit {B}}_{v}}
下表示为若尔当块:
J
v
=
[
0
1
0
⋯
0
0
0
1
⋯
0
⋮
⋮
⋱
⋮
⋮
0
0
0
0
1
0
0
0
0
0
]
{\displaystyle J_{v}={\begin{bmatrix}0&1&0&\cdots &0\\0&0&1&\cdots &0\\\vdots &\vdots &\ddots &\vdots &\vdots \\0&0&0&0&1\\0&0&0&0&0\\\end{bmatrix}}}
因此A 在所有这样的基底下可以表示为由若尔当块组成的分块对角矩阵,即若尔当标准型:
J
=
[
J
v
1
0
0
⋯
0
0
J
v
2
0
⋯
0
⋮
⋮
⋱
⋮
⋮
0
0
0
J
v
s
−
1
0
0
0
0
0
J
v
s
]
{\displaystyle J={\begin{bmatrix}J_{v_{1}}&0&0&\cdots &0\\0&J_{v_{2}}&0&\cdots &0\\\vdots &\vdots &\ddots &\vdots &\vdots \\0&0&0&J_{v_{s-1}}&0\\0&0&0&0&J_{v_{s}}\\\end{bmatrix}}}
下面用数学归纳法 证明:所有特征值在
K
{\displaystyle \mathbb {K} }
中的n × n 的矩阵都相似于某个若尔当标准型。
n = 1的情况显然。对于
n
>
1
{\displaystyle n>1}
考虑n × n 矩阵A 。对于A 的一个特征值λ,设s 为λ的几何重数。设线性变换
(
A
−
λ
I
)
s
{\displaystyle (A-\lambda I)^{s}}
的像空间为
I
m
(
A
−
λ
I
)
s
{\displaystyle \mathrm {Im} (A-\lambda I)^{s}}
,这是关于A 的一个不变子空间 。因为λ是特征值,
I
m
(
A
−
λ
I
)
s
{\displaystyle \mathrm {Im} (A-\lambda I)^{s}}
的空间维数r 严格小于n 。记
A
′
{\displaystyle \scriptstyle A^{\prime }}
为A 在子空间限制
I
m
(
A
−
λ
I
)
s
{\displaystyle \mathrm {Im} (A-\lambda I)^{s}}
上的部分。根据归纳假设存在一个基底:{p 1 , ..., p r }使得
A
′
{\displaystyle \scriptstyle A^{\prime }}
在这个基底上为若尔当标准型。
接下来考虑子空间
Ker
(
A
−
λ
I
)
s
{\displaystyle \operatorname {Ker} (A-\lambda I)^{s}}
,只要能够证明整个空间可以分为:
C
n
=
I
m
(
A
−
λ
I
)
s
⊕
K
e
r
(
A
−
λ
I
)
s
{\displaystyle C^{n}=\mathrm {Im} (A-\lambda I)^{s}\oplus \mathrm {Ker} (A-\lambda I)^{s}}
由于
K
e
r
(
A
−
λ
I
)
s
{\displaystyle \mathrm {Ker} (A-\lambda I)^{s}}
是一个A -不变子空间,在上面
A
−
λ
I
{\displaystyle A-\lambda I}
是幂零矩阵,因此可以写成若尔当标准型:
J
=
[
J
v
1
0
0
⋯
0
0
J
v
2
0
⋯
0
⋮
⋮
⋱
⋮
⋮
0
0
0
0
J
v
s
]
{\displaystyle J={\begin{bmatrix}J_{v_{1}}&0&0&\cdots &0\\0&J_{v_{2}}&0&\cdots &0\\\vdots &\vdots &\ddots &\vdots &\vdots \\0&0&0&0&J_{v_{s}}\\\end{bmatrix}}}
而加上
λ
I
{\displaystyle \displaystyle \lambda I}
后还是若尔当标准型。因此,A 在
K
e
r
(
A
−
λ
I
)
s
{\displaystyle \mathrm {Ker} (A-\lambda I)^{s}}
和
I
m
(
A
−
λ
I
)
s
{\displaystyle \mathrm {Im} (A-\lambda I)^{s}}
上都能写成若尔当标准型,从而A 相似于某个若尔当标准型。
利用归纳法可知所有的n × n 的矩阵都相似于某个若尔当标准型。
下面证明:
C
n
=
I
m
(
A
−
λ
I
)
s
⊕
K
e
r
(
A
−
λ
I
)
s
{\displaystyle C^{n}=\mathrm {Im} (A-\lambda I)^{s}\oplus \mathrm {Ker} (A-\lambda I)^{s}}
设A 的最小多项式为
π
A
{\displaystyle \pi _{A}}
,并将其写成
π
A
=
(
X
−
λ
I
)
s
⋅
Q
{\displaystyle \pi _{A}=(X-\lambda I)^{s}\cdot Q}
。于是
Q
{\displaystyle Q}
和
(
X
−
λ
I
)
s
{\displaystyle (X-\lambda I)^{s}}
互素。于是根据裴蜀定理 ,存在多项式:a 和b 使得
a
(
X
−
λ
I
)
s
+
b
Q
=
1
{\displaystyle a(X-\lambda I)^{s}+bQ=1}
。每个向量u 都可以写成:
u
=
a
(
A
−
λ
I
)
s
(
u
)
+
b
Q
(
A
)
(
u
)
{\displaystyle \displaystyle u=a(A-\lambda I)^{s}(u)+bQ(A)(u)}
并且
Q
(
A
)
(
a
(
A
−
λ
I
)
s
(
u
)
)
=
(
Q
(
A
−
λ
I
)
s
)
(
a
(
u
)
)
=
π
A
(
u
)
=
0
{\displaystyle \displaystyle Q(A)(a(A-\lambda I)^{s}(u))=(Q(A-\lambda I)^{s})(a(u))=\pi _{A}(u)=0}
,同样地
(
A
−
λ
I
)
s
(
b
Q
(
A
)
(
u
)
)
=
(
(
A
−
λ
I
)
s
Q
)
(
b
(
u
)
)
=
π
A
(
u
)
=
0
{\displaystyle \displaystyle (A-\lambda I)^{s}(bQ(A)(u))=((A-\lambda I)^{s}Q)(b(u))=\pi _{A}(u)=0}
,因此
a
(
A
−
λ
I
)
s
(
u
)
∈
K
e
r
(
Q
(
A
)
)
,
b
Q
(
A
)
(
u
)
∈
K
e
r
(
A
−
λ
I
)
s
{\displaystyle a(A-\lambda I)^{s}(u)\in \mathrm {Ker} (Q(A)),\;bQ(A)(u)\in \mathrm {Ker} (A-\lambda I)^{s}}
,也就是说:
C
n
=
K
e
r
(
Q
(
A
)
)
+
K
e
r
(
A
−
λ
I
)
s
{\displaystyle \displaystyle C^{n}=\mathrm {Ker} (Q(A))+\mathrm {Ker} (A-\lambda I)^{s}}
另一方面,任意
v
∈
K
e
r
(
A
−
λ
I
)
s
∩
K
e
r
(
Q
(
A
)
)
{\displaystyle v\in \mathrm {Ker} (A-\lambda I)^{s}\cap \mathrm {Ker} (Q(A))}
,
v
=
a
(
A
−
λ
I
)
s
(
v
)
+
b
Q
(
A
)
(
v
)
=
0
+
0
=
0
{\displaystyle \displaystyle v=a(A-\lambda I)^{s}(v)+bQ(A)(v)=0+0=0}
。也就是说:
K
e
r
(
A
−
λ
I
)
s
∩
K
e
r
(
Q
(
A
)
)
=
0
{\displaystyle \mathrm {Ker} (A-\lambda I)^{s}\cap \mathrm {Ker} (Q(A))={0}}
。综上所述,
C
n
=
K
e
r
(
Q
(
A
)
)
⊕
K
e
r
(
A
−
λ
I
)
s
{\displaystyle C^{n}=\mathrm {Ker} (Q(A))\oplus \mathrm {Ker} (A-\lambda I)^{s}}
然而
∀
u
∈
I
m
(
A
−
λ
I
)
s
{\displaystyle \forall u\in \mathrm {Im} (A-\lambda I)^{s}}
,
Q
(
A
)
(
u
)
=
0
{\displaystyle \displaystyle Q(A)(u)=0}
,从而
I
m
(
A
−
λ
I
)
s
⊂
K
e
r
(
Q
(
A
)
)
{\displaystyle \mathrm {Im} (A-\lambda I)^{s}\subset \mathrm {Ker} (Q(A))}
。而根据秩-零化度定理 ,
K
e
r
(
Q
(
A
)
)
{\displaystyle \mathrm {Ker} (Q(A))}
和
I
m
(
A
−
λ
I
)
s
{\displaystyle \mathrm {Im} (A-\lambda I)^{s}}
维数相等,所以两者完全相等。于是
C
n
=
I
m
(
A
−
λ
I
)
s
⊕
K
e
r
(
A
−
λ
I
)
s
{\displaystyle C^{n}=\mathrm {Im} (A-\lambda I)^{s}\oplus \mathrm {Ker} (A-\lambda I)^{s}}
从而命题得证。
如果矩阵的系数域是一个代数闭域 ,那么由于其特征值是特征多项式 的根,所以也在系数域中。于是只要系数域是一个代数闭域,所有的矩阵都相似于若尔当标准型。特别的,所有复系数矩阵都可以简化为若尔当标准型,因为复数域是代数封闭的。 所有的若尔当标准型都可以分解成一个对角矩阵D 和一个只有对角线上一排为1的矩阵N 的和。注意,这两个矩阵是不可交换的,因为对角矩阵D 不一定是数量矩阵。矩阵N 是一个幂零矩阵。因此,每个相似于若尔当标准型的矩阵都可以写成可交换的一个对角矩阵和一个幂零矩阵的和。因为与对角矩阵和幂零矩阵相似的矩阵仍然是对角矩阵和幂零矩阵。换句话说,只要一个矩阵的特征值都在它的系数域里(或者说它的最小多项式或特征多项式可以分解成一次项的乘积),就可以将这个矩阵分解成一个对角矩阵和一个幂零矩阵的和,但要注意这两个矩阵可以交换。当对角矩阵为数量矩阵时,在计算矩阵的指数 时是很方便的(可以用二项式展开)。 谱映射定理 编辑
用若尔当标准型以及直接的计算可以得出:如果n × n 矩阵A 的特征值为:λ1 , ..., λn ,那么对于多项式:p ,矩阵p (A )的特征值是:p (λ1 ), ..., p (λn )。
凯莱-哈密尔顿定理 编辑
凯莱-哈密尔顿定理 断言任意矩阵A 都是特征方程的根:如果p 是A 的特征多项式 ,那么p (A ) = 0。这个定理一样可以用若尔当标准型直接计算得出。
最小多项式 编辑
方块矩阵A 的最小多项式 是使得m (A ) = 0的非常数首一多项式 中次数最小者。另一种定义是:所有使得m (A ) = 0的多项式构成主理想环 C [x ]的一个理想 I ,而m 则是这个理想的产生子。
对于有若尔当标准型的矩阵A ,其最小多项式以其特征值为根,并且由若尔当标准型的形状可以看出,每个特征值的重数是若尔当标准型中属于这个特征值的最大的若尔当块的维数。
反之已知矩阵A 的最小多项式并不能知道其若尔当标准型。要确定矩阵A 的标准型需要用到所谓的初等因子 。矩阵A 的一个初等因子是它的某一个若尔当块的特征多项式(或最小多项式,对于若尔当块两者一样)。如果所有的初等因子都是一次多项式,那么A 可对角化。
不变子空间分解 编辑
一个n × n 的矩阵A 的若尔当标准型是分块对角矩阵,因此给出了一个将n 维欧几里得空间 分解为矩阵A 的不变子空间的具体方法。每个若尔当块J i 都对应着一个不变子空间:X i 。可以简记为:
C
n
=
⨁
i
=
1
k
X
i
{\displaystyle \mathbb {C} ^{n}=\bigoplus _{i=1}^{k}X_{i}}
其中的每个X i 都是由若尔当块J i 对应的广义特征向量张成的子空间。
注意到这里的k 并不是不同的特征值的个数,因为属于同一个特征值的若尔当块可以不止一个。如果要将
C
n
{\displaystyle \mathbb {C} ^{n}}
分解为l 个不变子空间,其中l 是不同特征值的个数的话,可以将属于同一个特征值,比如说
λ
i
{\displaystyle \scriptstyle \lambda _{i}}
的若尔当块合并:只需使用A 的最小多项式
π
A
{\displaystyle \pi _{A}}
中关于
λ
i
{\displaystyle \scriptstyle \lambda _{i}}
的重根数(代数重数)
ν
(
λ
i
)
{\displaystyle \scriptstyle \nu (\lambda _{i})}
,考虑空间:
Y
i
=
Ker
(
λ
i
−
A
)
ν
(
λ
i
)
.
{\displaystyle \;Y_{i}=\operatorname {Ker} (\lambda _{i}-A)^{\nu (\lambda _{i})}.}
这就是所有的属于同一个特征值
λ
i
{\displaystyle \scriptstyle \lambda _{i}}
的若尔当块所对应的X i ,p 所合并后的空间,因为它包含了所有使得经过
ν
(
λ
i
)
{\displaystyle \scriptstyle \nu (\lambda _{i})}
次
λ
i
−
A
{\displaystyle \scriptstyle \lambda _{i}-A}
操作后会清零的向量集合。如果某个X i 中向量没有被清零,那么由于这个向量也不会被其他的特征值
λ
j
−
A
{\displaystyle \scriptstyle \lambda _{j}-A}
清零,它将不会被
π
A
{\displaystyle \scriptstyle \pi _{A}}
清零,这与
π
A
(
A
)
=
0
{\displaystyle \pi _{A}(A)=0}
矛盾。
于是n 维欧几里得空间 也可以被分解为
C
n
=
⨁
i
=
1
l
Y
i
{\displaystyle \mathbb {C} ^{n}=\bigoplus _{i=1}^{l}Y_{i}}
其中l 是矩阵A 的不同的特征值的个数。
值得注意的是,这里的指标ν(λ )是使得特征零空间
Ker
(
λ
−
A
)
m
{\displaystyle \operatorname {Ker} (\lambda -A)^{m}}
“稳定”下来的最小次数:
K
e
r
(
λ
−
A
)
ν
(
λ
)
=
Ker
(
λ
−
A
)
m
,
∀
m
≥
ν
(
λ
)
{\displaystyle \mathrm {Ker} (\lambda -A)^{\nu (\lambda )}=\operatorname {Ker} (\lambda -A)^{m},\;\forall m\geq \nu (\lambda )}
这也可以作为代数重数的另一个定义。