一、特征值和特征向量介绍
本章会开启线性代数的新内容。前面的第一部分是关于
A
x
=
b
A\boldsymbol x=\boldsymbol b
Ax=b:平衡、均衡和稳定状态;现在的第二部分是关于变化的。时间会加入进来 —— 连续时间的微分方程
d
u
/
d
t
=
A
u
\pmb{\textrm{d}u}/\textrm dt=A\boldsymbol u
du/dt=Au,或离散时间的差分方程
u
k
+
1
=
A
u
k
\boldsymbol u_{k+1}=A\boldsymbol u_k
uk+1=Auk。这些方程无法用消元法求解。
关键的思想是要避免矩阵
A
A
A 所带来的复杂性。假设解向量
u
(
t
)
\boldsymbol u(t)
u(t) 固定在向量
x
\boldsymbol x
x 的方向,我们就只需要找到数字(随时间变化)然后乘上
x
\boldsymbol x
x。一个数字要比一个向量简单。我们希望 “特征向量”(eigenvetors)
x
\boldsymbol x
x 在被
A
A
A 乘后不会改变方向。
矩阵的幂
A
,
A
2
,
A
3
,
⋯
A,A^2,A^3,\cdots
A,A2,A3,⋯ 就是一个好的模型,假设需要
100
100
100 次方
A
100
A^{100}
A100,它的列非常接近特征向量
(
0.6
,
0.4
)
(0.6,0.4)
(0.6,0.4):
A
,
A
2
,
A
3
=
[
0.8
0.3
0.2
0.7
]
,
[
0.70
0.45
0.30
0.55
]
,
[
0.650
0.525
0.350
0.475
]
A
100
=
[
0.6000
0.6000
0.4000
0.4000
]
A,A^2,A^3=\begin{bmatrix}0.8&0.3\\0.2&0.7\end{bmatrix},\begin{bmatrix}0.70&0.45\\0.30&0.55\end{bmatrix},\begin{bmatrix}0.650&0.525\\0.350&0.475\end{bmatrix}\kern 10pt\pmb{A^{100}=\begin{bmatrix}0.6000&0.6000\\0.4000&0.4000\end{bmatrix}}
A,A2,A3=[0.80.20.30.7],[0.700.300.450.55],[0.6500.3500.5250.475]A100=[0.60000.40000.60000.4000]
A
100
A^{100}
A100 是用
A
A
A 的特征值(eigenvalues)求得,而不是乘
100
100
100 次矩阵,这些特征值(这里是
λ
=
1
\lambda=1
λ=1 和
λ
=
1
/
2
\lambda=1/2
λ=1/2)是一种新的看矩阵核心的方法。
在解释特征值前,先来解释特征向量。几乎所有的向量被
A
A
A 乘后都会改变方向,某些特殊的向量
x
\boldsymbol x
x 和
A
x
A\boldsymbol x
Ax 在同一方向,这些就是 “特征向量”。
A
A
A 乘上一个特征向量,得到的向量
A
x
A\boldsymbol x
Ax 等于一个数字
λ
\lambda
λ 乘上原始的向量
x
\boldsymbol x
x。
基本的方程是
A
x
=
λ
x
。数字
λ
是
A
的一个特征值。
\color{blue}{基本的方程是\,A\boldsymbol x=\lambda\boldsymbol x}。数字\,\lambda\,是\,A\,的一个特征值。
基本的方程是Ax=λx。数字λ是A的一个特征值。特征值
λ
\lambda
λ 告诉我们当
A
A
A 乘上向量
x
\boldsymbol x
x 后,这个向量是被拉伸、压缩、反向还是不变。特征值可以是
λ
=
2
\lambda=2
λ=2,或
1
2
\displaystyle\frac{1}{2}
21,或
−
1
-1
−1 或
1
1
1,它还可以为零!则
A
x
=
0
x
A\boldsymbol x=0\boldsymbol x
Ax=0x 表明特征向量
x
\boldsymbol x
x 是在零空间中。
如果
A
A
A 是单位矩阵,则每个向量都有
A
x
=
x
A\boldsymbol x=\boldsymbol x
Ax=x,所有的向量都是
I
I
I 的特征向量,所有的特征值都是
λ
=
1
\lambda=1
λ=1,这不是常见的情况。大部分
2
×
2
2\times2
2×2 的矩阵有两个方向的特征向量和两个特征值。后面会证明
det
(
A
−
λ
I
)
=
0
\det(A-\lambda I)=0
det(A−λI)=0。
如何计算特征向量
x
\boldsymbol x
x 和特征值
λ
\lambda
λ 呢?下面以
2
×
2
2\times2
2×2 的矩阵为例,我们使用
det
(
A
−
λ
I
)
=
0
\det(A-\lambda I)=0
det(A−λI)=0 来求特征值。
【例1】矩阵
A
A
A 有两个特征值
λ
=
1
\lambda=1
λ=1 和
λ
=
1
2
\lambda=\displaystyle\frac{1}{2}
λ=21,检验
det
(
A
−
λ
I
)
\det (A-\lambda I)
det(A−λI):
A
=
[
0.8
0.3
0.2
0.7
]
det
[
0.8
−
λ
0.3
0.2
0.7
−
λ
]
=
λ
2
−
3
2
λ
+
1
2
=
(
λ
−
1
)
(
λ
−
1
2
)
A=\begin{bmatrix}0.8&0.3\\0.2&0.7\end{bmatrix}\kern 10pt\det\begin{bmatrix}0.8-\lambda&0.3\\0.2&0.7-\lambda\end{bmatrix}=\lambda^2-\frac{3}{2}\lambda+\frac{1}{2}=(\lambda-1)(\lambda-\frac{1}{2})
A=[0.80.20.30.7]det[0.8−λ0.20.30.7−λ]=λ2−23λ+21=(λ−1)(λ−21)将二次多项式分解成
λ
−
1
\lambda-1
λ−1 乘
λ
−
1
2
\lambda -\displaystyle\frac{1}{2}
λ−21,可以得到两个特征值是
λ
=
1
\pmb{\lambda=1}
λ=1 和
λ
=
1
2
\pmb{\lambda=\displaystyle\frac{1}{2}}
λ=21。这些数字使得矩阵
A
−
λ
I
A-\lambda I
A−λI 是奇异的(行列式为零),特征向量
x
1
\boldsymbol x_1
x1 和
x
2
\boldsymbol x_2
x2 在
A
−
I
A-I
A−I 和
A
−
1
2
I
A-\displaystyle\frac{1}{2}I
A−21I 的零空间中。
(
A
−
I
)
x
1
=
0
(A-I)\boldsymbol x_1=\boldsymbol 0
(A−I)x1=0 是
A
x
1
=
x
1
A\boldsymbol x_1=\boldsymbol x_1
Ax1=x1,第一个特征向量是
(
0.6
,
0.4
)
(\pmb{0.6,0.4})
(0.6,0.4)。
(
A
−
1
2
I
)
x
2
=
0
(A-\displaystyle\frac{1}{2}I)\boldsymbol x_2=\boldsymbol 0
(A−21I)x2=0 是
A
x
2
=
1
2
x
2
A\boldsymbol x_2=\displaystyle\frac{1}{2}\boldsymbol x_2
Ax2=21x2,第二个特征向量是
(
1
,
−
1
)
(\pmb{1,-1})
(1,−1):
x
1
=
[
0.6
0.4
]
和
A
x
1
=
[
0.8
0.3
0.2
0.7
]
[
0.6
0.4
]
=
x
1
(
A
x
=
x
表明
λ
=
1
)
x
2
=
[
1
−
1
]
和
A
x
2
=
[
0.8
0.3
0.2
0.7
]
[
1
−
1
]
=
[
0.5
−
0.5
]
(
这是
1
2
x
2
,
所以
λ
=
1
2
)
\begin{array}{l}\boldsymbol x_1=\begin{bmatrix}0.6\\0.4\end{bmatrix}\kern 5pt和\kern 5ptA\boldsymbol x_1=\begin{bmatrix}0.8&0.3\\0.2&0.7\end{bmatrix}\begin{bmatrix}0.6\\0.4\end{bmatrix}=\boldsymbol x_1\kern 10pt(A\boldsymbol x=\boldsymbol x\,表明\,\lambda=1)\\\,\\\boldsymbol x_2=\begin{bmatrix}\kern 7pt1\\-1\end{bmatrix}\kern 5pt和\kern 5ptA\boldsymbol x_2=\begin{bmatrix}0.8&0.3\\0.2&0.7\end{bmatrix}\begin{bmatrix}\kern 7pt1\\-1\end{bmatrix}=\begin{bmatrix}\kern 7pt0.5\\-0.5\end{bmatrix}\kern 10pt(这是\,\displaystyle\frac{1}{2}\boldsymbol x_2,所以\,\lambda=\frac{1}{2})\end{array}
x1=[0.60.4]和Ax1=[0.80.20.30.7][0.60.4]=x1(Ax=x表明λ=1)x2=[1−1]和Ax2=[0.80.20.30.7][1−1]=[0.5−0.5](这是21x2,所以λ=21)如果
x
1
\boldsymbol x_1
x1 再被
A
A
A 乘,我们仍然会得到
x
1
\boldsymbol x_1
x1,
A
A
A 的幂会得到
A
n
x
1
=
x
1
A^n\boldsymbol x_1=\boldsymbol x_1
Anx1=x1。
x
2
\boldsymbol x_2
x2 被
A
A
A 乘得到
1
2
x
2
\displaystyle\frac{1}{2}\boldsymbol x_2
21x2,如果再被
A
A
A 乘得到
(
1
2
)
2
\Big(\displaystyle\frac{1}{2}\Big)^2
(21)2 乘
x
2
\boldsymbol x_2
x2。
若
A
取平方,特征向量不变,特征值也取平方。
\color{blue}若\,A\,取平方,特征向量不变,特征值也取平方。
若A取平方,特征向量不变,特征值也取平方。这种模式会保持下去,因为特征向量保持自己的方向不会被混淆(Figure 6.1),
A
100
A^{100}
A100 的特征向量也是同样的
x
1
\boldsymbol x_1
x1 和
x
2
\boldsymbol x_2
x2,
A
100
A^{100}
A100 的特征值是
1
100
=
1
1^{100}=1
1100=1 和
(
1
2
)
100
=
\Big(\displaystyle\frac{1}{2}\Big)^{100}=
(21)100= 非常小的数。
其它的向量会改变方向,但是其它的所有向量都是这两个特征向量的组合,
A
A
A 的第一列是组合
x
1
+
(
0.2
)
x
2
\boldsymbol x_1+(0.2)\boldsymbol x_2
x1+(0.2)x2:
分开特征向量
然后用
A
乘
[
0.8
0.2
]
=
x
1
+
(
0.2
)
x
2
=
[
0.6
0.4
]
+
[
0.2
−
0.2
]
(
6.1.1
)
\begin{array}{l}\pmb{分开特征向量}\\\pmb{然后用\,A\,乘}\end{array}\kern 20pt\begin{bmatrix}0.8\\0.2\end{bmatrix}=\boldsymbol x_1+(0.2)\boldsymbol x_2=\begin{bmatrix}0.6\\0.4\end{bmatrix}+\begin{bmatrix}\kern 7pt0.2\\-0.2\end{bmatrix}\kern 10pt(6.1.1)
分开特征向量然后用A乘[0.80.2]=x1+(0.2)x2=[0.60.4]+[0.2−0.2](6.1.1)
我们分开乘
x
1
\boldsymbol x_1
x1 和
(
0.2
)
x
2
(0.2)\boldsymbol x_2
(0.2)x2,
A
A
A 乘上
x
2
\boldsymbol x_2
x2 就是它的特征值
1
2
\displaystyle\frac{1}{2}
21 乘上
x
2
\boldsymbol x_2
x2:
λ
i
乘上每个
x
i
A
[
0.8
0.2
]
=
x
1
+
1
2
(
0.2
)
x
2
=
[
0.6
0.4
]
+
[
0.1
−
0.1
]
=
[
0.7
0.3
]
\pmb{\lambda_i\,乘上每个\,\boldsymbol x_i}\kern 15ptA\begin{bmatrix}0.8\\0.2\end{bmatrix}=\boldsymbol x_1+\frac{1}{2}(0.2)\boldsymbol x_2=\begin{bmatrix}0.6\\0.4\end{bmatrix}+\begin{bmatrix}\kern 7pt0.1\\-0.1\end{bmatrix}=\begin{bmatrix}0.7\\0.3\end{bmatrix}
λi乘上每个xiA[0.80.2]=x1+21(0.2)x2=[0.60.4]+[0.1−0.1]=[0.70.3]当我们用
A
A
A 乘上向量时,每个特征向量被它的特征值所乘。每一步
x
1
\boldsymbol x_1
x1 不变,
x
2
\boldsymbol x_2
x2 被
1
2
\displaystyle\frac{1}{2}
21 乘,所以
99
99
99 步得到一个很小的数
(
1
2
)
99
\displaystyle\Big(\frac{1}{2}\Big)^{99}
(21)99:
A
99
[
0.8
0.2
]
实际上就是
x
1
+
(
0.2
)
(
1
2
)
99
x
2
=
[
0.6
0.4
]
+
[
非常
小的
向量
]
\boxed{A^{99}\begin{bmatrix}0.8\\0.2\end{bmatrix}\kern 5pt实际上就是\kern 5pt\boldsymbol x_1+(0.2)\big(\frac{1}{2}\big)^{99}\boldsymbol x_2=\begin{bmatrix}0.6\\0.4\end{bmatrix}+\begin{bmatrix}非常\\小的\\向量\end{bmatrix}}
A99[0.80.2]实际上就是x1+(0.2)(21)99x2=[0.60.4]+
非常小的向量
这就是
A
100
A^{100}
A100 的第一列,我们前面写的
0.6000
0.6000
0.6000 并不是很准确,我们省略了
(
0.2
)
(
1
2
)
100
(0.2)\big(\displaystyle\frac{1}{2}\big)^{100}
(0.2)(21)100,这个数在小数点
30
30
30 位以后了。
特征向量
x
1
\boldsymbol x_1
x1 是一个不会变化的 “稳定状态”(因为
λ
1
=
1
\lambda_1=1
λ1=1),特征向量
x
2
\boldsymbol x_2
x2 是一个几乎消失的 “衰减模式”(因为
λ
2
=
0.5
\lambda_2=0.5
λ2=0.5),
A
A
A 的幂越高,它的列就越趋于稳定状态。
这个特殊的
A
A
A 是一个马尔可夫矩阵(Markov matrix),它最大的特征值是
λ
=
1
\lambda=1
λ=1,它的特征向量
x
1
=
(
0.6
,
0.4
)
\boldsymbol x_1=(0.6,0.4)
x1=(0.6,0.4) 是稳定状态 ——
A
k
A^{k}
Ak 的所有列都会趋近于它。
对于投影矩阵
P
P
P,我们可以看到什么时候
P
x
P\boldsymbol x
Px 平行于
x
\boldsymbol x
x。 对应的
λ
=
1
\lambda=1
λ=1 和
λ
=
0
\lambda=0
λ=0 的特征向量填满列空间和零空间,列空间不变(
P
x
=
x
P\boldsymbol x=\boldsymbol x
Px=x),零空间变为零(
P
x
=
0
x
P\boldsymbol x=0\boldsymbol x
Px=0x)。
【例2】投影矩阵
P
=
[
0.5
0.5
0.5
0.5
]
P=\begin{bmatrix}0.5&0.5\\0.5&0.5\end{bmatrix}
P=[0.50.50.50.5] 有特征值
λ
=
1
\lambda=1
λ=1 和
λ
=
0
\lambda=0
λ=0。
它的特征向量是
x
1
=
(
1
,
1
)
\boldsymbol x_1=(1,1)
x1=(1,1) 和
x
2
=
(
1
,
−
1
)
\boldsymbol x_2=(1,-1)
x2=(1,−1),对于这些向量有
P
x
1
=
x
2
P\boldsymbol x_1=\boldsymbol x_2
Px1=x2(稳定状态)和
P
x
2
=
0
P\boldsymbol x_2=\boldsymbol 0
Px2=0(零空间)。本例说明了马尔可夫矩阵、奇异矩阵和对称矩阵(最重要),它们都有特殊的特征值
λ
\lambda
λ 和特征向量
x
\boldsymbol x
x:
- 马尔可夫矩阵: P P P 的每一列相加为 1 1 1,所以 λ = 1 \lambda=1 λ=1 是一个特征值。这是因为 A − I A-I A−I 是奇异的,因为每列的和为零。
- P P P 是奇异的,所以 λ = 0 \lambda=0 λ=0 是一个特征值。
- P P P 是对称的,所以它的特征向量 ( 1 , 1 ) (1,1) (1,1) 和 ( 1 , − 1 ) (1,-1) (1,−1) 垂直。
投影矩阵的特征值只有 0 0 0 和 1 1 1,对于 λ = 0 \lambda=0 λ=0 的特征向量(即 P x = 0 x P\boldsymbol x=0\boldsymbol x Px=0x)填满了零空间,对于 λ = 1 \lambda=1 λ=1 的特征向量(即 P x = x P\boldsymbol x=\boldsymbol x Px=x)充满了列空间;零空间投影到零,列空间投影到它自己。投影维持列空间不变而摧毁零空间: 投影每个部分 v = [ 1 − 1 ] + [ 2 2 ] 投影到 P v = [ 0 0 ] + [ 2 2 ] \pmb{投影每个部分}\kern 10pt\boldsymbol v=\begin{bmatrix}\kern 7pt1\\-1\end{bmatrix}+\begin{bmatrix}2\\2\end{bmatrix}\kern 10pt\pmb{投影到}\kern 10ptP\boldsymbol v=\begin{bmatrix}\pmb0\\\pmb0\end{bmatrix}+\begin{bmatrix}\pmb2\\\pmb2\end{bmatrix} 投影每个部分v=[1−1]+[22]投影到Pv=[00]+[22]投影有 λ = 0 \lambda=0 λ=0 和 1 1 1,置换的所有 ∣ λ ∣ = 1 |\lambda|=1 ∣λ∣=1。下一个矩阵 R R R 是一个反射矩阵同样也是一个置换矩阵, R R R 也有特殊的特征值。
【例3】反射矩阵
R
=
[
0
1
1
0
]
R=\begin{bmatrix}0&1\\1&0\end{bmatrix}
R=[0110] 有特征值
1
1
1 和
−
1
-1
−1。
R
R
R 不会改变特征向量
(
1
,
1
)
(1,1)
(1,1),它会反转第二个特征向量
(
1
,
−
1
)
(1,-1)
(1,−1) 的符号。一个没有负元素的矩阵也可能有负的特征值!
R
R
R 的特征向量和
P
P
P 的一样,因为
r
e
f
l
e
c
t
i
o
n
=
2
(
p
r
o
j
e
c
t
i
o
n
)
−
I
reflection = 2(projection)- I
reflection=2(projection)−I:
R
=
2
P
−
I
[
0
1
1
0
]
=
2
[
0.5
0.5
0.5
0.5
]
−
[
1
0
0
1
]
(
6.1.2
)
\pmb{R=2P-I}\kern 20pt\begin{bmatrix}0&1\\1&0\end{bmatrix}=2\begin{bmatrix}0.5&0.5\\0.5&0.5\end{bmatrix}-\begin{bmatrix}1&0\\0&1\end{bmatrix}\kern 20pt(6.1.2)
R=2P−I[0110]=2[0.50.50.50.5]−[1001](6.1.2)当一个矩阵平移
I
I
I,它的每个
λ
\lambda
λ 平移
1
1
1。 特征向量不变。
二、特征值方程
我们通过几何求得了投影矩阵的特征值
λ
\lambda
λ 和特征向量
x
\boldsymbol x
x:
P
x
=
x
P\boldsymbol x=\boldsymbol x
Px=x 和
P
x
=
0
P\boldsymbol x=\boldsymbol 0
Px=0。其它的矩阵我们要用行列式和线性代数来求解特征值和特征向量,这是关键的计算 —— 几乎所有的应用都是由求解
A
x
=
λ
x
A\boldsymbol x=\lambda\boldsymbol x
Ax=λx 开始的。
首先将
λ
x
\lambda\boldsymbol x
λx 移到左边,将方程
A
x
=
λ
x
A\boldsymbol x=\lambda\boldsymbol x
Ax=λx 写成
(
A
−
λ
I
)
x
=
0
(A-\lambda I)\boldsymbol x=\boldsymbol 0
(A−λI)x=0,矩阵
A
−
λ
I
A-\lambda I
A−λI 乘上特征向量
x
\boldsymbol x
x 得到零向量。特征向量构成了
A
−
λ
I
A-\lambda I
A−λI 的零空间。 当我们已知特征值
λ
\lambda
λ 后,就可以通过解
(
A
−
λ
I
)
x
=
0
(A-\lambda I)\boldsymbol x=\boldsymbol 0
(A−λI)x=0 来求得特征向量。
首先是特征值,如果
(
A
−
λ
I
)
x
=
0
(A-\lambda I)\boldsymbol x=\boldsymbol 0
(A−λI)x=0 有非零解,则
A
−
λ
I
A-\lambda I
A−λI 不可逆,
A
−
λ
I
A-\lambda I
A−λI 的行列式一定为零。这就是求出特征值
λ
\lambda
λ 的方法:
特征值: 当且仅当 A − λ I 奇异时,数字 λ 是 A 的特征值 特征值方程: det ( A − λ I ) = 0 ( 6.1.3 ) \begin{array}{lc}\pmb{特征值:}&\boxed{当且仅当\,A-\lambda I\,奇异时,数字\,\lambda\,是\,A\,的特征值}\\\\ \pmb{特征值方程:}&\boxed{\det(A-\lambda I)=0}\kern 40pt(6.1.3)\end{array} 特征值:特征值方程:当且仅当A−λI奇异时,数字λ是A的特征值det(A−λI)=0(6.1.3)
“特征多项式”(characteristic polynomial) det ( A − λ I ) \det(A-\lambda I) det(A−λI) 只与 λ \lambda λ 有关,和 x \boldsymbol x x 无关。当 A A A 是 n × n n\times n n×n 的矩阵时,式(6.1.3)的次数为 n n n,则 A A A 有 n n n 个特征值(有可能重复!)每个 λ \lambda λ 求得 x \boldsymbol x x:
对每个特征值 λ \lambda λ 解 ( A − λ I ) x = 0 (A-\lambda I)\boldsymbol x=\boldsymbol 0 (A−λI)x=0 或 A x = λ x A\boldsymbol x=\lambda\boldsymbol x Ax=λx 得到一个特征向量 x \boldsymbol x x。
【例4】
A
=
[
1
2
2
4
]
A=\begin{bmatrix}\pmb1&\pmb2\\\pmb2&\pmb4\end{bmatrix}
A=[1224] 已经是一个奇异矩阵(行列式为零)。求它的特征值
λ
′
s
\lambda's
λ′s 和特征向量
x
′
s
\boldsymbol x's
x′s。
当
A
A
A 是奇异,
λ
=
0
\lambda=0
λ=0 是它的一个特征值,方程
A
x
=
0
x
A\boldsymbol x=0\boldsymbol x
Ax=0x 有解,它们是
λ
=
0
\lambda=0
λ=0 的特征向量。但是
det
(
A
−
λ
I
)
=
0
\det(A-\lambda I)=0
det(A−λI)=0 是求出所有
λ
′
s
\lambda's
λ′s 和
x
′
s
\boldsymbol x's
x′s 的方法,总是从
A
A
A 减去
λ
I
\lambda I
λI:
从对角线减去
λ
得
A
−
λ
I
=
[
1
−
λ
2
2
4
−
λ
]
(
6.1.4
)
\pmb{从对角线减去\,\lambda\,得}\kern 10ptA-\lambda I=\begin{bmatrix}1-\lambda&2\\2&4-\lambda\end{bmatrix}\kern 20pt(6.1.4)
从对角线减去λ得A−λI=[1−λ224−λ](6.1.4)计算这个
2
×
2
2\times2
2×2 矩阵的行列式 “
a
d
−
b
c
ad-bc
ad−bc”,“
a
d
ad
ad” 部分是
1
−
λ
1-\lambda
1−λ 乘
4
−
λ
4-\lambda
4−λ 等于
λ
2
−
5
λ
+
4
\lambda^2-5\lambda+4
λ2−5λ+4;“
b
c
bc
bc” 部分不包含
λ
\lambda
λ,是
2
2
2 乘
2
2
2。
det
[
1
−
λ
2
2
4
−
λ
]
=
(
1
−
λ
)
(
4
−
λ
)
−
(
2
)
(
2
)
=
λ
2
−
5
λ
(
6.1.5
)
\det\begin{bmatrix}1-\lambda&2\\2&4-\lambda\end{bmatrix}=(1-\lambda)(4-\lambda)-(2)(2)=\lambda^2-5\lambda\kern 10pt(6.1.5)
det[1−λ224−λ]=(1−λ)(4−λ)−(2)(2)=λ2−5λ(6.1.5)令行列式
λ
2
−
5
λ
\lambda^2-5\lambda
λ2−5λ 为零,一个解是
λ
=
0
\lambda=0
λ=0(和预期一致,因为
A
A
A 奇异)。分解成
λ
\lambda
λ 乘
λ
−
5
\lambda-5
λ−5,另一个根是
λ
=
5
\lambda=5
λ=5:
det ( A − λ I ) = λ 2 − 5 λ = 0 \boxed{\det(A-\lambda I)=\lambda^2-5\lambda=0} det(A−λI)=λ2−5λ=0 得到特征值 λ 1 = 0 \boxed{\lambda_1=0} λ1=0 和 λ 2 = 5 \boxed{\lambda_2=5} λ2=5。
现在求特征向量。分别求解
λ
1
=
0
\lambda_1=0
λ1=0 和
λ
2
=
5
\lambda_2=5
λ2=5 时的
(
A
−
λ
I
)
x
=
0
(A-\lambda I)\boldsymbol x=\boldsymbol 0
(A−λI)x=0:
λ
1
=
0
时,有
(
A
−
0
I
)
x
=
[
1
2
2
4
]
[
y
z
]
=
[
0
0
]
得到一个特征向量
[
y
z
]
=
[
2
−
1
]
λ
2
=
5
时,有
(
A
−
5
I
)
x
=
[
−
4
2
2
−
1
]
[
y
z
]
=
[
0
0
]
得到一个特征向量
[
y
z
]
=
[
1
2
]
\lambda_1=0\,时,有(A-0I)\boldsymbol x=\begin{bmatrix}1&2\\2&4\end{bmatrix}\begin{bmatrix}y\\z\end{bmatrix}=\begin{bmatrix}0\\0\end{bmatrix}得到一个特征向量\boxed{\begin{bmatrix}y\\z\end{bmatrix}=\begin{bmatrix}\kern 7pt2\\-1\end{bmatrix}}\kern 8pt\\\,\\\lambda_2=5\,时,有(A-5I)\boldsymbol x=\begin{bmatrix}-4&\kern 7pt2\\\kern 7pt2&-1\end{bmatrix}\begin{bmatrix}y\\z\end{bmatrix}=\begin{bmatrix}0\\0\end{bmatrix}得到一个特征向量\boxed{\begin{bmatrix}y\\z\end{bmatrix}=\begin{bmatrix}1\\2\end{bmatrix}}
λ1=0时,有(A−0I)x=[1224][yz]=[00]得到一个特征向量[yz]=[2−1]λ2=5时,有(A−5I)x=[−422−1][yz]=[00]得到一个特征向量[yz]=[12]矩阵
A
−
0
I
A-0I
A−0I 和
A
−
5
I
A-5I
A−5I 都是奇异的(因为
0
0
0 和
5
5
5 都是特征值),特征向量
(
2
,
−
1
)
(2,-1)
(2,−1) 和
(
1
,
2
)
(1,2)
(1,2) 在零空间中:
(
A
−
λ
I
)
x
=
0
(A-\lambda I)\boldsymbol x=\boldsymbol 0
(A−λI)x=0 就是
A
x
=
λ
x
A\boldsymbol x=\lambda\boldsymbol x
Ax=λx。
需要强调的是:
λ
=
0
\lambda=0
λ=0 并不是什么特殊的情况,它像其它数字一样,零可能是特征值,也可能不是。如果
A
A
A 是奇异矩阵,则
λ
=
0
\lambda=0
λ=0 的特征向量充满零空间:
A
x
=
0
x
=
0
A\boldsymbol x=0\boldsymbol x=\boldsymbol 0
Ax=0x=0。如果
A
A
A 可逆,则
0
0
0 不是特征值。我们将
A
A
A 平移
I
I
I 的倍数使它奇异。
本例中,平移后的矩阵
A
−
5
I
A-5I
A−5I 是奇异的,
5
5
5 是另一个特征值。
总结: 对于求解
n
×
n
n\times n
n×n 矩阵的特征值问题,遵循以下步骤:
- 计算 A − λ I 的行列式 \color{blue}计算\,A-\lambda I\,的行列式 计算A−λI的行列式。对角线减去 λ \lambda λ,这个行列式是以 λ n \lambda^n λn 或 − λ n -\lambda^n −λn 开始,它是一个 n n n 次多项式。
- 求多项式的根 \color{blue}求多项式的根 求多项式的根。解 det ( A − λ I ) = 0 \det(A-\lambda I)=0 det(A−λI)=0,它的 n n n 个根就是 A A A 的 n n n 个特征值,它们使得 A − λ I A-\lambda I A−λI 奇异。
- 对于每个特征值 λ \lambda λ, 解 ( A − λ I ) x = 0 ,求得一个特征向量 x \color{blue}解\,(A-\lambda I)\boldsymbol x=\boldsymbol 0,求得一个特征向量\,\boldsymbol x 解(A−λI)x=0,求得一个特征向量x。
关于
2
×
2
2\times2
2×2 矩阵特征向量的注解:当
A
−
λ
I
A-\lambda I
A−λI 奇异,它的每行都是向量
(
a
,
b
)
(a,b)
(a,b) 的倍数,特征向量是
(
b
,
−
a
)
(b,-a)
(b,−a) 的任意倍数。此例有:
λ
=
0
:
A
−
0
I
的行是方向
(
1
,
2
)
;
特征向量的方向是
(
2
,
−
1
)
λ
=
5
:
A
−
5
I
的行是方向
(
−
4
,
2
)
;
特征向量的方向是
(
2
,
4
)
\lambda=0:A-0I\,的行是方向\,(1,2);特征向量的方向是\,(2,-1)\\\lambda=5:A-5I\,的行是方向\,(-4,2);特征向量的方向是\,(2,4)
λ=0:A−0I的行是方向(1,2);特征向量的方向是(2,−1)λ=5:A−5I的行是方向(−4,2);特征向量的方向是(2,4)前面我们将后一个特征向量写成
(
1
,
2
)
(1,2)
(1,2),向量
(
1
,
2
)
(1,2)
(1,2) 和
(
2
,
4
)
(2,4)
(2,4) 都是正确的,这一整条线都是特征向量 ——
x
\boldsymbol x
x 的任意非零的倍数与
x
\boldsymbol x
x 一样。MATLAB 中 eig(A) 会除以它自身的长度将这个特征向量变为单位向量。
警告:某些
2
×
2
2\times2
2×2 的矩阵只有一条直线上的特征向量,这只会发生在两个特征值相等的情况下。(另一种情况是
A
=
I
A=I
A=I 它有相等的特征值但是有整个空间的特征向量。)如果没有完整的一组特征向量,我们就没法得到一组基,就不可能将每个向量
v
\boldsymbol v
v 都写成特征向量的组合。如果没有
n
n
n 个无关的特征向量,就无法对角化一个矩阵。
三、行列式和迹
首先是一个不好的消息:如果将 A A A 的一行加到另外一行,或者交换行,特征值通常会发生改变。消元无法维持 λ \lambda λ 不变。三角矩阵 U U U 的特征值在他的对角线上 —— 就是它们的主元。但是它们不是 A A A 的特征值!当行 1 1 1 加到行 2 2 2 后,特征值会改变: U = [ 1 3 0 0 ] 的特征值是 λ = 0 和 λ = 1 ; A = [ 1 3 2 6 ] 的特征值是 λ = 0 和 λ = 7 U=\begin{bmatrix}1&3\\0&0\end{bmatrix}的特征值是\,\lambda=0\,和\lambda=1;\kern 5ptA=\begin{bmatrix}1&3\\2&6\end{bmatrix}的特征值是\,\lambda=0\,和\,\lambda=7 U=[1030]的特征值是λ=0和λ=1;A=[1236]的特征值是λ=0和λ=7然后是一个好的消息: λ 1 \lambda_1 λ1 与 λ 2 \lambda_2 λ2 的乘积和 λ 1 \lambda_1 λ1 与 λ 2 \lambda_2 λ2 的和可以很快的通过矩阵求得。对于这个 A A A,乘积是 0 0 0 乘 7 7 7,它和行列式是一样的(都是 0 0 0),特征值的和是 0 + 7 0+7 0+7,这个就是主对角线的和,这个称为迹,就是 1 + 6 1+6 1+6。这些可以用来快速检验:
n n n 个特征值的乘积等于行列式。
n n n 个特征值的和等于 n n n 个对角线元素之和。
沿着主对角线的元素之和称为 A A A 的迹(trace):
λ 1 + λ 2 + ⋯ + λ n = t r a c e = a 11 + a 22 + ⋯ + a n n ( 6.1.6 ) {\color{blue}\lambda_1+\lambda_2+\cdots+\lambda_n=\pmb{trace}=a_{11}+a_{22}+\cdots+a_{nn}}\kern 20pt(6.1.6) λ1+λ2+⋯+λn=trace=a11+a22+⋯+ann(6.1.6)
这些对于检验很有用,虽说我们无法用它来计算
λ
\lambda
λ,但是当我们计算错误时,可以很方便的检查出来。要正确计算
λ
\lambda
λ,我们还需要使用
det
(
A
−
λ
I
)
=
0
\det(A-\lambda I)=0
det(A−λI)=0。
当矩阵是
2
×
2
2\times2
2×2 时,迹和行列式会告诉我们所有的东西。下面是迹
t
r
a
c
e
=
3
trace=\pmb3
trace=3 和
det
=
2
\det =\pmb2
det=2,所以它们的特征值是
λ
=
1
\lambda=\pmb1
λ=1 和
2
\pmb2
2:
A
=
[
1
9
0
2
]
或
[
3
1
−
2
0
]
或
[
7
−
3
10
−
4
]
(
6.1.7
)
A=\begin{bmatrix}1&9\\0&2\end{bmatrix}\kern 3pt或\kern 3pt\begin{bmatrix}\kern 7pt3&1\\-2&0\end{bmatrix}\kern 3pt或\kern 3pt\begin{bmatrix}7&-3\\10&-4\end{bmatrix}\kern 20pt(6.1.7)
A=[1092]或[3−210]或[710−3−4](6.1.7)找到特征值的最佳矩阵:三角矩阵。
三角矩阵的特征值都在对角线上!
\color{blue}三角矩阵的特征值都在对角线上!
三角矩阵的特征值都在对角线上!原因:对于三角矩阵,其特征值方程为
(
a
11
−
λ
)
(
a
22
−
λ
)
⋯
(
a
n
n
−
λ
)
=
0
(a_{11}-\lambda)(a_{22}-\lambda)\cdots(a_{nn}-\lambda)=0
(a11−λ)(a22−λ)⋯(ann−λ)=0,所以解即为对角线的元素,即特征值都在对角线上。
四、虚数特征值
特征值不一定都是实数。
【例5】 90 ° 90° 90° 的旋转矩阵 Q = [ 0 − 1 1 0 ] Q=\begin{bmatrix}0&-1\\1&\kern 7pt0\end{bmatrix} Q=[01−10] 没有实数特征值。它的特征值是 λ 1 = i \lambda_1=i λ1=i 和 λ 2 = − i \lambda_2=-i λ2=−i,则 λ 1 + λ 2 = t r a c e = 0 \lambda_1+\lambda_2=trace=0 λ1+λ2=trace=0, λ 1 λ 2 = d e t e r m i n a n t = 1 \lambda_1\lambda_2=determinant=1 λ1λ2=determinant=1。
没有实数向量
x
\boldsymbol x
x 旋转后的向量
Q
x
Q\boldsymbol x
Qx 与它的方向保持一致(
x
=
0
\boldsymbol x=\boldsymbol 0
x=0 是无用的向量)。除非使用虚数,不然实数情况下没有特征向量。
Q
2
Q^2
Q2 就是
−
I
-I
−I,如果
Q
Q
Q 是旋转
90
°
90°
90°,那么
Q
2
Q^2
Q2 就是旋转
180
°
180°
180°,它的特征值就是
−
1
-1
−1 和
−
1
-1
−1(当然有
−
I
x
=
−
1
x
-I\boldsymbol x=-1\boldsymbol x
−Ix=−1x). 对
Q
Q
Q 平方也会将它的每个
λ
\lambda
λ 平方,所以有
λ
2
=
−
1
\lambda^2=-1
λ2=−1,
90
°
90°
90° 的旋转矩阵
Q
Q
Q 的特征值就是
+
i
+i
+i 和
−
i
-i
−i,因为
i
2
=
−
1
i^2=-1
i2=−1,
i
=
−
1
i=\sqrt{-1}
i=−1。
这两个
λ
\lambda
λ 也可以通过
det
(
Q
−
λ
I
)
=
0
\det(Q-\lambda I)=0
det(Q−λI)=0 求得,特征值方程可以得到
λ
2
+
1
=
0
\lambda^2+1=0
λ2+1=0,它的根是
i
i
i 和
−
i
-i
−i,在特征向量中也会出现虚数
i
i
i:
复数特征向量
[
0
−
1
1
0
]
[
1
i
]
=
−
i
[
1
i
]
和
[
0
−
1
1
0
]
[
i
1
]
=
i
[
i
1
]
\pmb{复数特征向量}\kern 15pt\begin{bmatrix}0&-1\\1&\kern 7pt0\end{bmatrix}\begin{bmatrix}1\\i\end{bmatrix}=-i\begin{bmatrix}1\\i\end{bmatrix}\kern 4pt和\kern 4pt\begin{bmatrix}0&-1\\1&\kern 7pt0\end{bmatrix}\begin{bmatrix}i\\1\end{bmatrix}=i\begin{bmatrix}i\\1\end{bmatrix}
复数特征向量[01−10][1i]=−i[1i]和[01−10][i1]=i[i1]这些复数向量
x
1
=
(
1
,
i
)
\boldsymbol x_1=(1,i)
x1=(1,i) 和
x
2
=
(
i
,
1
)
\boldsymbol x_2=(i,1)
x2=(i,1) 在旋转后仍然维持着它们原来的方向。这个例子指出了最重要的一点,实数矩阵很容易有复数特征值和复数特征向量,这些特殊的特征值
i
i
i 和
−
i
-i
−i 也表明了
Q
Q
Q 的两个特殊性质:
- Q Q Q 是一个正交矩阵所以每个 λ \lambda λ 的绝对值是 ∣ λ ∣ = 1 |\lambda|=1 ∣λ∣=1.
- Q Q Q 是一个反对称矩阵所以每个 λ \lambda λ 都是纯虚数。
对称矩阵
S
T
=
S
S^T=S
ST=S 可以类比成实数,反对称矩阵
A
T
=
−
A
A^T=-A
AT=−A 可以类比为虚数,正交矩阵
Q
T
Q
=
I
Q^TQ=I
QTQ=I 可以对应
∣
λ
∣
=
1
|\lambda|=1
∣λ∣=1 的复数。
S
、
A
S、A
S、A 和
Q
Q
Q 的特征值来说不只是类比,而是事实。
这些特殊矩阵的特殊向量都相互垂直,
(
i
,
1
)
(i,1)
(i,1) 和
(
1
,
i
)
(1,i)
(1,i) 也垂直(复数的点积)。
五、AB 和 A+B 的特征值
第一个关于
A
B
AB
AB 特征值的猜想是错误的,
A
A
A 的特征值
λ
\lambda
λ 乘上
B
B
B 的特征值
β
\beta
β 通常不等于
A
B
AB
AB 的特征值:
错误证明
A
B
x
=
A
β
x
=
β
A
x
=
β
λ
x
(
6.1.8
)
\pmb{错误证明}\kern 30ptAB\boldsymbol x=A\beta\boldsymbol x=\beta A\boldsymbol x=\beta\lambda\boldsymbol x\kern 10pt(6.1.8)
错误证明ABx=Aβx=βAx=βλx(6.1.8)上面看起来
β
\beta
β 乘上
λ
\lambda
λ 是一个特征值,但是只有当
x
\boldsymbol x
x 是
A
A
A 和
B
B
B 的特征向量时,这个证明才是正确的。这个错误是假设了
A
A
A 和
B
B
B 有相同的特征向量
x
\boldsymbol x
x。通常这个假设是不成立的,
A
A
A 的特征向量一般情况想并不是
B
B
B 的特征向量。下例中
A
A
A 和
B
B
B 的特征值都是零然而
1
1
1 却是
A
B
AB
AB 的特征值:
A
=
[
0
1
0
0
]
,
B
=
[
0
0
1
0
]
;
则
A
B
=
[
1
0
0
0
]
,
A
+
B
=
[
0
1
1
0
]
A=\begin{bmatrix}0&1\\0&0\end{bmatrix},\kern 5ptB=\begin{bmatrix}0&0\\1&0\end{bmatrix};\kern 5pt则\,AB=\begin{bmatrix}1&0\\0&0\end{bmatrix},\kern 5ptA+B=\begin{bmatrix}0&1\\1&0\end{bmatrix}
A=[0010],B=[0100];则AB=[1000],A+B=[0110]同样的理由,
A
+
B
A+B
A+B 的特征值通常也不是
λ
+
β
\lambda+\beta
λ+β,本例中
λ
+
β
=
0
\lambda+\beta=0
λ+β=0,而
A
+
B
A+B
A+B 的特征值是
1
1
1 和
−
1
-1
−1(至少它们的和为零。)
前面的错误证明需要附加一个条件,假设
x
\boldsymbol x
x 确实同时是
A
A
A 和
B
B
B 的特征向量,则有
A
B
x
=
λ
β
x
AB\boldsymbol x=\lambda\beta\boldsymbol x
ABx=λβx 且
B
A
x
=
λ
β
x
BA\boldsymbol x=\lambda\beta\boldsymbol x
BAx=λβx,若所有的
n
n
n 个特征向量都一样,我们就可以将特征值相乘。
A
B
=
B
A
AB=BA
AB=BA 特征向量的测试在量子力学中很重要 —— 这个是线性代数的应用:
当且仅当 A B = B A AB=BA AB=BA,则 A A A 和 B B B 有同样的 n n n 个无关的特征向量。
海森堡不确定原理 \color{blue}海森堡不确定原理 海森堡不确定原理(Heisenberg’s uncertainty principle):在量子力学中,位置矩阵 P P P 和动量矩阵 Q Q Q 不能交换位置,实际上 Q P − P Q = I QP-PQ=I QP−PQ=I(这些是无限矩阵)。要同时有 P x = 0 P\boldsymbol x=\boldsymbol 0 Px=0 和 Q x = 0 Q\boldsymbol x=\boldsymbol 0 Qx=0 需要 x = I x = 0 \boldsymbol x=I\boldsymbol x=\boldsymbol 0 x=Ix=0,如果我们知道准确的位置,我们就不可能准确的知道动量。海森堡不确定原理: ∣ ∣ P x ∣ ∣ ∣ ∣ Q x ∣ ∣ ≥ 1 2 ∣ ∣ x ∣ ∣ 2 ||P\boldsymbol x||||Q\boldsymbol x||\geq\frac{1}{2}||\boldsymbol x||^2 ∣∣Px∣∣∣∣Qx∣∣≥21∣∣x∣∣2。
六、主要内容总结
- A x = λ x A\boldsymbol x=\lambda\boldsymbol x Ax=λx 说的是特征向量 x \boldsymbol x x 被 A A A 乘前后,保持这同样的方向。
- A x = λ x A\boldsymbol x=\lambda\boldsymbol x Ax=λx 也表明 det ( A − λ I ) = 0 \det(A-\lambda I)=0 det(A−λI)=0,这个方程决定了 n n n 个特征值。
- A 2 A^2 A2 和 A − 1 A^{-1} A−1 的特征值是 λ 2 \lambda^2 λ2 和 λ − 1 \lambda^{-1} λ−1,它们的特征向量一样。
- 特征值的和 λ ′ s \lambda's λ′s 等于 A A A 主对角线元素的和(迹)。特征值的乘积 λ ′ s \lambda's λ′s 等于 A A A 的行列式。
- 投影矩阵 P P P,反射矩阵 R R R, 90 ° 90° 90° 旋转矩阵 Q Q Q 有特殊的特征值 1 1 1, 0 0 0, − 1 -1 −1, i i i, − i -i −i,奇异矩阵有 λ = 0 \lambda=0 λ=0;三角矩阵的特征值 λ ′ s \lambda's λ′s 在对角线上。
- 矩阵的特殊性质会得到特殊的特征值和特征向量。
七、例题
【例6】求下列矩阵的特征值和特征向量:
A
、
A
2
、
A
−
1
A、A^2、A^{-1}
A、A2、A−1 和
A
+
4
I
A+4I
A+4I。
A
=
[
2
−
1
−
1
2
]
,
A
2
=
[
5
−
4
−
4
5
]
A=\begin{bmatrix}\kern 7pt2&-1\\-1&\kern 7pt2\end{bmatrix},\kern 5ptA^2=\begin{bmatrix}\kern 7pt5&-4\\-4&\kern 7pt5\end{bmatrix}
A=[2−1−12],A2=[5−4−45]验证迹
λ
1
+
λ
2
=
4
\lambda_1+\lambda_2=4
λ1+λ2=4 和行列式
λ
1
λ
2
=
3
\lambda_1\lambda_2=3
λ1λ2=3。
解:
A
A
A 的特征值方程
det
(
A
−
λ
I
)
=
0
\det(A-\lambda I)=0
det(A−λI)=0:
A
=
[
2
−
1
−
1
2
]
det
(
A
−
λ
I
)
=
∣
2
−
λ
−
1
−
1
2
−
λ
∣
=
λ
2
−
4
λ
+
3
=
0
A=\begin{bmatrix}\kern 7pt2&-1\\-1&\kern 7pt2\end{bmatrix}\kern 20pt\det(A-\lambda I)=\begin{vmatrix}2-\lambda&-1\\-1&2-\lambda\end{vmatrix}=\lambda^2-4\lambda+3=0
A=[2−1−12]det(A−λI)=
2−λ−1−12−λ
=λ2−4λ+3=0分解成
(
λ
−
1
)
(
λ
−
3
)
=
0
(\lambda-1)(\lambda-3)=0
(λ−1)(λ−3)=0,所以
A
A
A 的特征值是
λ
1
=
1
\lambda_1=1
λ1=1 和
λ
2
=
3
\lambda_2=3
λ2=3。迹是
2
+
2
2+2
2+2 等于
1
+
3
1+3
1+3;行列式是
3
3
3 等于乘积
λ
1
λ
2
\lambda_1\lambda_2
λ1λ2。
对不同的特征值分别求解
(
A
−
λ
I
)
x
=
0
(A-\lambda I)\boldsymbol x=\boldsymbol 0
(A−λI)x=0 即
A
x
=
λ
x
A\boldsymbol x=\lambda\boldsymbol x
Ax=λx 可得特征向量:
λ
=
1
:
(
A
−
I
)
x
=
[
1
−
1
−
1
1
]
[
x
y
]
=
[
0
0
]
得到特征向量
x
1
=
[
1
1
]
λ
=
3
:
(
A
−
3
I
)
x
=
[
−
1
−
1
−
1
−
1
]
[
x
y
]
=
[
0
0
]
得到特征向量
x
2
=
[
1
−
1
]
\begin{array}{l}\pmb{\lambda=1:}(A-I)\boldsymbol x=\begin{bmatrix}\kern 7pt1&-1\\-1&\kern 7pt1\end{bmatrix}\begin{bmatrix}x\\y\end{bmatrix}=\begin{bmatrix}0\\0\end{bmatrix}得到特征向量\kern 4pt\boldsymbol x_1=\begin{bmatrix}1\\1\end{bmatrix}\\\,\\\pmb{\lambda=3:}(A-3I)\boldsymbol x=\begin{bmatrix}-1&-1\\-1&-1\end{bmatrix}\begin{bmatrix}x\\y\end{bmatrix}=\begin{bmatrix}0\\0\end{bmatrix}得到特征向量\kern 4pt\boldsymbol x_2=\begin{bmatrix}\kern 7pt1\\-1\end{bmatrix}\end{array}
λ=1:(A−I)x=[1−1−11][xy]=[00]得到特征向量x1=[11]λ=3:(A−3I)x=[−1−1−1−1][xy]=[00]得到特征向量x2=[1−1]
A
2
、
A
−
1
A^2、A^{-1}
A2、A−1 和
A
+
4
I
A+4I
A+4I 特征向量与
A
A
A 的相同,特征值是
λ
2
、
λ
−
1
\lambda^2、\lambda^{-1}
λ2、λ−1 和
λ
+
4
\lambda+4
λ+4:
A
2
的特征值是:
1
2
=
1
和
3
2
=
9
A
−
1
的特征值是:
1
1
和
1
3
A
+
4
I
的特征值是:
1
+
4
=
5
和
3
+
4
=
7
A^2\,的特征值是:1^2=1\,和\,3^2=9\kern 10ptA^{-1}\,的特征值是:\frac{1}{1}\,和\,\frac{1}{3}\kern 10ptA+4I\,的特征值是:1+4=5\,和\,3+4=7
A2的特征值是:12=1和32=9A−1的特征值是:11和31A+4I的特征值是:1+4=5和3+4=7注:
A
A
A 有正交的特征向量(对称矩阵);
A
A
A 可以对角化(因为
λ
1
≠
λ
2
\lambda_1\neq\lambda_2
λ1=λ2);
A
A
A 和任意的特征值是
1
1
1 和
3
3
3 的
2
×
2
2\times2
2×2 的矩阵相似;
A
A
A 是一个正定矩阵,因为
A
=
A
T
A=A^T
A=AT 且
λ
′
s
\lambda's
λ′s 都是正的。
【例7】如果估算任意
A
A
A 的特征值? 戈氏圆盘定理(Gershgorin)就说明这个问题的。
解:
A
A
A 的每个特征值一定接近至少一个主对角线上的元素
a
i
i
a_{ii}
aii。
λ
\lambda
λ 接近
a
i
i
a_{ii}
aii 表示
∣
a
i
i
−
λ
∣
|a_{ii}-\lambda|
∣aii−λ∣ 不大于该行
i
i
i 的其它元素的绝对值
∣
a
i
j
∣
|a_{ij}|
∣aij∣ 的和
R
i
R_i
Ri,其中
R
i
=
∑
j
≠
i
∣
a
i
j
∣
R_i=\sum_{j\neq i}|a_{ij}|
Ri=∑j=i∣aij∣ 是以
a
i
i
a_{ii}
aii 为中心的圆的半径。
每个
λ
都在一个或多个对角线元素
a
i
i
为圆心的圆内:
∣
a
i
i
−
λ
∣
≤
R
i
\pmb{每个\,\lambda\,都在一个或多个对角线元素\,a_{ii}\,为圆心的圆内:|a_{ii}-\lambda|\leq R_i}
每个λ都在一个或多个对角线元素aii为圆心的圆内:∣aii−λ∣≤Ri原因:如果
λ
\lambda
λ 是一个特征值,则
A
−
λ
I
A-\lambda I
A−λI 不可逆,则
A
−
λ
I
A-\lambda I
A−λI 不可能是对角线优势矩阵(diagonally dominant一定可逆),所以至少有一个对角线元素
a
i
i
−
λ
a_{ii}-\lambda
aii−λ 不大于该行
i
i
i 其它元素的绝对值
∣
a
i
j
∣
|a_{ij}|
∣aij∣ 的和
R
i
R_i
Ri(这里取绝对值!)
(a)
A
A
A 的每个特征值
λ
\lambda
λ 落在一个或两个 Gershgorin circles 中:圆心是
a
a
a 和
d
d
d,半径是
R
1
=
∣
b
∣
R_1=|b|
R1=∣b∣ 和
R
2
=
∣
c
∣
R_2=|c|
R2=∣c∣。
A
=
[
a
b
c
d
]
第一个圆:
∣
λ
−
a
∣
≤
∣
b
∣
第二个圆:
∣
λ
−
d
∣
≤
∣
c
∣
A=\begin{bmatrix}a&b\\c&d\end{bmatrix}\kern 15pt\begin{array}{l}第一个圆:|\lambda-a|\leq|b|\\第二个圆:|\lambda-d|\leq|c|\end{array}
A=[acbd]第一个圆:∣λ−a∣≤∣b∣第二个圆:∣λ−d∣≤∣c∣这些圆是在复平面内,因为
λ
\lambda
λ 可以为复数。
(b)
A
A
A 的所有特征值都在半径为
3
3
3 的圆中,圆心是对角线元素
d
1
,
d
2
,
d
3
d_1,d_2,d_3
d1,d2,d3:
A
=
[
d
1
1
2
2
d
2
1
−
1
2
d
3
]
∣
λ
−
d
1
∣
≤
1
+
2
=
R
1
∣
λ
−
d
2
∣
≤
2
+
1
=
R
2
∣
λ
−
d
3
∣
≤
1
+
2
=
R
3
A=\begin{bmatrix}\kern 6ptd_1&1&2\\\kern 7pt2&d_2&1\\-1&2&d_3\end{bmatrix}\kern 15pt\begin{array}{l}|\lambda-d_1|\leq1+2=R_1\\|\lambda-d_2|\leq2+1=R_2\\|\lambda-d_3|\leq1+2=R_3\end{array}
A=
d12−11d2221d3
∣λ−d1∣≤1+2=R1∣λ−d2∣≤2+1=R2∣λ−d3∣≤1+2=R3本例中 “接近”(near)表示距离
d
1
d_1
d1 或
d
2
d_2
d2 或
d
3
d_3
d3 不超过
3
3
3。
【例8】求
3
×
3
3\times3
3×3 对称矩阵
S
S
S 的特征值和特征向量:
对称矩阵
奇异矩阵
迹
1
+
2
+
1
=
4
S
=
[
1
−
1
0
−
1
2
−
1
0
−
1
1
]
{\color{blue}\begin{array}{l}对称矩阵\\奇异矩阵\\迹\,1+2+1=4\end{array}}\kern 20ptS=\begin{bmatrix}\kern 7pt1&-1&\kern 7pt0\\-1&\kern 7pt2&-1\\\kern 7pt0&-1&\kern 7pt1\end{bmatrix}
对称矩阵奇异矩阵迹1+2+1=4S=
1−10−12−10−11
解: 由于
S
S
S 的所有行加起来为零,向量
x
=
(
1
,
1
,
1
)
\boldsymbol x=(1,1,1)
x=(1,1,1) 得到
S
x
=
0
S\boldsymbol x=\boldsymbol 0
Sx=0,所以这是
λ
=
0
\lambda=0
λ=0 对应的特征向量。要求
λ
2
\lambda_2
λ2 和
λ
3
\lambda_3
λ3 计算这个
3
×
3
3\times3
3×3 的行列式:
det
(
S
−
λ
I
)
=
∣
1
−
λ
−
1
0
−
1
2
−
λ
−
1
0
−
1
1
−
λ
∣
=
(
1
−
λ
)
(
2
−
λ
)
(
1
−
λ
)
−
2
(
1
−
λ
)
=
(
1
−
λ
)
[
(
2
−
λ
)
(
1
−
λ
)
−
2
]
=
(
1
−
λ
)
(
−
λ
)
(
3
−
λ
)
\det(S-\lambda I)=\begin{vmatrix}1-\lambda&-1&0\\-1&2-\lambda&-1\\0&-1&1-\lambda\end{vmatrix}=(1-\lambda)(2-\lambda)(1-\lambda)-2(1-\lambda)=(1-\lambda)[(2-\lambda)(1-\lambda)-2]=\pmb{(1-\lambda)(-\lambda)(3-\lambda)}
det(S−λI)=
1−λ−10−12−λ−10−11−λ
=(1−λ)(2−λ)(1−λ)−2(1−λ)=(1−λ)[(2−λ)(1−λ)−2]=(1−λ)(−λ)(3−λ)由这三个因式可以得到
λ
=
0
,
1
,
3
\lambda=0,1,3
λ=0,1,3,每个特征值对应一个特征向量(或特征向量的直线):
x
1
=
[
1
1
1
]
S
x
1
=
0
x
1
x
2
=
[
1
0
−
1
]
S
x
2
=
1
x
2
x
3
=
[
1
−
2
1
]
S
x
3
=
3
x
3
\boldsymbol x_1=\begin{bmatrix}1\\1\\1\end{bmatrix}\kern 5ptS\boldsymbol x_1=0\boldsymbol x_1\kern 10pt\boldsymbol x_2=\begin{bmatrix}\kern 7pt1\\\kern 7pt0\\-1\end{bmatrix}\kern 5ptS\boldsymbol x_2=1\boldsymbol x_2\kern 10pt\boldsymbol x_3=\begin{bmatrix}\kern 7pt1\\-2\\\kern 7pt1\end{bmatrix}\kern 5ptS\boldsymbol x_3=3\boldsymbol x_3
x1=
111
Sx1=0x1x2=
10−1
Sx2=1x2x3=
1−21
Sx3=3x3此时
S
S
S 是对称矩阵,它的特征向量互相垂直,这个例子比较好求出特征值。对于大型矩阵可以使用 eig(A)
,使用行列式比较麻烦。
完整的指令是 [X,E] = eig(A)
得到的
X
X
X 的列是单位向量。