奇异值分解(SVD)

1 奇异值分解(SVD)简介

Beltrami 和 Jordan 被认为是奇异值分解（Singular Value Decomposition，SVD）的共同开创者，二人于19世纪70年代相继提出了相关理论。奇异值分解主要解决的问题是数据降维。在高维度的数据中，数据往往是稀疏的，或者数据往往由几个重要的成分表达了大部分信息。因此，通过降维可以很好地化繁为简的解决问题，也可以降低数据的存储成本和运算成本。

奇异值分解有着比较广泛的应用，在图像处理、推荐系统中都有着比较重要的应用。

2 奇异值分解的基本原理

2.1 特征值与特征向量

对于 $eq?n$ 阶方阵 $eq?A$ ，若存在非零向量 $eq?%5Cbeta$ 和非负值 $eq?%5Clambda$ ，使得 $eq?A%5Cbeta%20%3D%5Clambda%20%5Cbeta$ ，则 $eq?%5Clambda$ 称为线性变换 $eq?A$ 的特征值， $eq?%5Cbeta$ 称为特征值 $eq?%5Clambda$ 的特征向量。

若方阵 $eq?A$ 的所有特征值为 $eq?%5Clambda%20_%7B1%7D%2C%5Clambda%20_%7B2%7D%2C...%2C%5Clambda%20_%7Bn%7D$ ，对应的一组特征向量为 $eq?%5Cbeta%20_%7B1%7D%2C%5Cbeta%20_%7B2%7D%2C...%2C%5Cbeta%20_%7Bn%7D$ ，

记 $eq?S%3D%5Cbegin%7Bbmatrix%7D%20%5Clambda%20_%7B1%7D%20%26%20%26%20%26%20%5C%5C%20%26%20%5Clambda%20_%7B2%7D%20%26%20%26%20%5C%5C%20%26%20%26%20...%20%26%20%5C%5C%20%26%20%26%20%26%20%5Clambda%20_%7Bn%7D%20%5Cend%7Bbmatrix%7D$ ， $eq?B%3D%5Cleft%20%28%5Cbeta%20_%7B1%7D%2C%5Cbeta%20_%7B2%7D%2C...%2C%5Cbeta%20_%7Bn%7D%20%5Cright%20%29$

则有 $eq?AB%3DBS$ 。

当 $eq?A$ 为实对称阵时，存在单位正交向量 $eq?%5Cbeta%20_%7B1%7D%2C%5Cbeta%20_%7B2%7D%2C...%2C%5Cbeta%20_%7Bn%7D$ 构成单位正交阵 $eq?B%3D%5Cleft%20%28%5Cbeta%20_%7B1%7D%2C%5Cbeta%20_%7B2%7D%2C...%2C%5Cbeta%20_%7Bn%7D%20%5Cright%20%29$ 。对于正交阵 $eq?B%5E%7B-1%7D%3DB%5E%7BT%7D$ ，从而 $eq?ABB%5E%7B-1%7D%3DBSB%5E%7B-1%7D%5CRightarrow%20A%3DBSB%5E%7B-1%7D%3DBSB%5E%7BT%7D$ 。

上式实际上是实现了将实对称阵 $eq?A$ 对角化成 $eq?S$ 。

2.2 矩阵的秩

矩阵 $eq?A$ 任意选取的行和列的形成 $eq?k$ 阶矩阵，其行列式称为矩阵 $eq?A$ 的 $eq?k$ 阶子式。矩阵 $eq?A$ 的不为零的子式的最大阶数称为矩阵 $eq?A$ 的秩。

对于 $m \times n$ 矩阵 $eq?A$ ，其秩记为 $eq?rank%28A%29%3Dr$ 。

对于方阵，其秩等于大于0的特征值的个数。

这里的 $eq?r$ 也等于后文中大于0的奇异值的个数。

2.3 矩阵分解

2.3.1 矩阵分解的概念

任意 $m*n$ 矩阵 $eq?A$ 都可分解为三个矩阵的乘积，即 $eq?A%3DUSV%5E%7BT%7D$ ... (1)式。

其中 $eq?U$ 是 $m*m$ 的正交矩阵， $eq?S$ 是 $m*n$ 的非负对角阵， $eq?V$ 是 $n*n$ 的正交矩阵。 $eq?U$ 被称为左奇异向量， $eq?S$ 称为奇异值， $eq?V$ 称为右奇异向量。

其中 $eq?U%3D%5Cbegin%7Bbmatrix%7D%20u_%7B11%7D%20%26%20u_%7B21%7D%20%26%20...%26u_%7Bm1%7D%20%5C%5C%20u_%7B12%7D%26%20u_%7B22%7D%20%26...%20%26u_%7Bm2%7D%20%5C%5C%20.%26%20.%20%26%20...%26%20.%5C%5C%20u_%7B1m%7D%26%20u_%7B2m%7D%20%26...%20%26%20u_%7Bmm%7D%20%5Cend%7Bbmatrix%7D_%7Bm%5Ctimes%20m%7D$ ， $eq?S%3D%5Cbegin%7Bbmatrix%7D%20%5C%20%5Csigma%20_%7B1%7D%20%26%20%26%20%26%20%5C%5C%20%26%20...%20%26%20%26%20%5C%5C%20%26%20%26%20%5Csigma%20_%7Br%7D%26%20%5C%5C%20%26%20%26%20...%26%200%5Cend%7Bbmatrix%7D_%7Bm%5Ctimes%20n%7D$ ， $eq?V%5E%7BT%7D%3D%5Cbegin%7Bbmatrix%7D%20v_%7B11%7D%20%26%20v_%7B12%7D%20%26%20...%26v_%7B1n%7D%20%5C%5C%20v_%7B21%7D%26%20v_%7B22%7D%20%26...%20%26v_%7B2n%7D%20%5C%5C%20.%26%20.%20%26%20...%26%20.%5C%5C%20v_%7Bn1%7D%26%20v_%7Bn2%7D%20%26...%20%26%20v_%7Bnn%7D%20%5Cend%7Bbmatrix%7D_%7Bn%5Ctimes%20n%7D$ ，并且 $eq?%5Csigma%20_%7B1%7D%5Cgeqslant%20%5Csigma%20_%7B2%7D%5Cgeqslant%20...%5Csigma%20_%7Br%7D%5Cgeqslant%200$ 。

当如上进行矩阵分解后，我们选择奇异值 $eq?%5Csigma%20_%7B1%7D%2C%5Csigma%20_%7B2%7D%2C...%2C%5Csigma%20_%7Br%7D$ 中的前 $eq?k$ 个奇异值 $eq?%5Csigma%20_%7B1%7D%2C%5Csigma%20_%7B2%7D%2C...%2C%5Csigma%20_%7Bk%7D$ ，对应的 $eq?U%2CV$ 选择前 $eq?k$ 列的元素，得到的 $eq?U_%7Bm%5Ctimes%20k%7DS_%7Bk%5Ctimes%20k%7DV_%7Bn%5Ctimes%20k%7D%5E%7BT%7D$ 称为矩阵 $eq?A$ 的截断奇异值分解。

截断奇异值分解可以看作对数据 $eq?A$ 的降维，即 $eq?A%5Capprox%20U_%7Bm%5Ctimes%20k%7DS_%7Bk%5Ctimes%20k%7DV_%7Bn%5Ctimes%20k%7D%5E%7BT%7D$

2.3.2 奇异值分解的推导

对于矩阵 $eq?A$ 的奇异值分解，假设存在满足前述条件的 $eq?U%2CS%2CV$ ，使得 $eq?A%3DUSV%5E%7BT%7D$ 则有

$eq?A%5E%7BT%7DA%3D%28USV%5E%7BT%7D%29%5E%7BT%7DUSV%5E%7BT%7D%3DVS%5E%7BT%7DU%5E%7BT%7DUSV%5E%7BT%7D%3DVS%5E%7BT%7DSV%5E%7BT%7D$ 。

由于 $eq?S$ 为对角阵，因此 $eq?S%5E%7BT%7D$ 仍为对角阵， $eq?S%5E%7BT%7DS$ 为 $eq?n%5Ctimes%20n$ 阶对角阵。

$eq?S%5E%7BT%7DS%3D%5Cbegin%7Bbmatrix%7D%20%5Csigma%20_%7B1%7D%5E%7B2%7D%20%26%20%26%20%26%20%5C%5C%20%26%20...%20%26%20%26%20%5C%5C%20%26%20%26%20%5Csigma%20_%7Br%7D%5E%7B2%7D%20%26%20%5C%5C%20%26%20%26%20...%20%26%200%20%5Cend%7Bbmatrix%7D_%7Bn%5Ctimes%20n%7D$ ，不妨将其记为 $eq?S%5E%7B2%7D$ 。

则 $eq?A%5E%7BT%7DA%3DVS%5E%7B2%7DV%5E%7BT%7D$ 。

由于 $eq?V$ 为正交矩阵， $eq?V%5E%7BT%7DV%3DE$ ，因此将上式右侧同乘以 $eq?V$ ，得到

$eq?A%5E%7BT%7DAV%3DVS%5E%7B2%7D$ 。

由于 $eq?A%5E%7BT%7DA$ 为实对称阵，一定存在一组非负特征值和对应的特征向量（单位正交向量），不妨记该 $eq?n$ 个特征值为 $eq?%5Csigma%20_%7B1%7D%5E%7B2%7D%2C%5Csigma%20_%7B2%7D%5E%7B2%7D%2C...%2C%5Csigma%20_%7Br%7D%5E%7B2%7D%2C0%2C...%2C0$ （ $eq?%5Csigma%20_%7B1%7D%5Cgeqslant%20%5Csigma%20_%7B2%7D%5Cgeqslant%20...%5Csigma%20_%7Br%7D%3E0$ ）。对应的特征向量（单位正交向量）分别记为 $eq?v_%7B1%7D%2Cv_%7B2%7D%2C...%2Cv_%7Bn%7D$ 。

将特征值开方后得到 $eq?%5Csigma%20_%7B1%7D%2C%5Csigma%20_%7B2%7D%2C...%2C%5Csigma%20_%7Br%7D%2C0%2C...%2C0$ 。

令 $eq?S%3D%5Cbegin%7Bbmatrix%7D%20%5C%20%5Csigma%20_%7B1%7D%20%26%20%26%20%26%20%5C%5C%20%26%20...%20%26%20%26%20%5C%5C%20%26%20%26%20%5Csigma%20_%7Br%7D%26%20%5C%5C%20%26%20%26%20...%26%200%5Cend%7Bbmatrix%7D_%7Bm%5Ctimes%20n%7D$ ， $eq?V%3D%28v_%7B1%7D%2Cv_%7B2%7D%2C...%2Cv_%7Bn%7D%29$ ，

则正好找到了对应的 $eq?S$ 和 $eq?V$ ，使得(1)式成立。

对于实对称阵 $eq?AA%5E%7BT%7D$ ，其非零特征值与 $eq?A%5E%7BT%7DA$ 的特征值相同，也为 $eq?%5Csigma%20_%7B1%7D%5E%7B2%7D%2C%5Csigma%20_%7B2%7D%5E%7B2%7D%2C...%2C%5Csigma%20_%7Br%7D%5E%7B2%7D$ （ $eq?%5Csigma%20_%7B1%7D%5Cgeqslant%20%5Csigma%20_%7B2%7D%5Cgeqslant%20...%5Csigma%20_%7Br%7D%3E0$ ），其余 $eq?m-r$ 个特征值为0。对应的特征向量（单位正交向量）分别记为 $eq?u_%7B1%7D%2Cu_%7B2%7D%2C...%2Cu_%7Bm%7D$ 。

将特征值开方后得到 $eq?%5Csigma%20_%7B1%7D%2C%5Csigma%20_%7B2%7D%2C...%2C%5Csigma%20_%7Br%7D%2C0%2C...%2C0$ 。

同理，有 $eq?AA%5E%7BT%7DV%3DUS%5E%7B2%7D$

令 $eq?S%3D%5Cbegin%7Bbmatrix%7D%20%5C%20%5Csigma%20_%7B1%7D%20%26%20%26%20%26%20%5C%5C%20%26%20...%20%26%20%26%20%5C%5C%20%26%20%26%20%5Csigma%20_%7Br%7D%26%20%5C%5C%20%26%20%26%20...%26%200%5Cend%7Bbmatrix%7D_%7Bm%5Ctimes%20n%7D$ ， $eq?U%3D%28u_%7B1%7D%2Cu_%7B2%7D%2C...%2Cu_%7Bm%7D%29$ ，

则正好找到了对应的 $eq?S$ 和 $eq?U$ ，使得(1)式成立。

如此，求出了（1）式所需的 $eq?U%2CS%2CV$ ，问题得解。

3 奇异值分解的步骤

3.1 计算奇异值

计算矩阵乘积 $eq?A%5E%7BT%7DA$ ，求解 $eq?%5Cleft%20%7C%20%5Csigma%20E-A%5E%7BT%7DA%20%5Cright%20%7C%3D0$ ，得到大于零的特征值 $eq?%5Csigma%20_%7B1%7D%5E%7B2%7D%2C%5Csigma%20_%7B2%7D%5E%7B2%7D%2C...%2C%5Csigma%20_%7Br%7D%5E%7B2%7D%28%5Csigma%20_%7B1%7D%5Cgeqslant%20%5Csigma%20_%7B2%7D%5Cgeqslant%20...%5Csigma%20_%7Br%7D%3E0%29$ 。

3.2 求解右奇异向量

将特征值 $eq?%5Csigma%20_%7B1%7D%5E%7B2%7D%2C%5Csigma%20_%7B2%7D%5E%7B2%7D%2C...%2C%5Csigma%20_%7Br%7D%5E%7B2%7D$ 代入 $eq?%28%5Csigma%20E-A%5E%7BT%7DA%29V%3D0$ ，求解得 $eq?A%5E%7BT%7DA$ 的特征向量，并将其单位化，记为 $eq?v_%7B1%7D%2Cv_%7B2%7D%2C...%2Cv_%7Bn%7D$ 。

令 $eq?V%3D%28v_%7B1%7D%2Cv_%7B2%7D%2C...%2Cv_%7Bn%7D%29$ ，得右奇异向量。

3.3 求解左奇异向量

将特征值 $eq?%5Csigma%20_%7B1%7D%5E%7B2%7D%2C%5Csigma%20_%7B2%7D%5E%7B2%7D%2C...%2C%5Csigma%20_%7Br%7D%5E%7B2%7D$ 代入 $eq?%28%5Csigma%20E-AA%5E%7BT%7D%29U%3D0$ ，求解得 $eq?AA%5E%7BT%7D$ 的特征向量，并将其单位化，记为 $eq?u_%7B1%7D%2Cu_%7B2%7D%2C...%2Cu_%7Bm%7D$ 。

令 $eq?U%3D%28u_%7B1%7D%2Cu_%7B2%7D%2C...%2Cu_%7Bm%7D%29$ ，得左奇异向量。

矩阵的奇异值分解完成。

4 奇异值分解的实例

numpy模块中有自带的奇异值分解函数。

import numpy as np
# 创建矩阵A
A = np.array([[3, 0, 0, 0],
              [0, 0, 0, 4],
              [0, 5, 0, 0],
              [0, 0, 0, 2],
              [2, 0, 0, 0]])
 
# 进行奇异值分解
U, S, V = np.linalg.svd(A)
# 打印结果
print("U:\n", U)
print("S:", S)
print("V:\n", V)

U:
 [[ 0.          0.         -0.83205029 -0.         -0.5547002 ]
 [ 0.          0.89442719  0.          0.4472136   0.        ]
 [-1.          0.          0.          0.          0.        ]
 [ 0.          0.4472136   0.         -0.89442719  0.        ]
 [ 0.          0.         -0.5547002   0.          0.83205029]]
S: [5.         4.47213595 3.60555128 0.        ]
V:
 [[-0. -1. -0. -0.]
 [ 0.  0.  0.  1.]
 [-1. -0. -0. -0.]
 [-0. -0. -1. -0.]]