第15章奇异值分解：习题解答及其案例

这一章初学建议看该视频学习，讲得歪瑞古德： 《统计学习方法》李航第15章奇异值分解

1.矩阵的奇异值分解是指将 $\times n$ 实矩阵 $A$ 表示为以下三个实矩阵乘积形式的运算
$\Sigma V ^ { T }$

其中 $U$ 是 $m$ 阶正交矩阵， $V$ 是 $n$ 阶正交矩阵， $\Sigma$ 是 $\times n$ 矩形对角矩阵
$\Sigma = \operatorname { diag } ( \sigma _ { 1 } , \sigma _ { 2 } , \cdots , \sigma _ { p } ) , \quad p = \operatorname { min } \{ m , n \}$
其对角线元素非负，且满足 $\sigma _ { 1 } \geq \sigma _ { 2 } \geq \cdots \geq \sigma _ { p } \geq 0$

2.任意给定一个实矩阵，其奇异值分解一定存在，但并不唯一。

3.奇异值分解包括紧奇异值分解和截断奇异值分解。紧奇异值分解是与原始矩阵等秩的奇异值分解，截断奇异值分解是比原始矩阵低秩的奇异值分解。

4.奇异值分解有明确的几何解释。奇异值分解对应三个连续的线性变换：一个旋转变换，一个缩放变换和另一个旋转变换。第一个和第三个旋转变换分别基于空间的标准正交基进行。

5.设矩阵 $A$ 的奇异值分解为 $\Sigma V ^ { T }$ ，则有 $\left. \begin{array} { l } { A ^ { T } A = V ( \Sigma ^ { T } \Sigma ) V ^ { T } } \\ { A A ^ { T } = U ( \Sigma \Sigma ^ { T } ) U ^ { T } } \end{array} \right.$

即对称矩阵 $A^TA$ 和 $AA^T$ 的特征分解可以由矩阵 $A$ 的奇异值分解矩阵表示。

6.矩阵 $A$ 的奇异值分解可以通过求矩阵 $A^TA$ 的特征值和特征向量得到： $A^TA$ 的特征向量构成正交矩阵 $V$ 的列；从 $A^TA$ 的特征值 $\lambda _ { j }$ 的平方根得到奇异值 $\sigma _ { i }$ ,即 $\sigma _ { j } = \sqrt { \lambda _ { j } } , \quad j = 1,2 , \cdots , n$

对其由大到小排列，作为对角线元素，构成对角矩阵 $\Sigma$ ;求正奇异值对应的左奇异向量，再求扩充的 $A^T$ 的标准正交基，构成正交矩阵 $U$ 的列。

7.矩阵 $\times n }$ 的弗罗贝尼乌斯范数定义为 $\| A \| _ { F } = ( \sum _ { i = 1 } ^ { m } \sum _ { j = 1 } ^ { n } ( a _ { i j } ) ^ { 2 } ) ^ { \frac { 1 } { 2 } }$ 在秩不超过 $k$ 的 $\times n$ 矩阵的集合中，存在矩阵 $A$ 的弗罗贝尼乌斯范数意义下的最优近似矩阵 $X$ 。秩为 $k$ 的截断奇异值分解得到的矩阵 $A_k$ 能够达到这个最优值。奇异值分解是弗罗贝尼乌斯范数意义下，也就是平方损失意义下的矩阵最优近似。

8.任意一个实矩阵 $A$ 可以由其外积展开式表示 $\sigma _ { 1 } u _ { 1 } v _ { 1 } ^ { T } + \sigma _ { 2 } u _ { 2 } v _ { 2 } ^ { T } + \cdots + \sigma _ { n } u _ { n } v _ { n } ^ { T }$
其中 $u _ { k } v _ { k } ^ { T }$ 为 $\times n$ 矩阵，是列向量 $u _ { k }$ 和行向量 $v _ { k } ^ { T }$ 的外积， $\sigma _ { k }$ 为奇异值， $\sigma _ { k }$ 通过矩阵 $A$ 的奇异值分解得到。

奇异值分解的计算

1. 计算 $A^T A$ 的特征向量和特征值

设 $A$ 是一个 $\times n$ 的矩阵， $r ank (A) = r$ 。
计算 $W=A^T A$ ，它是一个 $\times n$ 的对称矩阵。

$W=A^T A \in \mathbb{R}^{n \times n}$

计算 $A^T A$ 的特征值和特征向量：

$A^T A \mathbf{v}_i = \lambda_i \mathbf{v}_i, \quad i = 1, 2, \ldots, n$

其中， $\lambda_1\geq\lambda_2\geq\ldots\geq\lambda_n\geq0$ ， $\mathbf{v}_i$ 是对应的特征向量。

2. 求 $\times n$ 对角矩阵 $\Sigma$

特征值的平方根即为奇异值：

$\sigma_i = \sqrt{\lambda_i}, \quad i = 1, 2, \ldots, n$

则

$\Sigma=diag(\sigma_1,\sigma_2,\ldots,\sigma_n)$

3. 计算 $n$ 阶正交矩阵 $V$ 矩阵

$V$ 矩阵由 $A^T A$ 的特征向量组成：

$[\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n]$

4. 计算 $U_1$

对 $A$ 的前 $r$ 个正奇异值，通过下面的公式计算 $U_1$ ：

$U_1 = \left[ \frac{A \mathbf{v}_1}{\sigma_1}, \frac{A \mathbf{v}_2}{\sigma_2}, \ldots, \frac{A \mathbf{v}_r}{\sigma_r} \right]$

5. 计算 $A^T$ 的零空间

使用 $A^T$ 的零空间的标准正交基作为 $U_2$ ：

$U2 = {null\_space} (A^T)$

其中，null_space 是一个函数，用于计算矩阵零空间的标准正交基。

6. 合并 $U_1$ 和 $U_2$

将 $U_1$ 和 $U_2$ 合并，构成 $m$ 阶正交矩阵 $U$ ：

$U = [U_1, U_2]$

7.得到奇异值分解

$A=U\Sigma V^T$

习题15.1

试求矩阵 $\left[ \begin{array}{lll} 1 & 2 & 0 \\ 2 & 0 & 2 \\ \end{array} \right]$ 的奇异值分解。

解答：

手算见该链接

使用numpy实现奇异值分解

import numpy as np

A = np.array([[1, 2, 0], [2, 0, 2]])

# 调用numpy的svd方法
U, S, VT = np.linalg.svd(A)

# 设置NumPy打印选项，将小数点后保留两位数字并抑制科学计数法（即不使用科学计数法显示较小的数字）
np.set_printoptions(precision=2, suppress=True)

print("U=", U)
print("S=", S)
print("V=", VT.T)
Sigma = np.zeros_like(A, float)
np.fill_diagonal(Sigma, S)
calc = np.dot(np.dot(U, Sigma), VT)
print("A=", calc)

U= [[ 0.45 -0.89]
 [ 0.89  0.45]]
S= [3. 2.]
V= [[ 0.75  0.   -0.67]
 [ 0.3  -0.89  0.33]
 [ 0.6   0.45  0.67]]
A= [[ 1.  2.  0.]
 [ 2. -0.  2.]]

自编程实现奇异值分解

import numpy as np
from scipy.linalg import null_space


def my_svd(A):
    m = A.shape[0]

    # (1) 计算对称矩阵 A^T A 的特征值与特征向量，
    W = np.dot(A.T, A)
    # 返回的特征值lambda_value是升序的，特征向量V是单位化的特征向量
    lambda_value, V = np.linalg.eigh(W)
    # 并按特征值从大到小排列
    lambda_value = lambda_value[::-1]
    lambda_value = lambda_value[lambda_value > 0]
    # (2)计算n阶正交矩阵V
    V = V[:, -1::-1]

    # (3) 求 m * n 对角矩阵
    sigma = np.sqrt(lambda_value)
    S = np.diag(sigma) @ np.eye(*A.shape) # *A.shape 使用形状参数来创建一个与 A 形状相同的单位矩阵 I。@为矩阵乘法运算符

    # (4.1) 求A的前r个正奇异值
    r = np.linalg.matrix_rank(A)
    U1 = np.hstack([(np.dot(A, V[:, i]) / sigma[i])[:, np.newaxis] # [:, np.newaxis] 将结果转化为列向量
                    for i in range(r)])                            # np.hstack([...]) 将所有列向量水平堆叠，形成矩阵 U1
    # (4.2) 求A^T的零空间的一组标准正交基
    U = U1
    if r < m:
        U2 = null_space(A.T)
        U = np.hstack([U, U2])

    return U, S, V

A = np.array([[1, 2, 0], [2, 0, 2]])

np.set_printoptions(precision=2, suppress=True)

U, S, V = my_svd(A)
print("U=", U)
print("S=", S)
print("V=", V)
calc = np.dot(np.dot(U, S), V.T)
print("A=", calc)

U= [[-0.45 -0.89]
 [-0.89  0.45]]
S= [[3. 0. 0.]
 [0. 2. 0.]]
V= [[-0.75 -0.   -0.67]
 [-0.3  -0.89  0.33]
 [-0.6   0.45  0.67]]
A= [[ 1.  2. -0.]
 [ 2. -0.  2.]]

习题15.2

试求矩阵
$\left[ \begin{array}{lll} 2 & 4 \\ 1 & 3 \\ 0 & 0 \\ 0 & 0 \end{array} \right]$ 的奇异值分解并写出其外积展开式。

矩阵 $A$ 的奇异值分解 $\Sigma V^T$ 也可以由外积形式表示。事实上，若将 $A$ 的奇异值分解看成矩阵 $\Sigma$ 和 $V^T$ 的乘积，将 $\Sigma$ 按列向量分块，将 $V^T$ 按行向量分块，即得

$\begin{array}{l} U \Sigma = \big[ \sigma_1 u_1 \ \sigma_2 u_2 \ \cdots \ \sigma_n u_n \big] \\ V^T = \left[ \begin{array}{c} v_1^T \\ v_2^T \\ \vdots \\ v_n^T \end{array} \right] \end{array}$
则
$\sigma_1 u_1 v_1^T + \sigma_2 u_2 v_2^T + \cdots + \sigma_n u_n v_n^T$
称为矩阵 $A$ 的外积展开式，其中 $u_k v_k^T$ 为 $\times n$ 矩阵，是列向量 $u_k$ 和行向量 $v_k^T$ 的外积，其第 $i$ 行第 $j$ 列元素为 $u_k$ 的第 $i$ 个元素与 $v_k^T$ 的第 $j$ 个元素的乘积。即
$u_i v_j^T = \left[ \begin{array}{c} u_{1i} \\ u_{2i} \\ \vdots \\ u_{mi} \end{array} \right] \big[ v_{1j} \ v_{2j} \ \cdots \ v_{nj} \big] = \left[ \begin{array}{cccc} u_{1i} v_{1j} & u_{1i} v_{2j} & \cdots & u_{1i} v_{nj} \\ u_{2i} v_{1j} & u_{2i} v_{2j} & \cdots & u_{2i} v_{nj} \\ \vdots & \vdots & & \vdots \\ u_{mi} v_{1j} & u_{mi} v_{2j} & \cdots & u_{mi} v_{nj} \end{array} \right]$
$A$ 的外积展开式也可以写成下面的形式
$\sum_{k=1}^n A_k = \sum_{k=1}^n \sigma_k u_k v_k^T$
其中 $A_k = \sigma_k u_k v_k^T$ 是 $\times n$ 矩阵。上式将矩阵 $A$ 分解为矩阵的有序加权和。

总之，任意一个实矩阵 $A$ 可以由其外积展开式表示
$\sigma_1 u_1 v_1^T + \sigma_2 u_2 v_2^T + \cdots + \sigma_n u_n v_n^T$

其中 $u_k v_k^T$ 为 $\times n$ 矩阵，是列向量 $u_k$ 和行向量 $v_k^T$ 的外积， $\sigma_k$ 为奇异值， $u_k, v_k^T, \sigma_k$ 通过矩阵 $A$ 的奇异值分解得到。

import numpy as np

A = np.array([[2, 4],
              [1, 3],
              [0, 0],
              [0, 0]])

# 调用numpy的svd方法
U, S, VT = np.linalg.svd(A)
np.set_printoptions()

print("U=", U)
print("S=", S)
print("V=", VT.T)

U= [[-0.82 -0.58  0.    0.  ]
 [-0.58  0.82  0.    0.  ]
 [ 0.    0.    1.    0.  ]
 [ 0.    0.    0.    1.  ]]
S= [5.46 0.37]
V= [[-0.4  -0.91]
 [-0.91  0.4 ]]

根据奇异值分解的结果，写出 $A$ 的外积展开式：
$\sigma_1 u_1 v_1^T + \sigma_2 u_2 v_2^T$

其中
$\sigma_1 = 5.46, \sigma_2 = 0.37 \\ u_1 = \left [ \begin{array}{c} -0.82 \\ -0.58 \\ 0 \\ 0 \end{array} \right], u_2 = \left[ \begin{array}{c} -0.58 \\ 0.82 \\ 0 \\ 0 \end{array} \right ] \\ v_1^T = [ -0.4, -0.91 ] , v_2^T = [ -0.91,0.4 ]$

calc = S[0] * np.outer(U[:, 0], VT[0, :]) + S[1] * np.outer(U[:, 1], VT[1, :])
print("A=", calc)

A= [[ 2.  4.]
 [ 1.  3.]
 [-0.  0.]
 [-0.  0.]]

习题15.3、15.4

见链接

习题15.5

搜索中的点击数据记录用户搜索时提交的查询语句，点击的网页URL以及点击的次数构成一个二部图，其中一个结点集合 ${q_i\}$ 表示查询，另一个结点集合 ${u_j\}$ 表示URL，边表示点击关系，边上的权重表示点击次数。图15.2是一个简化的点击数据例。点击数据可以由矩阵表示，试对该矩阵进行奇异值分解，并解释得到的三个矩阵所表示的内容。
在这里插入图片描述

第1步：根据二部图写出矩阵 $A$

$A=\left[ \begin{array}{cccc} 0 & 20 & 5 & 0 & 0 \\ 10 & 0 & 0 & 3 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 1 & 0 & 0 \end{array} \right]$
其中，行向量分别对应 $q_1, q_2, q_3, q_4)$ ，列向量分别对应 $u_1, u_2, u_3, u_4, u_5)$ 。

第2步：对矩阵 $A$ 进行奇异值分解;

import numpy as np

A = np.array([[0, 20, 5, 0, 0],
              [10, 0, 0, 3, 0],
              [0, 0, 0, 0, 1],
              [0, 0, 1, 0, 0]]) 

# 调用numpy的svd方法
U, S, VT = np.linalg.svd(A)

print("U=", U)
print("S=", S)
print("V=", VT.T)

U= [[ 1.   -0.    0.   -0.01]
 [ 0.    1.    0.   -0.  ]
 [ 0.    0.    1.    0.  ]
 [ 0.01  0.    0.    1.  ]]
S= [20.62 10.44  1.    0.97]
V= [[ 0.    0.96 -0.   -0.    0.29]
 [ 0.97 -0.    0.   -0.24 -0.  ]
 [ 0.24  0.    0.    0.97  0.  ]
 [ 0.    0.29  0.    0.   -0.96]
 [ 0.    0.    1.    0.    0.  ]]

第3步：解释奇异值分解得到的矩阵 $U$ 、 $\Sigma$ 、 $V$ 代表的内容

根据题意，可知搜索中的点击数据记录用户搜索时提交的查询语句为 ${q_i\}$ ，点击的网页URL为 ${u_j\}$ ，点击的次数为矩阵的值。根据奇异值分解定理，可知：

$U$ 表示用户输入的查询语句与网页特征之间的关系矩阵
$V$ 表示网页与网页特征之间的相似性
$\Sigma$ 表示用户输入的查询语句映射到网页的权重

举个例子：从矩阵 $U$ 的第一列可以表示查询语句 $q_1$ 与网页特征1的关系密切，通过矩阵 $V$ 可以表示网页 $u_2$ 与特征1的相似度最高，所以查询 $q_1$ 的时候点击网页 $u_2$ 的次数是最多的。

奇异值分解的另一个作用就是提取网页的特征来将用户输入与网页映射到一个低纬度空间中。通过第2步的计算，可以发现 $\sigma_1,\sigma_2$ 的值比较大，计算截断的矩阵外积展开 $\sigma_1u_1v_1^T+\sigma_2u_2v_2^T$ ，可以发现其与矩阵 $A$ 大体上是相等的。奇异值下降的速度越快，那么矩阵包含的更多信息就越集中分布在前面几个值比较大的特征上面。

两个小案例

机器学习领域利用奇异值分解（SVD）的案例是在推荐系统中的应用，可以使用 movielens 数据集来演示这一点。movielens 数据集包含电影评分数据，通常用于推荐系统的研究和开发。

数据集下载地址：https://grouplens.org/datasets/movielens/

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from scipy.sparse.linalg import svds
from scipy.sparse import csr_matrix
# 加载数据集
ratings = pd.read_csv('./data/ml-latest-small/ratings.csv')

# 创建用户-电影评分矩阵
ratings_matrix = ratings.pivot(index='userId',
                               columns='movieId',
                               values='rating').fillna(0)

# 将评分矩阵转换为稀疏矩阵格式
ratings_matrix_sparse = csr_matrix(ratings_matrix.values)

# 奇异值分解
U, sigma, Vt = svds(ratings_matrix_sparse, k=50)

# 重构评分矩阵
predicted_ratings = np.dot(np.dot(U, np.diag(sigma)), Vt)

# 将重构的评分矩阵转换为DataFrame
predicted_ratings_df = pd.DataFrame(predicted_ratings,
                                    columns=ratings_matrix.columns,
                                    index=ratings_matrix.index)

# 示例：为用户ID为1的用户推荐电影
userId = 1
user_row_number = userId - 1  # 用户ID在索引中从0开始
sorted_user_predictions = predicted_ratings_df.iloc[
    user_row_number].sort_values(ascending=False)

# 输出前5个推荐电影
sorted_user_predictions.head()

movieId
1196    6.421784
260     6.330851
1210    6.026762
1291    6.024242
1198    5.970028
Name: 1, dtype: float64

示例：图像压缩与重构

使用scikit-learn库中的digits数据集来演示奇异值分解（SVD）在图像压缩和重构中的应用。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
from sklearn.decomposition import TruncatedSVD

# 加载digits数据集
digits = load_digits()
X = digits.data  # 数据归一化到0-1之间

# 随机选择一个样本进行展示
sample_index = np.random.randint(len(X))
sample_image = X[sample_index].reshape(8, 8)

# 显示原始图像
plt.figure(figsize=(4, 4))
plt.imshow(sample_image, cmap='gray')
plt.title(f'Original Image (Label: {digits.target[sample_index]})')
plt.axis('off')
plt.show()

# 奇异值分解（SVD）进行图像压缩和重构
svd = TruncatedSVD(n_components=10, random_state=42)
X_reduced = svd.fit_transform(X)
X_reconstructed = svd.inverse_transform(X_reduced)

# 重构后的图像
reconstructed_image = X_reconstructed[sample_index].reshape(8, 8)

# 显示重构后的图像
plt.figure(figsize=(4, 4))
plt.imshow(reconstructed_image, cmap='gray')
plt.title('Reconstructed Image')
plt.axis('off')
plt.show()

# 计算压缩率
compression_ratio = 100 * (X_reduced.nbytes / X.nbytes)
print(f'Compression ratio: {compression_ratio:.2f}%')

# 显示奇异值能量贡献
plt.figure(figsize=(8, 4))
plt.plot(np.cumsum(svd.explained_variance_ratio_))
plt.xlabel('Number of Components')
plt.ylabel('Cumulative Explained Variance')
plt.title('Cumulative Explained Variance vs. Number of Components')
plt.grid(True)
plt.show()