当算法遇到线性代数(四):奇异值分解(SVD)

news2025/1/8 15:15:41

SVD分解的理论与应用

线性代数系列相关文章(置顶)

1.当算法遇到线性代数(一):二次型和矩阵正定的意义
2.当算法遇到线性代数(二):矩阵特征值的意义
3.当算法遇到线性代数(三):实对称矩阵
4.当算法遇到线性代数(四):奇异值分解(SVD)

引言

奇异值分解(Singular Value Decomposition, SVD)是线性代数中一个极为重要的概念,它在数据科学、机器学习、信号处理等多个领域有着广泛的应用。本文将详细介绍SVD的背景、定义、性质、具体过程以及其在不同领域的应用,并总结其重要性。

在这里插入图片描述


一、背景

SVD的概念最早可以追溯到19世纪末期,当时数学家们开始研究矩阵的特征值和特征向量问题。然而,直到20世纪中期,随着计算机技术的发展,SVD才逐渐成为一种实用且高效的工具。特别是在图像压缩、推荐系统等领域,SVD因其能够揭示数据内部结构的能力而备受青睐。

二、定义与概念

对于任意 m × n m \times n m×n 的实矩阵 A A A,存在两个正交矩阵 U U U V V V,以及一个非负对角矩阵 Σ \Sigma Σ,使得:

A = U Σ V T A = U \Sigma V^T A=UΣVT

其中:

  • U U U 是一个 m × m m \times m m×m 的正交矩阵,称为左奇异向量。
  • V V V 是一个 n × n n \times n n×n 的正交矩阵,称为右奇异向量。
  • Σ \Sigma Σ 是一个 m × n m \times n m×n 的对角矩阵,对角元素为非负实数,称为奇异值,通常按降序排列。

三、性质

SVD具有以下重要性质:

  • 唯一性:如果 A A A 的所有奇异值都是不同的,则 U U U V V V 是唯一的(忽略符号变化)。
  • 最优低秩近似:根据Eckart–Young定理,截断后的SVD提供了原矩阵的最佳低秩近似。
  • 数值稳定性:SVD算法相对稳定,尤其适用于处理病态矩阵或接近奇异的矩阵。
  • 几何解释:SVD可以被理解为一系列旋转、缩放和平移操作,这些操作将原始空间中的点映射到新坐标系下。

由于上述性质,奇异值分解(SVD)具有许多显著的好处,这些优点使得它在多个学科和技术领域中成为一种极为有用的工具。以下是SVD的主要好处:

1. 数值稳定性
  • 处理病态矩阵:对于接近奇异或病态的矩阵,直接求解线性系统可能会导致严重的数值误差。而SVD提供了一种更加稳定的方法来处理这类问题。
  • 避免过拟合:在机器学习和统计建模中,SVD可以帮助防止模型对训练数据的过度拟合,从而提高泛化能力。
2. 最优低秩近似
  • 数据压缩:通过保留前几个最大的奇异值及其对应的左、右奇异向量,可以得到原矩阵的最佳低秩近似。这种方法不仅减少了存储需求,还能够去除噪声,保持数据的核心特征。
  • 降维:例如在主成分分析(PCA)中,SVD用于将高维数据投影到低维空间,同时尽可能地保留原始数据的方差信息。
    在这里插入图片描述
3. 几何与物理意义明确
  • 变换解释:SVD可以被直观地理解为一系列旋转、缩放和平移操作,这些操作将原始空间中的点映射到新坐标系下。这种几何解释有助于更好地理解数据结构和模式。
  • 正交基底:SVD提供了两组正交基底,分别对应于输入空间和输出空间,这使得计算过程更加清晰且易于实现。
4. 理论洞察力
  • 揭示内在结构:SVD能够揭示数据背后的潜在结构,这对于探索数据特性、发现隐藏模式非常有帮助。
  • 理论研究:在数学、物理学等多个基础科学领域,SVD为理论分析提供了强有力的支持,促进了新算法和理论的发展。

四、举个🌰

1. 矩阵SVD计算

考虑一个 3 × 2 3 \times 2 3×2 的矩阵 A A A

A = [ 1 2 2 3 3 4 ] A = \begin{bmatrix} 1 & 2 \\ 2 & 3 \\ 3 & 4 \end{bmatrix} A= 123234

为了求解 A A A 的SVD,我们需要执行以下步骤:

  1. 计算协方差矩阵 A A T AA^T AAT A T A A^TA ATA

    • A A T = [ 5 8 11 8 13 18 11 18 25 ] AA^T = \begin{bmatrix} 5 & 8 & 11 \\ 8 & 13 & 18 \\ 11 & 18 & 25 \end{bmatrix} AAT= 581181318111825
    • A T A = [ 14 20 20 29 ] A^TA = \begin{bmatrix} 14 & 20 \\ 20 & 29 \end{bmatrix} ATA=[14202029]
  2. 找到 A T A A^TA ATA 的特征值和特征向量

    • 特征值: σ 1 2 ≈ 43.6 \sigma_1^2 \approx 43.6 σ1243.6, σ 2 2 ≈ 0.37 \sigma_2^2 \approx 0.37 σ220.37
    • 特征向量: v 1 ≈ [ − 0.65 − 0.76 ] v_1 \approx \begin{bmatrix} -0.65 \\ -0.76 \end{bmatrix} v1[0.650.76], v 2 ≈ [ 0.76 − 0.65 ] v_2 \approx \begin{bmatrix} 0.76 \\ -0.65 \end{bmatrix} v2[0.760.65]
  3. 构造 Σ \Sigma Σ,并将特征值开平方根得到奇异值。

    • Σ = [ 43.6 0 0 0.37 0 0 ] \Sigma = \begin{bmatrix} \sqrt{43.6} & 0 \\ 0 & \sqrt{0.37} \\ 0 & 0 \end{bmatrix} Σ= 43.6 0000.37 0
  4. 找到 A A T AA^T AAT 的特征值和特征向量

    • 特征值:同上
    • 特征向量: u 1 ≈ [ − 0.38 − 0.57 − 0.76 ] u_1 \approx \begin{bmatrix} -0.38 \\ -0.57 \\ -0.76 \end{bmatrix} u1 0.380.570.76 , u 2 ≈ [ − 0.92 0.38 − 0.07 ] u_2 \approx \begin{bmatrix} -0.92 \\ 0.38 \\ -0.07 \end{bmatrix} u2 0.920.380.07
  5. 验证结果

    • A = U Σ V T ≈ [ − 0.38 − 0.92 ∗ − 0.57 0.38 ∗ − 0.76 − 0.07 ∗ ] [ 43.6 0 0 0.37 0 0 ] [ − 0.65 − 0.76 0.76 − 0.65 ] A = U \Sigma V^T \approx \begin{bmatrix} -0.38 & -0.92 & * \\ -0.57 & 0.38 & * \\ -0.76 & -0.07 & * \end{bmatrix} \begin{bmatrix} \sqrt{43.6} & 0 \\ 0 & \sqrt{0.37} \\ 0 & 0 \end{bmatrix} \begin{bmatrix} -0.65 & -0.76 \\ 0.76 & -0.65 \end{bmatrix} A=UΣVT 0.380.570.760.920.380.07 43.6 0000.37 0 [0.650.760.760.65]

注意:这里的 ∗ * 表示不相关的第三列元素,因为 A A A 只有两列。

2. 低秩近似

使用SVD对100x100物品相似度矩阵进行低秩近似的具体表示,我们将通过数学符号和公式来展示如何使用奇异值分解(SVD)对一个 100 × 100 100 \times 100 100×100 的物品相似度矩阵 A A A 进行低秩近似,并保留前5个最大的奇异值。

步骤 1: 准备数据

假设我们有一个 100 × 100 100 \times 100 100×100 的相似度矩阵 A A A,其中每个元素 a i j a_{ij} aij 表示物品 i i i 和物品 j j j 之间的相似度。由于这是一个相似度矩阵,它是对称的,即 A = A T A = A^T A=AT

步骤 2: 计算 SVD 分解

根据SVD理论,我们可以将矩阵 A A A 分解为:

A = U Σ V T A = U \Sigma V^T A=UΣVT

其中:

  • U U U 是一个 100 × 100 100 \times 100 100×100 的正交矩阵,称为左奇异向量矩阵。
  • Σ \Sigma Σ 是一个 100 × 100 100 \times 100 100×100 的对角矩阵,包含按降序排列的奇异值。
  • V V V 是一个 100 × 100 100 \times 100 100×100 的正交矩阵,称为右奇异向量矩阵。
步骤 3: 构建低秩近似矩阵

为了构建低秩近似矩阵 A 5 A_5 A5,我们只保留前5个最大的奇异值及其对应的左、右奇异向量。具体来说:

  • 选择前5个奇异值: σ 1 , σ 2 , σ 3 , σ 4 , σ 5 \sigma_1, \sigma_2, \sigma_3, \sigma_4, \sigma_5 σ1,σ2,σ3,σ4,σ5
  • 选择对应的左奇异向量: u 1 , u 2 , u 3 , u 4 , u 5 u_1, u_2, u_3, u_4, u_5 u1,u2,u3,u4,u5,构成 U 5 U_5 U5,这是一个 100 × 5 100 \times 5 100×5 的矩阵。
  • 选择对应的右奇异向量: v 1 , v 2 , v 3 , v 4 , v 5 v_1, v_2, v_3, v_4, v_5 v1,v2,v3,v4,v5,构成 V 5 V_5 V5,这也是一个 100 × 5 100 \times 5 100×5 的矩阵。

因此,新的对角矩阵 Σ 5 \Sigma_5 Σ5 将是一个 5 × 5 5 \times 5 5×5 的矩阵,仅包含前5个奇异值:

Σ 5 = [ σ 1 0 0 0 0 0 σ 2 0 0 0 0 0 σ 3 0 0 0 0 0 σ 4 0 0 0 0 0 σ 5 ] \Sigma_5 = \begin{bmatrix} \sigma_1 & 0 & 0 & 0 & 0 \\ 0 & \sigma_2 & 0 & 0 & 0 \\ 0 & 0 & \sigma_3 & 0 & 0 \\ 0 & 0 & 0 & \sigma_4 & 0 \\ 0 & 0 & 0 & 0 & \sigma_5 \end{bmatrix} Σ5= σ100000σ200000σ300000σ400000σ5

步骤 4: 构造低秩近似矩阵 A 5 A_5 A5

使用 U 5 U_5 U5 Σ 5 \Sigma_5 Σ5,和 V 5 V_5 V5 来构造低秩近似矩阵 A 5 A_5 A5

A 5 = U 5 Σ 5 V 5 T A_5 = U_5 \Sigma_5 V_5^T A5=U5Σ5V5T

这里:

  • U 5 U_5 U5 100 × 5 100 \times 5 100×5 的矩阵,由 U U U 的前五列组成。
  • Σ 5 \Sigma_5 Σ5 5 × 5 5 \times 5 5×5 的对角矩阵,包含前五个奇异值。
  • V 5 V_5 V5 100 × 5 100 \times 5 100×5 的矩阵,由 V V V 的前五列组成。
结果分析

比较原始矩阵 A A A 和低秩近似矩阵 A 5 A_5 A5

  • 误差评估:可以通过计算 Frobenius 范数误差 ∥ A − A 5 ∥ F \|A - A_5\|_F AA5F 来评估低秩近似的效果。
  • 可视化对比:可以绘制原始矩阵 A A A 和低秩近似矩阵 A 5 A_5 A5 的热图,直观地观察两者之间的差异。

通过这个过程,我们展示了如何使用SVD对一个 100 × 100 100 \times 100 100×100 的物品相似度矩阵进行低秩近似,并保留前5个最大的奇异值。这种方法不仅减少存储需求,还能够有效地处理大规模数据集,同时保持了数据的核心特征。通过选择适当的 k k k,可以在保持足够精度的同时显著减少计算复杂度

五、应用

数学领域应用
  • 低秩近似:通过保留前几个最大的奇异值及其对应的奇异向量,可以实现矩阵的有效压缩,同时保持尽可能多的信息。
  • 最小二乘问题:SVD可用于解决超定系统的最小二乘解,提供了一种稳健的方法来估计未知参数。
机器学习与深度学习应用
  • 主成分分析 (PCA):SVD是PCA的核心算法之一,用于降维和特征提取。
  • 大模型 LoRA 微调:LoRA 的关键在于引入低秩矩阵 A ∈ R m × r A \in \mathbb{R}^{m \times r} ARm×r B ∈ R r × n B \in \mathbb{R}^{r \times n} BRr×n 来近似更新原始权重矩阵 W ∈ R m × n W \in \mathbb{R}^{m \times n} WRm×n
  • 推荐系统:基于用户-物品评分矩阵的协同过滤方法中,SVD可以用来预测未观察到的评分并做出个性化推荐。
  • 图像处理:如图像压缩、去噪等任务中,利用SVD去除冗余信息,提高效率。
其他领域应用
  • 信号处理:用于频谱分析、滤波器设计等方面,帮助提取信号的主要成分。
  • 自然语言处理:例如主题模型LDA可以通过SVD进行优化,以更好地捕捉文档之间的关系。
  • 控制系统:在状态估计、模型简化等环节中,SVD有助于构建更精确和稳定的控制器。

六、总结

综上所述,SVD作为一种强大的数学工具,在多个学科和技术领域都展现出了巨大的价值。从理论上讲,它提供了深刻的洞察力,使我们能够理解和操作复杂的数据集;而在实践中,SVD不仅简化了许多复杂的计算任务,还提高了算法的性能和可靠性。无论是在学术研究还是工业应用中,掌握SVD的基本原理及其应用技巧都是非常有益的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2272640.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

科研绘图系列:R语言科研绘图之标记热图(heatmap)

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍加载R包数据下载导入数据数据预处理画图系统信息参考介绍 科研绘图系列:R语言科研绘图之标记热图(heatmap) 加载R包 library(tidyverse) library(ggplot2) library(reshape)…

Mysql--基础篇--SQL(DDL,DML,窗口函数,CET,视图,存储过程,触发器等)

SQL(Structured Query Language,结构化查询语言)是用于管理和操作关系型数据库的标准语言。它允许用户定义、查询、更新和管理数据库中的数据。SQL是一种声明性语言,用户只需要指定想要执行的操作,而不需要详细说明如何…

Excel重新踩坑5:二级下拉列表制作;★数据透视表;

0、在excel中函数公式不仅可以写在单元格里面,还可以写在公式里面。 1、二级下拉列表制作: 2、数据透视表: 概念:通过拖拉就能实现复杂函数才能实现的数据统计问题。 概览:在插入选项中有个数据透视表,数…

Linux-----进程处理(waitpid,进程树,孤儿进程)

目录 waitpid等待 进程树 孤儿进程 waitpid等待 Linux中父进程除了可以启动子进程,还要负责回收子进程的状态。如果子进程结束后父进程没有正常回收,那么子进程就会变成一个僵尸进程——即程序执行完成,但是进程没有完全结束,其…

解决报错net.sf.jsqlparser.statement.select.SelectBody

在我们项目集成mybatis-plus时,总会遇到奇奇怪怪的报错,比如说下面的这个报错 而这个报错,是告诉我们的分页依赖冲突,要加个jsqlparser依赖来解决这个冲突,也相当于平衡,但是可能因为我们版本的不匹配,还是会报错,例如下面这样 但是我们是不知道到底是什么依赖冲突的,这个时候就…

感知器的那些事

感知器的那些事 历史背景Rosenblatt和Minsky关于感知机的争论弗兰克罗森布拉特简介提出感知器算法Mark I感知机争议与分歧马文明斯基简介单层感知器工作原理训练过程多层感知器工作原理单层感知机 vs 多层感知机感知器模型(Perceptron),是由心理学家Frank Rosenblatt在1957年…

内核链表 例题 C语言实现

问题: 将下面的数据节点信息转换为链表结构,并遍历输出。要求根据type的值来决定val的类型。 type为1代表bool类型,2代表整形,3代表浮点型。无需解析文本,直接赋值形成节点即可。 代码: list.c #includ…

C语言结构体数组

上次我们讲解了结构体,这里还有高级应用就是结构体数组(集合的集合) (这里提醒一句,想要在北京参加NCRE考试的朋友们今天开始报名了) 定义 还是拿上回那个学生数据的结构体 typedef struct {int year;i…

深入了解 ES6 Map:用法与实践

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

在Vue3项目中使用svg-sprite-loader

1.普通的svg图片使用方式 1.1 路径引入 正常我们会把项目中的静态资源放在指定的一个目录&#xff0c;例如assets,使用起来就像 <img src"../assets/svgicons/about.svg" /> 1.2封装组件使用 显然上面的这种方法在项目开发中不太适用&#xff0c;每次都需…

谷歌SEO真的需要很长时间吗?

关键在于策略与执行力&#xff0c;很多人在刚开始做谷歌SEO时&#xff0c;都会产生一种挫败感&#xff0c;觉得排名变化太慢&#xff0c;看不到显著效果。这其实是因为SEO本身是一项需要时间的工作&#xff0c;特别是在竞争激烈的领域。但如果策略得当、执行力强&#xff0c;时…

耐高压26V输入5V升压充电8.4V芯片

HU6877作为一款集成了26V高耐压保护的5V升压至8.4V两节锂电池充电管理IC&#xff0c;凭借其高效升压、智能充电管理、多重安全保护及高耐压特性&#xff0c;在高端手电筒、便携式医疗设备、无人机等领域展现出了广泛的应用前景。本文将详细探讨HU6877的技术特点、工作原理、应用…

linuxCNC(六)配置LinuxCNC完成伺服控制

这里写目录标题 1、 cia402安装2、找伺服描述文件&#xff08;xml&#xff09;3、配置ethercat-config.xml3.1、打开hal-cia402/example/ethercat-conf.xml3.2、修改 ethercat-conf.xml文件中vid"0x000116c7" pid"0x003e0402"3.3、其他参数&#xff0c;根据…

【数据结构】链表(2):双向链表和双向循环链表

双向链表&#xff08;Doubly Linked List&#xff09; 定义&#xff1a; 每个节点包含三个部分&#xff1a; 数据域。前驱指针域&#xff08;指向前一个节点&#xff09;。后继指针域&#xff08;指向下一个节点&#xff09;。 支持从任意节点向前或向后遍历。 #define dat…

指针 const 的组合

1、首先来了解一下常量 const int num 5&#xff1b; 那么num的值是5&#xff0c; num的值不可修改 2、来了解一下指针 int value 5; int* p &value; 我喜欢吧指针和类型放一起&#xff0c;来强调p是一个指针类型&#xff0c; 而赋值的时候就得赋值一个int类型的地址…

Tableau数据可视化与仪表盘搭建-数据可视化原理

目录 内容 做个小实验 数据如何变成图表 1 2 维度和度量定义 3 度量映射图形&#xff0c;维度负责区分 1 可映射的数据类型 2 可视化字典 3 使用Tableau将数据变成图表(Tableau可视化原理) 1 2 拖拽 3 具体操作 4 总结 内容 点击左下角的工作表 tableau可以自动…

【WRF数据准备】气象驱动数据-ERA5是否需要单层位势数据?

目录 气象驱动数据-ERA5是否需要单层位势(Geopotential)数据?位势(Geopotential)输入的重要性Vtable的管理参考气象驱动数据-ERA5是否需要单层位势(Geopotential)数据? 本博客参考WRF论坛中讨论内容-How to use ERA5 Data From Copernicus Database,总结位势(Geopot…

用ResNet50+Qwen2-VL-2B-Instruct+LoRA模仿Diffusion-VLA的论文思路,在3090显卡上训练和测试成功

想一步步的实现Diffusion VLA论文的思路&#xff0c;不过论文的图像的输入用DINOv2进行特征提取的&#xff0c;我先把这个部分换成ResNet50。 老铁们&#xff0c;直接上代码&#xff1a; from PIL import Image import torch import torchvision.models as models from torch…

常见中间件漏洞(tomcat,weblogic,jboss,apache)

先准备好今天要使用的木马文件 使用哥斯拉生成木马 压缩成zip文件 改名为war后缀 一&#xff1a;Tomcat 1.1CVE-2017-12615 环境搭建 cd vulhub-master/tomcat/CVE-2017-12615 docker-compose up -d 1.首页抓包&#xff0c;修改为 PUT 方式提交 发送shell.jsp 和木马内容 …

嵌入式科普(26)为什么heap通常8字节对齐

目录 一、概述 二、newlibc heap 2.1 stm32cubeide .ld heap 2.2 e2studio .ld heap 三、glibc源码 3.1 Ubuntu c heap 四、总结 一、概述 结论&#xff1a;在嵌入式c语言中&#xff0c;heap通常8字节对齐 本文主要分析这个问题的分析过程 二、newlibc heap newlibc…