机器学习数学公式推导之降维

news2024/9/20 9:24:34

文章目录

  • 降维
    • 线性降维-主成分分析 PCA
      • 损失函数
      • SVD 与 PCoA
      • SVD 的基本形式
      • SVD 的计算
      • p-PCA
    • 小结

P22 (系列五) 降维1-背景 

本文参考 B站UP: shuhuai008 🌹🌹

降维

我们知道,解决过拟合的问题除了正则化和添加数据之外,降维就是最好的方法。降维的思路来源于维度灾难的问题,我们知道 n n n 维球的体积为:
C R n CR^n CRn
那么在球体积与边长为 2 R 2R 2R 的超立方体比值为:
lim ⁡ n → 0 C R n 2 n R n = 0 \lim\limits_{n\rightarrow0}\frac{CR^n}{2^nR^n}=0 n0lim2nRnCRn=0

这就是所谓的维度灾难,在高维数据中,主要样本都分布在立方体的边缘,所以数据集更加稀疏

降维的算法分为:

  1. 直接降维,特征选择
  2. 线性降维,PCA,MDS等
  3. 分线性,流形包括 Isomap,LLE 等
P23  (系列五)  降维2-样本均值 & 样本方差矩阵

D a t a : X = { x 1 , x 2 … … x N } N x p T = [ x 1 T x 2 T . . . x N T ] = [ x 11 x 12 ⋯ x 1 p x 21 x 22 ⋯ x 2 p ⋮ ⋱ ⋮ x n 1 ⋯ x n p ] N x p X i 属于 R P i = 1 , 2 … … N Data: X= \left\{ {x_1,x_2……x_N}\right\}_{Nxp}^{T}= \begin{bmatrix} x_1^T \\ x_2^T \\ ... \\ x_N^T \end{bmatrix} =\begin{bmatrix} x_{11} & x_{12} \cdots & x_{1p} \\ x_{21} & x_{22} \cdots & x_{2p}\\ \vdots & \ddots & \vdots \\ x_{n1} & \cdots & x_{np} \end{bmatrix}_{N x p}\\ X_i属于\mathbb{R}^P \\ i=1,2……N Data:X={x1,x2……xN}NxpT= x1Tx2T...xNT = x11x21xn1x12x22x1px2pxnp NxpXi属于RPi=1,2……N

为了方便,我们首先将协方差矩阵(数据集)写成中心化的形式:
S = 1 N ∑ i = 1 N ( x i − x ‾ ) ( x i − x ‾ ) T = 1 N ( x 1 − x ‾ , x 2 − x ‾ , ⋯   , x N − x ‾ ) ( x 1 − x ‾ , x 2 − x ‾ , ⋯   , x N − x ‾ ) T = 1 N ( X T − 1 N X T I N 1 I N 1 T ) ( X T − 1 N X T I N 1 I N 1 T ) T = 1 N X T ( E N − 1 N I N 1 I 1 N ) ( E N − 1 N I N 1 I 1 N ) T X = 1 N X T H N H N T X = 1 N X T H N H N X = 1 N X T H X \begin{align}S&=\frac{1}{N}\sum\limits_{i=1}^N(x_i-\overline{x})(x_i-\overline{x})^T\nonumber\\ &=\frac{1}{N}(x_1-\overline{x},x_2-\overline{x},\cdots,x_N-\overline{x})(x_1-\overline{x},x_2-\overline{x},\cdots,x_N-\overline{x})^T\nonumber\\ &=\frac{1}{N}(X^T-\frac{1}{N}X^T\mathbb{I}_{N1}\mathbb{I}_{N1}^T)(X^T-\frac{1}{N}X^T\mathbb{I}_{N1}\mathbb{I}_{N1}^T)^T\nonumber\\ &=\frac{1}{N}X^T(E_N-\frac{1}{N}\mathbb{I}_{N1}\mathbb{I}_{1N})(E_N-\frac{1}{N}\mathbb{I}_{N1}\mathbb{I}_{1N})^TX\nonumber\\ &=\frac{1}{N}X^TH_NH_N^TX\nonumber\\ &=\frac{1}{N}X^TH_NH_NX=\frac{1}{N}X^THX \end{align} S=N1i=1N(xix)(xix)T=N1(x1x,x2x,,xNx)(x1x,x2x,,xNx)T=N1(XTN1XTIN1IN1T)(XTN1XTIN1IN1T)T=N1XT(ENN1IN1I1N)(ENN1IN1I1N)TX=N1XTHNHNTX=N1XTHNHNX=N1XTHX
这个式子利用了中心矩阵 $ H$​的对称性,这也是一个投影矩阵。

在这里插入图片描述

P24(系列五) 降维3-PCA-最大投影方差

线性降维-主成分分析 PCA

M e a n : x ‾ = 1 N ∑ i = 1 N x i = 1 N X T I N C o v a r i a n c e : S = 1 N ∑ i = 1 N ( x i − x ‾ ) ( x i − x ‾ ) T = 1 N X T H X Mean: \overline{x}=\frac{1}{N}\sum\limits_{i=1}^{N}x_i= \frac{1}{N}X^T\mathbb{I}_N \\ Covariance :S=\frac{1}{N}\sum\limits_{i=1}^{N}(x_i-\overline{x})(x_i-\overline{x})^T\nonumber\\=\frac{1}{N}X^THX Mean:x=N1i=1Nxi=N1XTINCovariance:S=N1i=1N(xix)(xix)T=N1XTHX

一个中心:原始特征重构

两个基本点:最大投影方差,最小重构距离

  • x在u1上的投影。

在这里插入图片描述

损失函数

主成分分析中,我们的基本想法是将所有数据投影到一个字空间中,从而达到降维的目标,为了寻找这个子空间,我们基本想法是:

  1. 所有数据在子空间中更为分散
  2. 损失的信息最小,即:在补空间的分量少
  3. 指向量维度改变,而是只选取u1-uq这q个向量作为基,删掉uq+1到 u p u_p up​,这样这q个p维向量所张成的线性空间维度
  4. 关于重构向量和原始向量的维度问题
P25 (系列五)降维4-PCA-最小重构代价

原来的数据很有可能各个维度之间是相关的,于是我们希望找到一组 p p p 个新的线性无关的单位基 u i u_i ui,降维就是取其中的 q q q 个基。于是对于一个样本 x i x_i xi经过这个坐标变换后(开始重构):
x i ^ = ∑ i = 1 p ( u i T x i ) u i = ∑ i = 1 q ( u i T x i ) u i + ∑ i = q + 1 p ( u i T x i ) u i \hat{x_i}=\sum\limits_{i=1}^p(u_i^Tx_i)u_i=\sum\limits_{i=1}^q(u_i^Tx_i)u_i+\sum\limits_{i=q+1}^p(u_i^Tx_i)u_i xi^=i=1p(uiTxi)ui=i=1q(uiTxi)ui+i=q+1p(uiTxi)ui
对于数据集来说,我们首先将其中心化然后再去上面的式子的第一项,并使用其系数的平方平均作为损失函数并最大化:

J = 1 N ∑ i = 1 N ∑ j = 1 q ( ( x i − x ‾ ) T u j ) 2 = ∑ j = 1 q u j T S u j   ,   s . t .   u j T u j = 1 \begin{align}J&=\frac{1}{N}\sum\limits_{i=1}^N\sum\limits_{j=1}^q((x_i-\overline{x})^Tu_j)^2\nonumber\\ &=\sum\limits_{j=1}^qu_j^TSu_j\ ,\ s.t.\ u_j^Tu_j=1 \end{align} J=N1i=1Nj=1q((xix)Tuj)2=j=1qujTSuj , s.t. ujTuj=1
由于每个基都是线性无关的,于是每一个 u j u_j uj 的求解可以分别进行,使用拉格朗日乘子法:
a r g m a x u j L ( u j , λ ) = a r g m a x u j u j T S u j + λ ( 1 − u j T u j ) \mathop{argmax}_{u_j}L(u_j,\lambda)=\mathop{argmax}_{u_j}u_j^TSu_j+\lambda(1-u_j^Tu_j) argmaxujL(uj,λ)=argmaxujujTSuj+λ(1ujTuj)
于是:
S u j = λ u j Su_j=\lambda u_j Suj=λuj
可见,我们需要的基就是协方差矩阵的本征矢。损失函数最大取在本征值前 q q q 个最大值。

下面看其损失的信息最少这个条件,同样适用系数的平方平均作为损失函数,并最小化:
J = 1 N ∑ i = 1 N ∑ j = q + 1 p ( ( x i − x ‾ ) T u j ) 2 = ∑ j = q + 1 p u j T S u j   ,   s . t .   u j T u j = 1 \begin{align}J&=\frac{1}{N}\sum\limits_{i=1}^N\sum\limits_{j=q+1}^p((x_i-\overline{x})^Tu_j)^2\nonumber\\ &=\sum\limits_{j=q+1}^pu_j^TSu_j\ ,\ s.t.\ u_j^Tu_j=1 \end{align} J=N1i=1Nj=q+1p((xix)Tuj)2=j=q+1pujTSuj , s.t. ujTuj=1
同样的:
a r g m i n u j L ( u j , λ ) = a r g m i n u j u j T S u j + λ ( 1 − u j T u j ) \mathop{argmin}_{u_j}L(u_j,\lambda)=\mathop{argmin}_{u_j}u_j^TSu_j+\lambda(1-u_j^Tu_j) argminujL(uj,λ)=argminujujTSuj+λ(1ujTuj)
损失函数最小取在本征值剩下的个最小的几个值。数据集的协方差矩阵可以写成 S = U Λ U T S=U\Lambda U^T S=UΛUT​,直接对这个表达式当然可以得到本征矢。

在这里插入图片描述


结论:
最小投影方差 J = 1 N ∑ i = 1 N ( ( x i − x ‾ ) T u 1 ) 2 J=\frac{1}{N} \sum\limits_{i=1}^N((x_i-\overline{x})^Tu_1)^2 J=N1i=1N((xix)Tu1)2

​ 最小重构代价 J = ∑ i = 1 N ∣ ∣ x i − x ^ i ∣ ∣ = ∑ k = q + 1 p u k T S u k J=\sum\limits_{i=1}^N||x_i-\hat x_i||=\sum\limits_{k=q+1}^pu_k^TSu_k J=i=1N∣∣xix^i∣∣=k=q+1pukTSuk


P26 (系列五) 降维5-SVD角度开看PCA和PCoA

SVD 与 PCoA

  • SVD(奇异值分解)是对任意形状的矩阵进行的一种分解方法,可以看作是非方阵的矩阵的“特征分解”的推广。SVD 提供了一种将矩阵分解为三个特定形式矩阵乘积的方法,这三个矩阵分别是:一个正交矩阵、一个对角矩阵(对角元素称为奇异值,且按从大到小的顺序排列),以及另一个正交矩阵的转置。

SVD 的基本形式

对于任意 m × n m \times n m×n 矩阵 A A A(其中 m m m n n n 不一定相等),SVD 将其分解为:

A = U Σ V T A = U \Sigma V^T A=UΣVT

其中:

  • U U U 是一个 m × m m \times m m×m 的正交矩阵,其列向量是 A A T AA^T AAT A A A 的自乘转置)的特征向量,称为左奇异向量。
  • Σ \Sigma Σ 是一个 m × n m \times n m×n 的矩阵,其对角线上的元素是奇异值(非负且按从大到小排列),其余元素为0。
  • V V V 是一个 n × n n \times n n×n 的正交矩阵,其列向量是 A T A A^TA ATA A A A 的转置自乘)的特征向量,称为右奇异向量。
  • V T V^T VT V V V 的转置。

SVD 的计算

SVD 的计算通常通过数值方法实现,如 Golub-Reinsch 算法(基于 QR 分解的方法)或分治法。这些算法在大多数编程语言的标准数学库中都有实现,如 Python 的 NumPy 库中的 numpy.linalg.svd 函数。

下面使用实际训练时常常使用的 SVD 直接求得这个 q q q 个本征矢。

对中心化后的数据集进行奇异值分解:
H X = U Σ V T , U T U = E N , V T V = E p , Σ : N × p HX=U\Sigma V^T,U^TU=E_N,V^TV=E_p,\Sigma:N\times p HX=UΣVT,UTU=EN,VTV=Ep,Σ:N×p

于是:
S = 1 N X T H X = 1 N X T H T H X = 1 N V Σ T Σ V T S=\frac{1}{N}X^THX=\frac{1}{N}X^TH^THX=\frac{1}{N}V\Sigma^T\Sigma V^T S=N1XTHX=N1XTHTHX=N1VΣTΣVT
因此,我们直接对中心化后的数据集进行 SVD,就可以得到特征值和特征向量 V V V,在新坐标系中的坐标就是:
H X ⋅ V HX\cdot V HXV
由上面的推导,我们也可以得到另一种方法 PCoA 主坐标分析,定义并进行特征值分解:
T = H X X T H = U Σ Σ T U T T=HXX^TH=U\Sigma\Sigma^TU^T T=HXXTH=UΣΣTUT
由于:
T U Σ = U Σ ( Σ T Σ ) TU\Sigma=U\Sigma(\Sigma^T\Sigma) TUΣ=UΣ(ΣTΣ)
于是可以直接得到坐标。这两种方法都可以得到主成分,但是由于方差矩阵是 p × p p\times p p×p 的,而 T T T N × N N\times N N×N​ 的,所以对样本量较少的时候可以采用 PCoA的方法。

  • 坐标矩阵就是T的特征向量组成的矩阵

在这里插入图片描述

P27 (系列五) 降维6-主成分分析(PCA)  以概率角度

p-PCA

下面从概率的角度对 PCA 进行分析,概率方法也叫 p-PCA。我们使用线性模型,类似之前 LDA,我们选定一个方向,对原数据 x ∈ R p x\in\mathbb{R}^p xRp ,降维后的数据为 z ∈ R q , q < p z\in\mathbb{R}^q,q<p zRq,q<p。降维通过一个矩阵变换(投影)进行:
z ∼ N ( O q 1 , I q q ) x = W z + μ + ε ε ∼ N ( 0 , σ 2 I p p ) \begin{align} z&\sim\mathcal{N}(\mathbb{O}_{q1},\mathbb{I}_{qq})\\ x&=Wz+\mu+\varepsilon\\ \varepsilon&\sim\mathcal{N}(0,\sigma^2\mathbb{I}_{pp}) \end{align} zxεN(Oq1,Iqq)=Wz+μ+εN(0,σ2Ipp)
对于这个模型,我么可以使用期望-最大(EM)的算法进行学习,在进行推断的时候需要求得 p ( z ∣ x ) p(z|x) p(zx)​,推断的求解过程和线性高斯模型类似。

  • E ( X 2 ) − E 2 ( X ) = V a r ( X ) E(X^2)-E^2(X)=Var(X) E(X2)E2(X)=Var(X)

p ( z ∣ x ) = p ( x ∣ z ) p ( z ) p ( x ) E [ x ] = E [ W z + μ + ε ] = μ V a r [ x ] = W W T + σ 2 I p p ⟹ p ( z ∣ x ) = N ( W T ( W W T + σ 2 I ) − 1 ( x − μ ) , I − W T ( W W T + σ 2 I ) − 1 W ) \begin{align} &p(z|x)=\frac{p(x|z)p(z)}{p(x)}\\ &\mathbb{E}[x]=\mathbb{E}[Wz+\mu+\varepsilon]=\mu\\ &Var[x]=WW^T+\sigma^2\mathbb{I}_{pp}\\ \Longrightarrow p(z|x)=\mathcal{N}(W^T(WW^T+&\sigma^2\mathbb{I})^{-1}(x-\mu),\mathbb{I}-W^T(WW^T+\sigma^2\mathbb{I})^{-1}W) \end{align} p(zx)=N(WT(WWT+p(zx)=p(x)p(xz)p(z)E[x]=E[Wz+μ+ε]=μVar[x]=WWT+σ2Ippσ2I)1(xμ),IWT(WWT+σ2I)1W)

在这里插入图片描述

小结

降维是解决维度灾难和过拟合的重要方法,除了直接的特征选择外,我们还可以采用算法的途径对特征进行筛选,线性的降维方法以 PCA 为代表,在 PCA 中,我们只要直接对数据矩阵进行中心化然后求奇异值分解或者对数据的协方差矩阵进行分解就可以得到其主要维度。非线性学习的方法如流形学习将投影面从平面改为超曲面。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2113224.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据链路层与ARP协议

一.认识识以太网 "以太网" 不是一种具体的网络, 而是一种技术标准; 既包含了数据链路层的内 容, 也包含了一些物理层的内容. 例如: 规定了网络拓扑结构, 访问控制方式, 传输速率等; 以太网中的网线必须使用双绞线; 传输速率有 10M, 100M, 1000M 等; 以太网是当前应用…

【最新华为OD机试E卷-支持在线评测】机器人活动区域(100分)多语言题解-(Python/C/JavaScript/Java/Cpp)

🍭 大家好这里是春秋招笔试突围 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-E/D卷的三语言AC题解 💻 ACM金牌🏅️团队| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 🍿 最新华为OD机试D卷目录,全、新、准,题目覆盖率达 95% 以上,…

2024年【金属非金属矿山(露天矿山)安全管理人员】考试题及金属非金属矿山(露天矿山)安全管理人员最新解析

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 金属非金属矿山&#xff08;露天矿山&#xff09;安全管理人员考试题参考答案及金属非金属矿山&#xff08;露天矿山&#xff09;安全管理人员考试试题解析是安全生产模拟考试一点通题库老师及金属非金属矿山&#xf…

Java魔板游戏软件(含代码)

✅作者简介&#xff1a;2022年博客新星 第八。热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏…

【第0007页 · 数组】数组中重复的数据(如何实现数组的原地修改)

【前言】本文以及之后的一些题解都会陆续整理到目录中&#xff0c;若想了解全部题解整理&#xff0c;请看这里&#xff1a; 第0007页 数组中重复的数据 今天&#xff0c;我们来看一个在实际工作中运用不多&#xff0c;但是对于一些算法题还是有必要的奇技淫巧——数组的原地修…

基于开源链动 2 + 1 模式、AI 智能名片与 S2B2C 商城小程序的用户忠诚度计划

摘要&#xff1a;本文深入探讨了在商业环境中执行用户忠诚度计划的创新途径。通过整合开源链动 2 1 模式、AI 智能名片以及 S2B2C 商城小程序等先进元素&#xff0c;从提供福利、解决问题和创造赚钱机会三个核心方面展开详细阐述。研究表明&#xff0c;这些新技术和新模式的有…

LLM大模型:将爬虫与大语言模型结合

摘要 Web自动化是一种重要技术&#xff0c;通过自动化常见的Web操作来完成复杂的Web任务&#xff0c;可以提高运营效率并减少手动操作的需要。 传统的实现方式&#xff0c;比如包装器&#xff0c;当面对新的网站时&#xff0c;面临着适应性和可扩展性的限制。 另一方面&…

国内短剧系统怎么搭建以及都需要那些资质?

聊到国内短剧&#xff0c;相信大家都不陌生&#xff0c;在各大短视频平台可谓是火的一批&#xff0c;您或许有想加入进来的想法&#xff0c;或是已经有规划还未实现的&#xff0c;请停下脚步&#xff0c;耐心看完该文章&#xff0c;相信一定会对你有所帮助的。本文介绍短剧平台…

C语言中结构体struct和联合体union的区别

C语言 文章目录 C语言前言一、什么是结构体二、什么是联合体三、结构体和联合体的区别 前言 一、什么是结构体 在C语言中&#xff0c;结构体指的是一种数据结构&#xff0c;是C语言中聚合数据类型的一类。结构体可以被声明为变量、指针或数组等&#xff0c;用以实现较复杂的数…

单调栈的实现

这是C算法基础-数据结构专栏的第二十四篇文章&#xff0c;专栏详情请见此处。 引入 单调栈就是满足单调性的栈结构&#xff0c;它最经典的应用就是给定一个序列&#xff0c;找出每个数左边离它最近的比它大/小的数。 下面我们就来讲单调栈的实现。 定义 单调栈就是满足单调性…

SnapGene 5.3.1下载安装教程百度网盘分享链接地址

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 SnapGene介绍 SnapGene 5.3.1下载安装教程百度网盘分享链接地址&#xff0c;SnapGene 是一款由美国公司开发&#xff08;后被收购&#xff09;的分子生物学软件&#xff0c;…

Deepspeed框架学习笔记

DeepSpeed 是由 Microsoft 开发的深度学习优化库,与PyTorch/TensorFlow等这种通用的深度学习框架不同的是,它是一个专门用于优化和加速大规模深度学习训练的工具,尤其是在处理大模型和分布式训练时表现出色。它不是一个独立的深度学习框架,而是依赖 PyTorch 等框架,扩展了…

Vue 向标签中传入 this

我曾经问过 chatgpt 这个问题&#xff0c;chatgpt 说不行&#xff01; 但是&#xff0c;chatgpt 说的就算吗&#xff1f; 来试试吧&#xff1a; https://andi.cn/page/621733.html 当然是可以的&#xff01;

apk反编译修改教程系列-----修改apk 解除软件限制功能 实例操作步骤解析_6【二十五】

目前很多软件都需要票票才可以使用完全的功能。纯免费的功能性app已经很少见了。 今天继续以一款app为大家来演示如何去除软件的限制功能。教程的目的主要是学习反编译的基础修改方法,了解app的修改步骤以及基础的入门修改常识。每个使用修改方法不一定适用于所有app。只是给你…

springboot、flowable 生成图片发布到Docker乱码问题

flowable自带的方法生成图片时&#xff0c;如设置字体为宋体&#xff0c;则本地测试没有问题&#xff0c;因为windows自带宋体字体库&#xff0c;但是如果发布到Docker&#xff0c;则会出现乱码问题&#xff0c;因为大部分Docker并不包含宋体字体库&#xff1b; 通过Java代码&a…

AAudio的延迟优化

AAudio | Android NDK | Android Developers

yolov8 pt转onnx

第一步&#xff1a; 安装onnx pip install --upgrade onnx 第二步&#xff1a; 将以下代码创建、拷贝到yolov8根目录下。具体代码test.py&#xff1a; from ultralytics import YOLO # Load a model model YOLO(yolov8n.pt) # load an official model # Export the mode…

Python利用pyecharts实现数据可视化

小编会持续更新知识笔记&#xff0c;如果感兴趣可以三连支持。闲来无事&#xff0c;水文一篇&#xff0c;不过上手实践一下倒还是挺好玩的&#xff0c;这一块知识说不定以后真可以尝试拿来做数据库的报表显示。 有梦别怕苦&#xff0c;想赢别喊累。 目录 前言 JSON数据格式的…

Leetcode3259. 超级饮料的最大强化能量

Every day a Leetcode 题目来源&#xff1a;3259. 超级饮料的最大强化能量 解法1&#xff1a;记忆化搜索 本题的状态定义 dfs(i,j)。其中 j0,1&#xff0c;分别表示最后选的是 energyDrinkA[i] 还是 energyDrinkB[i]。 为方便实现&#xff0c;把 energyDrinkA 和 energyDri…

你读文献的方式可能错了!掌握这些技巧,让阅读事半功倍!

我是娜姐 迪娜学姐 &#xff0c;一个SCI医学期刊编辑&#xff0c;探索用AI工具提效论文写作和发表。 科研新手如何精读一篇论文&#xff1f; 很多科研新手&#xff0c;一上来就疯狂下载几十上百篇文献。囫囵吞枣看完了&#xff0c;还是什么都不知道&#xff0c;大脑一片空白。…