11.无监督学习之主成分分析

news2024/11/28 13:36:56

11.1 降维

降维的两种应用:一是数据压缩;二是可视化数据。

11.1.1 数据压缩

将相关性强的两个特征导致冗余,可以直接去掉其中一个特征,或者将两个特征进行某种转换,得到一个特征。

 11.1.2 可视化数据

直接看数据可能看不出什么现象出来

 但是通过图来进行对比,按照GDP或者是其他标准来看,会更明显。

11.2 主成分分析(PCA)

假设我们有一个二维的样本x数据集,当我们向对数据进行降维从二维到一维,也就是想到找一条能够将数据投影成一条直线。PCA会找一个低维得平面,刚刚的假设例子是一条直线,然后将数据投影在上面使这些蓝色小线段长度(有时也叫投影误差)平方最小,PCA要做的就是找到一个投影平面对数据进行投影使得能最小化这个距离。

主成分分析(PCA)是一种数据压缩的算法,他将数据压缩到k维度,并使得所有数据投影到新维度的距离最小。在应用PCA之前,常规的做法是先进行均值归一化特征常规化,使得特征x_{1},x_{2}得均值为0并且其数值在可比较范围之内。

PCA做的就是,对于二维降到一维:要试着找到一个向量,假设是u^{(i)}(u^{(i)}\in \mathbb{R}^{n}),要找一个数据投影后能够最小化投影误差的方向,在这个例子里,希望PCA能找到这个向量u^{(1)}。当把数据投影到u^{(1)}存在的这条直线上时,就会得到非常小的重构误差(如上图所示)。

对于N维降到K维:我们要找的就不是单个向量来对数据进行投影二是想寻找K个方向来对数据进行投影来最小化投影误差。

PCA不是线性回归,一个是投影距离,一个是点与直线上点的距离

下图的左边部分表示线性回归,当我们处理线性回归时,给定某个输入的特征量x来预测出某变量y的值。所以在线性回归中,我们要做的就是拟合一条直线来最小化点和直线之间的平方误差,要最小化的是图中蓝线之和的平方。下图的右边部分表示PCA,在处理PCA中,它要做的是试图最小化这些蓝色直线的长度(是他们最短的正交距离)。线性回归垂直x轴,求预测与实际y差;而PCA是垂直于拟合线,求正交距离。

 并且线性回归是用所有的x来预测y,在PCA中没有区别对待,没有什么特殊的变量y需要预测,相反我们有一系列特征都是同等对待。

PCA执行过程:首先对数据预处理,进行均值归一化(可能也要进行特征缩放),然后计算协方差,最后得到一个k维的矩阵。

 首先对数据进行均值归一化,然后确定要压缩的目标维度,即对应向量的个数,PCA的目标是使得所有数据距离新维度的距离最小。

将n维降到k维,下面是过程:

在进行数据预处理后,首先计算协方差(covariance matrix)Sigma是nxn的矩阵, 再进行特征缩放。

 

11.3 压缩重现

怎么样把降维的数据再重现回去?

 x_{approx} =U_{reduce}z(这里反求的x是近似的)

 11.4 确定维度K

 为了选择k也就是主要成分的数量,这里有一些有用的概念。

PCA所做的是尝试使得这个式子\frac{1}{m}\sum_{i=1}^{m}\left \| x^{(i)}-x_{approx}^{(i)} \right \|^{2}最小化,这就是平均平方差投影误差训练集数据的总方差\frac{1}{m}\sum_{i=1}^{m}\left \| x^{(i)} \right \|^{2}(所有训练实例的范数得平均值)。也就是说,它代表了我的数据点与(0,0)点平均有多远。当我们选择k时,我们要取得最小值的k,使得下图的不等式小于等于0.01。

选择k使得平均投影平方误差(分子)除以总方差(分母),也就是代表数据波动有多大。这里的0.01,用术语说就是保留99%的方差特性,也就是降维后保留的数据量要占到原数据的99%以上。variance在这里不应该理解成为方差而是差异,PCA其实是保留差异的分量,将具有相关性。可能95%到99%是最常使用的数值。因为很多数据特征相关,所以降维依然可以保留95%以上的特征。

 实现这一点的步骤如下:

如果你想要k的值,让k=1,执行PCA算法,计算下面这些变量的值,然后检查下面不等式是否满足小于等于0.01,如果不成立继续让k=2,k=3,k=4...;如果成立就选择k=1。但是这样做效率不高。

 可以使用PCA运算中已经写好的svd分解函数,调用svd,通过Sigma参数,得到U,S,V三个参数。其中,S矩阵是一个对角阵。并且可以证明对于给定的k,将\frac{\frac{1}{m}\sum_{i=1}^{m}\left \| x^{(i)}-x_{approx}^{(i)} \right \|^{2}}{\frac{1}{m}\sum_{i=1}^{m}\left \| x^{(i)} \right \|^{2}}变换成1-\frac{\sum_{i=1}^{k}S_{ii}}{\sum_{i=1}^{n}S_{ii}}这样计算,接下来要做的就是验证它是否小于等于0.01,或者验证\frac{\sum_{i=1}^{k}S_{ii}}{\sum_{i=1}^{n}S_{ii}}是否大于0.99。

 11.5 PCA的应用

如果直接再交叉验证集和测试集上用PCA会过拟合,所以只能用训练集降维矩阵去给测试机和交叉验证集做映射,不能另外在上面做PCA。

PCA的应用:首先它能进行数据压缩,其次可以使用PCA去加速学习算法以及可视化

PCA不能防止过拟合!过拟合是由于某些异常数据的影响而产生的,通过主成分分析只能去除异常数据内部的一部分噪音,并不能把异常数据本身从数据集中去除,异常数据在投影面上的异常性还是存在。解决过拟合的好方式使用正则化。

PCA有时候会丢失一些重要的数据信息,这样训练出来的模型性能会减弱,除非数据太大或者算法太慢才会考虑PCA。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/628634.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设计模式:提升软件设计质量的利器,适合入门者的指南

目录 导言:设计模式的概念常见的设计模式2.1. 单例模式(Singleton Pattern)2.2. 工厂模式(Factory Pattern)2.3. 观察者模式(Observer Pattern)2.4. 策略模式(Strategy Pattern&…

OpenGL 摄像机

1.简介 OpenGL本身没有摄像机(Camera)的概念,但我们可以通过把场景中的所有物体往相反方向移动的方式来模拟出摄像机,产生一种我们在移动的感觉,而不是场景在移动。 要定义一个摄像机,我们需要它在世界空间中的位置、观察的方向…

Java 实现在顺序表中获取 pos 元素的位置

一、思路 1.顺序表不能是空的 2.pos位置要合法 3.直接返回当前的pos位置的下标 二、图解 返回的要是当前 pos 位置的下标,因为下标是没有负数的,由此就可以得出如果下标是负数的话, 这就是一种不合法的情况。 pos 位置的下标也不会超过顺序…

星空特效,截图不太完美

先上效果&#xff1a; 再上代码&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>星空</title><meta name"viewport" content"widthdevice-width, user-scalable…

【立体视觉(三)】之张正友标定法原理

【立体视觉&#xff08;三&#xff09;】之张正友标定法原理 一、相机标定二、参数求解一&#xff09;闭合解二&#xff09;极大似然解三&#xff09;考虑相机畸变 三、实验流程 此为个人学习笔记&#xff0c;在各处借鉴了不少好图好文&#xff08;参考文献在文末&#xff09;&…

项目中常用的linux命令总结大全

哈喽 大家好啊&#xff0c;相信大家在项目中都会常常部署服务器&#xff0c;就涉及到一些常见的linux命令了 1.命令提示符表示命令输入 ps aux | grep nginx&#xff08;查看nginx进程运行状态&#xff09;whereis nginx 查找哪里有nginxlsof -i:5300 查看端口状态kill -9 xxx进…

攻防世界-Crypto-转轮机加密

1. 题目如下&#xff1a; 1: < ZWAXJGDLUBVIQHKYPNTCRMOSFE < 2: < KPBELNACZDTRXMJQOYHGVSFUWI < 3: < BDMAIZVRNSJUWFHTEQGYXPLOCK < 4: < RPLNDVHGFCUKTEBSXQYIZMJWAO < 5: < IHFRLABEUOTSGJVDKCPMNZQWXY < 6: < AMKGHIWPNYCJBFZDR…

大数据需要学习哪些内容?

大数据技术的体系庞大且复杂&#xff0c;每年都会涌现出大量新的技术&#xff0c;目前大数据行业所涉及到的核心技术主要就是&#xff1a;数据采集、数据存储、数据清洗、数据查询分析和数据可视化。 Python 已成利器 在大数据领域中大放异彩 Python&#xff0c;成为职场人追求…

论文阅读和分析:Binary CorNET Accelerator for HR Estimation From Wrist-PPG

主要贡献&#xff1a; 一种完全二值化网络(bCorNET)拓扑结构及其相应的算法-架构映射和高效实现。对CorNET进行量化后&#xff0c;减少计算量&#xff0c;又能实现减轻运动伪影的效果。 该框架在22个IEEE SPC受试者上的MAE为6.675.49 bpm。该设计采用ST65 nm技术框架&#xff…

04_两种常见的网页反爬措施及应对方法

一、封禁IP地址反爬 1、应对思路: 理解这种反爬方法的含义:当我们用自己电脑的ip地址短时间,高频率访问某个具有此类反爬设置的网站,这种网站就会把我们的ip地址封禁,一般都是封24小时或者其他时间。解决方案:通过代理ip访问,这种方式只不过就是让你有了重新访问网页的…

宝塔面板搭建thinkphp后请求中去除index.php后缀

宝塔面板搭建thinkphp后请求中去除index.php后缀 nginx配置 在宝塔面板网站中绑定thinkphp的public&#xff0c;添加站点 点击站点设置按钮打开项目设置页面 找到配置文件 选项&#xff0c;然后在 22行 后添加一下代码 location / {if (!-f $request_filename) {rewrite …

一学就会----链表的中间节点

文章目录 题目描述思路代码示例在原题上增加难度思路代码示例 题目描述 给定一个头结点为 head 的非空单链表&#xff0c;返回链表的中间结点。 如果有两个中间结点&#xff0c;则返回第二个中间结点。 图片示例&#xff1a; 思路 因为这道题目并没有时间复杂度的规定&#xf…

iOS17beta有哪些Bug?iOS17值得升级吗?iOS17Bug大汇总!

iOS17Beta已上线几天&#xff0c;带来了新增横屏待机、“嘿Siri”去除了“嘿”、联系人海报、NameDrop等新功能。 做为第一个beta版本&#xff0c;避免不了许多Bug的出现。 小编收集了目前体验遇到和网上反馈的所有BUG&#xff0c;还没更新iOS17的小伙伴们可以看看截止目前升级…

C++ 类型转换:类型萃取器进行类型转换和cast类操作符进行转换的区别?

区别 类型萃取器和cast类操作符都可以用于类型转换&#xff0c;但它们的用途和工作方式有所不同。 类型萃取器&#xff0c;如 std::remove_reference<T>、std::remove_const<T>、std::add_pointer<T> 等&#xff0c;主要用于在编译时修改类型&#xff0c;它…

# WGCNA | 不止一个组的WGCNA怎么分析嘞!?~(四)(共识网络分析-第四步-共识模块与性状相关联)

1写在前面 最近稍微没有那么忙了&#xff0c;好好搞一下公众号吧&#xff0c;好久没怎么认真做了。&#x1f637; 有的时候你会发现坏事不一定是坏事&#xff0c;塞翁失马&#xff0c;焉知非福啊&#xff01;~&#x1f643; "我只担心一件事,我怕我配不上自己所受的苦难。…

springcloud-alibaba (06)RocketMQ下载安装和单机启动个人笔记

RocketMQ 01 下载RocketMQ02 安装RocketMQ03 启动RocketMQ1. 内存分配1.1 第一步1.2 第二步1.3 第三步 2. 启动RocketMQ2.1 启动NameServer2.2 启动Broker 04 测试RocketMQ05 关闭RocketMQ 01 下载RocketMQ 下载 RocketMQ 即可以从 Apache 官网下载&#xff0c;也可以从 gitHu…

C#调用C++的动态链接库

C#调用C的动态链接库 问题所在使用VS编辑所需要调用的函数&#xff08;c&#xff09;创建c#项目&#xff0c;调用c动态库 这是一个测试代码。 问题所在 c# 调用c的dll库不能引用 解决办法是 1&#xff1a;在写c代码的时候&#xff0c;把他加入到dll中 2&#xff1a;将c的dll库…

Selenium自动化测试框架工作原理你明白了吗?

一、Selenium是什么&#xff1f; 用官网的一句话来讲&#xff1a;Selenium automates browsers. Thats it&#xff01;简单来讲&#xff0c;Selenium是一个用于Web应用程序自动化测试工具。Selenium测试直接运行在浏览器中&#xff0c;就像真正的用户在操作浏览器一样。支持的…

零基础学网络安全的心得

我的学习心得&#xff0c;我认为能不能自学成功的要素有两点。 第一点就是自身的问题&#xff0c;虽然想要转行学习安全的人很多&#xff0c;但是非常强烈的想要转行学好的人是小部分。而大部分人只是抱着试试的心态来学习安全&#xff0c;这是完全不可能的。 所以能不能学成并…

神经网络:卷积的padding为SAME或VALID

1&#xff1a;卷积运算原理&#xff08;直接看图&#xff09; ①由图可知&#xff0c;output[0][0] 视野域 * 卷积核&#xff08;矩阵点击运算&#xff0c;对应位相乘然后求和&#xff0c;视野域形状与卷积核一致&#xff09;&#xff0c;而output[0][1] 下一视野域 * 卷积核…