PCA实现降维的过程

news2025/1/10 17:19:56

PCA将相关性高的变量转变为较少的独立新变量,实现用较少的综合指标分别代表存在于各个变量中的各类信息,既减少高维数据的变量维度,又尽量降低原变量数据包含信息的损失程度,是一种典型的数据降维方法。PCA保留了高维数据最重要的一部分特征,去除了数据集中的噪声和不重要特征,这种方法在承受一定范围内的信息损失的情况下节省了大量时间和资源,是一种应用广泛的数据预处理方法。

PCA在数据挖掘和机器学习实践中的应用主要集中于几个方面,如图5-1所示。

 (1)数据可视化。人类生存的物理空间是三维空间,任何高于三维的数据我们都无法通过视觉直接感知。因此,数据科学家常常使用PCA对高维数据进行降维,从而便于可视化地展示数据特点,帮助研究人员洞察数据中蕴含的规律。

(2)缓解过拟合。机器学习中数据维度越多就意味着模型的变量越多,也就意味着模型的复杂度越高。越高的模型复杂度越容易导致过拟合。因此,机器学习中通过PCA对训练数据进行降维处理,能够在一定程度上缓解过拟合。

(3)提高计算性能。高维数据不仅占用过多的存储资源,而且由于维度较高导致计算的复杂度不断上升。例如一张长32像素点、宽32像素点的人脸或者手写数字的图像,它的向量的维度可以达到32×32=1 024。这会导致庞大的存储量和计算量,并造成存储资源和计算资源的巨大开销。因此,通过PCA进行降维处理可以节约存储资源和计算资源,提高计算性能。

假设我们收集到某班级5名同学的各科成绩,如表

 为了便于后续计算展示,我们采用特征维度零均值化方式(所有科目成绩减去该科目所有学生成绩平均值)来处理数据,如表

 我们首先将上述经过零均值化处理的数据写成矩阵形式,如下所示。

        我们发现,上面矩阵为6行5列。其中,每一列表示一名学生的成绩,每一行表示一个维度(如语文、历史、地理、数学、物理、化学)。例如第一列表示的是姓名为“张小小”的学生各科成绩经过零均值化后的结果。

经过零均值化的数据预处理后,我们就可以正式开启PCA过程了,步骤如下。

(1)计算协方差矩阵。

计算矩阵A的6个行向量(如语文、历史、地理、数学、物理、化学)的协方差矩阵

 (2)计算特征值与特征向量。

上述协方差矩阵C的特征值为 

         假设我们现在需要将原矩阵A(6维,即6个行向量)降为2维矩阵,那么我们可以选择最大的两个特征值830.701、399.845。这样,我们就可以得到对应的特征值与特征向量。

第一,特征值为830.701时,对应的特征向量为

第二,特征值为399.845时,对应的特征向量为

 

 (3)矩阵相乘实现降维。

上面选择的特征向量就是我们降维后新空间的基,将其作为行向量形成2×6的矩阵P,如:

 然后,再将矩阵P与矩阵A相乘,就可以实现降维。

 

所以,PCA过程包含以下几个步骤,如图5-2所示。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/20587.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

web前端期末大作业 HTML+CSS+JavaScript仿京东

⛵ 源码获取 文末联系 ✈ Web前端开发技术 描述 网页设计题材,DIVCSS 布局制作,HTMLCSS网页设计期末课程大作业 | 在线商城购物 | 水果商城 | 商城系统建设 | 多平台移动商城 | H5微商城购物商城项目| HTML期末大学生网页设计作业,Web大学生网页 HTML&am…

SpringBoot发送邮件

06.发送邮件 在使用javaSE时&#xff0c;我们会发现发送邮件较为麻烦&#xff0c;而在SpringBoot中&#xff0c;发送邮件就变成一件较为简单的时。 导入mail的maven的启动类。 <dependency><groupId>org.springframework.boot</groupId><artifactId>…

DSPE PEG Azide, DSPE-PEG-N3;磷脂聚乙二醇叠氮

中文名称&#xff1a;磷脂聚乙二醇叠氮(DSPE-PEG-N3) 中文别名&#xff1a;N-二硬脂酰磷脂酰乙酰胺-PEG-叠氮 磷脂PEG叠氮 英文名称&#xff1a;DSPE PEG Azide, DSPE-PEG-N3 性状&#xff1a;根据不同的分子量为固体或者粘稠液体。 溶剂&#xff1a;溶于DCM&#xff0c;…

表单标签。。

一、任务目标 掌握表单标签及其属性的使用 二、任务背景 HTML表单用于收集用户输入。表单元素指的是不同类型的 input 元素、复选框、单选按钮、提交按钮等。 三、任务内容 1、<form></form>标签 用于创建HTML表单&#xff0c;常用属性如下&#xff1a; action&…

OpenGL ES 学习(一) -- 基本概念

最近在研究 SurfaceView 和 TextureView&#xff0c;发现栅格化这东西&#xff0c;一直没怎么搞明白&#xff0c;一搜都是关于 OpenGL 的&#xff0c;没办法&#xff0c;当初也是要学习这个&#xff0c;现在重试拾起。 之前接触 OpenGL &#xff0c;是主要解决一个渲染模糊问题…

JavaEE-操作系统

✏️作者&#xff1a;银河罐头 &#x1f4cb;系列专栏&#xff1a;JavaEE &#x1f332;“种一棵树最好的时间是十年前&#xff0c;其次是现在” 目录操作系统介绍操作系统的定位进程进程控制块内存管理进程间通信思维导图总结操作系统介绍 操作系统是一组做计算机资源管理的软…

文献学习01_Attention Is All You Need_20221119

论文信息 Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG) &#xff08;1&#xff09;题目&#xff1a;Attention Is All You Need &#xff08;你需要的就是关注&#xff09; &#xff08;2&#xff09;文章下载地址&#xff1a;https://doi.org/10.4…

今天给大家介绍一篇基于javaWeb的汽车订票系统的设计与实现

项目描述 临近学期结束&#xff0c;还是毕业设计&#xff0c;你还在做java程序网络编程&#xff0c;期末作业&#xff0c;老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下&#xff0c;你想解决的问…

牛客网之SQL非技术快速入门(3)-排序、关联关系

知识点&#xff1a; &#xff08;1&#xff09;order by colunm_name(s) ASC|DESC order by ID ASC,name ASC,sex DESC 不写就是默认升序&#xff0c;DESC降序 &#xff08;2&#xff09;3中关联关系&#xff1a;left join、right join、inner join/join 21、现在运营想要查…

【微信开发第四章】SpringBoot实现微信H5支付

前言 在进行微信公众号业务开发的时候,微信支付可以说是非常重要的一环。该篇文章每一步都有记录&#xff0c;力争理解的同时各位小伙伴也能够实现功能 文章目录前言1、公众号配置2、微信支付实现代码总结1、公众号配置 1、绑定域名 先登录微信公众平台进入“设置与开发”&…

阿里云架构实战之ALB(应用型负载均衡)介绍与搭建

ALB介绍 服务器端负载均衡SLB&#xff08;Server Load Balancer&#xff09;是一种对流量进行按需分发的服务&#xff0c;通过将流量分发到不同的后端服务来扩展应用系统的服务吞吐能力&#xff0c;并且可以消除系统中的单点故障&#xff0c;提升应用系统的可用性。 阿里云负…

代码随想录算法训练营第60天 | 一刷结束篇 84.柱状图中最大的矩形

代码随想录系列文章目录 一刷总结篇 文章目录代码随想录系列文章目录84.柱状图中最大的矩形dp 普通思路单调栈一刷总结篇84.柱状图中最大的矩形 题目链接 这道题和接雨水是两个相似的题&#xff0c;相辅相成的那种&#xff0c;双指针是过不了力扣的会超时&#xff0c;所以我也…

pandas提取键值对(json和非json格式)

&#xff08;欢迎大家关注我的公众号“机器学习面试基地”&#xff0c;之后将在公众号上持续记录本人从非科班转到算法路上的学习心得、笔经面经、心得体会。未来的重点也会主要放在机器学习面试上&#xff01;&#xff09; 最近工作中需要解析一些有模型输入输出信息的csv日志…

SpringBoot+Mybaits搭建通用管理系统实例七:访问接口Api层功能实现

一、本章内容 系统api接口层实现,实现系统对外接口相应功能定义及实现,并通过Swagger实现接口文档的自动生成。 完整课程地址 二、开发视频 SpringBoot+Mybaits搭建通用管理系统实例二:api层实现 三、代码实现 使用基类的方式实现各方法接口的抽象实现,使用泛型的方式指定具…

linux上配置jdk和maven环境 (deepin适用)

前言 安装那些&#xff0c;就不说了&#xff0c;应该大家都下好才来配置的&#xff0c;下载安装的话&#xff0c;直接解压到一个目录就好&#xff0c;给个链接给你 jdk8下载链接&#xff1a; https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html 命…

Docker Buildkit(新增 --mount、--security、--network 等特性)

BuildKit是Docker官方社区推出的下一代镜像构建神器。 可以更加快速&#xff0c;有效&#xff0c;安全地构建docker 镜像&#xff0c;自 docker v18.06 版本起已经集成了该组件。 Buildkit 是下一代 docker 构建组件&#xff0c;拥有众多特性&#xff1a; 自动垃圾收集可扩展…

静态WEB容器镜像最小化实践

在现代的B/S架构应用中&#xff0c;我们会做前后端分离&#xff0c;某些前端Web服务会将编译完成的静态文件放到一个web服务器进行部署。例如&#xff0c;我的博客也是基于Hugo编译的静态文件来进行部署的。 那在容器化部署模式下&#xff0c;我们需要基于一个web服务的基础容…

js:什么是编译时和运行时

编译时 源代码编译为机器可执行的二进制码。 编译过程中一般会识别你代码中的语法错误等问题&#xff0c;这个错误就叫编译时错误&#xff0c;做的一些检查也叫做编译时类型检查或者静态类型检查&#xff0c;因为静态就意味着代码还没有放到内存里去运行&#xff0c;只是把代…

九.STM32F030C8T6 MCU开发之电源掉电数据保存案例

九.STM32F030C8T6 MCU开发之电源掉电数据保存案例 0.总体功能概述 使用STD库–en.stm32f0_stdperiph_lib_v1.6.0。 1.掉电数据保存背景 掉电保存数据的时间内 电源稳定。也就是数据保存时间要尽量短,电源稳定要尽量长。 第一种,采用备用电池的方法来实现,增加了电池和更…

DFS搜索和输出所有路径

文章目录1、DFS搜所有路径2、用栈记录和输出路径3、例题3.1 C代码3.2 Python代码4、真题4.1 C代码4.2 Python代码2022.12将出版蓝桥杯大赛用书《蓝桥杯大赛-程序设计竞赛专题挑战教程》&#xff0c;作者&#xff1a;蓝桥杯组委会、罗勇军。   这本书解析了蓝桥杯大赛的常见考…