【Python机器学习】PCA降维算法讲解及二维、高维数据可视化降维实战(附源码 超详细)

news2024/11/16 12:39:57

需要全部代码请点赞关注收藏后评论区留言私信~~~

维数灾难

维数灾难是指在涉及到向量计算的问题中,当维数增加时,空间的体积增长得很快,使得可用的数据在空间中的分布变得稀疏,向量的计算量呈指数倍增长的一种现象。维数灾难涉及数值分析、抽样、组合、机器学习、数据挖掘和数据库等诸多领域。

降维不仅可以减少样本的特征数量,还可以用来解决特征冗余(是指不同特征有高度相关性)等其他数据预处理问题。可视化并探索高维数据集也是它的一个重要应用。

降维算法是专门用于降维的算法,可以分为线性和非线性的,线性的降维算法是基于线性变换来降维,主要有奇异值分解,主成分分析等算法,主成分分析是最常用的降维算法,下面我们将重点讨论它

主成分分析PCA

1:二维数据降维

顾名思义,主成分分析是指找出主要成分来代替原始数据,用二维平面上的例子来简要说明其过程

在二维平面上有x_1,x_2,x_3,x_4四个点,坐标分别是(4,2)、(0,2)、(-2,0)和(-2,-4),它们满足所谓中心化要求,即∑_i=1^4▒x_i=0。对不满足中心化要求的点,可通过减所有点的均值来满足该要求

降维必定会带来误差,如何使总体误差最小是降维算法追求的目标。用所有误差向量的模的平方之和作为损失函数来衡量降维带来的误差(类似于误差平方和损失函数SSE)。

 现在要将四个点从二维降到一维,一个很自然的想法是直接去掉每个点的一个坐标,试着同步旋转X值和Y值,使得去掉Y轴上的坐标带来的损失函数最小。

只旋转不降维的输出结果如下

代码如下

from sklearn.decomposition import PCA

pca = PCA(n_components=2) # 只旋转不降维
pca.fit(x)
print("新的轴向量:")
print(pca.components_)
print("各维度投影方差占比分布:")
print(pca.explained_variance_ratio_)
print("各点在新轴上的投影:")
print(pca.transform(x))

 降到一维的结果如下

代码如下

pca = PCA(n_components=1) # 降到一维
pca.fit(x)
print("新的轴向量:")
print(pca.components_)
print("各维度投影方差占比分布:")
print(pca.explained_variance_ratio_)
print("各点在新轴上的投影:")
print(pca.transform(x))

2:三维数据可视化降维

我们生成三维空间中分布的点,然后降到二维

在三维空间中生成四个簇,并查看它们的分布如下

 接下来我们分布查看它们在三个面上的投影 可以看出每个面上的投影都有两个簇重叠的情况

 

 接着用PCA对它们进行降维,共进行了三次,第一次降到一个二维的平面上,可见可以较好的分开为四个簇,第二次要求保留百分之九十的精度,第三次要求保留百分之九十九精度,此时不能降低维数,否则就达不到该要求

结果如下

 

部分代码如下 需要全部代码请点赞关注收藏后评论区留言私信~~~

import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.datasets import make_blobs
X, _ = make_blobs(n_samples=10000, n_features=3, centers=[[0,0,0], [1,1,0.5], [3,3,3], [2,5,10]], cluster_std=[0.3, 0.1, 0.7, 0.5])
fig = plt.figure()
ax = Axes3D(fig)
plt.scatter(X[:, 0], X[:, 1], X[:, 2], marker='+')

创作不易 觉得有帮助请点赞关注收藏~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/97700.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于蒙特卡洛的电动车有序充放电(Matlab代码实现)

💥💥💥💞💞💞欢迎来到本博客❤️❤️❤️💥💥💥 📝目前更新:🌟🌟🌟电力系统相关知识,期刊论文&…

JAVA类和对象重点笔记及理解(一)

1.类创建对象的详细过程 创建完成,dog就成了一个实例(对象),具有属性和方法 Dog类的属性:一般叫做成员变量 Dog类的方法:一般叫做成员方法 类是对象的抽象,对象是类的具体实例。 2.JAVA的数据…

git checkout 命令详解

1. 前言 2. 创建分支 3. 切换分支 4. 撤销更改 1. 前言 git checkout 命令用于创建、切换分支或恢复工作树文件。 最常用的两种用法 # 切换分支git checkout <branch># 创建并切换到新分支git checkout -b <branch> 2. 创建分支 当我们需要以当前分支为起点创建一…

spring @annotation 注解

切入点函数&#xff1a;用于执行切入点函数 1.execution 1.最为重要的切入点函数&#xff0c;功能最全 2.可以执行方法切入点表达式&#xff0c;可以执行类切入点表达式&#xff0c;可以执行包切入点表达式 弊端&#xff1a;书写比较麻烦 2.args 1.作用&#xff1a;主要用…

计算机毕设Python+Vue校园疫情防控系统(程序+LW+部署)

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 Ma…

[ 数据结构 -- 手撕排序算法第四篇 ] 选择排序

文章目录前言一、常见的排序算法二、直接选择排序2.1 单趟排序基本思想2.2 优化三、选择排序测试四、选择排序的时间复杂度五、直接选择排序的特性前言 手撕排序算法第四篇&#xff1a;选择排序&#xff01; 从本篇文章开始&#xff0c;我会介绍并分析常见的几种排序&#xff…

Review-MySQL-01

MySQL的端口号为3306&#xff0c;端口号用于定位计算机上的某个服务&#xff0c;端口号具有唯一性。 net stop/start mysql 停止或启动MySQL 退出mysql:exit 数据库中最基本的是table&#xff1b;数据库中是以表格的形式进行存储数据。行&#xff08;row&#xff09;被称为记录…

微服务框架 SpringCloud微服务架构 多级缓存 48 多级缓存 48.6 Tomcat集群的负载均衡

微服务框架 【SpringCloudRabbitMQDockerRedis搜索分布式&#xff0c;系统详解springcloud微服务技术栈课程|黑马程序员Java微服务】 多级缓存 文章目录微服务框架多级缓存48 多级缓存48.6 Tomcat集群的负载均衡48.6.1 Tomcat集群的负载均衡48 多级缓存 48.6 Tomcat集群的负…

uni-app个人总结

uni-app是什么&#xff1f; uni-app 是一个使用 Vue.js 开发所有前端应用的框架&#xff0c;开发者编写一套代码&#xff0c;可发布到iOS、Android、Web&#xff08;响应式&#xff09;、以及各种小程序&#xff08;微信/支付宝/百度/头条/QQ/钉钉/淘宝&#xff09;、快应用等多…

在vue项目中封装axios

在哪里封装&#xff1a; 封装axios&#xff0c;src文件夹下新建一个util的文件夹&#xff0c;这个文件夹就是放一些工具的&#xff0c;可以在这里面封装axios。新建一个js文件&#xff0c;这里是在http.js文件里封装axios 封装axios的第一种方案&#xff1a;函数法 方法&#…

【Numpy】NumpyQuickStart

Numpy快速入门 Ding Jiaxiong【2022-12-17】 Gitee仓库:https://gitee.com/DingJiaxiong/machine-learning-study.git 文章目录Numpy快速入门先决条件导包基础知识举个栗子数组的创建数组的打印基本操作通用功能索引切片和迭代形状操作更改数组的形状将不同的数组堆叠在一起将一…

【进阶C语言】什么?你居然还不知道结构体可以实现位段?一文带你速通位段结构的使用

目录 &#x1f929;前言&#x1f929;&#xff1a; &#x1f92f;正文&#xff1a;位段&#x1f92f;&#xff1a; 1.位段概述&#xff1a; 2.位段的内存分配&#xff1a; 3.位段的跨平台问题&#xff1a; 4.位段的应用&#xff1a; &#x1f973;总结&#x1f973;&#x…

[附源码]Node.js计算机毕业设计好又多百货商业广场有限公司自助收银操作系统Express

项目运行 环境配置&#xff1a; Node.js最新版 Vscode Mysql5.7 HBuilderXNavicat11Vue。 项目技术&#xff1a; Express框架 Node.js Vue 等等组成&#xff0c;B/S模式 Vscode管理前后端分离等等。 环境需要 1.运行环境&#xff1a;最好是Nodejs最新版&#xff0c;我…

三面美团测开岗,HR 现场直接发 offer,他是横着走出来的

前情提要 这是一个发生在我朋友身上的真实事情&#xff1a; 这里就叫他程序员 Y 吧。 程序员 Y 工作不到两年&#xff0c;周末在朋友圈发了个喜报&#xff0c;准备入职美团。 之后&#xff0c;我就带着祝福跟 Y 聊了许久&#xff0c;聊天的内容就是具体了解一下他面试的过程…

事业编招聘:气象局2023年度公开招聘公告

宁夏回族自治区气象局2023年度公开招聘应届高校毕业生公告&#xff08;气象类&#xff09; 根据《事业单位人事管理条例》《事业单位公开招聘人员暂行规定》和《气象部门事业单位公开招聘应届高校毕业生管理办法&#xff08;试行&#xff09;》等有关规定和工作需要&#xff0…

C++ 面向对象

C 面向对象&#xff0c;内存管理&#xff08;未完。。。&#xff09; 对象内存模型 类型转换 dynamic_cast type_info 多态 虚函数 override final虚表结构 运行时类型信息&#xff08;RTII&#xff09;基类析构函数必须为虚函数&#xff0c;否则会有内存泄漏的危险继承有两…

GitHub 推出对所有公共存储库的免费秘密扫描

GitHub 正在推出对其代码托管平台上所有公共存储库的免费扫描公开秘密&#xff08;例如凭据和授权令牌&#xff09;的支持。 秘密扫描是一种安全选项&#xff0c;组织可以启用它以进行额外的存储库扫描&#xff0c;以检测已知类型的秘密的意外暴露。 它通过匹配合作伙伴和服务…

【Java编程系列】Mybatis的Interceptor注入yml自定义变量,多种实现方式

1、前言 当前有一个任务&#xff0c;需要将mybatis的sql进行拦截过滤处理&#xff0c;而拦截处理时&#xff0c;需要有一些白名单放行的配置方法名路径。所以&#xff0c;这里使用到了yml的配置文件来配置变量路径&#xff0c;而后引入拦截器做动态放行。 2、注入自定义变量方式…

5点起床,一直干到11点的外卖小哥转行程序员,入职起薪12K

“我是要成为卷王的男人”是95后的小魏的座右铭&#xff0c;曾经的他5点起床&#xff0c;10分钟洗漱完毕就开始了一天的工作—送外卖。是的&#xff0c;曾经的他是万千外卖小哥的其中一员。 19年毕业的小魏学的是土木工程&#xff0c;曾经他也在工地待过&#xff0c;风尘仆仆却…

教程!!!!!

使用门槛&#xff1a;需要自行准备能开全局代理的科学工具 好评赠送免费科学工具&#xff0c;也可以自己准备科学工具。 下单以后&#xff0c;我们会发送一串账号密码给您。如图&#xff1a; 其中卡号就是chatgpt的账号&#xff0c;密码就是chatgpt密码。 第一步&#xff1…