Python——常用数据降维算法应用

news2025/2/7 15:03:44

随着数据的积累,数据的维度越来越高,高维的数据在带来更多信息的同时,也带来了信息冗余、计算困难等问题,所以对数据进行合理的降维,并保留主要信息非常重要。这些问题主要可以通过主成分分析及相关的降维算法来解决。

一些经典的降维算法有:主成分分析、MSD降维、t-SNE降维等。

1: 数据准备

将会使用手写体数字数据,该数据一共有1797个样本,每个图像包含64个像素值,数据导入后的情况如下所示:

## 导入数据,该数据有1797个样本,每个图像包含64个像素值
digit = pd.read_csv("data/chap06/digit.csv",header=None)
## 获取待使用的数据
digitX = digit.values[:,0:-1]/16
digitY = digit.values[:,64]
digit

2: 主成分分析数据降维

主成分分析可以通过Sklearn库中的PCA来完成,下面的程序对前面的手写数字数据集,使用主成分分析将其降维到64维,然后可视化分析每个主成分的解释方差,以及主成分的累计方差贡献率,运行程序后可获得可视化图像。

## 对数据进行主成分降维分析
pca = PCA(n_components = 64,  # 获取的主成分数量
          random_state = 123# 设置随机数种子,保证结果的可重复性
## 对数据进行降维
digitX_pca = pca.fit_transform(digitX)

## 可视化分析每个主成分的解释方差和解释方差所占百分比
x = np.arange(digitX_pca.shape[1])+1
plt.figure(figsize=(12,6))
plt.subplot(1,2,1)
plt.plot(x,pca.explained_variance_,"r-o")
plt.xlabel("主成分个数")
plt.ylabel("解释方差")
plt.title("解释方差变化情况")
plt.subplot(1,2,2)
plt.plot(x,np.cumsum(pca.explained_variance_ratio_),"b-s")
plt.xlabel("主成分个数")
plt.ylabel("解释方差")
plt.title("累计解释方差贡献率变化情况")
plt.tight_layout()
plt.show()

可以发现:数据中的在大约20个主成分之后,每个主成分的解释方差已经接近于0,而且前20个主成分的原始数据解释能力超过了百分之90,说明从主成分特征中选取其中的前20个即可代表该数据。

针对主成分数据降维的效果,可以使用其前3个主成分,利用可视化的方式,查看算法的数据降维效果。

3: 流形学习——等距映射

流形学习中的等距嵌入降维算法,可以通过Isomap()来完成,下面的程序是通过流形学习,将手写数字数据集降维到3维空间中,然后使用可视化的方式绘制降维后的3D散点图。

## 流形学习将数据降维到3维空间中
isom = Isomap(n_neighbors=5, n_components=3) 
digitX_isom = isom.fit_transform(digitX)
## 在三维空间中可视化前三个特征数据分布散点图
plotdata3D(digitX_isom,digitY,"流形学习特征")

4: t-SNE数据降维

t-SNE降维算法,可以通过TSNE()来完成,下面的程序是通过t-SNE降维算法,将手写数字数据集降维到3维空间中,然后使用可视化的方式绘制降维后的3D散点图。

## t-SNE将数据降维到3维空间中
tsne = TSNE(n_components=3, perplexity=20,
            early_exaggeration=5, random_state=123) 
digitX_tsne = tsne.fit_transform(digitX)
## 在三维空间中可视化前三个特征数据分布散点图
plotdata3D(digitX_tsne,digitY,"TSNE特征")

参考文献:《Python机器学习:基础、算法与实战》作者:孙玉林 出版社:化学工业出版社

欢迎关注我们

欢迎加入我们的QQ交流群获取使用的数据:837977579

欢迎关注我们的微信公众号“Adam大数据分析小站”获取更多内容

今天的分享就到这里了,敬请期待下一篇!

最后欢迎大家分享转发,您的点赞是对我的鼓励和肯定!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1850997.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

国内外大模型生态发展报告!

很多同学只知类似Check GPT或者说对国内的一些比较了解,对国外的不太了解,所以在这总结。 1 大模型的发展 左表 名称参数特点发布时间GPT-215亿英文底模,开源2019年Google T5110亿多任务微调, 开源2019年GPT-3.51750亿人工反馈微调2022年M…

《计算机英语》 Unit 6 Internet 互联网

Section A Internet 互联网 The Internet is a global system of interconnected computer networks that use the standard Internet protocol suite (TCP/IP) to link several billion devices worldwide. 互联网是一个全球性的互连计算机网络系统,使用标准的互联…

Echarts实现动态背景

最近在公司工作中,遇到一个图表的需求,要求实现背景图是可以动态跟随最高点而改变位置的。 好玩的是,我实现了效果,但是没在官方配置项看到我这个用法的出处,所以记录一下。 话不多说,配置项也没什么好解释…

Redis的安装及详解

1.Redis介绍? 1.1 Redis是什么? Redis(Remote Dictionary Server,远程字典服务器)是一个开源免费的,用C语言编写的一个高性能的分布式内存数据库,基于内存运行并支持持久化的NoSQL数据库。是当前最热门的…

IPv6 address status lifetime

IPv6 地址状态转换 Address lifetime (地址生存期) 每个配置的 IPv6 单播地址都有一个生存期设置,该设置确定该地址在必须刷新或替换之前可以使用多长时间。某些地址设置为“永久”并且不会过期。“首选”和“有效”生存期用于指定其使用期限和可用性。 自动配置的…

开源与在线 M3U8 Downloader 项目介绍及使用指南

M3U8 是一种用于播放列表格式的文件类型,广泛应用于流媒体服务中,特别是 HLS(HTTP Live Streaming)协议。它包含了一系列的 TS(Transport Stream)视频片段地址,使得视频能够分段加载&#xff0c…

亿联 AM610 M.2 SSD PCIE 3.0X2 128GB测评

亿联 AM610 M.2 SSD PCIE 3.0X2 128GB测评 厂商:union memory国产固态硬盘SSD。 接口:PCIE 3.0X2 协议:支持NVME 1.协议 固件:固件版本号11.82 读取量:18TB左右 写入量:14TB左右,NAND闪存约被编…

win10/11磁盘管理

win10/11磁盘管理 合并磁盘分区的前提是你的两个磁盘区域是相邻的,比如如下: 如果需要吧这个磁盘进行分解,你可以选择压缩一部分磁盘或者是直接删除卷 我这里的话,因为压缩出来的卷和C盘好像是不相邻的(我之前做过&…

kettle从入门到精通 第七十三课 ETL之kettle kettle调用http分页接口教程

场景:kettle调用http接口获取数据(由于数据量比较大,鉴于网络和性能考虑,所以接口是个分页接口)。 方案:构造页码list,然后循环调用接口。 1、总体设计 1)、初始化分页参数pageNum1…

ICP、ISP及IAP烧录介绍

文章目录 不同的程序下载方式一、ICP:In-Circuit Programming二、ISP:In-System Programming三、IAP:In-Application ProgrammingIAP方案设计不同的程序下载方式 目前,单片机的程序烧录方式可以分为三种:ICP、ISP、IAP。 ICP:In Circuit Programing,在电路编程; ISP:…

【LLM】PISSA:一种高效的微调方法

前言 介绍PISSA前,先简单过一下LLMs微调经常采用的LoRA(Low-Rank Adaptation)微调的方法,LoRA 假设权重更新的过程中有一个较低的本征秩,对于预训练的权重参数矩阵 W 0 ∈ R d k W_0 ∈ R^{dk} W0​∈Rdk&#xff0c…

git常用操作汇总大全

👏作者简介:大家好,我是爱吃芝士的土豆倪,24届校招生Java选手,入职小红书广告投放开发,很高兴认识大家🔥如果感觉博主的文章还不错的话,请👍三连支持👍一下博…

一图解释:监听dom滚动条是否滚动到底部

scrollTop:一个元素的内容垂直滚动的高度;scrollHeight :一个元素在不使用滚动条的情况下为了适应视口中所用内容所需的最小高度,包含内边距(padding),不包含外边距(margin&#xff…

NIST 电子病历中的临床决策部分的认证

写在正文之前 关于临床决策,有专门的行业协会收集并发布,我曾经注册过美国的一个网站,然后定期就会收到邮件通知新增了多少条临床决策。我记得我注册的是 NQF: Home (qualityforum.org) NQF: Home 美国国家标准与技术研究院(Nat…

【SpringCloud-Seata源码分析2】

文章目录 分支事务注册-客户端分支事务服务端的执行 分支事务注册-客户端 第一篇我们将全局事务启动,以及开启源码分析完成了,现在我们需要看一下分支事务注册。 我们分支事务的开始需要从PreparedStatementProxy#executeUpdate中去看。 public class…

MatLab手把手搭建FOC控制环路(全部使用matlab自带模块)

MatLab手把手搭建FOC控制环路(全部使用matlab自带模块) Matlab添加模块只需要在空白处双击鼠标左键,输入模块的名字。 添加PMSM模块: Permanent Magnet Synchronous Machine 参数选择: 添加逆变器Two-Level Conver…

CentOS 7 安装部署Cassandra4.1.5

一、Cassandra的介绍 Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身Facebook于2008将 Cassandra 开源,此后&#xff0…

Jmeter5.X性能测试【完整版】

目录 一、Http基础协议和解析 1、浏览器的B/S架构和C/S架构 (1)CS架构 (2)BS架构 (3)URL理解 2、Http超文本传输协议 (1)含义 # 协议 # json协议 # xml协议 (…

unity中使用commandbuffer将自定义画面渲染到主相机上

CommandBuffer 保存渲染命令列表(例如设置渲染目标或绘制给定网格)。您可以指示 Unity 在内置渲染管线中的各个点安排和执行这些命令,因此,您可以自定义和扩展 Unity 的渲染功能。 这句话意味着你可以通过command buffer让相机渲…