Python从0到100(五十七):机器学习-主成分分析机

news2024/11/13 18:22:44

主成分分析是⼀种常⽤的降维技术,⽤于将⾼维数据集投影到低维空间中,同时保留数据集的主要特征。PCA通过寻找数据中最重要的⽅向(主成分),并将数据投影到这些⽅向上来实现降维。

1.基本原理

1、数据中心化:⾸先,对原始数据进⾏中⼼化处理,即将每个特征的均值减去每个数据点的对应特征值,以确保数据的均值为零。
2、协方差矩阵:然后,计算数据的协⽅差矩阵,该矩阵表示了不同特征之间的关联性。
3、特征值分解:对协⽅差矩阵进⾏特征值分解,找到其特征值和特征向量。
4、选择主成分:选择具有最⼤特征值的特征向量,这些特征向量构成了数据在低维⼦空间上的新坐标轴,被称为主成分。
5、投影:将原始数据投影到所选的主成分上,从⽽实现数据的降维。

2.公式模型

1、数据中⼼化:对于⼀个包含m个样本和n个特征的数据矩阵 ,⾸先计算每个特征的均值 ,然后进⾏中⼼化处理,得到中⼼化的数据矩阵 :
在这里插入图片描述
2、协方差矩阵:计算中⼼化数据的协⽅差矩阵C ,m其中 是样本数:
在这里插入图片描述

3、特征值分解:对协⽅差矩阵C进⾏特征值分解,得到特征值y1,y2,...,yn和对应的特征向量v1,v2,...,vn。特征向量vi代表数据在新的主成分⽅向上的投影。
4、选择主成分:通常,选择前k个特征值对应的特征向量,它们构成了数据的主成分。这些特征向量通常按照特征值的大小降序排列。
5、投影:将原始数据矩阵X投影到所选的主成分上,得到降维后的数据矩阵Y
Y=VX
其中,V 是包含选定主成分特征向量的矩阵。
通过PCA,可以将⾼维数据映射到低维空间,从⽽减少了数据的维度。这有助于数据可视化、去除冗余特征、加速机器学习模型的训练,并提⾼模型的泛化性能。选择合适的降维维度(主成分数量)是PCA的⼀个关键参数,通常需要根据问题和性能需求进⾏调整。

3.优缺点

优点:
1. 降低数据维度:PCA能够将⾼维数据降维到较低维度,减少数据存储和计算成本。
2. 保留数据主要特征:PCA通过保留数据集中⽅差最⼤的⽅向,尽可能地保留了数据的主要特征。
3. 减少数据噪⾳:PCA可以将数据投影到主成分上,减少数据中的噪⾳和冗余信息。

缺点:

1. 对线性关系敏感:PCA假设数据是线性相关的,对⾮线性关系的数据降维效果可能不佳。
6. 可解释性差:PCA得到的主成分通常难以解释其含义,因为它是数据的线性组合。
7. 对异常值敏感:PCA对异常值较为敏感,可能会影响主成分的计算结果。

4.适用场景

主成分分析适⽤于以下场景:

  1. 数据维度较⾼:当数据维度较⾼时,可以使⽤PCA将数据降维到较低维度。
  2. 数据存在多重共线性:当数据中存在多重共线性(即特征之间存在线性相关性)时,PCA可以减少特征之间
    的冗余信息。
  3. 数据可视化:PCA可以将⾼维数据可视化到⼆维或三维空间中,帮助⼈们理解数据的结构和特征。

主成分分析可以帮助我们减少数据的维度并保留数据的主要特征。然⽽,在使⽤PCA时需要注意数据的线性关系和异常值的影响

5.手写数字识别数据集主成分分析

使⽤⼿写数字识别数据集(MNIST dataset)进⾏主成分分析,并展示降维后的数据可视化结果:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
from sklearn.decomposition import PCA
# 加载⼿写数字识别数据集
digits = load_digits()
X = digits.data
y = digits.target
# 构建PCA模型并拟合数据
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
# 可视化降维后的数据
plt.figure(figsize=(10, 8))
scatter = plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='viridis', s=20, alpha=0.7)
plt.colorbar(scatter)
plt.title('2D PCA Visualization of MNIST Dataset')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.show()

⾸先加载了⼿写数字识别数据集,并使⽤PCA将数据降维到2维空间。然后绘制降维后的数据的散点图,其中每个点代表⼀个⼿写数字样本,不同颜⾊代表不同的数字类别。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2098900.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

linux-squid代理服务器

squid简介 作为应用层的代理服务软件,Squid 主要提供缓存加速、应用层过滤控制的功能、用来缓冲Internet数据 接受来自人们需要下载的目标(object)的请求并适当地处理这些请求。也就是说,如果想下载一web页面,他请求…

特殊字符合集(包括各种emoji表情、windows ASCII字符、自定义字母图案等)

██████╗███████╗ ██████╗ ██╔════╝╚══███╔╝██╔═══██╗ ███████╗ ███╔╝ ██║ ██║ ╚════██║ ███╔╝ ██║▄▄ ██║ ███████║███████╗╚██████╔╝ ╚══════╝…

【小呆的热力学笔记】典型热机-燃气轮机的理想热力循环

文章目录 6.1 燃气轮机的理想热力循环6.2 燃气轮机理想热力循环热效率分析6.3 燃气轮机的理想热力循环讨论 6.1 燃气轮机的理想热力循环 燃气轮机装置主要包含三个部件:压气机、燃烧室和涡轮,详见下图示意。其中压气机主要有离心式和轴流式两种&#xf…

视频素材网站无水印的有哪些?热门视频素材网站分享!

今天我们要讨论一个让许多人都感到困扰的问题——那些高质量、无水印的视频素材到底应该在哪里寻找?是不是有时候感觉,找到合适的视频素材比找到理想的伴侣还要困难?不用急,今天我要介绍几个隐藏的宝藏网站,确保你在视…

ARM 异常处理(21)

异常的流程: 首先: 在硬件上阶段: 这里是4大步3小步 然后是 异常处理: 这里主要是保存现场,进行异常处理 然后是 异常返回: 主要指 恢复现场, 再跳转回去。 首先硬件上&#xff…

Scalefit为外骨骼辅助设备提供直观的损伤减轻测量方案

外骨骼辅助设备是有效减轻工厂中工人遭受肌肉骨骼类疾病损伤的有效工具,但想要更加精确直观的看到外骨骼设备能够为工人提供多少精确到数字的帮助,则需要专业的测量工具来实现。 Scalefit人体工程学分析软件 scalefit人体工程学分析软件让作业环境更安全…

北斗GPS车载定位终端,物流货运数智化效率助手

物流行业,作为国民经济的动脉,其效率与成本控制是企业竞争力的关键。随着科技的不断进步,北斗GPS车载定位终端的出现,正成为物流行业数智化转型的加速器,极大地提升了物流货运的效率与安全性。 北斗GPS车载定位终端&a…

计算机毕业设计python停车场车位推荐管理系统y4uzk

目录 博主介绍技术栈🌟文末获取源码数据库🌟详细视频演示具体实现截图系统设计数据库设计解决的思路python-flask核心代码部分展示可行性论证个人心得操作可行性源码获取 博主介绍 👇🏻 博主介绍:👇&#…

【软件测试专栏】软件测试 — 用例篇

博客主页:Duck Bro 博客主页系列专栏:软件测试专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ 软件测试 — 用例篇 关键词:测试用例概念、测试用例的…

【基础】Three.js加载纹理贴图、加载外部gltf格式文件

1. 模型使用纹理贴图 const geometry new THREE.BoxGeometry(10, 10, 10);const textureLoader new THREE.TextureLoader(); // 创建纹理贴图加载器const texture textureLoader.load("/crate.gif"); // 加载纹理贴图const material new THREE.MeshLambertMater…

运维问题0001:MM模块-MIGO收货报错“消息号 M7036 对于采购订单********无收货可能”

1、问题解析: 该报错为SAP标准报错类型,针对公司不同配置/业务设计/校验逻辑,导致该问题原因比较多。 常见的问题总结如下: 1)输入的PO信息有问题(例如:PO输入错误/PO删除状态/PO冻结状态/PO已完成收货等…

HCIE认证要学多久?3个方面决定HCIE学习时长

HCIE认证作为华为公司推出的顶级专业认证,已经成为网络技术领域内的一个标杆。 它不仅象征着专业技能的高峰,也是许多IT专业人士职业发展的重要里程碑。 HCIE作为华为高级认证虽然可以不需要满足任何条件直接报考,但掌握必要的知识内容必不可…

MySQL复习2

高级查询 准备 create database greatselect; use greatselect;drop table if exists class; create table class (cid int(11) not null auto_increment,caption varchar(32) not null,primary key (cid) )engine innoDB AUTO_INCREMENT5 default charset utf8;create tab…

报考条件、材料、流程?关于CISP认证,你必须要了解这些

信息安全一直是一个火热的话题,在近两年又被推上了高峰。对此,相关认证也不例外。 很多朋友都想get一本安全方向的证书,在广大安全方向的认证中,CISP可谓是发展迅猛,并越来越广为人知,也越来越受到IT从业者…

python Bokeh库学习记录

First steps 2: 添加和自定义渲染器 在之前的入门指南中,你使用了Bokeh的figure()函数来绘制折线图。 在本节中,你将使用不同的渲染函数来创建各种其他类型的图表。你还将自定义你的图像外观。 渲染不同的图形符号 Bokeh的绘图界面支持多种不同的图形…

古典显示格式解一偏微分方程并绘制结果的彩色图

解如下偏微分方程 以上公式的Latex代码 \begin{cases}\frac{\partial u}{\partial t}a\frac{\partial ^2u}{\partial x^2}\,\,,0<x<1,t>0\\u\left( x,0 \right) 4x\left( 1-x \right) \,\,,0\leqslant x\leqslant 1\\u\left( 0,t \right) u\left( 1,t \right) 0 ,t\g…

补题篇--codeforces

传送门&#xff1a;Problem - G - Codeforces 题意&#xff1a; 思路&#xff1a; 注意&#xff1a; n 的范围很小&#xff0c;大概率考察状态压缩 因此这个题可以考虑用 状压dp f[i][j] 表示状态为 i 的选法&#xff0c;以第 j 首歌为结尾的播放列表中的歌曲总数 f[ i | …

生活方式对人健康影响非常大 第三篇

身体健康因素中 生活方式占到60% 赶紧去调整自己哪错了 上游的生活方式管理 是药三分毒 药物会影响身体肝肾功能,代谢 所以你要去找上游到底是我哪错了 短板越多 个健康状态越差 饮食管理是生活方式管理中难度最大的 原则1:与基因相对应相平衡 只吃素 会导致大脑萎…

【书生大模型实战营】进阶岛 第6关 MindSearch 快速部署

文章目录 【书生大模型实战营】进阶岛 第6关 MindSearch 快速部署MindSearch 部署到Github Codespace 和 Hugging Face Space创建开发机 & 环境配置MindSearch下载及环境配置获取硅基流动API Key作业 - 基础任务在Github codespaces 启动 MindSearch通过 Github Codespace …

spring框架4 - bean加载

本节内容&#xff1a;beanFactory.getBean("user"); Testvoid testGetBean() {Gun gun beanFactory.getBean("m416", Gun.class);log.info("gun{}", gun);} public <T> T getBean(String name, Class<T> requiredType) throws Bea…