降维算法-sklearn

news2025/2/21 1:32:03

1.概述

维度：对于数组和series，维度就是功能shape返回的结果，shape中返回了几个数字，就是几个维度。降维算法中的”降维“，指的是降低特征矩阵中特征的数量。降维的目的是为了让算法运算更快，效果更好，但其实还有另一种需求：数据可视化。

2. sklearn中的降维算法

请添加图片描述

3. PCA与SVD

在降维中，PCA使用的信息量衡量指标，就是样本方差，又称可解释性方
差，方差越大，特征所带的信息量越多。
请添加图片描述
Var代表一个特征的方差，n代表样本量，xi代表一个特征中的每个样本取值，xhat代表这一列样本的均值。
无偏估计：
1.https://www.bilibili.com/video/BV1pq4y1p7nu/?spm_id_from=333.999.0.0&vd_source=50d7155404373ccb2004b778100660be
2.https://www.bilibili.com/video/BV1CT4y1j71j/?spm_id_from=333.999.0.0&vd_source=50d7155404373ccb2004b778100660be

3.1 降维是如何实现的

重要的步骤：
找出n个新特征向量，让数据能够被压缩到少数特征上并且总信息量不损失太多的技术就是矩阵分解。
PCA使用方差作为信息量的衡量指标，并且特征值分解来找出空间V。

SVD使用奇异值分解来找出空间V，其中Σ也是一个对角矩阵，不过它对角线上的元素是奇异值，这也是SVD中用来衡量特征上的信息量的指标。

通常来说，在新的特征矩阵生成之前，我们无法知晓PCA都建立了怎样的新特征向量，新特征矩阵生成之后也不具有可读性。以PCA为代表的降维算法因此是特征创造（feature creation，或feature construction）的一种。

3.1.1 重要参数

(1) n_components

n_components是我们降维后需要的维度，即降维后需要保留的特征数量。

(2）svd_solver 与 random_state

参数svd_solver是在降维过程中，用来控制矩阵分解的一些细节的参数。有四种模式可选：“auto”, “full”, “arpack”,“randomized”，默认”auto"。

参数random_state在参数svd_solver的值为"arpack" or "randomized"的时候生效，可以控制这两种SVD模式中的随机模式。

(3) 重要属性components_

特征信息数据，不可以进行可视化。

3.1.2 重要接口

（1）inverse_transform

通过让原特征矩阵X右乘新特征空间矩阵V(k,n)来生成新特征矩阵X_dr，那理论上来说，让新特征矩阵X_dr右乘V(k,n)的逆矩阵，就可以将新特征矩阵X_dr还原为X。

案例：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/133626.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

LabVIEW开关模块与万用表DMM扫描模式

LabVIEW开关模块与万用表DMM扫描模式

LabVIEW开关模块与万用表DMM扫描模式在同步扫描模式下(Synchronous scanning)，扫描列表里面的每一条目都会在开关模块收到一个来自多功能数字万用表(DMM)的数字脉冲(触发输入)后执行.而DMM被编程设置为以一个固定的时间间隔去测量以及在每次测量完产生一个数字…

阅读更多...

机器学习--数据清理、数据变换、特征工程

机器学习--数据清理、数据变换、特征工程

目录一、数据清理二、数据变换三、特征工程四、总结一、数据清理数据清理是提升数据的质量的一种方式。数据不干净（噪声多）？ 需要做数据的清理，将错误的信息纠正过来； 数据比较干净（数据不是…

阅读更多...

STM32 TIM PWM初阶操作：非互补PWM输出

STM32 TIM PWM初阶操作：非互补PWM输出

STM32 TIM PWM初阶操作详解：非互补PWM输出 STM32 TIM可以输出管脚PWM信号适合多种场景使用，功能包括单线/非互补PWM输出，双线/互补PWM输出，以及死区时间和刹车控制等。实际上，因为早期IP Core的缺陷，早期…

阅读更多...

Android多线程编程

Android多线程编程

二.Android多线程编程 1.线程的相关概念 1）相关概念： 程序：为了完成特定任务，用某种语言编写的一组指令集合(一组静态代码)进程：运行中的程序，系统调度与资源分配的一个独立单位，操作系统会为…

阅读更多...

leetcode 207. 课程表——java题解

leetcode 207. 课程表——java题解

题目所属分类类似有向图的拓扑排序入度为0就是起点因为是要按照先后顺序的，所以是就是有向图原题链接你这个学期必须选修 numCourses 门课程，记为 0 到 numCourses - 1 。在选修某些课程之前需要一些先修课程。先修课程按数组 prerequisites …

阅读更多...

Jetpack Compose中的Accompanist

Jetpack Compose中的Accompanist

accompanist是Jetpack Compose官方提供的一个辅助工具库，以提供那些在Jetpack Compose sdk中目前还没有的功能API。权限依赖配置： repositories {mavenCentral() }dependencies {implementation "com.google.accompanist:accompanist-permissi…

阅读更多...

阳后买不到温度计那么自己diy！（已开源）

阳后买不到温度计那么自己diy！（已开源）

这里写目录标题一说明二成品效果三硬件材料四硬件连接五软件六 3D外盒模型一说明前段时间放开疫情后，身边人基本都阳了，自己也不出所料阳了，然后去药店买温度计，发现买不到，网上的买了也不发货，但是…

阅读更多...

7.JS笔记-数组

7.JS笔记-数组

1.数组的概念使用数组Array可以把一组相关的数据存放在一起，并提供方便的获取方式。数组是一组数据的集合，其中的每个数据被称作是元素，在数组中可以存放任意类型的元素。数组是一种将数据存储在单个变量名下的方式 2.创建数组利用new关…

阅读更多...

【Linux】Linux进程的理解 --- 进程状态、优先级、切换…

【Linux】Linux进程的理解 --- 进程状态、优先级、切换…

如果不改变自己，就别把跨年搞的和分水岭一样，记住你今年是什么吊样，明年就还会是什么吊样！！！ 文章目录一、冯诺依曼体系结构（硬件）二、操作系统（软件）1.操作…

阅读更多...

git笔记2：Git基本理论，项目创建及克隆

git笔记2：Git基本理论，项目创建及克隆

目录一、工作区域二、工作流程三、本地仓库搭建 1、创建全新的仓库 2、克隆远程仓库一、工作区域 Git本地有三个工作区域： 工作目录（Working Directory）：平时存放代码的地方暂存区（Stage/Index）&a…

阅读更多...

sec6-可派生类型和抽象类型

sec6-可派生类型和抽象类型

可派生类型有两种类型，final类型和derivable类型。final类型没有任何子对象。derivable有子对象。这两个对象之间的主要区别是它们的类。final类型对象没有自己的类区域。类的唯一成员是它的父类。派生对象在类中有自己的区域。该类对其子类开放。 G_DECLARE…

阅读更多...

【python系列】第三章基本数据类型

【python系列】第三章基本数据类型

*该系列内容来自于：中国大学MOOC（幕客）-python语言程序设计 Python语言程序设计_北京理工大学_中国大学MOOC(慕课) 第三章基本数据类型方法论：Python语言数字及字符串类型实践能力：初步学会编程进行…

阅读更多...

236. 二叉树的最近公共祖先 - 力扣[LeetCode]

236. 二叉树的最近公共祖先 - 力扣[LeetCode]

目录如果二叉树是二叉搜索树： 如果是普通的二叉树【方法一】子树判断法【方法二】路径确定【方法三】递归面对此类型的公共祖先问题，可以分为以下几类情况讨论如果二叉树是二叉搜索树： a. 如果树是空，直接返回nullpt…

阅读更多...

分布式存储系统 Ceph 介绍与环境部署

分布式存储系统 Ceph 介绍与环境部署

文章目录一、概述二、Ceph 架构三、Ceph核心组件介绍四、Ceph 三种存储类型1）块存储服务(RBD)2）文件系统存储服务(CephFS)3）对象存储服务(RGW)五、Ceph版本发行生命周期六、Ceph 集群部署1）集群部署规划2）前期准备1、关…

阅读更多...

Python--让我们秀翻算法中的二进制

Python--让我们秀翻算法中的二进制

我相信大家在leetcode刷题或者更好的国外天梯刷题的时候应该经常能看到 **<<,>>,|,&**在我们的if里面构成了一个判断的条件. 然后在大家看不懂情况下就莫名其妙的把题目作对了!!! 所以我们准备持续的更新一下,二进制的用法. 大家要明白一个道理.一切的工具它…

阅读更多...

Excel聚光灯--双箭头指示

Excel聚光灯--双箭头指示

实例需求：在工作表中核对数据时，虽然行列标题都会高亮显示，但是似乎并不明显，因此添加两个列标到活动单元格的箭头，以便于更好的定位。选中单个单元格效果如下图所示。选中多个单元格的效果如下图所示。示例代码如…

阅读更多...

51单片机——输出可调PWM

51单片机——输出可调PWM

PWM控制在很多地方都会用到，比如使用PWM来控制电机的速度，使用PWM来生成想要的波形。一、PWM PWM即脉冲宽度调制，在具有惯性的系统中，可以通过对一系列脉冲的宽度进行调制，来等效的获得所需要的模拟参量&#xff1b…

阅读更多...

[JavaEE]线程的状态与安全

[JavaEE]线程的状态与安全

专栏简介: JavaEE从入门到进阶题目来源: leetcode,牛客,剑指offer. 创作目标: 记录学习JavaEE学习历程希望在提升自己的同时,帮助他人,,与大家一起共同进步,互相成长. 学历代表过去,能力代表现在,学习能力代表未来! 目录 1. 线程状态 1.1 观察线程的所有状态 1.2 线程的…

阅读更多...

k-means算法进行数据分析应用

k-means算法进行数据分析应用

简介 kmeans算法又名k均值算法,K-means算法中的k表示的是聚类为k个簇，means代表取每一个聚类中数据值的均值作为该簇的中心，或者称为质心，即用每一个的类的质心对该簇进行描述。其算法思想大致为：先从样本集中随机选取 k…

阅读更多...

【王道操作系统】2.3.3 实现临界区进程互斥的硬件实现方法

【王道操作系统】2.3.3 实现临界区进程互斥的硬件实现方法

实现临界区进程互斥的硬件实现方法文章目录实现临界区进程互斥的硬件实现方法1.中断隐藏方法2.TestAndSet指令3.Swap指令1.中断隐藏方法 2.TestAndSet指令执行TSL指令时，它的内部运转逻辑：假设lock现在为false，代表临界资源A空闲&#xff…

阅读更多...

推荐文章

最新文章