通俗地讲讲数据降维的原理

news2025/1/17 3:43:59

什么是数据降维?关于这个问题,很多专家的说法都非常学术,估计很多普通人听不懂。所以,这里用通俗的语言解释一下,希望有助于更多的入门新人理解。

举一个简单的例子:假设一个小学的班级有5个学生,每个人有2们考试成绩,语文和数学。A同学的语文是100分,数学是100分;B同学的语文是90分,数学是100分;C同学的语文是80分,数学是100分;D同学的语文是70分,数学是100分;E同学的语文是60分,数学是100分。

对这个场景,我们要注意到,每位同学的数学成绩都是一样的,都是100分。

这时,如果我们提到“语文是80分,数学是100分的那个同学”,你一定知道我们指的一定是同学C。

但是,如果我们只说“语文是80分的那个同学”,你是不是也知道我们指的一定是同学C!

这就是一个将二维数据降维到一维数据的例子,因为大家的数学都是100分,所以每个同学的数学数据对区分同学之间的差异没有任何价值,仅仅使用语文数据(即一维数据)就足够了,而且用来区分同学100%够用。

所以,做数据分析时,常说的,如果一个维度的数据在各个样本之间的差异很小(用专业的话说就是方差很小)的话,这个数据维度就越没有价值。只有在各个样本之间的差异很大的数据维度(用专业的话说就是方差很大的维度),才值得保留。

这是一个非常浅显易懂的例子。稍微加入一些专业的表述,我们可以用一个二维坐标系来表示这5位同学,x轴代表语文的分数,y轴代表数学的分数,他们的坐标分别是:A(100,100), B(90,100),  C(80,100), D(70,100),  E(60,100)。

你看到了什么?没错,它们都位于y=100这条直线上,所不同的是x坐标值。


 

因此,在这个场景下,我们完全可以将一个含x轴和y轴的二维坐标系,转换为一个只含有x轴的一维坐标系。

懂了上面的道理,你就理解了降维的原理。

在上面的场景中,我们看到,语文分数和数学分数完全无关,因为无论语文分数多少,数学都是100分。用专业的语言讲,就是这两个特征是正交的(即相关系数为0)。因为是正交,我们很容易对这个场景进行处理,那就是直接在二维坐标系中删掉y轴,只保留x轴就够了。

在现实中,场景可就没这么简单了。通常,2个变量会有一定的相关度。即便是不相关,也不会像上面那个场景那么容易看出来。比如下面举个例子。

另一个班,还是5位同学,语文分数和数学分数转换为坐标分别是:A(100,60), B(90,70),  C(80,80), D(70,90),  E(60,100)。

你可能觉得,这是一个完全负相关的数据啊!没错,不过,这只是一个从当前坐标系看到的现象。

实际上,从数据降维的角度讲,我们可以将x轴和y轴的两个直角坐标轴,同时绕着原点顺时针旋转45%,这时你看到的是下面的图像。

没错,坐标轴旋转后,这个场景变成了第一个班级的场景,大家的y坐标都是 80*根号2,不同的只是x坐标值。至于坐标轴的转换公式,这里就细说,在我上一篇的文章中提到过。

其实,这就是数据降维的最基本道理,无论是用于数据降维的主成分分析技术还是因子分析技术,都是这个逻辑,只是场景不再是这么简单的小学生,而是维度更多的大数据了。

复杂的模型,背后往往都是最朴素的思考方法,希望这几个例子能让新人们理解到底数据降维是怎么回事。

(An Actuary)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/69890.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring Boot 入门到精通(一)

文章目录一、Spring Boot 介绍1. 概念2.maven构建Spring Boot项目3. 自定义banner4. Spring Boot的全局配置文件5. Spring Boot项目的发布方式二、Spring Boot注入方式1. Value方式2. ConfigurationProperties方式3. SpringBoot默认注入方式4. SpringBoot中的默认配置三、Sprin…

Element组件库的用法步骤

Element地址:适用于pc端后台开发 Element - The worlds most popular Vue UI frameworkElement,一套为开发者、设计师和产品经理准备的基于 Vue 2.0 的桌面端组件库https://element.eleme.io/#/zh-CN/ 下载 点击 “组件”在安装部分有下载命令&#xf…

东京大学和积水房屋启动生物多样性和健康联合研究

东京大学农业与生命科学研究生院(GSALS)和积水房屋株式会社(Sekisui House, Ltd.)将于2022年12月1日启动关于生物多样性和人类健康的联合研究项目。该项目将调查生物多样性和城市自然环境对人类健康和幸福的益处。这项全球首创的举措将全面调查居民与附近生物多样性丰富的花园环…

Java入门教程(17)——循环语句

文章目录1.while 循环2. do-while 循环3. for 循环我们表白的时候,你可以做我女朋友么,这次拒绝了,下次“你可以做我女朋友么”,直到同意做你女朋友。以后就不会再问了,这就是循环1.while 循环 语法结构: w…

从“挖土豆”到全场景营销,纷享销客CRM如何助力噢易云可持续增长?

近年来,随着云计算技术的发展和普及,桌面云也得到了越来越广泛的应用,尤其是在教育、医疗、金融、能源、连锁等对安全、成本和系统化管控有着强要求的行业中。 根据第三方研究机构的统计,2021年中国桌面云整体解决方案销量达到了…

Java Object类常用API

JavaObject类常用API\huge{Java\space Object类常用API}Java Object类常用API API 首先解释一下什么是APIAPIAPI。 API(ApplicationProgramminginterface)API(Application Programming interface)API(ApplicationProgramminginterface):应用程序编程接口。 简单来…

docker 查看容器启动命令(已运行的容器)

eg: 1 docker ps 查看正在运行的容器: 通过docker ps命令 该命令主要是为了详细展示查看运行时的command参数 docker ps -a --no-trunc | grep container_name # 通过docker --no-trunc参数来详细展示容器运行命令 通过docker inspect命令 使用docker inspect,但…

Letbook Cookbook题单——数组3

Letbook Cookbook题单——数组3 48. 旋转图像 难度中等 给定一个 n n 的二维矩阵 matrix 表示一个图像。请你将图像顺时针旋转 90 度。 你必须在 原地 旋转图像,这意味着你需要直接修改输入的二维矩阵。请不要 使用另一个矩阵来旋转图像。 示例 1:…

左(7)--kmp,manacher,morris

前言 仅记录学习笔记,如有错误欢迎指正。 题目: 思路:实现1个函数infect(),把1连接的位置都变为2,此时算一个岛。 如何设计一个并行算法解决这个问题? 在多个cpu中 每次存入分界线的信息,…

拓扑排序与关键路径

一、拓扑排序 1.1 什么是拓扑排序 对一个有向无环图(Directed Acyclic Graph简称DAG)G进行拓扑排序&#xff0c;是将G中所有顶点排成一个线性序列&#xff0c;使得图中任意一对顶点u和v&#xff0c;若边<u,v>∈E(G)&#xff0c;则u在线性序列中出现在v之前。通常&#x…

入驻淘宝成人用品店铺要什么证件?

在淘宝店铺开一家淘宝店铺&#xff0c;必须要有成人用品特种经营许可证&#xff0c;没有申请成人用品特种经营许可证的店铺&#xff0c;在淘宝上是发布不了成人用品类目宝贝的&#xff0c;那么&#xff0c;有的店主就有疑问了&#xff1a;成人用品特种经营许可证要在哪里去申请…

基于Spring Boot+Vue+MySQL的理财平台的设计与实现

目 录 摘 要 I Abstract II 目 录 III 图清单 V 表清单 VII 1 绪论 1 1.1 理财平台的现状与发展 1 1.2吾爱理财平台的研究内容 2 1.3 吾爱理财平台的研究目的和意义 2 1.4 本章小结 3 2 本吾爱理财平台的分析 4 2.1 可行性分析 4 2.2 需求分析 4 2.3 框架介绍 6 2.4 本章小结 …

商用、无版权图片素材网站,赶紧马住。

很多朋友不知道去哪里找图片素材&#xff0c;网上找的质量不高先不说&#xff0c;就怕使用不当造成侵权。今天给大家分享6个可商用&#xff0c;还高质量的图片素材网站。1、菜鸟图库 https://www.sucai999.com/pic.html?vNTYwNDUx菜鸟图库网站素材类型很多&#xff0c;像设计、…

【Python游戏】Python实现一个植物大战僵尸小游戏,非常简单,可以用于做毕业设计哟 | 附源码

前言 halo&#xff0c;包子们下午好 今天给打击整一个植物大战僵尸 无广告版本 哈哈 说实话&#xff0c;现在的小游戏很多都是有广告&#xff0c;多少有点难受 今天给大家直接安排 相关文件 关注小编&#xff0c;私信小编领取哟&#xff01; 当然别忘了一件三连哟~~ 源码点…

一篇博客总结深度学习与反向传播

目录 深度学习的发展过程 深度学习的步骤 定义Neural NetWork 全前向连接 softmax介绍 定义loss函数 定义优化器选择最优参数optimization 反向传播Backpropagation 深度学习介绍 反向传播视频 深度学习的发展过程 perceptron(liner model)感知机——线性模型 perc…

知识图谱-KGE-语义匹配-双线性模型-2018:CP

【paper】 Canonical Tensor Decomposition for Knowledge Base Completion【简介】 这篇是 Facebook 法国巴黎 AI 研究中心发表在 ICML 2018 上的文章&#xff0c;是对传统的张量分解方法 CP&#xff08;Canonical Tensor Decomposition&#xff09;做的分析改进。对传统的几个…

泛微文书定确保电子档案移交接收过程:真实、完整、可用和安全

电子档案的移交接收是电子档案管理流程的重要环节之一。 国家档案局发布的《电子档案移交接收操作规程》中明确了电子档案移交接收的工作流程&#xff0c;规定了电子档案移交接收准备工作和电子档案移交接收操作的要求。 在移交接收过程中&#xff0c;如何快速处理大量的电子…

当软件测试迭代测试时间不够时该如何去做好质量控制呢?

大家好&#xff0c;今天我们一起来聊聊&#xff0c;当我们在工作中尤其是快速迭代版本中测试版本的时间被压缩的很短&#xff0c;甚至不够完成用例执行时怎么去做好质量控制呢&#xff1f; 在我们的日常生活中导致软件测试时间不够的原因有很多&#xff0c;那么在这些不确定的人…

客快物流大数据项目(九十二):ClickHouse的MergeTree系列引擎介绍和MergeTree深入了解

文章目录 ClickHouse的MergeTree系列引擎介绍和MergeTree深入了解 一、MergeTree系列引擎介绍 二、​​​​​​​MergeTree深入了解 1、创建MergeTree表的说明 2、创建MergeTree引擎的表 3、删除MergeTree引擎的表 ClickHouse的MergeTree系列引擎介绍和MergeTree深入了解…

【数据库数据恢复】MySQL数据库误删除未备份的数据恢复案例

MySQL数据库属于关系型数据库。SQL是一种用于操作关系型数据库的结构化语言。关系型数据库就是指在关系模型的基础上建立起来的数据库&#xff0c;是一种借助了集合代数等一些数学方法和数学概念处理数据的数据库。 MySQL数据库具有体积小&#xff0c;速度快&#xff0c;性价比…