数据降维方法-主成分分析(PCA)

news2025/2/27 11:11:09

目录

一、前言

二、向量的表示及基变换

三、基变换

四、协方差矩阵

五、协方差 

六、优化目标 


一、前言

        主成分分析(Principal Component Analysis)

        用途:降维中的常用手段

        目标:提取最有价值的信息(基于方差)

        问题:降维后的数据的意义??

二、向量的表示及基变换

        内积:(a_1,a_2,...,a_n)^{T}\cdot (b_1,b_2,...,b_n)^{T}=a_1b_1+a_2b_2+...+a_nb_n

        解释:A\cdot B=|A||B|cos(\theta)

        设向量B的模为1,则A与B的内积值就等于A向B所在直线投影的矢量长度

        向量可以表示为(3,2),实际上就表示线性组合:x(1,0)^T+y(0,1)^T

        基:(1,0) \;\;and \:\:(0,1)叫做二维空间的一组基

三、基变换

         基是正交的(即内积为0,或者直观的说是相互垂直)

        要求:线性无关

        变换:一个新的基,它的各个维度的值,均是在原来基上的坐标来表达的,换言之一个新的基有原本的基生成。数据与一个基做内积运算,结果作为第一个新的坐标分量,然后与第二个基做内积运算,结果作为第二个坐标分量。

         例如:

        数据(3,2)映射到基中坐标:

            

        

        两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中的每一行行向量中为基的空间中去。

四、协方差矩阵

        方向:如何选择方向(或者说是基)才能尽量保留最多的原始信息呢??一种直观的看法是:希望投影后的投影值尽可能分散。

        方差:var(a)=\frac{1}{m}\sum_{i=1}^m(a_i-\mu )^2

        寻找一个一维基,使得所有数据变换为这个基上的坐标之后,方法值最大

        协方差:(假设均值为0时,先去中心化,使每一维上的数据减去其均值即可):                                        ​​​​​​​        ​​​​​​​        cov(a,b)=\frac{1}{m}\sum_{i=1}^ma_ib_i

        a,b表示两个特征,协方差表示特征a,b的关系。

        例如:

五、协方差 

        如果单纯只选择方差最大的方向,后续方向应该会和方差最大的方向接近重合。

         

        解决方案:为了让两个字段尽可能表示更多的信息,我们不希望它们之间存在(线性)相关性,即垂直的。

        协方差:可以用两个字段的协方差表示其相关性cov(a,b)=\frac{1}{m}\sum_{i=1}^m a_ib_i,当协方差为0时,表示其两个字段完全独立。为了让协方差为0,选择第二个基时,只能在与第一个基的正交方向上选择。因此,最终选择两个方向方向一定时正交的。

六、优化目标 

        将一组N维向量降为K维向量(K大于0,小于N),目标是选择K个单位正交基,使原始数据交换到这组基上后,各字段两两协方差为0,字段方差则尽可能大。

        如何得到各个字段的协方差:

      

         矩阵对角线上的两个元素分别是两个字段的方差,而其它元素是a,b的协方差。

        那么我们要使协方差为0,即除对角线上的元素外,其他都为0。

        操作:协方差矩阵对角化:即除对角线上的元素外,其他都为0,且在对角线上的元素按大小从上到小排列。

        

        实对称矩阵:一个n行n列的是对称矩阵一定可以找到n个单位正交向量。

                                       E=(e_1,e_2,...,e_n) 

        例如上面的:

                

                就是实对称矩阵。

        实对称矩阵可以进行对角化:

                

                

         

        

        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1585284.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用 Citavi 和 NVivo 简化您的文献综述和研究分析

NVivo 是一款支持定性研究方法和混合研究方法的软件。它可以帮助您收集、整理和分析访谈、焦点小组讨论、问卷调查、音频等内容。NVivo(1.0版)是Windows和Mac的主要版本。遵循最新的主要版本NVivo 12(Windows和Mac)。 NVivo 强大…

前端开发攻略---利用Flexbox和Margin实现智能布局:如何巧妙分配剩余空间,让你的网页设计更上一层楼?

1、演示 2、flex布局 Flex布局是一种用于Web开发的弹性盒子布局模型,它可以让容器内的子元素在空间分配、对齐和排列方面具有更大的灵活性。以下是Flex布局的基本用法: 容器属性: display: flex;:将容器指定为Flex布局。flex-dire…

面试(02)————Java基础和集合

一、Java基础知识 1、面向对象的特征 2、Java 的基本数据类型有哪些 3、JDK JRE JVM 的区别 4、重载和重写的区别 5、Java中和equals的区别 6 、String、StringBuffer、StringBuilder三者之间的区别 7、接口和抽象类的区别是什么? 8、反射 9、jdk1.8 的新特…

行云堡垒国密算法应用与信创支持

一、 国密算法和信创的介绍 1.1 什么是国密算法 国密算法是国家密码管理局制定颁布的一系列的密码标准,即已经被国家密码局认定的国产密码算法,又称商用密码(是指能够实现商用密码算法的加密,解密和认证等功能的技术)…

视频图像的两种表示方式YUV与RGB(4)

本篇主要讲YUV与RGB之间的转换,包括YUV444 颜色编码格式 转为 RGB 格式 ,RGB颜色编码格式转为 YUV444 格式。 一、 YUV与RGB之间的转换 YUV与RGB颜色格式之间进行转换时 , 涉及一系列的数学运算 ; YUV 颜色编码格式转为RGB格式的转换公式 取决于 于 YUV …

个人在线要饭网站源码

源码简介 施舍也要讲究便捷,如果能像购物一样,那也是很美的一件事情; 接入了支付宝当面付系统. 安装环境 php5.6 Nginx 安装教程 1.上传源码压缩包到网站目录并解压即可 2.支付配置 /修改文件 app/config.php /*** 请填写以下配置信…

微服务-4 Nacos

目录 一、注册中心 二、配置管理 1. 添加配置 2. 配置自动刷新 3. 多环境配置共享​编辑 一、注册中心 服务列表: 服务详情: 二、配置管理 1. 添加配置 (1). 在 nacos 界面中添加配置文件: 配置列表: 配置详情:…

东方博宜 1738. 胜负对决

东方博宜 1738. 胜负对决 以为这道题很简单呢,结果提交两次还不对,气死个人~ 思路:这道题的重点在于看清楚题意,是第奇数个,而不是数是奇数 。 还有,如果按照位数的奇偶来判定,那在读取数组的时…

The C programming language (second edition,KR) exercise(CHAPTER 2)

E x c e r c i s e 2 − 1 Excercise\quad 2-1 Excercise2−1&#xff1a;输出结果如图1和图2所示&#xff0c;这道练习题需要文章1和文章2的知识。 #include <stdio.h> #include <limits.h>float getFloat(char sign, unsigned char exp, unsigned mantissa); do…

Windows虚拟主机上多个域名访问同一个网站

近日老板提出了想要多个域名访问同一个网站的想法。这边了解后&#xff0c;由于我们公司使用的是Hostease的Windows虚拟主机产品&#xff0c;因此咨询了Hostease的技术支持&#xff0c;寻求帮助了解到可以实现Windows主机上多个域名访问同一个网站&#xff0c;是需要进入Window…

【洛谷 P8804】[蓝桥杯 2022 国 B] 故障 题解(概率论+条件概率+贝叶斯公式)

[蓝桥杯 2022 国 B] 故障 题目描述 在软件或系统开发中&#xff0c;我们会遇到各种各样的故障。为了从故障现象反推故障原因&#xff0c;工程师们会总结一种叫做相关性矩阵的二维表格&#xff0c;来表示故障原因与故障现象之间的关系。比如: 其中每行表示一种故障原因&#x…

Python学习从0到1 day25 第二阶段 SQL ② Python操作数据库

少年有梦&#xff0c;不应至于心动&#xff0c;更要付诸行动 —— 24.4.11 pymysql 除了使用图形化工具以外&#xff0c;我们也可以使用编程语言来执行SQL从而操作数据库 在Python中&#xff0c;使用第三方库&#xff1a;pymysql来完成对MySQl数据库的操作 安装 pip install py…

微信小程序视频下载工具

推荐您使用"下载高手"微信小程序视频下载工具&#xff0c;它利用占领系统代理&#xff0c;抓取小程序的请求&#xff0c;并集成了下载功能&#xff0c;让您轻松获取所需视频资源。 首先下载我给大家准备好的压缩包 1.首先先退出微信 注意:一定要右下角退出 2.然后来…

Element-UI 下拉框单选转多选回显不清空绑定的值

需求 根据radio切换来更改下拉框是否多选 原因 单选和多选这两个 input 看上去没差别&#xff08;自身和层级都一致&#xff09;&#xff0c;vue出于提高性能&#xff0c;所以 vue 给复用了 解决方案 <template><section><el-radio-group v-model"radi…

【机器学习算法】决策树和随机森林在计算机视觉中的应用

前言 决策树和随机森林在计算机视觉中有着广泛的应用。决策树作为一种简单而强大的分类模型&#xff0c;可以用于图像分类、目标检测、特征提取等任务。它能够根据图像的特征逐层进行判断和分类&#xff0c;从而实现对图像数据的智能分析和理解。随机森林作为一种集成学习方法&…

基于Lipschitz李式指数的随机信号特征识别和故障检测matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 4.1 Lipschitz李式指数定义与性质 4.2 Lipschitz李式指数的估计 4.3 Lipschitz李式指数在信号特征识别与故障检测中的应用 5.完整程序 1.程序功能描述 基于Lipschitz李式指数的随机信号特…

docker基本的掌握

前言&#xff1a;先要了解docker是干什么的&#xff0c; 1掌握基本概念&#xff0c;如;镜像&#xff0c;容器&#xff0c;数据卷 2知道使用常用命令 简易图; 补充&#xff1a; 默认情况下&#xff0c;每次重启虚拟机我们都需要手动启动Docker和Docker中的容器。通过命令可以实…

【MATLAB】基于Wi-Fi指纹匹配的室内定位-仿真获取WiFi RSSI数据(附代码)

基于Wi-Fi指纹匹配的室内定位-仿真获取WiFi RSSI数据 WiFi指纹匹配是室内定位最为基础和常见的研究&#xff0c;但是WiFi指纹的采集可以称得上是labor-intensive和time-consuming。现在&#xff0c;给大家分享一下我们课题组之前在做WiFi指纹定位时的基于射线跟踪技术仿真WiFi…

解决 VSCode 编辑器点击【在集成终端中打开】出现新的弹框

1、问题描述 在 VSCode 的项目下&#xff0c;鼠标右键&#xff0c;点击【在集成终端中打开】&#xff0c;出现新的一个弹框。新版的 VSCode 会有这个问题&#xff0c;一般来说我们都希望终端是在 VSCode 的控制台中打开的&#xff0c;那么如何关闭这个弹框呢&#xff1f; 2、解…

Win10安装sqlplus遇到报错的解决办法

1.下载安装sqlplus.exe的错误解决过程 最近有用到sqlplus连接Oracle数据库执行自动化脚本&#xff0c;Orcle服务器版本是11.2.0.1。在Navicat工具上通过如下语句查询到的版本信息截图如图1所示&#xff1a; SELECT * FROM v$version; 图1 Oracle服务器版本信息 其中“Oracle Da…