详解“协方差”与“相关系数”

详解“协方差”与“相关系数”

news2026/2/13 13:42:11

引言

PCA的目标对象是矩阵，例如，有m个样本，每个样本有n个特征，那么就可以构造成一个样本矩阵，并转换成矩阵的形式。

PCA的最终目的是减少特征的个数，去掉那些不重要的特征，也就是减小矩阵列向量的个数，为后续分类任务实现数据预处理的作用。

那如何识别出矩阵中有用的列？PCA的做法是应用矩阵的特征值分解。特征值分解要求矩阵是方阵，但实际上样本的数量m要远大于特征的数量n，既然不满足特征值分解的条件，那就要想办法创造条件，其中一种方法是通过m*n原始矩阵构造出n*n的协方差矩阵。

协方差矩阵：

虽然实现了最终的目的，但针对协方差矩阵的每个元素的真正含义并没有过多的解释，这就导致很多人不明白，为什么对协方差矩阵进行特征值分解就能进行降维？下面就逐一进行讲解。

协方差：

也即是上面协方差矩阵中每一个元素： $Cov(X,Y)$ ，协方差就是用来衡量变量X和变量Y相关性的指标，通俗的讲：

（1）如果X变大，Y也变大，那么就说X和Y同向变化，X和Y正相关，此时的协方差为正数。

（）如果X变大，Y变小，那么就说X和Y反向变化，X和Y负相关，此时的协方差为负数。

数值越大，说明相关性越大。

协方差的计算公式：

公式的解释：

如果有X, Y两个变量，每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积，再对这每个时刻的乘积求和并求出均值。

特别的有 $Cov(X,Y)=Var(X)$ ，也就是说：方差是一种特殊的协方差。

千言不如一图：

红色代表X变量，绿色代表Y变量，水平虚线代表均值，由图可见，每一时刻 $X-\mu _x$

和 $Y-\mu _x$ 的值的“正负号”一定相同，所以把所有时刻的 $X-\mu _x$ 和 $Y-\mu _x$ 的乘积加在一起也是正的，说明两个变量是正相关的。

再来看一个具有实际意义的数据：

由图可见，商品房的销售面积随着城市化进程的发展而增长，说明两者是正相关的，所以，有的城市为了卖房，会大力搞城市建设，建地铁，搞公园，老城区拆迁等有效措施。

再来一个负相关的例子：

由图可见，每一时刻 $X-\mu _x$ 和 $Y-\mu _x$ 的值的“正负号”一定相反，所以把所有时刻的

$X-\mu _x$ 和 $Y-\mu _x$ 的乘积加在一起求平均的时候也是负的，说明两个变量是负相关的。

由图可见，近年来，出生率随着城镇化的加快反而呈下降趋势，这说明在城市养育一个儿童的费用较高，大家在没有赚够钱的情况下不敢生了。

前面提到的两种情况比较理想，现实中的数据大多是有波动的。

如上图所示，有时刻的 $X-\mu _x$ 和 $Y-\mu _x$ 的乘积是负的，有的时刻是正的，讲每个时刻的乘积加在一起，正负就会产生抵消，到底是正相关还是负相关，要取决于最终协方差值的正负与大小。

还有一种情况是，虽然X和Y同向运动，但有的时刻X大于均值，Y却小于均值，他俩的乘积是负的，这与X和Y正相关是矛盾的啊？

如上图所示，t1时刻， $X-\mu _x$ 和 $Y-\mu _x$ 的乘积是负的，但别着急，往后看完，后面6个时刻乘积都是正的，最终结果仍然是正的，所以，总体上看，X和Y仍然是正相关的。

相关系数：

先从词的组合理解一下这个概念，“相关”貌似与前面的协方差有着某种联系，“系数”这个次我们并不陌生，它代表某种权重，所以相关系数代表着相关性的程度。

既然已经有了协方差，还要相关系数干什么？因为要对比不同变量之间的相关性，既然是对比，就要要消除量纲的影响，因为不同特征之间的量纲可能是不同的，例如，房屋的价格可能是几千或者几万，房间的个数一般都是在10以内，房屋的面积一般在100左右，如果我们要对比这三者之间的相关性，例如，Cov(房屋的面积，房屋的价格)和Cov(房屋的面积，房间个数)，只计算协方差可能不行，因为不是一个量纲。

所以，就有了相关系数的概念。

相关系数的公式为：

$\huge \mathbf{\rho =\frac{Cov(X,Y)}{\sigma _X \sigma_Y}}$

用X、Y的协方差除以X的标准差和Y的标准差。这跟我们在数据预处理中的数据标准化是相似的，最终相关系数在-1-1之间，也可以把它看作是一种特殊的协方差。

那它也有以下特性：

1、也可以反映两个变量变化时是同向还是反向，如果同向变化就为正，反向变化就为负。
2、由于它是标准化后的协方差，因此重要的特性来了：它消除了两个变量变化幅度的影响，而只是单纯反映两个变量每单位变化时的相似程度。

举个例子：

下面我们分别计算上图中的协方差和相关系数来对比一下他们之间的区别。

首先计算它们的协方差：
第一种情况下：

$\huge \left [ (100-0) \times (70-0) + (-100-0) \times (-70-0)+(-200-0) \times (-200-0) \cdot \cdot \cdot \right ]\div 7\approx 15428.57$

第二种情况下：

$\huge \left [ (0.01-0) \times (70-0) + (-0.01-0) \times (-70-0)+(-0.02-0) \times (-200-0) \cdot \cdot \cdot \right ]\div 7\approx 1.542857$

虽然同是正相关，但协方差相差了一万倍，只能从两个协方差都是正数判断出两种情况下X,Y都是同向变化，但是无法对比两种情况下的相关程度。

这是为什么呢？

因为第一种情况量纲大，量纲大的起到了主导作用，第二种情况会有多个小数相乘，结果会越来越小。

下面计算一下相关系数：

X的标准差为

Y的标准差为

于是相关系数为

说明第一种情况下，X的变化与Y的变化具有高度的相似性，而且已经接近完全正相关了，X,Y几乎就是线性变化的。

那第二种情况呢？
X的标准差为

Y的标准差为

于是相关系数为

说明第二种情况下，虽然X的变化幅度比第一种情况X的变化幅度小了10000倍，但是丝毫没有改变“X的变化与Y的变化具有很高的相似度”这一结论。同时，由于第一种、第二种情况的相关系数是相等的，因此在这两种情况下，X,Y的变化过程有着同样的相似度。

那么为什么要通过除以标准差的方式来剔除变化幅度的影响呢？咱们简单从标准差公式看一下：

$\huge \sigma =\sqrt{E((X-\mu _x)^2)}$

标准差描述了变量在整体变化过程中偏离均值的幅度。协方差除以标准差，也就是把协方差中变量变化幅度对协方差的影响剔除掉，这样协方差也就标准化了，它反应的就是两个变量每单位变化时的情况。这也就是相关系数的公式含义了。

为什么对协方差矩阵进行特征值分解能显示降维？

在讲矩阵列空间的时候，我们说如果矩阵的某一列是其他列的线性组合，我们就说这些列是线性相关的，举个最简单的例子，第一列是第二列的两倍，那么这两列完全可以去掉其中一列，去掉后并没有丢失什么信息，如果把矩阵当作一种变换，那去掉冗余的列和，其他列所张成的空间维度并不会受影响。

对协方差矩阵进行特征值分解，就是找到矩阵的变换主方向，这些主方向对应的就是线性无关的列，也就是对通过这些列能张成最大子空间。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1229259.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【LeetCode:689. 三个无重叠子数组的最大和 | 序列dp+前缀和】

【LeetCode:689. 三个无重叠子数组的最大和 | 序列dp+前缀和】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持，因为它具有很高的价值，算法就是这样✨ 🌲 作者简介：硕风和炜，…

阅读更多...

在回调之间共享数据

在回调之间共享数据

可以在 App 中为 UI 组件编写回调函数，以指定用户与其交互时的行为方式。在具有多个相互依赖的 UI 组件的 App 中，回调函数通常必须访问主 App 函数中定义的数据，或与其他回调函数共享数据。例如，如果创建一个具有列表框的 App&a…

阅读更多...

vue 如何实现粘贴复制功能

vue 如何实现粘贴复制功能

实现粘贴复制功能 vue 实现粘贴复制功能，也可用于app中h5插件，共四种方法，特别推荐第四种方法，具体还需了解根据需求使用 1. 安装第三方插件方法（不推荐） 这种方法兼容性很好，如果项目只使用了…

阅读更多...

如何自己生成fip.bin在Milkv-duo上跑freertos

如何自己生成fip.bin在Milkv-duo上跑freertos

前言 （1）PLCT实验室实习生长期招聘：招聘信息链接 （2）本来是要跑RT-Thread的，搞了很久，一直没成功。哭死，后面mentor通电话，让我先跑一下freertos试试。有可能是因为RT-Th…

阅读更多...

这5款好用的app，能让你生活质量和效率飙升

这5款好用的app，能让你生活质量和效率飙升

随着科技的进步和智能手机的普及，不少好用的手机APP出现让我们的生活更加便捷，也提升了我们的生活质量，带给我们不少惊喜。接下来，让我们一起探索这5款实用APP，看看有没有适合你的！ 1、粉笔一款专门备考…

阅读更多...

全屋智能：鱼很大，但水更深

全屋智能：鱼很大，但水更深

1990年，作为世界首富的比尔盖茨，已经对智能家居生活有了明确畅想。他花了7年时间，耗资1亿多美元，在美国西雅图的华盛顿湖东岸，建了一座占地6600平方米的湖滨别墅。在这座被命名为“未来之屋”的豪宅里，到处…

阅读更多...

暖阳脚本_ 将Agent技术的灵活性引入RPA，清华等发布自动化智能体ProAgent

暖阳脚本_ 将Agent技术的灵活性引入RPA，清华等发布自动化智能体ProAgent

RPA暖阳脚本近日，来自清华大学的研究人员联合面壁智能、中国人民大学、MIT、CMU 等机构共同发布了新一代流程自动化范式 “智能体流程自动化” Agentic Process Automation（APA），结合大模型智能体帮助人类进行工作流构建&#x…

阅读更多...

OTP语音芯片 NV080D在智能空气检测仪的应用

OTP语音芯片 NV080D在智能空气检测仪的应用

随着人们对健康和环保的关注度不断提高，人们对看不见的家居环境也越来越重视。智能空气检测仪的市场需求也在不断增长中，呈现稳中向好的趋势。智能空气检测仪能够检测室内空气中的PM2.5、甲醛、TVOC等有害物质，同时还可以检测温湿度、空气质量…

阅读更多...

亚马逊云科技帮助客户在云中构建具有高可靠性和韧性的应用程序

亚马逊云科技帮助客户在云中构建具有高可靠性和韧性的应用程序

在一个理想的世界里，一切都非常完美，并且一直都在顺畅运作。早晨的通勤没有交通堵塞，最喜欢的停车位一直空着，一杯温度适宜的饮料，生活一帆风顺，没有任何中断。在需要时，您能得到所需的东西。但…

阅读更多...

如何简单挖掘公益SRC？

如何简单挖掘公益SRC？

目录 1、寻找漏洞 1)谷歌语法 2)fofa 2、挖掘漏洞 3、提交报告第一步：“标题”和“厂商信息”和“所属域名” 第二步：其它内容第三步：复现步骤 0、IP域名归属证明 1、漏洞页 2、该干啥 3、注入的结果 4、上榜吉时时间&#x…

阅读更多...

多视图聚类的论文阅读（一）

多视图聚类的论文阅读（一）

当聚类的方式使用的是某一类预定义好的相似性度量时， 会出现如下情况： 数据聚类方面取得了成功，但它们通常依赖于预定义的相似性度量，而这些度量受原始方法的影响:当输入维数相对较高时，往往是无效的。 1. Deep Mult…

阅读更多...

asp.net校园二手交易平台系统VS开发sqlserver数据库web结构c#编程计算机网页

asp.net校园二手交易平台系统VS开发sqlserver数据库web结构c#编程计算机网页

一、源码特点 asp.net校园二手交易平台系统是一套完善的web设计管理系统，系统采用mvc模式（BLLDALENTITY）系统具有完整的源代码和数据库，系统主要采用B/S模式开发。开发环境为 vs2010，数据库为sqlserver2008&a…

阅读更多...

网络渗透测试（TCP/IP）理论篇

网络渗透测试（TCP/IP）理论篇

TCP/IP体系垂直服务：底层为高层服务 TCP/IP体系结构是一个分层的协议体系，由多个层次组成，每个层次都负责不同的功能。以下是TCP/IP体系结构的主要层次： 物理层（Physical Layer）：该层负责传输…

阅读更多...

15篇MyBatis-Plus系列集合篇「值得收藏学习」

15篇MyBatis-Plus系列集合篇「值得收藏学习」

历史文章（文章累计490） 《国内最全的Spring Boot系列之一》《国内最全的Spring Boot系列之二》《国内最全的Spring Boot系列之三》《国内最全的Spring Boot系列之四》《国内最全的Spring Boot系列之五》《国内最全的Spring Boot系列之六》 M…

阅读更多...

向量数据库——AI时代的基座

向量数据库——AI时代的基座

1.前言向量数据库在构建基于大语言模型的行业智能应用中扮演着重要角色。大模型虽然能回答一般性问题，但在垂直领域服务中，其知识深度、准确度和时效性有限。为了解决这一问题，企业可以利用向量数据库结合大模型和自有知识资产，…

阅读更多...

金属压块液压打包机比例阀放大器

金属压块液压打包机比例阀放大器

液压打包机是机电一体化产品，主要由机械系统、液压控制系统、上料系统与动力系统等组成。整个打包过程由压包、回程、提箱、转箱、出包上行、出包下行、接包等辅助时间组成。市场上液压打包机主要分为卧式与立式两种，立式废纸打包机的体积比较小&#xf…

阅读更多...

释放固态继电器的力量：主要优势和应用

释放固态继电器的力量：主要优势和应用

固态继电器（SolidStateRelay，缩写SSR），是由微电子电路，分立电子器件，电力电子功率器件组成的无触点开关。用隔离器件实现了控制端与负载端的隔离。固态继电器的输入端用微小的控制信号，达到直接…

阅读更多...

wvp gb28181 pro 推流列表功能

wvp gb28181 pro 推流列表功能

界面截图功能说明功能演示客户端推流手机端，使用芯象软件进行推流，支持ios、android 推流地址使用如下格式： rtsp://192.168.4.116:554/live/123?secret035c73f7-bb6b-4889-a715-d9eb2d1925cc 详细操作教程参考【腾讯文…

阅读更多...

外贸自建站什么意思？自建独立网站的好处？

外贸自建站什么意思？自建独立网站的好处？

外贸自建站的含义是什么？如何区分自建站和独立站？ 随着全球贸易的不断发展，越来越多的企业开始关注外贸自建站。那么，“外贸自建站”到底是什么意思呢？海洋建站将为您详细解析这个问题，带您深入了解这一新…

阅读更多...

Latex学习

二实例 1. \Delta_{w}\frac{\partial l}{\partial w_{i1}}weight:\frac{\partial l}{\partial x_{i1}} 效果如下其中对于希腊字母的大小写来说，可以参考： 【LaTeX 语法】字母表示 ( 大写、小写、异体希腊字母 | 粗体字母 | 花体字母 )_latex字母_韩…

阅读更多...

推荐文章

最新文章