概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关

news2024/11/28 21:48:24

方差和标准差:

一个随机变量\textup{x}\textup{x}的值的变化程度可以用方差计算:

\textup{Var}(\textup{x})=\textup{E}[(x-E[\textup{x}])^{2}] ;其中E[\textup{x}] 是期望。

我们举个例子:

\textup{x}服从均一分布,\textup{x}取值为0.1,0.2,0.3,0.4,0.5 ,每种值的概率是20%,可算出期望是0.3,那么方差就是:

\textup{Var}(\textup{x})=\textup{E}[(x-E[\textup{x}])^{2}]\\ =0.2*(0.1-0.3)^{2}+0.2*(0.2-0.3)^{2}+0.2*(0.3-0.3)^{2}+0.2*(0.4-0.3)^{2}+0.2*(0.5-0.3)^{2}\\ =0.2*0.1

标准差是方差的平方根,随机变量\textup{x}的标准差是\sqrt{0.2*0.1}

协方差:

协方差可以用来衡量两个变量的线性相关性,并且可以化简到容易计算的形式(化简过程有问题可以找下证明或者举个例子亲自算一下):

\textup{Cov}(\textup{x,y})=\textup{E}[(x-E[\textup{x}])(y-E[\textup{y}])]\\ \\=\textup{E}[\textup{xy}]-2\textup{E}[\textup{x}]\textup{E}[\textup{y}]+\textup{E}[\textup{x}]\textup{E}[\textup{y}]\\\\ =\textup{E}[\textup{xy}]-\textup{E}[\textup{x}]\textup{E}[\textup{y}]

我们举第一个例子: 

\textup{x}服从均一分布,\textup{x}取值为0.1,0.2,0.3,0.4,0.5 ,每种值的概率是20%,可算出期望是0.3,标准差是\sqrt{0.2*0.1}

\textup{y}服从均一分布,\textup{y}取值为10000,20000,30000,40000,50000 ,每种值的概率是20%,可算出期望是30000,标准差是\sqrt{0.2*1000000000}

假设 \textup{x}和 \textup{y} 线性相关,此时 \textup{y}=100000\textup{x},那么\textup{x}取0.1\textup{y}取10000的概率为0.2,\textup{x}取0.1\textup{y}取20000、30000、40000、50000的概率都为0,以此类推。

\textup{x}\textup{y}的协方差就是:

\textup{Cov}(\textup{x,y})=\textup{E}[\textup{xy}]-\textup{E}[\textup{x}]\textup{E}[\textup{y}]\\ =0.2*(0.1*10000)+0.2*(0.2*20000)+0.2*(0.3*30000)+0.2*(0.4*40000)+0.2*(0.5*50000)-0.3*30000\\ =0.2*55000-0.3*30000\\ =2000

我们再举第二个例子:

把上个例子中的随机变量\textup{y}改变,随机变量\textup{x}不改变。

\textup{y}服从均一分布,\textup{x}取值为1,2,3,4,5 ,每种值的概率是20%,可算出期望是3,标准差是\sqrt{0.2*10}

假设 \textup{x}和 \textup{y} 线性相关,此时 \textup{y}=10\textup{x},那么\textup{x}取0.1\textup{y}取1的概率为0.2,\textup{x}取0.1\textup{y}取2、3、4、5的概率都为0,以此类推。

\textup{x}\textup{y}的协方差就是:

\textup{Cov}(\textup{x,y})=\textup{E}[\textup{xy}]-\textup{E}[\textup{x}]\textup{E}[\textup{y}]\\ =0.2*(0.1*1)+0.2*(0.2*2)+0.2*(0.3*3)+0.2*(0.4*4)+0.2*(0.5*5)-0.3*3\ =0.2*5.5-0.3*3\\ =0.2

两个例子对比一下,两个例子中的两个随机变量都是线性相关的,求出来的协方差都大于0,但是两个协方差的数值有较大差异,相差了10000倍。

皮尔逊相关系数:

皮尔逊相关系数是两个随机变量 \textup{x}和 \textup{y}的协方差与标准差之商:

\rho _{\textup{x}\textup{y}}=\frac{Cov(\textup{x,y})}{\sigma \textup{x}\sigma \textup{y}}

我们可以计算上述两个例子里的皮尔逊相关系数:

第一个例子:

\rho _{\textup{x}\textup{y}}=\frac{Cov(\textup{x,y})}{\sigma \textup{x}\sigma \textup{y}}\\ \\=\frac{2000}{\sqrt{0.2*0.1}\sqrt{0.2*1000000000}}\\ \\=\frac{2000}{2000}=1

第二个例子:

\rho _{\textup{x}\textup{y}}=\frac{Cov(\textup{x,y})}{\sigma \textup{x}\sigma \textup{y}}\\ \\=\frac{0.2}{\sqrt{0.2*0.1}\sqrt{0.2*10}}\\ \\=\frac{0.2}{0.2}=1

皮尔逊相关系数都为1。

协方差、皮尔逊相关系数与线性相关

完全线性相关、线性相关、线性独立、完全独立:

如果变量\textup{y}可以用\textup{x}表示成 \textup{y=ax+b},那么两个随机变量完全线性相关,否则不是完全线性相关。不是完全线性相关的两个变量有可能线性相关,有可能线性独立。如果两个变量有一定的线性关系,那么两个变量线性相关;如果\textup{x}\textup{y}没有任何关系(完全独立)或者左右对称的线性关系可以抵消掉,那么两个变量线性独立。我们举一些例子。

完全线性相关的例子:

如果\textup{y=2x+1},点集如散点图所示,那么概率矩阵和计算协方差如下,协方差为4大于0(绿色部分值的加和),皮尔逊系数为1:

                     

线性相关的例子:

如果\textup{y=x}^{2},点集如散点图所示,那么概率矩阵和计算协方差如下,协方差为12大于0,皮尔逊系数为0.98:

                   

线性独立的例子:

仍然是\textup{y=x}^{2},取不同的数值再算一下,点集如散点图所示,协方差为0,皮尔逊系数为0,此时左右对称的线性关系可以抵消掉:

                 

线性独立的另外一个例子,点集如散点图所示,此时\textup{x}和 \textup{y} 完全独立,协方差为0,皮尔逊系数为0:

                  

 

通过上述例子可以看出,当两变量线性独立时,协方差一定等于0;当协方差等于0时,两变量也一定线性独立,但是并不代表两变量完全独立(完全独立的例子)。

下图是皮尔逊相关系数的一个图示便于理解:

 总结

如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

协方差和皮尔逊相关系数都可以衡量两个随机变量的线性相关性(注意只是线性相关性),协方差受随机变量数值大小的影响,而皮尔逊相关系数不受随机变量数值大小的影响。所以两随机变量的协方差越大并不代表这两个变量越线性相关,而两随机变量的皮尔逊相关系数绝对值越大这两个变量越线性相关。

协方差的范围是[-\infty ,\infty ];协方差<0时,线性负相关;协方差>0时,线性正相关;协方差=0时,线性独立。皮尔逊相关系数的范围是[-1,1];当为-1时,完全线性负相关;当为1时,完全线性正相关;当>-1且<0时,线性负相关,绝对值越大越线性负相关;当>0且<1时,线性正相关,绝对值越大越线性正相关;当=0时,线性独立。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/626546.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springboot 精华

一、基础 官方文档地址&#xff1a;Spring Boot 注&#xff1a;以下部分例子 有些用到 .properties 方式&#xff0c;有些用 .yml方式&#xff0c;两者可自行学习&#xff0c;这里部分是为了省空间而写 .properties 方式。 1、泛谈 &#xff08;1&#xff09;优势 快速构建…

MyBatis Plus 拦截器实现数据权限控制(完整版)

一、说明 变化&#xff1a;相比于之前写的数据权限拦截器&#xff0c;新增了白名单功能&#xff0c;通过注解的方式让哪些SQL不进行数据权限拦截&#xff0c;之前的文章地址 思路&#xff1a;通过MyBatisPlus的拦截器对每个要执行的SQL进行拦截&#xff0c;然后判断其是否为查询…

勒索病毒远程桌面——防御方案

一、适用目标&#xff08;校园网、企业网&#xff0c;windows系列的操作系统&#xff09;&#xff1a; 所有在局域网内运行windows系统的电脑&#xff0c;并非只感染服务器操作系统&#xff0c;单机照样感染。会将你电脑中的所有文件全部加密&#xff0c;部分已感染案例有2个共…

常见的存储类型:DAS vs SAN vs NAS

什么是存储 你有想过你在朋友圈分享的照片都存在哪里&#xff1f;你在视频网站上浏览的视频都存放在哪里&#xff1f;甚至&#xff0c;你在银行卡里的存款、房贷是如何随时查询、随时存取的&#xff1f; 没错&#xff0c;这些照片、视频&#xff0c;甚至你的存款、房贷的数值…

机器学习-6 支持向量机

支持向量机 算法概述算法流程线性分类线性可分性向量内积硬间隔分类软间隔SVM模型非线性支持向量机非线性的情况非线性支持向量机核函数 SVM优点 算法步骤线性可支持向量机的程序流程图SVM算法步骤 算法实例有关数据集利用Sklearn的datasets模块生成数据集其他生成数据集的方法…

BIM与点云:一种基于航空LiDAR点云的大规模建筑重建

文章&#xff1a;City3D: Large-Scale Building Reconstruction from Airborne LiDAR Point Clouds 作者&#xff1a;Jin Huang , Jantien Stoter , Ravi Peters and Liangliang Nan 编辑&#xff1a;点云PCL 来源&#xff1a;arXiv2023 欢迎各位加入知识星球&#xff0c;获取P…

GeoServer SQL注入漏洞复现(CVE-2023-25157)

0x01 产品简介 GeoServer是一款开源的地理数据服务器软件&#xff0c;主要用于发布、共享和处理各种地理空间数据。它支持众多的地图和空间数据标准&#xff0c;能够使各种设备通过网络来浏览和使用这些地理信息数据。 0x02 漏洞概述 GeoServer在预览图层的时候&#xff0c;可…

Ubuntu20.04平台下使用二进制包部署MongoDB-6.0.4单实例

文章目录 1.1 准备服务器的基本信息1.2 操作系统上创建其用户1.3 部署MongoDB服务端1.4 部署MongoDB客户端1.5 部署MongoDB 27017实例1.5.1 创建相关目录1.5.2 准备配置文件1.5.3 准备启停脚本1.5.4 进行启停测试1.5.5 加入开机自启动 1.6 创建超级管理员用户1.6.1 创建本地的超…

do..while、while、for循环反汇编剖析

1、循环语句重要特征提取 循环语句最重要的特点就是执行的过程中会往上跳&#xff01;&#xff01;&#xff01; 箭头往上跳的一般都是循环语句&#xff0c;比如下面的for循环&#xff1a; 2、do..while语句反汇编 #include<iostream> using namespace std; #pragma …

【SpinalHDL快速入门】2、新建SpinalHDL工程,通过计数器Demo快速上手

文章目录 新建工程各个工具版本build.sbt 示例build.properties 示例如何在IEDA中更新 SpinalVersion 并 Reload sbt Project SpinalHDL入门例子&#xff1a;计数器demo1demo2&#xff08;支持reset信号异步复位&#xff0c;低电平有效&#xff09;demo3&#xff08;一个文件&a…

Flume学习--1、Flume概述、Flume入门、

1、Flume概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用&#xff0c;高可靠的&#xff0c;分布式的海量日志采集、聚合和传输的系统。Flume基于流式结构&#xff0c;灵活简单。 Flume最主要的作用就是实时读取服务器本地磁盘的数据&#xff0c;将数据写入到HDFS。 1.2…

C#winform多国语言应用实例

我们在开发项目中,一般需要软件支持多种语言,供不同客户使用。本文实例讲解实现办法。 1 窗体项目创建 添加控件MenuStrip、comboBox及Button,并修改对应显示文本,combobox编辑项输入英语 确定窗体的Localizable属性为true,自动创建Form1.resx,为False时,没有Form1.r…

基站机房:保障通信网络稳定,如何解决安全隐患?

基站机房作为无线通信网络的关键组成部分&#xff0c;承载着大量的网络设备和通信设施&#xff0c;对于运营商和通信服务提供商来说具有重要意义。 无论是大型运营商还是通信服务提供商&#xff0c;动环监控系统都将成为他们成功运营和管理通信网络的关键工具。 客户案例 案例…

vue使用高德地图--附带移动获取当前城市信息

高德地图 1.使用准备申请密钥vue使用 2.移动地图获取城市案例(注意事项)3.总结 1.使用准备 申请密钥 登录注册高德开放平台进入控制台 创建应用 申请key–生成key和安全密钥(2021之后key需要配合安全密钥使用) 注意&#xff1a;安全密钥需要在key之前 vue使用 首先在pubil…

一款功能强大的报表引擎-VeryReport报表引擎

在企业管理中&#xff0c;数据分析和决策制定是非常重要的环节。而报表则是这个过程中最常用的工具之一。但是&#xff0c;传统的报表设计与展现方式已经无法满足企业对于数据分析和报表展示的需求。为了解决这些问题&#xff0c;我们向大家推荐一款新一代Web报表软件——VeryR…

越是大型企业越需要企业内部知识库?

随着信息时代的到来&#xff0c;越来越多的企业开始注重知识管理。知识管理是一种通过有效地捕捉、共享和利用企业内部的知识资源&#xff0c;促进企业创新和发展的方法。而企业内部知识库作为知识管理的一种重要方式&#xff0c;对于大型企业来说尤为重要。 一、大型企业内部…

苹果相关网站和服务器状态

https://www.apple.com.cn/cn/support/systemstatus/

googlecloud谷歌云的初学体会(1)

googlecloud谷歌云入门&#xff08;1&#xff09; 一、纯小白自述二、云是个什么云三、装一个软件&#xff08;资源、服务&#xff09;四、服务器&#xff08;爷爷提供服务的电脑&#xff09;五、PGSQL的安装六、总结 一、纯小白自述 自己是个小白&#xff0c;仅仅懂得几句sql…

华为OD机试真题 Java 实现【寻找密码】【2023Q1 100分】,附详细解题思路

一、题目描述 小王在进行游戏大闯关,有一个关卡需要输入一个密码才能通过,密码获得的条件如下: 在一个密码本中,每一页都有一个由 26 个小写字母组成的若干位密码,从它的末尾开始依次去掉一位得到的新密码也在密码本中存在。 请输出符合要求的密码,如果由多个符合要求…

爬虫如何选择工具和编程语言

爬虫选择工具和编程语言需要根据具体的需求和技术水平来决定。以下是一些常用的工具和编程语言&#xff1a; 工具&#xff1a; Scrapy&#xff1a;一个基于Python的高级爬虫框架&#xff0c;可用于快速开发和部署爬虫。Beautiful Soup&#xff1a;一个Python库&#xff0c;用…