数学基础--均值、方差、标准差、协方差

news2024/11/29 4:40:02

1. 简介

  统计学中最核心的概念之一是:标准差及其与其他统计量(如方差和均值)之间的关系,本文将对标准差这一概念提供直观的视觉解释,在文章的最后我们将会介绍协方差的概念。

2. 概念介绍

均值

  均值: 均值就是将所有的数据相加求平均,求得一个样本数据的中间值。

  • 定义: 给定一个包含n个样本的集合 X={X1, …Xn},均值就是这个集合中所有元素和的平均值。
    在这里插入图片描述

方差

  方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量,换句话说如果想知道一组数据之间的分散程度的话就可以使用“方差”来表示了。

  • 定义:在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。
    在这里插入图片描述

标准差

  又叫均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是”方差”的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
在这里插入图片描述

3. 概念描述

  举例而言,假设你收集了一些学生分数(出于简洁性考虑,我们假设这些分数是总体)。
  在这里插入图片描述
  我们首先在简单的散点图中绘制这些数字:
  在这里插入图片描述
  绘制完成后,计算差异的第一步是找出这些数字的中心,即平均值,这也就是前面所说的均值的概念。
  在这里插入图片描述
  视觉上,我们可以绘制一条线来表示平均分数。
  在这里插入图片描述
  接下来我们要计算每个点和平均值之间的距离,并对得到的数值求平方。记住,我们的目标是计算数字之间的差异,以及数字与平均值之间的差异。我们可以用数学或视图的方式完成该操作:
  在这里插入图片描述
  从上图中我们可以看到,「求平方」只不过是画了一个方框而已。这里有两点需要注意:我们无法计算所有差异的总和。因为一些差异是正值,一些是负值,求和会使正负抵消得到 0。为此,我们对差异取平方(稍后我会解释为什么取平方而不是其他运算,如取绝对值)。现在,我们来计算差异平方的总和(即平方和):
  在这里插入图片描述
  通过计算平方和,我们高效计算出这些分数的总变异(即差异)。理解变异(variability)与差异(difference)之间的关系是理解多个统计估计和推断检验的关键。上图中平方和 67.5 表示,如果我们将所有方框堆在一个巨大的正方形中,则大正方形的面积等于 67.5 points^2,points 指分数的单位。任意测量集的总变异都是正方形的面积。

  现在我们得到了总变异(即大正方形的面积),但我们真正想要的是平均变异(mean variability)。要想求得平均变异,我们只需要用总面积除以方框的数量:
  在这里插入图片描述
  在这里插入图片描述
  出于实用目的考虑,你或许想除以 N−1,而不是 N,这样你就可以尝试基于一个样本而不是总体来估计平均变异。但是,这里假设我们已经具备总体。重点在于,你想计算所有小方框的均方值。这就是方差,即平均变异,或者差异平方的平均值。

  我们为什么不用方差来表示分数的差异呢?唯一的问题是,我们无法对比方差和原始分数,因为方差是「平方」值,即它是面积而非长度。其单位是 points^2,与原始分数的单位 points 不同。那么如何甩掉平方呢?开平方根啊!
  在这里插入图片描述
  最后,我们终于得到了标准差:变异的平方根,即 2.91points。这就是标准差的核心理念。本文对标准差概念的基础直观解释可以帮助大家更容易地理解,为什么在处理 z 分数(z-score)、正态分布、标准误差和方差分析时要使用标准差的单位。

绝对值的问题

  你可能会疑惑,为什么对差异求平方而不是取绝对值呢。没有什么能够真正阻止你使用差异的平均绝对值。平均绝对值给所有差异提供的是相同的权重,而差异平方为距离平均值较远的数字提供更多权重。这或许是你想要的。但是,大部分数学理论利用差异平方(其原因不在本文讨论范围内,如可微分)。不过,我会用一个容易理解的反例来回答这个问题。假设有两个均值相同的分数集合:x_1 和 x_2:
  在这里插入图片描述
  从这些数字中,你可以轻松观察到 x_1 的变异和数值分散性比 x_2 低。我们来计算两个集合差异的平均绝对值(二者的平均值都为 6):
  在这里插入图片描述
  哦,结果并不好!两个集合的变异值相同,尽管我们能够看到 x_1 的数字差异要比 x_2 低。现在,我们使用差异平方计算,得到:
  在这里插入图片描述
  在差异平方的作用下,我们得到了想要的结果:当数字越分散时,标准差越大。

协方差

  前面的方差、标准差描述的是一维数据集合的离散程度,但世界上的现象普遍是多维度数据描述的。那么很自然就会想知道现象和数据的相关程度,以及各维度数据间的相关程度。比如,一个产品卖的好不好可能有很多因素构成,比如产品质量、价格等。那么是否质量和价格之间有相关性呢?这个问题就可以用协方差来解决。协方差的计算公式被定义为:
  在这里插入图片描述
  期望值分别为 E(X) 和 E(Y) 的两个变量X和Y的协方差为:

Cov(X,Y)=E[(X−E(X))(Y−E(Y))]
		=E(XY)−2E(X)E(Y)+E(X)E(Y)
		=E(XY)−E(X)E(Y)

  协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果X 与Y 是统计独立的,那么二者之间的协方差就是0,则:

E(XY)=E(X)E(Y)

参考资料:
《https://www.jiqizhixin.com/articles/2020-01-25-2》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/367496.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

(一)Spring-Cloud源码分析之核心流程关系及springcloud与springboot包区别(新)

文章目录1. 前言2. springcloud简介3. Springcloud包简介4. Springcloud和Springboot流程关系5. Springcloud启动流程新增的功能和接口5.1 新增接口5.2 新增功能类5.2.1 spring-cloud-context包5.2.2 spring-cloud-commons包6. Springcloud实现机制带来的问题7. Springcloud和S…

【MyBatis】映射器配置|注解完成CRUD(三)

🚗MyBatis学习第三站~ 🚩起始站:MyBatis概述&环境搭建(一) 🚩本文已收录至专栏:数据库学习之旅 👍希望您能有所收获 上一篇我们学习了如何使用Mapper代理开发,核心配置文件,但却…

OnlyOffice验证(一)DocumentServer编译验证

OnlyOffice验证(一)DocumentServer编译验证 资源准备 Ubuntu16.04桌面版 验证用的版本[ubuntu-16机接上传ubuntu.04.7-desktop-amd67131.iso,(别用高版本!试过20.04耽误两三天,差点放弃了)&am…

javaee之node.js与es6

问题1:在IDEA控制台为什么node显示不会出来命令 修改完之后记得重新启动电脑 问题2:response.end()作用 在Web开发中,浏览器端的请求到达服务器进行处理的时候,Response.End的作用就是让request执行到此结束,输出到客户…

移掉K位数字-力扣402-java贪心策略

一、题目描述给你一个以字符串表示的非负整数 num 和一个整数 k ,移除这个数中的 k 位数字,使得剩下的数字最小。请你以字符串形式返回这个最小的数字。示例 1 :输入:num "1432219", k 3输出:"1219&q…

Vue实战第5章:发布Vue工程到github静态页面

前言 本篇在讲什么 简单讲解关于Vue发布github静态页面相关的内容 本篇适合什么 适合初学Vue的小白 适合想要自己搭建网站的新手 本篇需要什么 对Html和css语法有简单认知 对Vue有简单认知 Node.js(博主v18.13.0)的开发环境 Npm(博主v8.19.3)的开发环境 Vue(博主v5.…

< elementUI组件样式及功能补全: 实现点击steps组件跳转对应步骤 >

文章目录👉 前言👉 一、效果演示👉 二、点击steps跳转效果实现👉 三、实现案例往期内容 💨👉 前言 在 Vue elementUi 开发中,elementUI中steps步骤条组件只提供了change方法,并未提…

【Database-03】从 MySQL 迁移到 达梦数据库(DM 8)

1、环境 源数据库 MySQL 8.30 目标数据库 DM 8 操作系统 Centos 9 Steam 迁移工具 DM 数据迁移工具 (DM DTS) 2、开始迁移 2.1、打开DM数据迁移工具 在新建工程对话框中填写工程名和工程描述信息,点击【确定】按钮,成功添加了一个工程。 2.2、新建迁…

海思SD3403/SS928V100开发(5)MIPI_YUV相机vio sample开发----修改思路

1. 前言 sensor输出格式: YUV422 8bit 硬件连接: MIPI_YUV相机(4lane MIPI) -> SS928V100 MIPI0(4lane) 框图: 2. 几个问题 基于SS928 SDK中的 vio sample修改; 但是sample里面都是基于RAW RGB sensor开发的sample, 没有现成的MIPI_YUV sensor的参考,需要自己…

[黑马程序员SSM框架教程] Spring-11-setter注入

思考:向一个类中传递数据要几种? set方法构造方法 思考:依赖注入描述了在容器中建立bean与bean之间依赖关系的过程,如果bean运行需要数字或字符呢 引用类型简单类型(基本数据类型和字符串) 注入方式&#x…

软考学习笔记(题目知识记录) 2023.2.24

答案为 概要设计阶段 本题涉及软件工程的概念 软件工程的任务是基于需求分析的结果建立各种设计模型,给出问题的解决方案 软件设计可以分为两个阶段: 概要设计阶段和详细设计阶段 结构化设计方法中,概要设计阶段进行软件体系结构的设计&…

webpack基础学习,各个loader和plugin的具体配置

一、邂逅Webpack Webpack是什么 webpack是一个静态的模块化打包工具,为现代的JavaScript应用程序; 打包bundler:webpack可以将帮助我们进行打包,所以它是一个打包工具 静态的static:这样表述的原因是我们最终可以将…

(三十)大白话MySQL的redo log buffer中的缓冲日志,到底什么时候可以写入磁盘?

之前我们给大家讲解了一下redo log buffer的缓冲机制,大家现在应该都知道了,redo log在写的时候,都是一个事务里的一组redo log,先暂存在一个地方,完事儿了以后把一组redo log写入redo log buffer。 写入redo log buf…

C++ 动态内存管理

目录 1. C/C内存分布 练习 2. C语言中动态内存管理方式:malloc/calloc/realloc/free 3. C内存管理方式 3.1 new/delete操作内置类型 3.2 new和delete操作自定义类型 4. operator new与operator delete函数 4.1 operator new与operator delete函数&#xff08…

跨境多账号管理教程分享:解决多账号管理混乱问题

如今,跨境电商卖家拥有多平台多账号已经成为常态,但很多人找东哥咨询的担忧都是要如何有效地管理这么多账号,因为如果账号过多,容易被关联,进而影响账号安全。如果你也刚好有这个烦恼,那找东哥真的就是找对…

HEVC 编码速率控制

视频传输带宽通常都会受到一定的限制,为了在满足通信带宽和传输时延限制的情况下有效传输视频数据,保证视频业务的播放质量,需要对视频编码过程进行速率控制,所谓速率控制,就是通过选择一系列编码失真尽量小&#xff0…

「TCG 规范解读」初识 TPM 2.0 库续三

可信计算组织(Ttrusted Computing Group,TCG)是一个非盈利的工业标准组织,它的宗旨是加强在相异计算机平台上的计算环境的安全性。TCG于2003年春成立,并采纳了由可信计算平台联盟(the Trusted Computing Platform Alli…

导航定位状态评估专题:“特征”离群点判断与剔除 | 定位状态完整性监控

1、前言:经典状态估计中协方差的计算能准确反映机器人状态的完整性吗?在每一次机器人执行各种目的的自动导航任务时,拥有高精度且可靠状态估计的能力可以说是机器人顺利、安全完成任务的必要条件之一。简而言之,机器人状态估计算法…

Docker Compose

为什么需要使用Docker ComposeDocker Compose 容器编排技术1、现在我们有一个springboot项目,需要依赖Redis、mysql、nginx。如果使用docker原生部署的话,则需要安装Redis、mysql、nginx容器,才可以启动我们springboot项目,这样的…

Flink-CEP理论与实践

一.什么是Flink cepCEP 是复杂事件处理(Complex Event Processing)的缩写,是一种处理实时数据流的技术。它可以在大规模数据流中实时识别出与预定义的模式匹配的事件,并在匹配到事件时采取相应的措施。CEP 技术的应用范围非常广泛…