什么是标准差和方差

news2024/11/25 14:51:42

标准差是用于衡量数字是如何分布的指标。用σ (sigma)表示。
标准差=方差的平方根。

什么是方差

方差就是与均值的平方差的平均值。方差的计算过程:

  1. 计算平均值(mean)用μ /读mu/表示。
  2. 用每一个数减去平均值,再平方(对差进行平方)
  3. 将第二步得到的平方值都加起来,再除以数据的个数,就能得到方差。

方差的求值公式:

σ 2 = 1 N ∑ i = 1 n ( x i − μ ) 2 \sigma^2=\frac1N\sum_{i=1}^n ({x}_{i} - \mu)^2 σ2=N1i=1n(xiμ)2

μ:表示平均值

标准差

标准差就是对方差进行开方
σ = σ 2 \sigma=\sqrt{\sigma^2} σ=σ2

一般来说,我们都会直接求标准差,因为标准差用得比较多:
σ = 1 N ∑ i = 1 n ( x i − μ ) 2 \sigma=\sqrt{\frac1N\sum_{i=1}^n ({x}_{i} - \mu)^2} σ=N1i=1n(xiμ)2

有了标准差后,我们就有了一个“标准”的方式去识别哪些数据是正常的,哪些数据是过大,哪些数据是过小的。为什么可以这样呢?
首先,标准差是每个数据点到平均值这个点的最小距离之和的平均,描述了平均下来,每个点到平均值点的距离,以此来说明数据的分布情况。平均值点这个位置就是标准,有了标准差后,就可以用这个值去衡量具体的数据点是过大还是过小,抑或是正常的。

举个例子来说吧:
10个同学的身高(cm)分别为:150,130,160,185,135,168,170,155,120,169

平均值 = 150 + 130 + 160 + 185 + 135 + 168 + 170 + 155 + 120 + 169 10 = 154.2 平均值= \frac{150+130+160+185+135+168+170+155+120+169}{10}=154.2 平均值=10150+130+160+185+135+168+170+155+120+169=154.2

方差 = ( 150 − 154.2 ) 2 + ( 130 − 154.2 ) 2 + ( 160 − 154.2 ) 2 + ( 185 − 154.2 ) 2 + ( 135 − 154.2 ) 2 + ( 168 − 154.2 ) 2 + ( 170 − 154.2 ) 2 + ( 155 − 154.2 ) 2 + ( 120 − 154.2 ) 2 + ( 169 − 154.2 ) 2 10 = 378.36 方差= \frac{(150-154.2)^2 + (130-154.2)^2 + (160-154.2)^2 + (185-154.2)^2 + (135-154.2)^2 + (168-154.2)^2 + (170-154.2)^2 + (155-154.2)^2 + (120-154.2)^2 + (169-154.2)^2}{10} =378.36 方差=10(150154.2)2+(130154.2)2+(160154.2)2+(185154.2)2+(135154.2)2+(168154.2)2+(170154.2)2+(155154.2)2+(120154.2)2+(169154.2)2=378.36

标准差 = 3 78.35 = 19.45147809 标准差=\sqrt378.35=19.45147809 标准差=3 78.35=19.45147809

10个数据点的分布情况:
请添加图片描述
我们有了一个标准差后,我们就有了一个标准的方式去判断哪些同学的身高是太高或太小,或正常。在我们这个实例中,如果我们认为在一个标准差内的身高属于正常范围,那么120,133都显得太矮小了,185就太高了。

上面这个例子是针对10个同学的身高的(也就是说我们只对这10个同学的身高感兴趣,样本空间都是在这了)。

样本标准差

但是,如果数据是样本(从更大的总体中选择),则计算会发生变化!即10个同学的身高是一个样本数据(我们现在感兴趣的是全校同学的身高),因为有时候样本空间太大,不方便操作,我们可以通过样本来评价总体。计算样本标准差就与前面的会有所不同:

s = 1 N − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s=\sqrt{\frac1{N-1}\sum_{i=1}^n ({x}_{i} - \bar{x})^2} s=N11i=1n(xixˉ)2

s:代表样本标准差
样本标准差的计算过程与前面无异,唯一的区别就是前面是除以N,这里是除以N-1,

方差 = ( 150 − 154.2 ) 2 + ( 130 − 154.2 ) 2 + ( 160 − 154.2 ) 2 + ( 185 − 154.2 ) 2 + ( 135 − 154.2 ) 2 + ( 168 − 154.2 ) 2 + ( 170 − 154.2 ) 2 + ( 155 − 154.2 ) 2 + ( 120 − 154.2 ) 2 + ( 169 − 154.2 ) 2 10 − 1 = 420.4 方差= \frac{(150-154.2)^2 + (130-154.2)^2 + (160-154.2)^2 + (185-154.2)^2 + (135-154.2)^2 + (168-154.2)^2 + (170-154.2)^2 + (155-154.2)^2 + (120-154.2)^2 + (169-154.2)^2}{10-1} =420.4 方差=101(150154.2)2+(130154.2)2+(160154.2)2+(185154.2)2+(135154.2)2+(168154.2)2+(170154.2)2+(155154.2)2+(120154.2)2+(169154.2)2=420.4

标准差 = 4 20.4 = 20.50365821 标准差=\sqrt420.4=20.50365821 标准差=4 20.4=20.50365821
样本标准差得到的结果与实际很接近了。为什么要除以N-1而不是除以N呢?当年确实时除以N的,只是当时的人发现样本空间的数据除以N后得到的值往往都比实际的要小,于是想办法纠偏,就想到了一个简单的办法就是少除一个,这样结果就不会太小了,大一些也无所谓。

为什么要对每个差值进行平方,取绝对值不行吗?

σ 2 = 1 N ∑ i = 1 n ( x i − μ ) 2 \sigma^2=\frac1N\sum_{i=1}^n ({x}_{i} - \mu)^2 σ2=N1i=1n(xiμ)2

首先,各个数据点与平均值点的距离是不能直接相加的,因为有可能会出现正负抵消的情况,这就没有办法客观表示点与点之间的距离了。如 下图:
请添加图片描述
那么,直接取它们的差值的绝对值作为两点之间的距离呢?下面两张图都用了绝对值的办法,都得到了相同的值,可是这个值反映不出两个组数据的分布情况,相同的值应该对应类似的数据分布,但是从下面两张图可知,它们各自数据的分布是有很大不同的,但是无法反映出来。
请添加图片描述

请添加图片描述
为什么在计算标准时用平方数据点与平均值点的差,可以客观反映数据的分布特点呢?
首先,平方数据差,可以避免正负相加,互相抵消的问题。其次这种方式是很类似于欧几里德空间里的两点之间的距离的计算的。当数据差异更加分散时,标准差会更大…而这正是我们想要的。

还有一点在平方和平方根上使用代数比在绝对值上更容易。有时候数值的准确性并不是必要的,能说明和反映问题才是必要的,这个思想很重要。

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1852528.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java基础的重点知识-04-封装

文章目录 面向对象思想封装 面向对象思想 在计算机程序设计过程中,参照现实中事物,将事物的属性特征、行为特征抽象出来,描述成计算机事件的设计思想。 面向对象思想的三大基本特征: 封装、继承、多态 1.类和对象 类是对象的抽象&#xff…

FreeCAD中类型机制研究

了解FreeCAD类型机制实现原理,为后续FreeCAD相关工作提供参考。 1.实现原理 FreeCAD系统提供一个最上层的基类BaseClass,该类主要处理类型相关工作,几乎所有的FreeCAD的类直接或间接继承于该类。该类只有唯一个属性Type,Type里面…

如何提升外链网站的收录率?

要提高外链网站的收录率,要明确的一点是,被收录的外链才能发挥最大的作用,因此,提升收录率是首要任务。一个有效的方法是使用GPC爬虫池,这样可以大幅度提高谷歌蜘蛛对众多外链网站页面的抓取频率 通过GPC爬虫池的引导…

OpenSSL命令手册

正文共:999 字 10 图,预估阅读时间:1 分钟 我们前面编译安装了OpenSSL命令工具(CentOS编译安装OpenSSL 3.3.1),这是一个强大的安全套接字层密码库,可以用于实现各种加密和认证协议,如…

福州大学 2022~2023 学年第 1 学期考试 A 卷压轴题参考答案

题目: 定义一个抽象类Structure(含有纯虚函数type函数,用以显示当前结构的类型; 含有show函数), 在此基础上派生出Building类, 用来存储一座楼房的层数、房间数以及它的总平方米数。 建立派生 类House&am…

QML 实现上浮后消失的提示框

基本效果:上浮逐渐显示,短暂停留后上浮逐渐消失 为了能同时显示多个提示框,一是需要动态创建每个弹框 Item,二是弹出位置问题,如果是底部为基准位置就把已经弹出的往上移动。 效果展示: 主要实现代码&…

路由模式--哈希模式下使用a标签跳转会有问题

路由模式分为 history 和 hash 两种模式&#xff0c;在 hash 模式下&#xff0c;使用 a 标签去跳转路由&#xff0c;可能会有问题。 比如&#xff1a; <a href"/home"><img src"/logo.png" class"logo" /></a> 在跳转路由时…

机器学习数学原理专题——线性分类模型:损失函数推导新视角——交叉熵

目录 二、从回归到线性分类模型&#xff1a;分类 3.分类模型损失函数推导——极大似然估计法 &#xff08;1&#xff09;二分类损失函数——极大似然估计 &#xff08;2&#xff09;多分类损失函数——极大似然估计 4.模型损失函数推导新视角——交叉熵 &#xff08;1&#x…

Java | Leetcode Java题解之第174题地下城游戏

题目&#xff1a; 题解&#xff1a; class Solution {public int calculateMinimumHP(int[][] dungeon) {int n dungeon.length, m dungeon[0].length;int[][] dp new int[n 1][m 1];for (int i 0; i < n; i) {Arrays.fill(dp[i], Integer.MAX_VALUE);}dp[n][m - 1] …

C语言入门系列:初识函数

文章目录 一&#xff0c;C语言函数与数学函数的区别1&#xff0c;回忆杀-初中数学2&#xff0c;C语言中的函数 二&#xff0c; 函数的声明1&#xff0c;函数头1.1&#xff0c;函数名称1.2&#xff0c;返回值类型1.3&#xff0c;参数列表 2&#xff0c;函数体2.1&#xff0c;函数…

idea右侧找不到Maven,在View-> Tool Windows下也找不到

正常情况Idea右侧没有Maven&#xff0c;只需去View -> Tool Windows 目录中找到Maven并点击Maven&#xff0c;Idea右侧就会出现 问题&#xff1a; idea右侧找不到Maven&#xff0c;在View -> Tool Windows 目录中也找不到Maven&#xff0c;下图 全局搜索ctrl N&#xff…

数据结构历年考研真题对应知识点(栈和队列的应用)

目录 3.3栈和队列的应用 3.3.2栈在表达式求值中的应用 【中缀表达式转后缀表达式的过程(2012、2014)】 【栈的深度分析(2009、2012)】 【用栈实现表达式求值的分析(2018)】 3.3.3栈在递归中的应用 【栈在函数调用中的作用和工作原理(2015、2017)】 3.3.5队列在计算机系…

苹果智能和人工智能最大化

苹果智能和人工智能最大化 除了苹果公司&#xff0c;还没有人真正使用过苹果的智能功能。它要到秋天才会分阶段发布&#xff0c;即使到那时&#xff0c;它也无法在80%或90%的iPhone安装基础上运行&#xff0c;因为它需要只有iPhone 15 Pro才能使用的设备上处理功能。没有什么能…

如何从magento1迁移到magento2

m2相较m1 变化可以说非常大&#xff0c;相当于从头到位都改写一遍&#xff0c;更现代化&#xff0c;更优雅。除了数据库表变化不是很大。 主要迁移的内容有&#xff1a; 1&#xff0c;主题 2&#xff0c;插件(自己开发的或者第三方插件) 3&#xff0c;数据库 主题 不能迁移到m…

如何在Windows 11和10上清除更新缓存?这里提供了几种方法

​Windows 11和Windows 10都可以非常轻松地清除Windows更新缓存。可以使用图形方法或命令行选项删除保存的更新文件。我们将向你展示你的可用选项。 为什么要清除Windows更新缓存 你可能希望清除Windows更新缓存的原因有很多。 你可能在查找或安装更新时遇到问题,清除缓存通…

如何恢复丢失的文件?免费为 Mac 恢复数据

丢失 Mac 上的重要文件是一件非常痛苦的事情。无论是重要的工作文件、重要文件还是心爱的照片&#xff0c;意外删除它们或出现系统错误都会非常令人沮丧。别担心&#xff1b;有办法&#xff1a;奇客数据恢复Mac版。这款免费的 Mac 文件恢复软件就像您文件的救星 - 当出现问题时…

每日一练:攻防世界:5-1 MulTzor

一、XorTool 基于 XOR&#xff08;异或&#xff09;运算实现。它可以帮助您快速地对文本、二进制文件进行加密解密操作。 认识XorTool工具&#xff1a; 让我们先去认识一下工具&#xff1a; xortool.py 是基于 python 的脚本&#xff0c;用于完成一些 xor 分析&#xff0c;…

持久化、主从 、分片、哨兵

目录 持久化 RDB&#xff08;存数据&#xff09; 使用场景 bgsave 使用方法 原理 AOF&#xff08;存命令&#xff09; 使用方法 原理 bgrewriteaof AOF和RDB 主从集群 搭建 数据同步原理(slave宕机&#xff09; 全量同步 增量同步 集群优化 总结 哨兵机制&…

JAVA学习过程中遇到的问题

前言 记录学习过程中遇见的各种问题。希望对你有帮助。 目录 前言 1、新建maven项目时&#xff0c;archetype项目骨架加载慢 2、maven的pop.xml添加依赖项无法检测到 3、java: 无效的目标发行版: 20 4、idea添加maven依赖太慢 5、CTRLCV复制粘贴太慢 6、Swagger写接口文…

手持弹幕LED滚动字幕屏夜店表白手灯接机微信抖音小程序开源版开发

手持弹幕LED滚动字幕屏夜店表白手灯接机微信抖音小程序开源版开发 专业版 插件版 手持弹幕小程序通常提供多种功能&#xff0c;以便用户在不同的场合如夜店、表白、接机等使用。以下是一些常见的功能列表&#xff1a; 文本输入&#xff1a; 输入要显示的文字内容&#xff0c;…