什么是正态分布

news2024/11/27 10:32:09

最重要的连续分布的通用名是概率密度函数,而标准正态分布(Standard Normal Distribution) 是最重要的概率密度函数。这个连续分布之所以重要,我认为是因为它非常常见,换句话说,我们会很常用到它。标准正态分布(Standard Normal Distribution)的英文中的normal有正常,通用等意思,也就是说在生活中有很多东西都具有一般的、通用的模式,这个连续分布可以用来表达这种模式。正态分布,我将它理解为正常的常见的形态分布。

数据分布可以有多种形式,有的分布集中在左边,如:
在这里插入图片描述
有的数据会集中右边,如:
请添加图片描述
也有的数据分布得相对均匀,如:
请添加图片描述

在大多数数据分布中,许多情况下,数据往往围绕着一个中心值,没有左偏或右偏差,这种数据分布非常接近正态分布,这又再次说明正态分布的实用性和重要性。
请添加图片描述
在上面这张图中,曲线代表的是正态分布,黄色的柱状图表示的数据很接近正态分布,用正态分布去近似的表示一些实际数据(很接近正态分布)是非常有价值的事情。

那么正态分布都有什么特点呢?

  1. 平均值 = 中位数 = 众数(mean = median = mode),这一大特点就说明了大多数据是围绕着一个中心值(这个中心值=平均值=中位数=众数)转的。
  2. 将正态分布用笛卡尔坐标(二维坐标)上表示出来,可以看到它是关于中心值对称的。
  3. 由第2点可知,有50%的数据小于或等于中心值,有50%的数据大于或等于中心值。

我们再来看看正态分布的标准差。什么是标准差呢?有什么用?标准差是衡量数字如何分布的指标。 简单地说就是每个数据离平均值的平均距离。如平均值是5,标准差是3,那么我们就知道在这些数据中,每个点与平均值的距离,平均是3那么远。

下面这些也是正态分布的一些重要特点:
σ :表示标准差,读sigma
μ:表示平均值 ,读mu

  1. 68%的数据落在 [μ-σ,μ+σ]
    请添加图片描述
  2. 95%的数据落在[μ-2σ,μ+2σ]
    在这里插入图片描述
  3. 99.7%的数据落在[μ-3σ,μ+3σ]
    请添加图片描述
    距离平均值多少个标准差(standard deviations),被称为"Standard Score"、“sigma(σ)” 、 “z-score”。
    将一个数值转成一个Standard Score,只是就是计算这个数据离平均值有多少个标准差,计算方式如下:
    • 用这个数据减去平均值
    • 然后除以标准差

上面这两个步骤就是正态分布转换成标准正态分布的过程。

请添加图片描述
z :z-score,和Standard Score一个意思,只是正态分布有它自己一个更特别的叫法。
μ:平均值 (mu)
σ:表示标准差 (sigma)
x:要被标准化的值,如下文中的1.85

举个例子:
以下图是一个学校的学生的身高正态分布图,平均值、中位数、众数都是1.4,标准差是0.15(1.55-1.4 或1.7-1.55等等,因为正态分布是以标准差来划分区间的)如果有个学生的身高是1.85,那么他的Standard Score就是:

  • 用1.85减去平均值: 1.85 - 1.4 = 0.45
  • 然后除以标准差: 0.45 / 0.15 = 3

所以这个1.85的学生的Standard Score是3 。说明这个学生高出平均值3个标准差,

假如某个学生的身高是0.95,那么通过计算得到的Standard Score是-3,说明这个学生比平均值矮了3个标准差。

在这个例子的正态分布图中,平均值、中位数、众数都是1.4,说明这个学校的学生身高1.4的学生是居多的。

请添加图片描述
在刚刚上面这个例子中,我们将一些具体的数值转换成标准差的个数来表示,这就叫标准化。
请添加图片描述
上图左边的图,用具体的值来表示分布,叫正态分布,把数值都转换成标准差个数来表示的正态分布图叫标准正态分布。我们可以将任何正态分布转化成标准正态分布。

为什么我们要做标准化呢?
其中一个最有说服力的理由就是可以帮助我们对数据做出决策。我从网上找来了这样一个例子来说明我们如何利用标准化对数据进行决策。

首先考试成绩的分布是符合正态分布的,否则我们没有理由去做正态分布来对数据进行相应的处理。话说在我第一次高中数学考试中,我们的成绩如下:

20, 15, 26, 32, 18, 28, 35, 14, 26, 22, 17

假设满分是60,那么我们在这次考试中大多数人都失败了。于是数学老师决定标准化这些分数,决定只有那些低于平均分一个标准差的同学都是不及格的。

通过计算可知,平均分(mean)为23,标准差(standard deviation)为6.6,标准化为每个同学的成绩的Standard scores(标准分)分别为):

-0.45, -1.21, 0.45, 1.36, -0.76, 0.76, 1.82, -1.36, 0.45, -0.15, -0.91

那么只有-1.21 和 -1.36是低于平均分1个标准差的,也就是说这次考试只有两人是不及格的。

上面就是利用标准化数据来对数据进行决策的一个例子了。

下面这张图显示了以0.5个标准差累积的百分比,只要符合正态分布,那么百分比的值都符合下图。
请添加图片描述
其实利用这张图我们还可以快速知道一些信息,比如说你已经知道你的考试成绩高于平均分0.5个标准差,

  • 即[0,0.5]累知的百分比是19.1%,
  • 小于平均分的百分比是50%

那么我们就知道理论上有69.1%(19.1%+50%)的同学的成绩低于你。虽然用真实数据来计算时,这个比值可能会有些差异。但是这种理论值已经很有价值了。

个人观点:其实近似的数据已经很能够给我们信息参考,帮助做决策,而至于非常具体的数值其实没有那么必要。

我找到了一个得用标准正态分布做生产决策的一个例子:有一家公司将盐包装在 1 公斤装的袋子中。生产部门抽样,称了一些样品的重量,得到了一些重量数据。
1007g, 1032g, 1002g, 983g, 1004g, …
他们计算平均值为1010g,标准差为20g。根据测量的数据,画了以下正态分布图。
请添加图片描述
由上图我们可知,有31%袋子装了盐是小于1000g的。这是一个不好的信号,必须要改进。袋子装多少盐是一个很随机的事件,但是是有办法减少这种缺斤少两的情况的。

企业做了如下思考:

  • 如果将1000g放在-3个标准差处,那就意味着只有0.1%甚至更少的袋子是装了少于1000g的,但是这可能有些困难的,几乎就是要保证100%的袋子都不小1000g
  • 如果将1000g放在-2.5个标准差处,因为在3个标准差以外的部分占比约0.1%,3到2.5之间是0.5%,所以加在一起是0.6%。那就是说只有0.6%的袋子装了少于1000g的盐。

决定了要将1000g放在-2.5个标准差处,那么要怎样做才可以让数据按这个来分布呢(1000g在-2.5 Standard scores处)

  • 增加每一袋子的盐量(这是通过改变平均值来实现的)
  • 或者让每袋子的盐量装得更精确些(恰是1000g,这是通过减少标准差来实现的。)

方案一:如果是通过增加每一袋子的盐量,以此增大平均值,使用-2.5个标准差处是1000g,因为标准差是20g,所以需要2.5 x 20 = 50g,所以平均值是1050g才能保证-2.5个标准差处是1000g,调整过后的正态分布如下:
请添加图片描述
方案二:如果我们想保持当前的平均值1010g,那么我们可以通过减少标准差,也就是提高装盐量的精确度,-2.5个标准差处是1000g,与平均值1010g相差10g,10g/2.5=4g,即标准差为4g,就能够保证平均值(1010g)不变,同时使-2.5个标准差处是1000g。调整过后的正态分布如下:
请添加图片描述
方案三:当然我们也可以适当调高平均值,也适当减少标准差来实现。就是前两个方案的融合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1851834.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM专题六:JVM的内存模型

前面我们通过Java是如何编译、JVM的类加载机制、JVM类加载器与双亲委派机制等内容了解到了如何从我们编写的一个.Java 文件最终加载到JVM里的,今天我们就来剖析一下这个Java的‘中介平台’JVM里面到底长成啥样。 JVM的内存区域划分 Java虚拟机(JVM&…

浙江工商大学24计算机考研数据,好几个专业都接收调剂,计专复试线284分!

浙江工商大学(Zhejiang Gongshang University),简称“浙商大”(ZJSU),坐落于浙江省杭州市,是中华人民共和国教育部、中华人民共和国商务部和浙江省人民政府共建的浙江省重点建设高校&#xff0c…

代理的匿名级别有哪些?为什么匿名性很重要?

在互联网时代,代理服务器在许多领域都扮演着重要的角色。无论是个人用户还是企业,都可能需要使用代理来保护自己的隐私和数据安全。在选择代理服务时,匿名级别是一个重要的考虑因素。本文将介绍代理的匿名级别,并解释为什么匿名性…

Tampermonkey油猴 跨域请求下载图片示例

Tampermonkey油猴 跨域请求下载图片示例 前言项目目标网站代码编写 运行效果 前言 需要用油猴采集并下载一个网站的图片,直接下下不了,搜了一下,是禁止跨域,使用CORS Unblock也不行,所以使用油猴自带的GM_xmlhttpRequ…

35 - 最后一个能进入巴士的人(高频 SQL 50 题基础版)

35 - 最后一个能进入巴士的人 -- sum(weight) over(order by turn) as total,根据turn升序&#xff0c;再求前面数的和 selectperson_name from(selectperson_name,sum(weight) over(order by turn) as totalfromQueue) new_Queue wheretotal<1000 order by total desc lim…

四川汇聚荣科技有限公司靠谱吗?

在如今这个信息爆炸的时代&#xff0c;了解一家公司是否靠谱对于消费者和合作伙伴来说至关重要。四川汇聚荣科技有限公司作为一家位于中国西部地区的企业&#xff0c;自然也受到了人们的关注。那么&#xff0c;这家公司究竟如何呢?接下来&#xff0c;我们将从多个角度进行深入…

高考填报志愿(选专业),怎样找准自己的兴趣?

在很多的高考报考指南中&#xff0c;第一要点&#xff0c;都会建议我们根据自己的兴趣来选择自己的专业。很多人虽然是依据这条规则&#xff0c;选择了自己大学的专业。却依然在学习的过程中发现&#xff0c;好像自己对这个专业并不是那么的有兴趣。 甚至对专业学习深入了解之…

2-13 基于matlab的电力负荷预测

基于matlab的电力负荷预测&#xff0c;论文阐述了负荷预测的应用研究现状&#xff0c;概括了负荷预测的特点及其影响因素&#xff0c;归纳了短期负荷预测的常用方法&#xff0c;并分析了各种方法的优劣&#xff1b;采用最小二乘支持向量机&#xff08;LSSVM&#xff09;模型&am…

web中间件漏洞-Redis漏洞未授权访问漏洞-写webshell、写ssh公钥

web中间件漏洞-Redis漏洞未授权访问漏洞 利用redis未授权访问漏洞写webshell 利用redis未授权访问、攻击机向服务器写入webshell 从服务器查看写入的webshell 菜刀连接 利用redis未授权访问漏洞写ssh公钥 kali生成rsa公私钥对 ssh-keygen -t rsa 将公钥id_rsa.pub写入文…

pytets测试框架中如果需要运行多个测试套件时pytest.ini文件设置

pytets测试框架中如果需要运行多个测试套件时pytest.ini文件设置方法 testpaths testcases/fenmi testcases/weixin testcases/Zgen

【物联网】室内定位技术及定位方式简介

目录 一、概述 二、常用的室内定位技术 2.1 WIFI技术 2.2 UWB超宽带 2.3 蓝牙BLE 2.4 ZigBee技术 2.5 RFID技术 三、常用的室内定位方式 3.1 信号到达时间 3.2 信号到达时间差 3.3 信号到达角 3.4 接收信号强度 一、概述 GPS是目前应用最广泛的定位技术&#xff0…

DVWA 靶场 CSP Bypass 通关解析

前言 DVWA代表Damn Vulnerable Web Application&#xff0c;是一个用于学习和练习Web应用程序漏洞的开源漏洞应用程序。它被设计成一个易于安装和配置的漏洞应用程序&#xff0c;旨在帮助安全专业人员和爱好者了解和熟悉不同类型的Web应用程序漏洞。 DVWA提供了一系列的漏洞场…

【Excel经验】字符串处理方法

概览-公式汇总 序号公式功能公式公式示例公式说明1把多列内容拼接在一起&#xff0c;作为新的一列的内容CONCATENATE (text1,text2,…)CONCATENATE(A2,“#”,B2,“”,C2)用于根据多个列的内容拼成我们指定格式的内容&#xff0c;拼接的内容通常来源于原始数据&#xff0c;同时…

若电路板上的二极管损坏后怎么确定型号呢?

若电路板上的二极管损坏后&#xff0c;还可以看清原来管子的型号&#xff0c;换用一个同型号的二极管即可。若看不清型号或管子未标注型号&#xff0c;一般可以根据该二极管在电路中的作用来代换。电路板上的二极管坏了&#xff0c;如何确定它的型号&#xff1f;。 一般来说看…

【vue3|第12期】Vue3的Props详解:组件通信

日期&#xff1a;2024年6月19日 作者&#xff1a;Commas 签名&#xff1a;(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释&#xff1a;如果您觉得有所帮助&#xff0c;帮忙点个赞&#xff0c;也可以关注我&#xff0c;我们一起成长&#xff1b;如果有不对的地方&#xf…

SpringBoot开发实用篇(一)

一&#xff1a;热部署 1&#xff1a;手工启动热部署 关于热部署 重启&#xff08;Restart&#xff09;:自定义开发代码&#xff0c;包含类、页面、配置文件等&#xff0c;加载位置restart类加载器重载&#xff08;Reload&#xff09;:jar包&#xff0c;加载位置base类加载器…

阿里云发送验证码流程

目录 1. 阿里云短信服务简介 2. 阿里云验证码发送流程 2.1 申请阿里云短信服务 2.2 短信模板及阿里云秘钥 1.开发者可以在自己的应用程序中集成短信发送功能。绑定发起测试的手机号&#xff0c;需要绑定的手机号才能成功发送验证码&#xff0c;其他的用户手机号发送的验…

统信UOS 安装二级制版MySQL8.4

统信UOS 安装二级制版MySQL8.4 建立MySQL用户和用户组 sudo groupadd mysqlsudo useradd -r -g mysql -s /bin/false mysql下载MySQL安装包 wget https://cdn.mysql.com//Downloads/MySQL-8.4/mysql-8.4.0-linux-glibc2.28-x86_64.tar.xz解压缩MySQL安装包 sudo tar -xvf m…

nginx架构基本数据结构配置模块请求详解

初探nginx架构 众所周知&#xff0c;nginx性能高&#xff0c;而nginx的高性能与其架构是分不开的。那么nginx究竟是怎么样的呢&#xff1f;这一节我们先来初识一下nginx框架吧。 nginx在启动后&#xff0c;在unix系统中会以daemon的方式在后台运行&#xff0c;后台进程包含一…

鸿蒙 HarmonyOS NEXT星河版APP应用开发—上篇

一、鸿蒙开发环境搭建 DevEco Studio安装 下载 访问官网&#xff1a;https://developer.huawei.com/consumer/cn/deveco-studio/选择操作系统版本后并注册登录华为账号既可下载安装包 安装 建议&#xff1a;软件和依赖安装目录不要使用中文字符软件安装包下载完成后&#xff0…