【AI知识点】正态分布(高斯分布)和中心极限定理(CLT)

news2024/10/5 20:35:19

正态分布(Normal Distribution)中心极限定理(Central Limit Theorem, CLT) 是统计学中非常重要的概念,它们广泛应用于概率论、数据分析、机器学习等领域。以下将详细解释这两个概念及其关系。

1. 正态分布(Normal Distribution)

a. 定义

正态分布,也称为高斯分布,是一种非常常见的连续概率分布,用于描述许多自然现象和测量数据。它的概率密度函数(PDF)呈现典型的钟形曲线,具有对称性。

正态分布的数学表达式为:

f ( x ) = 1 σ 2 π exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) f(x) = \frac{1}{\sigma \sqrt{2 \pi}} \exp \left( -\frac{(x - \mu)^2}{2 \sigma^2} \right) f(x)=σ2π 1exp(2σ2(xμ)2)

其中:

  • x x x 是随机变量。
  • μ \mu μ均值,表示分布的中心位置。
  • σ \sigma σ标准差,表示分布的离散程度或宽度。
  • σ 2 \sigma^2 σ2方差,方差越大,分布越宽。

b. 正态分布的特性

正态分布有几个重要的特性:

  • 对称性:正态分布是关于其均值 μ \mu μ 对称的。也就是说,分布的左右两边是镜像的。
  • 均值、中位数、众数相等:对于正态分布,均值 μ \mu μ、中位数和众数是相同的,且位于分布的中心。
  • 68-95-99.7 规则(68-95-99.7 Rule):在正态分布中,大约 68% 的数据落在均值 μ \mu μ ± 1 σ \pm 1\sigma ±1σ 范围内,95% 的数据落在 ± 2 σ \pm 2\sigma ±2σ 范围内,99.7% 的数据落在 ± 3 σ \pm 3\sigma ±3σ 范围内。

c. 图例

下图是一个班级的学生的 SAT 成绩。数据遵循正态分布,平均分数(M)为 1150,标准差(SD)为 150。

根据经验法则:

  • 大约 68% 的分数在 1000 到 1300 之间,分别是均值上下 1 个标准差。
  • 大约 95% 的分数在 850 到 1450 之间,分别是均值上下 2 个标准差。
  • 大约 99.7% 的分数在 700 到 1600 之间,分别是均值上下 3 个标准差。

在这里插入图片描述
图片来源:https://www.scribbr.com/statistics/normal-distribution/

d. 正态分布的例子

正态分布广泛存在于自然现象和测量数据中。常见的例子包括:

  • 身高:人的身高在一个群体内通常呈现正态分布,平均身高在分布的中心,离均值越远的人数越少。
  • 考试成绩:在某些考试中,学生的成绩往往呈现正态分布,大部分学生的成绩集中在平均值附近。
  • 测量误差:科学实验中的测量误差通常服从正态分布,因为误差通常是由许多微小、独立的因素共同作用的结果。

e. 标准正态分布

当正态分布的均值 μ = 0 \mu = 0 μ=0,标准差 σ = 1 \sigma = 1 σ=1 时,它被称为标准正态分布,其概率密度函数为:

f ( x ) = 1 2 π exp ⁡ ( − x 2 2 ) f(x) = \frac{1}{\sqrt{2 \pi}} \exp \left( -\frac{x^2}{2} \right) f(x)=2π 1exp(2x2)

标准正态分布是所有正态分布的基准,通过标准化过程,任何正态分布都可以转化为标准正态分布。

标准化公式:

z = x − μ σ z = \frac{x - \mu}{\sigma} z=σxμ

其中 z z z 是标准正态分布中的标准分数(z 分数),它表示某个值 x x x 在原分布中与均值 μ \mu μ 的距离,用标准差 σ \sigma σ 表示。


2. 中心极限定理(Central Limit Theorem, CLT)

a. 定义

中心极限定理是统计学中一个非常重要的定理,它表明:当从任意分布的总体中抽取足够多的独立随机样本时,这些样本的均值分布将近似服从正态分布,即使原始数据的分布并不是正态分布。

更正式地说,如果 X 1 , X 2 , … , X n X_1, X_2, \dots, X_n X1,X2,,Xn 是来自某个总体的独立同分布(i.i.d.)随机变量,且该总体的期望为 E ( X ) = μ E(X) = \mu E(X)=μ,方差为 V a r ( X ) = σ 2 Var(X) = \sigma^2 Var(X)=σ2,那么当样本数 n n n 足够大时,样本均值 X ‾ n \overline{X}_n Xn 的分布接近正态分布,具体表现为:

X ‾ n − μ σ / n → N ( 0 , 1 ) \frac{\overline{X}_n - \mu}{\sigma / \sqrt{n}} \to N(0, 1) σ/n XnμN(0,1)

其中:

  • X ‾ n = 1 n ∑ i = 1 n X i \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i Xn=n1i=1nXi 是样本均值。
  • μ \mu μ 是总体的均值。
  • σ 2 \sigma^2 σ2 是总体的方差。
  • N ( 0 , 1 ) N(0, 1) N(0,1) 表示标准正态分布。

b. 中心极限定理的解释

中心极限定理的核心思想是:无论总体的分布是什么,当样本量足够大时,样本均值的分布总是接近正态分布。这意味着即使总体分布不是正态分布,样本均值仍然会趋于正态分布。这就是为什么正态分布在数据分析和统计推断中如此重要的原因。

c. 中心极限定理的关键点

  • 样本量足够大:中心极限定理要求样本量 n n n 足够大,通常认为 n ≥ 30 n \geq 30 n30 是一个经验标准。在某些情况下,样本量可以更小,如果总体分布相对对称。
  • 独立性:样本必须是独立的。中心极限定理要求抽样必须是独立的,即每个样本之间没有影响。
  • 相同分布:样本必须来自相同的分布(独立同分布),即每个样本都来自同一个总体。

d. 中心极限定理的应用

中心极限定理的一个重要应用是它为统计推断提供了理论基础。特别是,它允许我们在处理未知分布的数据时使用正态分布来进行近似估计,从而推导出各种统计推断方法,如置信区间假设检验

  • 置信区间:在统计推断中,我们可以根据样本均值的分布来构建总体均值的置信区间。由于中心极限定理,样本均值服从正态分布,因此我们可以利用正态分布来构建置信区间。

  • 假设检验:中心极限定理也为假设检验提供了基础。在假设检验中,样本均值的分布可以近似为正态分布,因此可以使用正态分布来计算检验统计量。

e. 例子

假设我们想要估计一个大城市的平均年收入,知道这个城市的收入分布并不是正态的(例如,可能是偏斜的)。然而,中心极限定理告诉我们,尽管总体分布不是正态的,只要我们从中抽取足够多的样本(例如 100 人的样本),那么这些样本的均值将近似服从正态分布。因此,我们可以利用正态分布的性质来对城市的平均收入进行推断。


3. 正态分布与中心极限定理的关系

正态分布中心极限定理是密切相关的概念。正态分布是一种常见的分布,许多自然现象都近似服从正态分布。中心极限定理则是统计学的一个重要定理,它解释了为什么正态分布如此普遍。

通过中心极限定理,我们可以理解,即使总体分布不是正态分布,只要我们抽取足够多的样本,样本均值的分布仍然会趋向于正态分布。这一结论为我们使用正态分布进行统计推断提供了坚实的理论基础。


4. 总结

  • 正态分布:是一种常见的连续概率分布,呈钟形曲线,对称,广泛用于描述自然现象中的数据。
  • 中心极限定理:表明无论总体分布如何,当样本量足够大时,样本均值的分布总是接近正态分布。这为我们使用正态分布进行统计推断提供了理论支持。

正态分布与中心极限定理在数据分析和机器学习中都有重要应用,尤其是在进行统计推断、假设检验、构建置信区间等方面,是基础且常用的工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2190483.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++】入门基础介绍(上)C++的发展历史与命名空间

文章目录 1. 前言2. C发展历史2. 1 C版本更新特性一览2. 2 关于C23的一个小故事: 3. C的重要性3. 1 编程语言排行榜3. 2 C在工作领域中的应用 4. C学习建议和书籍推荐4. 1 C学习难度4. 2 学习书籍推荐 5. C的第一个程序6. 命名空间6. 1 namespace的价值6. 2 namespace的定义6. …

《CUDA编程》4.CUDA程序的错误检测

在编写CUDA程序时,有的错误在编译过程中被发现,称为编译错误,有的在运行时出现,称为运行时刻错误,本章讨论如何排查运行时刻错误 1 一个检测CUDA运行时错误的宏函数 1.1 编写错误检查宏函数 在《CUDA编程》3.简单CUD…

从0到1:培训机构排课小程序开发笔记一

业务调研 随着人们生活水平的提高,健康意识和学习需求日益增强,私教、健身和培训机构的市场需求迅速增长。高效的排课系统不仅可以提升机构的管理效率,还能提高学员的满意度。解决传统的排课方式存在的时间冲突、信息不对称、人工操作繁琐等…

51单片机的家用煤气报警系统【proteus仿真+程序+报告+原理图+演示视频】

1、主要功能 该系统由AT89C51/STC89C52单片机LCD1602显示模块温度传感器CO传感器蓝牙LED、蜂鸣器等模块构成。适用于家用天然气泄露报警器、煤气泄露报警器、无线报警等相似项目。 可实现功能: 1、LCD1602实时显示温度和煤气浓度 2、温度传感器DS18B20采集环境温度 3、CO传…

【Mybatis篇】Mybatis的关联映射详细代码带练 (多对多查询、Mybatis缓存机制)

🧸安清h:个人主页 🎥个人专栏:【计算机网络】,【Mybatis篇】 🚦作者简介:一个有趣爱睡觉的intp,期待和更多人分享自己所学知识的真诚大学生。 目录 🎯一.关联映射概述 &#x1f6a…

【BUG】P-tuningv2微调ChatGLM2-6B时所踩的坑

0.前言 P-tuning v2的实验在网上一抓一大把,这里就说一下我在微调过程中遇到的有些bug,踩过的一些坑,在网上找了很久都没有一些好的解决方案,在这里记录一下。 1.下载预训练模型 在官方给出的教程中,并不需要预先将模…

【springboot】简易模块化开发项目整合Swagger2

接上一项目【springboot】简易模块化开发项目整合MyBatis-plus,进行拓展项目 1.新建模块 右键项目→New→Module,新建一个模块 父项目选择fast-demo,命名为fast-demo-config,用于存放所有配置项 添加后,项目结构如图…

X3U·可编程控制器的定位控制

FX3U可编程控制器的定位控制进行说明。 一、概要 FX3U可编程控制器可以向伺服电机、步进电机等输出脉冲信号,从而进行定位控制。 脉冲频率高的时候,电机转得快:脉冲数多的时候,电机转得多。用脉冲频率、脉冲数来设定定位对象…

Linux基本命令及vim应用实训练习

Linux基本命令及vim应用实训练习 1. 2. 3. 4. 5. 使用man cp找出

4 思科模拟器的介绍和使用

4 思科模拟器的介绍和使用 思科的IOS给我们提供了三大模式 设备开机后,进入的模式是【用户模式】 Router表示设备的名称 “>”表示用户模式 在用户模式输入"?" 可列出在用户模式可以使用的命令 第二种模式是特权模式,输入enable进入特权模式&…

RNN经典案例——构建人名分类器

RNN经典案例——人名分类器 一、数据处理1.1 去掉语言中的重音标记1.2 读取数据1.3 构建人名类别与人名对应关系字典1.4 将人名转换为对应的onehot张量 二、构建RNN模型2.1 构建传统RNN模型2.2 构建LSTM模型2.3 构建GRU模型 三、构建训练函数并进行训练3.1 从输出结果中获得指定…

字符和ACSII编码

1.字符和ASCII编码 C语言中char类型,专门用来创建字符变量,字符放在单引号中 char ch a ASCII码表 c官网,最全de c官网链接 数字字符0~9对应ASCII码十进制48~57 字符 大写字母A~Z对应ASCII码十进制65~90 字符 小写字母a~z对应ASCII码…

EtherCAT 转 EtherNet/IP, EtherCAT/Ethernet/IP/Profinet/ModbusTCP协议互转工业串口网关

EtherCAT/Ethernet/IP/Profinet/ModbusTCP协议互转工业串口网关https://item.taobao.com/item.htm?ftt&id822721028899协议转换通信网关 EtherCAT 转 EtherNet/IP GW系列型号 MS-GW12 概述 MS-GW12 是 EtherCAT 和 EtherNet/IP 协议转换网关,为用户提供两…

突发!Meta重磅发布Movie Gen入局视频生成赛道!

引言 Meta于2024年10月4日首次推出 Meta Movie Gen,号称是迄今为止最先进的媒体基础模型。Movie Gen 由 Meta 的 AI 研究团队开发,在一系列功能上获取最先进的效果,包括:文生视频、创建个性化视频、精准的视频编辑和音频创作。 …

递归--C语言

1 递归定义 函数自己调用自己的过程,称为递归。 2 递归的必要条件 1.必须要有终止条件。达到条件就停止递归,退出函数。2.每次调用自己都要越来越接近这个终止条件。 因此写函数的时候,也分两部分 第一部分:写终止条件&#x…

点击按钮提示气泡信息(Toast)

演示效果&#xff1a; 目录结构&#xff1a; activity_main.xml(布局文件)代码&#xff1a; <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"xmlns:app"http:…

【第三版 系统集成项目管理工程师】第15章 组织保障

持续更新。。。。。。。。。。。。。。。 【第三版】第十五章 组织保障 15.1信息和文档管理15.1.1 信息和文档1.信息系统信息-P5462.信息系统文档-P546 15.1.2 信息(文档)管理规则和方法1.信息(文档)编制规范-P5472.信息(文档)定级保护-P5483.信息(文档)配置管理-P549练习 15.…

38 文件包含(标准库头文件、自定义头文件)、相对路径与绝对路径、条件编译(#if、#ifdef、#if define、#ifndef)

目录 1 文件包含 1.1 #include 指令 1.2 包含标准库头文件 1.3 包含自定义头文件 1.3.1 使用相对路径 1.3.2 使用绝对路径 2 条件编译 2.1 #if … #endif 2.1.1 语法格式 2.1.2 功能说明 2.1.3 流程分析 2.1.4 案例演示&#xff1a;#if 0 ... #endif 2.1.5 案例演…

关于懒惰学习与渴求学习的一份介绍

在这篇文章中&#xff0c;我将介绍些懒惰学习与渴求学习的算法例子&#xff0c;会介绍其概念、优缺点以及其python的运用。 一、渴求学习 1.1概念 渴求学习&#xff08;Eager Learning&#xff09;是指在训练阶段构建出复杂的模型&#xff0c;然后在预测阶段运用这个构建出的…

分布式锁--redission 最佳实践!

我们知道如果我们的项目服务不只是一个实例的时候&#xff0c;单体锁就不再适用&#xff0c;而我们自己去用redis实现分布式锁的话&#xff0c;会有比如锁误删、超时释放、锁的重入、失败重试、Redis主从一致性等等一系列的问题需要自己解决。 当然&#xff0c;上述问题并非无…