【AI知识点】正态分布（高斯分布）和中心极限定理（CLT）

news2026/2/14 14:59:37

正态分布（Normal Distribution）和中心极限定理（Central Limit Theorem, CLT） 是统计学中非常重要的概念，它们广泛应用于概率论、数据分析、机器学习等领域。以下将详细解释这两个概念及其关系。

1. 正态分布（Normal Distribution）

a. 定义

正态分布，也称为高斯分布，是一种非常常见的连续概率分布，用于描述许多自然现象和测量数据。它的概率密度函数（PDF）呈现典型的钟形曲线，具有对称性。

正态分布的数学表达式为：

$\frac{1}{\sigma \sqrt{2 \pi}} \exp \left( -\frac{(x - \mu)^2}{2 \sigma^2} \right)$

其中：

$x$ 是随机变量。
$\mu$ 是均值，表示分布的中心位置。
$\sigma$ 是标准差，表示分布的离散程度或宽度。
$\sigma^2$ 是方差，方差越大，分布越宽。

b. 正态分布的特性

正态分布有几个重要的特性：

对称性：正态分布是关于其均值 $\mu$ 对称的。也就是说，分布的左右两边是镜像的。
均值、中位数、众数相等：对于正态分布，均值 $\mu$ 、中位数和众数是相同的，且位于分布的中心。
68-95-99.7 规则（68-95-99.7 Rule）：在正态分布中，大约 68% 的数据落在均值 $\mu$ 的 $±1σ \pm 1\sigma$ 范围内，95% 的数据落在 $±2σ \pm 2\sigma$ 范围内，99.7% 的数据落在 $±3σ \pm 3\sigma$ 范围内。

c. 图例

下图是一个班级的学生的 SAT 成绩。数据遵循正态分布，平均分数（M）为 1150，标准差（SD）为 150。

根据经验法则：

大约 68% 的分数在 1000 到 1300 之间，分别是均值上下 1 个标准差。
大约 95% 的分数在 850 到 1450 之间，分别是均值上下 2 个标准差。
大约 99.7% 的分数在 700 到 1600 之间，分别是均值上下 3 个标准差。

在这里插入图片描述
图片来源：https://www.scribbr.com/statistics/normal-distribution/

d. 正态分布的例子

正态分布广泛存在于自然现象和测量数据中。常见的例子包括：

身高：人的身高在一个群体内通常呈现正态分布，平均身高在分布的中心，离均值越远的人数越少。
考试成绩：在某些考试中，学生的成绩往往呈现正态分布，大部分学生的成绩集中在平均值附近。
测量误差：科学实验中的测量误差通常服从正态分布，因为误差通常是由许多微小、独立的因素共同作用的结果。

e. 标准正态分布

当正态分布的均值 $\mu = 0$ ，标准差 $\sigma = 1$ 时，它被称为标准正态分布，其概率密度函数为：

$\frac{1}{\sqrt{2 \pi}} \exp \left( -\frac{x^2}{2} \right)$

标准正态分布是所有正态分布的基准，通过标准化过程，任何正态分布都可以转化为标准正态分布。

标准化公式：

$\frac{x - \mu}{\sigma}$

其中 $z$ 是标准正态分布中的标准分数（z 分数），它表示某个值 $x$ 在原分布中与均值 $\mu$ 的距离，用标准差 $\sigma$ 表示。

2. 中心极限定理（Central Limit Theorem, CLT）

a. 定义

中心极限定理是统计学中一个非常重要的定理，它表明：当从任意分布的总体中抽取足够多的独立随机样本时，这些样本的均值分布将近似服从正态分布，即使原始数据的分布并不是正态分布。

更正式地说，如果 $X_1, X_2, \dots, X_n$ 是来自某个总体的独立同分布（i.i.d.）随机变量，且该总体的期望为 $\mu$ ，方差为 $\sigma^2$ ，那么当样本数 $n$ 足够大时，样本均值 $\overline{X}_n$ 的分布接近正态分布，具体表现为：

$\frac{\overline{X}_n - \mu}{\sigma / \sqrt{n}} \to N(0, 1)$

其中：

$\overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i$ 是样本均值。
$\mu$ 是总体的均值。
$\sigma^2$ 是总体的方差。
$N (0, 1)$ 表示标准正态分布。

b. 中心极限定理的解释

中心极限定理的核心思想是：无论总体的分布是什么，当样本量足够大时，样本均值的分布总是接近正态分布。这意味着即使总体分布不是正态分布，样本均值仍然会趋于正态分布。这就是为什么正态分布在数据分析和统计推断中如此重要的原因。

c. 中心极限定理的关键点

样本量足够大：中心极限定理要求样本量 $n$ 足够大，通常认为 $\geq 30$ 是一个经验标准。在某些情况下，样本量可以更小，如果总体分布相对对称。
独立性：样本必须是独立的。中心极限定理要求抽样必须是独立的，即每个样本之间没有影响。
相同分布：样本必须来自相同的分布（独立同分布），即每个样本都来自同一个总体。

d. 中心极限定理的应用

中心极限定理的一个重要应用是它为统计推断提供了理论基础。特别是，它允许我们在处理未知分布的数据时使用正态分布来进行近似估计，从而推导出各种统计推断方法，如置信区间和假设检验。

置信区间：在统计推断中，我们可以根据样本均值的分布来构建总体均值的置信区间。由于中心极限定理，样本均值服从正态分布，因此我们可以利用正态分布来构建置信区间。
假设检验：中心极限定理也为假设检验提供了基础。在假设检验中，样本均值的分布可以近似为正态分布，因此可以使用正态分布来计算检验统计量。

e. 例子

假设我们想要估计一个大城市的平均年收入，知道这个城市的收入分布并不是正态的（例如，可能是偏斜的）。然而，中心极限定理告诉我们，尽管总体分布不是正态的，只要我们从中抽取足够多的样本（例如 100 人的样本），那么这些样本的均值将近似服从正态分布。因此，我们可以利用正态分布的性质来对城市的平均收入进行推断。