正态分布(Normal Distribution)和中心极限定理(Central Limit Theorem, CLT) 是统计学中非常重要的概念,它们广泛应用于概率论、数据分析、机器学习等领域。以下将详细解释这两个概念及其关系。
1. 正态分布(Normal Distribution)
a. 定义
正态分布,也称为高斯分布,是一种非常常见的连续概率分布,用于描述许多自然现象和测量数据。它的概率密度函数(PDF)呈现典型的钟形曲线,具有对称性。
正态分布的数学表达式为:
f ( x ) = 1 σ 2 π exp ( − ( x − μ ) 2 2 σ 2 ) f(x) = \frac{1}{\sigma \sqrt{2 \pi}} \exp \left( -\frac{(x - \mu)^2}{2 \sigma^2} \right) f(x)=σ2π1exp(−2σ2(x−μ)2)
其中:
- x x x 是随机变量。
- μ \mu μ 是均值,表示分布的中心位置。
- σ \sigma σ 是标准差,表示分布的离散程度或宽度。
- σ 2 \sigma^2 σ2 是方差,方差越大,分布越宽。
b. 正态分布的特性
正态分布有几个重要的特性:
- 对称性:正态分布是关于其均值 μ \mu μ 对称的。也就是说,分布的左右两边是镜像的。
- 均值、中位数、众数相等:对于正态分布,均值 μ \mu μ、中位数和众数是相同的,且位于分布的中心。
- 68-95-99.7 规则(68-95-99.7 Rule):在正态分布中,大约 68% 的数据落在均值 μ \mu μ 的 ± 1 σ \pm 1\sigma ±1σ 范围内,95% 的数据落在 ± 2 σ \pm 2\sigma ±2σ 范围内,99.7% 的数据落在 ± 3 σ \pm 3\sigma ±3σ 范围内。
c. 图例
下图是一个班级的学生的 SAT 成绩。数据遵循正态分布,平均分数(M)为 1150,标准差(SD)为 150。
根据经验法则:
- 大约 68% 的分数在 1000 到 1300 之间,分别是均值上下 1 个标准差。
- 大约 95% 的分数在 850 到 1450 之间,分别是均值上下 2 个标准差。
- 大约 99.7% 的分数在 700 到 1600 之间,分别是均值上下 3 个标准差。
图片来源:https://www.scribbr.com/statistics/normal-distribution/
d. 正态分布的例子
正态分布广泛存在于自然现象和测量数据中。常见的例子包括:
- 身高:人的身高在一个群体内通常呈现正态分布,平均身高在分布的中心,离均值越远的人数越少。
- 考试成绩:在某些考试中,学生的成绩往往呈现正态分布,大部分学生的成绩集中在平均值附近。
- 测量误差:科学实验中的测量误差通常服从正态分布,因为误差通常是由许多微小、独立的因素共同作用的结果。
e. 标准正态分布
当正态分布的均值 μ = 0 \mu = 0 μ=0,标准差 σ = 1 \sigma = 1 σ=1 时,它被称为标准正态分布,其概率密度函数为:
f ( x ) = 1 2 π exp ( − x 2 2 ) f(x) = \frac{1}{\sqrt{2 \pi}} \exp \left( -\frac{x^2}{2} \right) f(x)=2π1exp(−2x2)
标准正态分布是所有正态分布的基准,通过标准化过程,任何正态分布都可以转化为标准正态分布。
标准化公式:
z = x − μ σ z = \frac{x - \mu}{\sigma} z=σx−μ
其中 z z z 是标准正态分布中的标准分数(z 分数),它表示某个值 x x x 在原分布中与均值 μ \mu μ 的距离,用标准差 σ \sigma σ 表示。
2. 中心极限定理(Central Limit Theorem, CLT)
a. 定义
中心极限定理是统计学中一个非常重要的定理,它表明:当从任意分布的总体中抽取足够多的独立随机样本时,这些样本的均值分布将近似服从正态分布,即使原始数据的分布并不是正态分布。
更正式地说,如果 X 1 , X 2 , … , X n X_1, X_2, \dots, X_n X1,X2,…,Xn 是来自某个总体的独立同分布(i.i.d.)随机变量,且该总体的期望为 E ( X ) = μ E(X) = \mu E(X)=μ,方差为 V a r ( X ) = σ 2 Var(X) = \sigma^2 Var(X)=σ2,那么当样本数 n n n 足够大时,样本均值 X ‾ n \overline{X}_n Xn 的分布接近正态分布,具体表现为:
X ‾ n − μ σ / n → N ( 0 , 1 ) \frac{\overline{X}_n - \mu}{\sigma / \sqrt{n}} \to N(0, 1) σ/nXn−μ→N(0,1)
其中:
- X ‾ n = 1 n ∑ i = 1 n X i \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i Xn=n1∑i=1nXi 是样本均值。
- μ \mu μ 是总体的均值。
- σ 2 \sigma^2 σ2 是总体的方差。
- N ( 0 , 1 ) N(0, 1) N(0,1) 表示标准正态分布。
b. 中心极限定理的解释
中心极限定理的核心思想是:无论总体的分布是什么,当样本量足够大时,样本均值的分布总是接近正态分布。这意味着即使总体分布不是正态分布,样本均值仍然会趋于正态分布。这就是为什么正态分布在数据分析和统计推断中如此重要的原因。
c. 中心极限定理的关键点
- 样本量足够大:中心极限定理要求样本量 n n n 足够大,通常认为 n ≥ 30 n \geq 30 n≥30 是一个经验标准。在某些情况下,样本量可以更小,如果总体分布相对对称。
- 独立性:样本必须是独立的。中心极限定理要求抽样必须是独立的,即每个样本之间没有影响。
- 相同分布:样本必须来自相同的分布(独立同分布),即每个样本都来自同一个总体。
d. 中心极限定理的应用
中心极限定理的一个重要应用是它为统计推断提供了理论基础。特别是,它允许我们在处理未知分布的数据时使用正态分布来进行近似估计,从而推导出各种统计推断方法,如置信区间和假设检验。
-
置信区间:在统计推断中,我们可以根据样本均值的分布来构建总体均值的置信区间。由于中心极限定理,样本均值服从正态分布,因此我们可以利用正态分布来构建置信区间。
-
假设检验:中心极限定理也为假设检验提供了基础。在假设检验中,样本均值的分布可以近似为正态分布,因此可以使用正态分布来计算检验统计量。
e. 例子
假设我们想要估计一个大城市的平均年收入,知道这个城市的收入分布并不是正态的(例如,可能是偏斜的)。然而,中心极限定理告诉我们,尽管总体分布不是正态的,只要我们从中抽取足够多的样本(例如 100 人的样本),那么这些样本的均值将近似服从正态分布。因此,我们可以利用正态分布的性质来对城市的平均收入进行推断。
3. 正态分布与中心极限定理的关系
正态分布和中心极限定理是密切相关的概念。正态分布是一种常见的分布,许多自然现象都近似服从正态分布。中心极限定理则是统计学的一个重要定理,它解释了为什么正态分布如此普遍。
通过中心极限定理,我们可以理解,即使总体分布不是正态分布,只要我们抽取足够多的样本,样本均值的分布仍然会趋向于正态分布。这一结论为我们使用正态分布进行统计推断提供了坚实的理论基础。
4. 总结
- 正态分布:是一种常见的连续概率分布,呈钟形曲线,对称,广泛用于描述自然现象中的数据。
- 中心极限定理:表明无论总体分布如何,当样本量足够大时,样本均值的分布总是接近正态分布。这为我们使用正态分布进行统计推断提供了理论支持。
正态分布与中心极限定理在数据分析和机器学习中都有重要应用,尤其是在进行统计推断、假设检验、构建置信区间等方面,是基础且常用的工具。