二项分布详解：从基础到应用

news2026/2/16 9:14:03

二项分布详解：从基础到应用

引言

概率论中，二项分布是最基础也是最常用的离散概率分布之一。它描述了在固定次数的独立重复试验中，成功次数的概率分布。从抛硬币到质量控制，从生物实验到网络安全，二项分布的应用无处不在。

二项分布的定义

伯努利试验

在介绍二项分布前，我们需要先明确伯努利试验（Bernoulli trial）的概念：

每次试验只有两种可能结果：成功或失败
每次试验成功的概率为p，保持不变
各次试验之间相互独立

二项分布定义

当我们进行n次独立同分布的伯努利试验，并记录成功的次数X，则随机变量X服从二项分布，记为：

$\sim B(n,p)$

其中：

n表示试验次数（正整数）
p表示单次试验成功概率（0≤p≤1）
X表示n次试验中成功的次数

概率质量函数及其证明

PMF公式

若随机变量X服从参数为(n,p)的二项分布，则其概率质量函数为：

$\binom{n}{k} p^k (1-p)^{n-k}, \quad k=0,1,2,...,n$

其中 $\binom{n}{k} = \frac{n!}{k!(n-k)!}$ 是组合数，表示从n个位置中选择k个位置的方法数。

证明过程

我们可以从以下角度进行证明：

问题模型化：在n次伯努利试验中，我们关心恰好获得k次成功的概率。
单一序列概率：考虑一个特定序列，比如"成功,失败,成功,…,失败"，其中恰好有k次成功和(n-k)次失败。该特定序列出现的概率是：
$p^k \cdot (1-p)^{n-k}$
序列计数：对于n次试验，有多少种不同的序列恰好包含k次成功？
- 这等价于从n个位置中选择k个位置放置"成功"的结果
- 方法数为组合数 $\binom{n}{k}$
总概率计算：根据乘法原理，恰好有k次成功的概率等于：
$\binom{n}{k} p^k (1-p)^{n-k}$

这就是二项分布的概率质量函数。

期望与方差推导

期望

二项分布 $B (n, p)$ 的期望为：

$E (X) = n p$

证明：

我们可以将X表示为n个伯努利随机变量的和：

$X = X_1 + X_2 + ... + X_n$

其中 $X_i$ 表示第i次试验的结果（成功为1，失败为0）。

由于 $E(X_i) = p$ 且期望具有线性性质，所以：

$E(X) = E(X_1 + X_2 + ... + X_n) = E(X_1) + E(X_2) + ... + E(X_n) = np$

方差

二项分布 $B (n, p)$ 的方差为：

$Va r (X) = n p (1 - p)$

证明：

同样，将X表示为n个伯努利随机变量的和：

$X = X_1 + X_2 + ... + X_n$

由于各 $X_i$ 相互独立，且 $Var(X_i) = p(1-p)$ ，我们有：

$Var(X) = Var(X_1 + X_2 + ... + X_n) = Var(X_1) + Var(X_2) + ... + Var(X_n) = np(1-p)$

二项分布的重要性质

1. 可加性

如果 $\sim B(n,p)$ 且 $\sim B(m,p)$ ，并且X与Y独立，则 $\sim B(n+m,p)$ 。

2. 对称性

当 $p = 0.5$ 时，二项分布关于 $\frac{n}{2}$ 对称，即 $P (X = k) = P (X = n - k)$ 。

3. 递推公式

对于概率质量函数，存在以下递推关系：

$\cdot \frac{p}{1-p} \cdot \frac{n-k}{k+1}$

4. 最可能值（众数）

二项分布 $B (n, p)$ 的众数为：

当 $(n + 1) p$ 不是整数时，众数为 $\lfloor (n+1)p \rfloor$
当 $(n + 1) p$ 是整数时，众数有两个： $(n + 1) p - 1$ 和 $(n + 1) p$

5. 分布函数

二项分布的累积分布函数为：

$\leq k) = \sum_{i=0}^{\lfloor k \rfloor} \binom{n}{i} p^i (1-p)^{n-i}$

常见应用场景

质量控制：在抽样检验中，检测n个产品中不合格品的数量。
医学试验：在n个患者中，有多少人对某种治疗方法有反应。
市场调查：在n个受访者中，有多少人愿意购买新产品。
网络安全：n次入侵尝试中，成功突破防御的次数。
金融风险：n个投资项目中，盈利项目的数量。

实例分析

例1：硬币投掷

投掷10次公平硬币，恰好出现6次正面的概率为：

$\binom{10}{6} (0.5)^6 (0.5)^4 = 210 \cdot (0.5)^{10} = 210 \cdot \frac{1}{1024} \approx 0.205$

例2：生产质量

某产品的不良率为3%，随机抽查50件产品，恰好发现2件不良品的概率为：

$\binom{50}{2} (0.03)^2 (0.97)^{48} \approx 0.228$

与其他分布的关系

泊松近似

当n很大且p很小，使得np保持适中时，二项分布可以用参数λ=np的泊松分布近似：

$\approx \frac{e^{-\lambda}\lambda^k}{k!}$

正态近似

根据中心极限定理，当n足够大时，二项分布可以用正态分布近似：

$\approx N(np, np(1-p))$

通常当 $n p > 5$ 且 $n (1 - p) > 5$ 时，这种近似效果较好。

知识梳理

下面通过思维导图来梳理二项分布的核心知识点：

flowchart TD
    A[二项分布 B(n,p)]
    
    A --> B[定义与参数]
    B --> B1[n: 试验次数]
    B --> B2[p: 成功概率]
    B --> B3[X: 成功次数]
    
    A --> C[概率质量函数]
    C --> C1["P(X=k) = C(n,k) * p^k * (1-p)^(n-k)"]
    
    A --> D[数字特征]
    D --> D1[期望: E(X) = np]
    D --> D2[方差: Var(X) = np(1-p)]
    D --> D3[标准差: σ = √(np(1-p))]
    
    A --> E[重要性质]
    E --> E1[可加性]
    E --> E2[对称性]
    E --> E3[递推公式]
    E --> E4[众数]
    
    A --> F[应用场景]
    F --> F1[质量控制]
    F --> F2[医学试验]
    F --> F3[金融风险]
    F --> F4[市场调查]
    
    A --> G[近似]
    G --> G1[泊松近似]
    G --> G2[正态近似]
    
    A --> H[特殊情况]
    H --> H1[p=0时退化为常数0]
    H --> H2[p=1时退化为常数n]
    H --> H3[n=1时退化为伯努利分布]