什么是极大似然估计

news2024/10/3 2:15:52

极大似然估计（Maximum Likelihood Estimation, MLE） 是一种统计方法，用于从数据中估计模型参数。它的核心思想是选择那些使得观测数据最可能发生的参数值。换句话说，MLE 寻找能够最大化数据在给定模型下出现的概率（即似然函数）的参数。

假设我们有一个参数为 $\theta$ 的概率分布模型，比如正态分布、伯努利分布等，数据集由 $n$ 个样本 $x_1, x_2, \dots, x_n$ 组成。极大似然估计的目标是找到参数 $\theta$ ，使得在参数为 $\theta$ 的情况下，这些数据出现的概率最大。

似然函数：
给定观测数据 $x_1, x_2, \dots, x_n$ 和一个参数 $\theta$ ，似然函数 $L(\theta)$ 表示在参数为 $\theta$ 的条件下，观测数据的联合概率。对于独立同分布（i.i.d.）的数据，似然函数可以写作：
$L(\theta) = P(x_1, x_2, \dots, x_n | \theta) = \prod_{i=1}^n P(x_i | \theta)$

这里， $P(x_i | \theta)$ 表示在给定参数 $\theta$ 的情况下，数据 $x_i$ 的概率或概率密度。
极大化似然函数：
我们的目标是找到参数 $\theta$ ，使得似然函数 $L(\theta)$ 达到最大值。由于乘法计算可能导致数值上的不稳定性，通常我们会取对数，并最大化对数似然函数（log-likelihood function）：
$\ell(\theta) = \log L(\theta) = \sum_{i=1}^n \log P(x_i | \theta)$

这样可以简化计算并避免数值问题。
极大似然估计：
我们通过求解以下方程来找到参数 $\theta$ ：
$\hat{\theta} = \arg \max_{\theta} \ell(\theta)$

这就是极大似然估计的核心思想：找到使对数似然函数最大的参数 $\hat{\theta}$ 。

假设我们有一个二元随机变量 $X$ ，它服从伯努利分布，参数为 $p$ （即 $X$ 可能取值为 1 的概率）。我们有一个样本数据集 $x_1, x_2, \dots, x_n$ ，其中每个 $x_i$ 都是 0 或 1。我们希望估计参数 $p$ ，使得这些数据出现的可能性最大。

伯努利分布的概率质量函数为：
$P(X = x_i | p) = p^{x_i} (1 - p)^{1 - x_i}$
似然函数为：
$\prod_{i=1}^n p^{x_i} (1 - p)^{1 - x_i}$
对数似然函数为：
$\ell(p) = \sum_{i=1}^n \left( x_i \log p + (1 - x_i) \log (1 - p) \right)$
我们对 $p$ 求导，并令导数为 0 来求极大值：
$\frac{d\ell(p)}{dp} = \frac{\sum_{i=1}^n x_i}{p} - \frac{\sum_{i=1}^n (1 - x_i)}{1 - p} = 0$
通过解这个方程，我们可以得到：
$\hat{p} = \frac{\sum_{i=1}^n x_i}{n}$

这意味着 $p$ 的极大似然估计值是样本中 1 的比例，即 $p$ 的估计值是样本中 1 出现的频率。
本示例更加详细的求解过程

假设我们有一个样本数据集 $x_1, x_2, \dots, x_n$ ，它们来自一个正态分布 $N(\mu, \sigma^2)$ ，我们希望估计正态分布的参数 $\mu$ 和 $\sigma^2$ 。

正态分布的概率密度函数为：
$f(x_i | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)$
似然函数为：
$L(\mu, \sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)$
对数似然函数为：
$\ell(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi) - \frac{n}{2} \log(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2$
分别对 $\mu$ 和 $\sigma^2$ 求导，令导数为 0：
- 对 $\mu$ ：
  $\frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu) = 0$
  
  解这个方程可得：
  $\hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i$
  
  也就是说， $\mu$ 的极大似然估计值是样本的均值。
- 对 $\sigma^2$ ：
  $\frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n (x_i - \mu)^2 = 0$
  
  解这个方程可得：
  $\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \hat{\mu})^2$
  
  也就是说， $\sigma^2$ 的极大似然估计值是样本的方差。
  本示例更加详细的求解过程