新手村：逻辑回归-理解02：逻辑回归中的伯努利分布

news2025/4/21 20:02:57

新手村：逻辑回归-理解02：逻辑回归中的伯努利分布

在这里插入图片描述

伯努利分布在逻辑回归中的潜在含义及其与后续推导的因果关系

1. 伯努利分布作为逻辑回归的理论基础

⭐️ 逻辑回归的核心目标是:

建模二分类问题中目标变量 $y$ 的概率分布。

伯努利分布（Bernoulli Distribution）是逻辑回归的数学基础，因为它直接描述了二元结果（如“成功”或“失败”）的概率特性：

伯努利分布的定义：

随机变量 $y$ 服从参数为 $p$ 的伯努利分布，即：
$\quad P(y=0) = 1 - p$
其中 $p$ 是事件发生的概率， $0 < p < 1$ 。

逻辑回归的建模目标：

逻辑回归假设

目标变量 $y$ 服从伯努利分布，
且 $p$ （即 $P (y = 1∣ x)$ ）是输入特征 $x$ 的函数。

因此，逻辑回归需要通过输入特征 $x$ 的线性组合来建模 $p$ 。

2. 对数几率(Odds)与线性组合的推导

⭐️ 逻辑回归的核心假设是:
对数几率（Logit）是输入特征的线性组合

⭐️ ⭐️ ⭐️这一假设直接来源于伯努利分布的参数 $p$ 需要被建模为输入特征的函数：

推导

$\because$ ⭐️ 线性模型
$z=w^\top x ;$
$\therefore$ ⭐️ 线性数据通过sigmoid函数转换为概率
$\sigma(z)= \frac{1}{1+e^{-w^\top x}}$

$\therefore$ ⭐️ （Odds）赔率公式

若事件发生的概率为 $ p $，则“发生与不发生的比值”称为（Odds）几率/赔率：

在这里插入图片描述

$\left(\frac{p}{1-p}\right) = \frac{\sigma(z)}{1-\sigma(z)} = \frac{1}{1+e^{-w^\top x}} / \frac{e^{-w^\top x}}{1+e^{-w^\top x}}=\frac{1}{e^{-w^\top x}} = e^{w^\top x}$

$\therefore$ ⭐️（Log Odds）对数几率（赔率）的定义：

这个等式的核心思想是：对数几率是输入特征 $x$ 的线性组合。

$\text{logit}(p) = \ln\left(\frac{p}{1-p}\right) = w^\top x$
其中 $w$ 是权重向量， $x$ 是输入特征。

因果关系：

因为伯努利分布的参数 $p$ 需要满足 $0 < p < 1$ ，而线性组合 $w^\top x$ 的取值范围是 $(-\infty, +\infty)$ ，因此需要通过一个可逆的单调函数将线性组合映射到 $(0, 1)$ 区间，从而得到 $p$ 。

3. Sigmoid函数的引入

Sigmoid函数是这一映射的自然选择，其数学形式为：
$\sigma(w^\top x) = \frac{1}{1 + \exp(-w^\top x)}$

因果关系：
- ⭐️ Sigmoid函数的输出范围恰好是 $(0, 1)$ ，与伯努利分布的概率 $p$ 的取值范围一致。
- ⭐️ Sigmoid函数的导数形式（ $\sigma(z)(1-\sigma(z))$ ）, 在后续的梯度计算中简化了优化过程。
- 在广义线性模型（GLM）框架下，伯努利分布属于指数族分布，其自然参数 $\eta$ 是对数几率 $\log(p/(1-p))$ ，因此连接函数（link function）选择对数几率，直接导致 Sigmoid 函数的使用。

4. 交叉熵损失函数的来源

逻辑回归的损失函数选择交叉熵（Cross-Entropy），而非均方误差（MSE），这一选择与伯努利分布的概率结构直接相关：

⭐️ 伯努利分布的对数似然函数：
对于样本 $x_i, y_i)$ ，其对数似然为：
$log P(y_i | x_i, w) = y_i \log p_i + (1 - y_i)\log(1 - p_i)$
其中 $p_i = \sigma(w^\top x_i)$ 。
⭐️ 最大化对数似然等价于最小化交叉熵损失：
$\text{Loss} = -\frac{1}{N}\sum_{i=1}^N [y_i \log p_i + (1 - y_i)\log(1 - p_i)]$
因果关系：
由于逻辑回归假设 $y$ 服从伯努利分布，因此损失函数必须与该分布的对数似然函数一致。交叉熵直接来源于伯努利分布的概率表达式，而均方误差则忽略了概率的非线性约束，可能导致梯度问题（如预测值接近0或1时梯度趋近于0，收敛缓慢）。

5. 广义线性模型（GLM）的框架

逻辑回归是广义线性模型（GLM）的一个特例，其推导过程严格遵循 GLM 的结构：

GLM 的三个要素：
1. 随机成分：目标变量 $y$ 服从伯努利分布。
2. 系统成分：线性预测器 $\eta = w^\top x$ 。
3. 连接函数：将线性预测器与 $E (y ∣ x)$ （即 $p$ ）联系起来。对于伯努利分布，连接函数选择对数几率函数：
  $\eta = \log\left(\frac{p}{1-p}\right) \quad \Rightarrow \quad p = \sigma(\eta)$
因果关系：
GLM 的框架要求连接函数必须与分布的特性匹配。伯努利分布的方差 $\text{Var}(y) = p(1-p)$ 是均值 $p$ 的函数，因此模型无需估计方差，只需通过线性组合建模均值 $p$ ，从而简化了模型结构。

6. 参数估计与优化

逻辑回归通过最大似然估计（MLE) 求解参数 $w$ ，这一过程依赖于伯努利分布的对数似然函数：

极大似然估计：
$\hat{w} = \arg\max_w \prod_{i=1}^N P(y_i | x_i, w) = \arg\max_w \sum_{i=1}^N [y_i \log p_i + (1 - y_i)\log(1 - p_i)]$
优化方法：
因为对数似然函数是凸函数（在 $w$ 上），梯度下降或牛顿法可以高效求解全局最优解。这一凸性也源于伯努利分布的对数似然的数学性质。

总结：伯努利分布的潜在含义与后续推导的因果关系

伯努利分布的作用	导致的后续推导
1. 建模二分类目标变量 $y$ 的概率分布	→ 线性组合的对数几率假设
2. 参数 $p$ 需满足 $0 < p < 1$	→ 引入 Sigmoid 函数映射到概率空间
3. 对数似然函数的形式	→ 交叉熵作为损失函数的选择
4. 属于指数族分布	→ 在 GLM 框架下自然推导出模型形式
5. 方差与均值的依赖关系	→ 无需估计方差，简化模型参数空间