新手村:逻辑回归-理解02:逻辑回归中的伯努利分布
伯努利分布在逻辑回归中的潜在含义及其与后续推导的因果关系
1. 伯努利分布作为逻辑回归的理论基础
⭐️ 逻辑回归的核心目标是:
建模二分类问题中 目标变量 y y y 的概率分布。
伯努利分布(Bernoulli Distribution)是逻辑回归的数学基础,因为它直接描述了二元结果(如“成功”或“失败”)的概率特性:
伯努利分布的定义:
随机变量 y y y 服从参数为 p p p 的伯努利分布,即:
P ( y = 1 ) = p , P ( y = 0 ) = 1 − p P(y=1) = p, \quad P(y=0) = 1 - p P(y=1)=p,P(y=0)=1−p
其中 p p p 是事件发生的概率, 0 < p < 1 0 < p < 1 0<p<1。
逻辑回归的建模目标:
逻辑回归假设
- 目标变量 y y y 服从伯努利分布,
- 且 p p p(即 P ( y = 1 ∣ x ) P(y=1|x) P(y=1∣x))是输入特征 x x x 的函数。
因此,逻辑回归需要通过输入特征 x x x 的线性组合来建模 p p p。
2. 对数几率(Odds)与线性组合的推导
⭐️ 逻辑回归的核心假设是:
对数几率(Logit)是输入特征的线性组合
⭐️ ⭐️ ⭐️这一假设直接来源于伯努利分布
的参数
p
p
p 需要被建模为输入特征的函数:
推导
∵
\because
∵ ⭐️ 线性模型
z
=
w
⊤
x
;
z=w^\top x ;
z=w⊤x;
∴
\therefore
∴ ⭐️ 线性数据通过sigmoid函数转换为概率
p
=
σ
(
z
)
=
1
1
+
e
−
w
⊤
x
p = \sigma(z)= \frac{1}{1+e^{-w^\top x}}
p=σ(z)=1+e−w⊤x1
∴ \therefore ∴ ⭐️ (Odds)赔率公式
若事件发生的概率为 $ p $,则“发生与不发生的比值”称为
(Odds)几率/赔率
:
O d d s = ( p 1 − p ) = σ ( z ) 1 − σ ( z ) = 1 1 + e − w ⊤ x / e − w ⊤ x 1 + e − w ⊤ x = 1 e − w ⊤ x = e w ⊤ x Odds = \left(\frac{p}{1-p}\right) = \frac{\sigma(z)}{1-\sigma(z)} = \frac{1}{1+e^{-w^\top x}} / \frac{e^{-w^\top x}}{1+e^{-w^\top x}}=\frac{1}{e^{-w^\top x}} = e^{w^\top x} Odds=(1−pp)=1−σ(z)σ(z)=1+e−w⊤x1/1+e−w⊤xe−w⊤x=e−w⊤x1=ew⊤x
∴ \therefore ∴ ⭐️(Log Odds)对数几率(赔率)的定义:
这个等式的核心思想是:对数几率是输入特征 x x x 的线性组合。
logit
(
p
)
=
ln
(
p
1
−
p
)
=
w
⊤
x
\text{logit}(p) = \ln\left(\frac{p}{1-p}\right) = w^\top x
logit(p)=ln(1−pp)=w⊤x
其中
w
w
w 是权重向量,
x
x
x 是输入特征。
因果关系:
因为伯努利分布的参数 p p p 需要满足 0 < p < 1 0 < p < 1 0<p<1,而线性组合 w ⊤ x w^\top x w⊤x 的取值范围是 ( − ∞ , + ∞ ) (-\infty, +\infty) (−∞,+∞),因此需要通过一个可逆的单调函数将线性组合映射到 ( 0 , 1 ) (0,1) (0,1) 区间,从而得到 p p p。
3. Sigmoid函数的引入
Sigmoid函数是这一映射的自然选择,其数学形式为:
p
=
σ
(
w
⊤
x
)
=
1
1
+
exp
(
−
w
⊤
x
)
p = \sigma(w^\top x) = \frac{1}{1 + \exp(-w^\top x)}
p=σ(w⊤x)=1+exp(−w⊤x)1
- 因果关系:
- ⭐️ Sigmoid函数的输出范围恰好是 ( 0 , 1 ) (0,1) (0,1),与伯努利分布的概率 p p p 的取值范围一致。
- ⭐️ Sigmoid函数的导数形式( σ ( z ) ( 1 − σ ( z ) ) \sigma(z)(1-\sigma(z)) σ(z)(1−σ(z))), 在后续的梯度计算中简化了优化过程。
- 在广义线性模型(GLM)框架下,伯努利分布属于指数族分布,其自然参数 η \eta η 是对数几率 log ( p / ( 1 − p ) ) \log(p/(1-p)) log(p/(1−p)),因此连接函数(link function)选择对数几率,直接导致 Sigmoid 函数的使用。
4. 交叉熵损失函数的来源
逻辑回归的损失函数
选择交叉熵(Cross-Entropy),而非均方误差(MSE),这一选择与伯努利分布的概率结构直接相关
:
- ⭐️ 伯努利分布的对数似然函数:
对于样本 ( x i , y i ) (x_i, y_i) (xi,yi),其对数似然为:
log P ( y i ∣ x i , w ) = y i log p i + ( 1 − y i ) log ( 1 − p i ) \log P(y_i | x_i, w) = y_i \log p_i + (1 - y_i)\log(1 - p_i) logP(yi∣xi,w)=yilogpi+(1−yi)log(1−pi)
其中 p i = σ ( w ⊤ x i ) p_i = \sigma(w^\top x_i) pi=σ(w⊤xi)。
⭐️ 最大化对数似然等价于最小化交叉熵损失:
Loss = − 1 N ∑ i = 1 N [ y i log p i + ( 1 − y i ) log ( 1 − p i ) ] \text{Loss} = -\frac{1}{N}\sum_{i=1}^N [y_i \log p_i + (1 - y_i)\log(1 - p_i)] Loss=−N1i=1∑N[yilogpi+(1−yi)log(1−pi)] - 因果关系:
由于逻辑回归假设 y y y 服从伯努利分布,因此损失函数必须与该分布的对数似然函数一致。交叉熵直接来源于伯努利分布的概率表达式,而均方误差则忽略了概率的非线性约束,可能导致梯度问题(如预测值接近0或1时梯度趋近于0,收敛缓慢)。
5. 广义线性模型(GLM)的框架
逻辑回归是广义线性模型(GLM)的一个特例,其推导过程严格遵循 GLM 的结构:
- GLM 的三个要素:
- 随机成分:目标变量 y y y 服从伯努利分布。
- 系统成分:线性预测器 η = w ⊤ x \eta = w^\top x η=w⊤x。
- 连接函数:将线性预测器与
E
(
y
∣
x
)
E(y|x)
E(y∣x)(即
p
p
p)联系起来。对于伯努利分布,连接函数选择对数几率函数:
η = log ( p 1 − p ) ⇒ p = σ ( η ) \eta = \log\left(\frac{p}{1-p}\right) \quad \Rightarrow \quad p = \sigma(\eta) η=log(1−pp)⇒p=σ(η)
- 因果关系:
GLM 的框架要求连接函数必须与分布的特性匹配。伯努利分布的方差 Var ( y ) = p ( 1 − p ) \text{Var}(y) = p(1-p) Var(y)=p(1−p) 是均值 p p p 的函数,因此模型无需估计方差,只需通过线性组合建模均值 p p p,从而简化了模型结构。
6. 参数估计与优化
逻辑回归通过最大似然估计(MLE) 求解参数 w w w,这一过程依赖于伯努利分布的对数似然函数:
- 极大似然估计:
w ^ = arg max w ∏ i = 1 N P ( y i ∣ x i , w ) = arg max w ∑ i = 1 N [ y i log p i + ( 1 − y i ) log ( 1 − p i ) ] \hat{w} = \arg\max_w \prod_{i=1}^N P(y_i | x_i, w) = \arg\max_w \sum_{i=1}^N [y_i \log p_i + (1 - y_i)\log(1 - p_i)] w^=argwmaxi=1∏NP(yi∣xi,w)=argwmaxi=1∑N[yilogpi+(1−yi)log(1−pi)] - 优化方法:
因为对数似然函数是凸函数(在 w w w 上),梯度下降或牛顿法可以高效求解全局最优解。这一凸性也源于伯努利分布的对数似然的数学性质。
总结:伯努利分布的潜在含义与后续推导的因果关系
伯努利分布的作用 | 导致的后续推导 |
---|---|
1. 建模二分类目标变量 y y y 的概率分布 | → 线性组合的对数几率假设 |
2. 参数 p p p 需满足 0 < p < 1 0 < p < 1 0<p<1 | → 引入 Sigmoid 函数映射到概率空间 |
3. 对数似然函数的形式 | → 交叉熵作为损失函数的选择 |
4. 属于指数族分布 | → 在 GLM 框架下自然推导出模型形式 |
5. 方差与均值的依赖关系 | → 无需估计方差,简化模型参数空间 |
关键结论
逻辑回归的整个建模过程(从假设到损失函数设计)本质上是伯努利分布的数学特性驱动的:
- 伯努利分布的二元性:决定了模型需要预测概率 p p p 而不是直接分类。
- 对数几率的线性假设:通过伯努利分布的对数似然推导出,确保模型的可解释性。
- Sigmoid 函数与交叉熵:直接来源于伯努利分布的概率表达式,保证了数学上的合理性与优化效率。
这一理论框架使得逻辑回归成为二分类问题中简洁、高效且可解释的模型。