【漫话机器学习系列】112.逻辑回归（Logistic Regression）

news2026/2/16 5:33:33

逻辑回归（Logistic Regression）详解

1. 逻辑回归简介

逻辑回归（Logistic Regression）是一种广泛用于二分类任务的统计和机器学习方法，尽管它的名字中带有“回归”，但它实际上是一种分类算法。

在逻辑回归中，我们希望根据输入特征 xxx 预测某个事件发生的概率 P(y=1∣x)，并通过逻辑函数（Sigmoid） 将输出值限制在 (0,1) 之间，使其可以被解释为概率。

2. 逻辑回归的数学原理

2.1 线性回归的不足

假设我们使用线性回归来做二分类问题：

$y = w^T x + b$

然后我们希望通过某个阈值来决定类别：

如果 y ≥ 0.5，分类为 1；
如果 y < 0.5，分类为 0。

但这样有以下问题：

输出值没有限制：y 的取值范围是 (−∞,+∞)，但概率的范围应该是 (0,1)。
缺乏概率解释：二分类问题需要输出概率，但线性回归的输出无法自然解释为概率。

2.2 逻辑回归的核心思想

逻辑回归通过Sigmoid 函数（S 形函数） 来将线性回归的输出转换为概率：

$P(y=1 | x) = \sigma(w^T x + b)$

其中，Sigmoid 函数定义为：

$\sigma(z) = \frac{1}{1 + e^{-z}}$

性质：

当 z → +∞，σ(z) → 1；
当 z → −∞，σ(z) → 0；
当 z = 0，σ(z) = 0.5。

这个函数的形状如下：

这样，我们可以将输出值映射到 (0,1) 之间，并解释为概率。

2.3 逻辑回归的概率解释

逻辑回归实际上是在建模事件发生的概率：

$P(y=1 | x) = \frac{1}{1 + e^{-(w^T x + b)}}$

可以改写为对数几率（Log-Odds）：

$\log \frac{P(y=1 | x)}{1 - P(y=1 | x)} = w^T x + b$

其中：

左边是对数几率（log-odds），即事件发生和不发生的比值取对数；
右边是线性回归模型。

这说明逻辑回归是对数几率的线性模型，也是它名称中带有“回归”的原因。

3. 逻辑回归的损失函数

在训练逻辑回归模型时，我们需要找到合适的参数 w 和 b，使得模型对数据的预测概率尽可能接近真实值。

3.1 交叉熵损失

由于逻辑回归的输出是一个概率，我们不能直接使用均方误差（MSE），而是使用交叉熵损失（Cross Entropy Loss）：

$L(w, b) = - \sum_{i=1}^{m} \left[ y_i \log P(y_i | x_i) + (1 - y_i) \log (1 - P(y_i | x_i)) \right]$

其中：

$y_i$ 是真实标签（0 或 1）；
$P(y_i | x_i)$ 是模型预测的概率。

损失函数的直觉理解

如果真实标签是 1，那么只有第一项 $y_i \log P(y_i | x_i)$ 起作用，即希望模型预测的 $P(y_i | x_i)$ 尽可能接近 1，否则损失较大。
如果真实标签是 0，那么只有第二项 $(1 - y_i) \log (1 - P(y_i | x_i))$ 起作用，即希望模型预测的 $P(y_i | x_i)$ 尽可能接近 0，否则损失较大。

因此，最优的 w 和 b 是使得交叉熵损失最小的参数。

4. 逻辑回归的优化

为了找到最优参数 w 和 b，我们通常使用梯度下降法（Gradient Descent）进行优化。

4.1 梯度下降法

我们需要计算损失函数对参数的梯度，然后更新参数：

$w = w - \alpha \frac{\partial L}{\partial w}, \quad b = b - \alpha \frac{\partial L}{\partial b}$

其中：

α 是学习率（learning rate）。
$\frac{\partial L}{\partial w}$ 和 $\frac{\partial L}{\partial b}$ 是损失函数的梯度。

梯度计算如下：

$\frac{\partial L}{\partial w} = \sum_{i=1}^{m} (P(y_i | x_i) - y_i) x_i$

$\frac{\partial L}{\partial b} = \sum_{i=1}^{m} (P(y_i | x_i) - y_i)$

然后使用梯度下降进行迭代更新，直到收敛。

4.2 其他优化方法

批量梯度下降（BGD）：使用整个训练集计算梯度，适用于小规模数据。
随机梯度下降（SGD）：每次随机选取一个样本更新参数，适用于大规模数据。
小批量梯度下降（Mini-Batch SGD）：每次使用一个小批量的数据计算梯度，是最常用的方法。

5. 逻辑回归的应用

逻辑回归广泛应用于二分类问题，包括：

医学诊断（如判断患者是否患病）
信用评分（如判断贷款申请人是否违约）
垃圾邮件检测（如判断邮件是否是垃圾邮件）
广告点击率预测（如预测用户是否会点击广告）

此外，逻辑回归还可以扩展到多分类问题（Softmax 回归），用于处理多个类别的分类任务。

6. Python 代码实现

可以使用 sklearn 直接实现逻辑回归：

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 生成数据集
X, y = make_classification(n_samples=1000, n_features=5, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 计算准确率
print("Accuracy:", accuracy_score(y_test, y_pred))