2025-04-05 吴恩达机器学习4——逻辑回归(1)：基础入门

news2025/4/13 17:38:09

文章目录

1 分类问题
- 1.1 介绍
- 1.2 线性回归与分类
- 1.2 逻辑回归
2 逻辑回归
- 2.1 介绍
- 2.2 Sigmoid 函数
- 2.3 逻辑回归模型
3 决策边界
- 3.1 概念
- 3.2 线性决策边界
- 3.3 非线性决策边界
4 代价函数
- 4.1 不使用平方误差
- 4.2 损失函数
- 4.3 整体代价函数
5 梯度下降
- 5.1 参数更新
- 5.2 逻辑回归 vs. 线性回归

1 分类问题

1.1 介绍

定义：预测离散的输出值（类别），而非连续数值。
二元分类：输出仅有两个可能值（如 0/1、否/是、假/真）。
- 正类（Positive Class）：目标类别（如垃圾邮件、恶性肿瘤），标记为 1。
- 负类（Negative Class）：非目标类别（如正常邮件、良性肿瘤），标记为 0。
示例应用：
- 垃圾邮件检测（是/否）
- 金融欺诈识别（欺诈/正常）
- 肿瘤分类（恶性/良性）

1.2 线性回归与分类

Question：为什么线性回归不适用于分类？

解释 1：输出可能超出 [0,1] 范围（如预测值 >1 或 <0），但类别标签只能是 0 或 1。
解释 2：添加极端数据点会显著改变拟合直线，导致分类阈值（如 0.5）偏移，影响预测结果。

示例：新增一个大型恶性肿瘤样本后，线性回归的决策边界右移，可能错误分类原有数据。

1.2 逻辑回归

核心思想：输出始终限制在 [0,1] 之间，表示概率。
名称澄清：虽含“回归”，实为分类算法（历史命名原因）。
优势：
- 直接建模概率 $P (y = 1∣ x)$ 。
- 避免线性回归的分类缺陷。

决策边界（Decision Boundary）

划分类别的阈值（如 0.5），由模型自动学习。线性回归的决策边界是直线，但可能不稳定。逻辑回归通过非线性函数（如 Sigmoid）生成更鲁棒的边界。

2 逻辑回归

2.1 介绍

核心思想：输出始终限制在 [0,1] 之间，表示概率。
用途：解决二元分类问题（输出 $y ∈ {0,1}$ ）。
输出特性：模型输出 $f (x)$ 表示 $P (y = 1∣ x)$ （即 $y = 1$ 的概率），范围严格在 [0,1] 之间。

示例：肿瘤大小为 $x$ 时， $f (x) = 0.7$ 表示恶性肿瘤概率为 70%，良性概率为 30%（因为 $P (y = 0∣ x) = 1 - P (y = 1∣ x) ）$ 。

名称澄清

逻辑回归虽含“回归”，不是回归，而是分类算法（历史命名原因）。

核心是通过 Sigmoid 函数实现概率建模。

2.2 Sigmoid 函数

Sigmoid 函数：
$g(z)=\frac{1}{1+e^{-z}}$

$z$ 为线性函数： $z = w \cdot x + b$ （ $w$ ：权重， $b$ ：偏置）。
$e$ 是自然常数（≈ 2.718）， $e^{-z}$ 随 $z$ 增大趋近于 0。

函数特性：

当 $z \to + \infty$ ， $g (z) \to 1$ ；当 $z \to - \infty$ ， $g (z) \to 0$ 。
$z = 0$ 时， $g (z) = 0.5$ （对称中心点）。
$S$ 形曲线：平滑过渡，适合概率建模。

2.3 逻辑回归模型

模型定义：
$f(x)=g(w\cdot x+b)=\frac{1}{1+e^{-(w\cdot x+b)}}$

输入 $x$ （如肿瘤大小），输出 $f (x)$ 为 $y = 1$ 的概率。

参数意义：

$w$ 控制曲线陡峭度（斜率）。
$b$ 控制曲线左右平移（阈值偏移）。

符号解释：
$f (x; w, b) = P (y = 1 ∣ x; w, b)$

分号 ; 表示 $w, b$ 是模型参数。
$x$ 是输入特征。

3 决策边界

3.1 概念

定义：将特征空间划分为不同预测类别的分界线（如 ŷ=0 和 ŷ=1 的区域）。
数学条件：
- 预测 ŷ=1 当且仅当 z = w·x + b ≥ 0（即 f(x) = g(z) ≥ 0.5）。
- 预测 ŷ=0 当 z < 0（f(x) < 0.5）。
关键点：决策边界是 z = 0 的等高线（如直线、曲线等）。

3.2 线性决策边界

示例：二特征模型（ $x_1, x_2$ ）

参数： $w_1=1, w_2=1, b=-3$ -> $z = x_1 + x_2 - 3$

决策边界方程： $x_1 + x_2 = 3$ （一条直线）
预测规则：
- 直线右侧（ $x_1 + x_2 ≥ 3$ ）-> $\overset{y}{^} = 1$
- 直线左侧（ $x_1 + x_2 < 3$ ）-> $\overset{y}{^} = 0$

3.3 非线性决策边界

多项式特征：通过高阶项实现复杂边界（如圆形、椭圆等）。

示例 1（圆形边界）
$z = x_1^2 + x_2^2 - 1$ -> 决策边界为 $x_1^2 + x_2^2 = 1$ （单位圆）。

圆外： $\overset{y}{^} = 1$ ；
圆内： $\overset{y}{^} = 0$ 。

示例 2（复杂边界）
引入交叉项和高阶项（如 $x_1x_2, x_1^2, x_2^2$ ）可生成椭圆、双曲线等形状。

4 代价函数

4.1 不使用平方误差

线性回归代价函数为
$\frac{1}{2m}\sum_{i=1}^m (f_{w,b}(x^{(i)}) - y^{(i)})^2$
逻辑回归直接套用，会面临的问题：

由于 Sigmoid 非线性变换，代价函数变为非凸函数。
梯度下降易陷入局部极小值。

4.2 损失函数

损失函数（Loss Function）定义如下
$L(f_{w,b}(x), y) = \begin{cases} -\log(f_{w,b}(x)) & if \ \ y=1 \\ -\log(1 - f_{w,b}(x)) & if \ \ y=0 \end{cases}$

当 $y = 1$ 时：
- 预测值 $f (x) \to 1$ ：损失 $\to 0$ （正确）
- 预测值 $f (x) \to 0$ ：损失 $\to + \infty$ （严重惩罚）
示例：预测恶性肿瘤概率为 0.1（实际为1）时损失极高。
当 $y = 0$ 时：
- 预测值 $f (x) \to 0$ ：损失 $\to 0$
- 预测值 $f (x) \to 1$ ：损失 $\to + \infty$

合并形式
$L(f_{w,b}(x), y) = -y\log(f_{w,b}(x)) - (1-y)\log(1-f_{w,b}(x))$

当 $y = 1$ ：第二项消失，保留第一项 $−\log(f(x))$
当 $y = 0$ ：第一项消失，保留第二项 $−\log(1−f(x))$

4.3 整体代价函数

代价函数（Cost Function）是损失函数的平均值：
$-\frac{1}{m}\sum_{i=1}^m \left[ y^{(i)}\log(f_{w,b}(x^{(i)})) + (1-y^{(i)})\log(1-f_{w,b}(x^{(i)})) \right]$

特性

凸函数：保证梯度下降收敛到全局最优。
概率解释：本质是极大似然估计的负对数形式。
数学性质：
- 当 $y = 1$ ： $J \to 0$ 当且仅当 $f (x) \to 1$ 。
- 当 $y = 0$ ： $J \to 0$ 当且仅当 $f (x) \to 0$ 。

5 梯度下降

目标：找到参数 $w$ 和 $b$ ，使得成本函数 $J (w, b)$ 最小化。

通过梯度下降法迭代更新参数。

5.1 参数更新

更新规则如下：
$\begin{aligned} w_j &:= w_j - \alpha \frac{\partial }{\partial w_j}J(w,b) \\ b &:= b - \alpha \frac{\partial }{\partial b}J(w,b) \end{aligned}$

将 $J (w, b)$ 带入得到：
$\begin{aligned} w_j &:= w_j - \alpha \left[\frac1m\sum_{i=1}^m(f_{w,b}(x^{(i)})-y^{(i)})x_j^{(i)}\right] \\ b &:= b - \alpha \left[\frac1m\sum_{i=1}^m(f_{w,b}(x^{(i)})-y^{(i)})\right] \end{aligned}$

先计算所有参数的更新值，再同时更新所有参数。

5.2 逻辑回归 vs. 线性回归

	线性回归	逻辑回归
预测函数 $f (x)$	$w\cdot x+b$	$\text{Sigmoid}(w\cdot x+b)$
成本函数	均方误差	对数损失 (凸函数)
梯度下降公式	形式相同	形式相同但 $f (x)$ 不同