文章目录
- 1 分类问题
- 1.1 介绍
- 1.2 线性回归与分类
- 1.2 逻辑回归
- 2 逻辑回归
- 2.1 介绍
- 2.2 Sigmoid 函数
- 2.3 逻辑回归模型
- 3 决策边界
- 3.1 概念
- 3.2 线性决策边界
- 3.3 非线性决策边界
- 4 代价函数
- 4.1 不使用平方误差
- 4.2 损失函数
- 4.3 整体代价函数
- 5 梯度下降
- 5.1 参数更新
- 5.2 逻辑回归 vs. 线性回归
1 分类问题
1.1 介绍
-
定义:预测离散的输出值(类别),而非连续数值。
-
二元分类:输出仅有两个可能值(如 0/1、否/是、假/真)。
- 正类(Positive Class):目标类别(如垃圾邮件、恶性肿瘤),标记为 1。
- 负类(Negative Class):非目标类别(如正常邮件、良性肿瘤),标记为 0。
-
示例应用:
- 垃圾邮件检测(是/否)
- 金融欺诈识别(欺诈/正常)
- 肿瘤分类(恶性/良性)

1.2 线性回归与分类
Question:为什么线性回归不适用于分类?
- 解释 1:输出可能超出 [0,1] 范围(如预测值 >1 或 <0),但类别标签只能是 0 或 1。
- 解释 2:添加极端数据点会显著改变拟合直线,导致分类阈值(如 0.5)偏移,影响预测结果。
示例:新增一个大型恶性肿瘤样本后,线性回归的决策边界右移,可能错误分类原有数据。

1.2 逻辑回归
- 核心思想:输出始终限制在 [0,1] 之间,表示概率。
- 名称澄清:虽含“回归”,实为分类算法(历史命名原因)。
- 优势:
- 直接建模概率 P ( y = 1 ∣ x ) P(y=1|x) P(y=1∣x)。
- 避免线性回归的分类缺陷。
决策边界(Decision Boundary)
划分类别的阈值(如 0.5),由模型自动学习。线性回归的决策边界是直线,但可能不稳定。逻辑回归通过非线性函数(如 Sigmoid)生成更鲁棒的边界。
2 逻辑回归
2.1 介绍
- 核心思想:输出始终限制在 [0,1] 之间,表示概率。
- 用途:解决二元分类问题(输出 y ∈ 0 , 1 y ∈ {0,1} y∈0,1)。
- 输出特性:模型输出 f ( x ) f(x) f(x) 表示 P ( y = 1 ∣ x ) P(y=1|x) P(y=1∣x)(即 y = 1 y=1 y=1 的概率),范围严格在 [0,1] 之间。
示例:肿瘤大小为 x x x 时, f ( x ) = 0.7 f(x)=0.7 f(x)=0.7 表示恶性肿瘤概率为 70%,良性概率为 30%(因为 P ( y = 0 ∣ x ) = 1 − P ( y = 1 ∣ x ) ) P(y=0|x) = 1 - P(y=1|x)) P(y=0∣x)=1−P(y=1∣x))。

名称澄清
逻辑回归虽含“回归”,不是回归,而是分类算法(历史命名原因)。
核心是通过 Sigmoid 函数实现概率建模。
2.2 Sigmoid 函数
Sigmoid 函数:
g
(
z
)
=
1
1
+
e
−
z
g(z)=\frac{1}{1+e^{-z}}
g(z)=1+e−z1
- z z z 为线性函数: z = w ⋅ x + b z = w·x + b z=w⋅x+b( w w w:权重, b b b:偏置)。
- e e e 是自然常数(≈ 2.718), e − z e^{-z} e−z 随 z z z 增大趋近于 0。

函数特性:
- 当 z → + ∞ z → +∞ z→+∞, g ( z ) → 1 g(z) → 1 g(z)→1;当 z → − ∞ z → -∞ z→−∞, g ( z ) → 0 g(z) → 0 g(z)→0。
- z = 0 z=0 z=0 时, g ( z ) = 0.5 g(z)=0.5 g(z)=0.5(对称中心点)。
- S S S 形曲线:平滑过渡,适合概率建模。
2.3 逻辑回归模型
模型定义:
f
(
x
)
=
g
(
w
⋅
x
+
b
)
=
1
1
+
e
−
(
w
⋅
x
+
b
)
f(x)=g(w\cdot x+b)=\frac{1}{1+e^{-(w\cdot x+b)}}
f(x)=g(w⋅x+b)=1+e−(w⋅x+b)1
输入 x x x(如肿瘤大小),输出 f ( x ) f(x) f(x) 为 y = 1 y=1 y=1 的概率。
参数意义:
- w w w 控制曲线陡峭度(斜率)。
- b b b 控制曲线左右平移(阈值偏移)。
符号解释:
f
(
x
;
w
,
b
)
=
P
(
y
=
1
∣
x
;
w
,
b
)
f(x;w,b)=P(y=1∣x;w,b)
f(x;w,b)=P(y=1∣x;w,b)
- 分号 ; 表示 w , b w,b w,b 是模型参数。
- x x x 是输入特征。

3 决策边界
3.1 概念
-
定义:将特征空间划分为不同预测类别的分界线(如 ŷ=0 和 ŷ=1 的区域)。
-
数学条件:
- 预测 ŷ=1 当且仅当 z = w·x + b ≥ 0(即 f(x) = g(z) ≥ 0.5)。
- 预测 ŷ=0 当 z < 0(f(x) < 0.5)。
-
关键点:决策边界是 z = 0 的等高线(如直线、曲线等)。

3.2 线性决策边界
示例:二特征模型( x 1 , x 2 x_1, x_2 x1,x2)

参数:
w
1
=
1
,
w
2
=
1
,
b
=
−
3
w_1=1, w_2=1, b=-3
w1=1,w2=1,b=−3 ->
z
=
x
1
+
x
2
−
3
z = x_1 + x_2 - 3
z=x1+x2−3
- 决策边界方程: x 1 + x 2 = 3 x_1 + x_2 = 3 x1+x2=3(一条直线)
- 预测规则:
- 直线右侧(
x
1
+
x
2
≥
3
x_1 + x_2 ≥ 3
x1+x2≥3)
->
y ^ = 1 ŷ=1 y^=1 - 直线左侧(
x
1
+
x
2
<
3
x_1 + x_2 < 3
x1+x2<3)
->
y ^ = 0 ŷ=0 y^=0
- 直线右侧(
x
1
+
x
2
≥
3
x_1 + x_2 ≥ 3
x1+x2≥3)
3.3 非线性决策边界
多项式特征:通过高阶项实现复杂边界(如圆形、椭圆等)。
示例 1(圆形边界)
z
=
x
1
2
+
x
2
2
−
1
z = x_1^2 + x_2^2 - 1
z=x12+x22−1 ->
决策边界为
x
1
2
+
x
2
2
=
1
x_1^2 + x_2^2 = 1
x12+x22=1(单位圆)。
- 圆外: y ^ = 1 ŷ=1 y^=1;
- 圆内: y ^ = 0 ŷ=0 y^=0。

示例 2(复杂边界)
引入交叉项和高阶项(如
x
1
x
2
,
x
1
2
,
x
2
2
x_1x_2, x_1^2, x_2^2
x1x2,x12,x22)可生成椭圆、双曲线等形状。

4 代价函数
4.1 不使用平方误差
线性回归代价函数为
J
(
w
,
b
)
=
1
2
m
∑
i
=
1
m
(
f
w
,
b
(
x
(
i
)
)
−
y
(
i
)
)
2
J(w,b) = \frac{1}{2m}\sum_{i=1}^m (f_{w,b}(x^{(i)}) - y^{(i)})^2
J(w,b)=2m1i=1∑m(fw,b(x(i))−y(i))2
逻辑回归直接套用,会面临的问题:
- 由于 Sigmoid 非线性变换,代价函数变为非凸函数。
- 梯度下降易陷入局部极小值。

4.2 损失函数
损失函数(Loss Function)定义如下
L
(
f
w
,
b
(
x
)
,
y
)
=
{
−
log
(
f
w
,
b
(
x
)
)
i
f
y
=
1
−
log
(
1
−
f
w
,
b
(
x
)
)
i
f
y
=
0
L(f_{w,b}(x), y) = \begin{cases} -\log(f_{w,b}(x)) & if \ \ y=1 \\ -\log(1 - f_{w,b}(x)) & if \ \ y=0 \end{cases}
L(fw,b(x),y)={−log(fw,b(x))−log(1−fw,b(x))if y=1if y=0
-
当 y = 1 y=1 y=1 时:
- 预测值 f ( x ) → 1 f(x)→1 f(x)→1:损失 → 0 →0 →0(正确)
- 预测值 f ( x ) → 0 f(x)→0 f(x)→0:损失 → + ∞ →+∞ →+∞(严重惩罚)
示例:预测恶性肿瘤概率为 0.1(实际为1)时损失极高。
-
当 y = 0 y=0 y=0 时:
- 预测值 f ( x ) → 0 f(x)→0 f(x)→0:损失 → 0 →0 →0
- 预测值 f ( x ) → 1 f(x)→1 f(x)→1:损失 → + ∞ →+∞ →+∞


合并形式
L
(
f
w
,
b
(
x
)
,
y
)
=
−
y
log
(
f
w
,
b
(
x
)
)
−
(
1
−
y
)
log
(
1
−
f
w
,
b
(
x
)
)
L(f_{w,b}(x), y) = -y\log(f_{w,b}(x)) - (1-y)\log(1-f_{w,b}(x))
L(fw,b(x),y)=−ylog(fw,b(x))−(1−y)log(1−fw,b(x))
- 当 y = 1 y=1 y=1:第二项消失,保留第一项 − log ( f ( x ) ) −\log(f(x)) −log(f(x))
- 当 y = 0 y=0 y=0:第一项消失,保留第二项 − log ( 1 − f ( x ) ) −\log(1−f(x)) −log(1−f(x))

4.3 整体代价函数
代价函数(Cost Function)是损失函数的平均值:
J
(
w
,
b
)
=
−
1
m
∑
i
=
1
m
[
y
(
i
)
log
(
f
w
,
b
(
x
(
i
)
)
)
+
(
1
−
y
(
i
)
)
log
(
1
−
f
w
,
b
(
x
(
i
)
)
)
]
J(w,b) = -\frac{1}{m}\sum_{i=1}^m \left[ y^{(i)}\log(f_{w,b}(x^{(i)})) + (1-y^{(i)})\log(1-f_{w,b}(x^{(i)})) \right]
J(w,b)=−m1i=1∑m[y(i)log(fw,b(x(i)))+(1−y(i))log(1−fw,b(x(i)))]
特性
- 凸函数:保证梯度下降收敛到全局最优。
- 概率解释:本质是极大似然估计的负对数形式。
- 数学性质:
- 当 y = 1 y=1 y=1: J → 0 J→0 J→0 当且仅当 f ( x ) → 1 f(x)→1 f(x)→1。
- 当 y = 0 y=0 y=0: J → 0 J→0 J→0 当且仅当 f ( x ) → 0 f(x)→0 f(x)→0。
5 梯度下降
目标:找到参数 w w w 和 b b b,使得成本函数 J ( w , b ) J(w, b) J(w,b) 最小化。
通过梯度下降法迭代更新参数。
5.1 参数更新
更新规则如下:
w
j
:
=
w
j
−
α
∂
∂
w
j
J
(
w
,
b
)
b
:
=
b
−
α
∂
∂
b
J
(
w
,
b
)
\begin{aligned} w_j &:= w_j - \alpha \frac{\partial }{\partial w_j}J(w,b) \\ b &:= b - \alpha \frac{\partial }{\partial b}J(w,b) \end{aligned}
wjb:=wj−α∂wj∂J(w,b):=b−α∂b∂J(w,b)
将
J
(
w
,
b
)
J(w, b)
J(w,b) 带入得到:
w
j
:
=
w
j
−
α
[
1
m
∑
i
=
1
m
(
f
w
,
b
(
x
(
i
)
)
−
y
(
i
)
)
x
j
(
i
)
]
b
:
=
b
−
α
[
1
m
∑
i
=
1
m
(
f
w
,
b
(
x
(
i
)
)
−
y
(
i
)
)
]
\begin{aligned} w_j &:= w_j - \alpha \left[\frac1m\sum_{i=1}^m(f_{w,b}(x^{(i)})-y^{(i)})x_j^{(i)}\right] \\ b &:= b - \alpha \left[\frac1m\sum_{i=1}^m(f_{w,b}(x^{(i)})-y^{(i)})\right] \end{aligned}
wjb:=wj−α[m1i=1∑m(fw,b(x(i))−y(i))xj(i)]:=b−α[m1i=1∑m(fw,b(x(i))−y(i))]
先计算所有参数的更新值,再同时更新所有参数。
5.2 逻辑回归 vs. 线性回归
线性回归 | 逻辑回归 | |
---|---|---|
预测函数 f ( x ) f(x) f(x) | w ⋅ x + b w\cdot x+b w⋅x+b | Sigmoid ( w ⋅ x + b ) \text{Sigmoid}(w\cdot x+b) Sigmoid(w⋅x+b) |
成本函数 | 均方误差 | 对数损失 (凸函数) |
梯度下降公式 | 形式相同 | 形式相同但 f ( x ) f(x) f(x)不同 |
