逻辑回归

news2025/7/13 0:56:11

逻辑回归

在分类问题中，要预测的变量y为离散值（y=0~1），逻辑回归模型的输出变量范围始终在 0 和 1 之间。

训练集为
${(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)})\}$
输入
$\in \left[ \begin{matrix} x_0 \\ x_1 \\ \vdots \\ x_n \\ \end{matrix} \right] 其中x_0=1,y \in \{0,1\}$
逻辑回归模型的假设是：
$h_\theta(x)=g(\theta^{\mathrm T}X)$
$X$ 为特征变量， $g (.)$ 为逻辑函数
$g(z)=\frac{1}{1+e^{-z}}$
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZEzwMmHR-1677396732146)(C:\Users\20491\AppData\Roaming\Typora\typora-user-images\image-20230223113840999.png)]$

如果对于逻辑回归沿用线性回归的代价函数，此时的代价函数是非凸函数，不利于找局部最优值，

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kpT45RTi-1677396732147)(C:\Users\20491\AppData\Roaming\Typora\typora-user-images\image-20230223143832677.png)]$

逻辑回归的代价函数为：
$J(\theta)=\frac{1}{m}\sum^m_{i=1}{Cost(h_{\theta}(x^{(i)}),y^{(i)})}$

$Cost(h_{\theta}(x),y)=\left\{ \begin{matrix} -log(h_{\theta}(x)) ,if\quad y=1\\ -log(1-h_{\theta}(x)) ,if\quad y=0 \end{matrix} \right.$

$Cost(h_{\theta}(x),y)=-y\cdot log(h_{\theta}(x))-(1-y)\cdot log(1-h_{\theta}(x))$

当实际的 𝑦 = 1 且 $ℎ_{\theta}(𝑥)$ 也为 1 时，误差为 0，

当 𝑦 = 1 但 $ℎ_{\theta}(𝑥)$ 不为 1 时，误差随着 $ℎ_{\theta}(𝑥)$ 变小而变大；

当实际的 𝑦 = 0 且 $ℎ_{\theta}(𝑥)$ 也为 0 时，误差为 0，

当𝑦 = 0 但 $ℎ_{\theta}(𝑥)$ 不为 0 时误差随着 $ℎ_{\theta}(𝑥)$ 的变大而变大。

利用梯度下降算法
$\theta_{j}:=\theta_{j}-\alpha\frac{\partial }{\partial \theta_{j}}J(\theta)$
代价函数的导数为
$\frac{\partial }{\partial \theta_{j}}J(\theta)=\frac{1}{m}\sum_{i=1}^{m}{[h_{\theta}(x^{(i)})-y^{(i)}]}x_j^{(i)}$
则最终结果为（可同时更新所有的 $\theta$ ）
$\theta_{j}:=\theta_{j}-\alpha\frac{1}{m}\sum_{i=1}^{m}{[h_{\theta}(x^{(i)})-y^{(i)}]}x_j^{(i)}$
此时的梯度函数跟线性回归不太相同，因为 $h_\theta(x)$ 不同。