机器学习算法之–对数几率回归（逻辑斯蒂回归）算法

上个算法（算法系列二）介绍了如何使用线性模型进行回归学习，但若要做的是分类任务，则需要找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。

虽然名字叫回归，但其实是分类学习方法

一、算法原理

对于给定的输入实例x，可求出P(Y=0|x)和P(Y=1|x)的条件概率值的大小比较，将实例x分到概率值较大的那一类。

1.1、预测函数

找出一个预测函数模型，输出值在[0,1]之间。接着，再选择一个基准值（例如0.5），若预测值》0.5，则预测为1；否则预测为0；【二分类问题】

我们可选择： $g(z)=\frac{1}{1+e^{-z}}$ 作为预测函数。
该函数称为Sigmoid函数，也可称作Logistic函数（名称由来），其图形如下

图中可以看出：

z=0：g(z) = 0.5
z>0：g(z) > 0.5，当z越来越大时，g(z)无限接近于1。
z<0：g(z) < 0.5，当z越来越小时，g(z)无限接近于0。

显然，这正符合我们想要的分类方式。

我们再结合线性回归的预测函数 $h_\theta(x)=\theta^Tx$ ，则逻辑斯蒂回归算法的预测函数如下： $r=h_\theta(x)=g(z)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$

此处求解的是在输入x，参数θ的前提下，y=1的概率,用概率论公式可表示为 $h_\theta(x)=P(y=1|x,\theta)$
且必有： $P(y=1|x,\theta)+P(y=0|x,\theta)=1$

r为正例可能性，1-r是其反例可能性，二者比值 $\frac{r}{1-r}$ 称为“几率”，反映了x作为正例的相对可能性，进一步对几率取对数，则得到“对数几率” $ln\frac{r}{1-r}$
在二分类中，这是一个非黑即白的世界

实际上，这是在用线性回归模型的预测结果去逼近真是标记的对数几率，因此成为对数几率回归

对于

算法优点：

直接对分类可能性进行建模，无需事先假设数据分布
可得到近似概率预测
求解的目标函数是任意阶可导凸函数，数学性质very good

1.2、参数估计（如何计算θ）

在训练过程中，算法通过最大化似然函数求解θ。具体来说，似然函数表示的是P(Y|X)的条件概率。统计学家通常使用“最大似然估计”方法来进行参数估计。这种方法就是求解参数W，使得模型的似然函数在已知观测数据下最大。
$ln\frac{P(y=1|x)}{1-P(y=0|x)} = \theta^Tx=wx$

也就是说，在逻辑回归中，输出y=1的对数几率是输入x的线性函数。
显然有, $P(y=1|x)=\frac{e^{\theta^Tx}}{1+e^{\theta^Tx}}\\P(y=0|x)=\frac{1}{1+e^{\theta^Tx}}$

设： $P(y=1|x)=\pi(x), P(y=0|x)=1-\pi(x)$
于是可以通过极大似然估计来估计模型参数，似然函数为
$\prod_{i=1}^n[\pi(x_i)]^{y^i}[1-\pi(x)]^{1-y^i}$
对数似然函数为 $L(w)=\sum_{i=1}^n[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x))]$

成本函数(所有样本的成本平均值)：- $\frac{1}{n}L(w)$

对 $L (w) 求极值，便可得到 w 的估计值，问题也就变成了第一对数似然函数为目标的最优化问题$

二、模型优化

2.1、梯度下降算法、

根据梯度下降算法定义，可以得到
$\theta_j=\theta_j-\alpha\frac{\partial J(\theta)}{\partial \theta_j}$
此处关键是求成本函数的偏导数，最终得到梯度下降算法公式
$\theta_j= \theta_j-\alpha\frac{1}{m}\sum_{i=1}^m ((h(x^i)-y^i)x_j^i)$