机器学习100天,今天讲的是:逻辑回归基本原理
一、线性回归与逻辑回归
我们之前介绍过线性回归,我们知道线性回归用于数值预测,例如房屋价格预测、信用卡额度预测等。线性回归最重要的一点就是它的预测值,即因变量一定是连续值,比如说房价。
而逻辑回归,它不是线性预测,而是一种线性分类算法。也就是说它的预测值,即因变量是离散的,要么是 1,要么是 0,是二分类。例如医生根据医疗图像判断某人是否患病、银行根据某人信用记录判断是否发放信用卡等等。
我们从图中来看一下。左边这张图是房价预测的例子。横坐标是人口,纵坐标是房价。线性回归做的事情就是找到一条直线能够最佳拟合房价与人口的线性关系。根据这个线性模型,我们就能根据已知的人口,直接预测房价了。右边这张图是某个商户统计用户的基本信息和他们是否购买了这个商品。横坐标是年龄 Age,纵坐标是收入 Income。这些分布的样本点,红色代表没有购买商品,绿色代表购买商品。这时候,我们可以使用一条直线来划分,例如这条。我们可以看到,在这条直线的上方表示购买商品的,直线的下方表示没有购买商品的。
通过对比,我们发现,线性回归和逻辑回归用到一条直线。只不过,线性回归的直线是用来拟合的,逻辑回归的直线是用来分类的。
二、逻辑回归模型
好,我们继续来看逻辑回归模型。