本文重点
本节课程我们将学习一种新的大规模的机器学习机制--在线学习机制。在线学习机制让我们可以模型化问题。在线学习算法指的是对数据流进行学习而非离线的静态数据集的学习。许多在线网站都有持续不断的用户流,对于每一个用户,网站希望能在不将数据存储到数据库中便顺利地进行算法学习。
货物网站的例子
在货物网站中,用户们输入邮寄包裹的出发地和目的地,网站会动态生成价格,此时用户可能会同意邮寄(y=1),或者拒绝邮寄(y=0),这个可以作为样本的标签。
样本的特征除了出发地和目的地之外,我们还可以选择一些其它的特征,比如:邮递距离以及特定的用户数据。现在,我们希望构建一个模型,来预测用户接受报价使用网站的物流服务的可能性,模型的输出是 p(y=1)。
我们的网站会一直保持在线学习。在线学习的算法与随机梯度下降算法有些类似,我们对单一的实例进行学习,而非对一个提前定义的训练集进行循环。
只要有用户访问网站,就会得到数据(x,y),x表示一些特征(起始地点,终点,价格),y表示是否邮寄(0,1),获取到这个之后,我们要做的就是更新θ,然后这个样本的任务就完成了,我们就丢弃这个样本。
这