1.协同过滤算法:

协同过滤算法的内容很多,所以这里我们先不直接将协同过滤的情况,我们先拟定一个情景,加入我们正在做一个电影推荐网站,我们需要给一些用户推荐电影(说白了就是这个用户可能没看过这个电影,但是我们可以根据这个用户的其他相关数据和电影相关的数据来推断用户可能会给这个电影打上多少分数,从而确定要不要给这个用户推荐这个电影)

我们从头开始讲起,最后再告诉你为什么这东西叫协同过滤,而不是简简单单的监督学习

首先我们认为,用户的打分是基于这个公式

$y=\omega _{j}*x_{i} +b_{i}$

w,b代表了用户的喜好权重和偏好,而x则代表某个电影的特征数值

(1)假设已知电影的特征

然后我们有如下的一些数据

可以看到这张图里我们通过某种手段知道了电影的特征数值,比如这个电影是不是动作片,这个电影是不是浪漫电影,并且我们可以看到一些用户一些电影的打分.

我们需要预测某个用户对这个电影会打上多少分数,就必须直到整个用户的喜好,也就是我们要训练出一个合适的w和b.万幸的是,再这种图中,我们可以看到这个用户对其他电影有一些评价,我们就可以使用机器学习的手段预测出一个合适的w和b,最后再带入想要预测的电影的特征值x,就能得到用户对这个电影可能的打分.

代价函数为:(假设j为用户,i为电影)

$J(w_{j},b_{j})=\frac{1}{2}\sum_{i:y(i,j)\neq 0}^{m_{movie}}(w_{j}*x_{i}+b_{j}-y(i,j))^{2} + \frac{\lambda }{2}\sum_{k=1}^{n}(w_{j}^{(k)})^{2}$

训练出某个用户的喜好,就要用该用户看过的所有电影的特征值训练,最后对权重进行惩罚

最后得到代价最小的w和b,就可以用来估算用户的喜好了

如果是想要一次性对所有用户的喜好都进行计算,也是可行的

$J(w_{j},b_{j})=\frac{1}{2}\sum_{j}^{m_{user}}\sum_{i:y(i,j)\neq 0}^{m_{movie}}(w_{j}*x_{i}+b_{j}-y(i,j))^{2} + \frac{\lambda }{2}\sum_{j}^{m_{user}}\sum_{k=1}^{n}(w_{j}^{(k)})^{2}$

(2)已知用户的一些喜好

我们可以换个角度想一想,有时候上线了一部新电影,但是我们的员工没有足够的时间去看这个部电影,但是很多老客户已经打完分了,我们可以从这些了解过的老用户的打分,来推断出这个可能是什么电影.

这个时候的意思就是,我们知道很多用户的w和b,以及打分y,但是不知道某部电影的特征x.

比如这张图的情况,我们只知道打分y,以及通过某种手段知道了用户的一些特征

我们就可以用类似上面的方法计算出可能的特征值

同样的,我们直接上代价函数

$J(x_{i})=\frac{1}{2}\sum_{j:y(i,j)\neq 0}^{m_{user}}(w_{j}*x_{i}+b_{j}-y(i,j))^{2} + \frac{\lambda }{2}\sum_{k=1}^{n}(x_{i}^{(k)})^{2}$

这个代价函数的意义就算根据所有看过这部电影的用户的打分,喜好,来判断和训练出这部电影可能的分值.

同样的,如果想要一次性囊括所有电影的代价,可以再原本的基础上加上全部的电影

$J(x_{i})=\frac{1}{2}\sum_{i}^{m_{movie}}\sum_{j:y(i,j)\neq 0}^{m_{user}}(w_{j}*x_{i}+b_{j}-y(i,j))^{2} + \frac{\lambda }{2}\sum_{i}^{m_{movie}}\sum_{k=1}^{n}(x_{i}^{(k)})^{2}$

这样就可以计算出电影特征值了

(3)协同过滤算法是怎么做的

这个时候你可能会问,这不就是很简单神经网络拟合吗,为什么要叫协同过滤

其实是因为第三种情况,如果我们的员工今天出去吃麦乐鸡,回来一看很多不知底细的新用户已经对新上线的电影打完分了,这个时候该怎么做推荐?就算是分开按照步骤做,我们不知道用户的喜好wb,也不知道电影的特征x,只知道用户的打分(很大概率打分都不全),然而我们仍然想要做一些推荐

答案就是综合以上两种情况,直接使用用户打分来预测其他的打分,也就是说我们要同时获取的数据是w,b,x.

还记得我们之前分别尝试过整体训练所有人的喜好和所有电影的特征,这个式子组合起来是这样的

$J(x_{i})=\frac{1}{2}\sum_{i}^{m_{movie}}\sum_{j:y(i,j)\neq 0}^{m_{user}}(w_{j}*x_{i}+b_{j}-y(i,j))^{2} + \frac{\lambda }{2}\sum_{i}^{m_{movie}}\sum_{k=1}^{n}(x_{i}^{(k)})^{2}+ \frac{\lambda }{2}\sum_{j}^{m_{user}}\sum_{k=1}^{n}(w_{j}^{(k)})^{2}$

直接把两个综合代价函数组合起来得到最终的结果.

然后具体的梯度下降操作的时候,对每个用户的喜好,每个电影的特征都要做gradient descent

$repeat \{\\ \\w_{1}=w_{1}-\frac{\theta }{\theta w_{1}}J(w,b,x), \\................... \\w_{j}=w_{j}-\frac{\theta }{\theta w_{j}}J(w,b,x),\\\\ \\b_{1}=b_{1}-\frac{\theta }{\theta b_{1}}J(w,b,x) \\................... \\b_{j}=b_{j}-\frac{\theta }{\theta b_{j}}J(w,b,x),\\\\ \\x_{1}=x_{1}-\frac{\theta }{\theta x_{1}}J(w,b,x) \\................... \\x_{i}=x_{i}-\frac{\theta }{\theta x_{i}}J(w,b,x),\\ \\\}$