20240316-2-协同过滤(collaborative filtering)

news2024/9/23 1:29:27

协同过滤(collaborative filtering)

在这里插入图片描述

直观解释

协同过滤是推荐算法中最常用的算法之一,它根据user与item的交互,发现item之间的相关性,或者发现user之间的相关性,进行推荐。比如你有位朋友看电影的爱好跟你类似,然后最近新上了《调音师》,他觉得不错,就会推荐给你,这是最简单的基于user的协同过滤算法(user-based collaboratIve filtering),还有一种是基于item的协同过滤算法(item-based collaborative filtering),比如你非常喜欢电影《当幸福来敲门的时候》,那么观影系统可能会推荐一些类似的励志片给你,比如《风雨哈佛路》等。如下主要分析user-based,item-based同理。

核心公式

  • 符号定义
    r u , i r_{u,i} ru,i:user u u u 对 item i i i 的评分
    r ˉ u \bar{r}_{u} rˉu:user u u u 的平均评分
    P a , b P_{a,b} Pa,b:用户 a , b a,b a,b都有评价的items集合

  • 核心公式

  1. item-based CF 邻域方法预测公式
    Pred ⁡ ( u , i ) = r ‾ u + ∑ j ∈ S i ( sim ⁡ ( i , j ) × r u , j ) ∑ j ∈ S i sim ⁡ ( i , j ) \operatorname{Pred}(u, i)=\overline{r}_{u}+\frac{\sum_{j \in S_{i}}\left(\operatorname{sim}(i, j) \times r_{u, j}\right)}{\sum_{j \in S_{i}} \operatorname{sim}(i, j)} Pred(u,i)=ru+jSisim(i,j)jSi(sim(i,j)×ru,j)

  2. 偏差优化目标
    min ⁡ b ∑ ( u , i ) ∈ K ( r ( u , i ) − μ − b u − b i ) 2 \min _{b} \sum_{(u, i) \in K}\left(r_{(u, i)}-\mu-b_{u}-b_{i}\right)^{2} bmin(u,i)K(r(u,i)μbubi)2
    其中 ( u , i ) ∈ K (u,i) \in K (ui)K表示所有的评分, μ \mu μ总评分均值, b u b_u bu为user u u u的偏差, b i b_i bi为item i i i 的偏差。

    • 加入正则项后的Funk SVD 优化公式
      min ⁡ u v ∑ ( u , i ) ∈ k n o w n ( r u , i − u u v i ) + λ ( ∣ u ∣ 2 + ∣ v ∣ 2 ) \min _{u v} \sum_{(u, i) \in k n o w n}\left(r_{u,i}-u_{u} v_{i}\right)+\lambda\left(|u|^{2}+|v|^{2}\right) uvmin(u,i)known(ru,iuuvi)+λ(u2+v2)
      其中 u u u_u uu为user u u u的偏好,即为user特征矩阵 U U U的第 u u u行, v i v_i vi为item i i i的特征,即为特征矩阵 V V V的第 i i i

注意要点

  • 相似度与距离之间的关系
    距离越大,相似度越小;距离越小,相似度越高。即在求解最大相似度的时候可以转为求解最小距离。

  • 在协同过滤中,常用的相似度函数有哪些,简要说明

    • 杰卡德相似度(Jaccard similarity)
      公式:
      s i m j a c c a r d ( u 1 , u 2 ) = items bought by  u 1   a n d   u 2  items bought by  u 1   o r   u 2 sim_{jaccard}(u_{1}, u_{2})=\frac{ \text {items} \text { bought by } u_{1}\ and\ u_{2}}{ \text { items bought by } u_{1}\ or\ u_{2}} simjaccard(u1,u2)= items bought by u1 or u2items bought by u1 and u2
      适用于二元情况,即定性情况,比如买或者没买,喜欢或者不喜欢,在数据稀疏的情况,可以转为二元应用。
      • 余弦相似度
        公式: sim ⁡ ( u 1 , u 2 ) = r u 1 ⋅ r u 2 ∣ r u 1 ∣ 2 ∣ r u 2 ∣ 2 = ∑ i ∈ P u 1 , u 2 r u 1 , i r u 2 , i ∑ i ∈ P u 1 r u 1 , i 2 ∑ i ∈ P u 2 r u 2 , i 2 \operatorname{sim}(u_{1}, u_{2})=\frac{r_{u_{1}} \cdot r_{u_{2}}}{\left|r_{u_{1}}\right|_{2}|r_{u_{2}}|_{2}}=\frac{\sum_{i \in P_{u_1,u_2}} r_{u_{1}, i} r_{u_{2}, i}}{\sqrt{\sum_{i \in P_{u_1}} r_{u_{1},i}^{2}} \sqrt{\sum_{i \in P_{u_2}}r_{u_{2},i}^{2}}} sim(u1,u2)=ru12ru22ru1ru2=iPu1ru1,i2 iPu2ru2,i2 iPu1,u2ru1,iru2,i
        考虑不同用户的评价范围不一样,比如乐天派一般评分范围一般会高于悲观的人,会将评分进行去中心化再进行计算,即
      • 修正余弦相似度,公式变为
        sim ⁡ ( u 1 , u 2 ) = r u 1 ⋅ r u 2 ∣ r u 1 ∣ 2 ∣ r u 2 ∣ 2 = ∑ i ∈ P u 1 , u 2 ( r u 1 , i − r ˉ u 1 ) ( r u 2 , i − r ˉ u 2 ) ∑ i ∈ P u 1 ( r u 1 , i − r ˉ u 1 ) 2 ∑ i ∈ P u 2 ( r u 2 , i − r ˉ u 2 ) 2 \operatorname{sim}(u_{1}, u_{2})=\frac{r_{u_{1}} \cdot r_{u_{2}}}{\left|r_{u_{1}}\right|_{2}|r_{u_{2}}|_{2}}=\frac{\sum_{i \in P_{u_1,u_2}} (r_{u_{1}, i}-{\bar{r}_{u_{1}}}) (r_{u_{2}, i}-\bar{r}_{u_2})}{\sqrt{\sum_{i \in P_{u_1}} (r_{u_{1},i}-\bar{r}_{u_{1}})^{2}} \sqrt{\sum_{i \in P_{u_2}}(r_{u_{2},i}-\bar{r}_{u_{2}})^{2}}} sim(u1,u2)=ru12ru22ru1ru2=iPu1(ru1,irˉu1)2 iPu2(ru2,irˉu2)2 iPu1,u2(ru1,irˉu1)(ru2,irˉu2)
        适用于定量情况,比如评分场景,要求数据具有一定的稠密度。注意如果计算一个评价很少电影的用户与一个评价很多电影的用户会导致相似度为0.
      • 皮尔森相关系数
        公式:
        sim ⁡ ( u 1 , u 2 ) = ∑ i ∈ P u 1 . u 2 ( r u 1 , i − r ‾ u 1 ) ( r u 2 , i − r ‾ u 2 ) ∑ i ∈ P u 1 . u 2 ( r u 1 , i − r ‾ u 1 ) 2 ∑ i ∈ P u 1 . u 2 ( r u 2 , i − r ‾ u 2 ) 2 \operatorname{sim}(u_1, u_2)=\frac{\sum_{i \in P_{u_1.u_2}}\left(r_{u_1, i}-\overline{r}_{u_1}\right)\left(r_{u_2, i}-\overline{r}_{u_2}\right)}{\sqrt{\sum_{i \in P_{u_1.u_2}}\left(r_{u_1, i}-\overline{r}_{u_1}\right)^{2}} \sqrt{\sum_{i \in P_{u_1.u_2}}\left(r_{u_2, i}-\overline{r}_{u_2}\right)^{2}}} sim(u1,u2)=iPu1.u2(ru1,iru1)2 iPu1.u2(ru2,iru2)2 iPu1.u2(ru1,iru1)(ru2,iru2)
        皮尔森系数跟修正的余弦相似度几乎一致,两者的区别在于分母上,皮尔逊系数的分母采用的评分集是两个用户的共同评分集(就是两个用户都对这个物品有评价),而修正的余弦系数则采用两个用户各自的评分集。
      • L p − n o r m s L_{p}-norms Lpnorms
        公式: s i m ( u 1 , u 2 ) = 1 ∣ r u 1 − r u 2 ∣ p p + 1 sim(u_1,u_2) =\frac{1}{ \sqrt[p]{| r_{u_1}-r_{u_2} |^p}+1} sim(u1,u2)=pru1ru2p +11
        p p p取不同的值对应不同的距离公式,空间距离公式存在的不足这边也存在。对数值比较敏感。
  • 有了相似度测量后,那么基于邻域的推荐思路是怎样的呢?
    过滤掉被评论较少的items以及较少评价的users,然后计算完users之间的相似度后,寻找跟目标user偏好既有大量相同的items,又存在不同的items的近邻几个users(可采用K-top、阈值法、聚类等方式),然后进行推荐。步骤如下:
    (1) 选择:选出最相似几个用户,将这些用户所喜欢的物品提取出来并过滤掉目标用户已经喜欢的物品
    (2) 评估:对余下的物品进行评分与相似度加权
    (3) 排序:根据加权之后的值进行排序
    (4) 推荐:由排序结果对目标用户进行推荐

  • 协同过滤算法具有特征学习的特点,试解释原理以及如何学习

  1. 特征学习:把users做为行,items作为列,即得评分矩阵 R m , n = [ r i , j ] R_{m,n}=[r_{i,j}] Rm,n=[ri,j],通过矩阵分解的方式进行特征学习,即将评分矩阵分解为 R = U m , d V d , n R=U_{m,d}V_{d,n} R=Um,dVd,n,其中 U m , d U_{m,d} Um,d为用户特征矩阵, V d , n V_{d,n} Vd,n表示items特征矩阵,其中 d d d表示对items进行 d d d个主题划分。举个简单例子,比如看电影的评分矩阵划分后, U U U中每一列表示电影的一种主题成分,比如搞笑、动作等, V V V中每一行表示一个用户的偏好,比如喜欢搞笑的程度,喜欢动作的程度,值越大说明越喜欢。这样,相当于,把电影进行了主题划分,把人物偏好也进行主题划分,主题是评分矩阵潜在特征。
  2. 学习方式
    • SVD,分解式为 R m , n = U m , m Σ m , n V n , n T R_{m,n}=U_{m,m}\Sigma_{m,n}V_{n,n}^T Rm,n=Um,mΣm,nVn,nT
      其中 U U U为user特征矩阵, Σ \Sigma Σ为权重矩阵体现对应特征提供的信息量, V V V为item特征矩阵。同时可通过SVD进行降维处理,如下

      奇异值分解的方式,便于处理要目标user(直接添加到用户特征矩阵的尾部即可),然而要求评分矩阵元素不能为空,因此需要事先进行填充处理,同时由于user和item的数量都比较多,矩阵分解的方式计算量大,且矩阵为静态的需要随时更新,因此实际中比较少用。

    • Funk SVD, Funk SVD 是去掉SVD的 Σ \Sigma Σ成分,优化如下目标函数,可通过梯度下降法,得到的 U , V U,V U,V矩阵
      J = min ⁡ u v ∑ ( u , i ) ∈ k n o w n ( r u , i − u u v i ) + λ ( ∣ u ∣ 2 + ∣ v ∣ 2 ) J=\min _{u v} \sum_{(u, i) \in k n o w n}\left(r_{u,i}-u_{u} v_{i}\right)+\lambda\left(|u|^{2}+|v|^{2}\right) J=uvmin(u,i)known(ru,iuuvi)+λ(u2+v2)
      Funk SVD 只要利用全部有评价的信息,不需要就空置进行处理,同时可以采用梯度下降法,优化较为方便,较为常用。

      有了user特征信息和item特征信息,就可用 u u v i u_{u} v_{i} uuvi对目标用户进行评分预测,如果目标用户包含在所计算的特征矩阵里面的话。针对于新user、新item,协同过滤失效。

  • 如何简单计算user偏差以及item偏差?
    b u = 1 ∣ I u ∣ ∑ i ∈ I u ( r u , i − μ )   b i = 1 ∣ U i ∣ ∑ u ∈ U i ( r u , i − b u − μ ) b_u=\frac{1}{|I_u|}\sum_{i \in I_u}(r_{u,i}-\mu) \ b_i=\frac{1}{|U_i|}\sum_{u \in U_i}(r_{u,i}-b_u-\mu) bu=Iu1iIu(ru,iμ) bi=Ui1uUi(ru,ibuμ)

  • 如何选择协同过滤算法是基于user还是基于item
    一般,谁的量多就不选谁。然而基于user的会给推荐目标带来惊喜,选择的范围更为宽阔,而不是基于推荐目标当前的相似item。因此如果要给推荐目标意想不到的推荐,就选择基于user的方式。可以两者结合。

  • 协同过滤的优缺点

    1. 缺点:
      (1)稀疏性—— 这是协同过滤中最大的问题,大部分数据不足只能推荐比较流行的items,因为很多人只有对少量items进行评价,而且一般items的量非常多,很难找到近邻。导致大量的user木有数据可推荐(一般推荐比较流行的items),大量的item不会被推荐
      (2)孤独用户——孤独user具有非一般的品味,难以找到近邻,所以推荐不准确
      (3) 冷启动——只有大量的评分之后,才能协同出较多信息,所以前期数据比较少,推荐相对不准确;而如果没有人进行评分,将无法被推荐
      (4)相似性——协同过滤是与内容无关的推荐,只根据用户行为,所以倾向于推荐较为流行的items。
  • 优点:
    (1)不需要领域知识,存在users和items的互动,便能进行推荐

    (2)简单易于理解
    (3)相似度计算可预计算,预测效率高

  • 协同过滤与关联规则的异同
    关联规则是不考虑tems或者使用它们的users情况下分析内容之间的关系,而协同过滤是不考虑内容直接分析items之间的关系或者users之间的关系。两者殊途同归均能用于推荐系统,但是计算方式不同。

  • 实践中的一些注意点
    (1) 过滤掉被评价较少的items
    (2) 过滤掉评价较少的users
    (3) 可用聚类方式缩小搜索空间,但是面临找不到相同偏好的用户(如果用户在分界点,被误分的情况),这种方式通过缩小搜索空间的方式优化协同过滤算法
    (4) 使用的时候,可以考虑时间范围,偏好随着时间的改变会改变

面试真题

使用协同过滤算法之前,数据应该如何进行预处理?
协同过滤的方式有哪些?
如何通过相似度计算设计协同过滤推荐系统?
请谈谈你对协同过滤中特征学习的理解?
如何将协同过滤用于推荐系统?
FUNK SVD相对于SVD有哪些优势?
如何求解FUNK SVD?
请描述下协同过滤的优缺点?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1536558.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PublicCMS 后台模块 站点执行脚本RCE漏洞

PublicCMS是采用2023年主流技术开发的开源JAVACMS系统。由天津黑核科技有限公司开发,架构科学,轻松支撑上千万数据、千万PV;支持可视化编辑,多维扩展,全文搜索,全站静态化,SSI,动态页…

基于Spring Boot的拍卖管理系统设计与实现

摘 要 随着社会的发展,系统的管理形势越来越严峻。越来越多的用户利用互联网获得信息,但各种信息鱼龙混杂,信息真假难以辨别。为了方便用户更好的获得信息,因此,设计一种安全高效的拍卖管理系统极为重要。 为设计一个…

【Linux】Linux工具学习之gcc/g++

🔥博客主页: 小羊失眠啦. 🎥系列专栏:《C语言》 《数据结构》 《C》 《Linux》 《Cpolar》 ❤️感谢大家点赞👍收藏⭐评论✍️ 接上文,我们已经学习了 Linux 中的编辑器 vim 的相关使用方法,现在…

就业班 第二阶段 2401--3.19 day2 DDL DML DQL 多表查询

在mysql库里的语句 \G 竖着排列 ; \g 横着排列 数据库用户组成 双单引号单都行 -- sql的注释 创建mysql用户:(兼容5.7 8.0 ) create user root% identified by Qwer123..; grant all on *.* to root%; flush privileges; mysql 5.7 grant …

使用easyYapi生成文档

easyYapi生成文档 背景1.安装配置1.1 介绍1.2 安装1.3 配置1.3.1 Export Postman1.3.2 Export Yapi1.3.3 Export Markdown1.3.4 Export Api1.3.6 常见问题补充 2. java注释规范2.1 接口注释规范2.2 出入参注释规范 3. 特定化支持3.1 必填校验3.2 忽略导出3.3 返回不一致3.4 设置…

【单调队列】第十四届蓝桥杯省赛C++ C组 Java C组/研究生组 Python A组《子矩阵》(C++)

【题目描述】 给定一个 nm (n 行 m 列)的矩阵。 设一个矩阵的价值为其所有数中的最大值和最小值的乘积。 求给定矩阵的所有大小为 ab (a 行 b 列)的子矩阵的价值的和。 答案可能很大,你只需要输出答案对 998244353…

羽毛球移动步法训练

文章目录 简介训练量01 小颠步02 左右并步03 交叉步04 前后并步05 高抬腿06 高抬腿转髋07 左右移动跳08 并步跳09 前后小密步10 弓箭步跳11 开合跳参考文献 简介 本文参考:陈金羽毛球移动专项步法训练(BV1cS4y1V7xA)和颜叨叨的移动专项步法跟…

数据表练习

思维导图 面试题答问1、IO多路复用的引入目的和原理 目的:在有操作系统时,可以用多线程和进程完成任务并发执行,没有操作系统的情况下可以使用IO多路复用技术来进行任务并发。 原理:将多个阻塞任务的文件描述符统一放到一个检查容…

Qt 容器类控件

Group Box 使用 QGroupBox 实现一个带有标题的分组框可以把其他的控件放到里面作为一组,这样看起来能更好看一点. 核心属性 属性说明title分组框的标题alignment分组框内部内容的对齐方式flat是否是 “扁平” 模式checkable是否可选择. 设为 true,则在…

Golang基础知识(笔记迁移)

golang 变量作用域 局部作用域:代码块、函数内的全局作用域:顶层作用域,代码块外的就是全局,如果变量名大写,则改变量整个程序都可以使用。 类型断言 golang的类型断言在变量后加上.(type),如果类型断言…

【Android】系统启动流程分析 —— init 进程启动过程

本文基于 Android 14.0.0_r2 的系统启动流程分析。 一、概述 init 进程属于一个守护进程,准确的说,它是 Linux 系统中用户控制的第一个进程,它的进程号为 1,它的生命周期贯穿整个 Linux 内核运行的始终。Android 中所有其它的进程…

python5:基于多进程的并发编程、基于协程的并发编程的学习笔记

进程 为什么要使用多进程?——GIL的存在,多线程实际不是并发执行 将任务分为两类:IO密集型(多线程)CPU密集型(多进程) 多进程的基本用法 concurrent.futures.process.ProcessPoolExecutor#进…

移除和替换任何内容:AI 驱动的图像修复工具 | 开源日报 No.204

Sanster/IOPaint Stars: 15.1k License: Apache-2.0 IOPaint 是一款由 SOTA AI 模型驱动的图像修复工具。 该项目解决了从图片中移除任何不需要的对象、瑕疵或人物,以及擦除和替换图片上任何内容(由稳定扩散技术支持)的问题。 完全免费且开…

ETH Denver 2024 精彩回顾|波卡,远不止一个区块链

ETH Denver 2024 于 2 月 23 日至 3 月 3 日在美国丹佛举行,该活动由 SporkDAO 主办(SporkDAO 是一个来自美国科罗拉多州的 Web3 公益开发者组织,其前身或者说起源就是 ETHDenver,后随着组织发展逐渐转变为 DAO 开展了研究、投资等…

YOLO-v8-seg实例分割使用

最近需要实例分割完成一些任务,一直用的SAM(segment anything)速度慢,找一个轻量分割模型。 1. YOLO-v8-seg使用 git clone https://github.com/ultralytics/ultralytics.git cd ultralytics vim run.py from ultralytics import YOLO# L…

JS加密解密之字符编码知识

在前端开发中,字符编码是一个至关重要的概念,特别是在数据传输、加密和解密等方面。JavaScript作为一种常用的脚本语言,在处理字符编码时也有其独特之处。本文将详细介绍JavaScript中的字符编码知识,包括字符编码的分类和相关案例…

【C++】1600. 请假时间计算

问题:1600. 请假时间计算 类型:基本运算、整数运算 题目描述: 假设小明的妈妈向公司请了 n 天的假,那么请问小明的妈妈总共请了多少小时的假,多少分钟的假?(提示: 1 天有 24 小时&…

2_27. 移除元素

2_27. 移除元素 难度: 简单 提示: 给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素,并返回移除后数组的新长度。 不要使用额外的数组空间,你必须仅使用 O(1) 额外空间并 原地 修改输入数组。 元素的顺序可以改变…

知识管理入门:轻松选择合适的知识管理软件

你是不是经常觉得自己的大脑像个杂乱的仓库,各种信息、知识和想法在里面乱窜,找不到头绪?别担心,知识管理软件来帮你解决这个问题啦!今天,我们就来聊聊知识管理软件这个神奇的工具,新手也能轻松…

python基础——语句

一、条件语句 就是 if else 语句 ! 代表不等于 代表等于if 关键字,判断语句,有“如果”的意思,后面跟上判断语句else 常和“if” 连用,有“否则”的意思,后面直接跟上冒号 …