传统推荐模型(一)协同过滤算法_UserCF和ItemCF

news2025/1/14 0:41:47

传统推荐模型(一)协同过滤算法_UserCF

1、UserCF

协同过滤就是协同大家的反馈、评价和意见一起对海量的信息进行过滤,从中筛选出目标用户可能感兴趣的信息的推荐过程。

物品1物品2物品3物品4物品5
用户131233
用户243435
用户333154
用户415521
用户55344?

(1) 电商网站的商品库里一共有5件商品:物品1、物品2、物品3、物品4、物品5

(2) 用户5 访问该电商网站,电商网站的推荐系统需要决定是否推荐物品5给用户5。换言之,推荐系统需要预测用户5是否喜欢物品5。为了进行这项预测,可以利用的数据有用户5对其他商品的历史评价数据,以及其他用户对这些商品的历史评价数据。

(3) 将用户对物品评分数据写成上图的形式(称为共现矩阵),生成共现矩阵之后,推荐问题就转换成了预测矩阵中问号元素所示的值的问题。既然是“协同”过滤,用户理应考虑与自己兴趣相似的用户的意见。因此,预测的第一步就是找到与用户5兴趣最相似的 n (Top n 用户这里的n是一个超参数)个用户,然后综合相似用户对物品5的评价,得出用户5对物品5评价的预测。

因此,需要共现矩阵中,需要找到与用户5最相似的n个用户。在协同过滤的过程中,用户相似度的计算是算法中最关键的一步。计算用户i和用户j相似度问题,就是计算用户向量i和用户向量j之间的相似度。

(1)相似度的计算方式

1、杰卡德相似度(Jaccard)

这个是衡量两个集合的相似度一种指标。 两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示
具体可以参考:杰卡德相似度(Jaccard)详解及在UserCF中的应用

2、余弦相似度

余弦相似度(Cosine Similarity)衡量了用户向量i和用户向量j之间的向量夹角大小。显然,夹角越小,证明余弦相似度越大,两个用户越相似。

在这里插入图片描述

计算用户5和用户1的余弦相似性

用户向量如下:

user1(3,1,2,3) user2(4,3,4,3) user3(3,3,1,5) user4(1,5,5,2) user5 (5,3,4,4)

在这里插入图片描述

users = ["user1", "user2", "user3", "user4", "user5"]
items = ["p1", "p2", "p3", "p4"]

#用户对物品评分数据集
datasets = [
    [3,1,2,3],
    [4,3,4,3],
    [3,3,1,5],
    [1,5,5,2],
    [5,3,4,4]
]

df = pd.DataFrame(datasets,columns=items,index=users)
df

在这里插入图片描述

from sklearn.metrics.pairwise import  cosine_similarity


cosine_similarity(
  [df.loc['user5'],df.loc['user1']]
)

在这里插入图片描述

对于[评分数据不规范]的时候,也就是说,存在有的用户喜欢打高分,有的用户喜欢打低分情况的时候,有的用户喜欢乱打分的情况,这时候consine相似度算出来的结果可能就不是那么准确了,可以考虑皮尔逊相关系数.

3、皮尔逊相关系数

相比余弦相似度,皮尔逊相关系数通过使用用户平均分对各独立评分进行修正,减小了用户评分偏置的影响。

简单的说,其实pearson做的就是把两个向量都减去他们的均值,然后再计算consine值。

在这里插入图片描述

计算用户5和用户1的皮尔逊相关系数

用户向量如下:

user1(3,1,2,3) user2(4,3,4,3) user3(3,3,1,5) user4(1,5,5,2) user5 (5,3,4,4)

用户5的均值为4,用户1的均值为2.25

向量减去均值为

user1(1,-1,0,0) user5 (0.75,-1.25,0.25,0.75)

计算这两个新向量的余弦相似度,和上面计算过程一致,可以得到结果为0.852

np.corrcoef(
   df.loc['user5'],
   df.loc['user1']
)

在这里插入图片描述

基于皮尔逊系数的思路,还可以通过引入物品平均分的方式,减少物品评分偏置对结果的影响。

在这里插入图片描述

4、欧式距离、曼哈顿距离、马氏距离

欧式距离

在这里插入图片描述

曼哈顿距离

曼哈顿距离,不能像 绿线(/) 一样,横穿建筑,而是需要和其它三条线一样, 穿过大街小巷

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

马氏距离

在这里插入图片描述

可以参考: https://blog.csdn.net/weixin_39910711/article/details/113985520

(2)基于User的协同过滤(UserCF)

1、计算用户5和其他用户的相似度

import numpy as np
from sklearn.metrics.pairwise import  cosine_similarity


#用户对物品评分数据集
datasets = [
    [3,1,2,3],
    [4,3,4,3],
    [3,3,1,5],
    [1,5,5,2],
    [5,3,4,4]
]


user_similar = cosine_similarity(
    datasets
)
user_similar = pd.DataFrame(user_similar,columns=users,index=users)
print("用户之间的余弦相似度")
user_similar

在这里插入图片描述

user_similar = np.corrcoef(
    datasets
)
user_similar = pd.DataFrame(user_similar,columns=users,index=users)
print("用户之间的皮尔逊相似度")
user_similar

在这里插入图片描述

2、根据相似度用户计算用户5对物品5的最终得分

在获得 Top n 相似用户之后,利用 Top n 用户生成最终推荐结果的过程如下. 假设“目标用户与其相似用户的喜好是相似的”,可根据相似用户的已有评价对目标用户的偏好进行预测。

方式一:

最常用的方式是利用 [用户相似度] 和[相似用户的评价]的加权平均获得目标用户的评价预测

在这里插入图片描述

假设n为2,那么用余弦相似度计算方式如下:

在这里插入图片描述

方式二:

在这里插入图片描述

在这里插入图片描述

假设n为2,那么用皮尔逊相似度计算方式如下:
在这里插入图片描述

3、根据用户评分对用户进行推荐

可以定一个阈值,预测评分超过阈值,即可推荐给用户,例如本例定阈值为3,超过阈值3,因此可以推荐物品5给用户5.

(3)基于User的协同过滤(UserCF)缺点

以上介绍的协同过滤算法基于用户相似度进行推荐,因此也被称为基于用户的协同过滤 (UserCF),它符合人们直觉上的兴趣相似的朋友喜欢的物品,我也喜欢的思想,但从技术的角度,它也存在一些缺点,主要包括以下两点

(1)在互联网应用的场景下,用户数往往远大于物品数,而 UserCF 需要维护用户相似度矩阵以便快速找出 Top n 相似用户。该用户相似度矩阵的存储开销非常大,而且随着业务的发展,用户数的增长会导致用户相似度矩阵的存储空间以 n的平方 的速度快速增长,这是在线存储系统难以承受的扩展速度

(2)用户的历史数据向量往往非常稀疏,对于只有几次购买或者点击行为的用户来说,找到相似用户的准确度是非常低的,这导致 UserCF 不适用于那些正反馈获取较困难的应用场景 (如酒店预定、大件商品购买等低频应用)。

2、ItemCF

由于UserCF技术上的两点缺陷导致很多电商平台并没有采用这种算法,而是采用了ItemCF算法实现最初的推荐系统。

如果想知道用户5对物品5打多少分,基于物品的协同过滤算法会这么做:

  1. 首先计算一下物品5和物品1,2,3,4之间的相似性(它们也是向量的形式,每一列的值就是它们的向量表示,因为ltemCF认为物品a和物品c具有很大的相似度是因为喜欢物品a的用户大都喜欢物品c,所以就可以基于每个用户对该物品的打分或者说喜欢程度来向量化物品)

  2. 找出与物品5最相近的n个物品

  3. 根据用户5对最相近的n个物品的打分去计算对物品5的打分情况

物品1物品2物品3物品4物品5
用户131233
用户243435
用户333154
用户415521
用户55344?

物品向量如下:

p1(3,4,3,1) p2(1,3,3,5) p3(2,4,1,5) p4(3,3,5,2) p5 (3,5,4,1)

直接计算余弦相似度和皮尔逊相似度

items = [
    [3,4,3,1] ,
    [1,3,3,5] ,
    [2,4,1,5] ,
    [3,3,5,2] ,
    [3,5,4,1]
]

items_index = ["p1", "p2", "p3", "p4", "p5"]

item_similar = cosine_similarity(
    items
)
item_similar = pd.DataFrame(item_similar,columns=items_index,index=items_index)
print("物品之间的余弦相似度")
item_similar

在这里插入图片描述

item_similar = np.corrcoef(
    items
)
item_similar = pd.DataFrame(item_similar,columns=items_index,index=items_index)
print("物品之间的皮尔逊相似度")
item_similar

在这里插入图片描述

可以看出物品1和物品4和物品5相似度高;

利用皮尔逊相似度,并利用方式2计算评分

在这里插入图片描述

3、UserCF和ItemCF的应用场景

  • 由于 UserCF 基于用户相似度进行推荐,使其具备更强的社交特性用户能够快速得知与自己兴趣相似的人最近喜欢的是什么,即使某个兴趣点以前不在自己的兴趣范围内,也有可能通过“朋友”的动态快速更新自己的推荐列表。这样的特点使其非常适用于新闻推荐场景。因为新闻本身的兴趣点往往是分散的,相比用户对不同新闻的兴趣偏好,新闻的及时性、热点性往往是其更重要的属性,而 UserCF 正适用于发现热点,以及跟踪热点的趋势

  • ItemCF 更适用于兴趣变化较为稳定的应用,比如在Amazon 的电商场景中,用户在一个时间段内更倾向于寻找一类商品,这时利用物品相似度为其推荐相关物品是契合用户动机的。在 Netflix 的视频推荐场景中,用户观看电影、电视剧的兴趣点往往比较稳定,因此利用 ItemCF 推荐风格、类型相似的视频是更合理的选择。

4、协同过滤的下一步发展

协同过滤虽然是一个非常直观而且可解释性很强的模型,但是它并不具备较强的泛化能力。存在一个比较严重的问题——热门的物品具有很强的头部效应,容易跟大量物品产生相似性;而尾部的物品由于特征向量稀疏,很少与其他物品产生相似性,导致很少被推荐。

下图计算了A、B、C、D四个物品的余弦相似度,通过物品相似度矩阵可知,A、B、C 之间的相似度均为 0,而与 A、B、C最相似的物品均为物品 D,因此在以 ItemCF 为基础构建的推荐系统中,物品D将被推荐给所有对 A、B、C 有过正反馈的用户。

在这里插入图片描述

但事实上,物品 D与A、B、C 相似的原因仅在于物品 D 是一件热门商品,系统无法找出 A、B、C 之间相似性的主要原因是其特征向量非常稀疏,缺乏相似性计算的直接数据。这一现象揭示了协同过滤的天然缺陷——推荐结果的头部效应较明显,处理稀疏向量的能力弱。

为解决上述问题,同时增加模型的泛化能力,矩阵分解技术被提出。该方法在协同过滤共现矩阵的基础上,使用更稠密的隐向量表示用户和物品,挖掘用户和物品的隐含兴趣和隐含特征,在一定程度上弥补了协同过滤模型处理稀疏矩阵能力不足的问题。

另外,协同过滤仅利用用户和物品的交互信息,无法有效地引入用户年龄性别、商品描述、商品分类、当前时间等一系列用户特征、物品特征和上下文特征,这无疑造成了有效信息的遗漏。 为了在推荐模型中引入这些特征,推荐系统逐渐发展到以逻辑回归模型为核心的、能够综合不同类型特征的机器学习模型的道路上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/156314.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OneNote(或印象笔记)迁移到Joplin的方法

2023年1月10日实操记录简介背景是必须卸载OneNote,所以要迁移笔记。告别了用了23年的Outlook ,和10年左右的OneNote,小伤感,自此一别 就不能用练就的VBA技能在Excel和Access中处理数据了。。。基本前提Joplin支持.enex格式文件的导…

总结述职报告撰写方法,报告目的、对象、内容、技巧等

导语 又到年末时,述职报告再一次席卷而来。这篇文章将带来干货满满的述职报告撰写方法,包括述职目的、对象、内容、技巧等多个方面。 一、述职目的 有多少人认为,述职只是走个形式,走个过场的? 如果你这样认为&#x…

2023济南制药机械展|中国(济南)国际制药机械与包装技术展览会

2023中国(济南)国际制药机械与包装技术展览会将于2023年3月30-4月1日在山东国际会展中心(济南市槐荫区日照路1号)同期举办:2023第11届国际生物发酵展2023国际生化仪器与实验室装备展2023国际生物技术与生物制药展支持单…

以太网链路聚合与交换机堆叠、集群

网络的可靠性 网络的可靠性指当设备或者链路出现单点或者多点故障时保证网络服务不间断的能力网络的可靠性可以从单板、设备、链路多个层面实现 一般重要的核心设备都有一定的冗余 s12700E-8机框正面结构 框式交换机由机框、电源模块、风扇模块、主控板、交换网板&#xff…

CSS入门六、常用技巧

零、文章目录 文章地址 个人博客-CSDN地址:https://blog.csdn.net/liyou123456789个人博客-GiteePages:https://bluecusliyou.gitee.io/techlearn 代码仓库地址 Gitee:https://gitee.com/bluecusliyou/TechLearnGithub:https:…

人工智能-linux高级操作命令

目录1、 重定向命令2、查看文件内容命令3、链接命令3.1 软链接4、查找文件内容命令5、查找文件命令6、压缩和解压缩文件7、文件权限命名8、获取管理员权限的相关命令9、远程登陆、远程拷贝10、软件安装与卸载11、vim介绍1、 重定向命令 将目录下的文件名全部写入新文件 touch …

场景编程集锦 - BMI指数与健身达人

1. 场景描述 BMI指数(身体质量指数,英文Body Mass Index)是用体重公斤数除以身高米数的平方得出的数字,是目前国际上通用的衡量人体胖瘦程度以及是否健康的一个标准。“身体质量指数”这个概念,是由19世纪中期的比利时…

马蹄集 宽度与对齐

宽度与对齐 难度:白银 时间限制:1秒巴占用内存:64M 输出455、-123、987654,宽度为5,分别左对齐和右对齐 格式 输入格式:无 输出格式:输出为整型,空格分隔。每个数的输出占一行 #inc…

[34]. 在排序数组中查找元素的第一个和最后一个位置

在排序数组中查找元素的第一个和最后一个位置题目算法设计:二分查找题目 算法设计:二分查找 进行两次二分查找(定制版本),第一次先查找【第一个大于等于target的数】,第二次再查找【第一个大于target的数】…

Mac安装python3并配置环境变量

文章目录homebrew 安装 python3配置 python3 环境变量homebrew 安装 python3 可以用 homebrew 安装,也可以官网下载安装,我这里选择使用 homebrew 安装,没有装 homebrew 的小伙伴请自行百度 brew install python3我们执行下 python3 发现可…

Centos7安装高版本zshzim框架安装powerlevel10k

1. 安装高版本zsh 1.1 卸载低版本zsh sudo yum remove zsh -y1.2 下载源码 源码:https://zsh.sourceforge.io/Arc/source.html # 下载 wget https://jaist.dl.sourceforge.net/project/zsh/zsh/5.9/ # 解压 $ tar xvf zsh-5.9.tar.xz1.3 编译安装 yum install …

新应用——养老院管理应用,信息化的多功能管理应用

养老院管理系统专门为医养结合的养老机构量身打造的信息化管理系统,还适用于社区医院,包含诊断、病历、财务、物资、照护记录、处方等功能点。此应用分为经营管理、长者管理、物资库存、财会综合等四个大模块,全方面打造适用于养老院&#xf…

精准招聘!一图了解2023牛客校招专场

当「简历海投」成为当代大学生一种「硬核求职」的方式,如何精准地找到与招聘目标相匹配的专业人才成为HR校园招聘工作中的一大难点。为了帮助企业解决这些难题,牛客为企业推出了「牛客招聘专场」助力企业做好雇主品牌传播,提升收到的简历质量…

自动驾驶道路曲率计算

自动驾驶系列 车道曲率和中心点偏离距离计算 文章目录自动驾驶系列目标一、曲率的介绍圆的曲率曲线的曲率二、实现1.计算曲率半径的方法,代码实现如下:总结目标 知道车道曲率计算的方法 知道计算中心点偏离距离的计算 一、曲率的介绍 曲线的曲率就是针…

CSS入门五、定位

零、文章目录 文章地址 个人博客-CSDN地址:https://blog.csdn.net/liyou123456789个人博客-GiteePages:https://bluecusliyou.gitee.io/techlearn 代码仓库地址 Gitee:https://gitee.com/bluecusliyou/TechLearnGithub:https:…

Revit出图问题:打印机中新建纸张尺寸?批量导出图纸?

一、Revit中在打印机中新建纸张尺寸 Revit导出PDF图纸,如何在打印机中新建纸张的尺寸? 在导出PDF的时候,我们需要将图纸放在合适的纸张页面上,而这个时候系统又没有提供所需的页面尺寸,如图1所示。 这种情况下我们该如…

数据结构学习笔记——二叉排序树

目录一、二叉排序树的定义二、二叉排序树的插入和构造三、二叉排序树的查找四、二叉排序树的平均查找长度五、二叉排序树的删除六、二叉排序树和二分查找对比二叉排序树的查找过程与折半查找(二分查找)相似,即折半查找的判定树就是一棵二叉排…

【安卓学习笔记】界面编程入门

安卓应用采用View组件进行界面布局,可以通过两种方式进行布局,分别是XML文件和Java代码。 其中采用XML文件进行布局是较好的方式,因为这样可以将XML文件和Java代码分开编写,使得项目结构变得更加清晰。 简单的图片浏览器 下面是…

git仓库清理瘦身解决 .git文件夹过大的问题

git仓库清理找了很多资料和方案都没有很完美执行成功的;现在找到一个完美方案,分享给大家;希望能帮助大家 问题 1、gitlab代码开发了仓库开发了五年了,代码只有10M;clone的时候要700多兆很浪费时间 2、创建分支和切换…

Java泛型通配符的使用

目录 泛型在继承方面的体现 类A是类B的父类,G和G二者不具有子父类关系,二者是并列关系 类A是类B的父类,A是B的父类 通配符的使用 类A是类B的父类,G和G是没有关系的,二者共同父类是:G 使用通配符后,数…