推荐系统三十六式学习笔记:原理篇.近邻推荐09|协同过滤中的相似度计算方法有哪些?

news2024/11/26 19:51:50

目录

  • 相似度的本质
  • 相似度的计算方法:
    • 1、欧式距离
    • 2、余弦相似度
    • 3、皮尔逊相关度
    • 4 、杰卡德(Jaccard)相似度
  • 总结

相似度的本质

推荐系统中,推荐算法分为两个门派,一个是机器学习派,一个是相似度门派。机器学习派是后起之秀,而相似度门派则是泰山北斗。
近邻推荐,近邻并不一定只是在三维空间下的地理位置的近邻,也可以是高维空间的近邻。

近邻推荐的核心就是相似度计算方法的选择,由于近邻推荐并没有采用最优化思路,所以效果通常取决于矩阵的量化方式和相似度的选择。

相似度,与之相对应的一个概念是距离,两者都可以用来度量两个物体在高维空间中的亲疏关系。

推荐系统中的相似度门派,实际上有这么一个潜在假设:如果两个物体很相似,也就是距离很近,那么这两个物体就很容易产生一样的动作。

在近邻推荐中,最常用的相似度是余弦相似度,除了余弦相似度,还有欧式距离,皮尔逊相关度,自适应余弦相似度,局部敏感哈希等,使用场景各有不同,今天,我会分别一一介绍。

相似度的计算方法:

数据分类
相似度计算对象是向量,或者叫做高维空间下的坐标。那表示这个向量的数值就有两只能够:
1、实数值;
2、布尔值,也就是0或1;

下面介绍的不同计算方法适用于不同的数据种类。

1、欧式距离

欧氏距离,是一个欧式空间下度量距离的方法。两个物体,都在同一空间下表示为两个点,假如叫做p和q,分别都是n个坐标。那么欧式距离就是衡量这两个点之间的距离,欧式距离不适合布尔向量之间。
计算公式如下:
E ( p , q ) = ∑ i = 1 n ( p i − q i ) 2 E(p,q) = \sqrt {\sum_{i=1}^n{(p_i - q_i)^2}} E(p,q)=i=1n(piqi)2

这个公式就是:每个坐标上的值相减,求平方和,最后输出方根。
显然,欧式距离得到的值是一个非负数,通常相似度计算度量结果希望是[-1,1]或者[0,1]之间,所以欧式距离无法直接应用到这种场景下,需要转换,最常用的转换公式如下:

1 1 + E ( p , q ) \frac{1}{1+ E(p,q)} 1+E(p,q)1
距离加一后取倒数。这个公式能够把范围为0到正无穷的欧式距离转换为0到1的相似度。
欧式距离度量的是空间中两个点的绝对差异,适用于分析用户能力模型之间的差异,比如消费能力、贡献内容的能力等;

2、余弦相似度

余弦相似度,度量的是两个向量之间的夹角,其实就是用夹角的余弦值来度量,所以名字叫余弦相似度。当两个向量的夹角为0度时,余弦值为1,当夹角为90度时,余弦值为0,当夹角为180度时,余弦值为-1。

余弦相似度在度量文本相似度,用户相似度、物品相似度的时候都比较常用;但是需要注意的是,余弦相似度的特点:它与向量的长度无关。因此,余弦相似度计算时需要对向量长度做归一化;
c o s ( p , q ) = ∑ i = 1 n p i ∗ q i ∑ i = 1 n p i 2 ∗ ∑ i = 1 n q i 2 cos(p,q) = \frac{\sum_{i=1}^n{p_i * q_i}}{\sqrt{\sum_{i=1}^n{p_i}^2 } * \sqrt{\sum_{i=1}^n{q_i}^2 }} cos(p,q)=i=1npi2 i=1nqi2 i=1npiqi

经过向量长度归一化后的相似度量方式,背后隐藏着这样一种思想:两个向量,只要方向一致,无论程度强弱,都可以视为相似。

在协同过滤中,如果选择余弦相似度,某种程度上更加依赖两个物品的共同评价用户数,而不是用户给与的评分多少。这是由于余弦相似度被向量长度归一化后的结果。

余弦相似度对绝对绝对值大小不敏感这件事,在某些应用上仍然有些问题。

举个例子,用户A对两部电影的评分分别为1分、2分,用户B对同样两部电影的评分分别是4分、5分。用余弦相似度计算出来,两个用户的相似度达到0.98.这显然与实际不符,用户A明显不喜欢这两部电影。

用户电影1电影2
用户A12
用户B45

计算用户A和用户B的余弦相似度:
c o s ( A , B ) = 1 ∗ 4 + 2 ∗ 5 1 2 + 2 2 ∗ 4 2 + 5 2 = 14 205 ≈ 0.98 cos(A,B) =\frac{1*4+ 2*5}{ \sqrt{1^2+2^2} * \sqrt{4^2+5^2}} = \frac{14}{\sqrt{205}}≈0.98 cos(A,B)=12+22 42+52 14+25=205 140.98

针对这个问题,对余弦相似度有个改进,改进的算法叫做调整的余弦相似度(Adjusted Cosine Similarity)。调整的方法很简单,就是先计算向量每个维度上的均值,然后每个向量在各个维度上都减去均值后,再计算余弦相似度。
电影1平均分为:(1+4)/2 =2.5; 电影2平均分为:(2+5)/2 =3.5;

c o s ( A , B ) = ( 1 − 2.5 ) ∗ ( 4 − 2.5 ) + ( 2 − 3.5 ) ∗ ( 5 − 3.5 ) ( 1 − 2.5 ) 2 + ( 2 − 3.5 ) 2 ∗ ( 4 − 2.5 ) 2 + ( 5 − 3.5 ) 2 = − 4.5 4.5 = − 1 cos(A,B) =\frac{(1-2.5)*(4-2.5)+ (2-3.5)*(5-3.5)}{ \sqrt{(1-2.5)^2+(2-3.5)^2} * \sqrt{(4-2.5)^2+(5-3.5)^2}} = \frac{-4.5}{\sqrt{4.5}}=-1 cos(A,B)=(12.5)2+(23.5)2 (42.5)2+(53.5)2 (12.5)(42.5)+(23.5)(53.5)=4.5 4.5=1

用调整后的余弦相似度计算得到的相似度是-1,呈现出两个用户口味相反,和直觉相符。

3、皮尔逊相关度

皮尔逊相关度,实际上也是一种余弦相似度,不过先对向量做了中心化,向量p和向量q各自减去向量的均值后,再计算余弦相似度。
R ( p , q ) = ∑ i = 1 n ( p i − u p ) ∗ ( q i − u q ) ∑ i = 1 n ( p i − u p ) 2 ∗ ∑ i = 1 n ( q i − u q ) 2 R(p,q) = \frac{\sum_{i=1}^n{(p_i - u_p) *(q_i -u_q)}}{\sqrt{\sum_{i=1}^n{(p_i - u_p)^2}} * \sqrt{\sum_{i=1}^n{(q_i - u_q)^2}}} R(p,q)=i=1n(piup)2 i=1n(qiuq)2 i=1n(piup)(qiuq)

皮尔逊相关度计算结果范围在-1和1之间,-1表示负相关,1表示正相关。皮尔逊相关度,其实计算的是两个随机变量是不是在同增同减。
由于皮尔逊相关度度量的是两个变量的变化趋势是否一致,所以不适合用作计算布尔向量之间的相关度。
还以上面的例子举例,用户A对两部电影的评分分别为1分、2分,用户B对同样两部电影的评分分别是4分、5分,那么使用皮尔逊相关系数的公式计算两个用户之间的相关系数:
首先,我们需要计算用户A和用户B的评分均值:

用户A的评分均值: (1+2)/2 = 1.5
用户B的评分均值: (4+5)/2 = 4.5

然后,我们可以使用皮尔逊相关系数的公式计算两个用户之间的相关系数:

ρ A , B = ∑ i = 1 2 ( x i − 1.5 ) ( y i − 4.5 ) ∑ i = 1 2 ( x i − 1.5 ) 2 ∑ i = 1 2 ( y i − 4.5 ) 2 \rho_{A,B} = \frac{\sum_{i=1}^{2} (x_i - 1.5)(y_i - 4.5)}{\sqrt{\sum_{i=1}^{2} (x_i - 1.5)^2} \sqrt{\sum_{i=1}^{2} (y_i - 4.5)^2}} ρA,B=i=12(xi1.5)2 i=12(yi4.5)2 i=12(xi1.5)(yi4.5)

将用户A和用户B的评分代入公式中进行计算:

ρ A , B = 1 \rho_{A,B} = 1 ρA,B=1

因此,通过计算,用户A和用户B之间的皮尔逊相关系数为1,这表示它们之间存在完全的正相关关系。

4 、杰卡德(Jaccard)相似度

杰尔德相似度,是两个集合的交集元素个数在并集中所占的比例。由于集合非常适用于布尔向量表示,所以杰尔德相似度简直就是为布尔值向量私人定做的。对应的计算公式是:
J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ J(A, B) = \frac{|A ∩ B|}{|A ∪ B|} J(A,B)=ABAB

1、分子是两个布尔向量做点积计算,得到的就是交集元素个数;
2、分母是两个布尔向量做或运算,再求元素和。

余弦相似度适用于评分数据,杰尔德相似度适合用于隐式反馈数据。例如,使用用户的收藏行为,计算用户之间的相似度,杰尔德相似度就适合来承担这个任务。

总结

今天,我介绍了常用的几种相似度计算方法,以及其各自的使用场景。

这里的场景是按数据形式划分的,按照向量维度取值是否是布尔值来看,杰卡德相似度就只适合布尔值向量,余弦相似度弹性略大,适合两种向量。欧式距离度量的是空间中两个点的绝对差异,适用于分析用户能力模型之间的差异,比如消费能力、贡献内容的能力等;是绝对差异,余弦相似度度量的是方向差异,但是调整的余弦相似度则可以避免这个弱点。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1816605.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

pytorch版本与torchvision版本不匹配问题处理

pytorch版本与torchvision版本不匹配问题处理 问题问题复现解决方法两点注意内容其一:pytorch版本与torchvision版本对应关系其二:CPU版本或GPU版本问题 问题 在新环境中,利用yolov8训练模型的时候报错,错误内容如下:…

探囊取物之渐变背景登录页面(基于ElementUI)

低配置云服务器,首次加载速度较慢,请耐心等候 预览页面:http://www.daelui.com/#/tigerlair/saas/preview/lxbupnc9dg5q 演练页面:http://www.daelui.com/#/tigerlair/saas/practice/lxbupnc9dg5q

ansible-Role角色批量按照node_export节点,并追加信息到Prometheus文件中

文章目录 剧本功能 inventory.yaml文件定义deploy.yaml角色定义node_exporter_lock角色定义任务角色main.yamlnode_exporter_tasks.yml角色触发任务notifyextra_tasks.yml角色prometheus_node_config.j2模板文件 执行命令查看变量 剧本功能 功能1: 批量执行node_ex…

【电子通识】焊接常见的不良有哪些?

在焊接完成后的调试阶段,有时总会发生一些奇怪的异常。也许是因为在焊接过程中出现了一些莫名其妙的焊接缺陷, 这些焊接缺陷产生的原因各不相同。 在实际的SMT贴片加工或插件焊接中,我们一般会采取一些方法来避免这些焊接不良的现象。那么常见…

PyCharm2018图文安装教程、附录软件下载

软件简介 PyCharm 2018是一款IDE集成开发环境,主要功能包括代码调试、语法高亮、智能提示、单元测试、版本控制等,支持Python 3.7,改进search everywhere功能等,可以让用户快速的开发程序。 软件下载 复制链接浏览器打开 https…

HTML静态网页成品作业(HTML+CSS)—— 电影泰坦尼克号介绍网页(4个页面)

🎉不定期分享源码,关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 🏷️本套采用HTMLCSS,未使用Javacsript代码,共有4个页面。 二、作品演示 三、代…

译译交友项目介绍

一、 项目背景 随着社会的进步,英语作为一种国际语言,很多人都在学习英语,然而现在很多人都会因为学习英语而烦恼,有时还会因为是一个人学习而感到枯燥。面对情绪的低落,往往会使学习更困难。因此,我打造了…

Protected and unprotected Meilisearch projects(/health)

Elasticsearch 做为老牌搜索引擎,功能基本满足,但复杂,重量级,适合大数据量。 MeiliSearch 设计目标针对数据在 500GB 左右的搜索需求,极快,单文件,超轻量。 所以,对于中小型项目来说…

Qt 实战(4)信号与槽 | 4.1、信号与槽机制

文章目录 一、信号与槽机制1、基本概念2、信号与槽函数连接2.1、connect宏实现信号与槽连接2.2、Qt5新connect函数2.3、使用函数指针2.4、使用lambda表达式2.5、使用Qt Creator添加信号的槽函数 3、结论 前言: Qt信号与槽机制是一种用于处理对象间通信的强大机制&am…

2003远程桌面端口修改,Windows Server 2003远程桌面端口修改的专业操作指南

在网络安全日益受到重视的今天,修改Windows Server 2003远程桌面的默认端口已成为提高服务器安全性的常规操作。默认情况下,远程桌面使用的端口为3389,这一广为人知的端口号常常成为黑客攻击的目标。因此,通过修改远程桌面端口&am…

代码随想录-二叉树 | 111 二叉树的最小深度

代码随想录-二叉树 | 111 二叉树的最小深度 LeetCode 111 二叉树的最小深度解题思路代码难点总结 LeetCode 111 二叉树的最小深度 题目链接 代码随想录 题目描述 给定一个二叉树,找出其最小深度。 最小深度是从根节点到最近叶子节点的最短路径上的节点数量。 说…

地推数据不再迷茫,Xinstall助你一臂之力!

在移动互联网时代,地推作为一种传统的推广方式,仍然占据着举足轻重的地位。然而,地推过程中产生的数据却常常让推广者感到头疼。数据分散、难以追踪、分析困难……这些问题不仅耗费了推广者大量的时间和精力,更可能导致决策失误&a…

vue30:v-model语法糖的本质

在Vue.js框架中,v-model 是一个指令,用于在表单输入和应用状态之间创建双向数据绑定。它本质上是语法糖,意味着它提供了一种更简洁的方式来编写代码,而不需要显式地编写额外的代码。 具体来说,v-model 背后实际上是由…

LeetCode | 20.有效的括号

这道题就是栈这种数据结构的应用,当我们遇到左括号的时候,比如{,(,[,就压栈,当遇到右括号的时候,比如},),],就把栈顶元素弹出,如果不匹配,则返回False,当遍历完所有元素后…

技术要转管理吗?PMP证书有用吗?

作为一名80后的IT项目经理,我从大学计算机专业毕业后就一直在.NET开发领域工作,直到获得PMP证书后转型成为项目经理。我的经历或许能为还在犹豫是否要从技术转型到管理岗位的学弟学妹们提供一些参考。 大多数人认为,计算机专业的大学毕业生通…

8.11 矢量图层线要素单一符号使用七(爆炸线)

文章目录 前言爆炸线(Lineburst)QGis设置线符号为爆炸线(Lineburst)二次开发代码实现爆炸线(Lineburst) 总结 前言 本章介绍矢量图层线要素单一符号中爆炸线(Lineburst)的使用说明&…

【大分享02】数字化转型下政务服务电子文件的规范归档与保存

关注我们 - 数字罗塞塔计划 - 本篇是参加由电子文件管理推进联盟联合数字罗塞塔计划发起的“大分享”活动投稿文章,由北京华电园信息技术有限公司和华迪计算机集团有限公司联合完成,作者:董艳会、高鹏、汪艳。 PART 01 国家政策从机制和流程…

Attention与轻量级ResNet融合,低资源消耗下实现效率和性能完美平衡

注意力机制通过让模型关注图像关键区域提升了识别精度,而轻量级残差网络通过减少参数和计算量,实现了在低资源消耗下的优秀性能。 结合注意力机制与轻量级残差网络,既能让模型能够更高效地关注输入数据中的关键信息,提升模型处理…

一文了解Redis

一.什么是Redis 与MySQL一样,Redis也是客户端服务器结构的程序,是基于内存的键值对存储系统,属于NoSQL的一种。与很多键值对数据库不同的是,Redis 中的值可以是由 string(字符串)、hash(哈希&a…

Debain12 离线安装docker

官网教程&#xff1a;https://docs.docker.com/engine/install/debian/ 步骤 1. 解压 docker-deb.7z 安装包并上传Linux &#xff08;资源在PC端文章顶部&#xff09; 2. 安装 .deb 包 sudo dpkg -i ./containerd.io_<version>_<arch>.deb \./docker-ce_<vers…