协同过滤算法
协同过滤算法(Collaborative Filtering)是推荐系统中一种广泛应用的技术,它主要依赖于用户的行为数据来预测用户可能感兴趣的内容。协同过滤算法可以分为两大类:基于用户的协同过滤(User-Based Collaborative Filtering)和基于物品的协同过滤(Item-Based Collaborative Filtering)
1.基于用户的协同过滤(UserCF)
这种类型的协同过滤算法寻找具有相似兴趣爱好的用户群组,并根据这些用户喜欢的内容来向目标用户推荐。具体步骤如下:
- 数据收集:收集用户对物品的评分或行为数据(如点击、购买、收藏等)。
- 相似用户发现:通过一定的相似度计算方法(如皮尔逊相关系数、余弦相似度等)找出与目标用户兴趣相似的用户。
- 推荐生成:根据相似用户的喜好,向目标用户推荐他们还没有接触过但可能会感兴趣的物品
2.基于物品的协同过滤(ItemCF)
基于物品的协同过滤算法则是通过分析用户对物品的评分或行为,来推断物品之间的相似性,并根据用户已知的兴趣向其推荐类似的物品。具体步骤如下:
- 数据收集:同样需要收集用户对物品的评分或行为数据。
- 物品相似度计算:计算物品之间的相似度,常用的方法有余弦相似度、杰卡德相似系数等。
- 推荐生成:根据用户已有的评分或行为记录,找出用户喜欢的物品,并推荐与其相似的其他物品。
3.相似度计算放法
1.杰卡德相似度
2.余弦相似度(常用)
局限性
3.皮尔逊相关系数(余弦相似度升级版)
公式的话, 上面就是i的每一个元素减去平均值,j的每一个元素减去平均值然后相乘,分母的话是在求向量模长。
4.其他的相似度计算方法
欧式距离(Euclidean Distance)是一种度量两个点在多维空间中距离的方法。它是直觉上最简单也是最常用的距离度量方式之一,基于欧几里得几何原理,即两点之间的直线距离。在数学上,欧式距离是两点间路径长度的最小值。
5.欧式距离和余弦相似度
4.实例
1.基于用户的协同过滤(UserCF)
UserCF(User Collaborative Filtering,用户协同过滤)是一种推荐系统算法,广泛应用于个性化推荐领域。这种算法基于用户之间的相似度来进行推荐,通常用于解决“冷启动”问题较少的情况,即系统中已经有足够的用户行为数据。
UserCF 的基本原理
UserCF 的核心思想是找到与目标用户兴趣相似的其他用户,然后根据这些相似用户的喜好来推荐物品给目标用户。具体步骤如下:
- 计算用户相似度:找到与目标用户兴趣相似的其他用户。
- 推荐物品:根据相似用户的喜好来推荐物品给目标用户。
比如第一个人喜欢衣服裤子和帽子,第二个人也喜欢这三样,但是第二个人还喜欢鞋子,那第一个人就有可能也喜欢鞋子。
例如
1.Alice与其他用户的相似度
2.根据相似度用户计算Alice对物品5的最终得分
方式1
分母是Alice分别与两个用户的相似度之和,分子再乘上用户与物品5的评分。(如下)
方式2
3.根据用户评分对用户进行推荐
定一个阈值,超过即推荐给用户
4.缺点
计算成本高:
当用户数量庞大时,计算用户之间的相似度矩阵会变得非常耗时和资源密集。随着用户数量的增长,计算复杂度呈指数增长。
稀疏性问题:
如果用户对物品的评分或交互行为数据非常稀疏,那么很难找到具有足够相似性的用户。这会导致推荐质量下降。
推荐滞后:
UserCF推荐的结果依赖于用户相似度矩阵,而这个矩阵通常是预先计算好的。因此,当用户的行为发生变化时,推荐结果不能立即更新,导致推荐的实时性较差。
冷启动问题:
新加入系统的用户由于缺乏历史行为数据,难以找到与其相似的用户,从而导致推荐困难。
热门物品偏见:
UserCF倾向于推荐那些热门的物品,因为它更容易找到对这些物品有共同偏好的用户群。这可能导致长尾物品得不到推荐。
可扩展性问题:
随着系统的扩展,用户数量增加,维护用户相似度矩阵的成本也会增加,这使得UserCF在大规模系统中应用受限。
数据稀疏性:
在实际应用中,用户通常只会对少量物品进行评分或互动,这导致用户-物品评分矩阵非常稀疏,从而影响了用户相似度计算的准确性。
推荐多样性不足:
由于推荐基于相似用户的历史行为,可能会导致推荐的多样性不足,用户可能会错过一些潜在的兴趣点。
实际工程应用中的挑战
在实际工程应用中,UserCF还面临着一些具体的挑战,比如:
- 用户评分矩阵过大问题:随着用户数量的增加,用户评分矩阵变得非常庞大,存储和计算成本都会显著增加。
- 推荐结果更新不及时:用户的新行为不会立即反映在推荐结果中,因为推荐结果通常是基于预计算的用户相似度矩阵。
5.适用场景
主要适用于用户少、物品多、时效性强的场景
例如:企业内部的知识管理系统或小型社区平台,新闻网站、实时资讯推送服务,社交媒体平台上的动态推荐、短视频平台上的内容推荐(热搜)
2.基于Item的协同过滤算法(ItemCF)
优点
ItemCF更加适用于电商平台
- 计算效率高:物品相似度矩阵可以预先计算并存储,因此推荐时只需要查询相似度矩阵即可,计算成本较低。
- 可扩展性好:物品相似度矩阵的计算可以并行化,适合大规模数据集。
- 推荐稳定性好:物品相似度矩阵一旦计算完成,可以长时间使用,不需要频繁更新。
- 冷启动问题缓解:对于新用户,可以基于已有用户的评分数据来推荐物品,缓解冷启动问题。
- 推荐多样性:可以推荐多种类型的物品,避免热门物品偏见。
缺点
- 数据稀疏性问题:如果用户对物品的评分或行为数据非常稀疏,计算物品相似度的效果会受到影响。
- 热门物品偏见:仍然可能倾向于推荐热门物品,因为热门物品更容易找到相似的物品。
- 时效性问题:物品相似度矩阵需要定期更新,否则推荐结果可能滞后。