Recommender System复习(考试向)

news2025/1/12 3:45:13

Recommender System Review

  • Overview
  • Collaborative Filtering
    • 基于用户的CF(User CF)
    • 基于物品的CF(Item CF)
    • Similarity Calculation
    • Bias in CF
  • Evaluation of Recommender System
  • Factorization Machines
  • Latent factor model
    • LFM算法概述
    • LFM算法原理介绍
    • LFM算法应用场景

Overview

在这里插入图片描述

Collaborative Filtering

协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤(Collaborative Filtering, 简称CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。

协同过滤一般是在海量的用户中发掘出一小部分和你品位比较类似的,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西组织成一个排序的目录作为推荐给你。

要实现协同过滤,需要一下几个步骤

  • 收集用户偏好——如何收集决定推荐系统效果
  • 找到相似的用户或物品(Pearson Correlation Coefficient)
  • 计算推荐(Collaborative Filtering)

基于用户的CF(User CF)

基于用户的CF 的基本思想相当简单,基于用户对物品的偏好找到相邻邻居用户,然后将邻居用户喜欢的推荐给当前用户。计算上,就是将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,找到K 邻居后,根据邻居的相似度权重以及他们对物品的偏好,预测当前用户没有偏好的未涉及物品,计算得到一个排序的物品列表作为推荐。图2 给出了一个例子,对于用户A,根据用户的历史偏好,这里只计算得到一个邻居-用户C,然后将用户C 喜欢的物品D 推荐给用户A。

基于物品的CF(Item CF)

基于物品的CF 的原理和基于用户的CF 类似,只是在计算邻居时采用物品本身,而不是从用户的角度,即基于用户对物品的偏好找到相似的物品,然后根据用户的历史偏好,推荐相似的物品给他。从计算的角度看,就是将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度,得到物品的相似物品后,根据用户历史的偏好预测当前用户还没有表示偏好的物品,计算得到一个排序的物品列表作为推荐。图3 给出了一个例子,对于物品A,根据所有用户的历史偏好,喜欢物品A 的用户都喜欢物品C,得出物品A 和物品C 比较相似,而用户C 喜欢物品A,那么可以推断出用户C 可能也喜欢物品C。

Similarity Calculation

定义:Pearson correlation coefficient是一种衡量变量之间线性关系强弱的统计量。它的取值范围在-1到1之间,可以反映出两个变量之间的相关程度。如果相关系数接近1,表明两个变量之间存在完全正向的线性关系;如果接近-1,则说明存在完全负向的线性关系;如果接近0,则表示两个变量之间没有线性关系。

Pearson correlation coefficient的计算方法如下:
r = Cov(X, Y) / (σX * σY)

其中,Cov(X, Y)表示变量X和Y的协方差,σX和σY分别表示变量X和Y的标准差。通过计算协方差和标准差,我们可以得到两个变量之间的相关系数。

在这里插入图片描述

在这里插入图片描述

Bias in CF

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Evaluation of Recommender System

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Factorization Machines

背景
FM的适用对象是稀疏数据。

任何研究过点击预测问题或推荐系统的人都会面临类似的情况:由于数据集非常庞大,因此使用有限的计算资源对这些数据集进行预测变得非常困难。

但是,在大多数情况下,这些数据集是稀疏的(每个训练示例只有少数变量为非零)。在数据稀疏的情况下,满足求解参数都不为0的情况很少,所以很难训练。然而因子分解机有助于从从现有的原始数据中,提取最重要的潜在的或隐藏的特征。

一般来说,可以使用低维密集矩阵来表示对象和预测器之间关系,而分解有助于与前者建立大致相同的关联。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Latent factor model

LFM算法概述

对于基于邻域的机器学习算法来说,如果要给一个用户推荐商品,那么有两种方式。一种是基于物品的,另一种是基于用户的。基于物品的是,从该用户之前的购买商品中,推荐给他相似的商品。基于用户的是,找出于该用户相似的用户,然后推荐给他相似用户购买的商品。

但是,推荐系统除了这两种之外,还有其他的方式。例如如果知道该用户的兴趣分类,可以给他推荐该类别的商品。

为了实现这一功能,我们需要根据用户的行为数据得到用户对于不同分类的兴趣,以及不同商品的类别归属。

LFM算法原理介绍

首先是数据的处理,由于使用的是隐性数据集,只有正样本,例如用户点击了某件商品,没有负样本。数据处理主要是选出数据集的负样本。

负样本的选取策略主要有以下要点:
(1)正负样本要均衡,基本保证正负样本的比例1:1
(2)负样本需要选择用户没有行为的热门商品。

在这里插入图片描述

LFM算法应用场景

根据上述内容,可以得到相应的模型输出,即两个潜在因子矩阵。其中,潜在因子的维度是之前设定的,可以理解为你认为有哪些特征可能会影响user对item的喜好程度。

那么得到模型输出后,如何应用?
(1)计算用户toplike:对于与用户没有被展示的item,可以计算出一个用户对item的倾向性得分,取top即toplike,后直接完成用户对item的喜爱度列表,写入离线即可完成对在线的推荐。
(2)计算item的topsim:得到item的向量可以用很多表示距离的公式包括cos等等,计算出每一个item的相似度矩阵,该矩阵可以用于线上推荐。当用户点击item之后,给其推荐与该item的topsim item。
(3)计算item的topic:根据得到的item向量,可以用聚类的方法,如K-means等等,取出一些隐含的类别。也就是一些隐含的topic能将item分成不同的簇,推荐时按簇推荐。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1167211.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

不必安装,快速设计数据库表结构

设计数据库架构是一项具有挑战性的任务,当您的应用程序不断变大时,它变得更加困难。 一个好的表结构设计能减少不小开发量,也能提升部分扩展性。 什么是数据库表结构? 表结构就是定义一个表的字段、类型、主键、外键、索引&#x…

Window 创建定时任务

一、打开计算机管理(我的电脑右键管理) 选择系统工具任务计划程序在右侧边栏(创建基本任务)在弹出窗口常规栏(如下图)填写定时任务名(随意起自己知道什么程序即可)、任务描述 在触发…

html将复选框变为圆形样例

html将复选框变为圆形样例 说明目录使用对勾图标实现圆形复选框原复选框html代码及默认样式取消复选框未勾选前的样式新增复选框未勾选前的样式新增复选框勾选后的样式获取复选框选中后的value值 使用CSS样式写对勾图标实现圆形复选框 说明 这里记录下用原生html实现将原复选框…

<蓝桥杯软件赛>零基础备赛20周--第4周--杂题-1

报名明年4月蓝桥杯软件赛的同学们,如果你是大一零基础,目前懵懂中,不知该怎么办,可以看看本博客系列:备赛20周合集 20周的完整安排请点击:20周计划 每周发1个博客,共20周(读者可以按…

Go 多版本管理

在日常开发工作过程中,很多时候我们都需要在自己的机器上安装多个go版本,像是go1.16引入的embed,go1.18引入了泛型;又或是自己本地使用的是最新版,但公司的项目中使用的go1.14、go1.13甚至是更早的版本。 那么有没有既…

甲方自建ERP这事靠不靠谱?来听听读过中欧商学院的老板怎么说

李总自建ERP开发团队的失败案例,投入三年,花了五六百万,做出来的东西,远不如免费开源的Odoo软件。Odoo有强大的技术平台,有无穷的功能插件。李总现身说法:“早知道有Odoo,何必瞎折腾&#xff0c…

msvcr110.dll丢失的解决方法都有哪些,有效解决msvcr110.dll丢失

今天在使用电脑的时候提示一个和“msvcr110.dll丢失”有关的报错,出现这样的问题小编也是一脸懵,一下也不是知道该怎么处理了,于是小编去了解了一下msvcr110.dll丢失是什么情况,为什么会有这样的问题发生,同时msvcr110…

WebBits库如何使用

WebBits 是一个用于构建 Web 应用程序的 Python 库。以下是使用 WebBits 库的一般步骤: 安装 WebBits:在终端或命令提示符中运行以下命令来安装 WebBits 库: pip install webbits 导入 WebBits 库:在 Python 脚本中导入 WebBits…

一篇新闻稿的标准格式是怎样的呢?建议收藏

企业和品牌每年都需要撰写大量的新闻稿和软文进行投放,优质的新闻稿件可以给品牌带来源源不断的用户流量,新闻稿要按照标准格式进行创作,一篇新闻稿的标准格式是怎样的呢? 接下来伯乐网络传媒就来给大家分享一下。 新闻稿的结构和排版是新闻…

快速了解:什么是优化问题

1. 定义 数学优化问题是:在给定约束条件下,找到一个目标函数的最优解(最大值或最小值)。 2. 快速get理解 初学者对优化技术陌生的话,可以把 “求解优化问题” 理解为 “解一个不等式方程组”,解方程的。…

[PyTorch][chapter 59][强化学习-2-有模型学习]

前言: 在已知模型的环境里面学习,称为有模型学习(model-based learning). 此刻,下列参数是已知的: : 在状态x 下面,执行动作a ,转移到状态 的概率 : 在状态x 下面,执行动作a ,转移到 的奖赏 有模型强化学习的应用案例 …

儿童玩具跨境电商/TEMU平台要求北美CPC认证欧洲CE认证

儿童玩具跨境电商/TEMU平台要求北美CPC认证欧洲CE认证 最近Temu严格抽查一份关于儿童用品合规的通知。通知指出,为了保障Temu平台消费者的合法权益,以及保障儿童类商品在目的国的正常销售及合规要求,对于以12岁及以下儿童为主要使用对象的产…

智信SMS客户端操作手册

登录系统 登录前需查看用户协议输入账号和密码,点击登录即可 首页介绍 登录成功之后,进入操作页面。 操作页面包括:设置、导入手机号、发送短信三大块功能。 如图: 导入手机号 点击首页中的导入按钮,即可导入手机…

微信小程序中使用GIF

前言 最近在微信小程序开发时遇到了一个非常复杂的动画,如果要手搓的话需要用canvas一点点弄,比较麻烦,于是打算做一个gif来实现动画效果 根据需求,动画只需播放一次即可,并且设置了一个重播按钮,点击即可重…

mysql-面试题

1. 这里我们可以看出有两种情况,要么活跃,要么不活跃,我的思路是统计出不活跃的, 并计算出他们所占比例,再用1减去他们所占比例,就可以得到留存率。大致思路就这样,具体代码后面补。下面代码为老…

TrafficWatch 数据包嗅探器工具

TrafficWatch 是一种数据包嗅探器工具,允许您监视和分析 PCAP 文件中的网络流量。它提供了对各种网络协议的深入了解,并可以帮助进行网络故障排除、安全分析等。 针对 ARP、ICMP、TCP、UDP、DNS、DHCP、HTTP、SNMP、LLMNR 和 NetBIOS 的特定于协议的数据…

PMI-ACP(103:17-56)

巩固复习:SCRUM Scrum是目前敏捷项目管理的经典框架,在2020年最新版的《Scrum指南》中,Scrum之父对迭代目标和完成的定义进行了更为清晰的阐释。 在Scrum里比较重要的是Sprint冲刺。一个Sprint长度一般是2~4周,固定&…

【C/C++】C++中重载、重写和隐藏的区别

重载 函数重载满足条件&#xff1a; 同一个作用域下函数名称相同函数参数类型不同 或者 个数不同 或者 顺序不同 注意: 函数的返回值不可以作为函数重载的条件。 #include<bits/stdc.h>using namespace std;class A {void fun() {};void fun(int i) {};void fun(int …

pytest自动化测试框架Allure功能特性介绍

前言 Allure框架是一个灵活的轻量级多语言测试报告工具&#xff0c;它不仅以web的方式展示了简介的测试结果&#xff0c;而且允许参与开发过程的每个人从日常执行的测试中最大限度的提取有用信息 从dev/qa的角度来看&#xff0c;Allure报告简化了常见缺陷的统计&#xff1a;失…