推荐系统三十六式学习笔记:02|个性化推荐系统有哪些绕不开的经典问题?

news2024/11/26 3:55:49

目录

  • 推荐系统的问题模式
    • 评分预测
    • 行为预测
  • 几个常见顽疾
    • 1、冷启动问题
    • 2、探索与利用问题
    • 安全问题
  • 总结

推荐系统的问题模式

推荐系统的使命是为用户和物品建立连接,建立的方式是提前找出哪些隐藏的连接呈现给用户,这是一个预测问题;所以推荐系统的预测问题模式,从达成的连接目标角度区分,有两大类:
1、评分预测
2、行为预测

因为评分和行为是用户对推荐结果的两类反馈,我们给他们推荐了一个或多个物品,目的是希望他们“消费”,这种消费反应在用户行为上,比如“点击查看”,信息咨询类还有“阅读完成”,视频音乐类的有“播放完成”,电商类的“加入购物车”等。

整个行为呈现一个漏斗形状,从曝光到最终消费完成。最后在用户完成消费后,产品方一般还希望他们告诉自己消费的体验,这时候就有评分了;所以不同推荐系统的任务也不同,有的直接去预测用户如果消费完之后会给多少评分,更多的推荐系统则会分层,致力于预测用户的行为。

评分预测

评分预测相关算法模型研究的兴盛,最大的助攻是Netflix(奈飞)举办的推荐算法大赛。

评分预测要干的事是这样的:假如用户消费完一个物品之后会给出一个打分,比如通常是1-5分,或者有的网站用星星的颗数表示。

我们能不能提前预测一个用户对每个物品会打多少分,找出那些他可能会打高分,但是还没消费的物品,然后悄无声息但恰到好处的推荐到用户面前。

一个朴素的思想是:建立一个模型,这个模型会给用户历史上打过分的物品去预测分数。

预测分数和实际分数之间会有误差,我们根据这个误差去调整参数模型,让这个误差越来越小,最后得到的这个模型理论上就可以了,事实上,这其实就是机器学习里面的回归问题。

评判标准就是RMSE,即均方根误差。

在这里插入图片描述
备注:n为样本数, y t y_t yt为用户真实打分值, y ^ t \hat{y}_t y^t为预测值

由于误差有正数也有负数,而我们只关心绝对值的大小,所以我们再给误差求平方,这就是名字中的方的来源,再对所有样本的误差平方求平均值,这就是名字中均的来源,因为我们对误差都平方了,所以最后再对均值开方根,这就是名字中的根的来源。这个过程就是求均方根误差。

评分预测问题常用于各种点评类产品(如:书影音的点评),但评分类推荐存在一下问题:
1、数据不易收集,用户给出评分意味着他已经完成前面所有的漏斗环节。
2、数据质量不能保证,伪造评分数据门槛低,同时真实的评分数据又处于转化漏斗最后一环,门槛高;
3、评分的分布不稳定,整体评分在不同时期会差别很大,个人评分在不同时期标准不同,人和人之间的标准差别很大。

用户的评分数据,我们又称为显示反馈,与之相对的还有隐式反馈,通常就是各类用户行为,也就是另一类推荐系统问题:行为预测;

行为预测

用户每天在不同的APP或者网站之间活动,就会有各种行为数据产生,从登录刷新,到购买收藏,都是用户行为,这类数据是用户在不自觉的情况下发生的,数据量显然比显示反馈多的多;

用户的行为通常呈现漏斗关系,用户最终达成的行为可能不是那么容易得到的,比如完整消费一个长内容,通常是登录刷新开始,逐层经历漏斗消失;

而推荐系统肩负的使用自然是达成用户行为,也就是连接越多越好,这也是这一类推荐系统问题的关注点。
推荐系统预测行为方式有很多,常见的有两种:直接预测行为本身发生的概率,和预测物品的相对排序。前者有一个更广为流传的名称叫做CTR预估.。这里的C原本是点击行为click,但这个解决问题的模式可以引申到其他用户行为,如收藏,购买。

CTR意思是click through rate,即点击率。把每一个推荐给用户的物品按照是否会点击二分类,构建分类模型,预估其中一种分类的概率,就是CTR预估。

行为预测就是利用隐式反馈数据预测隐式反馈的发生概率,因此,各家互联网产品高度重视隐式反馈,原因于:
1、数据比显示反馈更加稠密。
2、隐式反馈更能代表用户的真实想法,俗话说行为是骗不了人的。
3、隐式反馈常常和模型的目标函数关联更密切。因此也更容易在abtest中和测试指标挂钩。

行为预测解决的是推荐系统80%问题,评分预测解决的是最后那20%的问题。

几个常见顽疾

推荐系统的隐藏顽疾是:1、冷启动问题 2、探索与利用问题 3、安全问题。

1、冷启动问题

冷启动问题广泛存在于互联网产品中,但我们这里仅仅限于推荐系统的冷启动。 新用户或者不活跃用户,以及新物品或展示次数较少的物品,这些用户和物品,由于缺乏相关数据,因此就是冷启动问题的关注对象。

冷启动问题,通常的解决方式就是给它加热:想办法引入数据,想办法从已有的数据中主动学习。我们会在后面的文章中详细讨论冷启动的问题。

2、探索与利用问题

探索与利用,又叫EE问题。假如我们已经知道了用户的喜好,一般有三种对待方式:

1、全部给它推荐他目前肯定感兴趣的物品;
2、无视它的兴趣,按照其他逻辑给它推荐,如编辑推荐,随机推荐,按照时间先后推荐等等;
3、大部分给他推荐感兴趣的,小部分试探新的兴趣。

显然第三种更持久,那么如何平衡这里的大部分和小部分呢?这就是Exploit和Explore问题的核心了。Exploit意为开采,对用户身上已经探明的兴趣加以利用,Explore意为探索,探明用户身上还不知道的兴趣。我们会在后面的文章中详细的讨论EE问题。

安全问题

如果你正在一款流量非常大的产品上构建推荐系统,那么一定要考虑推荐系统的攻击问题。推荐系统被攻击的影响大致有以下几个:

1、给出不靠谱的推荐结果,影响用户体验并最终影响品牌形象。
2、收集了不靠谱的脏数据,这个影响会一直持续留存在产品中,很难完全消除;
3、损失了产品的商业利益,这个是直接的经济损失。

所以推荐系统的安全问题:有哪些攻击手段,以及对应的防御办法,我们会在后面的文章中予以讨论。

总结

今天,我从两个角度总结了推荐系统中的常见问题。
第一个角度是模型的角度,将推荐系统的模型分成了预测评分和预测行为,另一个角度是看推荐系统重一些永恒存在但潜在的问题,包括冷启动、EE问题、安全问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1717820.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Echarts 实现自定义曲线的弧度

文章目录 问题分析问题 分析 在 ECharts 中,可以通过控制数据点的位置来调整曲线的弧度。具体来说,可以通过设置数据项的控制点来调整曲线的形状。ECharts 中的折线图和曲线图都是通过控制点来绘制曲线的,可以通过设置数据项的控制点来调整曲线的弧度。 以下是一个简单的示…

EG2106 原装正品 贴片SOP-8 大功率MOS管栅极驱动芯片耐压600V

EG2106 在电机控制中的应用非常广泛,下面是一些典型的应用案例: 1. 无刷直流电机(BLDC)控制:EG2106 可以用于驱动无刷直流电机的功率MOSFET或IGBT。在无刷电机控制器中,通常会用到H桥电路来控制电机的正…

你认识nginx吗,nginx是做什么的,nginx可以做什么 --2)nginx配置

hello大家今天教大家如何用nginx实验tomcat的负载均衡,同理其他的也可以,如httpd等 首先需要准备一个nginx和tomcat包,这里用到的是版本号为 然后需要准备最少三台linux虚拟机,然后我们开始吧 1.安装tomcat 解包 tar zxf /mnt/…

图数据集的加载

原文参考官方文档: https://pytorch-geometric.readthedocs.io/en/latest/modules/loader.html torch_geometric.loader 库中, 该库中包含了多种 图数据集的 加载方式, 这里主要介绍 DenseDataLoader and DataLoader 这两者之间的区别&#…

2024最新群智能优化算法:人工原生动物优化器(Artificial Protozoa Optimizer ,APO))求解23个函数,MATLAB代码

一、人工原生动物优化器 人工原生动物优化器(Artificial Protozoa Optimizer ,APO)由Xiaopeng Wang等人于2024年提出,其灵感来自自然界中的原生动物。APO 模拟了原生动物的觅食、休眠和繁殖行为。 参考文献 [1]Wang X, Snšel V…

【强化学习】DPO(Direct Preference Optimization)算法学习笔记

【强化学习】DPO(Direct Preference Optimization)算法学习笔记 RLHF与DPO的关系KL散度Bradley-Terry模型DPO算法流程参考文献 RLHF与DPO的关系 DPO(Direct Preference Optimization)和RLHF(Reinforcement Learning f…

哪款桌面便签软件安全好用?2024好用便签app推荐

桌面便签软件已经成为许多人日常生活和工作中不可或缺的工具,它们实用、灵活,能够帮助我们快速记录重要信息,提醒任务事项。随着科技的进步,市面上的便签软件层出不穷,功能也越发强大和实用。在众多的便签软件中&#…

5、css3 自动动画渐变背景

效果例图&#xff1a;&#xff08;因gif图片太大&#xff0c;而csdn只能上传小于5m图片&#xff0c;所以无法上传&#xff09; 1、首先上传html代码&#xff1a; <!DOCTYPE html> <html lang"zh"> <head><meta charset"UTF-8">&l…

TDesign环境搭建-后台模板的安装和使用-构建web管理端后台系统

TDesign环境搭建-后台模板的安装和使用-构建web管理端后台系统 一、安装Nodejs 下载&#xff1a;nodejs 注意&#xff0c;目前前端代码使用的vue3做为脚手架进行开发&#xff0c;需要强制依赖node版本为16及以上 二、模板安装 2.1 安装脚手架&#xff1a;cli nodejs安装好之…

基于51单片机多功能防盗报警proteus仿真( proteus仿真+程序+设计报告+原理图+讲解视频)

基于51单片机多功能防盗报警系统 1. 主要功能&#xff1a;2. 讲解视频&#xff1a;3. 仿真4. 程序代码5. 设计报告6. 原理图7. 设计资料内容清单&&下载链接 基于51单片机多功能防盗报警系统( proteus仿真程序设计报告原理图讲解视频&#xff09; 仿真图proteus8.9及以上…

Linux下的Git应用

1、卸载 2、安装 3、创建并初始化 4、配置 (附加删除语句) 5、查看(tree .git/) 6、增加和提交

关于d3js生成节点画布的个人笔记

实现功能 根据鼠标位置生成节点根据节点位置通过鼠标拖拽生成连线实现自定义线段颜色功能删除节点以及连线功能实现单个节点拖动功能实现整条线路的拖动功能 界面如下&#xff1a; 主要模块介绍 绘制连线 const line svg.selectAll(".line").data(links, d >…

BUUCTF Crypto RSA详解《1~32》刷题记录

文章目录 一、Crypto1、 一眼就解密2、MD53、Url编码4、看我回旋踢5、摩丝6、password7、变异凯撒8、Quoted-printable9、篱笆墙的影子10、Rabbit11、RSA12、丢失的MD513、Alice与Bob14、大帝的密码武器15、rsarsa16、Windows系统密码17、信息化时代的步伐18、凯撒&#xff1f;…

加密金字塔的秘密:「高层」的回报你无法想象

原文标题&#xff1a;《The Secrets of the Crypto Pyramid!》 撰文&#xff1a;DUO NINE⚡YCC 编译&#xff1a;Chris&#xff0c;Techub News 本文来源香港Web3科技媒体&#xff1a;Techub News 意外成为一名 KOL 让我有机会深入了解这个领域的运作机制。在这个行业的幕后…

【xilinx】vivado中的xpm_cdc_gray.tcl的用途

背景 【Xilinx】vivado methodology检查中出现的critical Warning-CSDN博客 接上篇文章&#xff0c;在vivado进行 methodology检查时出现了严重警告&#xff0c;顺着指示查到如下一些问题 TIMING #1 Warning An asynchronous set_clock_groups or a set_false path (see con…

【Python】解决由于PYTHONPATH配置错误导致的ModuleNotFoundError: No module named ‘xxx‘错误

&#x1f9d1; 博主简介&#xff1a;阿里巴巴嵌入式技术专家&#xff0c;深耕嵌入式人工智能领域&#xff0c;具备多年的嵌入式硬件产品研发管理经验。 &#x1f4d2; 博客介绍&#xff1a;分享嵌入式开发领域的相关知识、经验、思考和感悟&#xff0c;欢迎关注。提供嵌入式方向…

智慧楼宇:城市生活的新篇章

在城市的喧嚣与繁华中&#xff0c;楼宇不仅是我们工作与生活的场所&#xff0c;更是智慧科技发展的前沿阵地。当传统的建筑遇上智慧的火花&#xff0c;便诞生了令人瞩目的智慧楼宇。 山海鲸可视化搭建的智慧楼宇数字孪生系统 一、智慧楼宇&#xff0c;定义未来生活 智慧楼宇不…

利用WMI横向移动

一. WMI介绍和使用 1. WMI介绍 WMI是Windows在Powershell还未发布前&#xff0c;微软用来管理Windows系统的重要数据库工具&#xff0c;WMI本身的组织架构是一个数据库架构&#xff0c;WMI 服务使用 DCOM或 WinRM 协议, 在使用 wmiexec 进行横向移动时&#xff0c;windows 操…

生活杂货品牌首合作!The Green Party与数图共同探索品类空间管理全新策略!

数图服务业态再扩展&#xff0c;生活杂货品牌首合作&#xff0c;近日&#xff0c;数图与国内知名品牌The Green Party&#xff08;绿光派对&#xff09;展开合作&#xff0c;双方本着创新共赢的原则&#xff0c;携手共进&#xff0c;共同探索和实践品类空间管理领域的全新路线&…

Flink搭建

目录 一、standalone模式 二、Flink on Yarn模式 一、standalone模式 解压安装Flink [rootbigdata1 software]# tar -zxvf flink-1.14.0-bin-scala_2.12.tgz -C /opt/module/ [rootbigdata1 module]# mv flink-1.14.0/ flink-standalone 2.进入conf修改flink-conf.yaml job…