什么是智能推荐?智能推荐的原理是什么?

news2024/9/29 9:38:28


一、智能推荐的魔力 


2020年的愚人节晚间,罗永浩在抖音带货,相信你也被刷屏了吧。3小时的直播过程中,22款产品轮番出场,最终首播支付交易总额突破1.1亿、整场直播观看总人数超过4800万、总销售件数逾91万,粉丝打赏音浪收入3600万,由此看来,罗老师看起来离“带货一哥”的目标又进了一步。不得不说,这场魔幻版的流量狂潮,是他和成就他的直播首秀的除了他自己,更重要的是日活跃用户超过四亿的抖音平台的双赢抖音平台。

我们的时间都去哪了?所谓“抖音五分钟,人间两小时”,抖音软件的火爆便是依托于它强大的智能推荐系统。它会根据你的浏览记录、停留时长、点赞评论等一系列数据分析你的喜好后,小心翼翼的捕获你,最后平台馈赠的你所看到的每段个视频恰恰都正是你最最有可能想要看到的。

正因如此,你的手机常常会为你推荐你想要搜索却不知道片名的电影影片,会为你推送发现一听便相逢相见恨晚的美妙音乐,会为你准备好使你眼前一亮随你心意的衣服首饰。总之,它是知己一般的存在,总是这般如同住在你的大脑一样洞了解察和了解你。

二、什么是智能推荐系统
通俗一点来讲,智能推荐系统是通过你过去曾经发生的行为痕足迹去推测你的当下未来所需。你的搜索、点赞、评论、转发等行为都为它创造了解你的机会。举个例子例子:当你在某购物平台搜索一双经典球鞋时,平台会立刻很快就会发现它还为你推荐了相似同款式类型、相似同等价位的其他球鞋,或者甚至还会引申到同等品牌的运动服饰衣等。最令人惊奇的是,你或许会在推荐商品中挑选到真正喜爱的商品,而没有购买你最初搜索的那件。原因自然不言而喻,智能推荐系统比你更了解你的购买浏览习惯和行为偏好,当你还不了解它的算法奥妙时,你早已离不开它了。

智能推荐系统是人工智能的分支,它的运作主要包括数据采集、数据处理、推荐计算、模型训练等步骤搜寻。

(一)数据采集


推荐系统需要的数据可以用一句话来概括:“哪个用户在什么时间点对什么内容发生了什么行为,这个内容是什么”。

我们拆分来看,大致可以分为以下三类数据:

1.物料类数据

也就是内容的文本类数据,如内容的标题、正文、作者、内容来源、标签或关键词、分类(如时政、健康、娱乐等)、发布时间等,在电商场景的话还可能会有价格、商品属性、商品复购周期等。不同的业务场景下可能会涉及到不同维度的数据,但目前能用做推荐的仅是文本数据。在服务家居和素材类网站客户的过程中,曾经有尝试过用图像识别的方法做相似度推荐但效果并不理想,反而是在社交网站上用实体命名识别会有作用,当然实体命名识别的载体也还是文字。目前的图像识别技术还不能识别出图像或者视频中的行为意图,只能识别出类似于“三个人扭打在一起”等行为描述,而很显然这样的描述特征是不能供推荐系统所用的。

2.用户类数据

用户类数据则包括:人口统计学数据:性别、年龄、职业等;兴趣标签类数据:美妆、电影、旅游等;地理位置数据:经纬度坐标

3.特定场景下的静态身份数据

即岗位、专业、技能等业务场景下才会需要到的身份数据。我们需要知道的是,虽然用户类数据有很多,但并不是所有的数据都能被推荐系统所需要的,往往是特定的业务场景下会用到特定的用户类数据,这个得根据业务场景进行具体分析。如银行理财产品推荐中可能会用到用户的职业、财产收入等数据,而这些数据在新闻场景下是不会用到的。

因此,有很多人在引用用户的“用户画像”做推荐,我认为这是非常错误而且反常识的做法。目前为止,用户画像尚没有平台能做到全维度数据覆盖,也就是画像刻画得有偏差,那么上梁不正下梁歪,整个推荐都会出问题。

其次,即使做到了全维度数据覆盖又该如何确认确保用户画像标签的粒度呢?标签的设立本质就是用少量的词汇来描述一个人,那么多少角度的多少词汇可能描述完一个人呢?标签的存在就注定了信息量的损失。最后,如果一个人的用户画像被刻画为“金领、IT男、月入百万“难道就不会去买9.9包邮的商品么? 很明显,这都是用”用户画像“做推荐反常识、反逻辑的地方

用户行为数据,包含了用户对内容发生的行为如点击、分享、点赞、收藏、加入购物车、浏览时长、播放完毕等根据业务场景制定的能反映出用户兴趣的数据,也包含了用户发生行为的时间即用户点击这条内容是在什么时间,用户浏览10s是在什么时间。我们讲求的推荐系统的实时推荐也是依赖于用户的行为数据能够毫秒级的上报至推荐系统,这个时间一般控制在50ms以下。而我们有了用户的行为数据之后,则可以得出人与人之间的关系特征。

(二)推荐算法
我们知道推荐结果是经由推荐系统所需数据计算处理后的结果,而计算处理的过程则用到了推荐算法。如果我们把推荐系统所需的数据看成原料,那么推荐算法就是流水线上的工人,将原料按照程序加工处理包装完成,并储存到仓库中(缓存层)。那么,应用比较广泛的推荐算法有哪些呢?

1、基于神经网络的文本语义推荐算法


CB(Content-based Recommendations),即根据用户历史喜欢的内容(item),为用户推荐与他历史喜欢的内容相似或相关的内容。例如,在汽车资讯场景下,用户读了很多关于“宝马”汽车的文章,那么其列表里也会推荐跟“宝马”汽车相似的文章。值得注意的是,根据内容相似的推荐并不仅指的是标题,而是所有被认为有计算价值的文本的相似性

2、基于协同过滤的推荐算法


基于内容的推荐算法会带来一系列的问题,例如会让用户进入信息茧房,无法进行冷启动(新用户)的推荐,所以在大多数业务场景下,智能推荐都需要应用到基于协同的推荐算法(CF),并与CB融合推荐。(CF)是一类算法,指的是对哪些数据进行怎样的协同,以及协同完了之后怎样过滤,这些是(CF)算法的重点。

基于协同的推荐算法(CF)

其背后隐含的逻辑是每个人对自己兴趣的认知是片面的、不自知的。即没见到过的东西,每个人是不知道也不确定自己是否会喜欢。所以,CF依赖于“群体共性”“群体智慧”挖掘出那些潜在的、可能会被用户喜欢的内容并推荐给用户。CF算法也是最早、最经典的推荐算法之一,可以这么说,CF算法是推荐算法的鼻祖。我们后续很多推荐算法都是基于CF的协同过滤思想延伸而来。有两类基于协同的推荐算法:基于用户的协同过滤算法、基于物品的协同过滤算法。

3、基于用户行为的深度学习模型


随着技术的发展,深度学习应用的场景越来越广泛,业界也出现很多将深度学习应用于推荐系统的尝试。基于用户行为的深度学习模型最先应用于中小规模计算广告系统中,大规模的计算广告系统因巨大的吞吐量和低延迟的需要,基于成本考虑,多采用简单的回归算法来实现。

深度学习模型在推荐系统中的应用主要有两种:一是精准度更高的语义模型用于物品相似度计算;二是对用户行为进行抽象后提取特征进行点击概率预测;

4、基于关联规则的推荐


在电商领域应用较为广泛的另一种推荐算法是基于关联规则的推荐,从本质上讲它类似于协同过滤算法,只是它协同的是用户自己的购买记录。典型的故事是啤酒与尿不湿的故事,虽然该故事的来源已无从考究,但却是目前大众认知度最高的一个数据带来的收益的案例。故事的内容是:北美的超市经营者经过数据分析发现,啤酒和尿不湿在同一张订单中出现的概率较高。于是深入下去研究,发现在家庭中买尿不湿的事情大都由家里的男人去做,而男人在买尿不湿的时候总会随手带几罐啤酒。于是通过调整货架摆放,把尿不湿和啤酒放在一起,让更多男人在买尿不湿的时候随手带一打啤酒,结果销售量大增。

故事本身相当经不起推敲,比如反正尿不湿和啤酒总是要一起买,那么就不应该把它们放在一起,而是保持一些距离。在动线设计上让用户行走在两种商品的过程中摆放一些男人会随手带的其它商品,收益率也许会更高。我们暂不去讨论这个故事的可信度,这个故事反映了关联规则推荐背后最朴素的逻辑:其他用户经常把哪些商品放在一起购买,我也应该有这方面的需要。

总的来说,作为一种内容分发智能平台,它的内容分发方式是多样的;包括算法分发、编辑(人工)分发、社交分发等,内容平台会根据自身的特点选择分发效率高的分发方式。一般来说,在内容平台内会存在多种分发方式并存的情况。

例如,在新闻场景中,可能会有固定类型的新闻需要在指定位置展示,其他推荐位置才会用到算法分发。比如微博的热点场景即是算法分发,而关注板块的算法则纯粹是基于订阅的社交分发了。或者是一个业务场景,各种分发方式以权重的形式参与到最终结果的呈现中。如电商搜索板块,不仅用到了以语义和用户行为为主的个性化搜索排序,还将主推商品、流量商品等加大权重,使这些商品在分发过程中会有更大的概率会顺序较为靠前的展现在用户屏幕上。当平台有海量的内容和数以百万计、千万计的用户规模时,信息与用户的有效匹配显得尤为重要,自然会通过多种方式提高分发效率。

三、智能推荐与分类目录和搜索引擎有何不同


在如今的互联网时代,我们大致经历了三种信息获取方式:分类目录、搜索引擎、智能推荐。它们并分别诞生了提供三种信息获取方式服务获得成功的公司

  1. 分类目录有:雅虎、新浪;
  2. 搜索引擎有:谷歌、百度;
  3. 智能推荐有:字节跳动。

分类目录覆盖信息量有限,用户分门别类查找信息并不轻松。

搜索引擎覆盖量大,操作简单,但用户必须提供精确的关键词。

在如今信息爆炸的时代,用户依靠以上两种方式准确地获取的所需要的内容已经并不容易,特别是当他们不了解所需内容的具体分类和精确关键词时。

而智能推荐则是通过用户行为数据的计算,将用户最需要的信息主动推送给用户。其与分类目录和搜索引擎的区别体现于此。

推荐系统基于用户的静态属性与用户行为数据进行信息匹配,因每个用户存在个体性差异,所以每个用户获取的信息都是不同的,都是个性化的,并且推荐系统传递信息的过程是主动而非被动的。

我们每个人都已经离不开的网络购物恰恰向我们展现了智能推荐的优势及其必要性。商品千千万,搜索词条也是五花八门,如果不是依靠智能推荐系统为我们提供便利,我们可能很难找到自己真正想要的商品。

四、智能推荐,势在必行


不管是什么样的平台,搭建智能推荐系统、帮助用户发现内容、克服信息过载是势在必行的。智能推荐系统正潜移默化的影响着我们每个人的生活,不管我们发觉与否,我们都无法离开智能推荐系统。它正以一个最了解你的“人”的角色,活跃在你我身边,不仅使平台收益,更方便着每一位用户。

这种将人们喜爱和需求的商品及信息主动地推荐给我们的方式,恰恰迎合了人类与生俱来的惰性。相比主动地搜索,人们更喜欢被动的接受,特别是当这些信息正是我们所感兴趣的时候。如今,智能推荐无处不在。

购物平台的商品推荐,短视频平台的视频推荐,娱乐平台的音乐电影推荐,新闻资讯平台的信息推荐,甚至是社交平台的交友名片推荐

简单来讲,每款app在不同的用户手中,既可以是相同的,又可以是完全不同的。一切都会根据于你的个性和喜好而定义,这就是智能推荐的本质所在。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1025717.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL数据库查缺补漏——基础篇

MySQL数据库查缺补漏-基础篇 基础篇 net start mysql80[服务名] net stop mysql80 create database pshdhx default charset utf8mb4; 为什么不使用utf8?因为其字符占用三个字节,有四个字节的字符,所有需要设置为utf8mb4; 数值类型&…

免费获取独立ChatGPT账户!!

GPT对于每个科研人员已经成为不可或缺的辅助工具,不同的研究领域和项目具有不同的需求。如在科研编程、绘图领域:1、编程建议和示例代码: 无论你使用的编程语言是Python、R、MATLAB还是其他语言,都可以为你提供相关的代码示例。2、数据可视化…

无涯教程-JavaScript - TANH函数

描述 TANH函数返回数字的双曲正切。 语法 TANH (number)争论 Argument描述Required/OptionalNumberAny real number.Required Notes 双曲正切的公式为- $$TANH\left(z\right)\frac {SINH\left(z\right)} {COSH\left(z\right)} \frac {e ^ ze ^ {-z}} {e ^ z e ^ {-z}} …

企业AI机器人,客户服务的好帮手!

客户服务对于任何业务运营来说都是很重要的方面。它是企业与其客户之间的直接联系点,可以进行有效的沟通以及解决问题。良好的客户服务体验可以显著影响公司的声誉,从而提高客户满意度、留存率并最终实现收益增长。 很多企业想尽各种方法想要提供更好的…

如何玩转CSDN AI工具集

前言 人工智能生成内容(AIGC)是当下最具有前景的技术领域之一。AI能够以惊人的速度和准确度生成各种类型的内容,完成文章翻译、代码生成、AI对话、插图创作等工作,带来了许多令人兴奋的机遇。 本文将介绍CSDN AI工具集的基本使用…

9.4.1网站编写(Tomcat和servlet基础)

一.Tomcat: 1.Tomcat是java写的,运行时需要依赖jre,所以要装jdk. 2.建议配置好环境变量. 3.默认端口号8080(业务端口)可能会被占用,建议改一下(本人改成了9999). 4.另一个默认端口是8005(管理端口). 二Servlet基础(编写一个hello world代码): 整体分为7个步骤,分别是创建…

力扣:104. 二叉树的最大深度(Python3)

题目: 给定一个二叉树 root ,返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 来源:力扣(LeetCode) 链接:力扣(LeetCode)官网 - 全球极客挚爱…

使用FileZilla连接本地和服务器进行文件传输

项目场景: 使用FileZilla连接本地和服务器进行文件传输 问题描述 使用FileZilla连接本地和服务器进行文件传输出现150或425 原因分析: 1.防火墙是否开放端口 2.公共ip或账号密码是否正确 解决方案: 从配置到解决问题的步骤 1.下载安装F…

IC修真院 | 业内首个模拟流片项目重磅上线!

自从不久前IC修真院数字方向65nm流片项目上线,就开启了大家对模拟流片项目的“催更”日常。 这里放个口:了解流片项目实战 众所周知IC行业经验至上,其中模拟IC尤甚。 大多数同学在高校中并没有机会接触流片项目,更别说积累经验了…

D. The Enchanted Forest

Problem - D - Codeforces 思路:一直在正向的考虑,这个题从反向考虑更加容易,首先如果k>n的话,初始的一定都可以拿完,并且我们知道生长的蘑菇的总量是n*k个蘑菇,那么如果我们知道剩下了多少个蘑菇&#…

【Java 基础篇】深入理解 Java 管道(Pipes):从基础到高级

Java 管道(Pipes)是一种强大的工具,用于实现进程间通信(Inter-Process Communication,IPC)。在本文中,我们将深入探讨 Java 管道的各个方面,从基础概念到高级用法,旨在帮…

linux-crontab每分钟定时执行/定时任务调度

文章目录 一、前言二、crontab概述2.1、crontab命令简介2.2、linux定时任务分类 三、安装crontab四、crontab使用4.1、crontab语法4.2、定时任务设置4.3、定时任务格式4.4 crontab表达式在线验证 五、实例六、定时任务的日志 一、前言 本文讲解linux上如何调用定时任务&#x…

以太网ARP测试实验

1.1 ARP测试整体框架 当上位机发送ARP请求时,FPGA返回ARP应答数据;当按下FPGA的触摸按键时,FPGA发送ARP请求,上位机返回ARP应答数据。 PLL时钟对eth_rxc的输入时钟进行相位调整;GMII TO RGMI 模块负责将双沿(DDR)数据和…

树莓派安装mariadb

mariadb与mysql十分类似,他们的使用方法类似,默认端口也都是3306 文章参考 树莓派mysql安装配置 – 蒋智昊的博客 目录 1 树莓派系统情况 2 安装mariadb 3 启动数据库 4 设置数据库自启动 5 进入数据库 1 树莓派系统情况 用的是树莓派4&…

Linux性能调优 —— 内存篇

Linux性能调优 —— 内存篇 Linux内存的工作原理 内存映射的概念 虚存空间分布 内存分配与回收 分配 回收 内存查看与分析 查看内存使用情况 命令:free 命令:vmstat 命令:top 分析单个进程 命令:ps -p Linux内存的工作原理…

把api_key 设置成win10系统变量然后python调用

1 设置环境变量存储秘钥 将API密钥存储在环境变量中,而不是直接写在代码中,可以降低泄露密钥的风险。 新建系统变量: 变量名:OPENAI_API_KEY 变量值:OpenAI API秘钥(上一步复制的那个key) 2获取值 import openai i…

torch.cuda.is_available() 在有的项目中返回True有的返回Flase

问题描述,刚下了一个项目,不能用CUDA 同一个环境不同项目中 torch.cuda.is_available() 返回值不同 问题来源: 这里的运行配置有问题 选择编辑配置并修改对应的解释器 查看 和 是否对应。 import torch print(torch.__version__) prin…

iOS蓝牙 Connection Parameters 关键参数说明

1. 先贴苹果文档 《 Accessory Design Guidelines for Apple Devices 》 2. 几个关键词 connection Event Interval 事件间隔,为1.25ms的倍数。可以简单理解为,是两个连接着的蓝牙设备发送“心跳包”的时间间隔; 范围是 6 ~ 3200,即 7.5…

运算符超详细讲解(系统性学习day5)

目录 前言 一、运算符的概念与分类 二、算术运算符 三、关系运算符 四、逻辑运算符 五、赋值运算符 六、运算符的优先级 总结 前言 本篇文章是对运算符的具体讲解。 一、运算符的概念与分类 概念: 运算符就是一种告诉编译器执行特定的数学或逻辑操作的符…

HarmonyOS开发:解决DevEco Studio低版本导入高版本项目运行失败问题

前言 基于DevEco Studio 4.0 Beta2,hvigorVersion为3.0.2,开发了一个项目,上传到了远程仓库,当同事下载后,却始终无法运行,频繁报错,由于API都是使用的9,第一感觉就是开发环境不同&a…