【一些理解】搜广推:推荐、广告、搜索算法的区别、入坑?

news2024/11/19 0:28:36

【一些理解】搜广推:推荐、广告、搜索算法的区别、入坑?

文章目录

  • 【一些理解】搜广推:推荐、广告、搜索算法的区别、入坑?
    • 1. 根本区别
    • 2. 目标上的区别
    • 3. 模型上的区别
    • 4. 辅助策略和算法上的区别
    • 参考

作为互联网的核心应用“搜广推”,三个方向基本都是互联网公司的标配。各头部公司的搜广推系统也都各自发展成了集成了多种模型、算法、策略的
庞然大物,想一口气讲清楚三者的区别并不容易。不过万事总有一个头绪,对于一个复杂问题,直接深入到细节中去肯定是不明智的,
我们还是要回到问题的本质上来,回到搜广推分别想解决的根本问题上来,才能一步步的把这三个问题分别理清楚。

题外话,网上流传:

		建议入坑NLP
		cv已死,
		搜推广增长困难。
  • 不过这年头,大模型确实把热点全占,各大公司对于大模型方向的岗位需求也多了起来。
  • 期待LLM也能带来搜广推方向的 greater again,继续启动。

不过褒贬不一,也有的大佬认为:

		搜广推仍然是一个“容量大,高度高”的行业,但要以一个对待正常行业的态度来对待这个行业,
		而不是总是以“踩风口,吹飞猪”的态度来选择这个行业。
		就目前来说,也就是新业务和新场景有模型的提升空间,绝大部分成熟业务的提升都不在单纯的模型结构上,
		反而是工程上的优化,不是盯着paper复现就完事了,是既要动手做脏活也要动脑想业务,
		没有银弹是搜推广比大模型方向更大的价值所在。
  • 还是得看个人能力

1. 根本区别

  • 广告:一个公司要搭建广告系统,它的商业目的非常直接,就是要解决公司的收入问题。解决广告主、平台、用户三端的问题,本质上其实是为了解决广告主的需求。

    • 所以广告算法的目标就是为了直接增加公司收入。
  • 推荐:推荐算法虽然本质上也是为了增加公司收入,但其直接目标是为了增加用户的参与度。

    • 只有用户的参与度高了,才能让广告系统有更多的inventory,进而增加公司营收。
  • 搜索:搜索要解决的关键问题全部是围绕着用户输入的搜索词展开的。当然这个与 NLP 更相关

    • 虽然现在搜索越来越强调个性化的结果,但是一定要清楚的是,推荐算法强调的个性化永远只是搜索算法的补充。“围绕着搜索词的信息高效获取问题“才是搜索算法想解决的根本问题。

关于广告和推荐:(技术上比较类似,都是用户没有明确的目标,需要平台加以引导)

  • 技术角度
    • 两个岗位核心工作都是从海量数据里去个性化的筛选并推荐用户可能感兴趣,发生点击/转化等行为的item;基于这个核心目标,两边通用技术架构非常相似,都有召回/粗排/精排,去依次筛选候选item,训练优化ctr/cvr模型,加速冷启动item;在这些工作,两边的技术完全通用,一般面试两边也是互相认可的
    • 不同的是,广告系统涉及到广告主/平台/用户三端,广告主可以通过广告预算&出价参与到广告系统并影响到最终的排序(竞价结果),广告系统也会根据预算消耗,广告主转化目标等来影响实际竞价出价;这里涉及的主要是出价竞价计费模块,包括很多成熟的概念和技术,包括pacing, bidding等等。
    • 所以从技术角度而言,做模型做策略因为技术通用,两边都会比较认可;
    • 而只做广告出价算法部分可能后期转回推荐存在一些不匹配;
    • 广告出价部分位于整个系统下游,靠近send,对系统影响比较大,但是也是很重要的工作
  • 产品定位
    • 推荐算法目前业界有太多场景,主要还是根据产品主营业务目标来定优化目标,比如信息流推荐更关注用户完播率/停留时长等,商品推荐更关注转化/GMV等;
    • 广告算法更多关注的是平台收入和广告主ROI这点不同场景均较为相通

2. 目标上的区别

  • 广告:各大公司广告算法的预估目标非常统一,就是预估CTR和CVR。这是跟当前效果类广告的产品形态密切相关的。因为CPC和CPA计价仍是效果类广告系统的主流计价方式。所以只有预估出CTR和CVR,才能反向推导出流量的价值,并进一步给出合理的出价。所以针对这样的目标,广告算法非常看重把预估偏差当作首要的评价指标。
  • 推荐:推荐算法的预估目标就不尽相同,视频类更多倾向于预测观看时长,新闻类预测CTR,电商类预估客单价等等这些跟用户参与度最相关的业务指标。而且由于推荐系统的推荐场景是生成一个列表,所以更加关注item间的相对位置,因此评估阶段更倾向于用AUC,gAUC,MAP这些指标作为评价标准。
  • 搜索:搜索的预估目标又有所不同,因为相比广告和推荐,搜索某种意义上说是存在着“正确答案”的。所以搜索非常看重能否把这些正确答案给召回回来(广告和推荐也关注召回率,但重要性完全不同)。所以搜索系统往往会针对召回率,MAP,NDCG这些指标进行优化。

总的来说,广告算法是要“估得更准”,推荐算法是要整体上“排的更好”,搜索算法是要“搜的更全”。

在这里插入图片描述

3. 模型上的区别

  • 广告:由于广告算法要预测“精准”的CTR和CVR,用于后续计算精确的出价,因此数值上的“精准”就是至关重要的要求,仅仅预估广告间的相对位置是无法满足要求的。
    • 这就催生了广告算法中对calibration方法的严苛要求,就算模型训练的过程中存在偏差,比如使用了负采样、weighted sampling等方式改变了数据原始分布,也要根据正确的后验概率在各个维度上矫正模型输出。此外,因为广告是很少以列表的形式连续呈现的,要对每一条广告的CTR,CVR都估的准,广告算法大都是point wise的训练方式。
  • 推荐:推荐算法的结果往往以列表的形式呈现,因此不用估的那么准,而是要更多照顾一个列表整体上,甚至一段时间内的内容多样性上对于用户的“吸引力”,让用户的参与度更高。
    • 因此现在很多头部公司在算法设计时,不仅要考虑当前推荐的item的吸引力,甚至会有一些list level,page level的算法去衡量整体的效果进行优化。也正因为这一点,推荐算法有大量不同的训练方式,除了point-wise,还有pair-wise,list-wise等等。此外为了增加用户的长期参与度,还对推荐内容的多样性,新鲜度有更高的要求,这就让探索与利用,强化学习等一些列方法在推荐场景下更受重视。
  • 搜索:对于搜索算法,我们还是要再次强调搜索词的关键性,以及对搜索词的理解(牵扯到NLP)。正因为这样,搜索词与其他特征组成的交叉特征,组合特征,以及模型中的交叉部分是异常重要的。对于一些特定场景,比如搜索引擎,我们一定程度上要抑制个性化的需求,更多把质量和权威性放在更重要的位置。

4. 辅助策略和算法上的区别

除了主模型的差异,跟主模型配合的辅助策略/算法也存在着较大的区别。

  • 广告系统中,CTR等算法只是其中关键的一步,估的准CTR只是一个前提,如何让广告系统盈利,产生更多收入,还需要pacing,bidding,budget control,ads allocation等多个同样重要的模块协同作用,才能让平台利益最大化,这显然是比推荐系统复杂的。
  • 推荐系统中,由于需要更多照顾用户的长期兴趣,需要一些补充策略做出一些看似“非最优”的选择,比如探索性的尝试一些长尾内容,在生成整个推荐列表时要加入多样性的约束,等等。这一点上,广告系统也需要,但远没有推荐系统的重视程度高。
  • 搜索系统中,大量辅助算法还是要聚焦在对搜索词和内容的理解上。因此搜索系统往往是应用NLP模型最重的地方,因为需要对大量内容进行预处理,embedding化,进而生成更理解用户语义的结果。比如最典型的例子就是airbnb对搜索词embedding化后,输入滑雪skiing,会返回更多滑雪胜地的地点,而不是仅仅是字面上的匹配。

参考

【1】https://www.zhihu.com/question/352223644/answer/2412006147
【2】https://zhuanlan.zhihu.com/p/430431149

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1089091.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机的字符与编码集

文章目录 前言一、字符编码集的历史1.ASCII码2.Extended ASCII码3.字符编码集的国际化 二、中文编码集 前言 今天给大家介绍计算机的字符与编码集,分为两部分:字符编码集的历史、中文编码集。 一、字符编码集的历史 这部分包含三个板块内容&#xff1a…

【特纳斯电子】基于物联网的空气质量检测-实物设计

视频及资料链接:基于物联网的空气质量检测-实物设计 - 电子校园网 (mcude.com) 编号: T0082203M-SW 设计简介: 本设计是基于物联网的空气质量检测系统,主要实现以下功能: 1.通过OLED显示模式、温度、湿度、PM2.5、…

【Java】查找jdk步骤

需求描述 解决方法 第一步 第二步 第三步 第四步 参考文章

自定义jenkins镜像提示FontConfiguration.head错误

系统使用:Debian12,jdk17 提示问题:缺少字体 找一台jdk8的环境,在lib文件夹中找到fontconfig.bfc find / -name *fontconfig* 复制到jenkins目标服务器中,jdk目录的lib中 再次启动jenkins服务正常

云梦富盈:智慧投资引领未来市场

随着2023年的到来,全球股市呈现出令人关注的趋势和挑战。投资者纷纷寻求智慧投资,以更好地把握市场动向。云梦富盈,作为一支备受瞩目的投资团队,正在洞悉并解析2023年全球股市的趋势,为投资者提供智慧投资的护航。 20…

力扣-415.字符串相加

Idea 模拟:竖式加法 从后面往前逐位相加,然后将相加的结果模10,添加到答案字符串中去 最后需要判断一下是否还有进位问题 需要将答案string翻转 AC Code class Solution { public:string addStrings(string num1, string num2) {string ans;…

LruCache实现原理

序、慢慢来才是最快的方法。 回顾 LRU (Least Recently Used)最近最少策略是最常用的缓存淘汰策略。LRU 策略会记录各个数据块的访问 “时间戳” ,最近最久未使用的数据最先被淘汰。与其他几种策略相比,LRU 策略利用了 “局部性…

Sui账户抽象消除用户使用障碍,让大规模用户使用区块链成为可能

Sui通过其本机语言和两个特定功能实现了账户抽象,使账户管理中更加细节化的过程自动化。无论是zkLogin还是赞助交易,都简化了用户的使用过程,而Sui Move的基本结构则使开发人员能够提供丝滑的体验。 最近,随着区块链寻求扩大其用…

Flink(林子雨慕课课程)

文章目录 12.Flink12.1 Flink简介12.2 为什么要选择Flink12.3 Flink应用场景12.4 Flink技术栈、体系架构和编程模型12.5 Flink的安装和编程实战 12.Flink 12.1 Flink简介 企业的处理架构已经由传统数据处理架构和大数据Lamda架构向流处理架构演变 Flink实现了Goole Dataflow…

配置nginx的虚拟主机

1.基于域名的虚拟主机 vim /usr/local/nginx/conf/nginx.conf 复制一个 cd /var/www/html/ mkdir kgc accp cd kgc/ vim index.html this is kgc! cd .. cd accp this is accp! vim /etc/hosts systemctl restart nginx 2.基于ip的虚拟主机 ifconfig ens33:0 192.168…

如何生成SSH服务器的ed25519公钥SHA256指纹

最近搭建ubuntu服务器,远程登录让确认指纹,研究一番搞懂了,记录一下。 1、putty 第一次登录服务器,出现提示: 让确认服务器指纹是否正确。 其中:箭头指向的 ed25519 :是一种非对称加密的签名方法&#xf…

AMEYA360:北京君正集成电路多核异构跨界处理器X2000

• 双XBurst2核,主频1.2GHz • 跨界第三核XBurst0(240MHz),面向安全管理和实时控制 • H.264编、解码器1080P30fps • 内置LPDDR3 128MB • 双摄Mipi接口双ISP,可实时同步 • 丰富的外设接口 应用领域 • 智能音频:智能音箱&#…

ubuntu安装datasophon问题记录

问题描述: 主机agent分发报红 解决步骤一: 修改datasophon-worker.tar.gz文件 解压/opt/datasophon/DDP/packages目录下的datasophon-worker.tar.gz文件修改datasophon-worker/bin目录下的datasophon-worker.sh文件 . /etc/profile解决步骤二: chkconfig命令不存在 当执行ch…

人事管理系统springboot42

大家好✌!我是CZ淡陌。一名专注以理论为基础实战为主的技术博主,将再这里为大家分享优质的实战项目,本人在Java毕业设计领域有多年的经验,陆续会更新更多优质的Java实战项目,希望你能有所收获,少走一些弯路…

龙迅LT7911UXC 是一款高性能TYPE-C/DP/EDP转换四端口MIPI/LVDS的芯片,还支持图像处理

龙迅LT7911UXC 1.描述: LT7911UXC是一款用于VR/显示应用的高性能Type-C/DP1.4a到MIPI或LVDS芯片。HDCP RX作为 HDCP中继器的上游端,可以与其他芯片的HDCP TX协同工作,实现中继器的功能。对于DP1.4a 输入,LT7911UXC可以配置为1…

基于LoRa的远程气象站:实现远程气象监测与数据传输

随着物联网技术的不断发展,基于无线通信的远程气象监测系统得以广泛应用。本文将介绍一种基于LoRa技术的远程气象站,通过LoRa模块实现气象数据的远程采集和传输,为气象监测提供了一种高效、低功耗的解决方案。 LoRa技术概述 LoRa&#xff08…

论文阅读》用语义解耦改进共情对话生成 2022 IJCKG

《论文阅读》用语义解耦改进共情对话生成 前言简介相关知识对抗学习模型架构Semantics DecouplerEmpathetic Generator损失函数前言 论文阅读不迷路! 今天为大家带来的是《Improving Empathetic Dialogue Generation with Semantics Decoupling》 出版:IJCKG(International…

Variations-of-SFANet-for-Crowd-Counting记录

论文:Encoder-Decoder Based Convolutional Neural Networks with Multi-Scale-Aware Modules for Crowd Counting 论文链接:https://arxiv.org/abs/2003.05586 源码链接:GitHub - Pongpisit-Thanasutives/Variations-of-SFANet-for-Crowd-C…

如何用BI制作图表组合?

BI(Business Intelligence)是一种通过收集、分析和可视化数据来帮助企业做出决策的技术和工具。在BI中,制作图表组合是一种常见的方式,可以将不同的图表类型组合在一起,以更全面地呈现数据。 下面将详细介绍如何使用B…

行业追踪,2023-10-13

自动复盘 2023-10-13 凡所有相,皆是虚妄。若见诸相非相,即见如来。 k 线图是最好的老师,每天持续发布板块的rps排名,追踪板块,板块来开仓,板块去清仓,丢弃自以为是的想法,板块去留让…