在前面几篇文章里,我们介绍了主流的召回模型和算法。但算法更多地是从个性化推荐的角度来解决问题。许多业务上的问题,如安全问题、商业价值、用户体验、流量扶持等种种业务需求,仅仅基于模型,是无法得到完美解决的,它们需要人的参与和决策。
仅从召回系统来说,召回池中必然会存在人工策略的部分,用于获得优质的用户体验,以及商业目标的实现。如果把模型召回比喻成经济学中的市场机制,通过自由竞争来高效地完成资源交换,人工策略则属于宏观调控机制,通过人工调节,来引导市场向着健康成熟方向发展。
本文我们抛开技术层面,从业务支持角度,来谈谈召回系统中的人工策略调控。我们会从人工策略目标,人工策略方式,人工策略价值评估,人工策略的技术协作等几个角度来具体阐述。
人工策略目标
流量扶持
无论是推荐系统,还是广告系统,都会有流量扶持策略。具体地说,会包含新人扶持、新品培育、优质作者/卖家扶持、KA广告主扶持,以及针对平台某些战略目标而进行的流量倾斜,等等。
新人新品,通常根据业务需求进行定义,如自媒体的所谓新内容,其周期较短,通常为天级别,而电商物品,周期则较长,可以延伸到周或月级别。比如淘宝,定义注册店铺开始持续3个月的时间为新开店铺,会给予一定的流量倾斜。
对优质内容,通常有如下判断标准:(1)经过时间检验过的内容,一般为编辑遴选内容,如专题,频道首页等;(2)数据表现好的内容,通常以点击率、点赞率、视频类以完播率、跳出率等指标来考核和综合判定;(3)优质可信的作者/卖家/内容渠道发布的内容。比如抖音更关注垂类,对高质量新闻、教育、知识、体育、汽车等内容给予扶持。[ 1 ] ^{[1]}[1]
安全考虑
无论是信息流、还是电商,都或多或少存在安全问题。需要对内容进行把关,避免推荐不合适的内容。内容在上传的时候,就会进行安全审核,其目的是避免黄、赌、毒、暴力、低俗信息、政策不允许内容入池。内容入池后,如果数据表现亮眼,还可能会进行第二次的质量审核,以防不合适内容由于漏审而对平台带来更多负面影响。
高热内容会有专门的审核,以保证内容符合平台的调性,且不存在政治及安全问题。除了主动审核,一般平台会配置用户举报通道,通过对用户举报内容进行审核,及时下架违规内容。
安全审核通常是机器审核配合人工审核,对于一般的安全情况,通常会使用分类模型对正负样本进行训练,如文章[2]就描述了淘宝负面图片的识别算法。线上由模型判断内容的安全性,如果安全性较低,则分发给人工审核进行进一步判断。
当内容被召回后,会对已经标注过的违规内容进行过滤。
社区生态
好的生态能形成生产者与消费者的良性互动,扩大生产者的生产意愿,同时可以进一步促进拉新、促活、留存等指标的提升。
社区生态的打造体现在内容生产、分发、互动引导、内容分享和用户成长路径等方面。仅看推荐系统,其在分发过程中涉及到的重点品类的强化、优化目标的选取(时长、点击率、留存率等)、社区头部内容的调性把控,都会在一定程度上服务于社区生态的建设。
在召回过程中,召回渠道通常会包含运营定制的重点类目、标签、主题类内容池。在后续排序及重排过程中,会对运营重点类目进行强化,从而加强曝光,以达到针对重点品类进行运营的目的。
优化目标选取乍看只是模型建模目标的问题,但宏观上讲,实际关乎了平台的价值取向。举一个例子,视频平台如果会在视频中插入多段广告,那么就会以视频观看时长为建模目标,从而倾向长视频的推荐;而短视频平台以对用户“kill time”的能力为导向的话,就会以完播率为建模的一个目标。
再看一个例子,对于短视频平台来说,价值观是希望打造“爆款”话题,聚焦高质量内容,还是让更多普通人有机会发声和被看见,意味着建模的目标和特征选取的极大差异性:前者会侧重热门池内容,同时会按交互量建模;而后者则会关注用户,通过不同方式来提升热门视频被召回的门槛–这也是抖音和快手呈现出不同生态的原因:抖音进入进入热门流量池的视频一定是少量的精品,大部分长尾内容无法得到曝光;而快手会引入“基尼系数调控”,当视频热度达到一定阈值后,它的曝光机会将不断降低,从而减小视频间的“贫富差距”。[ 3 ] ^{[3]}[3]
笔者认为,所谓生态,就是一个平台的价值观。算法则是在这种价值观的指引下,通过鼓励和打压,最终把平台打造成所需要的样子。
人工策略的价值
相较于算法分发,人工策略的显然是高成本(因为需要人工标注,入池,复盘等操作)且低效(分发并不能保证指标上的效果上)的。它的重要性主要体现在商业价值上。
用户增长有AARRR模型,即拉新(Acquisition)、促活(Activation)、留存(Retention)、变现(Revenue)、传播(Referral),每个环节均可以人工策略方式介入。
举个例子(此处不进行评判),有一些平台,通过“大数据杀熟”,对敏感程度不同的用户,对同一商品给不同用户呈现不同价格,从而完成更好的变现模式(当然这种方式是极不道德的)。还有一些平台,根据用户的价格敏感程度不同,为用户定制召回适合该用户价位的内容,促进成交,从而提升平台的变现效率。再举个例子,对于平台新用户,通常会通过运营定制的注册兴趣匹配或热门内容展现,来吸引新用户,在一定程度上增加新用户的留存。
人工策略的介入方式
人工策略的实施者通常包含以下几类人群:运营人员、产品、策略工程师(在许多公司,不仅有算法工程师,也有策略工程师,通常会针对某些业务指标进行优化,使用手段不限于人工规则和算法)。他们对于人工策略的实施手段可能是不同的,但介入阶段和目标则是比较相似的。
人工策略在召回中的干预方式在前面已经谈到几点,包含遴选内容进入特定内容池;对不合适的内容打标,避免进入召回池;以及与算法共同定制合适的指标,从而影响生态构建。从召回建模阶段的整个周期来说,人工策略的介入包含数据层面、算法层面以及结果层面的调控。了解人工策略介入的方式和阶段,也有助于在算法架构设计时,预留人工交互的部分。
数据层面
运营人员在数据层面上的参与方式多体现为数据标注。数据标注有两种方式:一种是人工标注;还有一种是使用训练好的机器学习模型来标注,再由人工介入修正。数据标注在推荐领域有其自身的价值:一方面,经过运营人员(或外包/众包)打过标签的内容,可以用于算法训练(如,对某些图片鉴定为黄图,标注后的图片可以作为正样本,用于进行算法训练;或者将某类内容打上“优质精选”的标签,用于召回池的构建);另一方面,也可以用于运营管理(如,对某一类标签进行线上实时提权或降权)。
算法层面
算法层面上,多由策略工程师来负责实施。但有些情况下,运营人员也可以以不同方式参与到算法中,运营人员的参与包括以下几方面:
一、特征的选取:哪些特征更为有效,哪些特征与用户行为关联更大,运营人员一般会有更高的业务敏感度和专业度。策略工程师在筛选数据时可以参考运营人员的建议。
二、建模过程:建模通常是由算法人员完成的。但借助于某些平台的强大的拖拽式建模能力(如阿里的PAI平台),稍懂一些算法的运营人员也可以像搭积木一样搭建模型,进行训练并部署到线上。借助AB测试框架,探查模型效果,不断迭代。
阿里的PAI平台,可拖拽式建模
三、召回池的构建:运营人员可以筛选优质内容入库,直接在召回侧进行干预。从召回层面上看,配合业务的渠道可以是各种各样,五花八门的,取决于具体业务场景。虽然推荐常用协同过滤、双塔模型等等,但一些具体业务则需要结合场景考虑,比如O2O的场景中,为用户推荐的是离用户较近的商户,则多采用基于LBS,即地理位置的召回。再比如,笔者之前经历过的一家二手电商公司,曾有过类似经历:业务人员认为,尽管是二手平台,但要保持一定的调性,也就是要有一些比较好的商品能够露出。商品比较好,这个判断是十分主观的,我们定制了较为简单的策略,单纯把价格比较高的商品,作为一个单独的召回池,用于推荐,也取得了不错的效果。当然,如果从商品质量、图片质量、发布者信誉度等等方面,也可以进行挖掘,来构建所谓“好”的商品池。
结果层面
尽管经过事先过滤,但推荐结果仍然可能会存在问题。比如,由于政策、监管或安全原因,某些话题需要立即下线;或者由于版权问题,需要下架某些作者/歌手的作品,等。因此,推荐系统需要有能力批量化下架内容。
除了能上下架内容,策略还可以对算法结果进行加权和降权,来干预算法的排序结果。通常加降权体现在推荐系统的重排序阶段。对于内容的权重调节出于很多方面的考虑:同类内容打散、指定类目的露出、某些作者/标签的加权,某些内容的保量、以及提升推荐系统的多样性和惊喜度,等等。运营的这些调控方式,多为推荐工程师后端实现,并结合热生效的配置平台(携程的阿波罗,点评的Lion平台等),将规则实时注入推荐系统,最终产生对结果的排序干预。
除了常规化使用加权降权方式,来干预结果的权重,以期提升或减少曝光,人工策略实际上也可以像算法一样,通过规则对推荐结果进行干预,从而实现指标提升。比如针对点击率的提升,可以采用一些粗暴的手段,比如直接将前一天点击率高的物品排到首位,这样也能带来效果提升(当然会对生态产生一定负面影响,这是需要综合考虑的问题)。
人工策略的价值评估
一个策略是好是坏,需要有公允的评估方式,才能保证策略的持续可迭代。那么,该如何对人工策略的效果进行评估呢?主要有以下几个方面:
一、用宏观指标的趋势变化来评估人工策略的价值。人工策略通常是为了某些业务指标的提升。通常来说,一个公司会定制一个满足其业务需求的“北极星指标”[ 4 ] ^{[4]}[4],比如DAU(日活跃用户数),MAU(月活跃用户数),GMV,用户人均在线时长等,而其他的日常指标则是基于北极星指标的拆解。当一项人工策略被部署并运行一段时间后,比较其所针对的业务指标在干预前后的变化,来评估策略的有效性。
需要注意的是,评估时要保证评估指标的对齐:比如人工策略目标是对低活跃用户进行促活,以两个月为观察期,以低活用户的点击UV为指标,假如低活用户的定义是28天内活跃天数低于3天的用户。此时,对人工策略的评估要注意策略用户群的稳定性:在人工策略介入时圈定低活用户,评估则需针对对这群用户进行,而不是针对两个月后的低活用户(因为经过人工策略的干预,前期低活用户可能已变成中高活,而新的用户再次涌入,变成新的低活用户)。
当然,宏观指标的评估在大部分时候存在一定问题,即,若同时有多个策略的介入,且目标各不相同,甚至彼此相悖,那么该如何估算每个策略对彼此目标带来的影响。比如,有的人工策略目标是提升用户点击,而有的人工策略则是优化生态,提升内容质量,那这两个目标可能是有一定冲突的,前者带来的提升可能会被后者消除,那么该如何评估两者各自的效果呢?这时,能够独立评估每个策略价值的AB测试就成了另一种有效评估方式。
二、通过AB测试来评估人工策略的价值。AB测试通常用来对算法和产品迭代效果进行科学的检验,实际上人工策略也可以采用这套评估方式。AB测试通常将用户随机分成AB组(当然,在不同时间段里,同一个用户的分组是固定的,以保证用户体感的一致性),一组应用了人工策略,另一组除了没有应用该人工策略,其他功能完全一致。
AB测试运行过一段时间后,对观察期指标在AB流量上进行对比,就可以评估出人工策略对指标的影响。AB测试一般是对比较复杂,无法进行事先预估的人工策略进行评估,同时需要保证策略实施用户群的稳定性。像前面所举的例子–对低活用户进行干预促活的人工策略,实际上不太适合AB测试,因为该AB测试限定在低活用户上,人工策略如果特别有效,会使得低活用户不断变成中高活用户,而产生效果的用户会不断脱离AB流量的观察,使得评估结果变得不够公平。
三、通过用户调研来评估人工策略的价值。
用户调查是一个直接获取用户评价的办法,AB测试虽然可以对人工策略进行宏观指标评估,但无法反馈真实的用户体验。后者则可以通过用户调研来获得。用户调研是通过问卷调研、电话访谈、面对面交流等方式来了解用户,获取他们对推荐系统的看法,以及对人工策略的体验和建议等。对用户的调研,还有助于算法和运营人员洞察用户心理,并将这种洞察进一步反映到产品策略的迭代中去。
四、抽取样例进行评估
用户调研虽然贴近用户,但是成本较高,流程冗长,一般实践中,多采用抽取样例(case)进行评估的办法。笔者经历过的一家公司,部门主要业务是针对用户的广告定向投放,为了评估给用户曝光的广告是否与用户兴趣一致,我们搭建了一个包含UI的样例评估系统,从后台小批量抽取id,并展现对用户近期曝光的广告信息,以及用户的兴趣相关信息,可以快速方便地探查用户推荐样例,由此排查坏样例(bad case),而不断改进定向策略。
一些小的公司可能不具备快速搭建分析系统的能力,也可以依赖借助一些现有工具来实现case分析,笔者曾经历过一家创业公司,当对一些推荐不准的问题进行排查时,因为没有样例评估系统,我们便就地取材,借助审核系统来进行分析。因为该审核系统可以利用物品id快速审查一些物品的资质、类目、发布时间等信息,可以方便定位给某些用户推荐的物品是否存在问题,相较于通过大数据分析获取相关内容,更为直观迅速。
有的公司在前端团队支持下,会开发出产品的调试版本(不同的网页进入入口或debug版本的app),开发人员可以在调试版本中,以自己的用户id来体验新的策略功能,并查看更多调试信息(比如召回渠道,打分内容等),从而方便快速地排查问题。
人工策略的技术协作
人工策略有效地借鉴产品运营人员对行业的深刻洞察、对趋势的判断把握、对复杂因果逻辑的分析,因此是推荐系统中必不可缺的一环。技术上如何能够很好地支持人工策略,使之能与模型支撑的推荐系统无缝衔接,流畅配合,是一个在推荐系统设计之初就需要考虑的问题。
为策略介入提供灵活可操作的界面,是很关键的一步。运营人员及策略工程师需要能以成本较低的方式灵活调配流量权重,且操作需要能实时响应,快速影响到系统结果,最理想情况能做到所见即所得,即策略的配置能够快速生效,并能够在实验系统中查看效果。这就需要周边技术体系的支持,如热生效动态配置系统、AB分流体系和实时数据处理系统,等。此外,系统需要记录策略配置历史,以方便对策略设置进行追溯。
人工策略干预通常不会独立存在,需要跟算法互相配合,例如前面举的例子,在安全审核方面,通常由机器先审,有较高风险的再由人审,系统对这样的审核流程予以支持,可以保证更好的审核效率。再如不同的召回渠道,召回的结果可能需要业务干预,包含排序和加权等逻辑,系统上实现调控策略配置的实时更新,则可以为策略与算法的互相配合提供更好的支持。
总之,推荐系统本质是一种运营系统,最终服务的是人,机器学习可以不带有感情色彩地,理性客观地进行判断和预测。但最了解人类自身的还是自己,在机器学习之上,整合人类的经验和思考,会使得推荐系统更加富有人情味儿、更有温度情怀。机器和人工策略的协作,可以实现优势互补,让推荐系统更加完美。
深入浅出推荐系统(六):召回:一切为了业务_慕阮的博客-CSDN博客_召回池
参考文献
[1] 那些在抖音“混不下去”的MCN和网红们:到底输在哪?
https://m.thepaper.cn/baijiahao_10229894
[2] 内容安全实战:淘宝首页的“辣眼睛”图去哪了?
https://www.secrss.com/articles/15912
[3]产品与算法:抖音、快手的生态成因。https://pdf.dfcfw.com/pdf/H3_AP202010201422479434_1.pdf?1603191905000.pdf
[4]《硅谷增长黑客实战笔记》,曲卉,机械工业出版社,2018.4。