作者：vivo 互联网算法团队- Shen Jiyi

本文根据沈技毅老师在“2022 vivo开发者大会"现场演讲内容整理而成。

混排层负责将多个异构队列的结果如广告、游戏、自然量等进行融合，需要在上下游和业务多重限制下取得最优解，相对复杂和难以控制。本文主要从业务、模型等角度介绍了vivo广告策略团队在信息流和应用商店混排上的一些探索和思考。

一、背景介绍

首先介绍一下什么是混排。所谓混排，如图所示就是需要在保障用户体验前提下，通过对不同队列中的异构内容进行合理混合，实现收益最优，更好的服务广告主和用户。

混排的核心挑战体现在：

不同队列item建模目标不同，难以直接对比。比如有的队列按照ctr建模，有的队列按照ecpm建模，无法直接对比。
候选队列常受到大量产品规则约束，常见的有比如间隔位的约束、保量、首位等约束。
由于候选队列由上游各方精排算法产生，由于业务限制混排时往往不能修改候选队列的序，也就是需要实现保序混排。

本次介绍的主要是vivo信息流和商店场景的混排实践。

vivo的信息流场景，包括像浏览器、i视频、负一屏等，他的特点是场景众多，下拉深度较高，广告形式多样，用户个性化需求较强。而对于商店场景，是一个整体偏垂直的场景，

它涉及到广告、游戏、自然量多方均衡，需要在保量和用户体验等严格要求下，取得综合最优解。后续我们将对这2个场景的特点展开逐一介绍。

二、信息流混排实践

2.1 信息流混排介绍

我们开始介绍下信息流场景的混排实践。

对于信息流场景来说，如下图所示，混排侧所主要解决的问题是内容队列与广告队列的混排问题。也就是如何在平衡好用户体验和广告主利益的情况下，将广告插入到合适的位置。

对于传统信息流媒体来说早期的主要混排方式可能主要是以固定位模板为主。也就是运营人工定下广告与内容的插入关系，简单直接。

但也带来了三个明显的问题：

用户方来说，广告在偏好场景与非偏好场景同等概率出现，有损用户体验。
业务方的角度出发，流量未精准投放，业务服务效率低，广告主体验差。
平台方，资源错配导致平台资源浪费。

2.2 业界方案调研

接下来介绍下业界常见的几种解决方案。

以某职场社交平台的方案为例。它将优化目标设定为在用户体验价值大于一定值的前提下最优化营收价值。对于待插入广告，将用户体验货币化，与商业化价值加权衡量整体价值。

如果整体价值大于用户体验价值时投放广告内容，否则投放产品内容。此外在投放时还会根据右图所示考虑间隔等约束。

他的方法简单直接，很多团队采用类似的方案取得较好效果。但该方案只考虑单一item价值，未考虑item间相互影响，缺乏长期收益的考虑。

接下来介绍的是某小视频的方案，他们采用强化学习的方法进行混排。该方案将信息流混排问题抽象为序列插入问题，将不同广告对于不同槽位的插入情况抽象为不同action，通过强化学习进行选择。在考虑奖励设计时融合了广告价值（如收入等）与用户体验价值（比如下滑与离开）。通过调节超参对两者进行平衡。

但是该方案对工程依赖较高且论文中已离线测试为主，缺乏线上的分析。并且该模型只考虑单广告插入，未考虑多广告情况。

具体到vivo信息流场景的迭代，混排迭代包括固定位混排，Qlearning 混排和深度解空间型混排三个阶段。

整体思路是希望在Qlearning阶段通过简单的强化学习方案累积样本，快速探索收益。后续升级为深度学习方案。

2.3 Qlearning 混排

上面是强化学习的基本流程，强化学习最大的特点是在交互中学习。Agent在与环境的交互中根据获得的奖励或惩罚不断的学习知识，更加适应环境。state，reward和action是强化学习中最为关键的三个要素，后续详细展开。

vivo信息流的Qlearning混排机制有什么好处呢？首先它会考虑全页面收益，并考虑长期收益，符合多刷场景诉求。此外Qlearning模型可以小步快跑，积累样本同时，快速验证效果。

当前整体系统架构，混排系统位于adx后，接收到内容队列与广告队列后，通过Qlearning 模型下发调权系数，对广告进行调权，叠加业务策略后，生成融合队列。而用户行为也会触发Qlearning模型更新。

Qlearning模型运行原理如图，首先初始化qtable，然后选择一个action，根据action所得到的reward进行qtable的更新，而在损失函数既考虑短期收益也考虑长期收益。

在vivo的实践中，在奖励设计上，我们综合考虑时长等用户体验指标与广告价值，两者进行平滑后，通过超参进行权衡。在动作设计上，一期采用数值型的方式，生成广告调权系数，作用于广告精排得分，与内容侧进行混合，从而实现混排。

在状态设计上包含用户特征、上下文特征、内容侧特征和广告侧特征四个部分。像统计特征和上下文特征等对Qlearning模型有较大影响。

在vivo信息流场景中，Qlearning混排取得了较好的效果，已经覆盖绝大部分场景。

2.4 深度位置型混排

Qlearning混排存在一定的局限性：

Qtable结构简单，信息容量小。
Qlearning模型可使用特征有限，难以对如行为序列等细致化建模。
当前Qlearning混排依赖于上游打分，上游打分波动，会引发效果震荡。

为了解决Qlearning的问题，我们研发了深度位置型混排。在混排机制上由原本的数值型升级为直接生成位置的位置型混排，而在模型本身我们由Qlearning升级成了深度学习。

这带来3个好处：

与上游打分解耦，大大提高混排稳定性
深度网络，可容纳信息量大
能够考虑页面间item相互作用

我们整体模型架构为业界主流类似双塔dqn的模型架构，左塔主要传入的一些state信息包括用户属性、行为等，右塔传入action信息也就是解空间排列基础信息。

值得一提的是我们会将上一刷的解作为特征融入到当前模型中。

新的解空间模型action空间更大，天花板更高。但稀疏action难以学习充分，易导致预估不准。为了解决这个问题，我们在线上增加小流量随机实验，提高稀疏动作命中率，丰富样本多样性。

序列特征作为模型最为重要的特征之一，也是强化学习模型刻画state的重要特征之一，我们对序列做了一些优化。在序列attention模块，为了解决用户历史兴趣与待插入广告的匹配程度，我们通过transformer刻画用户行为序列信息；之后通过待插入广告与序列attention操作，刻画匹配程度。此外在序列match模块，我们引入先验信息，产生强交叉特征，对attention进行补充；对于match权值通过CTR、是否命中、时间权重、TF-IDF等方式进行信息提取。