推荐系统（十）用户行为序列建模-Pooling 路线

对推荐系统而言，准确捕捉用户兴趣是其面临的核心命题。不管是样本、特征还是模型结构等方面的优化，本质上做的事情都是在提高推荐系统对用户兴趣的捕捉能力，因此如何提高这种能力，对推荐效果的提升有重要作用，也是算法工程师日常工作的核心出发点。
用户历史行为是非常重要的信息。基于丰富、不同用户差异大、随时间不断变化的行为数据，如何有效利用这些信息，挖掘出用户隐藏在行为背后的真正兴趣，从而将其准确表达出来，既能体现出不同用户的差异性，又能捕捉到用户兴趣随着时间的变化，对推荐效果非常关键。

1.常用的特征

推荐本质是排序，而排序则是特征的艺术 。虽然特征工程看上去似乎没有深度模型那么“高大上”，但在实际业务中，基于特征工程优化，比基于模型更稳定可靠，且效果往往不比优化模型逊色。特征工程一定要结合业务理解，在具体业务场景上，想象自己就是一个实际用户，会有哪些特征对你是否点击、是否转化有比较大的影响。一般来说，可以枚举如下特征：

1.1 Context 特征

如星期、时间、网络类型、操作系统、客户端版本等。

1.2 User 特征

即常说的用户画像，可以共享其他 APP 或者同一 APP 不同场景内的、用户各个维度的特征（例如一些大型互联网企业，通常涉及多个电商、短视频、出行、支付等多个领域，因此可以很容易获得用户各个维度的特征，构建准确的用户画像），主要包括三部分：

静态特征：User ID、性别、年龄、城市、职业、收入水平、是否大学生、是否结婚、是否有小孩、注册时间、是否 VIP、是否新用户等。静态特征一般区分度还是挺大的，比如不同性别、年龄的人，兴趣会差异很大。再比如是否有小孩，会直接决定母婴类目商品是否有兴趣。
统计特征：比如 User 近 30 天、14 天、7 天的 PV（Page View）、VV（Video View）、CTR（Click-Through-Rate）、完播率、单 VV 时长等，最好同时包括绝对值和相对值。毕竟 2 次曝光 1 次点击，和 200 次曝光 100 次点击，CTR 虽然相同，但其置信度天差地别。统计特征大多数都是后验特征，对模型预测帮助很大。统计特征一定要注意**【数据穿越】**问题，构造特征时千万不要把当天的统计数据也计算进去了。
行为序列特征：是目前研究热度极高的方向，也是精排模型优化的关键。可以构建用户短期点击序列和长期购买序列，也可以构建用户正反馈点击购买序列和负反馈曝光未点击序列。序列长度目前是一个痛点，序列过长时，Transformer 等模型计算量可能很大，导致模型 RT 和 P99 等指标扛不住，出现大量超时。

数据穿越：即采用未来数据来进行训练。举个例子：当前时刻的样本的统计值只能是当前时刻之前的，而不能使用之后的数据统计。假设小时更新 CTR 的话，每个样本的 CTR 值使用当前小时的样本总数统计，21 点 01 分的样本的 CTR 其实不能采用 21 点整体的 CTR 计算的，应该使用 21 点 01 分之前的数据计算。不然就会出现数据穿越问题，21 点 01 分的样本实际使用了未来的点击数据。

1.3 Item 特征

与 User 特征不同，Item 特征通常无法与其他 APP 共享，不同 APP 的 Item ID 等重要特征不能对齐，导致无法领域迁移。主要有如下特征：

静态特征：如 Item ID、作者 ID、类目 ID、上架时间、清晰度、物理时长、Item Tag等。这些特征一般由机器识别、人工打标、用户填写运营审核等方式产出，十分重要。
统计特征：如 Item 近 14 天、7 天、3 天的 PV、VV(Video View)、CTR、完播率、单 VV 时长等，最好同时包括绝对值和相对值。跟 User 侧统计特征一样，要注意数据穿越问题。

1.4 交叉特征

Item 与 User 交叉特征，比如 Item 在不同性别年龄用户上的统计特征。虽然模型可以实现自动特征交叉，但是否交叉得好就要另说了。手工构造关键的交叉特征，还是很有意义的。

2.如何处理特征

特征的处理主要有如下几种情况：

2.1 离散值

直接 embedding，注意高维稀疏 ID 特征，比如 Item ID 和 User ID 的收敛问题。

2.2 连续值

主要有两种方式：其一，直接与其他 embedding concat：操作简单，但泛化能力差；其二，正样本等频分桶，再离散化：泛化能力较强，是目前通用的解决方案。

2.3 多值特征

最典型的就是用户行为序列，主要方法有：

mean-pooling、sum-pooling：将行为序列中 Item 特征，逐个进行 mean-pooling 或者sum-pooling。
att-pooling：将行为序列中各 Item，与待打分 target Item，进行 attention 计算再平均，也就是加权平均，比如 DIN。这个方法考虑了 Item 的重要程度，也支持引入Item 的重要 side info，通过引入 item index，其实也可以带有一定的时序信息，可以作为序列建模的 baseline。
序列建模：将行为序列中各 Item，通过 GRU 等 RNN 模型，进行建模，取出最后一个位置的输出即可，比如 DIEN。此方法考虑了用户行为的时序关系和兴趣迁移，目前基本都使用 Transformer 来进行时序建模，可以缓解反向传播梯度弥散、长序列建模能力差、串行耗时高等问题。

3.为什么需要用户行为序列建模？

在推荐场景（如商品推荐、视频推荐、音乐推荐等）中，用户的行为数据通常非常丰富，当 Item 曝光给用户之后，用户可能会产生基于 Item 的多种行为，典型案例如下：

电商平台：点击、浏览、加购、下单、退出等；
视频平台：点击、播放、点赞、评论、打赏、重复播放等；

上述些行为隐含了用户多样的兴趣，直接表达了用户对 Item 的喜好程度，当用户重复播放（或重复购买、重复点击）某 Item，则表明用户大概率对当前 Item 很感兴趣，当用户直接划过某 Item，则用户大概率对当前 Item 没有兴趣。在日常生活中，很多用户可能无法明确表达自己的想法、兴趣，但透过用户的行为，则可以把用户自身都没有感知到的兴趣捕捉到——正所谓：嘴虽硬，但身体很诚实。一个人的行为是检验其想法最好的标准。

除了丰富之外，用户历史行为数据，还具有差异大、变化快的特点：

差异大：不同用户的行为数据差异巨大，比如，一个对科技感兴趣的用户，其历史行为数据中通常会有大量科技相关的 Item；一个对音乐感兴趣的用户，相关的音乐 Item 在其历史行为中将高频出现；
变化快：用户的行为数据变化快，呈现出的结果是行为分布随着时间变化，比如在电商场景，用户的行为可能消费需要而变化。当用户需要购买电冰箱时，通常会货比三家，因此用户将浏览大量电冰箱相关的 Item。然而，一旦用户完成电冰箱购买，短期内将不再具有该需求，因此用户对电冰箱相关 Item 的兴趣将急剧降低。

用户历史行为是非常重要的信息。基于丰富、不同用户差异大、随时间不断变化的行为数据，如何有效利用这些信息，挖掘出用户隐藏在行为背后的真正兴趣，从而将其准确表达出来，既能体现出不同用户的差异性，又能捕捉到用户兴趣随着时间的变化，对推荐效果非常关键。

4.用户行为序列建模方法

深度学习时代，各种表征 embedding 化。在构建特征时，用户行为数据采用行为序列的方式来表示。随着深度学习在推荐领域的应用加强，用户行为序列特征受到越来越高的重视。在推荐场景中，用户兴趣建模，关键点在于如何利用用户的行为序列特征，得到有效的 embedding 来表征用户兴趣。针对此，不少方法被陆续提出。

早期使用的行为序列长度有限，往往在十或百的量级。这一两年随着模型越来越难做出效果，从业人员开始从数据和特征的角度进行改进，同时配合工程改造和性能提升，使用的行为序列长度逐渐加长，从十或百的量级提高到了千甚至万的量级，用户兴趣表征也逐渐从短序列向长序列发展。随着序列长度的增加，用户的兴趣也从单一表征向多兴趣发展。

短序列和长序列这两种方法在建模思路上不同，方法设计的出发点差异主要源自模型复杂度带来的性能压力。处理短序列时，业界使用的方法主要有：

基于 pooling 的思路，这种思路简单，直接采用 sum、mean 等 pooling 的方式；
基于 RNN 的序列化建模思路，这种思路一般利用 RNN[1]、LSTM[2]、GRU[3] 等相关的循环神经网络实现；
基于 attention 思路，这种思路分为 self attention 和 target attention，其中 self attention 典型的方法是 transformer[4]，target attention 包括 din[5]、dien[6]、dsin[7]等。

长序列的方法核心是解决序列长度面临的计算性能问题，包括 MIMN[8]，SIM[9] 等。

用户在实际场景中往往呈现多样的兴趣，因此业界也提出一些对用户多兴趣的建模方法，如 MIND[10]、DMIN[11] 等。

本篇先分享基于 pooling 的建模方法。在之后的文章中，将继续介绍 attention、长序列、多兴趣等方法。

4.1 基于pooling 的思路

早期深度模型刚开始应用于推荐领域时，对序列特征的处理方式简单直接，采用 pooling 的思路。google 的 YouTube 团队发表在 2016 年 RecSys 会议的论文《Deep Neural Networks for YouTube Recommendations》[12] 采用 mean pooling 的方式处理序列特征，在此之后，该思路被业界广泛采用，sum pooling、mean pooling、max pooling 是该思路中常用的方法。

如图 1 所示，为论文采用的 DNN 方法，在序列特征的处理上，分别对用户搜索历史和观看历史的 embedding 向量加权平均，得到用户整体的搜索和观看的历史状态。
Alt
我们先给出行为序列的形式化定义， $U=\left \{ u_{1},u_{2},u_{3},...,u_{n} \right \}$ 代表用户集合， $I=\left \{ i_{1},i_{2},i_{3},...,i_{n} \right \}$ 代表物料（可以是短视频、商品、音乐等）集合，用户的一系列用户行为可以被表达为 $B_{u}=\left \{ b_{1}^{u},b_{2}^{u},b_{3}^{u},...,b_{\left | B_{u} \right |}^{u} \right \}$ ， $\left | B_{u} \right |$ 表示用户行为序列的长度； $b_{i}^{u}$ 代表用户 u 的第 i 个历史行为，可以包含多种 side info 信息， $b_{i}^{u}=\left ( s_{i,1}^{u} ,s_{i,2}^{u},...,s_{i,k}^{u}\right )$ ， $s_{i,k}^{u}$ 代表用户 u 的第 i 次行为的第 k 个 side info 信息，一般是物料的 ID、类目、发生行为的时间等。在实践中，可将用户的每一个行为转换为稠密向量： $e_{i}^{u}=concat(Embedding(b_{i}^{u}))$ ，进而用户的行为可表示为： $E_{u}=\left \{ e_{1}^{u},e_{2}^{u},e_{3}^{u},...,e_{\left | B_{u} \right |}^{u} \right \}$

经过 mean-pooling 之后，得到结果为：
$A_{u}=f(E_{u})=\frac{1}{\left | B_{u} \right |} \sum_{i=1}^{\left | B_{u} \right |}e_{i}^{u}$

基于 pooling 的思路处理用户行为序列特征，操作简单直接，使用 tensorflow 自带的函数 tf.reduce_sum、tf.reduce_mean、tf.reduce_max 即可实现。

上述思路的缺点也很明显，将序列作为无序集合，对每个 Item 同等对待，无法区分不同 Item 的重要度，从而使用户兴趣的表征效果减弱。而在实际场景中，用户历史行为中不同的 Item 对用户当前兴趣表征能力不同，如相比于用户在过去一个月前浏览的 Item，用户当前的兴趣用一天前浏览的 Item 来表征更合适。

4.2 引申：pooling 技术在图像处理领域的应用

在图像处理领域，池化层有一个很明显的作用：减少特征图大小，也就是可以减少计算量和所需显存。
mean-pooling（平均池化）：即对邻域内特征点只求平均
优缺点：能很好的保留背景，但容易使得图片变模糊
正向传播：邻域内取平均

Alt

max-pooling（最大池化）：即对邻域内特征点取最大

优缺点：能很好的保留纹理特征，一般现在都用 max-pooling 而很少用 mean-pooling
正向传播：取邻域内最大，并记住最大值的索引位置，以方便反向传播
Alt

Stochastic-pooling（随机池化）：只需对 feature map 中的元素按照其概率值大小随机选择，即元素值大的被选中的概率也大。而不像 max-pooling 那样，永远只取那个最大值元素。在区域内，将左图的数值进行归一化处理，即 1/（1+2+3+4）=0.1；2/10=0.2；3/10=0.3；4/10=0.4
Alt

接着按照概率值来随机选择，一般情况概率大的，容易被选择到，比如选择到了概率值为 0.3 的时候，那么（1，2，3，4）池化之后的值为 3。使用 stochastic pooling 时，其推理过程也很简单，对矩阵区域求加权平均即可，比如上面图中，池化输出值为：10.1+20.2+30.3+40.4=3。

5.参考文献

https://weibo.com/ttarticle/p/show?id=2309634696248908382628

1-RNN(ICLR2015), RECURRENT NEURAL NETWORK REGULARIZATION. https://arxiv.org/pdf/1409.2329.pdf
2-LSTM, Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting. https://arxiv.org/pdf/1506.04214.pdf
3-GRU. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. https://arxiv.org/pdf/1406.1078.pdf.
4-Attention is All you Need. https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
5-Deep Interest Network for Click-Through Rate Prediction. https://dl.acm.org/doi/pdf/10.1145/3219819.3219823
6-Deep Interest Evolution Network for Click-Through Rate Prediction. https://arxiv.org/pdf/1809.03672.pdf
7-Deep Session Interest Network for Click-Through Rate Prediction. https://arxiv.org/pdf/1905.06482.pdf
8-Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction. https://arxiv.org/pdf/1905.09248.pdf
9-Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction. https://arxiv.org/pdf/2006.05639.pdf
10-Multi-Interest Network with Dynamic Routing for Recommendation at Tmall. https://arxiv.org/pdf/1904.08030.pdf.
11-Deep Multi-Interest Network for Click-through Rate Prediction. https://dl.acm.org/doi/pdf/10.1145/3340531.3412092.
12-Deep Neural Networks for YouTube Recommendations. https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/45530.pdf.
13-https://blog.csdn.net/m0_59023219/article/details/130883277