目录
论文简介
1. 团队介绍
2. 研究背景及主要贡献
3. 方法
4. 实验及结果
5. 总结与展望
6. 参考文献
论文简介
本推文详细介绍了一篇上海交通大学高晓沨教授和陈贵海教授团队发表在顶级学术会议WWW 2024的最新论文《Temporal Interest Network for User Response Prediction》,该论文的共同第一作者为研究生周浩麟和工程师潘军伟,通讯作者为高晓沨教授。在推荐领域,用户行为是推荐系统中用户反应预测的最关键特征之一。许多研究表明,由于语义或时间相关性,用户的行为反映了其对候选商品的兴趣。虽然很多文献已经单独研究了这些相关性,但研究人员尚未将它们结合起来进行分析,即语义-时间相关性。在本研究中,为了分析和捕捉这种语义-时间相关性,该研究提出了一种基于互信息的相关性量化方法,且发现流行的用户兴趣模型未能捕捉到这种相关性。为此,该研究提出了一种新型的时间兴趣网络(TIN),通过语义编码结合目标感知的时间编码来同时捕捉语义相关性和时间相关性,并通过部署目标感知注意力和目标感知表示来进行显式的四向交互,从而利用捕捉到的语义-时间相关性特征来帮助推荐模型生成更好的推荐结果。相比于已有的用户兴趣模型,TIN模型能够更好的衡量用户行为中的语义-时间相关性模式。实验表明,该模型具有优异的推荐性能,在公共数据集上的GAUC表现比最佳的两个基线模型高出0.43%和0.29%,并且在腾讯广告平台的在线A/B测试中提升了1.65%的成本和1.93%的GMV。自2023年10月以来,TIN模型已经成功部署在生产环境中,为微信朋友圈流量提供服务。相关的代码已经开源。
本推文由康羽撰写,审校为高晓沨老师。
原文链接:http://arxiv.org/abs/2409.01093
代码链接:https://github.com/zhouxy1003/TIN
1. 团队介绍
团队负责人高晓沨教授一直从事数据工程,数据挖掘和计算机网络相关研究,陈贵海教授一直从事计算机网络,网络经济学和分布式系统相关研究,团队近三年在推荐领域的代表性研究工作包括:点击率/转化率预测[1-7],序列推荐[8-11],社交推荐[12-16]等,以及本文所介绍的时间兴趣网络TIN[17]。
2. 研究背景及主要贡献
用户行为在推荐系统领域中具有重要作用,因为其代表了用户对过去点击过的商品的偏好,可能反映了用户对候选商品的兴趣。许多研究试图通过循环神经网络、自注意力或目标注意力来捕捉这种兴趣,但用户的交互行为和对候选商品的兴趣之间存在语义和时间的双重关联,而现有的用户兴趣模型并没有很好的衡量这两种关联,无法准确的捕捉到行为和目标之间的语义-时序相关性。由此,本论文提出了一种基于互信息的真实语义-时间相关性的测量方法。另外,为了更加准确的捕捉这种语义-时间相关性,本论文提出了一种名为时间兴趣网络(TIN)的新模型。TIN模型采用目标感知时间编码(TTE)对行为和目标商品的时间信息进行编码,并且结合了目标感知注意力(TA)和目标感知表征(TR),同时进行双向的行为-目标交互,最后通过将TA和TR的输出结果相乘来在行为和目标之间产生显式的四维交互,以此捕捉它们的语义和时间相关性。实验表明,TIN模型相比于已有模型能够形成更加准确的推荐预测结果,为平台和广告商提供更高的效益,证实了本文方法在推荐系统领域的有效性。
论文的主要贡献如下:
1)开创了一项量化行为与目标之间语义-时间相关性的研究,并揭示了强语义-时间模式的存在。我们研究了几种流行的用户兴趣模型,发现它们未能捕捉到这种相关性。
2)提出了一种简单而有效的用户兴趣模型,称为时间兴趣网络(TIN),用于捕获语义时间相关性。TIN采用目标感知的时间编码,并通过部署目标感知的注意力和 表示来实现 四重交互。
3)在两个公开可用的数据集和腾讯广告平台上进行了全面的实验,结果表明,其性能优于最先进的用户兴趣模型。
3. 方法
(1)基于互信息的真实语义-时间相关的测量方法
本论文研究了公共的亚马逊数据集上的语义-时间相关性,该数据集由用户对商品的评论构成。关于时间相关性,本论文选择了每种行为相对于目标的相对位置作为时间数据的参考,而不失一般性。同时,本论文选择了类别型特征作为分析目标,因其特征基数(cardinality)较为适中。基于此,本论文度量了不同位置的不同类别行为与用户响应标签之间的互信息(取值为[0,1])来衡量模型捕捉真实的语义-时间相关性的能力,如图所示:
图1 不同模型学到的语义-时序相关性与基线对比
可以观察到行为之间的相关性存在两种明显的规律:
1.语义相关性:与目标同类别(第三行)的行为表现出更高的相关性。
2.时间相关性:在同类别行为中,相关性随着时间距离变长显著降低。
与此同时,图中的结果表明,流行的用户兴趣模型(如DIN,SASRec和BST)均不能很好的捕捉语义-时序模式,其内在的原因是这些模型没有考虑在四元组(行为语义,目标语义,行为时间,目标时间)上进行的四向交互,因此无法学习到语义-时间相关性。
(2)时间兴趣网络架构
TIN模型采用了广泛使用的嵌入和多层感知器(MLP)范式,将输入的用户,商品和背景特征转化为嵌入表示,进行进一步的信息提取和特征交叉后输入多层感知器,并进行后续的交叉熵损失优化。其核心是处理用户行为特征,生成用户兴趣表示的时间兴趣模块TIM,该模块由目标感知时间编码TTE,目标感知注意力TA和目标感知表征TE三个部分组成,如图所示:
图2 TIN的整体架构
目标感知时间编码将基于目标的用户行为时间信息进行保留和嵌入,通过和语义ID的嵌入相融合来同时捕获有关行为和目标的语义和时间信息;目标感知注意力采用Transformer架构中使用的缩放点积注意力方法,计算行为和目标从TTE中得到的语义-时间融合嵌入表征之间的注意力;与此同时,两个融合嵌入表征通过按元素乘积的方式结合,得到目标感知表征;最后,目标感知注意力和目标感知表征这两个二阶项相乘,在行为和目标之间形成显式的四阶交叉,以捕捉它们之间的语义-时间相关性:
值得一提的是,本论文将TIN模型的三个组成部分作为了现有用户兴趣模型的统一框架,而TIN是其中唯一一个同时具备三个组成部分的模型。
4. 实验及结果
(1)实验细节
本论文的离线实验部分使用了两个流行用户反应预测数据集:亚马逊数据集Amazon和阿里巴巴数据集Alibaba。在构造历史行为和目标的嵌入表征时,Amazon数据集将类别表征和商品表征进行连接,而Alibaba数据集则将商品表征替换为对应的品牌表征,两者的嵌入维度均为64。Amazon数据集的隐藏层维度为80和40,使用学习率0.001的Adam优化器,其余设置与数据集上的DIN设置相同;而Alibaba数据集的隐藏层维度为200和80,使用学习率0.01的Adagrad,其余设置与数据集上的DSIN设置相同。实验评价指标为Logloss和GAUC。
本论文提出的TIN模型也在2023年9月到10月进行了腾讯微信朋友圈上的在线A/B测试,作为额外的专家和现有专家共享嵌入表征。
(2)实验结果
对于离线实验,论文将TIN与已有的用户兴趣模型(Avg Pooling & Concat,Avg Pooling & Product, DIN的论文架构和公布版本,GRU4Rec, SASRec, BERT4Rec, DIEN, DSIN, BST)进行比较。在亚马逊数据集上,TIN模型实现了 0.8629 的 GAUC,比最佳性能基线模型DSIN的性能高出 0.43%。同样,在阿里巴巴数据集上, TIN的GAUC 为 0.6144,比表现最佳的基线模型DIN高出 0.51%。这 两项改进在统计上都是显著的,表明了TIN的优越性能。
表1 阿里巴巴和亚马逊数据集的评估结果。相同颜色的模型具有相同的组件编码
对于消融实验,本论文对TIN模型的各个结构做了以下尝试:
(1)禁用目标感知时间编码TTE,会让模型无法学习行为和目标的时间相关性,因此无法捕捉语义-时间相关性,致使两个数据集上的表现下滑了9.9e-3和1.5e-3。Alibaba数据集上的下滑程度较小,可能是行为的时间跨度较小,时间模式的强度受限导致。
(2)禁用目标感知注意力TA,会让模型退化为单纯基于目标感知表征的二阶交叉模型,且在目标感知表征的计算中仅对所有的语义和时间表征进行简单的池化操作,损失了行为的时间信息,因此两个数据集上均出现了7.3e-3和8.1e-3的巨大下滑。
(3)禁用目标感知表征TE,也会让模型从四阶退化至二/三阶,但位置编码的存在让其仍然保留了一部分捕捉语义-时间相关性的能力,因此表现的下滑程度相对较小(6.3e-3和2.7e-3),在一些场景下好于上述的两种消融方法。
此外,本论文还探究了不同的时间编码方法之间的差距。TIN模型中使用的目标感知时间编码使用基于目标距离的时间编码方式TTE-P,而业界广泛使用的自注意力位置编码采用的则是基于自然时间顺序的编码方式COE。本论文认为,在序列长度多变的情况下,TTE-P中相对位置不变的行为编码较为稳定,而同样的行为在COE中的编码则时刻变化,不够稳定。由此,本论文在Amazon数据集上测试了不同长度的行为序列,结果如表2所示,可以看到TTE-P在全部的序列长度上都优于COE,且两者的差距随着序列长度的增加而变大。
表2 亚马逊数据集上的时间编码方式评估结果
最后,TIN模型在为期两周的线上的A/B测试中,取得了对比基线模型(GwPFM和IPNN的组合模型)1.65%的成本增加和1.93%的GMV增加,且两个结果均具有统计显著性。这样的指标提升可以为公司带来巨大的潜在效益,且TIN模型已经在数个场景中成功部署,投入实际的生产环境。
5. 总结与展望
论文研究了用户行为与目标之间的关键语义时间相关性。对现有方法的检查表明,它们未能捕捉到这种相关性。论文提出了时间兴趣网络(TIN)来捕捉这种相关性,该网络结合了目标感知时间编码、目标感知注意力和目标感知表示。在两个公共数据集和微信朋友圈上的综合实验证明了 TIN 优于性能最佳的基线。本论文的研究对序列推荐模型的应用和发展有着重要的意义,且提出的TIN模型已成功部署到腾讯广告平台上的微信朋友圈场景。
6. 参考文献
[1] Zhaoxiang Zhang, Zhiheng Li, Jipeng Jin,Xiaofeng Gao*, Xiongwen Yang, Bo Zhang, Lei Xiao, DeepMIN: Deep Multi-modal Interest Network with Cognitive Learning Modules, DASFAA 2024.
[2] Jipeng Jin, Guangben Lu, Sijia Li,Xiaofeng Gao*, Ao Tan and Lifeng Wang, Automatic Fusion Network for Cold-start CVR Prediction with Explicit Multi-Level Representation, ICDE 2023.
[3] Chenxiao Yang, Qitian Wu, Jipeng Jin,Xiaofeng Gao*, Guihai Chen, Junwei Pan, Trading Hard Negatives and True Negatives: A Debiased Contrastive Collaborative Filtering Approach, IJCAI 2022.
[4] Chenxiao Yang, Junwei Pan, Xiaofeng Gao*, Tingyu Jiang, Dapeng Liu, Guihai Chen, Cross-Task Knowledge Distillation in Multi-Task Recommendation, AAAI 2022.
[5] Zuowu Zheng, Changwang Zhang,Xiaofeng Gao*, and Guihai Chen, HIEN: Hierarchical Intention Embedding Network for Click-Through Rate Prediction, SIGIR 2022.
[6] Haolin Zhou, Qingmin Liu,Xiaofeng Gao*, and Guihai Chen, MDKE: Multi-level Disentangled Knowledge-Based Embedding for Recommender Systems, DASFAA 2022.
[7] Zuowu Zheng,Xiaofeng Gao*, Junwei Pan, Qi Luo, Guihai Chen, Dapeng Liu, Jie Jiang, AutoAttention: Automatic Field-Pair Selection for Attention in User Behavior Modeling, ICDM 2022.
[8] Xinyi Zhou, Jipeng Jin, Li Ma,Xiaofeng Gao*, Jianbo Yang, Xiongwen Yang, Lei Xiao, SCRIPT: Sequential Cross-Meta-Information Recommendation in Pretrain and Prompt Paradigm, ICDM 2023.
[9] Zuowu Zheng, Chao Wang,Xiaofeng Gao*,Guihai Chen, RBNets: A Reinforcement Learning Approach for Learning Bayesian Network Structure, ECML-PKDD 2023.
[10] Shuodian Yu, Li Ma,Xiaofeng Gao*, Jianxiong Guo, Guihai Chen, Attentive Hawkes Process Application for Sequential Recommendation, DASFAA 2023.
[11] Jiadong Chen, Hengyu Ye,Xiaofeng Gao*, Fan Wu, Linghe Kong, Guihai Chen, An Adaptive Data-Driven Imputation Model for Incomplete Event Series, ADMA 2023. (Best Paper Award)
[12] Yucen Gao, Wei Liu, Jianxiong Guo,Xiaofeng Gao*, Guihai Chen, A Dual-Embedding Based DQN for Worker Recruitment in Spatial Crowdsourcing with Social Network, SIGIR 2024.
[13] Jianxiong Guo, Zhehao Zhu, Yucen Gao,Xiaofeng Gao*, Graph Clustering through Users' Properties and Social Influence, COCOA 2023.
[14] Yulong Song, Bin Fu, Jianxiong Guo,Xiaofeng Gao*, Interactive Activities Initiation through Retrieving Hidden Social Information Networks, ICDM 2023.
[15] Li Ma, Zuowu Zheng, Xiuqi Huang, Zhaoxiang Zhang,Xiaofeng Gao*, Jianxiong Guo, and Guihai Chen, ExpoEv: Enhancing Social Recommendation Service with Social Exposure and Feature Evolution, ICWS 2023.
[16] Shuodian Yu, Jianxiong Guo,Xiaofeng Gao*, Guihai Chen, KAPP: Knowledge-Aware Hierarchical Attention Network for Popularity Prediction, DEXA 2022.
[17] Haolin Zhou, Junwei Pan, Xinyi Zhou,Xiaofeng Gao*, Guihai Chen, Xihua Chen and Jie Jiang, Temporal Interest Network for User Response Prediction, WWW 2024.