论文简介
本推文介绍了2024 KDD的最佳学生论文《Dataset Regeneration for Sequential Recommendation》。该论文提出了一种基于数据中心化范式的新框架,称为DR4SR,该框架通过模型无关的数据再生机制,能够生成具有出色跨架构泛化能力的理想训练数据集。此外,论文还引入了DR4SR+框架,增加了模型感知的数据个性化器,能够根据特定目标模型定制再生的数据集。为了验证这一数据中心化范式的有效性,论文将该框架与多种模型中心化方法结合,并在四个广泛使用的数据集上观察到显著的性能提升。推文作者为黄星宇,审校为许东舟和邱雪。
论文链接:https://dl.acm.org/doi/pdf/10.1145/3637528.3671841
一、会议介绍
第 30 届国际知识发现与数据挖掘大会(KDD 2024)于2024年8月25日至29日在西班牙巴塞罗那隆重举行。KDD 起始于1989年,由ACM的数据挖掘及知识发现专委会(ACM SIGKDD)组织,是数据挖掘领域的旗舰学术会议。大会涵盖了数据挖掘、知识发现、数据科学、预测分析等多个技术领域。KDD在中国计算机学会(CCF)的推荐中被列为A类顶尖学术会议。
二、研究背景
序列推荐(Sequential Recommendation)研究的是人工智能预训练的下一个标记预测(next-token prediction)问题。现有的序列推荐方法常关注于设计复杂的模型结构或训练策略,属于以模型为中心的范式,该范式往往忽略了数据中潜在的质量问题和缺陷。
论文首次从以数据为中心的视角出发,关注如何获得信息丰富且泛化性强的训练数据集,以提升训练数据质量最终提升模型性能。论文提出了数据集重生成框架,通过多样化重生成器的预训练及生成式推理,将原始的序列数据集转化为更易于训练的数据集,使不同的基础预测架构模型在其上训练都可以得到更好的推荐效果,引领了序列推荐以数据中心的新范式。
三、方法
图1以模型为中心的范式 vs以数据为中心的范式
图1展示了模型中心化范式和数据中心化范式的对比。在模型中心化范式中,所有模型(如RNN、Attention、Graph模型)使用相同的数据集进行训练,不区分数据的特性。而在数据中心化范式中,数据再生后,生成了适配不同模型的个性化数据集(如DataRNN、DataAttn、DataGraph),并分别用于RNN、Attention、Graph模型的训练。数据中心化范式通过为每个模型量身定制数据集,从而优化每个模型的表现。
图2以数据为中心的范式框架
(A)预训练阶段:
在预训练阶段,输入的原始序列(例如1-2-3-4-5)首先通过编码器被转化为多个潜在的高维表示m′1, m′2, …, m′K。这些表示捕捉了原始序列中的特征信息,并通过多样性促进器进行处理,生成具有多样性的潜在模式。为了确保数据再生的多样性,每个潜在表示会被赋予一个不同的权重π1, π2,…, πK, 从而生成不同的子模式。最后,经过加权的潜在表示输入解码器,生成新序列的子模式。这些生成的序列为接下来的推理和个性化阶段提供了基础数据。
(B)推理阶段:
在推理阶段,模型通过之前生成的潜在表示再生出新的序列模式。解码器通过两种模式生成数据:限制性模式和生成性模式。在限制性模式中,解码器仅生成已经在原始序列中出现过的子模式,而生成性模式则允许生成新的、未在原始序列中出现过的模式。通过概率γ,模型在两种模式之间进行平衡,既保留了序列的原始信息,又具有一定的探索性。推理阶段最终生成多个不同的序列,为后续的个性化阶段提供更多多样化的数据样本。
(C)个性化阶段:
在个性化阶段,生成的序列数据被输入到数据个性化器中,个性化器根据不同的目标模型(如RNN、Attention、Graph等)对这些序列进行评分。每个序列根据与目标模型的契合度被赋予不同的分数,确保模型使用最适合其结构的数据集进行训练。个性化器通过隐式梯度反馈机制进一步优化这些数据,使其更加符合目标模型的需求。最后,经过个性化处理后的数据集被分别输入到各个目标模型中,帮助它们提升在特定任务上的表现。
四、实验及结果
1.数据集
为了验证所提出方法的有效性,论文在四个常用的公开数据集(Beauty, Sports, Toys和Yelp)上进行实验。
表1数据集的统计
表2 再生数据集的统计
表1和表2分别展示了原始数据集和再生数据集的详细统计信息对比。在表1中,原始数据集包括四个广泛使用的数据集:Beauty、Sports、Toys和Yelp。统计信息包括用户数量(#users)、物品数量(#items)、用户与物品之间的交互次数(#interactions)、每个用户的平均交互长度(#Avg. length)以及数据的稀疏度(Sparsity)。例如,Beauty数据集包含22,363个用户、12,101个物品,总共约有20万次交互,平均每个用户与8.9个物品发生过交互,数据稀疏度高达99.95%。
表2展示了再生数据集的相同统计信息,再生数据集通过生成更多的用户-物品交互,显著增加了交互数量。例如,Beauty 数据集的交互次数从0.2m增加到0.32m,Sports数据集的交互次数从0.3m增加到0.45m。同时,每个用户的平均交互长度有所下降,表明再生数据集增加了更多不同的用户-物品交互组合,而不仅仅是扩大已有的交互关系。此外,再生数据集的稀疏度也略有降低,尽管依然保持在99.87%以上,说明数据仍然非常稀疏,但再生过程增加了数据的丰富性和多样性。这一变化为模型提供了更丰富的训练样本,有助于提高模型的性能和泛化能力。
2.实验结果
表3 整体性能。针对目标模型,最优结果用加粗表示,次优结果用下划线表示。上标*表示增加值是在p<0.05时的统计显著性水平,**表示增加值是在p<0.01时的统计显著性水平
表3展示了不同推荐模型(如GRU4Rec、SASRec、FMLP等)在四个数据集(Beauty、Sports、Toys、Yelp)上的性能表现,使用了多种评价指标进行评估,包括R@10、R@20(Recall@10、Recall@20)和 N@10、N@20(NDCG@10、NDCG@20)。此外,表中还对比了 DR4SR 和 DR4SR+ 两个框架的改进效果,以及基于原始模型在不同数据集上的性能提升。
主要发现:
1. 基线模型:如∞-AE和MELT在各数据集上的表现为基准,后续方法均与其进行对比。
2. GRU4Rec、SASRec、FMLP、GNN、CL4SRec等模型:这些模型在原始数据集上的性能展示在表格中,DR4SR和DR4SR+方法都显著提升了模型的表现,特别是在Toys和Yelp 数据集上,提升效果尤为明显。
3. DR4SR和DR4SR+的对比:DR4SR+相较于DR4SR提供了进一步的性能提升,特别是在NDCG(N@10、N@20)指标上,如在Beauty和Yelp数据集上,DR4SR+的提升最为明显。
4. 改进百分比:表格中的“Improv”列展示了DR4SR和DR4SR+相较于原始模型的改进百分比,表明数据再生机制在提升推荐质量上起到了显著作用,尤其是在Toys数据集上,各个模型的性能提升都超过了10%。
表4 DR4SR在NDCG@20上的消融实验
表4展示了DR4SR+的消融实验结果,比较了不同模块对模型在四个数据集上NDCG@20 指标的影响。结果显示,DR4SR+在所有数据集上均优于SASRec,特别是在Toys数据集上的提升最为显著。当去除多样性促进器(-diversity)、模式生成器(pattern)和端到端优化(end-to-end)时,模型性能有所下降,尤其是移除模式生成器和端到端优化后,性能大幅下降,表明这些模块对模型表现起着关键作用。
图3 在不同数据集上图结构和数据增强的NDCG@20相对提升
图3展示了在不同数据集(Beauty、Sport、Toys、Yelp)上,原始数据集(Original)和再生数据集(Regenerated)在NDCG@20指标上的相对改进。图(a)比较了不同图结构下的表现,图(b)则比较了不同数据增强方法下的表现。结果表明,在Beauty和Yelp数据集上,再生数据集在这两种实验设置中都显著提升了NDCG@20,而在Sport和Toys数据集上,原始数据集在某些情况下表现更好,但再生数据集仍然在某些实验中显示出优势。
五、总结和展望
该论文提出了一个名为DR4SR的数据再生框架,展示了其在序列推荐中的应用效果,并通过DR4SR+实现了个性化数据生成。未来的工作中,计划提出一个更全面的框架,以再生各种形式的数据,如序列、图和增强数据。同时,还将探索将大型语言模型(LLMs)整合到数据集再生过程中,以生成既保持协同信息又具有语义信息的数据。