KDD 2024论文分享┆用于序列推荐的数据集再生

news2025/1/11 0:19:55

论文简介

本推文介绍了2024 KDD的最佳学生论文《Dataset Regeneration for Sequential Recommendation》。该论文提出了一种基于数据中心化范式的新框架,称为DR4SR,该框架通过模型无关的数据再生机制,能够生成具有出色跨架构泛化能力的理想训练数据集。此外,论文还引入了DR4SR+框架,增加了模型感知的数据个性化器,能够根据特定目标模型定制再生的数据集。为了验证这一数据中心化范式的有效性,论文将该框架与多种模型中心化方法结合,并在四个广泛使用的数据集上观察到显著的性能提升。推文作者为黄星宇,审校为许东舟和邱雪。

论文链接:https://dl.acm.org/doi/pdf/10.1145/3637528.3671841

一、会议介绍

第 30 届国际知识发现与数据挖掘大会(KDD 2024)于2024年8月25日至29日在西班牙巴塞罗那隆重举行。KDD 起始于1989年,由ACM的数据挖掘及知识发现专委会(ACM SIGKDD)组织,是数据挖掘领域的旗舰学术会议。大会涵盖了数据挖掘、知识发现、数据科学、预测分析等多个技术领域。KDD在中国计算机学会(CCF)的推荐中被列为A类顶尖学术会议。

二、研究背景

序列推荐(Sequential Recommendation)研究的是人工智能预训练的下一个标记预测(next-token prediction)问题。现有的序列推荐方法常关注于设计复杂的模型结构或训练策略,属于以模型为中心的范式,该范式往往忽略了数据中潜在的质量问题和缺陷。

论文首次从以数据为中心的视角出发,关注如何获得信息丰富且泛化性强的训练数据集,以提升训练数据质量最终提升模型性能。论文提出了数据集重生成框架,通过多样化重生成器的预训练及生成式推理,将原始的序列数据集转化为更易于训练的数据集,使不同的基础预测架构模型在其上训练都可以得到更好的推荐效果,引领了序列推荐以数据中心的新范式。

三、方法

1以模型为中心的范式 vs以数据为中心的范式

图1展示了模型中心化范式和数据中心化范式的对比。在模型中心化范式中,所有模型(如RNN、Attention、Graph模型)使用相同的数据集进行训练,不区分数据的特性。而在数据中心化范式中,数据再生后,生成了适配不同模型的个性化数据集(如DataRNN、DataAttn、DataGraph),并分别用于RNN、Attention、Graph模型的训练。数据中心化范式通过为每个模型量身定制数据集,从而优化每个模型的表现。

2以数据为中心的范式框架

(A)预训练阶段:

在预训练阶段,输入的原始序列(例如1-2-3-4-5)首先通过编码器被转化为多个潜在的高维表示m′1, m′2, …, m′K。这些表示捕捉了原始序列中的特征信息,并通过多样性促进器进行处理,生成具有多样性的潜在模式。为了确保数据再生的多样性,每个潜在表示会被赋予一个不同的权重π1, π2,…, πK, 从而生成不同的子模式。最后,经过加权的潜在表示输入解码器,生成新序列的子模式。这些生成的序列为接下来的推理和个性化阶段提供了基础数据。

(B)推理阶段:

在推理阶段,模型通过之前生成的潜在表示再生出新的序列模式。解码器通过两种模式生成数据:限制性模式生成性模式。在限制性模式中,解码器仅生成已经在原始序列中出现过的子模式,而生成性模式则允许生成新的、未在原始序列中出现过的模式。通过概率γ,模型在两种模式之间进行平衡,既保留了序列的原始信息,又具有一定的探索性。推理阶段最终生成多个不同的序列,为后续的个性化阶段提供更多多样化的数据样本。

(C)个性化阶段:

在个性化阶段,生成的序列数据被输入到数据个性化器中,个性化器根据不同的目标模型(如RNN、Attention、Graph等)对这些序列进行评分。每个序列根据与目标模型的契合度被赋予不同的分数,确保模型使用最适合其结构的数据集进行训练。个性化器通过隐式梯度反馈机制进一步优化这些数据,使其更加符合目标模型的需求。最后,经过个性化处理后的数据集被分别输入到各个目标模型中,帮助它们提升在特定任务上的表现。

四、实验及结果

1.数据集

为了验证所提出方法的有效性,论文在四个常用的公开数据集(Beauty, Sports, Toys和Yelp)上进行实验。

1数据集的统计

再生数据集的统计

表1和表2分别展示了原始数据集和再生数据集的详细统计信息对比。在表1中,原始数据集包括四个广泛使用的数据集:Beauty、Sports、Toys和Yelp。统计信息包括用户数量(#users)、物品数量(#items)、用户与物品之间的交互次数(#interactions)、每个用户的平均交互长度(#Avg. length)以及数据的稀疏度(Sparsity)。例如,Beauty数据集包含22,363个用户、12,101个物品,总共约有20万次交互,平均每个用户与8.9个物品发生过交互,数据稀疏度高达99.95%。

表2展示了再生数据集的相同统计信息,再生数据集通过生成更多的用户-物品交互,显著增加了交互数量。例如,Beauty 数据集的交互次数从0.2m增加到0.32m,Sports数据集的交互次数从0.3m增加到0.45m。同时,每个用户的平均交互长度有所下降,表明再生数据集增加了更多不同的用户-物品交互组合,而不仅仅是扩大已有的交互关系。此外,再生数据集的稀疏度也略有降低,尽管依然保持在99.87%以上,说明数据仍然非常稀疏,但再生过程增加了数据的丰富性和多样性。这一变化为模型提供了更丰富的训练样本,有助于提高模型的性能和泛化能力。

2.实验结果

3 整体性能。针对目标模型,最优结果用加粗表示,次优结果用下划线表示。上标*表示增加值是在p<0.05时的统计显著性水平,**表示增加值是在p<0.01时的统计显著性水平

表3展示了不同推荐模型(如GRU4Rec、SASRec、FMLP等)在四个数据集(Beauty、Sports、Toys、Yelp)上的性能表现,使用了多种评价指标进行评估,包括R@10、R@20(Recall@10、Recall@20)和 N@10、N@20(NDCG@10、NDCG@20)。此外,表中还对比了 DR4SR 和 DR4SR+ 两个框架的改进效果,以及基于原始模型在不同数据集上的性能提升。

主要发现:

1. 基线模型:如∞-AE和MELT在各数据集上的表现为基准,后续方法均与其进行对比。

2. GRU4Rec、SASRec、FMLP、GNN、CL4SRec等模型:这些模型在原始数据集上的性能展示在表格中,DR4SR和DR4SR+方法都显著提升了模型的表现,特别是在Toys和Yelp 数据集上,提升效果尤为明显。

3. DR4SR和DR4SR+的对比:DR4SR+相较于DR4SR提供了进一步的性能提升,特别是在NDCG(N@10、N@20)指标上,如在Beauty和Yelp数据集上,DR4SR+的提升最为明显。

4. 改进百分比:表格中的“Improv”列展示了DR4SR和DR4SR+相较于原始模型的改进百分比,表明数据再生机制在提升推荐质量上起到了显著作用,尤其是在Toys数据集上,各个模型的性能提升都超过了10%。

4 DR4SRNDCG@20上的消融实验

表4展示了DR4SR+的消融实验结果,比较了不同模块对模型在四个数据集上NDCG@20 指标的影响。结果显示,DR4SR+在所有数据集上均优于SASRec,特别是在Toys数据集上的提升最为显著。当去除多样性促进器(-diversity)、模式生成器(pattern)和端到端优化(end-to-end)时,模型性能有所下降,尤其是移除模式生成器和端到端优化后,性能大幅下降,表明这些模块对模型表现起着关键作用。

在不同数据集上图结构和数据增强的NDCG@20相对提升

图3展示了在不同数据集(Beauty、Sport、Toys、Yelp)上,原始数据集(Original)和再生数据集(Regenerated)在NDCG@20指标上的相对改进。图(a)比较了不同图结构下的表现,图(b)则比较了不同数据增强方法下的表现。结果表明,在Beauty和Yelp数据集上,再生数据集在这两种实验设置中都显著提升了NDCG@20,而在Sport和Toys数据集上,原始数据集在某些情况下表现更好,但再生数据集仍然在某些实验中显示出优势。

五、总结和展望

该论文提出了一个名为DR4SR的数据再生框架,展示了其在序列推荐中的应用效果,并通过DR4SR+实现了个性化数据生成。未来的工作中,计划提出一个更全面的框架,以再生各种形式的数据,如序列、图和增强数据。同时,还将探索将大型语言模型(LLMs)整合到数据集再生过程中,以生成既保持协同信息又具有语义信息的数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2210864.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

git(版本回退,分支管理,vscode集成git)

一、安装与简单命令 1.官网 https://git-scm.com/downloads 2.查看版本号git --version 3.设置用户签名&#xff08;用户名和邮箱&#xff09; 用来标识用户&#xff0c;以区分不同的开发人员 git config --global user.name "Your Name" git config --global u…

2024年最新算法:青蒿素优化算法(Artemisinin Optimization Algorithm, AOA)原理介绍

青蒿素优化算法&#xff08;Artemisinin Optimization Algorithm, AOA&#xff09;是2024年提出的一种受青蒿素抗疟疾特性启发的元启发式优化算法。青蒿素是一种从中草药青蒿中提取的化合物&#xff0c;因其在治疗疟疾方面的显著效果而闻名。AOA算法的设计者将青蒿素的这一特性…

【机器学习】深入浅出讲解贝叶斯分类算法

0. 前言 1.贝叶斯分类器介绍 贝叶斯分类是一类分类算法的总称&#xff0c;这类算法均以贝叶斯定理为基础&#xff0c;故统称为贝叶斯分类。而朴素贝叶斯&#xff08;Naive Bayes&#xff09;分类是贝叶斯分类中最简单&#xff0c;也是常见的一种分类方法。 一些很常见的分类…

动态规划最大子段和讲解和【题解】——最大子段和

动态规划最大子段和讲解和【题解】——最大子段和 1.详细讲解最大子段和题目描述输入格式输出格式输入输出样例输入 #1输出 #1 提示样例 1 解释数据规模与约定 1.1.思路解析1.2.AC代码 2.优化3.别言 1.详细讲解 最大子段和 题目描述 给出一个长度为 n n n 的序列 a a a&am…

cursor: mutex X 等待事件分析

背景&#xff1a; v$session中同一个sql语句bhaku1zp2w5v7大量等待cursor: mutex X &#xff0c;且等待事件较长。 分析&#xff1a; 什么是cursor: mutex X&#xff1f; 任何操作或访问游标的操作都可能需要等待访问共享池中支持游标的结构。在极端争用的情况下&#xff0c…

MySQL 【数字】函数大全(一)

ABSCEILCEILINGCONVDIVFLOORCREATESTLEAST 1、ABS ABS(number) &#xff1a;返回指定数字的绝对值 如果参数 number 为字符串&#xff0c;ABS() 将按照如下规则尝试转为数字&#xff1a; 如果以数字开头&#xff0c;则将开头的数字部分转为数字。如果不能转为数字&#xff0c;…

使用Go语言的gorm框架查询数据库并分页导出到Excel实例

文章目录 基本配置配置文件管理命令行工具: Cobra快速入门基本用法 生成mock数据SQL准备gorm自动生成结构体代码生成mock数据 查询数据导出Excel使用 excelize实现思路完整代码参考 入口文件效果演示分页导出多个Excel文件合并为一个完整的Excel文件 完整代码 基本配置 配置文…

Vue环境安装以及配置

这里写目录标题 前言一、前置要求1.安装Node.js2. 安装VScode 二、创建全局安装目录和缓存日志目录三、配置环境变量四、权限五、配置镜像六、vscode插件1. Vue-Offical2. Vue 3 Snippets3. Path Intellisense4. Auto Import5. Auto Close Tag6. Auto Rename Tag7.GitLens总结 …

001 Hadoop安装、Spring整合测试

Hadoop安装、整合测试 文章目录 Hadoop安装、整合测试1.简介1.优点2.组成 2.安装1.安装jdk&#xff08;如已安装可跳过&#xff09;2.安装hadoop1.安装2. 修改配置文件core-site.xml3. 修改配置文件hdfs-site.xml4.启动hadoop5.启动yarn6.执行jps查看7.相关端口及配置位置8.访问…

2024年【制冷与空调设备安装修理】考试及制冷与空调设备安装修理新版试题

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 制冷与空调设备安装修理考试是安全生产模拟考试一点通总题库中生成的一套制冷与空调设备安装修理新版试题&#xff0c;安全生产模拟考试一点通上制冷与空调设备安装修理作业手机同步练习。2024年【制冷与空调设备安装…

STM32CubeIDE使用ADC采用DMA重大BUG

问题描述 STM32CubeIDE 1.8.0问题 大牛攻城狮最近调试STM32L151CBT6。由于项目上使用该款芯片做控制电源使用&#xff0c;其中涉及到多路ADC的数据采样。使用STM32CubeIDE 1.8.0版本详细如下图所示 注意这里的使用的软件版本号很关键。采用该款软件搭建工程&#xff0c;第一次…

架构设计笔记-12-信息系统架构设计理论与实践

目录 知识要点 案例分析 1.Java企业级应用系统 2.c/s架构&#xff0c;b/s架构 知识要点 软件架构风格是描述某一特定应用领域中系统组织方式的惯用模式。架构风格定义了一类架构所共有的特征&#xff0c;主要包括架构定义、架构词汇表和架构约束。 数据挖掘是从数据库的大…

HarmonyOS NEXT 应用开发实战(四、仿知乎日报的首页轮播图实现)

在本篇博文中&#xff0c;我们将探讨如何在HarmonyOS NEXT应用中实现一个仿知乎日报的首页轮播图效果。我们将使用Swiper组件来展示轮播图&#xff0c;并且在轮播图下方添加半透明背景的标题。以下是具体的实现步骤和代码示例。 1. 项目结构与数据源 首先&#xff0c;我们需要…

Django兴农购物网站系统—计算机毕业设计源码38256

摘 要 助农工作是当前我国全面建成小康社会的重点工作&#xff0c;由于我国农村地域广大&#xff0c;贫困人口多&#xff0c;区域差异大&#xff0c;因此&#xff0c;不同区域的扶贫方法也是不一样的。近年来&#xff0c;随着网络的普及。许多农村地区物产丰富&#xff0c;但由…

计组_中断响应的步骤

2024.10.13&#xff1a;计算机组成原理学习笔记 中断响应步骤 中断响应 &#xff08;中断响应的过程也称中断隐指令&#xff09;第一步&#xff1a;关中断第二步&#xff1a;保存断点第三步&#xff1a;引出中断服务程序中断源识别判优方法1&#xff1a;软件查询方法中断源识别…

Redis两种持久化方式

目录 一、Redis持久化 RDB 四种执行场景 底层执行原理 优缺点 AOP 三种fsync策略 AOF重写机制 工作基本流程 优缺点 RDB和AOF的对比 混合持久化 Redis 持久化的主要目的是为了确保数据的持久性和可靠性&#xff0c;避免因意外崩溃或重启导致的数据丢失。以下是一些进…

基于STM32的图形识别智能跟踪小车设计

引言 本项目设计了一个基于STM32的图形识别智能跟踪小车&#xff0c;能够通过摄像头识别特定图形或标志&#xff0c;并自动跟随这些图形进行移动。系统结合了摄像头模块和图像处理算法&#xff0c;实现了对前方物体的识别与跟踪。同时&#xff0c;小车具备避障功能&#xff0c…

顺序表|消失的数字|轮转数组|移除元素|合并有序数组|删除有序数组中重复项(C)

面试题 17.04. 消失的数字 思路一 排序遍历 如果下一个不等于上一个数1&#xff0c;这个下一个数就是消失的数字 时间复杂度 O ( N ⋅ log ⁡ 2 N ) O(N\cdot \log_{2}N) O(N⋅log2​N) 思路二 0N等差数列公式计算结果 - 数组中的值&#xff0c;结果就是消失的数字 int mis…

基于海市蜃楼算法(Fata Morgana Algorithm ,FATA)的多无人机协同三维路径规划(提供MATLAB代码)

一、海市蜃楼算法 海市蜃楼算法&#xff08;Fata Morgana Algorithm &#xff0c;FATA&#xff09;是2024年提出一种新型的群体智能优化算法&#xff0c;它的设计灵感来源于自然现象中的海市蜃楼形成过程。FATA算法通过模仿光线在不均匀介质中的传播方式&#xff0c;提出了两种…

日语学习者福音:4大翻译软件集锦,总有一款适合你!

现在全球化了&#xff0c;学个外语&#xff0c;尤其是日语这种很有魅力的语言&#xff0c;成了很多人的愿望。不管是为了方便旅行&#xff0c;还是喜欢日本文化&#xff0c;或者想在工作中更有竞争力&#xff0c;学日语都挺重要的。学语言不容易&#xff0c;特别是遇到难懂的句…