机器学习-点击率预估-论文速读-20240916

news2025/1/9 1:26:02

1. [经典文章] 特征交叉: Factorization Machines, ICDM, 2010

分解机(Factorization Machines)

摘要

本文介绍了一种新的模型类——分解机(FM),它结合了支持向量机(SVM)和分解模型的优点。与SVM一样,FM可以处理任何实值特征向量。与SVM不同的是,FM使用分解参数对所有变量间的相互作用进行建模,因此即使在具有巨大稀疏性的问题中(如推荐系统),也能估计相互作用,而SVM在这种情况下会失败。我们展示了FM的模型方程可以在线性时间内计算,因此可以直接优化FM。与非线性SVM不同,不需要进行对偶形式的转换,模型参数可以直接估计,而不需要支持向量。我们展示了FM与SVM的关系以及FM在稀疏设置中参数估计的优势。另一方面,有许多不同的分解模型,如矩阵分解、并行因子分析或专门的模型如SVD++、PITF或FPMC。这些模型的缺点是它们不适用于一般预测任务,而只适用于特殊的输入数据。此外,它们的模型方程和优化算法是为每个任务单独派生的。我们展示了FM只需通过指定输入数据(即特征向量)就可以模仿这些模型。这使得即使是没有分解模型专业知识的用户也能轻松应用FM。

算法模型:

y(x) = w_{0} + \sum_{i}w_{i}x_{i} + \sum_{i=1}^{n}\sum_{j=i+1}^{n}<\mathbf{v}_{i}, \mathbf{v}_{j}>x_{i}x_{j}

模型核心参数: w_{0} \in \mathcal{R}, \mathbf{w} \in \mathcal{R}^{n}, \mathbf{V} \in \mathcal{R}^{n \times k}

创新点

  1. 稀疏数据下的参数估计:FM能够在极端稀疏的数据环境中估计参数,这是传统SVM难以做到的。
  2. 线性复杂度:FM具有线性时间复杂度,可以直接在原始形式中优化,而不需要依赖于支持向量。
  3. 通用性:FM是一个通用预测器,可以处理任何实值特征向量,与特定任务的分解模型不同。

算法模型

  • 分解机模型:FM通过分解参数来模拟特征间的所有可能交互,而不是使用完全参数化的方式。
  • 模型方程:FM的模型方程可以在线性时间内计算,并且只依赖于线性数量的参数。
  • 优化:FM可以使用梯度下降方法(如随机梯度下降)有效学习模型参数。

实验效果

  • Netflix数据集:FM在Netflix数据集上的评分预测误差(RMSE)比SVM表现得更好,展示了在稀疏问题上的优势。
  • ECML Discovery Challenge 2009:FM在标签推荐任务中与PITF模型相比,展现了可比的预测质量。

推荐阅读指数:★★★★☆

  • 推荐理由
    • 创新性:FM结合了SVM的泛化能力和分解模型的优势,特别是在处理稀疏数据方面提供了新的解决方案。
    • 实用性:FM的线性复杂度和直接优化能力使其能够扩展到大型数据集,如Netflix,具有实际应用价值。
    • 理论深度:文章深入探讨了FM与SVM以及其他分解模型的理论联系,为理解FM的工作原理提供了坚实的理论基础。

2. [经典文章] 兴趣建模: Deep Interest Network for Click-Through Rate Prediction, KDD, 2018 

深度兴趣网络用于点击率预测

摘要

点击率(CTR)预测在工业应用中是一项基本任务,例如在线广告。最近,基于深度学习的模型被提出,它们遵循类似的嵌入(Embedding)和多层感知器(MLP)范式。这些方法首先将大规模稀疏输入特征映射到低维嵌入向量,然后以分组的方式转换为固定长度的向量,最后将它们连接起来输入到多层感知器(MLP)中,以学习特征之间的非线性关系。然而,固定长度向量的使用将成为一个瓶颈,它为嵌入&MLP方法捕捉用户从丰富的历史行为中的多样化兴趣带来了困难。在本文中,我们提出了一种新颖的模型:深度兴趣网络(DIN),通过设计局部激活单元来适应性地从针对特定广告的历史行为中学习用户兴趣的表示。这种表示向量因不同的广告而异,极大地提高了模型的表现能力。此外,我们开发了两种技术:小批量感知正则化和数据自适应激活函数,这些技术可以帮助训练具有数亿参数的工业深度网络。在两个公共数据集以及阿里巴巴真实生产数据集上的实验表明,所提出方法的有效性,与最先进的方法相比,取得了优越的性能。DIN已成功部署在阿里巴巴的在线展示广告系统中,服务于主要流量。

创新点

  1. 局部激活单元:DIN通过局部激活单元关注与特定候选广告相关的用户历史行为,从而适应性地计算用户兴趣的表示向量。
  2. 小批量感知正则化:提出一种正则化技术,仅计算每个小批量中出现的特征的L2范数,减少了计算量。
  3. 数据自适应激活函数:设计了一种新的激活函数,根据输入数据的分布自适应调整激活点,提高了模型性能。

算法模型

  • 深度兴趣网络(DIN):引入局部激活单元,通过考虑历史行为与候选广告的相关性,适应性地学习用户兴趣的表示。
  • 小批量感知正则化:针对大规模稀疏特征的工业深度网络训练,仅对每个小批量中非零特征的参数进行正则化计算。
  • 数据自适应激活函数(Dice):一种基于数据分布自适应调整激活点的激活函数。

实验效果

  • 公共数据集:在Amazon和MovieLens数据集上,DIN相比于基线模型和其他深度模型,显示出优越的性能。
  • 阿里巴巴数据集:在具有超过20亿样本的阿里巴巴数据集上,DIN实现了显著的性能提升,AUC比基线模型提高了6.08%。
  • 在线A/B测试:在阿里巴巴的在线展示广告系统中,DIN贡献了高达10.0%的CTR和3.8%的RPM提升。

推荐阅读指数:★★★★☆

  • 推荐理由
    • 创新性:DIN模型通过局部激活单元和自适应激活函数,有效地捕捉了用户多样化的兴趣,提高了CTR预测的准确性。
    • 实用性:提出的技术已经在阿里巴巴的广告系统中得到实际应用,证明了其在工业级应用中的有效性和可扩展性。
    • 技术深度:文章详细介绍了DIN模型的设计和实现,以及针对大规模稀疏数据的优化技术,对相关领域的研究者和工程师具有较高的参考价值。

3. [每日新文] Intelligent maritime question-answering and recommendation system based on maritime vessel activity knowledge graph

C Xie, Z Zhong, L Zhang - Ocean Engineering, 2024

基于船舶活动知识图谱的智能海事问答与推荐系统

摘要

传统的海事交通管理通常依赖于定位数据进行数据挖掘,而没有结合其他多源数据来分析船舶活动,这无法进行全面的海事知识挖掘。因此,本研究整合了轨迹、海事事故文本和地理数据等多源数据,创建了一个船舶活动知识图谱。在此基础上,开发了基于双向问答注意力图神经网络的问答模型,以及基于注意力增强的联合知识传播和用户偏好图神经网络的个性化推荐模型。前者帮助用户从船舶活动知识图谱中提取有价值的信息,后者根据用户的历史查询信息预测用户的潜在兴趣,并自动推荐船舶实体。实验结果表明,所提出的问答模型在MVA问答数据集上,与最先进的基线模型相比,F1分数提高了2.31%-10.09%。同样,所提出的个性化推荐模型在MVA个性化推荐数据集上,与最先进的基线模型相比,点击率预测准确率提高了2.46%-7.05%。

创新点

  1. 多源数据融合:整合了轨迹、海事事故文本和地理数据等多源数据,构建了船舶活动知识图谱。
  2. 双向问答注意力图神经网络:开发了一种新的问答模型,可以更有效地从知识图谱中提取信息。
  3. 个性化推荐模型:基于注意力增强的联合知识传播和用户偏好图神经网络,预测用户潜在兴趣并进行推荐。

算法模型

  1. 问答模型:基于双向问答注意力图神经网络。
  2. 推荐模型:基于注意力增强的联合知识传播和用户偏好图神经网络。

实验效果

  • 问答模型:在MVA问答数据集上,F1分数比基线模型提高了2.31%-10.09%。
  • 推荐模型:在MVA个性化推荐数据集上,点击率预测准确率比基线模型提高了2.46%-7.05%。

推荐阅读指数:★★★★☆

  • 推荐理由
    • 创新性:文章提出了结合多源数据构建知识图谱,并基于此开发了问答和推荐模型,具有较高的创新性。
    • 实用性:模型在实际数据集上表现优异,具有较好的应用前景。
    • 技术深度:文章详细介绍了算法模型的设计和实现,对相关领域的研究者有较高的参考价值。

点评: 这篇论文整体创新一般,简单了解下文章研究问题即可,不值得深入分析。

4. [每日新文] MLoRA: Multi-Domain Low-Rank Adaptive Network for CTR Prediction, RecSys, 2024.

MLoRA: 用于点击率预测的多域低秩自适应网络

摘要

点击率(CTR)预测是工业中的一项基本任务,尤其是在电子商务、社交媒体和流媒体中。它直接影响网站收入、用户满意度和用户留存。然而,实际的生产平台通常包含多个领域以满足不同客户的需求。传统的CTR预测模型在多域推荐场景中表现不佳,面临数据稀疏和跨域数据分布差异的挑战。本文提出了一种多域低秩自适应网络(MLoRA),通过为每个领域引入专门的LoRA模块来增强模型在多域CTR预测任务中的性能,并且可以应用于各种深度学习模型。我们在几个多域数据集上评估了所提出的方法。实验结果表明,与最先进的基线相比,MLoRA方法取得了显著的改进。此外,我们在阿里巴巴的生产环境中部署了它,在线A/B测试结果表明其在实际生产环境中的优越性和灵活性。

创新点

  1. 多域低秩自适应网络(MLoRA):提出了一种新的CTR预测框架,通过为每个领域引入低秩自适应模块来提高模型的适应性和性能。
  2. LoRA模块:利用低秩结构对大型预训练模型进行微调,有效学习领域数据的知识,同时减少参数数量。
  3. 模型无关性:MLoRA是一个通用框架,可以轻松应用于各种基于深度学习的CTR模型。

算法模型

  • MLoRA:通过在每个领域中引入LoRA模块,模型能够更有效地学习每个领域的数据分布。
  • LoRA模块:在每个全连接层中注入可训练的低秩矩阵,以实现参数的高效微调。
  • 两阶段训练策略:先在大规模预训练数据上训练基础网络,然后在微调阶段添加MLoRA网络并冻结基础网络,专注于更新A和B以学习每个领域的个性化信息。

实验效果

  • 数据集:在Taobao、Amazon和Movielens数据集上进行了实验。
  • 性能提升:与基线模型相比,MLoRA在所有数据集上都实现了性能提升,平均提升0.5%。
  • 在线A/B测试:在阿里巴巴.COM电子商务网站上部署后,CTR提高了1.49%,订单转化率提高了3.37%,付费买家数量提高了2.71%。

推荐阅读指数:★★★★☆

  • 推荐理由
    • 创新性:MLoRA通过引入LoRA模块,有效地解决了多域CTR预测中的挑战,如数据稀疏和领域间的差异性。
    • 实用性:MLoRA已经在阿里巴巴的生产环境中得到应用,证明了其在实际大规模推荐系统中的有效性和可扩展性。
    • 技术深度:文章详细介绍了MLoRA的设计和实现,以及在多域CTR预测问题上的实验验证,对相关领域的研究者和工程师具有较高的参考价值。

点评: 这篇论文将LoRA应用到点击率预估问题,算法应用创新为主,整体数学模型相对简单,值得一看。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2143352.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++语言】C/C++内存管理

一、C/C内存分布 我们先来看一看C/C中有哪些区域&#xff0c;为什么C/C中区分这些区域呢&#xff1f;&#xff1f;不同的数据有不同的存储需求&#xff0c;各个区域满足不同的需求。我们有临时用的数据&#xff0c;该数据是存储在栈帧区域的&#xff1b;在一些数据结构中&#…

Text-to-SQL技术升级 - 阿里云OpenSearch-SQL在BIRD榜单夺冠方法

Text-to-SQL技术升级 - 阿里云OpenSearch-SQL在BIRD榜单夺冠方法 Text-to-SQL 任务旨在将自然语言查询转换为结构化查询语言(SQL),从而使非专业用户能够便捷地访问和操作数据库。近期,阿里云的 OpenSearch 引擎凭借其一致性对齐技术,在当前极具影响力的 Text-to-SQL 任务…

【C++11 —— 异常】

C —— 异常 C语言传统的处理错误的方式C异常概念异常的使用异常的抛出和捕获异常的重新抛出异常安全异常规范 自定义异常体系自定义异常体系的目的 C标准库的异常体系异常的优缺点 C语言传统的处理错误的方式 在C语言中&#xff0c;错误处理通常依赖于返回值和全局变量的方式…

简单了解微服务--黑马(在更)

认识微服务 单体架构 不适合大型复杂项目 微服务架构 将单体结构的各个功能模块拆分为多个独立的项目 拆取的独立项目分别开发&#xff0c;在部署的时候也要分别去编译打包&#xff0c;分别去部署&#xff0c;不同的模块部署在不同的服务器上&#xff0c;对外提供不同的功能…

算法导论(第3版)

目录 第一部分 基础知识第2章 算法基础2.1 插入排序 第二部分 排序和顺序统计量第三部分 数据结构第四部分 高级设计和分析技术第五部分 高级数据结构第六部分 图算法第七部分 算法问题选编第八部分 附录&#xff1a;数学基础知识 第一部分 基础知识 第2章 算法基础 2.1 插入…

【智路】智路OS 服务组件开发

https://airos-edge.readthedocs.io/zh/latest/dev_guide/service_dev.html 1 总览 1.1 功能 感知服务包含感知的整体pipeline&#xff0c;主要模块包括单相机感知和融合。 单相机感知模块 主要功能为接收IP相机RTSP视频流&#xff0c;解码成RGB图片&#xff0c;通过算法识…

【黑马点评】已解决java.lang.NullPointerException异常

Redis学习Day3——黑马点评项目工程开发-CSDN博客 问题发现及描述 在黑马点评项目中&#xff0c;进行到使用Redis提供的Stream消息队列优化异步秒杀问题时&#xff0c;我在进行jmeter测试时遇到了重大的错误 发现无论怎么测试&#xff0c;一定会进入到catch中&#xff0c;又由…

DRS部署(DM8-DM8)

DRS部署 一、规划端口二、设置环境变量三、开启源数据库的归档和逻辑日志四、配置DDL同步五、创建用户六、 DRS服务部署&#xff08;DM8目的端&#xff09;6.1 部署 drs 服务6.2启动drs服务 七、 DRS 服务部署&#xff08;DM8 源端&#xff09;7.1 部署 DRS服务7.2 启动dmhs服务…

C++第七节课 运算符重载

一、运算符重载 并不是所有情况下都需要运算符重载&#xff0c;要看这个运算符对这个类是否有意义&#xff01; 例如&#xff1a;日期减日期可以求得两个日期之间的天数&#xff1b;但是日期 日期没有意义&#xff01; #include<iostream> using namespace std; clas…

SpringBoot启动成功,但端口启动失败

目录 一、问题展示 二、问题分析 2.1.端口与Tomcat的关系 2.2.问题分析 三、SpringBoot常见知识记录 3.1.SpringBoot项目常用jar包 3.1.1.必要性jar包 3.1.2.选择性jar包 3.2.标签的作用及取值 3.2.1.compile&#xff08;编译范围&#xff09; 3.2.2.provided…

爵士编曲:爵士鼓编写 爵士鼓笔记 底鼓和军鼓 闭镲和开镲 嗵鼓

底鼓和军鼓 底鼓通常是动的音色&#xff0c;军鼓通常是大的音色。 “动”和“大”构成基础节奏。“动大”听着不够有连接性&#xff0c;所以可以加入镲片&#xff01; 开镲 直接鼓棒敲击是开镲音色 闭镲 当脚踩下踏板&#xff0c;2个镲片合并&#xff0c;然后用鼓棒敲击&am…

Koa安装和应用

文章目录 1、Koa21.1 简介1.2 安装1.3 简单使用1.4 使用脚手架创建Koa项目 1、Koa2 1.1 简介 Koa 是一个新的 web 框架&#xff0c;由 Express 幕后的原班人马打造&#xff0c; 致力于成为 web 应用和 API 开发领域中的一个更小、更富有表现力、更健壮的基石。 通过利用 async…

rust快速创建Tauri App ——基于create-tauri-app

Tauri App Tauri是一个工具包&#xff0c;可以帮助开发人员使用现有的几乎任何前端框架为主要桌面平台制作应用程序。核心是用Rust构建的&#xff0c;CLI利用Node.js使Tauri成为创建和维护优秀应用程序的真正多语言方法。 cargo install create-tauri-appcreate-tauri-app&am…

多版本node管理工具nvm

什么是nvm&#xff1f; 在项目开发过程中&#xff0c;使用到vue框架技术&#xff0c;需要安装node下载项目依赖&#xff0c;但经常会遇到node版本不匹配而导致无法正常下载&#xff0c;重新安装node却又很麻烦。为解决以上问题&#xff0c;nvm&#xff1a;一款node的版本管理工…

FSFP——专为蛋白质工程设计的少样本学习策略

论文地址&#xff1a;通过小样本学习&#xff0c;以最少的湿实验室数据提高蛋白质语言模型的效率 参考文献&#xff1a;AI蛋白质设计“新引擎”:FSFP驱动大模型超低采样学习,少量数据显著提升蛋白质语言模型的性能 前言介绍&#xff1a;上海交通大学自然科学研究院洪亮教授课…

在STM32工程中使用Mavlink与飞控通信

本文讲述如何在STM32工程中使用Mavlink协议与飞控通信&#xff0c;特别适合自制飞控外设模块的项目。 需求来源&#xff1a; 1、增稳云台里的STM32单片机需要通过串口接收飞控传来的云台俯仰、横滚控制指令和相机拍照控制指令&#xff1b; 2、自制的有害气体采集器需要接收飞…

PCL 曲线点云提取

文章目录 一、简介二、实现代码三、实现效果参考文献一、简介 提取曲线点云的方法主要分为两种:参数化与非参数化,其中参数化是指事先直线曲线的形状,反之,非参数化则是不依赖与曲线的参数,通常是一种聚类的行为。这里我们采用非参数方法(TriplClust),将点集划分为一个未…

Java ETL - Apache Beam 简介

基本介绍 Apache Beam是一个用于大数据处理的开源统一编程模型。它允许用户编写一次代码&#xff0c;然后在多个批处理和流处理引擎上运行&#xff0c;如Apache Flink、Apache Spark和Google Cloud Dataflow等。Apache Beam提供了一种简单且高效的方式来实现数据处理管道&…

上海儿童自闭症寄宿制学校,让孩子找到归属感

在探讨自闭症儿童教育的广阔图景中&#xff0c;上海作为一座充满人文关怀的城市&#xff0c;始终致力于为这些特殊的孩子提供更加全面、专业的支持体系。而当我们把这份关注与努力投射到具体实践上&#xff0c;广州的星贝育园自闭症儿童寄宿制学校便成为了这样一个温馨而有力的…

蓝桥杯DS18B20程序源码

蓝桥杯DS18B20程序源码解析 蓝桥杯&#xff0c;作为一项全国瞩目的电子设计竞赛&#xff0c;其核心挑战在于参赛者需深度融合单片机编程与各类电子元件的应用能力。在众多项目中&#xff0c;涉及DS18B20数字温度传感器的程序源码尤为引人注目&#xff0c;它巧妙地将单片机技术…