预算约束下营销效果优化的端到端框架(快手)

news2024/11/23 15:48:02

目录

翻译:预算约束下营销效果优化的端到端框架

1介绍

2 .相关工作

2.1预算分配

2.2梯度估计

3我们的端到端框架

3.1符号

​3.2两阶段范式

3.3 Marketing Goal as a Regularizer

 3.4梯度估计

​3.5训练

4实验结果

4.1数据集

4.2评价指标

4.3实现细节

4.4合成数据集的结果

4.5 CRITEO-UPLIFT v2实验结果

5结论


英文题目:An End-to-End Framework for Marketing Effectiveness Optimization under Budget Constraint

翻译:预算约束下营销效果优化的端到端框架

单位:快手

论文链接:https://export.arxiv.org/pdf/2302.04477v1.pdf

代码:暂无 

摘要:在线平台通常会激励消费者提高用户参与度和平台收益。由于不同的消费者对激励的反应可能不同,个人层面的预算分配是营销活动中的一项重要任务。该领域的最新进展通常使用两阶段范式来解决预算分配问题:第一阶段使用因果推理算法估计个人层面的治疗效果,第二阶段使用整数规划技术来找到最优预算分配解决方案。由于这两个阶段的目标可能并不完全一致,这样的两阶段模式可能会损害整体营销效果。在本文中,我们提出了一个新的端到端框架来直接优化预算约束下的业务目标。我们的核心思想是构建一个正则化器来表示营销目标,并使用梯度估计技术对其进行有效优化。因此,获得的模型可以学习直接和精确地最大化营销目标。我们在离线和在线实验中广泛评估了我们提出的方法,实验结果表明我们的方法优于当前最先进的方法。我们提出的方法目前用于短视频平台上亿用户的营销预算分配,并取得了显著的业务目标改进。我们的代码将是公开的。

关键词:市场营销,因果学习,整数规划,神经网络,梯度估计

1介绍

向消费者提供奖励(如现金奖励、折扣、优惠券)是在线平台获取新用户、增加用户参与度、提高平台收益的有效途径[2,3,9,20,21,32,37,38,40,41]。例如,在淘宝[37]中提供优惠券以增加用户活跃度,在Booking[9]中提供促销以提高用户满意度,在快手[2]中使用现金奖励来刺激用户留存,在Uber[40]中使用促销来鼓励用户开始使用新产品。尽管有效,但这些营销活动可能会产生高成本,因此在实际场景中总预算通常是有限的。从在线平台的角度来看,营销活动的目标通常被描述为在特定的预算限制下最大化特定的业务目标(例如,用户留存率)。为此,为不同的用户分配适当的激励对于优化营销效果至关重要,因为不同的用户对激励的反应不同。这个预算分配问题具有重大的实际意义,并已进行了数十年的研究。

最近的许多进展使用两阶段范式来解决预算分配问题[2,3,32,38]:在第一阶段,使用因果推理技术估计个体层面的异质性治疗效果,然后将估计的效果作为系数输入到整数规划公式中以找到最优分配。然而,这两个阶段的目标是根本不同的,并且在实践中,我们观察到这些目标并不完全一致。例如,如果总预算非常低,那么有效的分配算法应该只将激励分配给对激励相当敏感的一小部分用户。在这种情况下,如果模型对所有用户平均具有更高的精度,但对这一小部分用户表现不佳,则改进的治疗效果预测器可能具有更差的营销效果。

在本文中,我们提出了一种新颖的端到端方法来直接和精确地优化预算约束下的营销效果。我们的核心思想是构建一个正则化器来表示营销目标,并使用梯度估计技术进一步优化它。具体而言,我们使用基于深度神经网络(dnn)的S-Learner[19]来预测不同用户的治疗效果。考虑到估计的治疗效果,我们进一步将预算分配问题表述为一个多选择背包问题(MCKP)[16],并利用预期结果度量法(EOM)建立一个无偏估计(记为?)营销目标(即在一定预算约束下的预期业务目标)。的吗?函数表示而市场营销的效果究竟是我们想要最大化的目标,因此我们要如何对待?并将其整合到s -学习者模型的训练目标中。然而,这样做仍然存在一个挑战:由于我们的建设过程?涉及使用拉格朗日乘法器求解一系列MCKPs,因此涉及许多不可微操作,现代机器学习库(如TensorFlow[1]和PyTorch[24])中的自动微分机制不会给出正确的梯度。我们解决这个问题的办法是治疗?作为黑盒函数,并利用梯度估计技术,如有限差分法或自然进化策略(NES)[34]来获得梯度。因此,正则化器可以有效地与s - leaner模型的原始学习目标进行联合优化。这个正则化器赋予S-Learner模型以一种原则性的方式直接从营销目标中学习并进一步最大化它的能力。我们提出的方法在离线模拟和在线实验中得到了广泛的评估。实验结果表明,与目前最先进的技术相比,我们提出的端到端培训框架可以实现更好的营销效果。我们进一步在一个大规模的短视频平台上部署了所提出的方法,向用户分配现金奖励,以激励他们创作更多的视频,在线a /B测试表明,在相同的预算下,我们的方法比基线方法明显多出至少1.24%的视频创作者,这是几个月来的巨大进步。目前,我们提出的方法服务于数以亿计的用户。

2 .相关工作

2.1预算分配

从一个共同的目标出发,提出了许多预算分配方法。早期的方法[10,39,40]通常在获得异质处理效果估计后启发式地选择用户的激励量。然而,缺乏明确的优化问题表述可能会使这些方法在最大化营销目标方面效果不佳。

一种流行的预算分配方式是遵循两阶段范式[2,3,9,21,32,38]:在第一阶段使用隆升模型来预测处理效果,在第二阶段调用整数规划来找到最佳分配。如Zhao等人[38]提出使用logit响应模型[26]预测处理效果,然后通过寻根得到KKT条件下的最优配置。随后,Tu等人引入了各种高级估计器(包括因果树[4]、因果森林[33]和元学习器[19,29])来估计异质性效应。第二阶段也受到了很多研究的关注。Makhijani等人。为了更好的表达,[21]将营销目标制定为最小成本流网络优化问题。最近,Ai等人。[2], Albert和Goldenberg[3]使用MCKP表示离散情况下的预算分配问题,并基于拉格朗日对偶性开发了有效的求解方法。虽然有效,但由于这两个阶段的目标不一致,这两个阶段方法的解决方案可能不是最优的。

还提出了几种直接学习最优预算分配策略的方法[8,9,35,37,41,42]。Xiao等人[35],Zhang等人[37]开发了强化学习解决方案。基于约束马尔可夫决策过程直接学习最优策略。然而,在不利用因果结构的纯无模型黑盒方法中学习如此复杂的策略可能会导致样本效率低下。Du等人。bbbb10, Goldenberg等。[9],邹等人[42]提出在二元治疗设置中直接学习价值与成本的比值,可以先对得分较高的用户进行治疗。后来,当代研究[41]证明了[8,42]中提出的loss在loss收敛时不能达到正确的rank。此外,[9]中提出的方法仅适用于预算约束为货币ROI≥0的情况,这对于在线互联网平台上的许多营销活动来说不够灵活。Zhou等人将以决策为中心的学习思想扩展到多处理设置,并开发了一个损失函数来学习MCKP解的决策因素。然而,所提出的方法依赖于边际效用递减的假设,这在实践中往往不被严格遵守。

2.2梯度估计

估计黑盒函数的梯度已经被广泛研究了几十年,并广泛应用于强化学习[30]和对抗性攻击领域[11,13]。最简单的方法是有限差分策略,即根据定义计算梯度。有限差分策略可以给出精确的梯度,但如果黑盒函数的自变量具有高维数,则可能需要大量的计算。梯度估计的另一种方法是自然进化策略(NES)[34],它生成几个搜索方向来探测黑盒函数的局部几何,并根据采样的搜索方向估计梯度。NES通常比有限差分策略的计算效率更高,但估计的梯度是有噪声的。反向抽样[28]可以减少NES梯度估计的方差。在本文中,我们提出了基于有限差分和基于nes的梯度估计算法。

3我们的端到端框架

许多预算分配方法遵循两阶段范式,这可能导致性能下降,因为两个阶段的目标之间的不一致。我们认为将基于第二阶段的分配过程适当地纳入学习目标是有益的,这样模型可以直接学习最大化营销目标。在本节中,我们首先介绍主要的符号,然后简要分析两阶段范式,最后我们提出了我们的端到端训练框架。

3.1符号

 3.2两阶段范式

同时预测response,cost。

 损失函数

 

3.3 Marketing Goal as a Regularizer

如第1节所述,我们端到端训练的核心思想是构建一个正则化器来表示营销目标(即在一定预算约束下的预期响应),并使用梯度估计技术对其进行有效优化。

假设我们有一批?来自训练集B RCT用户(我们将批大小设置为 B = 10,000), S-Learner模型可以预测每个用户的反应,我们将叠加他们的预测。反应成?×?矩阵?为了简化符号,对这些用户应用任意处理的成本也可以堆叠到B × K矩阵v以类似的方式。为了简化符号,对这些用户应用任意处理的成本也可以堆叠到B ×K 矩阵?以类似的方式。

 

 如前所述,得到的x最优的预算分配方案是用户在一定的预算约束下,我们可以通过调整对偶可行解的值来调整总预算。因此,我们可以从a = 0,并逐渐增大其值,则MCKP的总预算将相应减少。

 3.4梯度估计

 

 3.5训练

4实验结果

4.1数据集

 合成数据集。为了详细说明我们想法的关键组成部分(即EOM和梯度估计),我们生成了一个由10,000个RCT用户组成的合成数据集。

CRITEO-UPLIFT v2[7]。这个公开可用的数据集是为评估隆起建模模型而设计的。该数据集包含从随机对照试验中收集的1390万个样本。每个样本有12个密集特征,一个二进制处理指标,两个二进制标签:访问和转换。在这个数据集中,处理被定义为用户是否被广告定位,如果用户在两周的测试期间访问/转换了广告商的网站,则标签被定义为积极的。为了评估不同的预算分配方法,我们遵循[41]并分别使用访问/转换标签作为成本/价值。我们将我们提出的方法的性能与最先进的CRITEO-UPLIFT v2进行比较,以证明我们方法的有效性。

KUAISHOU-PRODUCE-COIN。Produce Coin是一项常见的营销活动,旨在激励短视频创作者在快手上传更多短视频。在本次活动中,我们将为快手平台上的每一位短视频创作者提供一份珍贵的任务。具体来说,在每个任务中,如果创作者在24小时内上传视频,他/她将获得一定数量的硬币作为奖励。每个创造者都可以看到他/她可能获得的硬币数量,如果这个数字足够吸引人,创造者可能会完成任务。

4.2评价指标

我们使用以下评估指标来评估和比较不同方法的性能:

AUCC(成本曲线下面积),单位为b[8]。现有文献[2,8,41]常用AUCC来评价两种处理条件下抬升模型的排序性能。有兴趣的读者可以查看原始论文[8],了解更多关于AUCC评估过程的详细信息。在本文中,我们使用AUCC来比较不同方法在CRITEO-UPLIFT v2中的性能。

EOM(预期结果度量)。EOM或类似的度量标准在现有文献中也常用[2,41],以经验估计任意预算分配政策的预期结果(例如,人均反应或人均成本)。EOM可以对任何结果进行无偏估计,只要在RCT数据上给出预算分配解决方案,结果是可计算的。因此,EOM在实践中比AUCC更灵活。本文使用合成数据集和快手- produce - coin数据集中的EOM来评估不同的预算分配方法,EOM的技术细节已在3.3节的式(5)和式(6)中介绍。

4.3实现细节

不同数据集的实现细节如下:

4.4合成数据集的结果

 

4.5 CRITEO-UPLIFT v2实验结果

CRITEO-UPLIFT v2试验结果汇总如表1所示。OursFD和Ours-NES分别采用有限差分策略/ NES作为梯度估计量的方法。我们发现our - fd和our - nes在AUCC意义上都明显优于所有竞争方法。我们的- fd在20次运行中具有最高的AUCC方差,这种现象可能是部分的用NES梯度是有噪声的这一事实来解释。虽然our - fd的性能超过了our - nes,但在NVIDIA Tesla T4 GPU上,our - fd的运行时间多了4倍(our - fd 17.6小时,而our - nes 4.3小时),因为我们需要评估?函数多次调用。

5结论

本文研究了端到端培训框架在预算分配问题中的应用。我们将一定预算约束下的业务目标表述为一个黑箱正则化器,并开发了两种高效的梯度估计算法对其进行优化。对于这两种梯度估计算法,我们建议使用一个超参数来权衡计算复杂度和估计梯度的准确性。我们提出的方法应该赋予训练良好的DNN模型直接从营销目标中学习并进一步最大化的能力。在三个数据集上的大量实验表明,我们的方法在离线模拟和在线实验方面都具有优势。我们未来的工作将集中于减少梯度估计的方差,并将这种方法应用于更复杂的现实世界的营销场景。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/457290.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Windows环境下NVM安装后Node/NPM命令无法使用

问题:Windows环境下安装nvm后,使用nvm安装node,无法使用node相关命令。 解决方案:注意安装的时候有两个路径,第一个是nvm所在的路径,第二个是nodejs所在的路径,大家需要在对应的目录下找到路径…

基于SSM的电影订票管理系统

有需要请私信或看评论链接哦 可远程调试 基于SSM的电影订票管理系统 一 介绍 基于SSM的电影订票管理系统,本项目分为前台和后台,登录角色分为普通用户和管理员。用户可注册登录,个人中心,搜索电影,选座购票&#xff…

机器学习——损失函数(lossfunction)

问:非监督式机器学习算法使用样本集中的标签构建损失函数。 答:错误。非监督式机器学习算法不使用样本集中的标签构建损失函数。这是因为非监督式学习算法的目的是在没有标签的情况下发现数据集中的特定结构和模式,因此它们依赖于不同于监督…

QMS-云质说质量 - 5 解决中小企业质量问题的钥匙在哪里?

云质QMS原创 转载请注明来源 作者:王洪石 引言 一个小小的质量问题可能引发蝴蝶效应 日常生活中,我们每天都会遇到各种各样的问题,并随着它们喜怒哀乐。企业也不例外,即使有很好的管理体系以及非常高素质的员工,一些错…

XGBoost模型详解

1.什么是XGBoost? GBDT,它是一种基于boosting增强策略的加法模型,训练的时候采用前向分布算法进行贪婪的学习,每次迭代都学习一棵CART树来拟合之前 t − 1 t-1 t−1 棵树的预测结果与训练样本真实值的残差。XGBoost对GBDT进行了一…

C/C++每日一练(20230424)

目录 1. 只出现一次的数字 🌟 2. 有效的括号 🌟🌟 3. 递归反序正整数 🌟 🌟 每日一练刷题专栏 🌟 Golang每日一练 专栏 Python每日一练 专栏 C/C每日一练 专栏 Java每日一练 专栏 1. 只出现一次…

《站在巨人的肩膀上学习Java》

Java从诞生距今已经有28年了,在这段时间里,随着Java版本的不断迭代,Java新特性的不断出现,使得Java被使用的越来越广泛。在工程界Java语言一直是大家最喜欢的语言之一,Java一直排行在编程语言热门程度的前3名。 可想而…

ora_scm0导致主机负载高

今天不知道了,几个12.2 RAC出问题,有现场反馈主机负载高,之前连接过该环境,知道是12.2环境,直接top查看,发现ora_scm0经常cpu使用率100%了,查看hydb1主机负载正常 直接上mos文档 12.2 RAC DB B…

字节和阿里,谁的管理模式更先进?

有人说,字节跳动的成功,是商业模式和管理模式的成功。不无道理,相比阿里巴巴以KPI绩效考核、强制淘汰的组织管理模式来说,字节的模式有其先进的地方。 在商业模式上,字节用算法的方式,10倍速地提升了信息分…

2023.04.24 c++第六讲

作业&#xff1a; 1. 手动实现顺序栈&#xff0c;要求实现数据结构中&#xff0c;所有栈的相关操作 #include <iostream> #define MAXSIZE 20 //宏定义&#xff0c;栈的最大容量 using namespace std;template <typename T> class stacklink { pri…

ESXi8.0安装Windows10系统教程

本篇教程主要教大家怎么在ESXi虚拟机上安装Windows10系统&#xff0c;首先安装Windows10需要准备一个ISO系统镜像文件&#xff0c;我们可以去MSDN或者是微软官网下载。 镜像下载教程&#xff1a; 下两种方法都可以下载ISO镜像文件&#xff0c;任选其一下载即可 方法一&#xf…

BDD110 HNLP205879R1设备控制、监视、报警及打印报表等管理功能

​ BDD110 HNLP205879R1设备控制、监视、报警及打印报表等管理功能 基于ABB AC500系列PLC的水泥生产线控制系统 随着中国经济的迅速发展&#xff0c;各行各业对水泥的需求日益增加。目前国内外各大水泥企业纷纷在华兴建大型干法旋窑水泥生产线&#xff0c;这为水泥行业的发展提…

【SWAT水文模型】ArcSWAT安装

SWAT水文模型-ArcSWAT安装 安装ArcSWAT1.1 下载ArcSWAT1.2 安装ArcSWAT1.3 加载ArcSWAT 参考 SWAT水文模型原理及数据库简介可参见另一博客文章-【水文模型】SWAT水文模型原理及数据库简介。 本博客主要介绍ArcSWAT的安装。 安装ArcSWAT 1.1 下载ArcSWAT 安装之前&#xff0…

广域通信网 - 差错控制(停等 ARQ 协议、选择重发 ARQ 协议、后退 N 帧 ARQ 协议)

文章目录 1 概述2 差错控制的办法2.1 停等 ARQ 协议2.2 选择重发 ARQ 协议2.3 后退 N 帧 ARQ 协议 3 扩展3.1 流量控制3.2 网工软考真题 1 概述 #mermaid-svg-ju8w1gQxodkcBbaB {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#me…

【应急响应】后门攻击检测指南Rookit内存马权限维持WINLinux

文章目录 Windows实验常规后门&#xff1a; 网络对外连接查看 自启动测试&#xff1a;隐藏账户映像劫持屏保&登录 Linux实验常规后门&#xff1a;Rootkit后门&#xff1a;GScan rkhunter权限维持后门&#xff1a;GScan rkhunter Web层面&#xff1a;通用系统层面 主机层面后…

网络设备发现工具

什么是网络设备发现 网络设备发现是识别和映射网络基础架构&#xff08;如路由器、交换机、集线器、防火墙、无线接入点、服务器、虚拟机等&#xff09;中存在的设备和接口的过程。网络发现是网络管理的第一步&#xff0c;也是成功监控解决方案的关键。该过程不仅涉及发现网络…

【超算/先进计算学习】日报6

目录 今日已完成任务列表遇到的问题及解决方案任务完成详细笔记传统性能优化从体系结构角度理解四种计算优化途径-主频/缓存/流水线/超标量优化途径的有效适用条件存储墙与层次式存储结构数据局部性与cache循环合并循环展开循环交换循环分布循环不变量外提循环分块循环分裂 优化…

zabbix环境准备

zabbix基础设置(运维笔记) 准备三台主机配置主机名hostnamectl set-hostname --static zabbixserver.cluster.comvi /etc/hosts192.168.126.143 zabbixserver.cluster.com 192.168.126.142 agent1.cluster.com 192.168.126.141 agent2.cluster.com三台机器同步时间 ntpdate…

springboot中统一功能处理浅析

在springboot工程中实现统一功能的处理&#xff0c;主要分析以下3个统一功能场景&#xff1a; 1、统一用户登录权限验证 2、统一数据格式返回 3、统一异常处理 1、统一用户登录权限验证 用户登录权限验证从最初每个方法中自己验证用户登录权限&#xff0c;逐步发展到进行统一用…

[HDU - 4578]Transformation(线段树+多重懒标记)

[HDU - 4578]Transformation&#xff08;线段树多重懒标记&#xff09; 一、问题二、分析1、节点定义2、pushup3、pushdown&#xff08;1&#xff09;每种标记如何下传&#xff1f;赋值乘法加法 &#xff08;2&#xff09;三种标记下传的优先级问题 三、代码 一、问题 二、分析…