目录
1介绍
2相关工作
2.1提升建模
2.2特征交互
3前提
4提出的方法
4.1架构
4.2训练
5试验评估
6结论和未来
英文题目:Explicit Feature Interaction-aware Uplift Network for Online Marketing
翻译:使用显式特征的在线交互感知提升网络
单位:腾讯
论文链接:https://export.arxiv.org/pdf/2306.00315v1.pdf
代码:暂无
KEYWORDS:
Uplift modeling, Feature interaction, Treatment-aware interaction, Intervention constraint
摘要:
作为在线营销的关键组成部分,提升建模旨在准确捕捉不同处理激发不同用户的程度,例如优惠券或折扣,也称为个体治疗效果 (ITE) 的估计。在实际业务场景中,治疗选项可能众多且复杂,不同处理之间可能存在相关性。此外,每个营销实例也可能具有丰富的用户和上下文特征。然而,现有的方法在充分利用对特定处理敏感的处理信息和挖掘特征方面仍然不足。在本文中,我们提出了一个显式特征交互感知提升网络(EFIN)来解决这两个问题。我们的 EFIN 包括四个自定义模块:1)特征编码模块不仅编码用户和上下文特征,还编码处理特征; 2)自交互模块旨在准确建模用户与所有其他处理特征的自然响应; 3)处理感知交互模块通过处理特征与其他特征之间的交互(即 ITE)准确地模拟特定处理激励用户的程度; 4)干预约束模块用于平衡对照组和治疗组之间用户的 ITE 分布,以便模型仍然可以对非随机干预营销场景收集的数据进行准确的提升排名。我们在两个公共数据集和一个产品数据集上进行了广泛的实验,以验证我们的 EFIN 的有效性。此外,我们的 EFIN 已部署在大型在线金融平台的信用卡账单支付场景中,并显着提高。
1介绍
为了提高用户参与度和平台收入,为用户提供一些具体的激励,如优惠券[37]、折扣[19]和奖金[1],是在线营销[27]的重要策略。由于这些激励通常具有成本,不同的用户对这些激励有不同的反应,例如一些用户没有优惠券消费,一些用户无论如何都会消费,如何准确地识别每个激励对应的敏感用户组对于最大化营销效益至关重要[14,34]。为了实现这一目标,我们需要准确捕捉用户对各种激励的反应之间的差异,而不是没有激励的人。与传统的监督学习不同,这涉及一个典型的因果推理问题,因为在实际场景中,我们通常只能观察一种类型的用户响应,这可能是某种激励(即治疗组)或没有激励(即对照组)。因此,我们想要获得的不同激励(或处理)引起的用户响应的变化可以看作是个体治疗效果(ITE)[36]的估计,也称为提升。为了解决上述问题,近年来提出了提升建模,验证了其有效性[5,7,10]。
现有的提升建模方法主要根据设计思想包括三个研究方向:1)基于元学习器。这条线的基本思想是使用现有的预测方法为用户响应构建估计器,可以是全局的(即S-Learner),也可以是处理组和对照组(即T-Learner)[17]。在此基础上,通过引入各种附加操作,如XLearner[17]、R-Learner[24]和DR-Learner[4]等,设计了不同的两步学习器。2)基于树的。这条线的基本思想是使用树结构将整个用户种群逐渐划分为对每个处理敏感的子种群。关键步骤是利用不同的分裂准则直接建模抬升,如基于各种分布散度[25]和预期响应[29,38]。此外,通过整合多棵树获得的因果森林[3]是这条线的另一种代表性方法,已经提出了几种变体[1,32]。3)基于神经网络的。这条线的基本思想是利用神经网络为用户的响应设计更复杂和灵活的估计器[16,21,35,39],其中大部分可以看作是T-learner的改进[8,9,30,31]。在本文中,我们专注于基于神经网络的线,因为它可以更好地适应由于神经网络的灵活性而引入的特征交互建模的目标。此外,由于商业系统中通常使用各种神经网络模型,因此对这条线的研究可以更容易地与其他线集成。我们在图 1 中展示了一些代表性方法在基于神经网络的抬升建模中的架构。
尽管现有的提升建模方法已经显示出有希望的结果,但它们中的大多数都在充分利用对特定治疗敏感的处理信息和挖掘特征方面仍然不足。在在线营销中,除了索引 ID 之外,治疗通常具有许多详细描述它的特征。例如,优惠券可能包括特定金额和要达到的最小支出。这也意味着不同的处理可能是相关的,例如具有相似的金额或最小支出。直观地说,这些信息有利于获得准确的提升,例如,治疗之间的相关性可以提示模型发现用户对价值 1000 的优惠券的响应应该更类似于价值 900 的优惠券而不是价值 100 的优惠券。然而,如图 1 所示,我们可以发现几乎所有相关方法都没有明确利用处理特征,这可能不利于提升估计。我们将此挑战称为处理特征的未充分利用。此外,由于缺乏对治疗特征与其余特征之间的相互作用进行建模,上述挑战还将防止大多数相关方法准确地捕获与每个治疗相关的敏感特征。我们将此挑战称为特征交互的未充分利用。请注意,显式建模处理特征也可能使模型与各种营销场景兼容,其中处理选项可能是二进制的、多值或连续的,而不会显着增加模型的大小。
为了解决上述两个挑战,在本文中,我们提出了一个显式特征交互感知提升网络(EFIN)。具体来说,我们的 EFIN 包含四个模块:1)特征编码器模块旨在编码包含用户特征、上下文特征和处理特征的营销实例; 2)自交互模块负责控制组中用户的响应。它使用自注意力网络来建模除了处理特征之外,所有特征之间的交互以捕获与自然响应相关的特征子集(即不接受任何处理); 3) 治疗感知交互模块负责治疗组中用户的响应。它使用处理感知注意网络对处理特征与其他特征之间的相互作用进行建模,以识别对不同处理敏感的特征子集,并准确捕获用户对不同处理响应的变化; 4) 干预约束模块用于平衡处理组和对照组之间用户的ITE分布,以便我们的EFIN在不同的场景中更加健壮。该模块是必要的,因为在真正的营销场景中,治疗分配通常是非随机的,将导致对照组和治疗组之间的用户分布差异。最后,我们进行了广泛的离线和在线评估,结果验证了我们的 EFIN 的有效性。
2相关工作
在本节中,我们简要回顾了两个研究课题的一些相关工作,包括隆升建模和特征交互。
2.1提升建模
提升建模旨在通过准确估计ITE来识别每个特定处理的相应敏感种群。现有的提升建模方法主要包括三个研究方向:1)基于元学习器的方法侧重于使用现有的预测方法来学习用户响应的一步学习器 [17] 或两步学习器 [4, 24],其中处理信息通常集成为一维离散特征或作为切换预测分支的先验。2)基于树的方法采用特定树或森林结构,采用不同指标的分裂准则,逐步划分整个种群中每个处理对应的敏感子种群[3,25,38],其中处理信息包含在分裂过程的计算中;3)基于神经网络的方法结合了神经网络的优点,引入一些更复杂、更灵活的体系结构来建模处理的响应过程,可以学习更准确的用户响应或抬升估计器。此外,只有少数作品通过将提升建模与其他领域的成熟问题联系起来来解决提升建模,例如背包问题 [2, 12]。我们的 EFIN 遵循基于神经网络的行,但与现有相关工作有很大不同,尤其是在明确利用处理特征和与其他特征交互建模方面。
2.2特征交互
特征交互旨在对不同特征之间的组合进行建模,并已被证明可以显着提高响应模型的性能 [22, 23]。现有的特征交互方法主要可以分为三类,包括二阶交互、高阶交互和结构交互。在二阶交互中,两个特征的嵌入表示之间的内积通常是考虑分解机及其变体是代表性方法[15,26]。高阶相互作用的建模依赖于神经网络,已经提出了许多架构来提高模型性能、可解释性和高效融合低阶和高阶相互作用[13,33]。此外,基于图结构,一些方法旨在利用额外的结构信息来进一步提高高阶交互[18,20]。尽管特征交互在许多任务上都取得了成功,但仍然缺乏对其在隆升建模中的应用的研究。我们的 EFIN 旨在弥合这一研究方向的差距。
首先最基本的是 Meta-Learner,代表的建模方案有 S-Learner 和 T-Learner,随后进入深度学习后就演化出来以解决混杂偏置为代表的 DragonNet、DESCN、S-Net、CFRNet 等,和以解决归纳偏置为代表的 FlexTENet、S-Net、EUEN、DESCN、GANITE、CFRNet 等。
3前提
4提出的方法
4.1架构
4.2训练
在本小节中,我们根据训练过程详细描述每个模块。
4.2.1 The Feature Encoder Module 特征编码器模块
4.2.2 The Self-interaction Module 自我交互模块
4.2.3 The Treatment-aware Interaction Module
4.2.4干预约束模块
干预约束模块。由于在在线营销场景中,不同处理的分配通常不是随机的,这意味着收集的训练集通常在对照组和治疗组之间存在显着差异。如图 3 所示,由于每组中只有一种类型的响应可用于监督训练,因此组间分布的差异会加剧组间估计 ITE 存在显着差异,.因此,忽略这种差异可能会增加 ITE 估计的难度并损害准确性。为了缓解这个问题,我们提出了一个简单但有效的干预约束模块。该模块背后的想法是增加从不同组的ITE分布中猜测相应组的难度,即通过相互干扰实现两者之间的权衡。先前的研究表明,组间ITE分布的相似性有利于提升建模[9]。具体来说,我们使用与提升密切相关的嵌入表示 e푡 来预测该实例属于哪个组。然后,我们使用逆组标签对其进行训练以生成如上所述的扰动。‘
4.2.5提升预测。在我们的 EFIN 训练完成后,在推理阶段,我们只需要使用处理感知交互模块直接计算 ITE,然后进行排名和决策。
5试验评估
在本节中,我们进行实验,目的是回答以下三个关键问题。
•RQ1:与基线相比,我们的EFIN的表现如何?
•RQ2:每个模块在我们的EFIN中的作用是什么?
•RQ3:我们的EFIN在在线部署中的有效性?
5.1 实验设置
5.1.1 数据集。继之前的工作[16]的设置之后,我们在两个公共数据集上进行了实验,包括CRITEOUPLIFT[11]和EC-LIFT[16]。CRITEO-UPLIFT 是一个由 Criteo AI Labs 开源的数据集,用于大规模广告场景中的提升建模,其中包括近 1400 万个实例、12 个连续特征和二进制处理。EC-LIFT 是大规模广告场景中不同品牌的提升建模数据集,由 Alimama 开源。该数据集包含数十亿个实例、25 个离散特征和九个多值特征以及二进制处理。由于数据规模过大,为了便于训练,我们从原始 EC-LIFT 数据集中提取了大约 40% 的实例作为实验数据集。两个公共数据集的统计数据如图所示表1。我们随机拆分两个数据集进行训练和测试,比例为8/2。注意,由于用户特征和上下文特征的建模是一致的,不需要特别的区别,我们在实验中使用上述数据集中的所有特征。此外,在先前工作的设置之后,我们将处理视为二元特征。为了全面评估我们的 EFIN,我们还包括从两周的在线优惠券营销场景中收集的产品数据集,用于信用卡支付。该产品数据集总共使用了 200 多个特征,涉及 200 万个用户,有 200 万个实例,其中 90% 用于训练集,其余用于测试集。特别是,产品数据集中包含了七个处理选项,而不是公共数据集中的二进制处理。
5.1.2 评估指标
我们通过四个广泛使用的指标来评估抬升排名性能,即第一个ℎ百分位数的抬升分数(LIFT@ℎ)、抬升曲线下的归一化面积(AUUC)、qini曲线下的归一化面积(QINI)和加权平均抬升(WAU)。我们报告了ℎ设置为30的结果。我们使用标准的python包scikit-uplift1来计算这些指标。
5.1.3 基线
为了评估我们的EFIN的有效性,我们在基于神经网络的隆起建模中选择了一组最具代表性的方法,包括S-Learner[17]、T-Learner[17]、TarNet[30]、CFRNet[30]、DragonNet[31]、GANITE[35]、CEVAE[21]、SNet[8]、FlexTENet[9]、EUEN[16]和DESCN[39]。
5.1.4 实施细节
5.2 RQ1:性能比较
我们在表3中报告了两个公共数据集的比较结果。从表3的结果中,我们可以得到以下观察结果:1)T-learner的性能明显优于S-learner,即使是一些使用更复杂网络架构的基线。这可能意味着在具有众多特征的在线营销场景,提升建模比传统的ITE估计更难,尤其是用户的敏感特征需要更准确地识别。特别是,我们可以观察到,在具有大量高维稀疏特征的 EC-LIFT 上,大多数基线不再具有优于 T-learner 的优势。2)通过设计一些更灵活或更复杂的架构作为用户响应的估计器,FlexTENet、SNet、EUEN 和 DESCN 比其他基线表现更好。但同样,它们相对于 EC-LIFT 的优势缩小了。这意味着在不考虑特征交互的情况下,其他架构更改可能不会产生太多收益。3) 与其他基线不同,我们的 EFIN 在大多数情况下始终优于所有基线,但 WAU 上的 DESCN 略弱。由于我们使用 QINI 作为超参数搜索的主要指标,其他指标可能存在一些波动,我们可以发现我们的 EFIN 对 QINI 有很大的改进。此外,我们的 EFIN 还能够保持 EC-LIFT 的性能优势,这得益于处理特征和特征交互的显式建模。
接下来,我们在表4中报告了产品数据集的比较结果。由于大多数基线通常只应用于二进制处理场景,为了在具有多值处理的产品数据集上评估它们,我们首先合理地扩展它们,例如网络架构从双头变为多头。请注意,由于 CEVAE 中的分布估计很难直接扩展到多头架构,我们不报告其在产品数据集上的结果。在扩展完成后,我们使用与表 2 相同的搜索范围重新训练所有方法。请注意,在评估时,我们需要将多值处理视为多个二进制处理,以获得每个处理的单个指标,最后报告平均结果。从表 4 中的结果来看,我们有以下观察结果:1)基于元学习器的方法(S-Learner 和 T-Learner)仍然相对稳定,在多值处理场景中的结果次优。2)考虑共享架构的基线存在性能瓶颈,其中共享部分可能会导致学习冲击,因为处理组太多且显着不同。3) 同样,由于我们的 EFIN 在产品数据集上明确地利用了处理特征和特征交互,它仍然保留了为每个用户挖掘与不同处理相关的敏感特征的能力。结合两个公共数据集和一个产品数据集的结果,这验证了我们的EFIN的有效性,特别是在隆升建模中明确考虑处理特征和特征交互。
5.3 RQ2: EFIN的消融研究
此外,我们对 EFIN 进行了消融研究,以分析每个提议模块所扮演的角色。我们单独顺序删除了三个核心模块,即自交互模块、处理感知交互模块和干预约束模块。结果如表5所示。从表5的结果可以看出,删除任何模块都会带来性能下降。这验证了我们的 EFIN 中每个模块设计的有效性。也就是说,干预约束模块
5.4 RQ3:在线部署的结果
为了进一步评估性能,我们将我们的 EFIN 部署在 FiT 腾讯信用卡支付场景中,这是中国大规模在线金融平台之一。
5.4.1 系统概述和场景描述。
该场景如图4所示。在这种情况下,营销需要为不同的客户群体发起不同的活动,以激励更多的用户在这个平台上支付信用卡账单。一旦用户倾向于在平台上支付信用卡账单,治疗就会提升到一些用户组。在这种情况下,根据账单金额的限制,有各种类型的优惠券。具体来说,有一些小的提名优惠券,不需要最少的要求,一些更高的提名优惠券需要最少的金额,因此在这种情况下的最终处理数设置为7。高级架构如图5所示。用户行为从数据源(一些存储集群)中提取,使用Apache Spark5生成特征,处理候选是具有各种量的优惠券。提升模型将对每个优惠券上的每个用户的提升值进行评分。最后,启动子平台将进一步向具有一定资源约束的用户组提供优惠券。请注意,我们的工作侧重于如何提高提升模型的性能,这是整个系统的关键组成部分。
5.4.2 在线实验结果。为了进行在线 A/B 实验,我们划分了两组相互影响的在线流量,涉及数亿用户。现有的在线平台上的基线是一个多头扩展 T-learner,其中每个估计器使用 XGBoost [6] 进行计算。基线模型和我们的 EFIN 为一个月的每个单独的在线流量提供服务。为了评估性能,我们使用了两个重要的在线指标:投资的营销回报 (ROI) 和每月活跃用户 (MAU) 的数量。表 6 报告了对基线的相对改进。从表 6 中的结果来看,我们可以发现与基线相比,我们的 EFIN 将 ROI 和 MAU 分别提高了 10% 和 8%。这意味着我们的 EFIN 在一段时间内可以保持稳定的性能优势,并且确实可以准确地捕获敏感。
6结论和未来
工作在本文中,为了解决大多数现有提升建模方法中存在的处理特征和特征交互的利用不足,我们提出了一种显式特征交互感知提升网络(EFIN)。我们的EFIN由四个模块组成:(1)其中一个特征编码器模块用于对所有特征进行编码;(2)一个自交互模型旨在在隔离处理信息的同时,使用非处理特征准确地对用户的自然响应进行建模,处理感知交互模块利用处理特征和非处理特征,并通过交互准确地对用户对不同处理的抬升和响应进行建模,设计了一个干预约束模块来调整控制和处理的分布差异组以使我们的 EFIN 在不同的场景中更加健壮。最后,我们进行了广泛的离线和在线评估,结果验证了我们的 EFIN 的有效性。
在未来的工作中,我们计划探索和分析更多特征交互架构在提升建模中的有效性。如何使提升建模更多地受益于治疗特征及其与非治疗特征的相互作用也是一个有前途的问题。此外,我们还对考虑和解决一些更复杂的提升建模场景感兴趣,例如考虑净利润等必要约束,并根据动态视角对用户对不同处理的响应变化进行建模。