本篇文章分为:
1.前言
2.模型方案
2.1 替代指数背景
2.2 替代指数的基本设定
2.3 模型结构
3.评估
4.总结与展望
1. 前言
在网约车双边交易市场中,量化策略对平衡市场供需的影响起着重要的作用。对市场供需的影响分为两种情况:
短期价值:当前策略对当前供需的即时干预影响。
长期价值:当前策略对未来一段时间供需的长期干预影响。
从技术角度来说,我们可以将策略定义为处理变量(treatment),将其对市场供需的影响定义为处理效应(treatment effect),而建模处理变量和处理效应之间的效应估计模型被称为增益模型(uplift model)。
短期价值的效应估计可以通过常规的因果推断(causal inference)模型进行估计,比如 DML、grf 等模型,读者感兴趣可以参考我们之前发的文章:《连续因果森林模型的构造与实践》。而长期价值的效应估计往往需要长期实验数据支持,但长期实验存在两个问题:一方面缺乏时效性;另一方面成本昂贵。
针对长期实验面临的两个难题,滴滴MPT团队通过“滴滴盖亚科研合作计划”与在因果推断、因果学习领域深耕多年的广东工业大学计算机学院蔡瑞初教授开展合作,采用基于策略的短期结果对长期价值进行评估的技术思路,设计了基于短期替代变量的因果效应估计模型(Laser:LAtent SurrogatE Representation learning),提升长期效应估计的时效性,降低实验成本。
2. 模型方案
2.1 替代指数背景
评估长期效应最理想的状态就是做长期实验,但出于成本等因素的约束,长期实验的目标很难达成,我们不得不使用短期数据来推断长期效应。因此我们希望借助短期结果变量作为替代指数(Surrogate index/Sind),继而得到长期结果变量和因果效应。因果图如下图所示:
真实情况中,存在可被观测替代指数(observed surrogate,下图So),和未被观测替代指数(latent surrogate,下图Sl)。其中,Sl 存在某些代理变量 p。
因此替代指数方法主要有两个问题:
存在未被观测的替代指数 Sl,它们无法被作为特征使用
很难区分可被观测替代指数 So 和代理变量 p
我们的方法(Laser)就是为了解决以上难点并评估长期因果效应。
2.2 替代指数的基本设定
2.2.1 数据集构造
我们的数据集分为两部分,实验数据集和观测数据集,其中在实验数据集中,我们无法观测到长期结果:
Dataops = (X,T,S), Dataexp = (X,S,Y)
2.2.2 假设
替代指数方法继承了因果推断中的一些经典假设,包括 SUTVA、Overlap、Unconfoundedness;除此之外,还有
(Comparability Assumption)给定协变量和所有替代指数,长期结果y在实验数据和观测数据的条件分布相同。
𝑝𝑜𝑏𝑠 (𝑦|𝑥, 𝑠𝑜, 𝑠𝑙 ) = 𝑝𝑒𝑥𝑝 (𝑦|𝑥, 𝑠𝑜, 𝑠𝑙 )
(Partially Latent Surrogacy Assumption)给定协变量和所有替代指数,干预t和长期结果y相互独立(注意给定可观测短期结果 so 和 p 无法阻断t到y的因果路径):
𝑦 ⊥ 𝑡 |𝑠𝑜, 𝑠𝑙 , 𝑥
2.3 模型结构
模型框架包含以下两个步骤:
(1) 表示学习阶段:通过 iVAE 恢复 latent surrogate sl,进而通过 sl,so,x 准确估计 y
(2) 效应估计阶段:通过 IPW 方式估计长期因果效应
2.3.1 表示学习阶段
我们的模型包括两部分:1、基于 vae 的 inference network,其目的是为了恢复替代指数的条件概率分布 p(s|x,m,t),见下图:
2、使用 MLP 的 generative network,其目的是为了推断短期结果变量 m 和长期结果变量 y 的条件概率分布 p(m|x),p(y|s,x),见下图:
和现有 VAE 框架相同,我们假设替代变量 s 的先验分布 p(s|x,t) 服从标准正态分布。
在 inference network 中,我们加入干预变量t、其他协变量x、和短期结果变量 m(包括 p 和 so)。后验变分近似被定义为下式。其中 mu_hat 和 sigma_hat 是模型需要学习的参数。
在 generative network 中,我们将短期结果变量和长期结果变量的条件概率分布均定义为正态分布,由模型学习参数mu,v是一个很小的固定值。
我们的目标函数由两部分组成:
使用 ELBO 优化 inference network 跟 generative network
对于长期结果 y,我们额外使用 y 的 log-likelihood 作为 loss 训练这个 MLP
2.3.2 效应估计阶段
我们使用 IPW 来估计因果效应,其中 y_hat 为神经网络的输出,e(x) 为数据的倾向性得分 E(t|x)。
3. 评估
我们选择因果效应估计的平均 MAPE 作为评估标准:
我们的方法(Laser)分别比较 "Sind-Linear" 模型和 "Sind-MLP" 模型的效果。在不同的数据集的离线评测结果上,基于新方法的离线评测均取得了不错的提升:
4. 总结与展望
通过借助短期结果变量作为替代指数,构建针对性的模型结构(Laser)去进行长期效应估计,该方法解决了长期效应估计中的时效性和成本两大难题,同时在离线评测集上验证了该方法的有效性。同时该方法后续实际生产应用过程中如果取得新的进展,会继续与大家分享!
推荐阅读
End
作者及部门介绍
本篇文章作者李修涵、邹志超,均来自滴滴网约车MPT团队(Marketplace Technology)。团队致力于打造世界顶尖的智能交易平台,包括订单分配、司机调度、拼车、定价等方向,通过不断探索机器学习、强化学习等前沿技术,完善交易市场设计,实现资源最优化分配,力求解决正在发生的以及潜在供需失衡的状况,最大程度满足平台多样化的出行需求,持续优化乘客体验和保障司机收入,提升业务经营效率,引领出行行业变革与发展。
招聘信息
团队后端、算法需求招聘中,欢迎有兴趣的小伙伴加入,可以简历投递至pennyqinpei@didiglobal.com,或扫描下方二维码简历直投,期待你的加入!
高级研发工程师
岗位职责:
1. 负责核心的派单引擎架构的设计与开发,分布式匹配计算系统等;
2. 负责分单,导流、供需预测等复杂策略的架构设计和开发;
3. 负责新业务模式的探索。
高级算法工程师
岗位职责:
1.研究包括独乘、拼乘模式下的各种交易匹配、分单调度、乘客预期等算法,持续提升核心交易效率;
2.利用因果推断、运筹规划、机器学习等技术,提升供需预测、定价等运营核心算法效果;
3.利用算法技术实现集团各业务线用户的高效增长,优化流量运营效率;
4.通过机器学习技术解决司乘纠纷和体验问题,打造良好司乘体验和平台秩序,构建司乘公平的判责能力,守护司乘的安全。