这是一篇阿里妈妈的论文【KDD’23 | 转化率预估新思路:基于历史数据复用的大促转化率精准预估】
常规的销量预测,遇到一些特大事件,直播、大促,一般很难预估得准确。而且现在电商机制也比较多样,预售、平台折扣等。
本篇可能适合一些特殊时间点进行转化预测的场景。
论文地址:
https://arxiv.org/pdf/2305.12837.pdf
只在此摘录一些片段:
1 片段一:大促预估不足的原因
直接原因:大促周期内用户转化行为突变(五花八门的电商机制:预售、折扣等)
如图1 (a),我们可以观察到大促期间的真实CVR发生明显波动,其原因是用户的转化行为发生了剧烈变化。由于传统的CVR模型遵从i.i.d.假设(用于训练的数据与实际服务的数据独立同分布),当分布发生波动时,i.i.d.假设失效,模型的预估性能将会受到影响;
万“恶”之源–转化行为的延迟反馈(还是预售之类的机制引发的问题)
2 大促CVR修复策略
上述训练范式的有效性依赖于A(x,y)和B(x,y)之间的i.i.d.假设。然而该假设在大促周期内难以成立,因为转化行为的剧烈波动会带来严重的分布偏移(。在我们的智能数据复用方案中,我们首先寻找与即将到来的大促B(x,y)的分布相似的【历史数据】,并使用【历史数据】微调生产模型,过程如下式:
所以这里的Fineture(B)
是一个纠偏值。
整个方案会基于历史分布相似的数据进行融合,基于重要性加权经验风险最小化框架(Importance-Weighted Empirical Risk Minimization)设计了微调方案,通过最小化以下经验性风险来进行模型微调,同时纠正历史数据可能带来的偏差:
其中,B(x,y)
代表历史数据对应当天前10小时的CVR均值,可以从历史数据中统计获得;而B‘(x,y)
代表大促当天前10小时的真实CVR均值
3 大促期间 分布相似数据的搜寻
找到当下大促,相似的历史“促销”数据,包括双11,618,双12等等大促时间点
寻找的方式就是构建大促时序向量,然后求相似。
论文中大促时序向量的构成由两个部分:
- 每天的CVR
- 品类的产品(如化妆品)的曝光占比
上述的两类数值特征将会被拼接并平铺成向量,作为对应天的表征。为每一天都构建了对应表征后,我们使用最近邻算法来检索最相似的历史数据:计算当天表征与历史每一天表征之间的余弦距离并排序。
检索效果:
在表3中,我们提供了几个真实检索结果来更好地展现数据检索的效果。第一个是查找与99大促相似的促销。我们检索到的前两个日期是2022年8月8日的88大促,以及2022年6月14日的618大促二峰,CVR也都比较接近。第二个例子是寻找与88促销相似的促销。我们检索到的Top2结果是2022年7月12日的狂暑季大促,以及7月31日的七夕节大促(没有检索到99大促是因为88大促发生在99大促之前)。同时,我们还随机展示了一个低相似度的非大促日期。显然,这个随机日期的整体CVR与目标大促日期相差很大。