【电商搜索】现代工业级电商搜索技术-中科大-利用半监督学习改进非点击样本的转化率预测
0. 论文信息
RecSys24: Utilizing Non-click Samples via Semi-supervised Learning for Conversion Rate Prediction
@inproceedings{huang2024utilizing,
title={Utilizing Non-click Samples via Semi-supervised Learning for Conversion Rate Prediction},
author={Huang, Jiahui and Zhang, Lan and Wang, Junhao and Jiang, Shanyang and Huang, Dongbo and Ding, Cheng and Xu, Lan},
booktitle={Proceedings of the 18th ACM Conference on Recommender Systems},
pages={350–359},
year={2024}
}
利用半监督学习改进非点击样本的转化率预测
1. 摘要
这篇文章提出了一种新的半监督学习方法,称为非点击样本改进的半监督(NISE)方法,用于提高转化率(CVR)预测的准确性。该方法旨在解决样本选择偏差(SSB)、数据稀疏性(DS)和假阴性样本(FNS)问题,这些问题在推荐系统中进行CVR预测时尤为突出。通过将非点击样本视为未标记样本,并预测它们如果被点击可能会转化的概率,然后将这些概率作为伪标签用于进一步的模型训练。此外,文章还引入了一个辅助的点击通过率(CTR)预测任务,并通过多任务学习来增强嵌入层的表示。通过在多个真实世界数据集上的广泛实验,验证了该方法在减少FNS挑战和提高CVR估计准确性方面的优越性。
2. 研究背景
在推荐系统中,准确预测用户的转化率(CVR)对于匹配推荐项目和用户偏好至关重要。然而,由于样本选择偏差和数据稀疏性,以及假阴性样本问题,这一任务面临挑战。现有的方法通过多任务学习来解决这些问题,但这些方法可能会加剧假阴性样本问题。
3. 问题与挑战
- 样本选择偏差(SSB):传统CVR模型在点击空间训练时,由于未随机选择的暴露但未点击样本,导致在整体空间推断时出现偏差。
- 数据稀疏性(DS):与暴露样本相比,点击样本明显稀疏,导致模型难以拟合。
- 假阴性样本(FNS)问题:由于CVR任务的反事实性质,非点击样本可能被视为负面,但未点击并不一定意味着用户不喜欢这些项目。
4. 如何解决
文章提出了NISE方法,该方法通过以下方式解决上述挑战:
- 将非点击样本视为未标记,并预测它们如果被点击可能会转化的概率。
- 将这些概率作为伪标签,用于半监督学习。
- 引入CTR预测任务,并通过多任务学习增强嵌入层的表示。
- 采用动态任务权重分配机制,以确保平衡和稳定的训练过程。
5. 创新点
- 提出了一种新的半监督学习方法,通过预测非点击样本的转化概率并将其作为伪标签,以解决假阴性样本问题。
- 引入CTR预测任务,并通过多任务学习提高模型的表示能力。
- 设计了动态权重分配机制,以平衡CVR和CTR任务的训练。
6. 算法模型
NISE方法的核心是一个半监督学习框架,它结合了CTR和CVR任务,并使用动态权重分配策略。该方法在整体空间上建模,利用伪标签来处理非点击样本,并利用多任务学习来提高模型性能。
7. 实验效果
- 在两个公共数据集和一个生产数据集上进行了实验,NISE方法在减少FNS挑战和提高CVR估计准确性方面优于五个最先进的基线方法。
- 在Ali-CCP数据集上,NISE方法实现了1.11%的AUC相对增益,在Kuaipure数据集上实现了2.00%的AUC相对增益,在生产数据集上实现了0.70%的AUC增益。
8. 推荐阅读指数
★★★★☆
推荐理由
这篇文章提出了一种创新的半监督学习方法来改进CVR预测,特别是在处理非点击样本时。它不仅解决了样本选择偏差和数据稀疏性问题,还通过引入CTR任务和动态权重分配机制,有效地缓解了假阴性样本问题。这些贡献对于推荐系统领域的研究人员和实践者来说都是非常有价值的。
9. 小结
这篇文章通过引入半监督学习框架和多任务学习策略,有效地解决了推荐系统中的转化率预测问题,特别是在处理非点击样本时,提高了模型的准确性和鲁棒性。
后记
如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术。