【电商搜索】现代工业级电商搜索技术-中科大-利用半监督学习改进非点击样本的转化率预测

news2026/3/25 19:13:46

【电商搜索】现代工业级电商搜索技术-中科大-利用半监督学习改进非点击样本的转化率预测

0. 论文信息

RecSys24: Utilizing Non-click Samples via Semi-supervised Learning for Conversion Rate Prediction

@inproceedings{huang2024utilizing,
title={Utilizing Non-click Samples via Semi-supervised Learning for Conversion Rate Prediction},
author={Huang, Jiahui and Zhang, Lan and Wang, Junhao and Jiang, Shanyang and Huang, Dongbo and Ding, Cheng and Xu, Lan},
booktitle={Proceedings of the 18th ACM Conference on Recommender Systems},
pages={350–359},
year={2024}
}

在这里插入图片描述
利用半监督学习改进非点击样本的转化率预测

1. 摘要

这篇文章提出了一种新的半监督学习方法，称为非点击样本改进的半监督（NISE）方法，用于提高转化率（CVR）预测的准确性。该方法旨在解决样本选择偏差（SSB）、数据稀疏性（DS）和假阴性样本（FNS）问题，这些问题在推荐系统中进行CVR预测时尤为突出。通过将非点击样本视为未标记样本，并预测它们如果被点击可能会转化的概率，然后将这些概率作为伪标签用于进一步的模型训练。此外，文章还引入了一个辅助的点击通过率（CTR）预测任务，并通过多任务学习来增强嵌入层的表示。通过在多个真实世界数据集上的广泛实验，验证了该方法在减少FNS挑战和提高CVR估计准确性方面的优越性。

2. 研究背景

在推荐系统中，准确预测用户的转化率（CVR）对于匹配推荐项目和用户偏好至关重要。然而，由于样本选择偏差和数据稀疏性，以及假阴性样本问题，这一任务面临挑战。现有的方法通过多任务学习来解决这些问题，但这些方法可能会加剧假阴性样本问题。
在这里插入图片描述

3. 问题与挑战

样本选择偏差（SSB）：传统CVR模型在点击空间训练时，由于未随机选择的暴露但未点击样本，导致在整体空间推断时出现偏差。
数据稀疏性（DS）：与暴露样本相比，点击样本明显稀疏，导致模型难以拟合。
假阴性样本（FNS）问题：由于CVR任务的反事实性质，非点击样本可能被视为负面，但未点击并不一定意味着用户不喜欢这些项目。

4. 如何解决

文章提出了NISE方法，该方法通过以下方式解决上述挑战：

将非点击样本视为未标记，并预测它们如果被点击可能会转化的概率。
将这些概率作为伪标签，用于半监督学习。
引入CTR预测任务，并通过多任务学习增强嵌入层的表示。
采用动态任务权重分配机制，以确保平衡和稳定的训练过程。

5. 创新点

提出了一种新的半监督学习方法，通过预测非点击样本的转化概率并将其作为伪标签，以解决假阴性样本问题。
引入CTR预测任务，并通过多任务学习提高模型的表示能力。
设计了动态权重分配机制，以平衡CVR和CTR任务的训练。

6. 算法模型

NISE方法的核心是一个半监督学习框架，它结合了CTR和CVR任务，并使用动态权重分配策略。该方法在整体空间上建模，利用伪标签来处理非点击样本，并利用多任务学习来提高模型性能。
在这里插入图片描述

7. 实验效果

在两个公共数据集和一个生产数据集上进行了实验，NISE方法在减少FNS挑战和提高CVR估计准确性方面优于五个最先进的基线方法。
在Ali-CCP数据集上，NISE方法实现了1.11%的AUC相对增益，在Kuaipure数据集上实现了2.00%的AUC相对增益，在生产数据集上实现了0.70%的AUC增益。