推荐系统学习笔记-deep crossing

news2025/7/9 2:53:24

由来

2016年由微软提出，完整的解决了特征工程、稀疏向量稠密化，多层神经网络进行优化目标拟合等一系列深度学习在推荐系统的应用问题。这个模型涉及到的技术比较基础，在传统神经网络的基础上加入了embedding，残差连接等思想，且结构比较简单。
DeepCrossing模型应用场景是微软搜索引擎Bing中的搜索广告推荐，用户在输入搜索词之后，搜索引擎除了返回相关结果，还返回与搜索词相关的广告，Deep Crossing的优化目标就是预测对于某一广告，用户是否会点击，依然是点击率预测的一个问题。

要解决的问题

离散类(类别)特征编码后过于稀疏，不利于直接输入神经网络训练，需要解决稀疏特征向量稠密化的问题
如何解决特征自动交叉组合的问题
如何在输出层中达成问题设定的优化目标

模型结构

在这里插入图片描述

Embedding层

本层主要作用是降维。使用的是一个单层神经网路，具有如下形式

在这里插入图片描述

针对每个类别的特征都有一个Embedding操作，但是如果由于高维基数特征太大了，对于目标相关部分排序较低的进行衍生构造。也能降低Embedding部分的参数数量提高训练速度例如，CampaignID十分巨大，但对于点击率排序后10000以外的使用衍生特征来处理，最后一个编号为10000，且添加衍生为将所有ID对应的历史点击率组合成10001维的稠密矩阵，各个元素分别为对应ID的历史CTR，最后一个元素为剩余ID的平均CTR。通过降维引入衍生特征的方式，可以有效的减少高基数特征带来的参数量剧增问题。

其中，每个特征的维度压缩到256维，如果小于256维则直接连接到Stacking层。

Stacking层

主要是将Embedding部分的各个特征的向量进行拼接，小于256维度或者数值型特征不需要Embedding的直接拼接
得到

在这里插入图片描述

的拼接向量。

Residual Layers

首先是残差单元结构为：

在这里插入图片描述
这个残差模块与ResNet的不同是没有使用卷积操作，而是ReLu与线性部分的前向传播加（element-wise add）上输入再经过ReLu得到输出。

作者通过各种类型各种大小的实验发现，DeepCrossing具有很好的鲁棒性，推测可能是因为残差结构能起到类似于正则的效果，残差结构能更敏感的捕获输入输出之间的信息差，引入特征的交叉和非线性。