四种推荐算法——Embedding+MLP、WideDeep、DeepFM、NeuralCF

news2025/7/8 5:25:10

一、Embedding+MLP模型

Embedding+MLP 主要是由 Embedding 部分和 MLP 部分这两部分组成，使用 Embedding 层是为了将类别型特征转换成 Embedding 向量，MLP 部分是通过多层神经网络拟合优化目标。——用于广告推荐。

Feature层即输入特征层，是模型的input部分，如上图的Feature#1是向上连接到embedding层，而Feature #2是直接连到stacking层。——前者代表类别型特征经过one-hot编码后生成的特征向量——过于稀疏，不适合直接输入网络中进行学习（所以先接入embedding层转为稠密向量）；而后者是数值型特征。
Stacking 层中文名是堆叠层，也叫连接（Concatenate）层作用是把不同的 Embedding 特征和数值型特征拼接在一起，形成新的包含全部特征的特征向量。
MLP 层的作用是让特征向量不同维度之间做充分的交叉，让模型抓取到更多的非线性特征和组合特征的信息，使深度学习模型在表达能力上较传统机器学习模型大为增强。
Scoring 层，它也被称为输出层，为了拟合优化目标。对于CTR 预估这类二分类问题，Scoring 层往往使用的是逻辑回归模型，输出层使用 sigmoid 函数作为激活函数，输出一个介于 0 和 1 之间的概率值；而对于图像分类等多分类问题，Scoring 层往往采用 softmax 模型，使用 softmax 函数作为激活函数，输出每个类别的概率值。

深度学习模型DeepCrossing——一个经典的Embedding+MLP模型结构——微软提出。属于Embedding+MLP模型的进阶，在 Embedding + MLP 的基础上增加了交叉层，以更好地模拟特征之间的高阶交互。

二、Wide&Deep模型——线性模型（Wide）和深度神经网络（Deep）

推荐算法面临一个和搜索排序系统一个类似的挑战——记忆性和泛化性的权衡。

记忆能力：可以被理解为模型直接学习并利用历史数据中物品或者特征的“共现频率”的能力。也可以简单地理解成对商品或者是特征之间成对出现的一种学习，由于用户的历史行为特征是非常强的特征，特征之间的直接线性关联，对于特征间的简单关系很有效。

泛化能力：可以被理解为模型传递特征的相关性，以及发掘稀疏甚至从未出现过的稀有特征与最终标签相关性的能力。对于泛化能力来说，它的主要来源是特征之间的相关性以及传递，捕捉复杂特征组合中的隐形关系、非线性关系。利用特征之间的传递性，就可以探索一些历史数据当中很少出现的特征组合，获得很强的泛化能力。

GooglePlay提出的Wide&Deep是比较经典的一个深度学习模型，它使模型既具有想象力又具有记忆力——线性模型（Wide）使模型既具有记忆力和深度神经网络（Deep）使模型既具有泛化性。

Wide&Deep架构示意图

Wide&Deep模型的工作流程：

特征工程：首先对原始数据进行预处理和特征工程，生成一系列可用于模型训练的特征。
Wide 部分：将一部分特征直接输入到线性模型中，用于捕捉直接的线性关系——通常采用的是逻辑回归或线性回归模型，仅考虑每个特征对目标变量的直接贡献，而不考虑特征之间的交互。每个特征的权重都是独立计算的，不涉及与其他特征的相互作用——可以手动设置简单的二阶特征交叉。
Deep 部分：将另一部分特征输入到深层神经网络中，用于学习特征之间的非线性关系。（本项目中输入全部特征）
联合训练：Wide 和 Deep 两部分的输出会被合并起来，通常是在最后一层通过加权求和的方式进行融合。
输出层：最后的输出层会根据Wide和Deep部分的融合结果生成最终的预测值。

举个简单的例子：电影推荐系统——预测用户是否会喜欢一部电影。

Wide 部分

特征包括：用户的年龄、性别、电影类型、导演等。

这些特征之间可能有直接的关系，比如年轻观众可能更喜欢动作片。

使用Wide部分（例如逻辑回归）来捕捉这些直接关系。

Deep 部分

特征包括：用户的观看历史、评分历史等。

这些特征之间的关系更为复杂，例如用户观看历史中的模式可能是非线性的。

使用Deep部分（例如多层神经网络）来学习这些复杂的模式。

如何工作

输入：用户特征和电影特征作为输入。

Wide 部分：直接使用特征进行线性预测。

Deep 部分：使用神经网络学习特征间的非线性关系。

合并：Wide和Deep的预测结果在最后一层合并。

输出：预测用户是否会喜欢这部电影。

结果

预测：结合了记忆性（Wide部分）和泛化性（Deep部分），可以更准确地预测用户喜好。

优势：能够处理简单和复杂的关系，提高推荐系统的准确性。

三、DeepFM模型

DeepFM是由哈工大和华为公司联合提出的深度学习模型。DeepFM模型包含因子分解机 (FM) 和深度神经网络 (DNN)。

FM 部分：处理了一阶特征（每个特征的独立贡献）和二阶特征交互（特征之间的相互作用）——相对于Wide&Deep中的Wide部分多出二阶特征交互的部分——可以自动捕捉所有的可能的特征二阶交互。——DeepFM用FM替换原来的Wide部分，加强了浅层网络部分特征组合的能力。
Deep 部分：通过 MLP 处理高阶特征交互，这里的高阶交互指的是通过神经网络自动学习得到的复杂特征组合。
合并输出：将 FM 部分的一阶和二阶特征交互与 Deep 部分的高阶特征交互结果合并，得到最终的预测。