阿里EGES

news2025/4/17 21:36:37

EGES：Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba

阿里的EGES是Graph Embedding的一个经典应用，在内容冷启和物料召回上面有较多的落地潜力。主要思想是根据用户交互的物料作为节点构建物料图，在传统的DeepWalk学习节点Embedding的基础上，使用attention融合节点的side information，使得学习到的物料Embedding包含更丰富、精准的信息。

动机

为了解决淘宝推荐的三大挑战：

Scalability 扩展性，淘宝有十亿量级的用户和二十亿量级的物料
Sparsity 稀疏性，很多用户有交互的物料非常少，用户或者物料很难学习的充分
Cold Start 冷启动问题，每小时有上百万的新物料上线，新物料的推荐是个很大的问题

优化目标

给定图 $G = (V, E)$ ， $V$ 表示节点集合， $E$ 表示边集合，目标是学习一个映射函数 $\Phi : V \rightarrow R^d$ ，使得每个节点 $\in V$ 映射成一个 $d$ 维向量。

使用DeepWalk方式学习Graph Embedding，DeepWalk使用Word2vec来学习图的节点表示。应用Skip-gram来优化，表示如下。
$\min_{\Phi} = \sum_v \sum_{c \in N(v)} Pr(c \vert \Phi(v))$

构建图

构建有向图，采样节点序列。需要做清洗：点击后停留不超过1s的行为去掉；3个月内购买超过1000个物料或者超过3500个点击的用户去掉；对于物料ID不变但是内容有更新的物料去掉。
在这里插入图片描述
随机游走的节点转移概率定义如下， $M$ 表示节点的邻接矩阵， $M_{ij}$ 表示节点 $i$ 到节点 $j$ 的权重，节点的权重定位为相邻节点 $i$ 跳转到节点 $j$ 的频率。
$P(v_j|v_i)= \begin{cases} \frac {M_{ij}} {\sum_{j \in N_+(v_i) M_{ij}}} & \text v_j \in N_+(v_i)\\ 0& \text e_{ij} \notin E \end{cases}$
然后应用优化目标
$\ v i ∣ Φ ( v i ) ) \min_{\Phi} = - \log Pr( (v_{i-w}, ..., v_{i+w} ) \backslash v_i \vert \Phi (v_i))$
其中 $w$ 是窗口大小，使用节点独立性假设
$\ v i ∣ Φ ( v i ) ) = ∏ j = i − w , j ≠ i i + w P r ( v j ∣ Φ ( v i ) ) Pr( (v_{i-w}, ..., v_{i+w} ) \backslash v_i \vert \Phi (v_i)) = \prod_{j=i-w,j \neq i}^{i+w} Pr(v_j \vert \Phi (v_i))$
基于负采样方法， $N(v_i)'$ 表示节点 $v_i$ 的负采样，可以得到优化目标的详细形式
$\min_{\Phi} = \log \sigma (\Phi(v_i)^T \Phi(v_j) ) + \sum_{t \in N(v_i)'} \log \sigma (- \Phi(v_t) \Phi(v_i))$

GES:Graph Embedding with Side Information

除了物料ID之外，还可以加入其他的物料信息，比如物料一级类目、二级类目、所属商家、所属店铺等信息， $W$ 表示物料ID的Embedding矩阵，其中 $W_v^0$ 表示物料节点 $v$ 的ID的Embedding， $W_v^s$ 表示第 $s$ 个sideinfo, $H_v$ 表示融合之后的Embedding
$H_v = \frac {1} {n+1} \sum_{s = 0}^n W_v^s$

EGES:Enhanced Graph Embedding with Side Information

上面各个sideinfo融合的时候权重是一样的，实际情况肯定是不同的sideinfo权重不一样，设置不同的权重更符合事实。设置一个权重矩阵 $\in R^{|V| \times (n+1)}$ 表示各个节点在各个sideinfo上面的权重，融合后的Embedding为
$H_v = \frac {\sum_{j=0}^n e^{a_v^j} W_v^j } { \sum_{j=0}^n e^{a_v^j} }$

学习算法

节点 $v$ 的Embedding是 $H_v$ ，节点 $v$ 的一个邻居节点的Embedding表示为 $Z_u \in R^d$ ，label为 $y$ ，那么代入上面的优化目标，可以得到

$\log (\sigma (H_v^TZ_u)) + (1-y) \log (1 - \sigma(H_v^TZ_u) ) ]$
梯度求解如下
在这里插入图片描述
算法步骤

实验结果

在这里插入图片描述

DeepWalk相关

EGES使用了DeepWalk作为Graph节点Embedding的学习，这里简要回顾下DeepWalk。

DeepWalk优缺点：

优点：
首个将自然语言处理和深度学习应用到图机器学习中
稀疏数据场景性能很好

缺点：
随机均匀游走
需要大量随机游走序列
学到的是局部信息，很难学到全局信息
仅利用到节点的连接信息，没有利用节点的属性
使用的是word2vec，网络层级不深

DeepWalk的主要思想是将图中节点进行采样得到一系列节点序列，将这些节点序列看做句子，节点看做词汇，套用自然语言处理处理领域的word2vec对节点进行无监督编码处理，得到节点Embedding。使得在图结构中比较接近的节点的Embedding在向量空间中也比较接近。

如下图所示，图中比较接近的点编码后的Embedding（二维，d=2）在向量空间上也是比较接近。
在这里插入图片描述

为什么可以套用Word2vec

因为自然语言处理中，句子中的词汇的分布是幂律分布，少量的词大量使用，有大量的长尾词汇。而一个现实的图中，也是少量的节点有大量的连接（度），大部分节点的度比较少，二八定律也非常明显，因此随机采样的节点序列也是符合幂律分布的，因此可以套用。
在这里插入图片描述

使用skip-gram算法，用中心词预测周围词， $w$ 表示窗口大小
$\ v i ∣ Φ ( v i ) ) \min_{\Phi} = - \log Pr( (v_{i-w}, ..., v_{i+w} ) \backslash v_i \vert \Phi (v_i))$

DeepWalk算法步骤

设定好窗口大小 $w$ ，Embedding大小 $d$ ，每个节点随机游走的次数 $\gamma$ ，游走的序列长度 $t$
在这里插入图片描述

在这里插入图片描述

实验结果

因为是无监督产生的Embedding结果，实验评估的时候讲这些Embedding作为中间结果来做多分类，计算F1值，可以看到标注的label比例越大，DeepWalk效果越好。
在这里插入图片描述

节点的游走次数 $\gamma$ 对效果的影响，大概在 $\gamma > 10$ 之后效果增长缓慢。