论文:https://arxiv.org/abs/2303.15720
代码:https://github.com/SS-00-SS/MBCGCN
这篇论文MB-CGCN和上一篇CRGCN是同一个团队的,都是级联的方式。一个用了残差,一个用了特征转换,文章最后有discussion讨论了两者的不同,期刊到会议,改动了一部分。MB-CGCN是引用了CRGCN,CRGCN的帖子:TOIS23-多行为级联|用于多行为推荐的级联残差图卷积网-CSDN博客
1 动机
首先再次说一下CRGCN的动机:
1 挖掘行为之间的关联和顺序依赖:大多数现有方法主要是将不同类型的行为独立地建模,然后再将这些独立的表示进行融合,忽视了不同行为之间存在的内在关联和顺序依赖。例如,用户的“浏览”行为通常会引导到“点击”行为,而“点击”行为又可能进一步引导到“加入购物车”或“购买”行为。这种行为序列中的依赖关系和信息传递对于准确捕捉用户偏好具有重要意义。然而,现有方法未能在嵌入学习过程中充分利用这些行为间的关联信息,导致用户偏好建模不够全面。
2 模型复杂度较高:为了提高推荐准确性,现有的多行为推荐模型通常引入了复杂的模型结构和更多的参数。例如,使用多层神经网络、注意力机制等高级技术来分别处理不同类型的行为数据。不仅增加了模型的空间和时间复杂度,还导致训练过程更加耗时和资源密集。在实际应用中,推荐系统的效率同样至关重要,一个既能保持高推荐准确性又具备低复杂性和高效率的模型更具应用价值。
那么在此基础上,MB-CGCN:
1:考虑到直接使用输出嵌入作为下一个 GCN 的输入嵌入可能会注入噪声或误导性信息来误导学习过程。
2:考虑到在真实场景中,用户可能会直接跳转一两个行为到最终行为。
2 贡献
-
提出了具有级联图卷积网络的多行为推荐模型(MB-CGCN),由一系列 GCN 块组成,每个块对应于行为链中的一个行为( LightGCN)。
-
不同的是:考虑到噪声问题,设计了特征转换来在传递之前处理嵌入,显式地利用链中的行为依赖关系来直接促进后续行为中的嵌入学习。 最后,从不同行为中学习到的嵌入被聚合以用于最终的行为预测。MB-CGCN 在优化时没有采用多任务学习。 它仅使用目标行为作为监督信号,专注于优化目标行为的预测性能,使得嵌入向量更有效地反映用户对物品的最终偏好。
3 MB-CGCN
模型上来看,还是相似的,去除了残差连接以及多任务。
3.1 嵌入初始化
将离散的用户和物品ID转换为连续的向量表示的过程。这些嵌入向量将作为后续模型学习的基础。
𝑷 ∈ R𝑀×𝑑 和 𝑸 ∈ R𝑁×𝑑 为用户和项目嵌入初始化的嵌入矩阵,其中 𝑀 和 𝑁 分别表示用户和项目的数量; 𝑑 表示嵌入大小,嵌入矩阵 𝑷 和 𝑸 是模型中唯一可学习的参数。
3.2 级联GCN
从各个单一行为中提取用户偏好,并捕捉不同行为之间的级联关系,以全面学习用户偏好。将初始化的用户和物品嵌入作为基本特征,通过利用每种行为学习到的行为特征,逐步细化和优化嵌入表示。
3.2.1 单行为建模
使用lightgcn进行迭代聚合,更新单行为下的用户和项目的嵌入:
最终的嵌入聚合:
3.2.2 特征转换(不同的地方,没用残差)
交互中所有不同类型的行为都或多或少地揭示了用户的偏好。 在行为链中,后一个行为通常比前一个行为表现出更强的信号或更准确的用户偏好。 然而,直接使用前一个行为的特征作为初始化嵌入可以被视为使用后一个行为对嵌入的细化,这可能会丢失不同行为传达的多样化信息。 另一方面,前一个行为中的噪声信息可能会对后一个行为的学习过程产生严重的负面影响。因此使用特征转换以在下一个行为之前处理学习到的嵌入:
𝑾表示转换向量,特征转换可以有效地提取有用的特征,以促进下一个行为的嵌入学习。(实验分析有证明)
3.2 多行为聚合
将从所有行为中学习到的嵌入进行聚合以进行预测。 这项工作的主要重点是研究按一定顺序利用多种行为的依赖结构进行推荐的潜力:
3.3 预测与训练:
采用成对学习策略进行模型优化:
4 讨论
MB-CGCN 与 CRGCN 在如何将嵌入从一个行为传递到下一个行为上有根本的不同。 CRGCN 精心设计了一个残差连接,以保留先前的行为特征作为下一个行为网络的初始化嵌入。 通过这种方式,它通过链中的所有行为逐渐细化用户和项目嵌入来学习用户和项目嵌入。 从最后的行为中学到的嵌入直接用于预测。 因此,从早期行为(例如点击)中学习到的嵌入质量对最终性能有很大影响。 由于早期的行为不是确定性的并且通常是有噪声的,因此在此类行为中使用高阶传播进行嵌入学习不可避免地会给嵌入带来更多的噪声。 这也解释了为什么CRGCN在辅助行为中只使用一层传播(gcn层数为1)。 相反,MB-CGCN采用特征转换来提取有用信息,用于下一个行为的嵌入学习。
实验分析:为了评估特征聚合的实用性,将 CRGCN 与实验中的两个变体进行比较:
• w/o agg.:该变体删除了MB-CGCN中的特征聚合模块。 这意味着从最后一个 GCN 块学习到的嵌入直接用于目标预测。
• w/o concat.:此变体用串联操作替换聚合。 具体来说,将从每个行为中学习到的用户和项目嵌入连接在一起以进行目标预测。
通过特征转换,当将从第一个行为学习到的嵌入传递到目标行为时,从辅助行为学习到的一些特征将被过滤。 它还将鼓励模型从每种行为中学习不同的特征。 因此,为了充分利用多种行为,CRGCN考虑所有行为特征非常重要。 为了简单起见,在实验中仅比较线性组合(w. agg)和嵌入串联(w. concat.)。 根据经验,W. agg 的性能比 w 好得多。 concat. 还可以应用更复杂的融合方法(例如注意力网络),这将在未来的研究中进行探索。
5总结
也是级联的方法,期刊到会议,改了残差以及模型训练的部分。因为作者设计的模型是降低复杂度的,所以没用什么其他的方法,整个模型很简洁所以也改不了什么东西。我认为还是有很多地方值得去改进的。