图表示学习中的Transformer：Graphormer的突破

news2026/2/13 21:30:14

人工智能咨询培训老师叶梓转载标明出处

在自然语言处理和计算机视觉等领域，Transformer架构已经成为主导选择。然而，在图级别的预测任务中，它的表现并不如主流的图神经网络（GNN）变体。这一现象引发了一个思考：Transformer是否适合图表示学习，以及如何使其在图表示学习中发挥作用。来自大连理工大学、普林斯顿大学、北京大学和微软亚洲研究院的研究人员共同提出了一种名为Graphormer的新型架构，该架构基于标准的Transformer架构，并在多个图表示学习任务上取得了优异的结果。

Graphormer的核心观点是，要有效地利用Transformer进行图表示学习，关键在于如何有效地将图的结构信息编码到模型中。为此提出了几种简单但有效的结构编码方法，帮助Graphormer更好地模拟图结构数据。

方法

图1为Graphormer模型中的三种关键结构编码方法：中心性编码、空间编码和边编码的视觉表示。这些编码方式共同作用，使得Graphormer能够有效地利用图数据的结构信息。

中心性编码

中心性编码是Graphormer的一个关键特性，它通过考虑节点的入度和出度来捕捉节点在图中的重要性。这种编码方式允许模型在计算注意力时同时考虑节点的语义相关性和节点的重要性。如图1所示，中心性编码可以被视为节点特征的直接扩展。

其中，是可学习的嵌入向量，分别由节点的入度和出度决定。这种编码方式使得模型能够更好地理解图中节点的重要性。

空间编码

空间编码利用了Transformer的全局接受域优势，通过定义一个函数φ来衡量节点对之间的空间关系。这个函数基于节点之间的最短路径距离，为自注意力模块提供了一个可学习的偏置项。

这种编码方式允许模型根据图的结构信息自适应地调整注意力分布，从而更好地捕捉图中的空间依赖性。

边编码

边编码是Graphormer的另一个创新点，它通过考虑连接节点对的边的特征来增强注意力机制。这种方法通过计算边特征和可学习嵌入的点积的平均值，将边特征作为注意力模块的偏置项纳入模型。

其中，c_ij 是通过边特征和可学习嵌入的点积的平均值计算得到的，这使得模型能够更全面地利用边信息。

Graphormer层是基于经典的Transformer编码器实现的，它在多头自注意力（MHA）和前馈块（FFN）之前应用层归一化（LN），而不是之后。这种修改已被证明可以更有效地优化模型。

Graphormer引入了一个特殊节点[VNode]，它与图中的每个节点单独连接，使得模型能够更好地捕捉整个图的全局信息。

Graphormer不仅能够表示流行的GNN模型（如GIN、GCN、GraphSAGE）中的AGGREGATE和COMBINE步骤，而且通过使用空间编码，Graphormer能够超越经典的信息传递GNNs，其表达能力不亚于1-Weisfeiler-Lehman (WL)测试。

另外Graphormer还发现使用自注意力和虚拟节点启发式之间存在有趣的联系。自注意力能够自然地完成图级别的聚合和传播操作，而无需额外的编码，这使得Graphormer在不遇到过度平滑问题的情况下，实现了可扩展的改进。

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。实战专家1小时讲解让您轻松上手，学习如何使用 Llama Factory 微调模型。

评论留言“参加”或扫描微信备注“参加”，即可参加线上直播分享，叶老师亲自指导，互动沟通，全面掌握Llama Factory。关注享粉丝福利，限时免费录播讲解。