Abstract
可以执行任何新任务而无需特定训练的基础模型已经在视觉和语言应用中引发了机器学习的革命。然而,涉及图结构数据的应用仍然是基础模型面临的一个难题,因为每个图都有独特的特征和标签空间。传统的图机器学习模型,如图神经网络(GNNs),在训练时只能处理特定的图,不能对特征和标签空间不同的新图进行推断。此外,现有模型学习的是针对训练图的特定函数,无法泛化到新图中。
在这项工作中,我们通过一种新的基础架构——GraphAny,解决了这两个挑战。
GraphAny 将对新图的推断建模为线性图神经网络(LinearGNN)的分析解决方案,从而解决了第一个挑战。
为了应对第二个挑战,我们为每个节点学习注意力分数,以融合多个 LinearGNN 的预测结果。具体而言,注意力模块被精心参数化为多个 LinearGNN 预测之间的熵归一化距离特征的函数,以确保对新图的泛化。
实证研究表明,GraphAny 在仅使用 120 个标记节点的威斯康星数据集上训练,能够以 67.26% 的平均准确率有效地对 30 个新图进行归纳泛化,超越了在监督模式下训练的 GCN 和 GAT 以及其他归纳基线。
Introduction
基础模型 [1, 39, 40] 在海量数据上预训练,凭借仅需少量示例即可解决任何新任务的能力,已经彻底改变了人工智能的格局 [8, 3]。到目前为止,这种能力主要限于文本或图像等模态。这些模态的一个固有特性是存在一个跨所有任务的共享输入空间(例如,令牌的词汇表或像素块),为学习一个基础模型覆盖广泛任务类别并泛化到新任务提供了自然基础。然而,图数据不具备这种特性。以节点分类任务为例,每个图可能具有其特征和标签空间的独特维度和语义(例如,连续或离散),这阻碍了我们以与上述模态相同的方式开发图基础模型 [26]。
挑战:(1)现有模型学习特定于训练中使用的特征和标签的维度、类型和结构的变换,不能对与训练不同的特征和标签空间进行推断。这需要我们为任意特征和标签空间开发一种新的模型架构。(2)现有模型学习的是针对训练图的特定函数,无法泛化到新图中;这要求一个能够在训练后对任何图进行泛化的归纳函数。
GraphAny,一种新颖的预训练基础模型架构,能够在任何新图上解决节点分类问题。GraphAny 由两个组件组成:一个 LinearGNN 在没有训练步骤的情况下对新特征和标签空间进行推断,以及一个基于熵归一化距离特征的每个节点的注意力向量,确保对新图的泛化。
具体而言, LinearGNN 将节点特征和标签之间的映射建模为非参数化的图卷积,随后是线性层,其参数在封闭形式中确定,无需明确的训练步骤。虽然单个 LinearGNN 模型可能远未达到许多图的最佳效果,但使用多个具有不同图卷积算子的 LinearGNN 模型,并学习一个注意力向量来融合它们的预测结果。
注意力向量被参数化为 LinearGNN 预测之间距离特征的函数,这保证了模型对特征和标签维度的排列不变。为了进一步提高模型的泛化能力,我们提出了熵归一化,将距离特征分布调整为固定熵,从而减少不同标签维度对距离特征的影响。
直观地说,注意力向量学习根据其预测分布选择每个节点的最有效的 LinearGNN 组合,反映其局部结构的统计特性(例如,同质性度量 [25]),并对新图进行泛化。
Contribution:
- 提出了 LinearGNN,这是一种高效的架构,适用于在任何具有任意特征和标签空间的图上进行归纳节点分类。
- 设计了一个归纳注意力模块,用于使用距离特征和熵归一化融合 LinearGNN,这对特征和标签排列不变,对维度变化具有鲁棒性。
- 结合LinearGNN 和归纳注意力模块,GraphAny 在单一数据集上训练后可以对任何图进行泛化,实现了第一个图基础模型用于节点分类。
GraphAny: A Foundation Model for Node Classification
GraphAny包括一个LinearGNN和一个注意力模块。LinearGNN提供了在具有任意特征和标签空间的新图上进行归纳推理的基本解决方案,而注意力模块则学习基于归纳特征组合多个LinearGNN,以实现对新图的泛化。
LinearGNNs for Inductive Inference on Any Graph
Learning Inductive Attention over LinearGNNs