论文链接：https://arxiv.org/pdf/2103.00111.pdf

摘要

1 引言

2 定义和符号（notation）

2.1 术语定义

2.2 符号

3 框架和分类

3.1 图自监督学习的统一框架和数学公式

3.2 图自监督学习的分类

3.3自我监督训练计划的分类

3.4 下游任务分类

4 基于生成的方法

4.1 特征生成

4.2 结构生成

5 基于属性的辅助方法

5.1 辅助属性分类

5.1.1 基于聚类的方法

5.1.2 基于成对关系的方法

5.2 辅助属性回归

6 基于对比的方法

6.1 图增强

6.1.1 属性增强

6.1.2 拓扑增强

6.1.3 混合增强

6.2 图对比学习

6.2.1 同尺度对比

6.2.2跨尺度对比

6.3 互信息估计

6.3.1 JS估计器

6.3.2 噪声对比估计器

6.3.3 三元组损失

6.3.4 BYOL Loss

6.3.5 Barlow Twins Loss

8 实证研究

9 实际应用

11 结论

摘要

背景介绍：

图的深度学习最近引起了人们的极大兴趣。然而，大多数工作都集中在（半）监督学习上，导致了标签依赖严重、泛化能力差和鲁棒性弱等缺点。为了解决这些问题，自监督学习 (SSL) 通过精心设计的代理任务提取信息知识而不依赖手动标签，已成为图数据的一种有前途和趋势的学习范例。

与计算机视觉和自然语言处理等其他领域的SSL不同，图SSL具有独特的背景、设计思想和分类法。

本文内容概括：

在图自监督学习的框架下，我们对现有的将 SSL 技术用于图数据的方法进行了及时和全面的回顾。

我们构建了一个统一的框架，该框架在数学上形式化了图形 SSL 的范例。

根据代理任务的目标，我们将这些方法分为四类：基于生成的方法、基于辅助属性的方法、基于对比的方法和混合方法。

我们进一步描述了图 SSL 在各个研究领域的应用，并总结了图 SSL 的常用数据集、评估基准、性能比较和开源代码。最后，我们讨论了该研究领域的剩余挑战和潜在的未来方向。

关键词：自监督学习、图分析、深度学习、图表示学习、图神经网络

1 引言

近年来，图的深度学习 [1]、[2]、[3]、[4] 在人工智能研究社区中变得越来越流行，因为图结构数据在许多领域无处不在，包括电子商务[5]、交通[6]、化学[7]、知识库[8]。大多数关于图的深度学习研究都侧重于（半）监督学习场景，其中利用特定的下游任务（例如，节点分类）来训练具有良好注释的手动标签的模型。

有监督学习缺点：

尽管这些研究取得了成功，但对标签的严重依赖带来了一些缺点。

首先，手动标签的收集和注释成本过高，特别是对于具有大规模数据集（例如，引文和社交网络 [9]）或对领域知识有需求的研究领域（例如，化学和医学 [10] ]).

其次，由于过度拟合问题，纯监督学习场景通常会出现泛化能力差的问题，尤其是在训练数据稀缺的情况下 [11]。

第三，有监督的图深度学习模型容易受到标签相关的对抗性攻击（adversarial attacks），导致图有监督学习的鲁棒性较弱[12]。

自监督学习特点：

为了解决(半)监督学习的缺点，自监督学习(SSL)提供了一种有前途的学习范式，减少了对手工标签的依赖。在 SSL 中，模型是通过解决一系列手工辅助任务（所谓的代理任务）来学习的，其中监督信号是从数据本身自动获取的，无需手动注释。

在精心设计的代理任务的帮助下，SSL 使模型能够从未标记的数据中学习更多信息表示，以实现更好的性能 [13]、[14]、泛化 [9]、[15]、[16] 和鲁棒性 [17] ], [18] 关于各种下游任务。

CV和NLP中的自监督学习模型：

SSL 被图灵奖获得者 Yoshua Bengio 和 Yann LeCun 描述为“人类智能的关键”，最近在计算机视觉（CV）和自然语言处理（NLP）领域取得了巨大成功。早期 CV 领域的 SSL 方法为视觉表示学习[19]设计了各种与语义相关的代理任务，例如图像修复[20]（image inpainting）、图像着色[21](image colorizing)和拼图游戏[22](jigsaw puzzle)等。最近，自我监督的对比学习框架（例如，MoCo [23]、SimCLR [24] 和 BYOL [25]）利用图像转换下语义的不变性来学习视觉特征。在 NLP 领域，早期的词嵌入方法 [26]、[27] 与从数据本身学习的 SSL 具有相同的思想。通过语言代理任务进行预训练，最近的大规模语言模型（例如 BERT [28] 和 XLNet [29]）在多个 NLP 任务上实现了最先进的性能。

图自监督学习挑战：

随着 SSL 在 CV 和 NLP 上的巨大成功，最近，人们越来越关注将 SSL 应用于图结构数据。然而，将为 CV/NLP 设计的代理任务转移到图形数据分析中并非易事。

主要挑战是图形位于不规则的非欧几里德数据空间中。与图像/语言数据所在的二维/一维规则网格欧几里德空间相比，非欧几里得空间更通用但更复杂。因此，一些网格结构数据的代理任务不能直接映射到图数据。

此外，图数据中的数据样例(节点)与拓扑结构自然相关，而CV(图像)和NLP(文本)中的数据样例往往是独立的。因此，如何在图SSL中处理这种依赖关系成为代理任务设计的一个挑战。

图 1 用一些示例说明了这种差异。考虑到图分析中 SSL 与其他研究领域的显着差异，图 SSL 需要专门的定义和分类法（exclusive definitions and taxonomies）。

(CV、NLP 和图形分析中不同 SSL 代理任务的玩具示例。在生成任务中，图 SSL 需要考虑不规则网格中的拓扑结构以及节点特征，而 CV/NLP 中的 SSL 只需要恢复 2D/1D 网格空间中的信息。在对比任务中，节点之间的依赖关系在图 SSL 中是不可忽略的，而 CV/NLP 中的样本是独立的。)

图自监督学习的历史：

图 SSL 的历史至少可以追溯到无监督图嵌入 [30]、[31] 的早期研究。这些方法通过最大化截断随机游走中上下文节点之间的一致性来学习节点表示。一种经典的无监督学习模型，图自动编码器（GAE）[32]，也可以看作是一种学习重构图结构的图 SSL 方法。自 2019 年以来，最近的图 SSL 浪潮带来了各种代理任务的设计，从对比学习 [13]、[33] 到图属性挖掘 [10]、[17]。

考虑到图 SSL 研究的增加趋势和相关代理任务的多样性，迫切需要构建一个统一的框架和系统的分类法来总结图 SSL 的方法和应用。

本文贡献：

为了填补这一空白，本文对快速增长的图 SSL 领域进行了全面和最新的概述，并提供了丰富的资源和相关应用的讨论。

本文的目标读者是希望了解图形数据自监督学习的一般机器学习研究人员、希望跟踪图形神经网络 (GNN) 最新进展的图形学习研究人员，以及希望了解图形数据的领域专家。想将图形 SSL 方法推广到新的应用程序或其他领域。本次调查的核心贡献总结如下：

统一的框架和系统的分类法。我们提出了一个统一的框架，可以在数学上形式化图形 SSL 方法。基于我们的框架，我们系统地将现有的作品分为四组:基于生成的、基于辅助属性的、基于对比的和混合方法。我们还构建了下游任务和SSL学习方案的分类法。

全面和最新的审查。我们对经典和最新的图形 SSL 方法进行全面及时的审查。对于每种类型的图 SSL 方法，我们提供细粒度分类、数学描述、详细比较和高级总结。

丰富的资源和应用。我们在图 SSL 上收集了丰富的资源，包括数据集、评估基准、性能比较和开源代码。我们还总结了图 SSL 在各个研究领域的实际应用。

展望未来方向。我们指出了当前研究的技术局限性。我们进一步从不同的角度为未来的工作提出了六个有希望的方向。

与其他SSL类型综述对比：

与相关调查文章的比较。现有的一些调查主要从通用 SSL [34]、用于 CV 的 SSL [19] 或自监督对比学习 [35] 的角度进行审查，而本文仅关注用于图结构数据的 SSL。与最近关于图自监督学习 [36]、[37] 的调查相比，我们的调查对该主题有更全面的概述，并提供了以下差异：（1）统一的编码器-解码器框架来定义图 SSL ; (2) 从数学角度出发的系统的、更细粒度的分类法； (3) 更新的评论； (4) 更详细的资源总结，包括性能比较、数据集、实现和实际应用； (5) 对挑战和未来方向进行更具前瞻性的讨论。

本文的其余部分组织如下：

第 2 节定义了相关概念并提供了其余部分中使用的符号。第 3 节描述了图形 SSL 的框架，并从多个角度提供了分类。第 4-7 节分别回顾了四类图 SSL 方法。第 8 节总结了图 SSL 实证研究的有用资源，包括性能比较、数据集和开源实现。第 9 节调查了各个领域的实际应用。第 10 节分析了剩余的挑战和未来可能的方向。第 11 节最后总结了本文。

2 定义和符号（notation）

在本节中，我们概述了图形 SSL 的相关术语定义，列出了常用的符号，并定义了图形相关的概念。

2.1 术语定义

在图形 SSL 中，我们提供了以下相关基本概念的定义。

手动标签与伪标签(Pseudo Labels):手工标签，也就是某些论文中的人工标注标签[19] ，指的是人工专家或工作人员手工标注的标签。相反，伪标签是指机器可以在没有任何人类知识的情况下自动从数据中获取的标签。一般来说，伪标签需要比人工标签更低的获取成本，因此在人工标签难以获取或数据量庞大时具有优势。在自监督学习设置中，可以设计特定方法来生成伪标签，增强表示学习。

下游任务与代理任务。下游任务是用于评估不同模型学习的特征表示的质量或性能的图分析任务。典型应用包括节点分类和图分类。 Pretext tasks 指的是模型要解决的预先设计的任务（例如，图形重建），这有助于模型从未标记的数据中学习更广义的表示，从而通过提供更好的初始化或更多信息来使下游任务受益有效的正则化。一般来说，解决下游任务需要人工标签，而代理任务通常是用伪标签学习的。

监督学习、无监督学习和自监督学习。监督学习是指利用定义明确的手动标签来训练机器学习模型的学习范式。相反，无监督学习是指不使用任何人工标签的学习范式。作为无监督学习的一个子集，自监督学习表示监督信号从数据本身生成的学习范式。在自监督学习方法中，模型使用前置任务进行训练，以获得更好的性能和对下游任务的泛化。

2.2 符号

我们提供了本文中使用的重要符号（在附录 B.1 中进行了总结）以及本小节中不同类型的图和 GNN 的定义。

定义 1（普通图）。普通图（普通图是无属性的、静态的、齐次的图。）表示为 G = (V, E)，其中 $V = \{v_1, . . . , v_n\} (|V| = n)$ 是节点集，E (|E| = m) 是边集，自然有 E ⊆ V × V。节点 $v_i$ 的邻域表示为 $N (v_i) = \{v_j \in V|e_{i,j} \in E\}$ 。图的拓扑表示为邻接矩阵 $A \in R^{n*n}$ ，其中 Ai,j = 1 表示 ei,j ∈ E，Ai,j = 0 表示 ei,j 不属于 E。

定义 2（属性图）。属性图是指节点和/边与它们自己的特征（也称为属性）相关联的图。节点和边的特征矩阵分别表示为 $X_{node} \in R^{n*d_{node}}$ 和 $X_{edge} \in R^{m*d_{edge}}$ 。在更常见的只有节点具有特征的场景中，我们使用 $X \in R^{n*d}$ 简称为节点特征矩阵，并将属性图表示为G =（V，E，X）。

还有一些动态图和异构图，其定义在附录 B.2 中给出。

大多数回顾的方法利用gnn作为骨干编码器，通过利用丰富的底层节点连通性，即邻接矩阵A，将输入原始节点特征X转换为紧凑的节点表示H，并具有可学习的参数。

此外，Readout 函数 R(·) （它可以是简单的置换不变函数，如求和或复杂的池化算法，如DiffPool [131] 和HaarPool [132]）通常用于从节点级表示 H 生成图级表示 $h_G$ 。附录 B.3 介绍了 GNN 和Readout函数的公式。此外，在附录 B.4 中，我们制定了本次调查中常用的损失函数。

3 框架和分类

在本节中，我们提供了图 SSL 的统一框架，并从不同的角度进一步对其进行分类，包括代理任务、下游任务以及两者的结合（即自监督训练方案）。

3.1 图自监督学习的统一框架和数学公式

我们构建了一个编码器-解码器框架来形式化图形 SSL。编码器 $f_\theta$ （由 θ 参数化）旨在为图 G 中的每个节点 vi 学习低维表示（也称为嵌入）hi ∈ H。一般来说，编码器 $f_\theta$ 可以是 GNN [13]、[33]、[38] ] 或其他类型的图学习神经网络 [30]、[31]、[39]。

代理任务：

代理解码器 $p_\varphi$ （由 φ 参数化）将 H 作为代理任务的输入。 $p_\varphi$ 的架构取决于特定的下游任务。

在这个框架下，graph SSL可以表述为：

其中 D 表示在未标记的图 G 中满足 (V, E) ∼ D 的图数据分布，Lssl 是 SSL 损失函数，它根据特定的代理任务对代理解码器的输出进行正则化。

下有任务：

通过利用经过训练的图形编码器 $f_{\theta ^*}$ ，生成的表示可以用于各种下游任务。这里我们引入一个下游解码器 $q_{\psi }$ （由 ψ 参数化），并将下游任务制定为图监督学习任务：

其中 y 表示下游任务标签，Lsup 是为下游任务训练模型的监督损失。

在下面的小节中，我们在 3.2 节中指定了基于等式（1）的四种图 SSL 变体，在 3.3 节中通过不同地组合等式（1）和（2）指定了三种图自监督训练方案，以及三种基于下游任务的类型根据第 3.4 节中的等式 (2)。

3.2 图自监督学习的分类

通过利用代理解码器和目标函数的不同设计，Graph SSL 在概念上可以分为四种类型，包括基于生成的、基于辅助属性的、基于对比的和混合方法。

下面简要讨论这些方法的分类，如图 2 所示，图 3 给出了每种方法的概念图。

（a. 基于生成的图形 SSL 方法。模型输入由（可选）图形扰动生成。在代理任务中，生成解码器试图从表示 H 中恢复原始图，具有旨在最小化重建图和原始图之间的差异的损失函数。）

（b. 辅助基于属性的图形 SSL 方法。辅助属性是从图形中自由提取的。基于分类或回归的解码器旨在预测在 CE/MSE 损失训练下提取的属性）

（c. 基于对比的图形 SSL 方法。从原始图构建了两个不同的增强视图。然后，通过最大化两个视图之间的 MI 来训练模型。具有（可选）投影的 MI 估计器通常用作代理解码器和 SSL 损失。）

（d. 混合图 SSL 方法。多个代理任务旨在以多任务学习的方式一起训练模型。）

基于生成的方法：

从特征和结构两个角度将代理任务形成为图数据重建。具体来说，他们专注于节点/边缘特征或/和图形邻接重建。在这种情况下，等式（1）可以进一步推导为：

其中 $f_{\theta }(\cdot )$ 和 $p_\phi (\cdot )$ 是图形编码器和代理解码器。

$\widetilde{G}$ 表示具有扰动节点/边特征或/和邻接矩阵的图数据。对于大多数基于生成的方法，通常定义自监督目标函数 Lssl 来衡量重建图数据与原始图数据之间的差异。代表性方法之一是 GAE [32]，它通过重建图邻接矩阵来学习嵌入.

基于属性的辅助方法

通过利用一组更大的属性和拓扑图属性来丰富监督信号。特别是，对于不同的精心制作的辅助属性，我们进一步将这些方法分为两类：基于回归和基于分类。形式上，它们可以表述为：

其中 c 表示特定制作的辅助属性。对于基于回归的方法，c 可以是局部或全局图形属性，例如节点度或到 G 中集群的距离。

另一方面，对于基于分类的方法，辅助属性通常构造为伪标签，例如图分区或聚类索引。

关于目标函数，Lssl 可以是基于回归的均方误差 (MSE) 和基于分类的方法的交叉熵 (CE) 损失。作为一项开创性工作，M3S [40] 使用节点聚类来构建提供监督信号的伪标签。

基于对比的方法

通常是基于互信息 (MI) 最大化的概念开发的，其中同一对象（例如，节点、子图和图）的增强实例之间的估计 MI 被最大化。对于基于对比的图 SSL，等式（1）重新表述为：

其中 ̃G(1) 和 ̃G(2) 是 G 的两个不同的增强实例。在这些方法中，代理解码器 $p_\phi$ 表示估计两个实例（例如，双线性函数或点积）之间的一致性的鉴别器，以及 Lssl表示对比损失。

通过组合它们并优化Lssl，假装任务旨在估计和最大化正样本对之间的MI(例如，同一对象的增强实例)，最小化负样本之间的MI(例如，来自不同对象的实例)，这隐含地包含在Lssl中。

代表性工作包括跨尺度方法（例如，DGI [13]）和同尺度方法（例如，GraphCL [38] 和 GCC [15]）。

混合方法

利用以前的类别，由多个代理解码器和/或训练目标组成。我们根据等式（3）至（5）中的公式，将此方法分支制定为两个或多个图 SSL 方案的加权或未加权组合。 GMI[41]联合考虑边缘级重建和节点级对比，是一种典型的混合方法。

讨论

不同的图形 SSL 方法具有不同的属性。基于生成的方法易于实现，因为重建任务易于构建，但有时恢复输入数据对于大规模图形来说会消耗内存。辅助的基于属性的方法享有解码器和损失函数的简单设计；然而，有用的辅助属性的选择通常需要领域知识。与其他类别相比，基于对比的方法具有更灵活的设计和更广泛的应用。然而，对比框架、增强策略和损失函数的设计通常依赖于耗时的经验实验。混合方法受益于多个代理任务，但主要的挑战是如何设计一个联合学习框架来平衡各个组成部分。

3.3自我监督训练计划的分类

根据图编码器、自监督代理任务和下游任务之间的关系，我们研究了三种图自监督训练方案：预训练和微调（PF）、联合学习（JL）和无监督表示学习 (URL)。图 4 给出了它们的简要流程。

（预训练和微调（PF）。首先，编码器以无监督的方式使用代理任务进行预训练。然后，预训练参数被用作微调阶段的初始参数，编码器由下游任务独立训练。）

（联合学习（JL）。该模型以多任务学习方式使用代理和下游任务进行训练。）

（无监督表示学习 (URL)。它首先用代理任务训练编码器，并在第 2 阶段使用固定表示来学习下游解码器。）

预训练和微调（PF）。在 PF 方案中，编码器 $f_{\theta }$ 首先在预训练数据集上使用代理任务进行预训练，这可以看作是编码器参数的初始化。之后，预训练编码器 $f_{\theta _{init}}$ 在微调数据集（带有标签）上与下游解码器 $q_{\psi }$ 在特定下游任务的监督下一起微调。

请注意，用于预训练和微调的数据集可以相同或不同。 PF方案的制定定义如下：

联合学习。在 JL 方案中，编码器与代理和下游任务联合训练。损失函数包括自我监督任务损失函数和下游任务损失函数，其中权衡超参数 α 控制自我监督项的贡献。这可以被认为是一种多任务学习，其中代理任务作为下游任务的正则化。

无监督表示学习 (URL)。 URL 方案的第一阶段类似于 PF。不同之处在于：（1）在第二阶段，当使用下游任务训练模型时，编码器的参数被冻结（即θ*）； (2) 两个阶段的训练在同一个数据集上进行。 URL 的公式定义为：

与其他方案相比，URL 更具挑战性，因为在编码器训练期间没有监督。

3.4 下游任务分类

根据预测目标的规模，我们将下游任务分为节点级、链路级和图级任务。具体来说，节点级任务旨在根据节点表示来预测图中节点的属性。链路级任务推断边或节点对的属性，其中下游解码器将两个节点的嵌入映射到链路级预测中。此外，图级任务从包含多个图的数据集中学习，并预测每个图的属性。

根据等式 (2)，我们提供了三种类型任务的下游解码器 $q_{\psi }$ ，下游目标Lsup和下游任务标签y的具体定义，这些定义在附录C中进行了详细说明。

4 基于生成的方法

基于生成的方法旨在重建输入数据并将输入数据用作其监督信号。这类方法的起源可以追溯到 Autoencoder [42]，它学习用编码器网络将数据向量压缩成低维表示，然后尝试用解码器网络重建输入向量。

与以向量格式表示的一般输入数据不同，图形数据是相互连接的。因此，基于生成的图 SSL 方法通常将完整图或子图作为模型输入，并分别重构其中一个组件，即特征或结构.根据重构的对象，我们将这些工作分为两个子类：（1）学习重构图的特征信息的特征生成，以及（2）学习重构图的拓扑结构信息的结构生成。图 5 给出了两种示例方法的流水线，表 1 说明了基于生成的工作的总结。

(a. Graph Completion 是基于特征生成的图 SSL 的代表性方法。某些节点的特征被屏蔽然后输入模型，学习目标是重建被屏蔽的特征。 MSE 损失用于恢复特征。

b. Denoising Link Reconstruction 的目标是重建被遮蔽的边缘。采用二元交叉熵 (BCE) 损失来训练模型，其中现有边是正样本，不相关的节点对是负样本。使用负采样（Neg. Samp.）策略来平衡类。)

(基于生成的图形 SSL 方法的主要特征。 “FG”和“SG”分别表示“特征生成”和“结构生成”。 Input Data Perturbation 中的缺失值（“-”）表示该方法以原始图数据为输入)

4.1 特征生成

特征生成方法通过从扰动或原始图中恢复特征信息来学习。基于等式（3），特征生成方法可以进一步形式化为：

其中 $p_{\phi }(\cdot )$ 是特征回归的解码器（例如，将表示映射到重构特征的全连接网络），Lmse 是均方误差 (MSE) 损失函数，而 $\widehat{X}$ 是各种特征的通用表达式矩阵，例如节点特征矩阵、边特征矩阵或低维特征矩阵。

掩码特征回归策略

为了利用节点之间的依赖关系，特征生成方法的一个代表性分支遵循掩码特征回归策略，这是由 CV 域中的图像修复驱动的 [20]。具体来说，某些节点/边的特征在预处理阶段被零标记或特定标记掩盖。然后，模型尝试根据未屏蔽的信息恢复屏蔽的特征。 Graph Completion [17]是一种代表性方法。它首先通过移除特征来屏蔽输入图的某些节点。然后，学习目标是使用 GCN [1] 编码器从相邻节点的特征中预测屏蔽节点特征。我们可以将 Graph Completion 视为等式 (9) 的实现，其中 $\widehat{X} = X$ 和 $\widetilde{G} = (A,\widetilde{X})$ 。同样，AttributeMask [43] 旨在重建通过主成分分析 (PCA) [52] 处理的密集特征矩阵 $\widehat{X} = PCA(X)$ ，而不是重构原始特征，这是由于其难以重建高维和稀疏的特征。AttrMasking [16] 不仅重建节点属性，还重建边属性，可以写为 $\widehat{X}$ = [X, Xedge]。

从嘈杂的特征中生成特征

方法的另一个分支旨在从嘈杂的特征中生成特征。受去噪自动编码器 [53] 的启发，MGAE [44] 从每个 GNN 层的噪声输入特征中恢复原始特征。这里我们也表示 ̃G = (A, ̃X) 但这里 ̃X 被随机噪声破坏了。在 [45] 中提出，损坏的特征重建和损坏的嵌入重建旨在从损坏的特征中重建原始特征和隐藏嵌入。

从干净的数据中重建特征

此外，直接从干净的数据中重建特征也是一种可用的解决方案。 GALA [46] 训练拉普拉斯平滑锐化图自动编码器模型，目标是根据干净的输入图重建原始特征矩阵。同样，自动编码 [45] 从干净的输入中重建原始特征。对于这两种方法，我们可以形式化 ̃G = (A, X) 和 ^X = X。

4.2 结构生成

与重建特征信息的特征生成方法不同，结构生成方法通过恢复结构信息来学习。在大多数情况下，目标是重构邻接矩阵，因为邻接矩阵可以简单地表示图的拓扑结构。根据等式（3），结构生成方法可以形式化如下：

重构完整的图

其中 $p_{\phi }(\cdot )$ 是用于结构重建的解码器，A 是（完整或部分）邻接矩阵. GAE [32] 是结构生成方法的最简单实例。在 GAE 中，基于 GCN 的编码器首先从原始图 (̃G = G) 生成节点嵌入 H。然后，一个带有 sigmoid 激活函数的内部生产函数作为解码器从 H 中恢复邻接矩阵。由于邻接矩阵 A 通常是二元的和稀疏的，因此采用 BCE 损失函数来最大化恢复的邻接矩阵与原始邻接矩阵之间的相似性，其中正样本和负样本分别是存在边（Ai，j = 1）和未连接的边节点对 (Ai,j = 0)。为了避免极稀疏邻接引起的不平衡训练样本问题，可以采用两种策略来防止平凡解的出现: (1)用 Ai，j = 1 重新加权; 或者(2)对Ai，j = 0子采样。

GAE衍生工作

GAE作为一种经典的学习范式，有一系列的衍生作品。VGAE [32] 进一步将变分自动编码器 [54] 的思想集成到 GAE 中。它采用基于推理模型的编码器，使用两个并行输出层估计均值和偏差，并使用先验分布和估计分布之间的 Kullback-Leibler 散度。在 VGAE 之后，SIG-VAE [47] 考虑分层变分推理来学习图形数据的更多生成表示。ARGA/ARVGA [48] 使用生成对抗网络 (GAN) [55] 对 GAE/VGAE 模型进行正则化。具体来说，鉴别器被训练来区分假数据和真实数据，这迫使潜在嵌入的分布更接近高斯先验。SuperGAT [49] 进一步将这个想法扩展到编码器的每一层。具体来说，它根据编码器中每一层的潜在表示重建邻接矩阵。

重建被屏蔽的边

另一种解决方案是重建被屏蔽的边，而不是重建完整的图。Denoising Link Reconstruction [50]随机丢弃现有边以获得扰动图 $\widetilde{G}$ 。然后，该模型旨在使用由 BCE 损失训练的基于成对相似性的解码器来恢复丢弃的连接。EdgeMask [43] 也有类似的扰动策略，其中非参数 MAE 函数（（Mean Absolute Error）平均绝对误差，绝对误差的平均值）最小化两个连接节点的嵌入之间的差异。朱等 [51] 对输入图 ( ̃G = ( ̃A, ̃X)) 应用两种扰动策略，即随机删除链接和随机覆盖特征，而其目标是通过解码器恢复被屏蔽的链接。

讨论

由于学习目标的不同，两种基于生成的方法在解码器和损耗函数上都有不同的设计。由于结构生成侧重于边缘重建，因此通过结构生成学习的表示通常包含更多节点对级信息；相反，特征生成方法通常捕获节点级知识。

5 基于属性的辅助方法

基于辅助属性的方法从节点、链路和图级属性获取监督信号，这些属性可以从图数据中自由获得。这些方法与监督学习具有相似的训练范式，因为它们都使用“样本-标签”对进行学习。它们的区别在于标签是如何获得的：在监督学习中，人工标签是人工标注的，这往往需要昂贵的成本。在基于辅助属性的 SSL 中，伪标签是自动生成的，无需任何成本。

按照监督学习的一般分类法，我们将基于辅助属性的方法分为两个子类：（1）辅助属性分类，它利用基于分类的代理任务来训练编码器；（2）辅助属性回归，它执行 SSL通过基于回归的代理任务。图 6 提供了它们的管道，表 2 总结了辅助的基于属性的方法。

（a. 辅助属性分类方法提取离散属性作为伪标签，并使用代理解码器预测分类结果。 CE 损失函数用于训练模型。可以使用两种类型的属性（基于聚类和基于对关系）来定义伪标签。

b. 辅助属性回归方法旨在用解码器预测连续辅助属性，其中模型由 MSE 损失训练。）

（基于辅助属性的图形 SSL 方法的主要特征。 “CAPC”、“PAPC”和“APR”分别表示基于聚类的辅助属性分类、基于对关系的辅助属性分类和辅助属性回归。）

5.1 辅助属性分类

借鉴监督分类任务的训练范式，辅助属性分类方法自动创建离散伪标签，构建分类器作为代理解码器，并使用交叉熵（CE）损失 Lce 来训练模型。源自等式（4），我们提供该方法分支的形式化为：

其中 $p_{\phi }$ 是基于神经网络分类器的解码器，输出 k 维概率向量（k 是类数），c ∈ C = {c1, · · · , ck} 是对应的伪标签，属于离散且有限的标签集 C. 根据伪标签集 C 的定义，我们进一步构建了辅助属性分类下的两个子类别，即基于聚类和基于对关系的方法.

5.1.1 基于聚类的方法

构建伪标签的一种有前途的方法是根据节点的属性或结构特征将节点划分为不同的簇。为实现这一点，映射函数 Ω : V → C 被引入以获取每个节点的伪标签，它建立在特定的无监督聚类/分区算法 [59]、[60]、[61]、[62] 之上。然后，学习目标是将每个节点分类到其相应的集群中。根据等式（11），

学习目标被细化为：

其中 [·]vi 是提取 vi 表示的拾取函数。

基于特征的聚类

节点聚类 [17] 是一种利用属性信息生成伪标签的代表性方法。具体来说，它利用基于特征的聚类算法（它是Ω的一个实例）以X为输入将节点集划分为k个簇，每个簇表示一个伪标签用于分类。

节点聚类背后的直觉是具有相似特征的节点往往具有一致的语义属性。 M3S [40] 使用 DeepCluster [61] 算法为 SSL 引入了多阶段自训练机制。在每个阶段，它首先在节点嵌入H上运行k -均值聚类。之后，执行对齐以将每个集群映射到类标签。最后，给置信度高的未标记节点赋予相应的（伪）标签，用于训练模型。在M3S中，C是从人工标签集Y中借用的，Ω是由K-means和alignment算法组成的.

根据节点的结构特征划分节点

除了基于特征的聚类之外，图分区[17]根据节点的结构特征划分节点。具体来说，它通过最小化子集之间的连接将节点分组为多个子集 [59]，将 Ω 定义为图划分算法。Cluster Preserving [50] 首先利用图聚类算法 [63] 获取非重叠聚类，然后通过基于注意力的聚合器计算每个聚类的表示。之后，表示每个节点与集群表示之间相似性的向量被分配为每个节点的软伪标签。此外，CAGNN [56]首先运行基于特征的集群来生成伪标签，然后通过最小化集群间边缘来细化集群，这吸收了属性和结构聚类算法的优点。

5.1.2 基于成对关系的方法

除了聚类和图形属性之外，另一种监督信号是图形中每对节点之间的关系。在这些方法中，解码器的输入不是单个节点或图，而是一对节点。映射函数 Ω : V × V → C 用于根据成对上下文关系定义伪标签。我们将目标函数写为：

其中 P ⊆ V × V 是由特定代理任务定义的节点对集，[·]vi,vj 是提取和连接 vi 和 vj 的节点表示的拾取函数。

两个节点之间的距离作为辅助属性

一些方法将两个节点之间的距离作为辅助属性。例如，S2GRL [57] 通过预测两个节点之间的最短路径来学习。具体来说，一对节点的标签被定义为它们之间的最短距离。形式上，我们可以将映射函数写为 Ω(vi, vj ) = dist(vi, vj )。构建解码器是为了测量节点对之间的交互，它被定义为两个嵌入向量之间的元素距离。

节点对集合 P 收集所有可能的节点对，包括所有节点及其 1 到 K 跳邻域的组合。 PairwiseDistance [43] 具有与 S2GRL 非常相似的学习目标和解码器，但引入了距离上限，可以表示为 Ω(vi, vj) = max(dist(vi, vj), 4)。

中心性分数的相对顺序

Centrality Score Ranking [50] 提出了一个代理任务，预测一对节点之间的中心性分数的相对顺序。对于每个节点对（vi，vj），它首先计算四种类型的中心性分数si，sj（特征中心性，中介性，接近性和子图中心性），然后通过比较si和sj的值创建其伪标签。我们将映射函数形式化为：Ω(vi, vj ) = II(si > sj )，其中 II(·) 是恒等函数。

5.2 辅助属性回归

辅助属性回归方法构建了预测图的广泛数值属性的代理任务。与辅助属性分类相比，最显着的区别是辅助属性是一定范围内的连续值，而不是有限集合中的离散伪标签。我们将等式（4）细化为回归版本：

其中 Lmse 是回归的 MSE 损失函数，c ∈ R 是一个连续的属性值。NodeProperty [43] 是一个节点级代理任务，它预测每个节点的属性。

节点属性的可用选择包括它们的度、局部节点重要性和局部聚类系数。以节点度为例，目标函数说明如下：

其中 $\Omega (v_i) = \sum_{j=1}^{n}A_{ij}$ 是计算节点vi 度的映射函数。

每个节点到预定义图集群的距离回归

Distance2Cluster[43]的目的是将每个节点到预定义图集群的距离回归。具体来说，它首先使用 METIS 算法 [64] 将图划分为几个簇，并将每个簇内度数最高的节点定义为其簇中心。然后，目标是预测每个节点和所有聚类中心之间的距离。

另一种方法将成对属性作为回归目标。例如，PairwiseAttrSim [43] 的目标是根据两个节点的嵌入来预测它们的特征相似性。我们将其目标函数形式化如下：

其中映射函数 Ω(vi, vj ) = cosine(xi, xj ) 是原始特征的余弦相似度。在 PairwiseAttrSim 中，选择具有最高相似度和不相似度的节点对来形成节点对集 P。与 PairwiseAttrSim 类似，SimP-GCN [58] 也将预测原始特征的余弦相似度作为自监督正则化下游任务。

讨论

正如我们所观察到的，辅助属性分类方法比回归方法更加多样化，因为离散的伪标签可以通过各种算法获得。在未来的工作中，预计回归方法将利用更多的连续属性。

6 基于对比的方法

基于对比的方法建立在互信息 (MI) 最大化 [65] 的思想之上，它通过预测两个增强实例之间的一致性来学习。具体来说，具有相似语义信息（即正样本）的图实例之间的 MI 被最大化，而具有不相关信息（即负样本）的图实例之间的 MI 被最小化。与视觉领域 [24]、[66] 类似，存在多种图形增强和多粒度对比代理任务来丰富监督信号。

按照第 3.2.3 节中定义的基于对比的图 SSL 的分类，我们从三个角度调查了这个方法分支：（1）生成各种图实例的图增强； (2) 图对比学习，在非欧空间上形成各种对比代理任务； (3) 互信息估计，测量实例之间的 MI，并与特定的代理任务一起形成对比学习目标。

6.1 图增强

最近视觉领域对比学习的成功在很大程度上依赖于精心设计的图像增强，这表明数据增强有利于模型通过使代理任务更具挑战性来探索更丰富的潜在语义信息 [67]。

然而，由于图结构数据的性质，很难将欧几里得空间的增强直接应用于非欧几里得空间。

受图像增强（例如，图像剪切和裁剪 [24]）的启发，现有的图增强可以分为三种类型：基于属性的、基于拓扑的以及两者的组合（即混合增强）。五种代表性增强策略的示例如图 7 所示。正式地，给定图 G，我们将第 i 个增强图实例定义为 $\widetilde{G}^{(i)} = t_i(G)$ ，其中 ti∼τ 是选定的图增强和 τ 是一组可用的增强。

（五种常见图增强的简要示例，包括节点特征掩码 (NFM)、节点特征洗牌 (NFS)、边修改 (EM)、图扩散 (GD) 和子图采样 (SS)。）

6.1.1 属性增强

这类增强通常放在节点属性上。给定 G = (A, X)，增广图表示为：

其中 ti(·) 仅放在节点特征矩阵上， $\widetilde{X}^{(i)}$ 表示增强的节点特征。

节点特征屏蔽

具体来说，属性增强有两种变体。第一种类型是节点特征屏蔽（NFM）[16]、[33]、[38]、[43]、[68]，它随机屏蔽给定图中部分节点的特征。特别是，我们可以完全（即按行）用零 [16]、[43] 或部分（即按列）用零掩盖选定的特征向量 [33]、[ 68]。我们将节点特征掩蔽操作制定为：

其中 M 是与 X 形状相同的掩蔽矩阵，◦ 表示 Hadamard 积。对于给定的掩蔽矩阵，其元素已初始化为 1，掩蔽项被分配为零。

除了随机采样掩蔽矩阵 M 之外，我们还可以自适应地计算它 [69]，[70]。例如，GCA [69] 保持重要的节点特征未被屏蔽，同时为那些不重要的节点分配更高的屏蔽概率，其中重要性由节点中心性来衡量。

节点特征打乱

另一方面，节点特征打乱 (NFS) [13]、[71]、[72] 不是屏蔽部分特征矩阵，而是部分地逐行扰动节点特征矩阵。换句话说，与输入图相比，增广图中的几个节点被放置到其他位置，如下所示：

其中 [·]vi 是一个拾取函数，它从节点特征矩阵中索引 vi 的特征向量，并且 $\widetilde{V}$ 表示部分打乱的节点集。

6.1.2 拓扑增强

从结构角度看图扩充主要作用于图邻接矩阵，其公式如下：

边修改

其中 ti(·) 通常放置在图的邻接矩阵上。对于该方法分支，边修改 (EM) [9]、[38]、[51]、[68]、[73]、[74] 是最常见的方法之一，通过随机删除并插入一部分边缘来部分干扰给定的图形。我们定义此过程如下:

其中 M1 和 M2 是边缘丢弃和插入矩阵。具体地，M1和M2是通过随机屏蔽A和(1-A)中的一部分值为1的元素生成的。与节点特征掩蔽类似，M1 和 M2 也可以自适应计算[69]。此外，可以基于对抗性学习 [18]、[75] 生成边缘修改矩阵，这增加了学习表示的鲁棒性。

图扩散

与边缘修改不同，图扩散（GD）[76] 是另一种类型的结构增强 [14]，[68]，它通过计算权重将节点与其间接连接的邻居连接起来，将全局拓扑信息注入给定的图邻接:

其中 Θ 和 T 分别是加权系数和转移矩阵。具体来说，上述扩散公式有两个实例[14]。让和，我们有基于热核的图扩散：

其中 ι 表示扩散时间。类似地，基于个性化PageRank 的图扩散定义如下:

其中 β 表示可调传送概率。

6.1.3 混合增强

值得注意的是，给定的图扩充可能不仅涉及属性扩充，还同时涉及拓扑扩充，我们将其定义为混合扩充并表述为：

在这种情况下，增强 ti(·) 被放置在节点特征和图邻接矩阵上。子图采样 (SS) [14]、[16]、[74]、[77] 是一种典型的混合图增强，类似于图像裁剪。具体来说，它将一部分节点及其底层链接作为增强图实例进行采样。

其中V'表示V的一个子集，[·]V'是一个选择函数，它用节点集V'索引子图的节点特征和邻接矩阵。关于V'的生成，已经提出了几种方法，例如均匀采样[74]、基于随机游走的采样[15]和基于top-k重要性的采样[77]。

除了子图采样之外，大多数图对比方法都严重依赖于结合上述策略的混合增强。例如，GRACE [33] 应用边缘丢弃和节点特征掩码，而 MVGRL [14] 采用图扩散和子图采样来生成不同的对比视图。

6.2 图对比学习

由于对比学习旨在最大化具有相似语义信息的实例之间的 MI，因此可以构建各种代理任务来丰富来自此类信息的监督信号。关于等式（5）中代理解码器 $p_{\phi }(\cdot )$ 的制定，我们将现有工作分为两大主流：同尺度对比学习和跨尺度对比学习。前一种方法以相同的尺度区分图实例（例如，节点与节点），而第二种方法则将对比置于多个粒度（例如，节点与图）。图 8 和表 3 分别提供了基于对比的方法的流程和总结。

(a. 在同尺度对比中，首先基于输入图通过各种图增强生成不同的视图。然后，对比可以放在节点或图形尺度上。

b. 在跨尺度对比中，首先生成增强图视图。然后，跨尺度对比旨在区分具有全局表示的补丁级或上下文级嵌入)

（基于对比的图形 SSL 方法的主要特征。 “NSC”、“GSC”、“PGCC”和“CGCC”分别表示节点级同尺度、图级同尺度、补丁全局跨尺度和上下文全局跨尺度对比。）

6.2.1 同尺度对比

根据对比的尺度，我们进一步将同尺度对比学习方法分为两个子类型：节点级和图级；

6.2.1.1 节点级同尺度对比：

该类别下的早期方法[30]、[31]、[78]、[79]主要是学习节点级表示，并建立在具有相似节点的思想之上，上下文信息应该共享相似的表示。

不依赖图增强的节点对比学习：

换句话说，这些方法试图在不依赖复杂图增强的情况下将节点的表示拉近其上下文邻域。我们制定如下：

其中 $v_c$ 表示 vi 的上下文节点，例如，从 $v_i$ 开始的随机游走中的相邻节点。在这些方法中，代理鉴别器（即解码器）通常是点积，因此我们在等式中省略了它的参数。具体来说，DeepWalk [30] 引入了一种基于随机游走 (RW) 的方法来提取无属性图中选定节点周围的上下文信息。它最大化了与 Skip-Gram 模型 [26]、[27] 相同步行中节点的共现（即，由二元分类器测量的 MI）。同样，node2vec [31] 采用有偏 RW 来探索更丰富的节点上下文信息并产生更好的性能。另一方面，GraphSAGE [78] 将上述两种方法扩展到属性图，并提出了一种新颖的 GNN 以归纳方式计算节点嵌入，并将 RW 用作其内部采样策略。在异构图上，SELAR[80]对元路径进行采样以捕获上下文信息。它由一个主要链接预测任务和几个元路径预测辅助任务组成，以强制同一元路径内的节点共享更紧密的语义信息。

依赖图增强的节点级对比学习

与上述方法不同，现代节点级同尺度对比方法正在通过各种图增强探索更丰富的底层语义信息，而不是限制子图采样：

其中 $\widetilde{A}^{(1)}$ 和 $\widetilde{A}^{(1)}$ 是两个增广图邻接矩阵。类似地， $\widetilde{X}^{(1)}$ 和 $\widetilde{X}^{(2)}$ 是不同增强下的两个节点特征矩阵。上式中的鉴别器 $p_{\phi }(\cdot )$ 可以是参数化的 Φ（例如，双线性变换）或不是（例如，余弦相似度，其中 Φ = ∅）。

在这些方法中，大多数方法都处理属性图：GRACE [33] 采用两种图增强策略，即节点特征屏蔽和边缘丢弃，以生成两个对比视图，然后将相同节点的表示拉近在两个图形视图之间，同时将其余节点推开（即视图内和视图间的负例）。基于这个框架，GCA [69] 进一步引入了基于底层图属性的图结构数据的自适应增强，从而获得更具竞争力的性能。不同的是，GROC [18] 提出了图链接的对抗性增强，以增加学习节点表示的鲁棒性。由于 SimCLR [24] 在视觉领域的成功，GraphCL(N) [81] 3 进一步将这一思想扩展到图结构数据，它依赖于节点特征掩蔽和边缘修改来生成两个对比视图，然后最大化不同视图内两个目标节点之间的 MI。 CGPN [82] 将泊松学习引入节点级对比学习，这有利于在极其有限的标记数据下进行节点分类任务。在普通图上，GCC [15] 利用 RW 作为增强来提取节点的上下文信息，然后利用 MoCo [23] 的对比框架将其表示与其对应物进行对比。另一方面，HeCo [83] 在异构图上进行对比，其中从两个角度生成两个对比视图，即网络模式和元路径，而编码器通过最大化同一节点嵌入之间的 MI 进行训练两种观点。

除了那些依赖精心设计的负样本的方法之外，像 BGRL [84] 这样的方法建议对图实例本身进行对比，从而减轻对故意设计的负样本策略的依赖。 BGRL 利用 BYOL [25] 中的知识蒸馏，其中引入了动量驱动的连体架构来指导监督信号的提取。具体来说，它使用节点特征掩蔽和边缘修改作为增强，BGRL 的目标与 BYOL 中的相同，其中来自在线和目标网络的节点表示之间的 MI 最大化。SelfGNN[85]采用了相同的技术，不同的是SelfGNN使用了其他的图增强，如图扩散[76]、节点特征分割、标准化和粘贴。除了 BYOL，Barlow Twins [86] 是另一种类似但功能强大的方法，无需使用负样本来防止模型崩溃。 G-BT [87] 扩展了图数据分析的冗余减少原则，其中优化目标是最小化通过两个增强图视图的节点嵌入生成的身份和互相关度量之间的差异。另一方面，MERIT [68] 提出结合 Siamese 知识蒸馏和传统图对比学习的优点。它利用 SimSiam [88] 中的自蒸馏框架，同时引入额外的节点级底片以进一步利用底层语义信息并丰富监督信号。

6.2.1.2 Graph-Level Same-Scale Contrast：

对于同尺度对比下的graph-level representation learning，区分通常放在graph representations上：

其中表示增强图 $\widetilde{G}^{(i)}$ 的表示，R(·) 是一个读出函数，用于生成基于节点表示。等式（29）下的方法可以与上述节点级方法共享类似的增强和骨干对比框架。例如，GraphCL(G) [38] 采用 SimCLR [24] 形成其对比管道，将两个视图的图级表示拉近。同样，DACL [89] 也建立在 SimCLR 之上，但它设计了一种通用但有效的增强策略，即基于混合的数据插值。 AD-GCL [75] 提出了一种对抗性边缘丢弃机制作为增强，以减少编码器采用的冗余信息量。 JOAO [70] 提出了联合增强优化的概念，其中通过联合优化增强选择和对比目标来制定双层优化问题。与 GCC [15] 类似，CSSL [74] 建立在 MoCo [23] 之上，但它与图级嵌入形成对比。LCGNN中也有类似的设计[90]。

另一方面，关于知识蒸馏，IGSD [73] 正在利用 BYOL [25] 的概念，类似于 MERIT [68]。

6.2.2跨尺度对比

与等尺度下的对比图实例不同，该方法分支将区分置于各种图拓扑（例如，节点与图）之间。我们进一步在该类别下构建两个子类，即补丁全局和上下文全局对比。

6.2.2.1 Patch-Global Cross-Scale Contrast:

并未明确使用任何图增广策略

对于节点级表示学习，我们将这种对比定义如下：

其中 R(·) 表示我们在上一小节中提到的Readout函数。在此类别下，DGI [13] 是第一个提出将节点级嵌入与图级表示进行对比的方法，其目的是最大化来自不同尺度的这两种表示之间的 MI，以帮助图编码器学习两者局部和全局语义信息。基于这个想法，GIC [91] 首先根据它们的嵌入对图中的节点进行聚类，然后将节点拉近它们相应的聚类摘要，同时使用 DGI 目标进行优化。除了属性图之外，一些关于异构图的工作基于类似的模式：HDGI [92] 可以被视为异构图上 DGI 的一个版本，不同之处在于图的最终节点嵌入是通过聚合节点计算的不同元路径下的表示。类似地，ConCH [93] 与 DGI 共享相同的目标，并聚合基于元路径的节点表示来计算异构图的节点嵌入。不同的是，DMGI [94] 将多重图视为几个属性图的组合。对于它们中的每一个，给定一个选定的目标节点及其关联的关系类型，首先计算特定于关系的节点嵌入。图级表示和这种节点嵌入之间的 MI 与 DGI 中一样最大化。 EGI [95] 通过强制节点特征遵循结构然后最大化节点嵌入与其周围自我图之间的 MI 来提取高级可迁移图知识。在时空图上，STDGI [71] 最大化时间步 t 处的节点表示与 t + 1 处的原始节点特征之间的一致性，以引导图编码器捕获丰富的语义信息以预测未来的节点特征。

增强的补丁全局对比方法

请注意，上述方法并未明确使用任何图增广。对于基于增强的补丁全局对比方法，我们重新表述等式（30）如下：

其中是节点 vi 在增强视图 1 中的表示，并且表示不同增强视图 2 的表示。在此定义的保护下，MVGRL [14] 首先通过图扩散 [76] 和子图采样生成两个图视图。然后，它通过最大化视图中的节点嵌入和另一个视图的图级表示之间的MI来丰富局部和全局监督信号。

另一方面，SUBG-CON [77] 继承了 MVGRL 的目标，同时采用了不同的图形增强。具体来说，它首先从大规模输入图中提取中心节点的前 k 个信息量最大的邻居。然后，编码的节点表示被进一步洗牌以增加借口任务的难度。在异构图上，SLiCE [96] 将节点拉近它们最接近的上下文图，而不是将节点与整个图明确对比。此外，SLiCE 通过上下文翻译机制丰富了节点嵌入的本地化信息。

对于基于补丁全局对比的图级表示学习，我们可以使用等式（30）来表示。 InfoGraph [97] 与 DGI [13] 共享相似的模式。它将图表示直接与节点嵌入进行对比，以区分节点是否属于给定图。为了进一步提升 InfoGraph、Robinson 等人的对比方法。 [98] 提出了一种通用但有效的硬负采样策略，使潜在的代理任务更具挑战性。

6.2.2.2 Context-Global Cross-Scale Contrast:

跨尺度图对比学习类别下的另一种流行设计是上下文全局对比，其定义如下：

其中 S 表示增强输入图 ̃G 中的一组上下文子图，其中增强通常基于该类别下的图采样。在上式中， $\widetilde{h_s}$ 是增强上下文子图 s 的表示， $\widetilde{g}$ 表示 S 中所有子图的图级表示。

具体来说，我们设，以及。然而，对于某些方法，例如 [99] 和 [100]，图级表示是在原始输入图上计算的，其中。其中，BiGI [99] 是二分图上的节点级表示学习方法，继承了 DGI [13] 的对比模式。具体来说，它首先通过聚合两种类型的节点嵌入来计算输入图的图级表示。然后，它对原始图进行采样，然后计算两个节点之间目标边的局部上下文表示。BiGI 的优化目标是最大化这种局部上下文和全局表示之间的 MI，然后训练好的图形编码器可以用于各种边缘级下游任务.为了学习图级嵌入，HTC [100] 最大化全图表示和上下文嵌入之间的 MI，上下文嵌入是采样子图的聚合。与 HTC 相似但不同的是，MICRO-Graph [101] 提出了一种不同但新颖的基于主题学习的采样作为隐式增强，以生成几个具有语义信息的子图，其中每个子图的嵌入更接近于整个图的表示。考虑图级表示基于增强输入图的场景，作为等式（32）所示的默认设置，SUGAR [102]首先从给定图中采样 n 个子图，然后提出基于强化学习的顶部-k 抽样策略，从大小为 n 的候选集中选择 n′ 个信息子图。最后，在子图嵌入和草图表示之间建立了 SUGAR 的对比，即通过组合这 n' 个子图生成的图。

6.3 互信息估计

大多数基于对比的方法依赖于两个或多个实例之间的 MI 估计。具体来说，从正例池中采样的一对实例的表示被拉近，而来自负例池的对应实例被推开。给定一对实例 (xi, xj)，我们让 (hi, hj) 表示它们的表示。因此，(i, j) 之间的 MI 由 [103] 给出：

其中 KL(·) 表示 Kullback-Leibler 散度，最终目标是训练编码器在来自联合密度 $P(h_i,h_j)$ 的一对实例和来自边缘密度 $P(h_i)$ 和 $P(h_j)$ 的负数进行区分。在本小节中，我们定义了由式(33)导出的两种常见形式的下界MI估计量和三种特定形式的非定界MI估计量。

6.3.1 JS估计器

尽管 Donsker-Varadhan 表示提供了 KL 散度的严格下限 [36]，但 Jensen-Shannon 散度 (JSD) 在图对比学习中更常见，它提供了下限和更有效的 MI 估计。我们基于它定义对比损失如下：

在上面的等式中，hi 和 hj 是从相同的分布 P 中采样的，而 $h'_{j}$ 是从不同的分布 $\widetilde{P}$ 中采样的。对于鉴别器 $p_{\phi }(\cdot )$ ，它可以取自各种形式，其中通常采用双线性变换[104]，即 $p_{\phi }(h_i,h_j) = h_i^T\Phi h_j$ ，例如[13]，[ 14], [102]。具体来说，通过让，等式 (34) 可以以另一种形式呈现，如 InfoGraph [97] 中所示。

6.3.2 噪声对比估计器

与 JSD 类似，噪声对比估计器（又名 InfoNCE）提供了一个下界 MI 估计，它自然包含一个正负对 [36]。基于InfoNCE的对比损失定义如下：

其中鉴别器 $p_{\phi }(\cdot )$ 可以是具有温度参数 τ 的点积，即，例如在 GRACE [33] 和 GCC [15] 中。

6.3.3 三元组损失

除了前面提到的两个下界 MI 估计器之外，还可以采用三元组边缘损失来估计数据实例之间的 MI。然而，最小化这个损失并不能保证 MI 被最大化，因为它不能代表 MI 的下界。正式地，Jiao 等人。 [77]定义这个损失函数如下：

6.3.4 BYOL Loss

对于受 BYOL [25] 启发且不依赖负样本的方法，例如 BGRL [25]，它们的目标函数也可以解释为非绑定 MI 估计量。

给定 hi, hj ∼ P，我们将这种损失定义如下：

其中 pψ 表示在Siamese网络中由 ψ 参数化的在线预测器，它可以防止模型与其他机制（例如动量编码器、停止梯度等）崩溃。特别地，在这种情况下，代理解码器表示两个之间的均方误差实例，已在上述等式中进行了扩展。

6.3.5 Barlow Twins Loss

与 BYOL 类似，该目标减轻了对负样本的依赖，但实现起来要简单得多，这是由冗余减少原则推动的。具体来说，给定从分布 P 采样的一批数据实例的两个视图 H(1) 和 H(2) 的表示，我们将此损失函数定义如下 [86]：

其中 a 和 b 索引表示向量的维度，i 索引批次 B 中的样本。

讨论

通常，相同规模的方法通常遵循双流对比学习框架（例如，SimCLR [24] 和 BYOL [25]），其中广泛使用 InfoNCE 和 BYOL 损失；相比之下，跨尺度方法通常源自 DGI [13]，因此它们更喜欢 JSD 损失。

8 实证研究

在本节中，我们总结了图 SSL 实证研究的基本资源。具体来说，我们对两种常用的图学习下游任务（即节点分类和图分类）的代表性方法进行了实验比较。我们还收集了用于实证研究的有用资源，包括基准数据集和开源实现。

节点分类的性能比较

我们考虑节点分类的两种学习设置，即半监督转导学习和监督归纳学习。对于转导学习，我们考虑三个引文网络数据集，包括 Cora、Citeseer 和 Pubmed [113]，用于性能评估。训练/有效/测试的标准拆分通常遵循[1]，其中每类 20 个节点用于训练，500/1000 个节点用于验证/测试。对于归纳学习，我们使用 PPI 数据集 [78] 来评估性能。在 [78] 之后，使用 20 张图来训练模型，同时使用 2 张图进行验证，使用 2 张图进行测试。在这两种设置中，性能都是通过分类准确度来衡量的。

我们比较了两组图形 SSL 方法的性能。在 URL 组中，编码器完全由 SSL pretext 任务训练，学习到的表示直接输入分类解码器。在 PF/JL 组中，训练标签可用于编码器的学习。我们将两种传统的（半）监督分类方法（即 GCN [1] 和 GAT [2]）视为基线。

性能比较的结果如表 5 所示。根据结果，我们有以下观察和分析：（1）早期基于随机游走的对比方法（例如，DeepWalk 和 Graph-SAGE）和基于自动编码器的生成方法（例如 GAE 和 SIG-VAE）的性能比大多数图 SSL 方法差。可能的原因是他们用简单的无监督学习目标而不是精心设计的自监督代理任务来训练编码器，因此未能充分利用原始数据来获取监督信号。例如，DeepWalk 仅最大化随机游走中节点之间的 MI，而忽略了图的全局结构信息。 (2) 采用视觉对比学习的高级对比目标的方法（例如，使用 BYOL 损失 [25] 的 BGRL 和使用 Barlow Twins 损失的 G-BT [86]）没有显示出像他们的原型在视觉数据上执行那样的卓越性能。这样的观察表明，直接借用其他领域的自我监督目标并不总是能带来增强。(3) 一些代表性的基于对比的方法（例如，MVGRL、MERIT 和 SubG-Con）比基于泛化和辅助属性的方法表现更好，这反映了对比代理任务的有效性和潜在的其他方法的改进空间。 (4) 混合方法具有竞争性能，其中一些甚至优于监督基线。出色的表现表明，集成多个代理任务可以从不同的角度提供监督信号，从而带来显着的性能提升。例如，G-Zoom [110] 通过在三个不同级别组合对比借口任务取得了优异的结果。 (5) PF/JL 组方法的性能普遍优于 URL 组方法，这表明标签信息的可访问性导致图 SSL 的进一步改进。

更多资源

对于图分类的评估和性能比较，我们请读者参考附录D。我们还收集了广泛应用的基准数据集并将它们分为四组。所选基准数据集的描述和统计在附录 E 中有详细说明。此外，我们在附录 F 中提供了调查工作的开源实现集合，可以方便进一步研究中的复制、改进和基线实验。

附录 D 图分类的性能比较

图分类任务通常采用归纳监督学习设置。我们收集了九个基准数据集的实验结果，包括 IMDB-B、IMDB-M、RDT-B、RDT-M、COLLAB、MUTAG、PROTEINS、PTC 和 NCI-1 [133]。我们考虑在 [3] 中使用的数据集拆分。利用分类准确性来评估性能。与节点分类类似，我们将方法分为两组：URL 和 PF/JL。一个强大的图分类 GNN，GIN [3]，被用作我们的基线。

评估结果如表 7 所示

根据结果，我们有以下观察结果：（1）URL 组方法的整体性能低于监督基线（即 GIN）。原因是当前的 SSL 方法无法像监督方法那样学习最佳表示。考虑到用于节点分类的 URL 方法通常比基线取得更高的结果，未来用于图级表示学习的 SSL 方法有望达到更高的性能。 (2) 一般而言，跨尺度对比方法比同尺度对比方法具有更好的性能。一个可能的原因是跨尺度对比学习可以提高全局（即图级）表示的质量，这有利于图级学习任务。

(3) 以 GCC 为例，与纯无监督学习 (URL) 方案相比，图标签（即 PF/JL 方案）的参与并不一定会在所有数据集上产生更好的编码器。得出结论，带有 SSL 的预训练编码器有时会对下游任务产生负面影响。在这种情况下，如何在图级 SSL 中规避这种负迁移现象值得进一步研究。 (4) 由于缺乏通用的评估基准，大多数这些方法都是在不同的图级数据集上进行测量的。因此，在未来的工作中，非常需要图级 SSL 评估的统一基准。

附录E 数据集

在本节中，我们对常用数据集分为引文网络、共同购买网络、社交网络和生化图谱四大类进行介绍和总结。表 8 给出了这些数据集的统计数据。

附录 F 开源实施

如果存在此方法的开源代码，我们将收集本次调查中审查的图形SSL 方法的实施。源代码的超链接在表 9 中提供。

9 实际应用

Graph SSL 也被应用于广泛的学科。我们总结了图 SSL 在三个研究领域的应用。更多可以在附录 G.

附录 G 其他图 SSL 应用程序

对于专家发现领域的零样本专家链接问题，COAD [152] 利用相同规模的对比学习框架来预训练专家编码器模型。

SLAPS [153] 将去噪节点特征生成任务集成到图结构学习的分类模型中。

SCRL [154] 将基于原型的代理任务应用于少标签图学习。

SDGE [155] 是一种社区检测方法，其中模型通过相同规模的对比学习目标进行训练。

为了根据诊断反馈修复程序，DrRepair [156] 通过修复线预测任务对模型进行预训练，该任务是通过在线数据集中自动损坏的程序学习的。

C-SWM [157] 引入了一种相同规模的节点级对比学习策略来训练模拟多目标系统的结构化世界模型。

Sehanobish 等人。 [158] 使用基于聚类的辅助属性分类任务来训练 GAT [2] 模型，并将学习到的边缘权重视为在包括 SARS-CoV-2 和 COVID-19 在内的生物数据集上学习的下游任务的边缘特征。

为了学习医学图像的表示，Sun 等人。 [159] 应用基于上下文的混合对比学习模型，该模型最大化从医学图像中提取的解剖学感知图的补丁和图级协议。

对于联合学习 [160]、[161]，FedGL [162] 引入了辅助属性分类任务，为客户端的本地训练提供全局视图。具体来说，每个节点的伪标签是通过在服务器中对客户端的预测结果进行加权平均融合来获得的。

推荐系统

基于图的推荐系统引起了极大的研究关注，因为它可以使用网络对项目和用户进行建模，并利用它们的潜在联系来产生高质量的推荐 [4]。最近，研究人员在推荐系统中引入图 SSL 来处理几个问题，包括冷启动问题、推荐模型的预训练。例如，Hao 等人[114] 提出了一个基于重建的代理任务，以在冷启动用户和项目上预训练 GNN。 S2-MHCN [115] 和 DHCN [116] 分别对基于社交和基于会话的推荐的超图表示学习采用对比任务。刘等人 [117] 通过引入具有去偏损失的图对比学习模块来克服消息丢失问题并减少基于 GNN 的推荐系统中的选择偏差。 PMGT [118] 利用两个基于生成的任务来捕获多模态辅助信息以进行推荐。

异常检测

由于缺少注释异常，图异常检测通常在无监督场景下进行，这与 SSL [119] 的设置自然一致。因此，各种工作将 SSL 应用于图形异常检测问题。具体而言，DOMINANT [120]、SpecAE [121] 和 AEGIS [122] 采用混合 SSL 框架，结合结构和特征生成来捕获异常模式。 CoLA [119] 和 ANEMONE [123] 利用对比学习来检测图形上的异常。 SL-GAD [124] 将混合图 SSL 应用于异常检测。 HCM [125] 引入了一个辅助属性分类任务，该任务预测每个节点对的跳数以进行图形异常检测。

化学

在化学领域，研究人员通常将分子或化合物建模为图形，其中原子和化学键分别表示为节点和边。请注意，GROVER [10] 和 Hu 等人。 [16] 还关注分子数据的图 SSL，之前已经过审查。此外，MolCLR [126] 和 CKGNN [127] 通过基于图级对比的代理任务学习分子表征。此外，GraphMS [128] 和 MIRACLE [129] 采用对比学习来解决药物-靶点和药物-药物相互作用预测问题。

10 未来发展方向

在本节中，我们分析了图 SSL 中存在的挑战，并指出了一些旨在解决这些缺点的未来研究方向。

理论基础

尽管在各种任务和数据集上都取得了巨大的成功，图 SSL 仍然缺乏理论基础来证明其有用性。大多数现有方法主要是凭直觉设计并通过经验实验进行评估。尽管 MI 估计理论 [65] 支持一些关于对比学习的工作，但 MI 估计器的选择仍然依赖于实证研究 [14]。迫切需要为图 SSL 建立坚实的理论基础。希望弥合经验 SSL 和基础图论之间的差距，包括图信号处理和谱图论。

可解释性和鲁棒性

Graph SSL 应用程序可能对风险敏感且与隐私相关（例如，欺诈检测），一个可解释且健壮的 SSL 框架对于适应此类学习场景具有重要意义。然而，大多数现有的图 SSL 方法仅旨在使用黑盒模型在下游任务上达到更高的性能，而忽略了学习表示和预测结果的可解释性。此外，除了一些考虑鲁棒性问题的开创性工作[17]和[18]外，大多数图SSL方法假设输入数据是完美的，尽管现实世界的数据通常是有噪声的，gnn容易受到对抗性攻击。探索可解释的、健壮的图形 SSL 方法将是未来一个有趣而实用的方向。

复杂图类型的代理任务

大多数当前的工作都集中在属性图的 SSL 上，只有少数关注复杂的图类型，例如异构图或时空图。对于复杂图，主要的挑战是如何设计代理任务来捕获这些复杂图的独特数据特征。一些现有方法使用 MI 最大化 [13] 进行复杂的图学习，这在利用数据中的丰富信息的能力方面受到限制，例如时空/动态图中的时间动态。未来的机会是为复杂的图形数据生成各种 SSL 任务，其中特定的数据特征是主要关注点。此外，将 SSL 扩展到更普遍的图类型（例如，超图）将是进一步探索的可行方向。

图对比学习的增强

在 CV [24] 的对比学习中，大量的增强策略（包括旋转、颜色扭曲、裁剪等）提供了图像数据的不同视图，在对比学习期间保持表示不变性。然而，由于图结构数据的性质（例如，复杂和非欧几里得结构），图上的数据扩充方案没有得到很好的探索，因此损害了基于图扩充的方法的有效性，如第 6.1 节所述。大多数现有的图增强考虑统一屏蔽/改组节点特征、修改边或其他替代方式，如子图采样和图扩散[76]，这在生成多个图视图时提供有限的多样性和不确定的不变性。为了弥合差距，自适应地执行图形扩充[69]、自动选择扩充[70]或通过挖掘丰富的底层结构和属性信息联合考虑更强的扩充样本[67]将是进一步研究的有趣方向。

学习多个代理任务

大多数现有的图形 SSL 方法通过解决一个代理任务来学习表示，而只有少数混合方法探索多个代理任务的组合。如之前的 NLP 预训练模型 [28] 和审查的混合方法所示，不同代理任务的集成可以从不同的角度提供不同的监督信号，这有助于图 SSL 方法产生更多的信息表示。因此，考虑多种代理任务的多样化和自适应组合的更先进的混合方法值得进一步研究。

更广泛的应用范围

图是许多领域中无处不在的数据结构；然而，在大多数应用领域，获取人工标签的成本往往很高。在这种情况下，图 SSL 在广泛的应用程序中具有广阔的前景，尤其是那些高度依赖领域知识来注释数据的应用程序。然而，大多数当前的实际应用只集中在少数几个领域（例如，推荐系统、异常检测和化学），这表明图 SSL 在大多数应用领域都具有未开发的潜力。有望将图 SSL 扩展到更广泛的应用领域，例如金融网络、网络安全、社区检测 [130] 和联邦学习。

11 结论

本文对图的自监督学习进行了全面的概述。我们提出了一个统一的框架，并进一步提供了一个系统的分类法，将图 SSL 分为四类：基于生成的、基于辅助属性的、基于对比的和混合方法。对于每个类别，我们提供数学总结、最新评论和方法之间的比较。更重要的是，我们收集了丰富的资源，包括图 SSL 方法的数据集、评估方法、性能比较和开源代码。我们的论文还介绍了图 SSL 的广泛实际应用。最后，我们提出了未来图 SSL 的开放挑战和有前途的研究方向。