介绍
循环图神经网络(Recurrent Graph Neural Network,RGNN)。在标准神经网络中,连续的学习权重层用于从输入张量中逐步提取更高级别的特征。在用于计算机视觉的神经网络中,低级特征(如短直线和曲线)的存在是由较早的层识别的,而高级特征(如复合形状)的存在是由较晚的层识别的。在被这些顺序层处理之后,所产生的高级特征可以提供给softmax层或单个神经元,以进行分类、回归或一些其他的下游任务(downstream task)。
注:短直线等举例仅仅是为便于读者理解,在计算机的实际操作过程中,其识别的“特征”在人看来是完全无序且杂乱的。
同样地,最早的GNN通过使用一系列的特征提取操作来从图中提取高层次的特征表示,然后将这些高层次的特征路由到输出函数。换句话说:它们将输入处理为有用的嵌入,然后将嵌入处理为有用的输出,使用两个不同的处理阶段。这些早期技术存在局限性:一些算法只能处理有向无环图(DAGs),其他算法要求输入图具有“超源”(即有指向其他图中所有顶点的有向路径)的顶点,还有一些技术需要采用启发式方法来处理某些图的循环性。
通常,这些早期的递归方法依赖于将图的特殊情况“展开”为有限树(递归等价),然后可以通过递归神经网络将其处理为有用的嵌入。递归GNN对此进行了扩展,从而提供了一种可应用于泛型图的解决方案。RGNN不是通过递归的编码网络为整个输入图创建嵌入,而是通过消息传递这一信息传播框架在顶点级别创建嵌入,这将在本节定义。
循环计算嵌入
注:此处所说嵌入,一般指的是对于(节点、边、状态的)信息进行向量化表示,嵌入为取embedding的直译意。
RGNN使用称为转移函数的确定性共享函数计算输入图中每个顶点的嵌入。它被称为过渡函数,因为它可以解释为从邻域的当前表示计算邻域的下一个表示。该转换函数可以对称地应用于任何顶点,即使顶点的邻域大小可能是可变的。这个过程如图2所示,其中过渡函数𝑓为周围的邻域计算每个顶点的嵌入。
这样,对于任意一个所给节点,其第k个嵌入的值依赖于以下几个量:
- 中心节点的特征
- 所有存在的邻接边的特征
- 所有相邻顶点的特征
- 所有相邻节点上一次迭代的嵌入
对于一个简单输入图G(V, E),具有|V| = 4, |E| = 4的RGNN正向传递。G经过𝑘层的处理。在每一层中,每个顶点的特征(绿色),邻域特征(黄色),以及前一个隐藏层(紫色)由状态转移函数𝑓处理并聚合,从而产生g的连续嵌入。注意,邻域特征必须聚合为固定的嵌入大小,否则𝑓将需要处理可变的输入大小。这将重复,直到嵌入收敛(即,连续嵌入之间的变化没有超过某个停止阈值)。在此阶段,嵌入被提供给执行某些下游任务的输出函数𝑔——在这种情况下,任务是顶点分类问题。请注意,𝑓和𝑔可以实现为神经网络,并通过展开的计算图通过监督误差信号的反向传播进行训练。请注意,在第𝑘层处理之后,每个顶点的嵌入包含了来自最大𝑘' hops '的信息。
为了反复应用这个学习到的转换函数来计算连续的嵌入,𝑓必须具有固定数量的输入和输出变量。那么它怎么依赖于邻近邻域呢?邻近邻域的大小可能会根据我们在图中的位置而变化。有两个简单的解决方案,第一个是设置“最大邻域大小”,并在处理具有不存在邻域的顶点时使用null向量。第二种方法是以某种排列不变的方式聚合所有邻域特征,从而确保图中的任何邻域都由一个固定大小的特征向量表示。虽然这两种方法都是可行的,但第一种方法不能很好地扩展到“无标度图”,这种图的度分布遵循幂律。由于许多现实世界的图(例如社交网络)是无标度的,我们在这里将使用第二种解决方案。在数学上,这可以表述为方程(1)
我们可以看到,在这个公式方程1下,𝑓是很好的定义。它接受四个特征向量,它们都有定义的长度,无论考虑的是图中的哪个顶点或者是迭代重复计算的问题。这意味着过渡函数可以循环地应用,直到输入图中的所有顶点都达到稳定的嵌入。这个表达式可以被解释为在整个图中传递“消息”或特征;在每次迭代中,嵌入依赖于其邻居的特征和嵌入。这意味着,通过足够多的循环迭代,信息将在整个图中传播:在第一次迭代之后,任何顶点的嵌入编码了单条边范围内的邻域特征。在折中中,任何顶点的嵌入都是对邻域内两条边的特征进行编码,以此类推。迭代传递“信息”来生成图的编码是这个消息传递框架名字的来源。
注意,显式地将单位矩阵I𝑛添加到邻接矩阵A中是一种典型的行为,从而确保所有顶点都与自己相连(自环),这意味着一个顶点。此外,这允许我们通过迭代邻接矩阵的单行直接访问邻域。通常对修改后的邻接矩阵进行归一化,以防止不必要的嵌入缩放。