图卷积网络(GCN)

news2025/1/8 3:48:00

本文主要分为两部分,第一部分介绍什么是GCN,第二部分将进行详细的数学推导。

一、什么是GCN

1、GCN 概述

本文讲的GCN 来源于论文:SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS,这是在GCN领域最经典的论文之一。

我们可以根据这个GCN的图看到,一个拥有C个input channel的graph作为输入,经过中间的hidden layers,得到F个 output channel的输出。(注意本文讲的图都特指无向无权重的图。)

图卷积网络主要可以由两个级别的作用变换组成:

(1)graph level

例如说通过引入一些形式的pooling 操作 (see, e.g. Duvenaud et al., NIPS 2015),然后改变图的结构。但是本次讲过GCN并没有进行这个级别的操作。所以看到上图我们的网络结构的输出和输出的graph的结构是一样的。

(2)node level

通常说node level的作用是不改变graph的结构的,仅通过对graph的特征/(features/signals)X作为输入:一个N\times D的矩阵( N : 输入图的nodes的个数, D 输入的特征维度) ,得到输出Z:一个N\times F的矩阵(F输出的特征维度)。
a) 一个特征描述(feature description) x_{i}: 指的是每个节点 i的特征表示

b) 每一个graph 的结构都可以通过邻接矩阵A 表示(或者其他根据它推导的矩阵)

我们可以很容易的根据一个邻接矩阵重构出一个graph。 例如下图:G=(V,E),其中 V代表节点,E代表边

我们通过构造\left | V \right |\times \left | V \right |的矩阵可以得到邻接矩阵A , 其中A_{ij}=1如果节点i和节点j 相连,否则A_{ij}=0 , 我们根据graph可以得到A, 同理通过A也可以得到graph 的结构。

所以网络中间的每一个隐藏层可以写成以下的非线性函数:

H^{(l+1)}=f(H^{(l)},A)

其中输入层H(0)=X, 输出层H(L)=Z,L是层数。 不同的GCN模型,采用不同f(\cdot ,\cdot )函数。

2、模型定义

论文中采用的函数如下:

f(H^{(l)},A)=\sigma (\hat{D}^{-\frac{1}{2}}\hat{A}\hat{D}^{-\frac{1}{2}}H^{(l)}W^{(l)})

刚开始看的时候,都会被吓到!这个函数未免也太抽象了。但是我们先了解一下它在起的作用,然后再从头一步一步引出这个公式,以及为什么它起到了这些作用。

首先物理上它起的作用是,每一个节点下一层的信息是由前一层本身的信息以及相邻的节点的信息加权加和得到,然后再经过线性变换W以及非线性变换 \sigma() 。


我们一步一步分解,我们要定义一个简单的 f(H^{(l)},A)函数,作为基础的网络层。

我们可以很容易的采用最简单的层级传导( layer-wise propagation )规则

f(H^{(l)},A)=\sigma (AH^{(l)}W^{(l)})

我们直接将AH做矩阵相乘,然后再通过一个权重矩阵 W^{(l)} 做线性变换,之后再经过非线性激活函数 \sigma(\cdot ) , 比如说 ReLU,最后得到下一层的输入H^{(l+1)} 。

我们需要特别注意的是AH做矩阵相乘,这代表了什么意思呢?

我们先看看,对于下图。

假设每个节点x_{i}=[i,i,i,i], 那么在经过矩阵相乘之后,它会变成什么呢。

输入层的 x_{1}=[1,1,1,1] , 根据矩阵的运算公式我们可以很容易地得到下一层的该节点的表示x_{1}^{​{}'}=[7,7,7,7]  , 也很容易发现x_{1}^{​{}'}=x_{2}+x_{5} ,而 x_{2},x_{5}就是节点1的相邻节点。具体计算结果可以参考下面的代码。

A = torch.tensor([
    [0,1,0,0,1,0],
    [1,0,1,0,1,0],
    [0,1,0,1,0,0],
    [0,0,1,0,1,1],
    [1,1,0,1,0,0],
    [0,0,0,1,0,0]
])

H_0 = torch.tensor([
    [1,1,1,1],
    [2,2,2,2],
    [3,3,3,3],
    [4,4,4,4],
    [5,5,5,5],
    [6,6,6,6]
])

A.matmul(H_0)
>>>tensor([[ 7,  7,  7,  7],
        [ 9,  9,  9,  9],
        [ 6,  6,  6,  6],
        [14, 14, 14, 14],
        [ 7,  7,  7,  7],
        [ 4,  4,  4,  4]])

所以我们直到AH就是把通过邻接矩阵快速的方式,快速将相邻的节点的信息相加得到自己下一层的输入。

但是这就完美了吗?

  • 问题一:我们虽然获得了周围节点的信息了,但是自己本身的信息却没了(除非自己有一条边指向自己)。

我们采用的解决方案是,对每个节点手动增加一条self-loop 到每一个节点,即 \hat{A}=A+I , 其中I 是单位矩阵identity matrix。

  • 问题二:从上面的结果也可以看出,在经过一次的AH 矩阵变换后,得到的输出会变大,即特征向量 X的scale会改变,在经过多层的变化之后,将和输入的scale差距越来越大。

所以我们是否可以将邻接矩阵A做归一化使得最后的每一行的加和为1,使得 AH获得的是weighted sum。

我们可以将A的每一行除以行的和,这就可以得到normalized的A 。而其中每一行的和,就是每个节点的度degree。用矩阵表示则为:A=D^{-1}A , 对于A_{ij}=\frac{A_{ij}}{d_{i}}

我们还是按照上面图的graph来看。

  import torch

  A = torch.tensor([
      [0,1,0,0,1,0],
      [1,0,1,0,1,0],
      [0,1,0,1,0,0],
      [0,0,1,0,1,1],
      [1,1,0,1,0,0],
      [0,0,0,1,0,0]
  ], dtype=torch.float32)
  
  D = torch.tensor([
      [2,0,0,0,0,0],
      [0,3,0,0,0,0],
      [0,0,2,0,0,0],
      [0,0,0,3,0,0],
      [0,0,0,0,3,0],
      [0,0,0,0,0,1],
  ], dtype=torch.float32)
  
  hat_A = D.inverse().matmul(A)
  
  >>>hat_A
  tensor([[0.0000, 0.5000, 0.0000, 0.0000, 0.5000, 0.0000],
          [0.3333, 0.0000, 0.3333, 0.0000, 0.3333, 0.0000],
          [0.0000, 0.5000, 0.0000, 0.5000, 0.0000, 0.0000],
          [0.0000, 0.0000, 0.3333, 0.0000, 0.3333, 0.3333],
          [0.3333, 0.3333, 0.0000, 0.3333, 0.0000, 0.0000],
          [0.0000, 0.0000, 0.0000, 1.0000, 0.0000, 0.0000]])

但是在实际运用中我们采用的是对称的normalization: A={D}^{-\frac{1}{2}}{A}{D}^{-\frac{1}{2}}

对于 A_{ij}=\frac{A_{ij}}{\sqrt{d_{i}\sqrt{d_{j}}}}

这跟Laplacian Matrix 有关,下一部分会介绍。 我们可以发现

A_{0,1}=\frac{A_{0,1}}{\sqrt{d_{0}\sqrt{d_{1}}}}=\frac{1}{\sqrt{2\sqrt{}3}}=0.4082

  D_minus_sqrt = D.inverse().sqrt()
  D_minus_sqrt.matmul(A).matmul(D_minus_sqrt)
  >>>
  tensor([[0.0000, 0.4082, 0.0000, 0.0000, 0.4082, 0.0000],
        [0.4082, 0.0000, 0.4082, 0.0000, 0.3333, 0.0000],
        [0.0000, 0.4082, 0.0000, 0.4082, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.4082, 0.0000, 0.3333, 0.5774],
        [0.4082, 0.3333, 0.0000, 0.3333, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000, 0.5774, 0.0000, 0.0000]])

把这两个tricks结合起来,我们可以得到

f(H^{(l)},A)=\sigma (\hat{D}^{-\frac{1}{2}}\hat{A}\hat{D}^{-\frac{1}{2}}H^{(l)}W^{(l)})

其中 \hat{A}=A+I , \hat{D} 是\hat{A}的degree matrix。 而 \hat{D}^{-\frac{1}{2}}\hat{A}\hat{D}^{-\frac{1}{2}}是对A做了一个对称的归一化。

二、数学推导

1、Graph Laplacian

首先我们表示一个graph的方式有很多,我们可以用邻接矩阵,也可以用Incidence matrix。 这个matrix 中,每一行表示一个边,每一列表示一个节点。每一行中,边的节点的起点用记为1,边的终点记为-1。 我们将这个metrix 记为 C, 具体如下图。

那么 graph Laplacian 定义为: L(G)=C^{T}C

C = torch.tensor([
    [1,-1,0,0],
    [1,0,-1,0],
    [1,0,0,-1],
    [0,-1,1,0],
    [0,0,1,-1],
    [0,-1,0,1],
])
C.T.matmul(C)
>>>tensor(
       [[ 3, -1, -1, -1],
        [-1,  3, -1, -1],
        [-1, -1,  3, -1],
        [-1, -1, -1,  3]])

我们可以发现,对角线的值 , 其中如果 C_{j,i}=0 , 则其积 = 0,如果 C_{j,i}=1 或者C_{j,i}=-1 , 则其积 = 1。所以我们可以知道对角线代表的是每个节点的度(Degree)

对于非对角线的值  , 我们可以看出来,如果节点 i 和j没有相连,那么 C_{k,i}C_{k,j}=0否则 C_{k,i}C_{k,j}=-1 , 于是知道非对角线的值就是邻接矩阵的负值。

所以我们可以推导得到

L(G)=C^{T}C=D-A

如下图(注意这边W表示的是邻接矩阵)

总结来说:

具体计算参考下面的代码

C = torch.tensor([
    [-1,1,0,0,0,0], # 1-2
    [-1,0,0,0,1,0], # 1-5
    [0,-1,1,0,0,0], # 2-3
    [0,-1,0,0,1,0], # 2-5
    [0,0,-1,1,0,0], # 3-4
    [0,0,0,-1,1,0], # 4-5
    [0,0,0,-1,0,1], # 5-6
])
C.T.matmul(C)
>>>
tensor([[ 2, -1,  0,  0, -1,  0],
        [-1,  3, -1,  0, -1,  0],
        [ 0, -1,  2, -1,  0,  0],
        [ 0,  0, -1,  3, -1, -1],
        [-1, -1,  0, -1,  3,  0],
        [ 0,  0,  0, -1,  0,  1]])

我们需要知道 laplacian L(G) 的性质:

  •  L(G)是对称矩阵
  • L(G) 有实数的,非负的特征值(eigen values)
  • L(G) 有实数的,正交的特征矩阵(eigen vectors), i.e. U^{T}U=I

对此,我们假设 L(G) 的特征值为 \Lambda特征向量为 U :

LU=U\Lambda

LU^{T}U=U\Lambda U^{T}

L=U\Lambda U^{T}

  • 对于特征值我们有 \lambda _{n-1}\geqslant \lambda _{n-2}\geqslant\cdot \cdot \cdot \geqslant \lambda _{1}\geqslant \lambda _{0}\geqslant 0
  • 对称归一化的Laplacian (Symmetric normalized Laplacian)

其元素值,对角线为1,非对角线为 -\frac{1}{\sqrt{dev(v_{i})\sqrt{dev(v_{j})}}}


我们要知道两个函数的卷积可以由以下公式得到,具体参考

其中 F 代表傅立叶变换

而Graph Fourier变换对应的就是以下:

其中Graph Fourier 逆变换对应的就是以下:

其中U是laplacian L的特征矩阵 具体的对应关系:


我们知道普通的卷积公式:

那么相应的图卷积的公式为:

作为图的特征x的filter,我们希望它的作用域跟CNN一样,都是在中心节点附近的区域,所以我们定义 g是一个laplacian的函数 g(L) , 那么作用一次相当于传播一次周围邻居节点的信息。 

又因为 U^{T}L=U^{T}U\Lambda U^{T} =\Lambda U^{T} , 所以我们可以把 U^{T}g 看成是laplacian 特征值的函数 g_{\theta }(\Lambda )=diag(\theta ) , 参数为 \theta 。

所以图卷积在Fourier域上可以表示为:

我们知道 g_{\theta }(\Lambda )需要先计算laplacian matrix L的特征值,这涉及到大量的矩阵运算,所以文章借用了Chebyshev polynomials进行近似计算:

  • 其中 \tilde{\Lambda }=\frac{2}{\lambda _{max}}\Lambda -I_{N} , K 代表的是 K^{th}次Laplacian,即它取决于中心节点的最近的 K^{th} order 的邻居节点(邻居节点和中心节点的距离最大为K)。
  • T_{k}(x)=2xT_{k-1}(x)-T_{k-2}(x) , 其中T_{0}=1以及 T_{1}=x 。

我们回到最初的图卷积计算:

其中 \tilde{L }=\frac{2}{\lambda _{max}}L -I_{N}

我们知道论文中采用的传播邻居层数为1, 所以取 k=1 , 并且我们假设 \lambda _{max} = 2 , 可以得到:

实际运用中,为了防止overfitting以及减少操作,我们令 
\theta =\theta _{0}^{'}=-\theta _{1}^{'}

 得到: 

我们令 \hat{A}=A+I_{N} , 以及 

得到:

再加上激活函数\sigma, 我们获得了

其中H对应输入x , W对应参数\theta。 

三、ref

  • https://en.wikipedia.org/wiki/Laplacian_matrix
  • T. N. Kipf, M. Welling, Semi-Supervised Classification with Graph Convolutional Networks(ICLR 2017) [Link, PDF (arXiv), code, blog]
  • https://math.stackexchange.com/questions/1113467/why-laplacian-matrix-need-normalization-and-how-come-the-sqrt-of-degree-matrix

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1407164.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Java并发】聊聊活锁

在并发编程中,为了保证数据安全性,所以使用锁机制,syn lock cas 等方式保证,但是也从一定程度降低了性能。而除了这个方面,还引入了锁竞争,比如死锁、活锁。 【Java并发】聊聊死锁 避免死锁:避…

动静态库的理解、制作、使用。

一.动静态库的理解。 1.什么是库? 代码是无穷无尽的,当程序猿在写一些项目时,未必所有代码亲历亲为,他们可以在网上寻找大佬写过的一些有关需求的代码,这些代码可以让他们拿过来直接使用,而省去了许多精力…

Linux中文件属性的获取(stat、chmod、Istat、fstat函数的使用)

修改文件权限 函数如下&#xff1a; chmod/fchmod函数用来修改文件的访问权限: #include <sys/stat.h> int chmod(const char *path, mode_t mode); int fchmod(int fd, mode_t mode); 成功时返回0&#xff1b;出错时返回EOF 注意&#xff1a;在vmware和windows共享的文…

K8S的HPA

horiztal Pod Autoscaling&#xff1a;pod的水平自动伸缩&#xff0c;这是k8s自带的模块&#xff0c;它是根据Pod占用cpu比率到达一定的阀值&#xff0c;会触发伸缩机制 Replication controller 副本控制器&#xff1a;控制pod的副本数 Deployment controller 节点控制器&…

c++ mysql数据库编程(linux系统)

ubuntu下mysql数据库的安装 ubuntu安装mysql&#xff08;图文详解&#xff09;-CSDN博客https://blog.csdn.net/qq_58158950/article/details/135667062?spm1001.2014.3001.5501 项目目录结构 数据库及表结构 public.h //打印错误信息 #ifndef PUBLIC_h #define PUBLIC_H…

BIGVGAN: A UNIVERSAL NEURAL VOCODER WITHLARGE-SCALE TRAINING——TTS论文阅读

笔记地址&#xff1a;https://flowus.cn/share/a16a61b3-fcd0-4e0e-be5a-22ba641c6792 【FlowUs 息流】Bigvgan 论文地址&#xff1a; BigVGAN: A Universal Neural Vocoder with Large-Scale Training Abstract 背景&#xff1a; 最近基于生成对抗网络&#xff08;GAN&am…

JavaScript 执行上下文与作用域

执行上下文与作用域 ​ 执行上下文的概念在 JavaScript 中是颇为重要的。变量或函数的上下文决定了它们可以访问哪些数据&#xff0c;以及它们的行为。每个上下文都有一个关联的变量对象&#xff08;variable object&#xff09;&#xff0c; 而这个上下文中定义的所有变量和函…

Vue基础–列表渲染-key的原理

一、v-for列表渲染 1.列表渲染 在真实开发中&#xff0c;我们往往会从服务器拿到一组数据&#xff0c;并且需要对其进行渲染。 这个时候我们可以使用v-for来完成&#xff1b; v-for类似于JavaScript的for循环&#xff0c;可以用于遍历一组数据&#xff1b; 2.v-for基本使用…

QT发送request请求

时间记录&#xff1a;2024/1/23 一、使用步骤 &#xff08;1&#xff09;pro文件中添加network模块 &#xff08;2&#xff09;创建QNetworkAccessManager网络管理类对象 &#xff08;3&#xff09;创建QNetworkRequest网络请求对象&#xff0c;使用setUrl方法设置请求url&am…

142基于matlab的移动力过简支梁程序

基于matlab的移动力过简支梁程序&#xff0c;算法采用newmark-belta法&#xff0c;输出简支梁&#xff0c;求解静力位移&#xff0c;自振特性&#xff0c;动力特性。可调节简支梁参数。程序已调通&#xff0c;可直接运行。 142 matlab简支梁自振特性 (xiaohongshu.com)

java集合ArrayList和HashSet的fail-fast与fail-safe以及ConcurrentModificationException

在 java 的集合工具类中&#xff0c;例如对 ArrayList 或者 HashSet 进行删除元素后再遍历元素时&#xff0c;会抛出 ConcurrentModificationException 异常。 fail-fast ArrayList public class TestList {public static void main(String[] args) {ArrayList<Integer>…

02-echarts如何画轴心轨迹图

echarts如何画轴心轨迹图 一、创建图表盒子1、创建盒子2、定义数据1、定义x&#xff0c;y点数据2、集合x,y点数据3、组件使用1、引入2、编写获取半径方法2、编写获取角度方法3、转换角度&#xff0c;半径数组3、初始化图表方法4、调用方法 二、全部代码1、dataXY.js2、组件中代…

Qt 多次绘图

使用Qt 的时候发现&#xff1a; 背景&#xff1a;自己定义一个类&#xff0c;把它和某个ui文件绑定。(类似 Qt creator 默认创建的工程&#xff09;问题&#xff1a;当鼠标在窗口内单击的时候会触发2次绘图。&#xff1f;难道不应该是一次吗&#xff1f; 于是开始了如下的测试…

SQL Server多数据表之间的数据查询和分组查询

文章目录 一、多数据表之间的数据查询1.1内连接查询&#xff08;Inner join&#xff09;1.2 左外连接 (LEFT JOIN):1.3右外连接 (RIGHT JOIN):1.4. 全外连接 (FULL OUTER JOIN):1.5 交叉连接 (CROSS JOIN):1.6 自连接 (SELF JOIN):1.7 子查询: 二、分组查询2.1 分组查询2.2 查询…

ai伪原创生成器app,一键生成原创文章

近年来&#xff0c;随着人工智能技术的飞速发展&#xff0c;AI伪原创生成器App已经成为了许多写手和创作者们的新宠。这款AI伪原创生成器App以其一键生成原创文章的快速便捷性&#xff0c;正在引起广泛的关注和使用。下面跟随小编一起来了解下吧&#xff01; 随着互联网的普及&…

两千字讲明白java中instanceof关键字的使用!

写在开头 在过往的内容中&#xff0c;我们讲了不少的Java关键字&#xff0c;比如final、static、this、super等等&#xff0c;Java中的关键字非常之多&#xff0c;下图是整理的关键字集合 而我们今天要学习的就是其中的instanceof关键字&#xff01; instanceof的定义 inst…

共享wifi项目到底能不能做?

如今&#xff0c;互联网已经渗透到我们生活的方方面面&#xff0c;人们对WiFi的需求越来越大&#xff0c;已经成为人们不可或缺的一部分。在这样的背景下&#xff0c;共享WiFi项目应运而生&#xff0c;作为近年来兴起的创业选择&#xff0c;成为了越来越多创业者追逐的热门项目…

5分钟做自己的微信红包封面

文章目录 怎么制作自己的红包封面&#xff1f;开通红包封面的要求如下&#xff1a;收费情况制作具体网站&#xff1a;https://chatapi.onechat.fun/register?affYoU6 提交审核logo封面、挂件、气泡证明材料 发放红包封面其他 怎么制作自己的红包封面&#xff1f; 开通红包封面…

秒级弹性!探索弹性调度与虚拟节点如何迅速响应瞬时算力需求?

作者&#xff1a;吴昆 前言 在前面的文章《弹性调度助力企业灵活应对业务变化&#xff0c;高效管理云上资源》中&#xff0c;我们介绍了阿里云容器服务 ACK 弹性调度为了帮助客户解决在使用云上弹性资源时&#xff0c;面对的“难以差异化控制业务资源使用量&#xff0c;缩容时…

C语言第七弹---循环语句

✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】 循环语句 1、while循环1.1、if和while的对比1.2、while语句的执行流程1.3、while循环的实践1.4、练习 2、for循环2.1、语法形式2.2、for循环的执行流程2.3、for循…