【intro】图注意力网络(GAT)

news2025/1/11 12:37:11

论文阅读

https://arxiv.org/pdf/1710.10903

abstract

GAT,作用于图结构数据,采用masked self-attention layers来弥补之前图卷积或类似图卷积方法的缺点。通过堆叠layers,让节点可以添加其邻居的特征,我们就可以给不同的邻居节点不同的权重,而这一步操作不需要使用任何昂贵的矩阵计算(比如求逆矩阵),也不需要依赖对图结构的了解。

可以很容易地应用于inductive,transductive 问题(归纳、直推)。

introduction

CNN:grid-like structure, efficiently reuse their local filters,  with learnable parameters, by applying them to all  the input positions. 

但是很多任务的数据并不能表示成grid-like structure。

->GNN->两种方案:spectral approaches,non-spectral approaches(谱方法、非谱方法)

  1. spectral approaches
    采用图的谱表示方法,已经被成功应用于node classification。依赖于laplacian eigenbasis(拉普拉斯特征基),而laplacian eigenbasis又依赖于图结构,因此在一个图结构上训练的模型并不能直接应用于另一种结构的图。
  2. non-spectral approaches
    定义一个算子,使其能够在不同大小的邻域上工作并且保证CNN的权值共享。

->注意力机制:允许不同大小的输入,专注于输入中最相关的部分来做决策。->通过邻居,找到节点的hidden representation

GAT architecture

graph attentional layer

输入是一系列节点特征:

h = \{ \vec{h_1}, \vec{h_2}, \cdot \cdot \cdot, \vec{h_N} \}, \vec{h_i}\in \mathbb{R}^F

这里N表示节点的数量,F表示每个节点的特征的数量

而这一层会产生一系列新的节点特征(这里特征的数量可能不同了):

{h}' = \{ \vec{​{h_1}'}, \vec{​{h_2}'},\cdot \cdot \cdot , \vec{​{h_N}'} \}, \vec{​{h_i}'} \in\mathbb{R}^{​{F}'}

为了获得足够的表达能力将输入的特征转换到更高阶的特征,我们至少需要一个可学习的线性变换->因此出事步骤是一个共享的线性变换,将一个权重矩阵W \in \mathbb{R}^{​{F}'\times F}应用于所有的节点。紧接着,我们对节点使用self-attention:a:\mathbb{R}^{​{F}'} \times \mathbb{R}^{F} \rightarrow \mathbb{R}

计算注意力系数:e_{ij}=a(W\vec{h_i}, W\vec{h_j})

这表明了节点j的特征对节点i的重要程度。->这就允许了每个节点都可以影响其他的节点,从而放弃所有的结构信息。我们通过masked attention(对于节点j \in N_i只计算e_{ij},这里N_i表示节点i在图中的一些邻居->对于对于属于i的邻居的j,只计算ij之间的关系)将其引入图结构。这里邻居指的是节点i的一阶邻居,并且包含了节点i。为了让不同节点之间的系数更好比较,做normalization(归一化)

\alpha _{ij} = softmax_j(e_{ij}) = \frac{exp(e_{ij})}{\sum_{k \in N_i}^{}exp(e_{ik})}

这里的注意力机制a是一个单层的前馈神经网络,用一个权重向量\vec{a} \in \mathbb{R}^{2{F}'}进行参数化,之后使用LeakyReLU做非线性。->注意力机制的系数可以表示为:

\alpha _{ij} = \frac{exp(LeakyReLU(\vec{a}^T [W\vec{h}_i || W\vec{h}_j] ))}{\sum_{k \in N_i}^{} exp(LeakyReLU(\vec{a}^T [W\vec{h}_i || W\vec{h}_k] ) )) }

这里T表示转置,||表示连接操作

一旦得到归一化的注意力系数,酒可以用于计算计算与之对应的特征的线性组合。为了能够作为每个节点最终的输出特征(在使用一个潜在的非线性\sigma之后):

\vec{​{h_i}'} = \sigma (\sum_{j \in N_i}^{} \alpha_{ij} W \vec{h}_j )

为了稳定自我注意的学习过程,使用multi-head。K个独立注意机制执行表达式\vec{​{h_i}'} = \sigma (\sum_{j \in N_i}^{} \alpha_{ij} W \vec{h}_j )的变换,然后将它们的特征连接起来,得到如下输出特征表示:

这里||表示连接,\alpha _{ij} ^k表示由第k个注意力机制(a^k)和于输入的线性变换相关的权重矩阵W^k计算的归一化注意力参数。最后返回的输出{h}'中的每个节点包含K{F}'特征(而不是{F}')。

如果我们在网络的最后一层使用multi-head attention,这时,连接就显得不再好用了,这时我们采用的是取平均,并在之后应用非线性:

\vec{​{h_i}'} = \sigma\left ( \frac{1}{K} \sum_{k=1}^{K} \sum_{j \in N_i}^{} \alpha_{ij}^k W^k \vec{h_j} \right )

如上图所示右侧为多头图注意力层(multi-head graph attentional layer)

comparisons to related work

优点

1. 计算高效:self-attention layer上的操作可以在所有边上并行执行,并且对于输出特真多计算可以在节点间并行计算。并且不需要昂贵的特征分解或者类似的昂贵的矩阵计算。

2. 与GCN相比,隐式允许在同一片邻域中赋不同的权重->model capacity↗️↗️

3. 共享。因此,它不依赖于对全局图结构或所有节点(特征)的预先访问(这是许多先前技术的限制)。->不需要图是无向图,并且可以适用于归纳式学习,将模型应用于训练时没有见过的图。

4. 不假设有任何排序

5. 使用节点特征进行相似性计算,而不是节点的结构属性(这将假设预先知道图形结构)。

补充

论文后面的部分就是实验了。

这里摘录一些博客的内容

向往的GAT(图注意力网络的原理、实现及计算复杂度) - 知乎

与GCN的联系与区别

无独有偶,我们可以发现本质上而言:GCN与GAT都是将邻居顶点的特征聚合到中心顶点上(一种aggregate运算),利用graph上的local stationary学习新的顶点特征表达。不同的是GCN利用了拉普拉斯矩阵,GAT利用attention系数。一定程度上而言,GAT会更强,因为 顶点特征之间的相关性被更好地融入到模型中。

为什么GAT适用于有向图?

我认为最根本的原因是GAT的运算方式是逐顶点的运算(node-wise),这一点可从公式(1)—公式(3)中很明显地看出。每一次运算都需要循环遍历图上的所有顶点来完成。逐顶点运算意味着,摆脱了拉普利矩阵的束缚,使得有向图问题迎刃而解。

为什么GAT适用于inductive任务?

GAT中重要的学习参数是N_ia(\cdot ),因为上述的逐顶点运算方式,这两个参数仅与1.1节阐述的顶点特征相关,与图的结构毫无关系。所以测试任务中改变图的结构,对于GAT影响并不大,只需要改变 N_i,重新计算即可。

与此相反的是,GCN是一种全图的计算方式,一次计算就更新全图的节点特征。学习的参数很大程度与图结构相关,这使得GCN在inductive任务上遇到困境。

下面谈谈我对这一段的理解吧。

首先,第一个GCN和GAT都利用了图的结构关系,区别在于,GCN中节点i的邻域中节点的重要性是图结构确认时就已经定下的,并不是需要学习的参数。在前面的学习中也能看出,一个节点j对节点i越专心,就意味着这个节点天然会分到更大的权重。这一特点同样会影响应用与有向图,假设一个场景,我在微博上关注了一个明星A,并且我很专一,只关注明星A,并且只和明星A互动,如果laplacian,那我就会分到超大的权重,这显然是不合理的。

N_i表示的是节点i的邻域(实际上是节点i的一部分邻居节点),a表示的是一个映射。

我们回顾一下前面的内容

e_{ij}=a(W\vec{h_i}, W\vec{h_j})

这是在干什么呢?->对于顶点i,计算其邻居与其之间的相似系数

深入理解图注意力机制 - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1651154.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java-串口通讯-连接硬件

串口通信(Serial Communications)的概念非常简单,串口按位(bit)发送和接收字节。尽管比按字节(byte)的并行通信慢,但是串口可以在使用一根线发送数据的同时用另一根线接收数据。它很…

04.2.配置应用集

配置应用集 应用集的意思就是:将多个监控项添加到一个应用集里面便于管理。 创建应用集 填写名称并添加 在监控项里面找到对应的自定义监控项更新到应用集里面 选择对应的监控项于应用集

45 套接字

本节重点 认识ip地址,端口号,网络字节序等网络编程中的基本概念 学习scoket,api的基本用法 能够实现一个简单的udp客户端/服务端 能够实现一个简单的tcp客户端/服务器(但链接版本,多进程版本,多线程版本&a…

时间复杂度与空间复杂度(上篇)

目录 前言时间复杂度 前言 算法在运行的过程中要消耗时间资源和空间资源 所以衡量一个算法的好坏要看空间复杂度和时间复杂度, 时间复杂度衡量一个算法的运行快慢 空间复杂度是一个算法运行所需要的额外的空间 一个算法中我们更关心的是时间复杂度 时间复杂度 时…

【快捷部署】023_HBase(2.3.6)

📣【快捷部署系列】023期信息 编号选型版本操作系统部署形式部署模式复检时间023HBase2.3.6Ubuntu 20.04tar包单机2024-05-07 注意:本脚本非全自动化脚本,有2次人工干预,第一次是确认内网IP,如正确直接回车即可&#…

什么软件能在桌面提醒我 电脑桌面提醒软件

在这个信息爆炸的时代,我们每个人每天都需要处理海量的信息和任务。有时候,即便是再细心的人,也难免会因为事情太多而忘记一些重要的细节。 我就经常遇到这样的问题,明明记得自己有个重要的会议要参加,或者有个关键的…

扭蛋机小程序在互联网浪潮中的崛起与发展

随着互联网的快速发展,各种线上娱乐方式层出不穷,其中扭蛋机小程序凭借其独特的魅力,在互联网浪潮中迅速崛起并发展壮大。扭蛋机小程序不仅打破了传统扭蛋机的地域限制和操作不便,还融入了丰富的互动元素和便捷性,满足…

纯血鸿蒙APP实战开发——自定义安全键盘案例

介绍 金融类应用在密码输入时,一般会使用自定义安全键盘。本示例介绍如何使用TextInput组件实现自定义安全键盘场景,主要包括TextInput.customKeyboard绑定自定义键盘、自定义键盘布局和状态更新等知识点。 效果图预览 实现思路 1. 使用TextInput的cu…

为什么你的企业需要微信小程序?制作微信小程序有什么好处?

什么是小程序? WeChat小程序作为更大的WeChat生态系统中的子应用程序。它们就像更小、更基本的应用程序,在更大的应用程序(WeChat)中运行。这些程序为用户提供了额外的高级功能,以便在使用WeChat服务时加以利用。根据…

linux系统 虚拟机的安装详细步骤

window: (1) 个人:win7 win10 win11 winxp (2)服务器:windows server2003 2008 2013 linux: (1)centos7 5 6 8 (2)redhat (3)ubuntu (4)kali 什么是linux: 主要是基于命令来完成各种操作,类似于DO…

0基础学PHP有多难?

php作为web端最佳的开发语言,没有华而不实,而是经受住了时间考验,是一门非常值得学习的编程语言。 目前市场上各种网站、管理系统、小程序、APP等,基本都是使用PHP开发的,也侧面反映了PHP的需求以及学习的必要性&…

UTONMOS:真正的“游戏元宇宙”还有多遥远?

元宇宙来源于科幻小说的概念,已成为真实世界中的流行语。围绕这一新兴概念,一场产、学、研的实践正在展开。 数字化转型中,元宇宙能否担当大任?这些新概念在中国语境下如何落地?本文将深入挖掘国内元宇宙游戏产业的发…

数据结构-线性表-应用题-2.2-6

从有序顺序表中删除所有其值重复的元素,使表中的元素的值均不同 有序顺序表,值相同的元素一定在连续的位置上,初始时将第一个元素是为非重复的有序表,之后依次判断后面的元素是否与前面的非重复表的最后一个元素相同,…

当AI遇见现实:数智化时代的人类社会新图景

文章目录 一、数智化时代的机遇二、数智化时代的挑战三、如何适应数智化时代《图解数据智能》内容简介作者简介精彩书评目录精彩书摘强化学习什么是强化学习强化学习与监督学习的区别强化学习与无监督学习的区别 前言/序言 随着科技的日新月异,我们步入了一个前所未…

大数据硬核技能进阶:Spark3实战智能物业运营系统

Spark Streaming 是 Spark 的一个子模块,用于快速构建可扩展,高吞吐量,高容错的流处理程序。具有以下特点: 大数据硬核技能进阶:Spark3实战智能物业运营系统(网盘超清) 通过高级 API 构建应用程序,简单易…

【详细介绍下图搜索算法】

🎥博主:程序员不想YY啊 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益,如有不足之处,欢迎在评论区提出…

技术分享-上海泗博MPI转以太网模块MPI-131实现Node-RED直接访问西门子PLC数据

上海泗博自动化MPI-131是一款用于西门子S7系列PLC(包括S7-200、S7-300、S7-400)以及西门子数控机床(如840D、840DSL等)的以太网通讯模块,无需编程,即插即用,支持通过模块上下载PLC程序和数据监控…

翻译《The Old New Thing》 - What is the deal with the ES_OEMCONVERT flag?

What is the deal with the ES_OEMCONVERT flag? - The Old New Thinghttps://devblogs.microsoft.com/oldnewthing/20050719-12/?p34893 Raymond Chen 在 2005年07月19日 ES_OEMCONVERT 标志是怎么回事? 简要 文章讨论了 ES_OEMCONVERT 编辑控件风格的起源和用途…

DNS域名解析服务的部署及优化方案

实验要求: 1.配置2台服务器要求如下: a)服务器1: 主机名:dns-master.timinglee.org ip地址: 172.25.254.100 配置好软件仓库 b)服务器2: 主机名:dns-slave.timinglee.org ip地址&am…

element-plus el-time-picker 时间段选择(可多选)

实现一个如图的时间段选择器 处理好时间回显逻辑&#xff0c;组件内[‘’,‘’],后端数据[{startTime:‘’,endTime:‘’}]处理好加和减的显示逻辑 <template><div><div v-for"(item, index) in currentChoose" :key"index" class"fl…