TokenGT:Transformer是强大的图学习器

news2024/9/24 17:09:47

论文标题:Pure Transformers are Powerful Graph Learners

论文链接:https://arxiv.org/abs/2207.02505

论文来源:NIPS 2022

一、概述

由于Transformer的完全注意力架构接收、处理和关联任意结构的输入和输出的能力,消除了将特定于数据和任务的归纳偏差融入网络架构的需要,这使得其在NLP、CV等诸多领域成为了通用架构。与大规模训练相结合,它为构建一个通用模型开辟了新的篇章,该模型可以解决涉及多种数据模式甚至混合模式的广泛问题。

在图学习领域,受这些突破的启发,许多研究尝试将自注意力机制结合到之前以消息传递为主的图神经网络(GNN)架构中。然而,由于跨节点的全局自注意力不能反映图结构,这些方法引入了特定于图的架构修改。这些方法包括 

①限制自注意力只关注节点的局部邻域; 

②使用全局自注意力与消息传递GNN相结合; 

③通过attention的偏置将边信息注入全局自注意力机制中。

尽管性能不错,但就通用性而言,这样的修改可能是一个限制约束,特别是考虑到未来与多任务和多模态通用注意力架构的集成。此外,由于其偏离纯粹的自注意力机制,这些方法可能会继承消息传递的问题,如过平滑,并且与有用的工程技术不兼容,例如为标准自注意力开发的linear attention。

在本文中我们采用标准的Transformer架构,将其直接应用在图上。我们将所有的节点和边看做独立的token,并且使用相应的token-wise embedding来增强(augment)他们,最后将这些token作为标准Transformer的输入。模型命名为Tokenized Graph Transformer (TokenGT),该模型与用在语言和视觉上的Transformer相同,每个节点或边都被视为一个token,类似于句子中的word或图像中的patch。本文也证明了这种简单的方法在理论和实践中都能成为强大的图学习器。在这篇博客中只介绍方法部分。

本文的一个关键理论结果是我们证明了通过适当的token-wise embedding,节点和边token上的自注意力可以近似图上的任何置换等变线性算子(permutation equivariant linear operator)。另外,我们还发现一种非常简单的embedding就可以实现这种精确的近似。这提供了一个坚实的理论保证,通过embedding和足够的注意力头,Transformer至少具备二阶不变图网络(2-IGN)一样的表达能力,这已经超过了所有的消息传递GNN的能力。这赋予了模型至少与二维Weisfeiler-Lehman (WL)图同构检验相当的表达能力,这对于现实时间的图数据已经是足够的了。我们进一步将我们的理论结果扩展到具有k阶超边的超图上,表明具有k阶广义token embedding的Transformer至少与k-IGN和k-WL测试一样具有表达能力。

二、方法

TokenGT是一个纯Transformer的架构,使用token-wise embedding来表征图信息,包括node identifier和type identifier两部分。对于一个图,和条边,以及节点和边的特征。在TokenGT中,我们将图的每个节点和边当做一个独立的token(也就是说一共有个token),其特征也就是。

一种朴素的处理图的方法是直接将输入给Transformer,然而这是不合适的,因为图的连通性被丢弃了。为了能够完整地表示图信息,TokenGT采用一种token-wise embedding来增强,具体的,也就是使用标准正交的node identifier和可训练的type identifier来编码一个token是一个节点还是一条边。本文证明了采用这样一种简单表示方法的Transformer具有很强的Graph学习能力。

  1. Node Identifiers

TokenGT采用的token-wise embedding的第一个部分是标准正交的node Identifier,用来表示给定的输入图的连通结构。对于一个输入图,我们首先提供个node-wise的标准正交向量作为node Identifier,然后按照以下方式来增强图的token特征向量: 

①对于每个节点,增强变成; 

②对于每条边,增强变成。

直观地来看,Transformer可以通过这些增强的token来完全识别图的连通结构,这是因为比较两个token之间的node Identifier可以揭示它们的关联信息(incidence information)。举例来说,对于一条边是否与节点相连,当且仅当时才有否则为。这允许Transformer识别和利用图的连通性结构,例如,当局部的信息很重要时,通过对相关联的pair对施加更多权重。

TokenGT对Node Identifier矩阵的唯一要求是标准正交,因此在实际应用中有多种选择,本文列举了两种: 

①正交随机特征(Orthogonal random features, ORFs),也就是对随机高斯矩阵进行QR分解得到Q矩阵,采用的行向量。 

②对图的拉普拉斯矩阵进行特征分解,然后采用的行向量。

ORFs并没有编码任何图结构信息,这是因为它们是完全随机的。这意味着基于ORFs的node Identifier只需要从node Identifier提供的关联信息中编译和识别图结构。虽然这是很有挑战性的,但是实验结果表明Transformer具备这样的能力。

与ORFs相比,拉普拉斯特征向量提供了一种图的positional embeddings,它描述了图上节点之间的距离。实验结果显示拉普拉斯特征向量比ORFs展示出更好的性能,这是因为其编码了位置信息。拉普拉斯特征向量的一个有趣的方面是,它们可以被看作是NLP Transformer对正余弦位置编码的推广,因为一维链图的特征向量是正弦和余弦函数。因此,通过选择拉普拉斯特征向量作为node Identifier,TokenGT可以被解释为涉及关系结构的输入的NLP Transformer的直接扩展。

  1. Type Identifiers

Token-wise embedding的第二个部分是可训练的type Identifier,用于标识一个token是节点还是边。对于一个输入图,首先准备一个可训练的参数矩阵,包含两个type Identifier和,分别对应节点和边。然后对上面增强过的token继续进行增强: 

①对于每个节点,增强变成; 

②对于每条边,增强变成。

这些embedding提供了关于给定token是节点还是边的信息,这是至关重要的,例如,当注意力头试图专门关注节点token而忽略边token时。

  1. Main Transformer

有了node Identifier和type Identifier,现在我们可以得到输入给Transformer的特征向量,将通过一个参数矩阵映射到维就可以输入给Transformer了。对于图级的预测任务,TokenGT会加入一个特殊token[graph]与其对应的可训练的embedding,这类似于BERT和ViT的做法。因此在面对图级任务时,模型的输入为。

  1. 归纳偏差

类似于语言和视觉领域的Transformer模型,TokenGT将输入的节点和边视为独立的token,并对它们应用自注意力。与当前的图神经网络(GNN)相比,这种方法导致了更少的归纳偏差,其中稀疏图结构或者更基本的图的排列对称性被故意整合到每一层中。对于TokenGT,这些信息完全作为输入的一部分,通过token-wise embedding提供,模型必须学会如何从数据中解释和利用这些信息。尽管这种弱归纳偏差可能会引发关于模型表达能力的质疑,但本文的理论分析表明,得益于token-wise embedding和自注意力的表达能力,TokenGT是一个强大的图学习器。

三、实验

  1. 大规模图回归任务

d8925e5cce1385e80e87a3f4eaebcdf2.png
大规模图
  1. 每层的Attention距离

b40d08de974a233e5a636ce193f44cd1.png
每层的Attention距离

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/505332.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

(五)如何实现TCP连接传输用户个人资料及头像(Base64编码)

文章目录 一、引言1.1 即时通信系统中用户个人资料的重要性1.2 使用TCP连接传输用户个人资料的基本原理及Base64编码的应用 二、实现TCP连接传输用户个人资料2.1 使用QTcpSocket和QTcpServer类实现TCP连接关键代码展示 2.2 实现用户个人资料的传输关键代码展示 三、解码接收到的…

分享31个游戏源代码总有一个是你想要的

下载地址:分享31个游戏源代码总有一个是你想要的(亲测每一个均可用) 分享13个游戏源代码总有一个是你想要的 收集整理不容易老铁支持我动力! 下面是项目的名字,我放了一些图片,大家下载后可以看到。 c#版植物大战僵尸 Html5网页…

启智收获优秀合作伙伴奖,再次协办千万奖金的昇腾AI创新大赛2023

5月6日-7日,以“创未来 享非凡”为主题的鲲鹏昇腾开发者峰会2023在东莞松山湖举办。 6日晚间,在著有“欧洲小镇”美名的溪流背坡村其中一处迷人景点湖心广场处,华为举办了一场“鲲鹏昇腾开发者之夜”的晚会盛宴,有绚烂灯光下的闪耀…

甘特图控件DHTMLX Gantt入门使用教程【引入】:dhtmlxGantt 与 ASP.NET MVC(上)

DHTMLX Gantt是用于跨浏览器和跨平台应用程序的功能齐全的Gantt图表。可满足项目管理应用程序的大部分开发需求,具备完善的甘特图图表库,功能强大,价格便宜,提供丰富而灵活的JavaScript API接口,与各种服务器端技术&am…

6. 构造函数和析构函数

一、对象的初始化和清理 C中的面向对象来源于生活,每个对象也都会有初始设置以及对象销毁前的清理数据的设置,对象的初始化和清理也是两个非常重要的安全问题 一个对象或者变量没有初始状态,对其使用后果是未知的使用完一个对象或变量&#x…

利用LSTM(Long Short-Term Memory)进行回归预测的原理和python代码

文章目录 一、LSTM(Long Short-Term Memory)是什么?二、使用LSTM进行回归预测时需要以下几个步骤1.数据预处理:2.构建LSTM模型:3.模型训练:4.模型预测: 三、Python实现的简单LSTM回归预测程序代…

复用,多址的区分以及其涉及的相关数据速率

复用技术 为了让尽可能多的手机使用同一个频段,无线通信设计了多址复用技术: 时分多路复用(Time Division Multiplexing,TDM)要求各个子通道按时间片轮流地占用整个带宽。时间片的大小可以按一次传送一位、一个字节或一个固定大…

Hudi学习1:概述

Hudi 概念 Apache Hudi 是一个支持插入、更新、删除的增量数据湖处理框架,有两种表类型:COW和MOR,可以自动合并小文件,Hudi自己管理元数据,元数据目录为.hoodie。 Hudi提供表、事务、高效的追加/删除、高级索引、流接收…

【全栈第一课】微信小程序从入门到精通

微信小程序 1. 环境准备2. 小程序结构目录2.1 小程序和传统web文件结构对比2.2 基本的项目目录 3. 配置文件JSON3.1 [全局配置app.json](https://developers.weixin.qq.com/miniprogram/dev/framework/config.html)3.2 [页面配置page.json](https://developers.weixin.qq.com/m…

【标准化方法】(2) Layer Normalization 原理解析、代码复现,附Pytorch代码

大家好,今天和各位分享一下深度学习中常见的标准化方法,在 Transformer 模型中常用的 Layer Normalization,从数学公式的角度复现一下代码。 看本节前建议各位先看一下 Batch Normalization:https://blog.csdn.net/dgvv4/article…

用友携国资国企走进浙江龙游,共探区县国资智慧监管新样板

近日,由龙游县国有资产经营有限公司指导,用友网络科技股份有限公司(以下简称:用友网络)主办的“成为数智企业 迈向高质量发展——2023走进龙游数智化观摩研讨会”在浙江龙游成功举办!全国近百位国资国企负责…

Cocos Creator 3.x 热更新,使用chatgpt快速定位解决问题

为什么要使用app热更 使用 app 热更的主要原因是可以快速地向用户推送应用程序的更新版本,同时也可以减少应用程序更新时需要用户手动下载和安装的次数,从而提高用户体验和应用程序的可维护性。以下是一些使用 app 热更的好处: 快速发布更新…

react初始化配置rem,less,@,本地代理,通配符,视口单位等

初始化项目之后,项目配置中默认配置的是scss 想用less就需要单独配置了,在做一个完整的项目情况下create-react-app搭出来架子的配置往往是不够的至少需要简单配置以下信息 暴露webpack之后会增加很多文件和依赖配置,有些时候并不想把它暴露出…

阿里云镜像区别公共镜像、自定义、共享、云市场和社区镜像介绍

阿里云服务器镜像根据来源不同分为公共镜像、自定义镜像、共享镜像、云市场镜像和社区镜像,一般没有特殊情况选择公共镜像,公共镜像是阿里云官网提供的正版授权操作系统,云市场镜像是在纯净版操作系统的基础上预装了相关软件及运行环境&#…

自动修改文章的软件-文章原创软件

免费版自动修改文章的软件 免费版自动修改文章的软件是一种又快速、易用且免费的文章修改软件,可以帮助用户批量修改文章和图文,并为用户提供高质量的修改服务。用户仅需上传待修改的文章文件,软件就能自动检测出文章中的语法、拼写错误和表…

开发人员如何理解《辟邪剑谱》的“前8个字”

辟邪剑谱可以说是武林至宝,人人都想得到,让自己冲破三流侠客的行列。得到的人,心里激动不已,得等到四下无人的时候才敢偷偷去练。但奈何最前面有8个字被折叠起来了,很多人也曾得到过,但一直没看到这前8个字…

【shell函数】

目录 一、shell函数1、shell函数的定义 二、函数传参三、阶乘四、函数实验题目 一、shell函数 使用函数可以避免代码重复 使用函数可以将大的工程分割为若干小的功能模块,代码的可读性更强 1、shell函数的定义 函数返回值: return表示退出函数并返回一个退出值&…

Linux | 学习笔记(适合小白)

操作系统概述: 计算机是由硬件和软件这两个主要部分组成的操作系统是软件的一类,主要作用是协助用户调度硬件工作,充当用户和计算机硬件之间的桥梁常见的操作系统:PC端:Windows,Linux,MacOS&…

ShardingSphere系列一(MySQL主从架构及读写分离实战(搭建主从集群、MySQL高可用方案MHA、分库分表概念))

文章目录 1. 搭建主从集群1.1 概念1.2 同步的原理1.3 搭建主从同步实战1.3.1 配置master主库1.3.2 配置slave从库1.3.3 主从集群测试 1.4 主从同步扩展1.4.1 主库同步与部分同步(同步范围限制)1.4.2 读写分离配置1.4.3 其他集群方式 1.5 GTID同步集群1.6…

Linux的这七大认识误区,你千万别有!

导读本文罗列了大家对Linux的七大认识误区,看看其中那个是你也出现过的。千万别让这些先入为主的观点断送了你体验新事物的机会。 Linux的受众群体并不大。对还是错? 错!大错而特错。 我承认,Linux的实际用户数量很难统计,因为…