图神经网络的新篇章:通用、强大、可扩展的图变换器

news2024/11/15 13:49:33

人工智能咨询培训老师叶梓 转载标明出处

图变换器(Graph Transformers, GTs)因其在处理节点间全局依赖关系方面的能力而受到广泛关注。然而,现有的GTs模型在处理大规模图时面临着计算复杂度高、泛化能力有限等问题。为了解决这些问题,蒙特利尔大学、麦吉尔大学、新加坡南洋理工大学等研究人员共同提出了一种新的GTs架构——通用、强大、可扩展(GPS)。这种图变换器不仅能够处理具有数百个节点的小规模图,还能扩展到具有数千个节点的大规模图,同时保持线性复杂度O(N + E)。

方法

图1展示了通用、强大、可扩展(GPS)图变换器的模块化架构。该架构是围绕三个核心组件设计的:定位/结构编码(PE/SE)、局部消息传递机制、以及全局注意力机制。这些组件共同工作,提供了一个既能处理小型图也能扩展到大型图的高效图神经网络。

模块化定位/结构编码

  • 局部PE(Local PE):这类编码使得图中的每个节点能够了解自己在局部邻域中的位置和角色。例如,通过随机游走矩阵的非对角元素的列求和来获得。
  • 全局PE(Global PE):这类编码让节点了解其在整个图中的全局位置。通常使用图的拉普拉斯矩阵或距离矩阵的特征向量来实现。
  • 相对PE(Relative PE):这类编码帮助两个节点理解它们之间的距离或方向关系。例如,基于最短路径或热核的节点对距离。

局部消息传递机制 这一机制通过消息传递神经网络(MPNN)实现,它能够处理节点的局部邻域信息。在GPS架构中,MPNN层能够利用节点特征和边缘特征来更新节点的状态。

全局注意力机制 全局注意力层允许图中的每个节点都能够注意到其他所有节点,从而捕获全局依赖关系。这一层通常使用变换器(Transformer)架构实现,它能够处理节点特征并生成节点的全局表示。

GPS层将局部消息传递机制和全局注意力机制结合起来,形成了一个混合层。这一层首先通过MPNN层处理局部信息,然后通过全局注意力层处理全局信息。最终,通过一个多层感知器(MLP)将局部和全局的信息融合,生成综合的节点表示。

GPS架构通过将计算复杂度控制在线性级别(O(N + E)),其中N是节点数,E是边数,从而实现了可扩展性。这意味着即使在大规模图上,GPS架构也能够高效地运行。

现有的大多数GNNs,包括消息传递神经网络(MPNNs),在处理图结构时,往往忽略了PE/SE所包含的信息。研究者们通过1-Weisfeiler-Leman测试(1-WL)展示了MPNNs在没有PE/SE的情况下,无法区分某些非同构图。而通过引入适当的PE/SE,可以显著提高MPNNs的表达能力。

GPS层是MPNN和变换器的混合体,它通过结合局部邻域聚合和全局自注意力机制,减少了初始表示的瓶颈,使得模型能够迭代地进行局部和全局的交互。GPS层通过一系列精确的更新方程来实现,其中包括MPNN层和全局注意力层的输出聚合。

只要给定足够的参数,GPS模型能够为图同构问题提供近似解,比任何Weisfeiler-Leman同构测试都更强大。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

评论留言“参加”或扫描微信备注“参加”,即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory。关注享粉丝福利,限时免费录播讲解。

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择,以及丰富的实验监控工具。开源特性和社区支持使其易于使用,适合各类用户快速提升模型性能。

实验

实验分为消融研究和基准测试两部分。在消融研究部分,对模型的三个主要组成部分进行了详尽的评估,以确定它们对预测性能的贡献,并为特定数据集的超参数优化提供指导。

全局注意力模块:

  • 实验考虑了O(N^2)时间复杂度的Transformer注意力机制,以及Performer和BigBird的线性时间注意力机制。
  • 结果显示,在多数数据集上使用Transformer都是有益的,除了ZINC数据集,在该数据集上并没有观察到显著变化。这支持了长距离依赖通常很重要的假设。
  • Performer在预测性能上虽落后于Transformer,但与基线相比仍有提升,并且能够扩展到非常大的图。
  • 在当前设置中,BigBird并未提供显著的增益,且比Performer更慢。

消息传递模块:

  • 评估了各种消息传递架构,发现它们对模型的成功至关重要。没有MPNN层会导致所有数据集的性能显著下降。
  • 尽管普通的PNA通常优于GINE和GatedGCN,但添加PE和SE,尤其是对于GatedGCN,会显著提升性能。

定位/结构编码:

  • 评估了各种PE/SE方案,发现它们通常对下游任务有益。
  • 对于分子数据,随机游走结构编码(RWSE)更有益;而在图像超像素中,拉普拉斯特征向量编码(LapPE)更有益。
  • 使用SignNet与DeepSets编码处理LapPE在任务中表现出一致的成功。

在基准测试部分,将GPS与多种流行的信息传递神经网络(如GCN、GIN、GatedGCN、PNA等)、图变换器(如SAN、Graphormer等)以及其他具有最新结果的图神经网络进行了比较。

表2展示了对全局注意力模块、消息传递模块(MPNN层)和定位/结构编码(PE/SE)的消融研究结果:

  • 全局注意力模块:在多数数据集上,使用Transformer全局注意力都带来了性能的提升,但在ZINC数据集上未见明显变化。这表明对于某些特定类型的图数据,全局注意力可能不是关键因素。
  • MPNN层:移除MPNN层导致性能显著下降,证实了其在捕获局部图结构信息中的重要性。
  • PE/SE:不同的编码策略在不同的数据集上表现各异,显示了PE/SE在增强模型对图结构理解中的关键作用。

表3展示了在Benchmarking GNNs数据集上的测试结果,包括ZINC、MNIST、CIFAR10、PATTERN和CLUSTER。GPS模型在这些任务上的表现突出,尤其在ZINC数据集上取得了最佳性能,证明了其在多样化图学习任务中的适用性和有效性。

表4汇总了在OGB数据集上的测试结果,包括ogbg-molhiv、ogbg-molpcba、ogbg-ppa和ogbg-code2。GPS在这些图级任务中均名列前茅,显示了其在处理更复杂的图数据时的优越性能。

表5展示了在大规模PCQM4Mv2数据集上的测试结果。GPS在这一挑战性数据集上的表现超过了现有的图变换器模型,且在训练过程中显示出较少的过拟合现象,证明了其在大规模图数据上的可扩展性和鲁棒性。

表6汇总了在LRGB数据集上的测试结果,这些数据集旨在评估模型捕获长距离依赖的能力。GPS在大多数数据集上超过了现有的基线模型,显示了其在处理长距离依赖方面的有效性。

这些结果不仅展示了通过模块化和不同策略组合获得的经验性好处,还证明了GPS方法在多种任务上的通用性和有效性。

https://arxiv.org/pdf/2205.12454v4

GitHub - rampasek/GraphGPS: Recipe for a General, Powerful, Scalable Graph Transformer

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2156538.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

对比评测5款实用在线翻译工具,包括有道在线翻译

大家好,今天咱们来聊聊在线翻译工具。在这个信息爆炸的时代,语言不再是沟通的障碍,多亏了这些强大的翻译神器。今天,我将带大家比较五款热门的在线翻译工具,究竟谁更胜一筹呢?让我们一探究竟! …

用友U8CRM relobjreportlist.php SQL注入漏洞复现

0x01 漏洞描述: 用友U8 CRM客户关系管理系统是一款专业的企业级CRM软件,旨在帮助企业高效管理客户关系、提升销售业绩和提供优质的客户服务。 用友 U8 CRM客户关系管理系统relobjreportlist.php 文件存在SQL注入漏洞,未经身份验证的攻击者通过…

Linux 一些快捷键使用操作技巧

ctrl c : 强制停止 如图仅输入tail命令时程序会卡住,这时就需要强制停止 ctrl d : 退出或者登出 history : 查看历史输入命令 !命令 :自动执行上一次匹配前缀的命令 (注意不要用这个命令执行太过久远的,容易执行错误…

字节数据转16进制对应十进制数

在数据处理中经常面临字节数据需要转换成不同位宽的十进制数据,尤其是在嵌入式处理中该现象特别常见,这里以转换为16位位宽的十进制为例,采用python校本进行数据转换,具体数据如下: 要将上面数据转换为双字节十进制数…

英语六级-学习

01 英语分值比例 02听力学习 听力练习,基础好选择标准VOA和BBC。基础差选择VOA慢速。 听力内容包括不受政治争议的内容,社会生活类(奇闻趣事、日常生活)、经济类(商务、职场相关)、环保类、互联网类---------根据各类主题快速找到录音材料中心点。 研…

文心一言 VS 讯飞星火 VS chatgpt (352)-- 算法导论24.1 3题

三、给定 G(V,E) 是一带权重且没有权重为负值的环路的有向图,对于所有结点 v∈V ,从源结点 s 到结点 v 之间的最短路径中,包含边的条数的最大值为 m 。(这里,判断最短路径的根据是权重,不是边的条数。)请对…

leetcode:最高乘法得分

用auto可以过 class Solution { public:long long maxScore(vector<int>& a, vector<int>& b) {int n b.size();vector<vector<long long>> memo(4,vector<long long>(b.size(), LLONG_MIN));auto dfs [&](auto&& dfs, i…

Java-Part 0

Advanced Java and Cutting-edge Applications Part 0: Course presentation Part 1 其实就是个括号匹配问题&#xff0c;Stack 经典问题&#xff0c;但是好久没用Java&#xff0c;有一点点生疏&#xff0c;感觉老师的版本要简洁的多 package tiei.ajp.test;import java.uti…

二叉树的层序遍历(含八道leetcode相关题目)

文章目录 二叉树层序遍历模板102. 二叉树的层序遍历107. 二叉树的层序遍历 II199. 二叉树的右视图637. 二叉树的层平均值515. 在每个树行中找最大值429. N 叉树的层序遍历116. 填充每个节点的下一个右侧节点指针117. 填充每个节点的下一个右侧节点指针 II 二叉树层序遍历模板 …

深度学习笔记(8)预训练模型

深度学习笔记&#xff08;8&#xff09;预训练模型 文章目录 深度学习笔记&#xff08;8&#xff09;预训练模型一、预训练模型构建一、微调模型&#xff0c;训练自己的数据1.导入数据集2.数据集处理方法3.完形填空训练 使用分词器将文本转换为模型的输入格式参数 return_tenso…

C++迭代器 iterator详解

目录 什么是迭代器 迭代器的类型 迭代器的用法 三种迭代器 范围for 什么是迭代器 它提供了一种访问容器&#xff08;如列表、集合等&#xff09;中元素的方法&#xff0c;而无需暴露容器的内部表示。迭代器使得程序员能够以统一的方式遍历不同的数据结构&#xff0c;而无需…

项目集成sharding-jdbc

目录 项目集成sharding-jdbc 1.业务分析 2.数据库构建 3.分库分表策略 项目配置默认数据源 一&#xff1a;导入sharding-jdbc依赖 二&#xff1a;在application文件中编写配置 三&#xff1a;注释掉主配置文件中配置的数据源 注意&#xff1a;这里添加了spring.main.allow…

基于51单片机的矿井安全检测系统

基于51单片机的矿井安全检测系统使用51单片机作为系统主控&#xff0c;LCD1602进行显示同时系统集成了ADC0808和烟雾传感器、甲烷传感器&#xff0c;二者结合测量环境烟雾值&#xff0c;同时使用DHT11温湿度传感器获取环境温湿度值&#xff0c;使用L298N驱动风扇&#xff0c;利…

2009考研数学真题解析-数二:

第一题&#xff1a; 解析&#xff1a;先找间断点&#xff1a;分母不能等于0&#xff0c;分母是sinΠx&#xff0c; 因此不难看出间断点是x0&#xff0c;-1&#xff0c;-2&#xff0c;-3。。。。。 接着一个一个来算这些点是什么间断点。 &#xff0c;从x趋于2开始&#xff0c;分…

2024年一区极光优化+分解+深度学习!VMD-PLO-Transformer-GRU多变量时间序列光伏功率预测

2024年一区极光优化分解深度学习&#xff01;VMD-PLO-Transformer-GRU多变量时间序列光伏功率预测 目录 2024年一区极光优化分解深度学习&#xff01;VMD-PLO-Transformer-GRU多变量时间序列光伏功率预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.中秋献礼&#…

FiBiNET模型实现推荐算法

1. 项目简介 A031-FiBiNET模型项目是一个基于深度学习的推荐系统算法实现&#xff0c;旨在提升推荐系统的性能和精度。该项目的背景源于当今互联网平台中&#xff0c;推荐算法在电商、社交、内容分发等领域的广泛应用。推荐系统通过分析用户的历史行为和兴趣偏好&#xff0c;预…

小球轻重的测量

设有12个小球。其中11个小球的重量相同&#xff0c;称为好球&#xff1b;有一个小球的重量与11个好球的重量不同&#xff08;或轻或重&#xff09;&#xff0c;称这个小球为坏球。试编写一个算法&#xff0c;用一个无砝码的天平称三次找出这个坏球&#xff0c;并确定其比好球轻…

GAMES101(15节,辐射,BRDF)

Irradiance辐射度量学 辐射度量学在渲染领域&#xff0c;可以帮助理解基于物理的光照模型 radiant energy辐射能量Q&#xff0c;累计总能量&#xff08;单位J joule焦耳&#xff09;&#xff0c;就像太阳能板&#xff0c;光照时间越长接收能量越多&#xff0c;收到的能量总和…

02_RabbitMQ消息丢失解决方案及死信队列

一、数据丢失 第一种&#xff1a;生产者弄丢了数据。生产者将数据发送到 RabbitMQ 的时候&#xff0c;可能数据就在半路给搞丢了&#xff0c;因为网络问题&#xff0c;都有可能。 第二种&#xff1a;RabbitMQ 弄丢了数据。MQ还没有持久化自己挂了。 第三种&#xff1a;消费端…

Attention is All You Need精读

原文开头&#xff0c;不是搬运 dog。All attention is all you need Abstract 摘要 这篇文章的内容源于基于编码器-解码器架构的RNN模型&#xff0c;在其他人的工作中&#xff0c;我们可以发现注意力机制对于提升编码器-解码器架构模型的性能很重要。这篇文章提出了一个比较简…