图结构的稀疏变换器:EXPHORMER框架

news2025/1/16 5:40:57

人工智能咨询培训老师叶梓 转载标明出处

尽管图变换器在理论上具有强大的表达能力,但是它们在扩展到大型图时面临着巨大的挑战。这一挑战主要源于其全局注意力机制的二次方时间复杂度,这不仅限制了其在大型图数据集上的应用,也使得其在内存和计算资源上的需求变得难以承受。

为了解决这一问题,一种名为EXPHORMER的框架应运而生。旨在构建强大且可扩展的图变换器。该框架的核心是一种基于虚拟全局节点和扩展器图的稀疏注意力机制,这些机制的数学特性,如谱扩张、伪随机性和稀疏性,使得图变换器的复杂度仅与图的大小成线性关系,同时保持了理论上的优越性质。

方法

稀疏注意力机制通过一个有向图H来建模,包含n个节点。如果存在一个从节点i到节点j的有向边,则表示这两个节点之间有直接的交互,即注意力机制将计算它们之间的内积。具体为一个变换器块可以被视为一个函数,它处理每个节点的d维嵌入,将R^d×n映射到R^d×n。注意力机制的输出由下式给出:

其中,X_{NH(i)}表示只包含节点i的邻居的子矩阵。这种注意力机制的计算量由图H的边数决定。标准的变换器块由注意力机制和前馈层组成。

图1 展示了EXPHORMER的各个组成部分。EXPHORMER架构是基于扩展器图的稀疏注意力机制,构建了一个交互图H,包括局部邻域注意力(即输入图的边)、度数为3的扩展器图、单个虚拟节点的全局注意力,以及将所有组件合并成一个交互图来决定注意力模式。

  1. 扩展器图注意力:使用随机扩展器图的边作为注意力模式。这些图具有小直径、谱近似完全图、良好的混合属性等理论特性,使得它们能够在不连接所有节点对的情况下,传播输入图中距离较远的节点对之间的信息。

  2. 全局注意力:在交互图中添加少量虚拟节点,每个节点都连接到所有非虚拟节点。这些节点充当全局“存储池”,具有全变换器的通用近似功能。

  3. 局部邻域注意力:通过允许每个节点v只关注其在G中的直接邻居,来模拟局部交互,即H包含输入图的边E及其反向,引入O(|E|)交互边。

扩展器图是完全图的稀疏近似。例如,一个d-regular的ϵ-expander图在n个顶点上的谱近似了完全图Kn。谱近似能够保持图的切割结构,因此基于扩展器边的稀疏注意力机制保留了全注意力机制的谱特性。

扩展器图的另一个属性是随机游走混合良好。这意味着从任意初始分布在顶点上的随机游走,在经过对数级步骤后,将接近于在所有节点上均匀分布。

尽管稀疏变压器模型的通用近似属性并不像密集变压器模型那样直接,但任何连续函数f : [0, 1]^d×|V| → R^d×|V|都可以被EXPHORMER网络使用全局注意力或适当版本的扩展器注意力近似到任意期望的精度。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

评论留言“参加”或扫描微信备注“参加”,即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory。关注享粉丝福利,限时免费录播讲解。

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择,以及丰富的实验监控工具。开源特性和社区支持使其易于使用,适合各类用户快速提升模型性能。

实验

实验涉及多种图数据集,包括图像基础的图数据集(CIFAR10、MNIST、PascalVOC-SP、COCO-SP)、合成的SBM数据集(PATTERN、CLUSTER)、代码图数据集(MalNet-Tiny)和分子数据集(Peptides-Func、Peptides-Struct、PCQM-Contact)。还展示了EXPHORMER在处理超过5000个节点的更大图上的能力,包括引文网络(CS、Physics、ogbn-arxiv)和共同购买网络(Computer、Photo)。

实验中,EXPHORMER与MPNNs一起在GraphGPS框架下进行组合,构建图变换器模型。通过将注意力机制与消息传递方案相结合,并与适当的位置和结构编码一起使用。

表2 比较了在不同数据集上的注意力机制,包括EXPHORMER与其他稀疏变换器架构(BigBird和Performer)的性能,并与完整的变换器GPS模型进行了对比。结果显示,在四个数据集中,EXPHORMER模型优于GPS-BigBird和GPS-Performer模型,并在三个数据集上超越了GPS-Transformer模型,同时在第四个数据集上表现具有竞争力。

表1 展示了在五个数据集上的实验结果,包括四个来自Benchmarking GNNs集合的数据集和代码图数据集MalNet-Tiny。EXPHORMER在这些数据集上实现了最先进的性能,并在其余数据集上与最佳单一模型精度保持竞争力。所有数据集中,EXPHORMER模型的准确性都优于基于完全(密集)变换器的GraphGPS模型,并且也优于基于SAN模型和多种MPNN基线的模型。

表3 展示了在Long-Range Graph Benchmark(LRGB)中的实验结果,该基准由五个挑战性数据集组成,测试模型学习输入图中长期依赖关系的能力。结果显示,EXPHORMER在五个数据集中的三个上超越了GraphGPS,并在剩余两个数据集中与最佳单一模型结果保持竞争力。

表4 展示了在不同注意力机制下模型在归纳图数据集上的准确性。在大型数据集上,如ogbn-arxiv,EXPHORMER模型能够处理包含超过160,000个节点和超过一百万条边的单个大图。EXPHORMER可以用于更大的图,具有数十万个节点。

表5 展示了完整模型与移除每个组件后的模型的比较结果。这些实验表明,局部邻域一直是EXPHORMER的一个有效补充,但在虚拟节点和扩展器图之间,有时其中一个会导致性能下降。这一问题在附录D中有进一步讨论。

综合这些实验结果,可以得出以下结论:(a) EXPHORMER在多种数据集上实现了最先进的性能;(b) EXPHORMER在参数更少的情况下,一致性地优于其他稀疏注意力机制,并经常超越密集变换器;(c) EXPHORMER成功地允许GraphGPS克服内存瓶颈,扩展到更大的图(超过10,000个节点),同时仍然提供有竞争力的性能。

https://arxiv.org/pdf/2303.06147v2

GitHub - hamed1375/Exphormer: Exphormer: Sparse Transformer for Graphs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2149866.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

超实用的分数查询系统,老师不可错过!

在学校与家庭的互动中,成绩往往像一颗不定时炸弹。我们都知道,每次考试成绩公布后,就像一场风暴即将席卷平静的港湾。 有这样一个案例,一位老师辛苦地批改完试卷,将成绩以传统的表格形式发在班级群里。这一下可捅了马蜂…

【mysql技术内幕】

MySQL之技术内幕 1.MVCC模式2. 实现mvcc模式的基础点3.MySQL锁的类型4. 谈谈分库分表5. 分表后的id咋么保证唯一性呢?6. 分表后非sharding key的查询咋么处理的? 1.MVCC模式 MVCC, 是multi-version concurrency control的缩写,即多版本并发控…

【时时三省】(C语言基础)指针笔试题1

山不在高,有仙则名。水不在深,有龙则灵。 ----CSDN 时时三省 笔试题1: 创建了一个a数组 它有五个元素 五个元素分别是1 2 3 4 5 &a取出来的是一维数组的地址 然后产生的结果强制类型转换了成int &a+1就是从1跳到了5 如下图 再把这个地…

Java开发-面试题-0035-Spring代理方式有哪些

Java开发-面试题-0035-Spring代理方式有哪些 更多内容欢迎关注我(持续更新中,欢迎Star✨) Github:CodeZeng1998/Java-Developer-Work-Note (技术)微信公众号:CodeZeng1998 (生活&…

品牌力是什么?如何评估企业品牌影响力?

品牌影响力,其实就是指品牌在消费者心智中所占据的位置,以及它对消费者购买决策和行为的影响力。如果一个企业的品牌影响力越强,它在消费者心中的印象就越深刻,能够更有效地驱动消费者的购买行为,形成品牌忠诚度&#…

SpringCloud (1) 服务拆解

1 服务拆解和治理 1.1 服务拆解 微服务的核心就是服务拆分,将传统的大项目拆分为多个微型服务(服务或微服务),实现服务之间"高内聚(微服务职责单一),低耦合(微服务功能相对独立)"的目的 (1) 水平(横向)拆分:先搭出拆分框架,比如【公共服务】(比如:common服务,client…

数字工厂管理系统与MES系统在实际应用中有哪些区别

随着制造业的数字化转型步伐加快,数字工厂管理系统与制造执行MES系统作为两大关键工具,在实际应用中展现出了明显的差异。本文将从实际应用的角度,详细探讨这两种系统之间的主要区别。 数字工厂管理系统的实际应用 数字工厂管理系统侧重于对…

Java基础(中)

面向对象基础 面向对象和面向过程的区别 面向过程编程(Procedural-Oriented Programming,POP)和面向对象编程(Object-Oriented Programming,OOP)是两种常见的编程范式,两者的主要区别在于解决…

monaco editor 在react中的使用

1. 首先先导入monaco editor npm install monaco-editor// npm install monaco-editor --force // 版本冲突? 强行安装 2. 在react中使用 期望效果如下 3. 我遇到的问题 : 输入json数据后 未格式化 , json数据仍然一行展示 我遇到的问题 : 直接输入json数据会白屏报错…

OSSEC搭建与环境配置Ubuntu

尝试使用Ubuntu配置了OSSEC,碰见很多问题并解决了,发表博客让后来者不要踩那么多坑 环境 : server :Ubuntu22.04 64位 内存4GB 处理器4 硬盘60G agent: 1.Windows11 64位 2.Ubuntu22.04 64位 服务端配置 一、配置安装依赖项&…

解决Python模块导入报错的问题

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 模块导入 📒📝 实际案例分享📝 解决方案📝 导入包的技巧和常见问题1. 导入包的技巧2. 常见问题及注意事项⚓️ 相关链接 ⚓️📖 介绍 📖 今天写Python代码的时候,遇到了一个模块导入报错的情况,这个问题不仅困扰了…

CDGA|怎样的数据治理状态才能被视为是良性发展的呢?

在当今这个数据驱动的时代,数据已成为企业最宝贵的资产之一,其质量、安全性和有效利用程度直接关系到企业的竞争力与可持续发展。因此,构建并维持一个良性的数据治理状态,对于企业而言至关重要。那么,怎样的数据治理状…

Linux中使用Docker容器构建Tomcat容器完整教程

🏡作者主页:点击! 🐧Linux基础知识(初学):点击! 🐧Linux高级管理防护和群集专栏:点击! 🔐Linux中firewalld防火墙:点击! ⏰️创作…

高效分数查询系统助力管理班级

老师们的工作现在可太忙啦!每天要做的事儿那叫一个繁杂。就说备课吧,得翻好多书,参考不同的教材,还得考虑每个学生的学习情况,想办法让课讲得有意思又能让学生学到东西。 从上课一开始怎么吸引学生,到中间每…

智慧交通,智能消防系统助力高铁站安全

智慧交通是一项基于现代技术的创新领域,正不断为我们生活带来便利。在智慧交通领域中,高铁站是一个非常重要的环节。高铁站作为人流密集的区域,安全问题一直备受关注。为了提升高铁站的安全性和效率,智慧消防设备监测与集中监控系…

20240919 - 【PYTHON】辞职信

import tkinter as tk # 导入 tkinter 模块,并简写为 tk from tkinter import messagebox # 从 tkinter 导入 messagebox 子模块,用于显示消息框 from random import random # 从 random 模块导入 random 函数,用于生成随机数# 创建窗口对…

ai写作软件排行榜前十名,5个软件帮助你快速使用ai写作

ai写作软件排行榜前十名,5个软件帮助你快速使用ai写作 AI写作软件已经成为许多人工作和创作中的重要工具,尤其是在快速生成内容、提高写作效率以及优化文本方面。以下是五款优秀的AI写作软件,它们能够帮助你轻松完成各种写作任务&#xff0c…

人力资源数据集分析(一)_t-test、卡方检验和描述性统计

数据入口:人力资源分析数据集 - Heywhale.com 数据说明 字段说明EmpID唯一的员工IDAge年龄AgeGroup年龄组Attrition是否离职BusinessTravel出差:很少、频繁、不出差DailyRate日薪Department任职部门:研发部门、销售部门、人力资源部门Dista…

文件防泄密软件哪个好?6款被夸爆的文件防泄密软件推荐!

滴水不漏,方显器量;信息无泄,乃见安防。 文件防泄密软件作为保护企业数据安全的重要工具,受到了越来越多企业的关注。 本文将为您推荐六款备受好评的文件防泄密软件,它们各具特色,功能强大,能…

C语言 结构体和共用体——枚举类型

目录 枚举数据类型 三问枚举数据类型 枚举数据类型 三问枚举数据类型