GNN与Transformer创新结合！模型性能起飞！

GNN与Transformer创新结合！模型性能起飞！

news2025/10/25 4:04:58

近年来，图神经网络（GNN）和Transformer模型因其在处理复杂数据结构和序列依赖性方面的卓越表现而受到广泛关注。这种优势使得将GNN与Transformer结合成为图表示学习领域的一个新兴且充满潜力的研究方向。通过结合这两种模型，我们不仅能够扩大模型的感受野，捕捉更复杂的图结构信息，还能强化信息传递机制，从而提高推荐系统的准确性。此外，这种结合还能简化模型结构，降低计算成本，并提升训练效率。

本文精心挑选了过去两年中顶级会议和期刊上发表的23种最新的GNN与Transformer结合的创新方案，与您分享。我们不仅总结了每种方法的核心思想和创新点，还整理了相关的模型和代码，供您学习和参考。这些资源将帮助您深入了解这一领域的最新进展，并启发您在图表示学习领域的研究和实践。

三篇论文详解

1、3DMOTFormer: Graph Transformer for Online 3D Multi-Object Tracking

方法

3DMOTFormer 是一种基于图变换器（Graph Transformer）的在线3D多目标跟踪（MOT）框架。该方法主要包含以下几个关键步骤：

图表示：使用图结构表示多目标跟踪问题，其中检测到的目标和已有的轨迹分别作为图中的节点。构建了三种图：检测图（用于更新检测特征）、轨迹图（用于模拟轨迹间的交互）和关联图（用于关联检测和轨迹）。
图变换器编码器：通过自注意力机制更新轨迹节点特征，模拟轨迹之间的关系。
边增强图变换器解码器：结合自注意力机制和跨注意力机制，处理新的检测并预测边特征，用于关联计算。
关联估计：使用解码器的最后一层输出的边特征，通过一个多层感知器（MLP）估计检测和轨迹之间的关联概率。
速度估计：使用检测特征通过MLP回归速度，用于预测下一帧中轨迹的位置。
损失函数：使用焦点损失（Focal Loss）作为关联损失和平滑L1损失作为速度损失。
全在线训练策略：模型在训练时以自回归的方式运行，使用累积的损失通过整个训练序列进行优化，模拟在线推理阶段的操作模式和数据分布。

创新点

3DMOTFormer的主要创新点包括：

基于图的跟踪框架：提出了一种新颖的基于图的3D MOT框架，使用变换器架构来处理关联问题。
边增强图变换器：引入了边增强图变换器，它是一种变体的变换器，可以处理稀疏图并考虑边特征进行注意力计算。
全在线训练策略：提出了一种新的全在线训练策略，包括自回归前向传播和顺序批量优化，以减少训练和推理之间的分布不匹配。
状态艺术性能：在nuScenes验证和测试集上实现了71.2%和68.2%的AMOTA，达到了几何基础方法中的最先进性能。
良好的泛化能力：训练的3DMOTFormer模型在不同的目标检测器上具有良好的泛化能力，可以灵活地部署相同的3DMOTFormer模型，而与目标检测器无关。
高效的实时性能：模型能够以54.7Hz的速率在Nvidia GeForce 2080Ti GPU上运行，适合实时应用，如自动驾驶汽车。
简化的跟踪更新操作：与需要复杂启发式算法解码网络输出的方法相比，3DMOTFormer使用动态二分图，需要更简单的跟踪更新操作来解码网络输出。
软关联特性：利用变换器的软关联特性，即使在二分图表示中有限的时间感受野内，也能够隐式地从过去帧中获取信息。

2、ARE MORE LAYERS BENEFICIAL TO GRAPH TRANSFORMERS?

方法

该论文研究了增加深度（层数）对图变换器（Graph Transformers）性能的影响，并提出了一个新的图变换器模型DeepGraph。主要方法包括：

全局注意力机制：在图变换器中使用全局注意力机制，允许所有节点之间的信息传递，以学习图结构的长距离依赖性。
深度瓶颈分析：通过实验发现，当前的图变换器在增加深度时会遇到性能瓶颈，超过一定层数后性能会下降。
子结构注意力机制：DeepGraph模型通过引入子结构标记（substructure tokens）和在相关节点上应用局部注意力来增强对子结构的编码能力。
子结构采样：在每次编码时，从图中采样子结构，以确保计算的可行性并减少由于子结构密度不均而产生的偏差。
子结构标记编码：将子结构邻接矩阵直接编码为标记，使用基于排列的编码方法，并应用深度优先搜索（DFS）减少可能的排列组合。
局部注意力应用：在子结构标记和相应节点上应用局部注意力，通过掩码（mask）限制子结构标记只能关注相应节点。

创新点

子结构注意力机制：提出在图变换器中引入子结构级别的注意力机制，以解决随着深度增加全局注意力机制性能下降的问题。
子结构标记：明确地在编码表示中使用子结构标记，这有助于模型关注子结构特征并提高表达能力。
理论分析：提供了关于注意力容量随着深度变化的理论分析，证明了增加深度会导致注意力容量减小，从而限制了图变换器的性能。
深度归一化：使用深度归一化（deepnorm）方法来稳定深度变换器的训练过程。
子结构采样策略：提出了一种贪心采样算法，确保所采样的子结构尽可能均匀地覆盖每个节点。
排列不变编码：使用基于排列的编码方法来减少子结构的可能排列组合，从而降低了计算复杂度。

3、Cell Graph Transformer for Nuclei Classification

方法

该论文提出了一个基于细胞图的变换器（Cell Graph Transformer, CGT）框架，用于在组织病理学图像中对细胞核进行分类。主要方法包括：

细胞图构建：使用细胞核的中心坐标构建无向细胞图，其中节点代表细胞核，边代表相邻细胞之间的连接。
细胞图标记化（Cell Graph Tokenization, CGToken）：将细胞图转换为标准变换器可以处理的一组标记，同时保留图的拓扑结构信息。
变换器编码器：使用标准的变换器层对输入的节点和边标记进行编码，以输出细胞类型的预测。
拓扑感知预训练策略：使用图卷积网络（GCN）预训练特征提取器，以减少细胞图变换器的初始噪声并提高其表示能力。
训练和推理方案：在预训练特征提取器之后，与变换器编码器同步微调，使用交叉熵和焦点损失进行节点类别的分类。

创新点

细胞图变换器（CGT）：提出了一种新的基于变换器的框架，通过将节点和边作为输入标记，计算所有节点对之间的相关性，以更灵活地捕获长程上下文。
拓扑感知预训练：提出了一种新颖的预训练策略，利用GCN的局部消息传递机制来指导特征提取器的学习，从而在训练初期减少不合理的相关性，加快CGT框架的训练收敛。
细胞图标记化（CGToken）：开发了一种新的方法将细胞图转换为变换器可以处理的标记，通过链接标记和标记标记嵌入邻接信息。
状态艺术性能：在多个细胞核分类基准测试中，提出的方法显著优于现有的最先进方法，并实现了最先进的性能。
模型灵活性：CGT框架可以适应各种形式的分割/检测结果，使其成为一个灵活的模型，能够基于任何形式的二元分割或检测结果进行细胞类型的识别。
计算效率：尽管与现有的分割方法相比，CGT在参数数量、推理时间和模型大小上有所增加，但这些增加在实际应用中是可接受的，并且性能提升显著。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2200118.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

软考下午题1-数据流图

软考下午题1-数据流图

问题一：求实体的名称例题： 1.提问方式-如问题1 从子图(0层数据流图)找比较快外部实体可以是人、物体、系统在子图中找到加工，与文章中加工文字相对应，继续读文章，可以找到实体 E1-巴士列表文件 E2-机械师 E3-会…

阅读更多...

《深度学习》LSTM 长短期记忆网络结构及原理解析

《深度学习》LSTM 长短期记忆网络结构及原理解析

目录一、关于LSTM网络 1、什么是LSTM网络举例： 2、RNN网络的结构 3、Tanh双曲正切函数二、LSTM网络结构 1、遗忘门 1）功能 2）步骤 2、输入门 1）功能 2）步骤 3、输出门 1）功能 2）步骤…

阅读更多...

斯坦福 CS229 I 机器学习 I 构建大型语言模型（LLMs）

斯坦福 CS229 I 机器学习 I 构建大型语言模型（LLMs）

1. Pretraining -> GPT3 1.1. Task & loss 1.1.1. 训练 LLMs 时的关键点对于 LLMs 的训练来说，Architecture（架构）、Training algorithm/loss（训练算法/损失函数）、Data（数据）、Evalu…

阅读更多...

3D看车如何实现？有哪些功能特点和优势？

3D看车如何实现？有哪些功能特点和优势？

3D看车是一种创新的汽车展示方式，它利用三维建模和虚拟现实技术，将汽车以更真实、更立体的形式呈现在消费者面前。一、3D看车的实现方式 1、三维建模： 通过三维建模技术，按照1:1的比例还原汽车外观，包括车身线条、细…

阅读更多...

uniapp学习（003-2 vue3学习 Part.2）

uniapp学习（003-2 vue3学习 Part.2）

零基础入门uniapp Vue3组合式API版本到咸虾米壁纸项目实战，开发打包微信小程序、抖音小程序、H5、安卓APP客户端等总时长 23:40:00 共116P 此文章包含第15p-第p20的内容文章目录事件监听以及组件内置事件处理自定义模板快速创建uniapp条件渲染 v-if和v-elsev-e…

阅读更多...

骨传导耳机哪个牌子好？五大选购妙计带你精准入手优质骨传导耳机！

骨传导耳机哪个牌子好？五大选购妙计带你精准入手优质骨传导耳机！

随着骨传导耳机市场的蓬勃发展，此产品凭借优秀的佩戴体验以及可降低听力损伤等优点引起了广泛的关注。然而，随着热度提高，市面上开始出现了许多品牌，这些品牌实力技术各不相同，甚至其中还有一些劣质机型，这…

阅读更多...

国内经典多模态大模型工作1——Qwen-VL系列（Qwen-VL、Qwen2-VL解读）

国内经典多模态大模型工作1——Qwen-VL系列（Qwen-VL、Qwen2-VL解读）

Qwen-VL 论文标题：《Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond》论文链接：https://arxiv.org/pdf/2308.12966.pdf 项目：https://github.com/QwenLM/Qwen-VL/tree/master 模…

阅读更多...

如何构建某一行业的知识图谱

如何构建某一行业的知识图谱

构建一个行业的知识图谱是一个系统而复杂的过程，它涉及到数据收集、处理、分析等多个环节。以下是构建行业知识图谱的基本步骤： 1. 需求分析： - 明确构建知识图谱的目的和应用场景，比如是用于辅助决策、市场分析、产品推荐等。…

阅读更多...

【python机器学习】线性回归拟合欠拟合与过拟合以及波士顿房价预估案例

【python机器学习】线性回归拟合欠拟合与过拟合以及波士顿房价预估案例

文章目录线性回归之波士顿房价预测案例欠拟合与过拟合线性回归API 介绍:波士顿房价预测数据属性:机器学习代码实现拟合过拟合欠拟合模拟及处理方法(正则化处理)导包定义函数表示欠拟合定义函数表示拟合定义函数表示过拟合正则化处理过拟合L1正则化L2正则化线性回归之波…

阅读更多...

李沐 X动手学深度学习数据操作+数据预处理学习笔记（无代码，纯理论部分）

李沐 X动手学深度学习数据操作+数据预处理学习笔记（无代码，纯理论部分）

数据结构介绍机器学习和神经网络最主要的的数据结构：N维数组0维数组：标量，eg:1.0（是一个浮点数，可能表示一个类别）1维数组：向量，eg:[1.0, 2.7, 3.4]（特征向量&#xf…

阅读更多...

Java中System类和RunTime类的Api

Java中System类和RunTime类的Api

目录 System 类 1)out 2)err 3)in 4)currentTimeMillis() 5)nanoTime() 6)arraycopy(Object 要从里面复制东西的数组, int 要从里面复制东西数组的索引起始位置, Object 获得复制元素的数组, int 获得复制元素数组的起始索引, int 要复制东西的个数) 7)gc() 8)exit(int status)…

阅读更多...

Miniconda 入门级使用教程

Miniconda 入门级使用教程

前言 Miniconda是一个更小的Anaconda发行版（Anaconda是一个包含大量预装数据科学和机器学习库的Python发行版），它只包含conda包管理器和Python以及其必要的库。Miniconda的目的是提供一个更轻量级的选项来安装和运行conda环境，同…

阅读更多...

动态轻量级线程池项目

动态轻量级线程池项目

动态线程池： 使用线程池ThreadPoolExecutor过程中你是否有以下痛点呢？ ① 代码中创建了一个ThreadPoolExecutor，但是不知道参数设置多少比较合适。 ② 凭经验设置参数值，上线后发现需要调整，改代码重新发布服务&…

阅读更多...

电脑缺失msvcr120.dll怎样修复，马上教你6种修复方法

电脑缺失msvcr120.dll怎样修复，马上教你6种修复方法

在用电脑的时候，经常会碰到各种错误提示，比如“msvcr120.dll丢失”，导致的结果就是某些程序无法正常启动。那么，这个dll文件到底是啥，为什么会丢失，怎么解决呢？将通过这篇文章详细解释一下&…

阅读更多...

Agent心理诊所上线！基于1.3K抑郁症问诊对话，上海交大团队搭建大模型对话Agent，可初诊抑郁症

Agent心理诊所上线！基于1.3K抑郁症问诊对话，上海交大团队搭建大模型对话Agent，可初诊抑郁症

心理健康问题是当今社会最大的挑战之一，根据 WHO 的世界心理健康报告，约有 2 亿 4,600 万人患有抑郁障碍，平均每 10 万人中就有 3,153 个案例，可以说，这是最常见的精神障碍之一。然而，如今在心理健康方面…

阅读更多...

终于有人把思科认证全部说清楚了

终于有人把思科认证全部说清楚了

思科作为全球领先的网络设备供应商，其认证体系在全球范围内被广泛认可； 但是大部分了解的朋友都只知道CCNA、CCNP和CCIE，但对思科的整个系统不是很清楚。随着Cisco产品线的扩大和市场份额的不断提升，Cisco认证产品从当初仅有的路…

阅读更多...

Kubernetes的Pod调度：让你的应用像乘坐头等舱！

Kubernetes的Pod调度：让你的应用像乘坐头等舱！

一、Kubernetes 中 Pod 调度的重要性在 Kubernetes 的世界里，Pod 调度就像是一个繁忙的交通指挥官，负责把小车（也就是我们的 Pod）送到最合适的停车位（节点）。调度不仅关乎资源的合理利用，还关乎…

阅读更多...

【投稿优惠|稳定检索】2024 年信息学、网络与电子工程国际会议(INEE 2024)

【投稿优惠|稳定检索】2024 年信息学、网络与电子工程国际会议(INEE 2024)

2024 年信息学、网络与电子工程国际会议 2024 International Conference on Informatics, Networks, and Electronic Engineering 【1】大会信息会议名称：2024 年信息学、网络与电子工程国际会议会议简称：INEE 2024 大会时间：请查看官网 …

阅读更多...

P-Tuning v2：一种普遍有效的提示调整方法

P-Tuning v2：一种普遍有效的提示调整方法

人工智能咨询培训老师叶梓转载标明出处预训练语言模型通过微调（fine-tuning）来适应特定任务虽然效果显著，但存在训练成本高、参数存储量大等问题。为了解决这些问题，清华大学的研究者们提出了一种名为P-Tuning v2的提示调整&am…

阅读更多...

whistle配合app抓包

whistle配合app抓包

whistle配合app抓包 1.前置准备2.手机配置3.手机安装证书1.前置准备下载启动whistle，本例使用默认的127.0.0.1:8899 需要保证Capture TUNNEL CONNECTS处在开启状态：输入命令：w2 start，获取当前局域网的ip地址，并记录： 2.手机配置打开无线局域网连接dxm_phone，配置…

阅读更多...

推荐文章

最新文章