融合创新!全局注意力+局部注意力,训练成本直降91.6%

news2024/12/25 9:29:28

全局注意力结合局部注意力可以让模型在处理数据时,既不会丢失重要的局部细节,也能考虑到整个数据集中的全局结构,从而在保持模型计算效率的同时,提高模型的表达能力。

这种策略相较于传统的单一注意力机制,能够更全面地理解输入数据,同时捕捉长距离依赖关系和细节信息。对于论文er来说,是个可发挥空间大、可挖掘创新点多的研究方向。

以谷歌Quoc Le团队的FLASH模型为例:

FLASH是一种解决现有高效Transformer变体质量和经验速度问题的实用解决方案。它通过以下方式实现全局注意力和局部注意力的结合:

分块混合注意力(Mixed Chunk Attention):FLASH模型采用了一种分块的策略,将输入数据分成多个块,并在每个块内部进行局部注意力计算。这样可以捕捉到每个数据块内部的详细信息,同时减少整体的计算量。

全局注意力单元(GAU):FLASH模型使用了全局注意力单元(GAU),这是将门控线性单元(GLU)和注意力机制结合起来的一种结构。GAU的设计允许模型在处理数据时考虑到更广泛的上下文信息,从而实现全局注意力的效果。
 


FLASH首次不仅在质量上与完全增强的 Transformer相当,而且在现代加速器的上下文大小上真正享有线性可扩展性,训练成本仅有原版1/12。

本文分享全局注意力+局部注意力8种结合创新方案,有最新的也有经典的,可借鉴的方法和创新点我做了简单介绍,原文以及相应代码都整理了,方便同学们学习。

论文和代码需要的同学看文末

InverseMatrixVT3D: An Efficient Projection Matrix-Based Approach for 3D Occupancy Prediction

方法:论文介绍了一种名为InverseMatrixVT3D的方法,用于将多视图图像特征转换为三维特征体,以进行三维语义占用预测。该方法利用两个投影矩阵存储静态映射关系,并利用矩阵乘法高效地生成全局鸟瞰特征和局部三维特征体。通过在多视图图像特征图和投影矩阵之间进行矩阵乘法,生成三维特征体和鸟瞰特征。通过全局局部融合模块将这两种特征融合在一起,得到最终的三维特征体。

创新点:

  • 提出了基于投影矩阵的方法来构建局部的3D特征体积和全局的鸟瞰图特征。

  • 提出了全局局部融合模块,将全局的鸟瞰图特征和局部的3D特征体积结合起来,得到最终的3D体积。

TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition

方法:论文提出了一种名为D-Mixer的新型令牌混合器,以输入相关的方式聚合稀疏的全局信息和局部细节,产生大的有效感受野和强大的归纳偏差。作者通过将D-Mixer作为令牌混合器,还设计了一种名为TransXNet的新型强大视觉骨干网络。

创新点:

  • 提出了一种高效的双动态令牌混合器(D-Mixer),利用重叠空间缩减注意力(OSRA)和输入依赖深度卷积(IDConv)提供的混合特征提取。通过将基于D-Mixer的块堆叠到深度网络中,利用先前块中收集的局部和全局信息动态生成IDConv中的卷积核和OSRA中的注意力矩阵,通过融合强归纳偏差和扩展有效感受野,使网络具备更强的表示能力。

  • 设计了一种名为TransXNet的新型混合CNN-Transformer网络,通过交替使用D-Mixer和MS-FFN构建。

  • 一个网络应该具有较大的感受野和归纳偏差,以捕捉丰富的上下文信息。为了实现较大的感受野,应该在网络的所有阶段中封装一个高效的全局自注意机制。作者还发现将动态卷积与全局自注意相结合可以进一步扩大感受野。

Twins: Revisiting the Design of Spatial Attention in Vision Transformers

方法:提出了两种新的视觉变压器架构,即Twins-PCPVT和Twins-SVT。研究发现,全局子采样注意力在PVT中非常有效,并且在应用合适的位置编码时,其性能可以与甚至优于最先进的视觉变压器(如Swin)相媲美。

作者还提出了一种设计精巧但简单的空间注意力机制,使得这些架构比PVT更高效。该注意力机制受到广泛使用的可分离深度卷积的启发,因此被命名为空间可分离自注意力(SSSA)。Twins-PCPVT和Twins-SVT中的注意力操作都是高效且易于实现的。

创新点:

  • 全局子采样注意力(GSA):GSA是一种高效的全局自注意力机制,用于处理远距离和全局信息。它通过在每个局部注意力块之后添加额外的标准全局自注意力层实现,从而实现了跨组信息交换。

  • 空间可分离自注意力(SSSA):SSSA是一种精心设计但简单的空间注意力机制,通过模仿广泛使用的分离式深度卷积实现。SSSA由两种类型的注意力操作组成:(i)局部分组自注意力(LSA),用于捕获细粒度和短距离信息;(ii)全局子采样注意力(GSA),用于处理远距离和全局信息。

  • Twins-PCPVT:Twins-PCPVT是第一个提出的视觉Transformer架构。它利用全局子采样注意力(GSA)和适用的位置编码,实现了与最先进的视觉Transformer(如Swin)相媲美甚至更好的性能。

MaxViT: Multi-Axis Vision Transformer

方法:论文引入一种名为Multi-axis Vision Transformer (MaxViT)的视觉模型,该模型能够在整个网络的浅层到深层阶段都实现全局和局部感知,并在各种视觉任务中取得卓越的性能。

创新点:

  • Max-SA:一种新型的Transformer模块,能够在单个块中同时执行局部和全局空间交互,与完整的自注意力相比,提供了更大的灵活性和效率。

  • 多轴注意力:一种多轴方法,通过分解空间轴将完整大小的注意力分解为两个稀疏形式(局部和全局),允许以线性复杂度进行局部和全局交互。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“全局局部”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1552260.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024最新Win系统下VSCode下载安装与配置C/C++教程

2024最新Win系统下VSCode下载安装与配置C/C教程 文章目录 2024最新Win系统下VSCode下载安装与配置C/C教程1、下载安装VSCode2、安装运行时环境GCGC的环境配置 3、安装VSCode插件4、配置程序调试环境4.1确定文件存储路径4.2新建文件夹【.vscode】4.3在.vscode文件夹里新建四个配…

(二)BSQ,BIL,BIP存储格式的相互转换算法

环境:Windows10专业版 IDEA2021.2.3 jdk11.0.1 GDAL(release-1928-x64-gdal-3-5-2-mapserver-8-0-0) 系列文章: (一)PythonGDAL实现BSQ,BIP,BIL格式的相互转换 (二)BSQ,BIL,BIP存…

轻松赚钱,精彩生活:上班族副业赚钱新攻略大揭秘!

薪水总是捉襟见肘,每月账单总让人倍感压力。你是否曾在静谧的夜晚,躺在床上,思索如何为家庭多赚一分钱?其实,你并不孤单。在这个充满机遇与挑战的时代,越来越多的人开始寻找副业,以期望让生活更…

【LeetCode热题100】105. 从前序与中序遍历序列构造二叉树(二叉树)

一.题目要求 二叉树中的 路径 被定义为一条节点序列,序列中每对相邻节点之间都存在一条边。同一个节点在一条路径序列中 至多出现一次 。该路径 至少包含一个 节点,且不一定经过根节点。 路径和 是路径中各节点值的总和。 给你一个二叉树的根节点 root …

Java基础面试复习

一、java基础 1、jdk、jre、jvm的区别 jdk:Java程序开发工具包。 jre:Java程序运行环境。 jvm:Java虚拟机。 2、一个Java源文件中是否可以包含多个类有什么限制 解:可以包含多个类但是只有一个类生命成public并且要和文件名一致 …

1.java openCV4.x 入门-环境搭建

专栏简介 💒个人主页 📖心灵鸡汤📖大家 📰专栏目录 点击上方查看更多内容 环境搭建 一、开发环境二、环境搭建1.openCV安装1.下载程序包 2.程序包安装3.搭建项目 三、非必要资源1.扩展库2.cmake 一、开发环境 开发工具 i…

Python列表、元组、字典及集合

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、列表定义方式: 二、元组1、定义方式:2、元组中的物理存储地址不可修改,如果修改则会报错,但是元组中的列表、字典项等却可以…

Linux第84步_了解Linux中断及其函数

1、中断号 中断号又称中断线&#xff0c;每个中断都有一个中断号&#xff0c;通过中断号即可区分不同的中断。 2、Linux中断API函数 需要包含头文件“#include <linux/interrupt.h>” 1)、在使用某个中断功能的时候&#xff0c;需要执行“申请中断” int request_irq(…

VSCode 如何同步显示网页在手机或者平板上

首先要确保 ①电脑上安装了VsCode ②VsCode安装插件LiveServer 安装成功之后 连续按住 Alt L 、Alt O 会跳转到对应的html页面上 http://127.0.0.1:5500/....... 是这个开头的 然后打开网络 如果桌面有网上邻居的可以直接点桌面的网上邻居 进来找到WLAN这个…

2024年【道路运输企业安全生产管理人员】最新解析及道路运输企业安全生产管理人员证考试

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 道路运输企业安全生产管理人员最新解析参考答案及道路运输企业安全生产管理人员考试试题解析是安全生产模拟考试一点通题库老师及道路运输企业安全生产管理人员操作证已考过的学员汇总&#xff0c;相对有效帮助道路运…

InstanceID:zero-shot identity-preserving generation in sconds

1.introduction 个性化图像合成&#xff0c;挑战是生成能够准确保留人物的复杂身份细节的定制图像&#xff0c;这类任务通常称之为控ID型任务&#xff0c;在AI写真&#xff0c;虚拟试穿上都有应用&#xff0c;但是和虚拟试装还是有区别的&#xff0c;但技术路线上其实可以考虑复…

python多进程卡死问题排查

文章目录 背景开发环境启动链路 问题排查pdb调试给文件加共享锁查看进程fdstrace追踪堆栈<br />GDB调试python安装gdb和python-dbgpython-dbg和python版本编译python3.9的dbg文件gdb调试 pytorch多进程卡死问题多进程的fork和spawn模式 其他解决方式使用fastapi自带的bac…

康耐视visionpro-CogDataAnalyTool工具详细说明

CogDataAnalyTool功能: 数据分析工具,统计数据的平均值、标准差、最大值及最小值等。 CogDataAnalyTool操作说明: ①.打开工具栏,双击或点击鼠标拖拽添加CogDataAnalyTool ②.添加通道:根据需要添加多个输入通道,可同时统计多个输入数据。 ③.打开结果栏,点击运行可获…

Linux的学习之路:3、基础指令(2)

一、echo指令 这个指令在上篇文章我也用了但是忘了说了&#xff0c;这个指令的大概用法就是把后面跟的文本等输出在显示器上&#xff0c;如下代码所示打印的“Hello Linux” [rootVM-24-9-centos ~]# echo "Hello Linux" Hello Linux二、输出重定向与输入重定向 着…

金融案例:构建高效统一的需求登记与管理方案

在金融行业数字化转型背景下&#xff0c;银行等金融机构面临着业务模式创新与数据应用的深度融合。业务上所需要的不再是单纯的数据&#xff0c;而是数据背后映射的业务趋势洞察&#xff0c;只有和业务相结合转化为业务度量指标&#xff0c;经过数据分析处理呈现为报表进行展示…

MybatisPlus学习总结

MybatisPlus.xmind 一、MybatisPlus快速入门 1.基本介绍 官网: 简介 | MyBatis-Plus MyBatis Plus是一个基于MyBatis的增强工具&#xff0c;它简化了MyBatis的使用&#xff0c;提供了一系列的增强功能&#xff0c;使开发更加方便快捷。 MyBatis Plus的主要特点包括&#xff…

SQL,group by分组后分别计算组内不同值的数量

SQL&#xff0c;group by分组后分别计算组内不同值的数量 如现有一张购物表shopping 先要求小明和小红分别买了多少笔和多少橡皮&#xff0c;形成以下格式 SELECT name,COUNT(*) FROM shopping GROUP BY name;SELECT name AS 姓名,SUM( CASE WHEN cargo 笔 THEN 1 ELSE 0 END)…

PyPy 通过采用即时编译技术,能够显著提升 Python 代码的执行效率。

&#x1f349; CSDN 叶庭云&#xff1a;https://yetingyun.blog.csdn.net/ 提升 Python 代码性能至接近 C 语言速度&#xff0c;无需修改源代码。遵循 Python 之父吉多・范罗苏姆的建议&#xff1a;“如果你想让你的代码神奇地运行得更快&#xff0c;你应该试试用 PyPy。” Yo…

二维前缀和与二维差分的表示

前缀和&#xff1a; 上述图片是求范围内的总和的图和公式 上述图片是初始化前缀和数组的图和公式 差分&#xff1a; 上图是差分公式 #include<iostream> #include<climits> #include<algorithm> #include<cstring> #include<cstdio> #include&l…

基于视图能力的县域治理视频基座数字化、智慧化解决方案

一、方案背景 县域治理方案是我国地方治理体系的重要组成部分&#xff0c;对于促进县域经济社会发展、维护社会稳定、推进全面深化改革具有重要意义。随着科技的不断进步&#xff0c;视频监管已经成为了现代社会治理的重要手段之一。县域治理视频监管方案是通过视频监控、数据…