多尺度注意力机制突破性成果!低成本、高性能兼备

news2025/2/24 8:27:25

与传统的注意力机制相比,多尺度注意力机制引入了多个尺度的注意力权重,让模型能够更好地理解和处理复杂数据。

这种机制通过在不同尺度上捕捉输入数据的特征,让模型同时关注局部细节和全局结构,以提高对细节和上下文信息的理解,达到提升模型的表达能力、泛化性、鲁棒性和定位精度,优化资源使用效率的效果。

比如发表于TMM2023的MSDA模块,同时考虑了浅层自注意机制的局部性和稀疏性,可以有效地聚合语义多尺度信息,仅用70%更少的FLOPs就媲美现有SOTA。

为方便各位理解和运用,今天分享17种多尺度注意力创新方案,原文和开源代码都有。论文可参考创新点做了简单提炼,具体工作细节可阅读原文。

论文原文以及开源代码需要的同学看文末

EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction

方法:论文研究了高分辨率密集预测的高效架构设计。我们引入了一个轻量级的多尺度注意力模块,通过轻量级和硬件高效的操作实现了全局感受野和多尺度学习,从而在各种硬件设备上显著加速而不损失性能。

创新点:

  • 通过引入轻量级多尺度注意力模块,实现了全局感受野和多尺度学习,提供了在各种硬件设备上显著加速高分辨率密集预测模型的能力。

  • 首次成功将ReLU线性注意力应用于高分辨率密集预测,实现了全局感受野,并通过轻量级操作提高了效率。

Efficient Multi-Scale Attention Module with Cross-Spatial Learning

方法:论文提出了一种将其结合到卷积神经网络中的方法。研究发现,通过避免一些形式的降维,可以使CNN同时具有良好的泛化能力和计算资源效率。作者提出的EMA模块具有灵活且轻量级的特点,可以方便地应用于不同的计算机视觉任务,并取得最佳性能。此外,EMA还可以堆叠到其他深度CNN结构中,显著提高特征表示能力。

创新点:

  • 提出了一种新的多尺度注意力机制(EMA模块),通过将部分通道维度重新排列到批处理维度中,避免了维度缩减,从而增强了特征表示能力。

  • EMA模块采用平行子网络块的方式,能够有效捕捉跨维度交互和建立维度间的依赖关系。

  • 在多个计算机视觉任务中,将EMA模块集成到标准网络架构中,如ResNet50/101和MobileNetV2,能够显著提升性能和效率。

LENet: Lightweight And Efficient LiDAR Semantic Segmentation Using Multi-Scale Convolution Attention

方法:本文提出了一种轻量级和高效的基于LiDAR的语义分割网络LENet,利用投影方法进行语义分割。作者开发了一种新颖的多尺度卷积注意力模块(MSCA)来替换编码器中的ResNet块,并通过使用不同的卷积核大小,MSCA能够捕捉关键信息。通过对SemanticKITTI验证集上的多个消融实验的结果进行比较,我们的LENet方法相比基准方法提高了4.8%的准确性,并减少了25%的参数。

创新点:

  • 提出了一种新颖的多尺度卷积注意力模块(MSCA),用于替代编码器中的ResNet块。MSCA通过使用不同的卷积核大小来捕捉关键信息,从而提高了网络的性能和准确性。

  • 提出了一种轻量级的解码器结构,使用了IAC模块。IAC模块包含上采样特征图的双线性插值和3×3卷积,以及对来自编码器和先前IAC的信息进行融合的点卷积。

  • 在网络中使用辅助分割头进一步提高网络的准确性。辅助分割头与主要损失函数一起计算加权损失,并且不同维度的特征图具有不同的表达能力,因此每个损失函数都有相应的权重。

Multi-scale Attention Network for Single Image Super-Resolution

方法:本文提出了一种多尺度注意力网络(MAN),用于多复杂度下的超分辨率。MAN采用变压器风格的块以更好地建模表示。为了在各种区域之间有效灵活地建立长距离关联,作者开发了多尺度大内核注意力(MLKA),它结合了大内核分解和多尺度机制。此外,作者提出了一个简化的前馈网络(GSAU),它集成了门机制和空间注意力,以激活局部信息并减少模型复杂性。

创新点:

  • 提出了多尺度注意力块(MAB)。与许多RCAN风格的块相比,所提出的块将MetaFormer风格的功能性纳入其中,以实现有希望的特征提取结果。

  • 提出了多尺度大内核注意力(MLKA)。通过MLKA,我们修改了大内核注意力,采用多尺度和门控机制,以在不同粒度级别获得丰富的注意力图,从而聚合全局和局部信息,避免潜在的块状伪影。

  • 整合了门控机制和空间注意力,提出了简化的前馈网络(GSAU),以激活局部信息并降低模型复杂性。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多尺度创新”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1682658.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【openlayers系统学习】3.5colormap详解(颜色映射)

五、colormap详解(颜色映射) ​colormap​ 包是一个很好的实用程序库,用于创建颜色图。该库已作为项目的依赖项添加(1.7美化(设置style))。要导入它,请编辑 main.js​ 以包含以下行…

AWS安全性身份和合规性之Identity and Access Management(IAM)

通过AWS Identity and Access Management(IAM),您可以指定谁或什么能够访问AWS中的服务和资源、集中管理精细权限,并分析访问权限以优化跨AWS的权限。 比如一家软件开发公司需要在AWS上创建多个开发人员账户,并对其进…

使用Python生成一束玫瑰花

520到了,没时间买花?我们来生成一个电子的。 Python不仅是一种强大的编程语言,用于开发应用程序和分析数据,它也可以用来创造美丽的艺术作品。在这篇博客中,我们将探索如何使用Python生成一束玫瑰花的图像。 准备工作…

绿联硬盘数据恢复方法:安全、高效找回珍贵数据

在数字化时代,硬盘承载着大量的个人和企业数据,一旦数据丢失或损坏,后果往往不堪设想。绿联硬盘以其稳定的性能和良好的口碑赢得了众多用户的信赖,但即便如此,数据恢复问题仍然是用户可能面临的一大挑战。本文将为您详…

【NOIP2013普及组复赛】题4:车站分级

题4:车站分级 【题目描述】 一条单向的铁路线上,依次有编号为 1 , 2 , … , n 1,2,…,n 1,2,…,n 的 n n n 个火车站。每个火车站都有一个级别,最低为 1 1 1 级。现有若干趟车次在这条线路上行驶,每一趟都满足如下要求&#…

Snowy2.x 版本使用 Yaml

代码:https://gitee.com/xiaonuobase/snowy/tree/Snowy2.5.2/ 直接将 properties 转换成 yaml 那么你大概率会遇到下面报错: 然后你上网搜索,发现是 snakeyaml 版本的问题,1.x 版本的 snakeyaml 有安全隐患,要升级到…

C语言程序的编译

目录 一、预处理(预编译) 二、编译 三、汇编 四,链接 在前面讲到了宏的定义,那么宏在编译时候是如何发生替换的?接下来做一下详细的介绍C语言程序的编译过程主要包括以下几个步骤:预处理、编译、汇编和…

【paper】基于分布式采样的多机器人编队导航信念传播模型预测控制

Distributed Sampling-Based Model Predictive Control via Belief Propagation for Multi-Robot Formation NavigationRAL 2024.4Chao Jiang 美国 University of Wyoming 预备知识 马尔可夫随机场(Markov Random Field, MRF) 马尔可夫随机场&#xff…

【Makefile】Makefile 编译 Keil 工程(Linux 环境)

本文使用的开发板为 stm32f103C8T6,使用的驱动库为stm32标准库。 目录 一、软件下载 1、stm32 标准库 2、arm-none-eabi 工具链 3、烧录器 二、Keil 工程改造 1、Keil 工程 2、基本 Makefile 工程 3、添加启动文件 4、添加链接脚本 5、去掉 core_cm3.c 三…

AI整体架构设计4:理解AI云原生

泛AI架构设计这个专栏主要关注围绕着AI运用于实际的业务场景所需的系统架构设计,包括业务数据治理、模型训练与管理、模型部署与调度。整体基于云原生技术,旨在通过开源领域的LLMOps或者MLOps技术,充分运用低代码平台构建高性能、高效率和敏捷…

Spring Cloud Gateway 网关

一. 什么是网关(Gateway) 网关就是一个网络连接到另一个网络的关口。 在同一个项目或某一层级中,存在相似或重复的东西,我们就可以将这些相似重复的内容统一提取出来,向前或向后抽象成单独的一层。这个抽象的过程就是…

简述MyBatis中#{}引用和${}引用的区别

各位大佬光临寒舍,希望各位能赏脸给个三连,谢谢各位大佬了!!! 目录 1.有无预编译 优点 缺点 2.SQL执行的快慢 3.能否被SQL注入 4.参数输入方式 5.总结 1.有无预编译 #{}是有预编译的而${}是没有预编译的&…

深度学习之基于Yolov3的行人重识别

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 一、项目背景 行人重识别(Person Re-Identification,简称ReID)是计算机视觉领域…

基础2 JAVA图形编程桌面:探索图形程序的抽象实现

嘿,大家好!我非常高兴又一次有机会与大家相聚,分享新的知识和经验。对于热爱编程和探索新技术的朋友们来说,今天的内容绝对不容错过。我为大家准备了一个详尽的视频教程:《基础2 JAVA 图形编程:主程序调用…

软件协作开发方法论

引言 作为程序员,你是否有过这样的经历?软件发版前,你需要把你的代码合并到主分支,拉取主分支代码后,发现有数十个文件冲突,你开始小心翼翼地解决冲突,有些其实你也不知道咋处理,几…

Spring Cloud Alibaba-08-SMS短信服务

Lison <dreamlison163.com>, v1.0.0, 2024.5.1 Spring Cloud Alibaba-08-SMS短信服务 短信服务介绍 短信服务(Short Message Service)是阿里云为用户提供的一种通信服务的能力。 产品优势:覆盖全面、高并发处理、消息堆积处理、开发管理简单、智能监控调度 产品功能:短…

linux 排查java内存溢出(持续更新中)

场景 tone.jar 启动后内存溢出,假设pid 为48044 排查 1.确定java程序的pid(进程id) ps 或 jps 都可以 ps -ef | grep tone jps -l 2.查看堆栈信息 jmap -heap 48044 3.查看对象的实例数量显示前30 jmap -histo:live 48044 | head -n 30 4.查看线程状态 jstack 48044

5.23 学习总结

一.项目优化&#xff08;语音通话&#xff09; 实现步骤&#xff1a; 1.用户发送通话申请&#xff0c;并处理通话请求&#xff0c;如果同意&#xff0c;为两个用户之间进行连接。 2.获取到电脑的麦克风和扬声器&#xff0c;将获取到的语音信息转换成以字节数组的形式传递。 …

宇宙“超级地球”系列,你知道几个?

在宇宙中&#xff0c;可能存在着类地行星&#xff0c;这样的行星可能同样也拥有适宜生命存在的条件。银河系大约有60亿颗类地行星。 开普勒442b 这是脱离太阳系以后&#xff0c;人类发现的第二颗离地球最近的类地行星。开普勒442b这颗类地行星位于天鹅座&#xff0c;离地球约有…

机器学习势系列教程(3):cp2k的安装

大家好&#xff0c;我是小马老师。 本文继续介绍机器学习势相关内容&#xff1a;cp2k的安装。 和abacus一样&#xff0c;cp2k也是一款开源的第一性原理模拟软件&#xff0c;模拟的数据也可作为机器学习势的训练数据集。 cp2k安装方法也很多&#xff0c;常见的有docker安装、…