48、兰州大学、青海师范:专门用于深度CNNs的天阶斗技-ELA Local Attention

news2024/11/19 5:27:52

本文由兰州大学信息科学与工程学院、青海省物联网重点实验室、青海师范大学2024年3.2日发表于ArXiv。为了解决现有的注意力模型在有效利用空间信息方面存在的限制和困难,提出了一种高效的局部注意力ELA模型。该方法通过分析坐标注意力的局限性,作者识别出批量归一化泛化能力不足的问题,该问题主要是:

1、维度降低对通道注意力的不良影响

(不是我记得7年前发表于arXiv的CS大类中SENet论文这个事已经说了啊?转念一想,哦,本文是从分析坐标CA角度再思考这个问题,并给出解决方法的,emmmm好吧)

2、注意力生成过程的复杂性

(嗯,给计算机添加眼睛确实复杂)

本文简单来讲:

1、作者提出融入1D卷积和组归一化特征增强技术。这种方法能够通过有效地编码两个1D位置特征图而无需维度降低,实现准确地区分感兴趣区域,同时允许轻量级的实现。

2、作者精心设计了ELA中的三个超参数,从而形成了四个不同版本:ELA-T,ELA-B,ELA-S和ELA-L,以满足不同视觉任务(纽匹!),如图像分类、目标检测和语义分割的特定需求。

3、ELA可以无缝集成到ResNet、MobileNet和DeepLab等深度CNN网络中。在ImageNet、MSCOCO和Pascal VOC数据集上的广泛评估表明,所提出的ELA模块在上述三种视觉任务中均优于当前最先进的方法。

论文地址:

2403.01123.pdf (arxiv.org)

本文复杂来讲:

1、Introduction

深度卷积神经网络(CNNs)已成为计算机视觉领域中一个重要的研究方向,它在图像分类、目标检测和语义分割方面取得了显著的进展。一些值得关注的模型,如AlexNet,ResNet,YOLO,和MobileNet,都为这一进步做出了贡献。

尽管Transformer已经引入了许多进步,但深度卷积神经网络拥有自己有利的归纳偏置,使它们能够有效地从小型和中型数据集中学习——这是Transformer所缺乏的能力。因此,设计更高效的网络架构仍然是当代研究者需要解决的重要挑战。在深度CNN领域,注意力机制被提出作为模拟人类认知行为的手段。这种机制使神经网络能够关注相关信息,同时忽略不重要的细节,最终提高网络的学习能力。

一个显著的例子是SE块注意力,它利用2D全局池化将空间维度压缩到通道维度,从而促进增强特征学习。然而,SE块只考虑编码通道间信息,忽视了特征图的空间位置信息。尽管BAM和CBAM提取了空间注意力,但它们未能建模对视觉任务至关重要的长距离依赖,同时也减少了输入特征图的通道维度。

为此,开发了坐标注意力(CA)方法,将空间位置信息嵌入通道注意力中,并允许移动网络准确捕捉长距离空间相互关系。这种改进有利于各种卷积神经网络架构。然而,CA也表现出明显的局限性,源于其不足的泛化能力和对通道维度降低的负面影响。

众所周知,图像的空间维度包含了至关重要的位置信息。另一方面,现有的注意力机制要么未能有效利用这一空间信息,要么在利用的同时牺牲了通道的维度。本文的关注点是回答以下问题:作者能否以更高效的方式学习空间注意力?这种方法应使作者能够在不损害输入特征图的通道维度的同时,在空间维度上获得准确的位置预测,同时保持注意力模块的轻量级特性。

为了回答这个问题,作者再次回顾一下CA机制。CA模块是通过两个步骤设计的。在第一步中,使用了条带池化来生成包含输入张量空间维度上水平和垂直坐标信息的特征图。在第二步中,两个方向上的上述特征图都经过两个2D卷积,然后进行批量归一化(BN),并使用非线性激活函数,最终得到注意力。

显然,CA的设计过程相对复杂,涉及两个方向上特征图的多次分离与合并。尽管两个2D卷积增强了坐标信息,但它们也减少了通道维度,对生成的注意力产生了负面影响。此外,将BN整合到CA中引入了显著的弱点。例如,过小的迷你批次大小可能会对整个模型产生不利影响并阻碍其泛化能力。表2和表3中的消融实验结果进一步支持了这些观察。

因此,本文提出了用于深度CNN的Efficient Local Attention(ELA)模块,它准确地捕获了感兴趣区域的位置,保持了输入特征图通道的维度,并保持了其轻量级特性,如图2(c)所示。与CA相似,ELA在空间维度上采用条带状池化,以获取水平和垂直方向的特征向量,保持窄的核形状以捕获远程依赖并防止不相关区域影响标签预测,从而在各自的方向上产生丰富的目标位置特征。ELA独立地处理上述每个方向的特征向量以获得注意力预测,然后使用乘积操作将它们组合起来,确保感兴趣区域的准确位置信息。

具体来说,在第二步中,应用1D卷积与两个特征向量局部交互,可以选择调整核大小来表示局部交互的覆盖范围。产生的特征向量经过分组归一化(GN)[40]和非线性激活函数处理,以生成两个方向的位置注意力预测。最终的位置注意力通过将两个方向的位置注意力相乘得到。与2D卷积相比,1D卷积更适合处理序列信号,并且更轻量、更快。GN与BN相比,展现出可比较的性能和更好的泛化能力。

表1展示了关键的卷积神经网络注意力模块,指出了它们在通道维度降低(DR)、长距离依赖和轻量级设计方面的特点(其中轻量级模型具有的参数少于SE)。从表中可以看出,作者的ELA在所有这三个方面都表现出色。作者通过在ImageNet,Pascal VOC和MS COCO等数据集上的实验结果来评估作者方法的有效性(见表5)

实验结果表明,与ImageNet top-1的分类准确度相比,作者提出的方法提高了2.39%。此外,作者的方法在目标检测和语义分割方面表现出最显著的性能提升。因此,作者提出的ELA方法比目前最流行的注意力机制更具竞争力。

本文的贡献总结如下:

  1. 作者分析了坐标注意力(CA),并通过实验验证了其在卷积神经网络(CNN)结构中对批量归一化(BN)和通道维度减少的负面影响。

  2. 基于上述分析,作者提出了一种轻量级且高效的局部注意力(ELA)模块。这个模块帮助深度CNN更准确地定位感兴趣的目标,在仅增加少量参数的情况下显著提高了CNN的整体性能。

  3. 在包括ImageNet、MS COCO和Pascal VOC在内的流行数据集上的大量实验结果表明,作者提出的方法在性能上超越了当前的最新注意力方法,同时保持了有竞争力的模型复杂度。

2 Related Work

人们普遍认为,注意力机制在提高深度卷积神经网络(CNNs)性能方面起着至关重要的作用。SE块首次成功尝试将注意力机制用于学习通道注意力。随后,注意力机制在这两个方向上取得了显著的进展:

  1. 仅聚合通道特征;

  2. 将通道特征与空间特征整合。

具体来说,CBAM 同时利用平均池化和最大池化沿着通道维度和空间维度组合特征。同时,GCNet 是一个轻量级的注意力网络,它采用了自注意力机制,非局部网络,以及挤压激励网络等技术。SA-Net 建立在空间注意力和通道注意力结合的基础上,并引入特征分组和通道替换来实现轻量级的注意力机制。CBAM、GCNet 和 SA-Net 都结合了空间注意力和通道注意力。

GSoP 引入了二阶池化,以实现对整幅图像的高阶统计建模,从而增强了深度卷积网络的非线性建模能力。另一方面,ECA-Net 利用一维卷积生成通道注意力权重,与 SE 块相比,显著降低了建模复杂性。GSoP 和 ECA-Net 都属于通道增强的聚合方法。

然而,在上述提到的注意力网络中,要么在空间维度上缺乏长距离依赖性,要么在通道维度上进行缩小。长距离空间依赖性的缺失使得精确定位感兴趣的空间物体以及获取重要物体的位置信息变得具有挑战性。尽管通过通道维度降低可以减少模型的复杂性,但它也破坏了通道与它们权重之间的直接对应关系。

为了解决这些限制,作者提出了一种有效的ELA方法,该方法能够有效捕捉长距离空间依赖性,并消除了通道缩小对注意力网络造成的负面影响。

3、Conclusion

本文介绍了一种创新的注意力机制,称为高效局部注意力(ELA),旨在增强卷积神经网络的表示能力。ELA以其轻量级和直接的结构简化了准确定位感兴趣区域的过程。实验结果表明,ELA是一种即插即用的注意力方法,不需要减少通道维度。此外,ELA在多种深度CNN架构中一致地实现了显著的性能提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1500890.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

迈向未来:内部审计的数字化转型的道与术

目录 前言 一、内部审计的发展阶段 二、内部审计的逻辑架构 三、内部审计数字化转型面临的问题 四、内部审计数字化转型的框架方法 五、内部审计的数字化转型能力体系 六、内部审计的数字化转型路径 七、内部审计的数字化系统平台 前言 内部审计是一种独立的、客观的确…

upload-labs通关记录

文章目录 前言 1.pass-012.pass-023.pass-034.pass-045.pass-056.pass-067.pass-078.pass-089.pass-0910.pass-1011.pass-1112.pass-1213.pass-1314.pass-1415.pass-1516.pass-1617.pass-1718.pass-1819.pass-19 前言 本篇文章记录upload-labs中,所有的通过技巧和各…

树莓派(Raspberry Pi)常见的各种引脚介绍

本文将为您详细讲解树莓派(Raspberry Pi)常见的各种引脚,以及它们的特点、区别和优势。树莓派是一款非常受欢迎的单板计算机,它拥有多个 GPIO(通用输入输出)引脚,这些引脚可以用于各种电子项目和…

网站建设大概需要多少钱?费用是多少?怎么样

1、网站建设详细报价单。 建立一个网站需要多少钱? 公司不同,地点不同,技术不同,需求不同,价格也不同。 1、不要尝试用几百块钱建立一个网站,2、几千块做一个普通的网站,3、几万块做一个更好的…

代码随想录第52天| ● 392.判断子序列 ● 115.不同的子序列

文章目录 ● 392.判断子序列思路代码: ● 115.不同的子序列思路:代码: ● 392.判断子序列 思路 递推顺序:从上到下 从左到右 代码: class Solution {public boolean isSubsequence(String s, String t) {int[][]dpn…

两两交换链表中的节点+力扣

题目 题目链接 . - 力扣(LeetCode) 题目描述 代码实现 class Solution { public:ListNode* swapPairs(ListNode* head) {if(head nullptr || head->next nullptr) return head;ListNode *tmpHead swapPairs(head->next->next);ListNode …

Vue | 基于 vue-admin-template 项目的跨域问题解决方法

目录 一、现存问题 二、解决方法 2.1 修改的第一个地方 2.2 修改的第二个地方 2.3 修改的第三个地方 自存 一、现存问题 报错截图如下: 二、解决方法 2.1 修改的第一个地方 在 .env.development 文件中: # base api # VUE_APP_BASE_API /d…

瑞芯微 | I2S-音频基础 -1

最近调试音频驱动,顺便整理学习了一下i2s、alsa相关知识,整理成了几篇文章,后续会陆续更新。 喜欢嵌入式、Li怒晓得老铁可以关注一口君账号。 1. 音频常用术语 名称含义ADC(Analog to Digit Conversion)模拟信号转换…

使用java批量写入环境变量

环境需求 jdk版本&#xff1a;1.8 jna依赖&#xff1a; <dependency><groupId>net.java.dev.jna</groupId><artifactId>jna</artifactId><version>5.10.0</version></dependency><dependency><groupId>net.java.…

一起来读李清照

当然先祝各位女生节日快乐&#x1f381;&#x1f381;啦​。​ 但是呢&#xff0c;今天&#xff0c;我们不聊技术&#xff0c;来聊点其他的。 大家都知道今天是三八妇女节&#xff0c;三八妇女节的是中国人的叫法&#xff0c;也叫国际妇女节。是为了纪念妇女权利的运动&#…

git fatal: detected dubious ownership in repository at ‘xxx‘ 彻底解决方法

前言 在 windows 重置后&#xff0c; git 仓库无法正常使用 git 的所有 命令&#xff0c;运行任何 git 命令&#xff0c;都会提示如下&#xff1a; $ git log fatal: detected dubious ownership in repository at D:/rk/rk3568/nanopi/uboot-rockchip D:/rk/rk3568/nanopi/u…

上班族真香副业:工资4500,靠steam游戏搬砖项目月入过w

steam游戏搬砖项目已经存在好多年了&#xff0c;这个项目比较冷门且能持续稳定盈利&#xff0c;是一个非常不错的项目。即使你没玩过steam游戏也没关系&#xff0c;这个steam游戏搬砖项目既不需要你会玩游戏&#xff0c;也不需要你懂英语。 steam游戏搬砖项目的盈利点在汇率差和…

什么才是数字化转型?

数字化转型是指企业或组织利用数字技术&#xff08;如云计算、大数据、人工智能、物联网等&#xff09;来改变其业务模式、运营流程、客户体验和企业文化&#xff0c;以提高效率、创新产品和服务、增强竞争力和创造新的增长机会。这一过程通常涉及对现有业务流程的重新设计&…

protobufjs使用教程,支持proto文件打包成typescript或javascript脚本

官方链接&#xff1a;https://docs.cocos.com/creator/manual/zh/scripting/modules/example.html 第一步&#xff0c;安装nodejs。&#xff08;自行安装&#xff09; 安装教程可参考 https://www.runoob.com/nodejs/nodejs-install-setup.html 第二步&#xff0c;创建cocos…

C++11_右值引用与移动语义

目录 1、左值的定义 1.1 左值引用 2、右值的定义 2.1 右值引用 3、右值与左值的使用区别 4、右值引用的意义 4.1 左值引用的短板 5、移动语义 5.1 移动构造 5.2 移动赋值 6、万能引用 6.1 右值的别名-左值化 6.2 完美转发 前言&#xff1a; 在C11之前就有了引…

浏览器一键重新发起请求

一、需求场景 在前端开发过程中&#xff0c;经常会需要重新请求后台进行代码调试&#xff0c;之前的常规方法是刷新浏览器页面或者点击页面进行交互&#xff0c;这样对多个请求的场景就很方便&#xff0c;但是往往很多时候我们只是单纯的想重新发起一个请求&#xff08;多个请求…

c++ 11 新特性 不同数据类型之间转换函数之const_cast

一.不同数据类型之间转换函数const_cast介绍 const_cast是C11中引入的一种类型转换操作符&#xff0c;用于修改类型的const或volatile属性。const_cast的主要用途是移除对象的常量性&#xff0c;它是唯一具有此能力的C风格的转型操作符。在C11中&#xff0c;const_cast可以完成…

YouTube Premium 会员氪金教程

前言 很多小伙伴喜欢看看YouTube但是有些需要会员才可以查看&#xff0c;会员可以免广告&#xff0c;根据个人需求选择是否需要开通 1、点击个人账号的头像&#xff0c;选择“购买内容和会员” 2、选择个人&#xff0c;点击免费试订&#xff0c;第一个月是免费&#xff0c;如…

智能驾驶规划控制理论学习08-自动驾驶控制模块(轨迹跟踪)

目录 一、基于几何的轨迹跟踪方法 1、基本思想 2、纯追踪 3、Stanly Method 二、PID控制器 三、LQR&#xff08;Linear Quadratic Regulator&#xff09; 1、基本思想 2、LQR解法 3、案例学习 基于LQR的路径跟踪 基于LQR的速度跟踪 4、MPC&#xff08;Mode…

【万题详解】DFS搜索专题合集(上)

专栏推荐 我的专栏——专栏链接 1.文章平均质量分 70分以上 2.以洛谷题为基础&#xff0c;解决C问题 3.有题目、讲解、思路、参考代码…… 4. 文章数&#xff1a;29 &#xff08;2024.3.8&#xff09; 课前C小程序&#xff08;脱控极域电子教室&#xff09; 这个图标相信…