YOLOv9最新改进系列:融合空间信息关注机制(SimAM)于YOLOv9网络,在通道之间和空间位置之间建立更加准确的关联,助力YOLOv9有效涨点!!!

news2025/1/19 20:44:11

YOLOv9最新改进系列:融合空间信息关注机制(SimAM)于YOLOv9网络,在通道之间和空间位置之间建立更加准确的关联,助力YOLOv9有效涨点!!!

在此之前!先恭喜两位家人!!!!

第一位优秀的家人~
请添加图片描述第二位优秀的家人~

请添加图片描述

YOLOv9原文链接戳这里,原文全文翻译请关注B站Ai学术叫叫首er

B站全文戳这里!

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在工房的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

Involution新卷积网络算子提出原文

YOLOv9最新改进系列:融合空间信息关注机制(SimAM)于YOLOv9网络,在通道之间和空间位置之间建立更加准确的关联,助力YOLOv9有效涨点!!!

  • YOLOv9最新改进系列:融合空间信息关注机制(SimAM)于YOLOv9网络,在通道之间和空间位置之间建立更加准确的关联,助力YOLOv9有效涨点!!!
  • 摘要
  • 1 介绍
  • 2 相关工作
  • 3 结论
  • 四 修改步骤!
    • 4.1 修改YAML文件
    • 4.2 新建.py
    • 4.3 修改tasks.py
  • 五、验证是否成功即可


SimAM: A Simple, Parameter-Free Attention Module for
Convolutional Neural Networks(提出原文戳这)

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!
截止到发稿时,B站YOLOv9最新改进系列的源码包,已更新了21种的改进!自己排列组合2-4种后,考虑位置不同后可排列组合上千种!!专注AI学术,关注B站博主:Ai学术叫叫兽er!

摘要

在本文中,我们提出了一个概念上简单但非常有效的卷积神经网络(ConvNets)注意力模块。 与现有的通道和空间注意力模块相比,我们的模块为层中的特征图推断 3D 注意力权重,而不向原始网络添加参数。 具体来说,我们基于一些著名的神经科学理论,提出优化能量函数来找出每个神经元的重要性。 我们进一步推导了能量函数的快速封闭式解决方案,并表明该解决方案可以用不到十行代码来实现。 该模块的另一个优点是,大多数算子是根据定义的能量函数的解来选择的,避免了过多的结构调整工作。 对各种视觉任务的定量评估表明,所提出的模块灵活有效,可以提高许多ConvNet的表示能力。

在这里插入图片描述图 1. 不同网络获得的特征激活的可视化。 所有比较的网络均在一致的设置下在 ImageNet(Russakovsky 等人,2015)上进行训练。 这些特征是在验证集上提取的,并由 Grad-CAM 显示(Selvaraju 等人,2017)。 我们的 SimAM 帮助网络关注一些靠近下图所示图像标签的主要区域。

受人脑注意力机制的启发,
1我们提出了一个具有完整 3D 权重的注意力模块,并设计了一个能量函数来计算权重。
2 我们推导了能量函数的封闭式解,该解加速了重量计算并允许整个模块的轻量级形式。
3 我们将所提出的模块集成到一些众所周知的网络中,并在各种任务上对其进行评估。 我们的模块在准确性、模型大小和速度方面优于其他流行模块。

1 介绍

在大规模数据集(例如 ImageNet(Russakovsky 等人,2015))上训练的卷积神经网络(ConvNet)极大地提高了许多视觉任务的性能,例如图像分类(Krizhevsky 等人,2012;Simonyan 和 Zisserman) ,2014;He 等人,2016b;Szegedy 等人,2015;Sandler 等人,2018),物体检测(Ren 等人,2015;Liu 等人,2016) 等,2017)和视频理解(Feichtenhofer 等,2016;Wang 等,2018a)。 多项研究表明,更好的 ConvNet 结构可以显着提高各种问题的性能。 因此,构建强大的ConvNet是视觉研究中的一项重要任务。 现代 ConvNet 通常具有多个阶段,每个阶段由几个块组成。 这样的块由几个算子构建,如卷积、池化、激活或一些定制的元结构(在本文中称为模块)。 最近,许多工作不再像(Krizhevsky et al., 2012)那样设计整个架构,而是专注于构建高级模块以提高 ConvNet 的表示能力。 堆叠卷积 (Simonyan & Zisserman, 2014)、残差单元 (He et al., 2016b;a; Zagoruyko & Komodakis, 2016; Sandler et al., 2018) 和密集连接 (Huang et al., 2017; 2018) 是 其中最具代表性的,在现有架构中得到了广泛的应用。 然而,设计这些模块需要丰富的专业知识和大量的时间。 为了规避这一点,许多研究人员寻求一些搜索策略来自动构建架构(Zoph & Le,2016;Liu et al.,2018b;Dong & Yang,2019;Tan & Le,2019;Guo et al.,2020;Liu 等人,2019;Feichtenhofer,2020;Tan 等人,2020)。 除了设计复杂的模块之外,另一条研究重点是构建即插即用模块(Hu et al., 2018b; Woo et al., 2018; Cao et al., 2020; Lee et al., 2019; Wang et al., 2019) ., 2020; Yang et al., 2020)可以细化块内的卷积输出,并使整个网络能够学习更多信息特征。 例如,挤压和激励(SE)模块(Hu et al., 2018b)允许网络捕获任务相关特征(参见图 1 中的“山帐篷”)并抑制许多背景激活(参见中的“钢拱桥”)。 图1)。 该模块独立于网络架构,因此可以插入广泛的网络中,例如 VGG (Simonyan & Zisserman, 2014)、ResNets (He et al., 2016b) 和 ResNeXts (Xie et al., 2017) 。 最近,SE 模块作为 AutoML 的一个组件包含在内,以搜索更好的网络结构(Howard 等人,2019 年;Tan & Le,2019 年)。 然而,现有的注意力模块有两个问题。 首先,它们只能沿着通道或空间维度细化特征,限制了它们学习跨通道和空间变化的注意力权重的灵活性。 其次,它们的结构是由一系列复杂因素构建的,例如池化的选择。 我们通过提出一个基于完善的神经科学理论的模块来解决这些问题。 具体来说,为了使网络学习更具辨别力的神经元,我们建议直接从当前神经元推断 3D 权重(即考虑空间和通道维度),然后依次细化这些神经元。 为了有效地推断此类 3-D 权重,我们定义了一个由神经科学知识指导的能量函数,并得出了一个封闭式解决方案。 如图 1 所示,我们的模块帮助网络捕获许多与图像一致的有价值的线索

2 相关工作

在本节中,我们将简要讨论网络架构和即插即用注意力模块的代表性工作。 网络架构。 2012 年,发布了现代深度卷积网络 AlexNet(Krizhevsky et al., 2012),用于大规模图像分类。 它是一个简单的前馈结构,类似于 LeNet 中的设置(LeCun 等人,1998)。 之后,人们提出了多种方法来增强卷积网络的能力。 一些工作侧重于寻找最佳滤波器形状(Zeiler & Fergus,2014;Chatfield 等人,2014),而其他一些方法尝试设计更深的网络。 例如,VGG (Simonyan & Zisserman, 2014) 和 Inception Net (Szegedy et al., 2015) 使用堆叠卷积来降低梯度消失/爆炸的风险 (Bengio et al., 1994; Glorot & Bengio, 2010)。 接下来,ResNet(He et al., 2016b)和 Highway network(Srivastava et al., 2015)在每个块内添加从输入到输出的快捷连接。 快捷连接使 ConvNet 能够扩展到数百层。 他们的结果表明,增加网络深度可以大大提高卷积网络的表示能力。 除了网络深度之外,一些工作建议增加滤波器的数量(Zagoruyko & Komodakis,2016)以获得更宽的块,在每个块内添加更多连接(Huang et al.,2017),或者探索组/深度明智的卷积( 谢等人,2017;Chollet,2017)。 最近,一系列工作使用 AutoML (Zoph & Le, 2016; Liu et al., 2018b;a; Tan et al., 2019; Howard et al., 2019; Wu et al., 2019) 来保存手册 网络设计方面的努力。 与上述工作不同,我们的目标是设计一个轻量级的即插即用模块。 该模块可用于许多ConvNet,以进一步提高其在各种任务中的性能,而无需对架构进行大的改变。 注意和重新校准模块。 之前的作品还设计了一些细化特征图的计算模块。 它们通常被称为注意力模块或重新校准模块。 为了简单起见,我们在本文中将它们称为注意力模块。 事实上,人类注意力是最重要的选择机制之一,它优先考虑与任务相关的信息并减弱不相关的信号(Reynolds & Chelazzi,2004;Chun 等,2011)。 人类视觉处理中的注意力机制激发研究人员在卷积网络中设计类似的注意力模块。 一项代表性工作,挤压和激励(SE)(Hu et al., 2018b),通过以下方式学习不同通道的重要性:首先从全局视图中捕获一些上下文线索,然后使用两个完全连接的层来模拟通道之间的交互。 输出又用于在通道级别完善这些功能。 该模块通过其他方法进一步扩展,例如,使用卷积聚合器捕获全局上下文(Hu et al., 2018a)、学习与基于通道的卷积的交互(Wang et al., 2020)、添加空间注意力(Woo 等人,2018),合并远程依赖关系(Cao 等人,2020;Wang 等人,2018b),统一注意力和标准化过程(Li 等人,2019a),或利用该特征的风格线索( 李等人,2019)。 然而,所有这些方法都平等地对待一个通道中的所有神经元或一个空间位置上的所有神经元,因此它们无法有效地计算真实的 3-D 权重。 此外,他们计算注意力权重的算法大多是手工制作的,需要大量的计算能力。 相比之下,我们基于一些著名的神经科学理论来设计我们的模块,这更具可解释性。 值得注意的是,一些模块也受到神经科学理论的启发,例如自适应上下文驱动的卷积(Lin et al., 2020)和选择性内核的感受野调整(Li et al., 2019b)。 与它们不同的是,我们的模块基于从哺乳动物大脑观察到的空间抑制,并将重量生成公式化为能量函数。 导出了该能量函数的封闭式解。 由于快速的封闭式解决方案,我们的模块没有引入额外的参数,这是与以前的作品不同的引人注目的属性。

详细方法请家人们仔细研读原文一手资料!!!

3 结论

在本文中,我们受到哺乳动物大脑神经科学理论的启发,提出了一种新的注意力模块 - SimAM。 特别是,我们基于完善的空间抑制理论,设计了能量函数来实现该理论。 我们还得出了该函数的一个简单解决方案,其中该函数进一步用作特征图中每个神经元的注意力重要性。 我们的注意力模块是在这个能量函数的指导下实现的,避免了太多的启发式方法。 进行了大量的实验来验证所提出的 SimAM 的有效性和效率。 我们的结果表明,针对不同视觉任务,所提出的 SimAM 与各种网络中的其他注意力模块的性能相当。

四 修改步骤!

4.1 修改YAML文件

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

4.2 新建.py

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

4.3 修改tasks.py

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

五、验证是否成功即可

执行命令

python train.py

改完收工!
关注B站:Ai学术叫叫兽er
从此走上科研快速路
遥遥领先同行!!!!

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1667787.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

中国当代最具影响力的人物颜廷利:死神(死亡)并不可怕,可怕的是…

中国当代最具影响力的人物颜廷利:死神(死亡)并不可怕,可怕的是… 在中国优秀传统文化之中,汉语‘巳’字与‘四’同音,在阿拉伯数字里面,通常用‘4’来表示; 作为汉语‘九’字&#x…

鸿蒙开发-ArkTS语言-XML

鸿蒙开发-UI-web 鸿蒙开发-UI-web-页面 鸿蒙开发-ArkTS语言-基础类库 鸿蒙开发-ArkTS语言-并发 鸿蒙开发-ArkTS语言-并发-案例 鸿蒙开发-ArkTS语言-容器 鸿蒙开发-ArkTS语言-非线性容器 文章目录 前言 一、XML概述 二、XML生成 三、XML解析 1.解析XML标签和标签值 2.解析XML属性…

引擎:主程渲染

一、引擎发展 二、引擎使用 1.游戏渲染流程 2.3D场景编辑器操作与快捷键 3.节点的脚本组件 脚本介绍 引擎执行流程 物体节点、声音组件\物理组件\UI组件、脚本组件 暴露变量到面板 4.节点的查找 基本查找 this.node:挂载当前脚本的节点A; this.nod…

APP未上架应用市场,微信商户如何轻松开通APP支付?

在移动互联网时代,APP作为企业与用户之间的重要桥梁,其支付功能的完善与否直接关系到用户体验和企业的营收。然而,有些企业可能面临APP尚未上架应用市场的情况,这时如何开通微信APP支付功能呢?(需要超快捷高…

端午节线上活动方案怎么写?

一年一端午,一岁一安康。 如果您想组织端午活动,却不知道如何安排,可以看看何策网,有很多案例参考,仿造模板修改即可。 下面分享一个线上端午节活动策划方案,希望能帮到你! 端午节作为祭祖祈…

汽车线控转向系统介绍

汽车线控转向系统由方向盘总成、转向执行总成和主控制器(ECU)三个主要部分以及自动防故障系统、电源等辅助系统组成。 线控转向系统(Steering-By-Wire),取消了方向盘和转向车轮之间的机械连接部件,彻底摆脱了机械固件的限制,完全由电能来实现…

Postman历史版本安装与runner测试

前言 实际上就是笔者本地做demo,postman使用了最新版本,本身也没问题,不过postman不支持不登录做runner测试了,很多功能必须登录账号才能使用,否则只能使用http工具发送的能力,而postman本身就是一个简单工…

Modbus通讯协议初学

目录 Modbus通讯协议初学什么是Modbus?Modbus用来做什么?4个种类的寄存器协议速记功能码Modbus 报文帧示例解读 Modbus通讯协议初学 什么是Modbus? 顾名思义,它是一个bus,即总线协议。比如串口协议、IIC协议、SPI都是通讯协议。你接触到这种协议,相信你所处的行业是工业方…

远程点击没反应

目录 todesk远程登录后点击没反应 解决方法: 方法1 快捷键: 方法2 界面点击Ctrl Alt Delete todesk,向日葵远程登录后点击没反应 todesk远程登录后点击没反应 解决方法: 方法1 快捷键: Ctrl Alt Delete 方法…

大模型都在用的GQA是什么

论文:Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints 更详细内容直接看原文!!! 摘要 Multi-query attention(MQA)只使用一个键值头,大大加快了解码器推理…

【ArcGIS 小技巧脚本工具】批量修复CAD图层的数据源

当你打开ArcPro文档的时候,看到内容列表满屏红色感叹号。 新手可能会心脏骤停,久经沙场的规划人只会微微一笑。随机选中一个幸运的红色感叹号点击,打开更改数据源对话框,找到它原始的数据源,确定。 but。。。为啥只修复…

C++小程序:同一路由器下两台计算机间简单通信(2/2)——客户端

客户端的程序结构前半部分与服务器端基本相同,后半部分也相对简单。相关函数的解释可以参考前文服务器端的内容。有关客户端的内容除个别地方外,就不再做长篇大论的解释。强调一点,如果将此程序移到其它电脑上运行,编译需要releas…

【基于 PyTorch 的 Python 深度学习】6 视觉处理基础:卷积神经网络(2)

前言 文章性质:学习笔记 📖 学习资料:吴茂贵《 Python 深度学习基于 PyTorch ( 第 2 版 ) 》【ISBN】978-7-111-71880-2 主要内容:根据学习资料撰写的学习笔记,该篇主要介绍了卷积神经网络的池化层部分和现代经典网络。…

Echarts旭日图的配置项,强大的层级关系展示图表。

ECharts中的旭日图(Sunburst Chart)是一种数据可视化图表,用于展示层级关系数据。它通常用于呈现树状结构或层级结构的数据,例如组织结构、文件目录结构、地理区域层级等。 旭日图通过圆形的方式展示数据的层级结构,每…

AI技术构建本地知识库的流程

构建本地知识库是一个复杂的过程,涉及以下几个步骤,使用大模型技术构建本地知识库是一种很有前途的方法。随着大模型技术的不断发展,我们可以期待本地知识库将变得更加智能、高效和准确。北京木奇移动技术有限公司,专业的软件外包…

Cloudflare国内IP地址使用教程

Cloudflare国内IP地址使用教程 加速网站: 首先我们添加一个 A 记录解析,解析 IP 就是我们服务器真实 IP: 然后侧边栏 SSL/TLS - 自定义主机名: 回退源这里填写你刚刚解析的域名,保存后回退源状态为有效再来接下的操作…

2-1 EXTI外部中断(gd32)

中断的概念 中断硬件结构/软件结构 EXTI中断 EXTI硬件结构 注:EXTI线在同一时刻只能连接一个GPIO口,如果我们先连接了PA0,然后又连接了PB0那么此时PA0这个IO口就失去作用。 中断触发函数 中断优先级 中断优先级 数值越小优先级越高,抢占优先级…

17 M-LAG 配置思路

16 华三数据中心最流行的技术 M-LAG-CSDN博客 M-LAG 配置思路 什么是M-LAG?为什么需要M-LAG? - 华为 (huawei.com) 1 配置 M-LAG 的固定的MAC地址 [SW-MLAG]m-lag system-mac 2-2-2 2 配置M-LAG 的系统标识符系统范围1到2 [SW-MLAG]m-lag system-nu…

程序员工作中常见问题,你遇到过几个?

在赛博朋克2077玩后感中,我提到,即便是在严谨的机制下,依然可能出现让人匪夷所思或是贻笑大方的问题。 那么今天,就以后端程序员的视角,盘点下从设计开发到上线的常见问题,看看大家中过几个。 01 设计与开…

解决ubuntu无法上网问题

发现是网络配置成了Manual手动模式,现在都改成自动分配DHCP模式 打开后,尝试上网还是不行,ifconfig查看ip地址还是老地址,怀疑更改没生效,于是重启试试。 重启后,ip地址变了,可以打开网页了 …