YOLOv10改进:CA注意力机制【注意力系列篇】(附详细的修改步骤,以及代码,目标检测效果优于SE和CBAM注意力)

news2024/9/22 15:51:47

YOLOv10改进:CA注意力机制【注意力系列篇】(附详细的修改步骤,以及代码)

如果实验环境尚未搭建成功,可以参考这篇文章 ->【YOLOv10超详细环境搭建以及模型训练(GPU版本)】

文章链接为:http://t.csdnimg.cn/YQ9qW

---------------------------------------------------------------------------​

1.基本原理简介

Abstract:Recent studies on mobile network design have demonstrated the remarkable effectiveness of channel attention (e.g., the Squeeze-and-Excitation attention) for lifting model performance, but they generally neglect the positional information, which is important for generating spatially selective attention maps. In this paper, we propose a novel attention mechanism for mobile networks by embedding positional information into channel attention, which we call “coordinate attention”. Unlike channel attention that transforms a feature tensor to a single feature vector via 2D global pooling, the coordinate attention factorizes channel attention into two 1D feature encoding processes that aggregate features along the two spatial directions, respectively. In this way, long-range dependencies can be captured along one spatial direction and meanwhile precise positional information can be preserved along the other spatial direction. The resulting feature maps are then encoded separately into a pair of direction-aware and position-sensitive attention maps that can be complementarily applied to the input feature map to augment the representations of the objects of interest. Our coordinate attention is simple and can be flexibly plugged into classic mobile networks, such as MobileNetV2, MobileNeXt, and EfficientNet with nearly no computational overhead. Extensive experiments demonstrate that our coordinate attention is not only beneficial to ImageNet classification but more interestingly, behaves better in down-stream tasks, such as object detection and semantic segmentation.

摘要:最近关于移动网络设计的研究表明了通道注意力(例如,挤压与激励注意力)对提升模型性能的显著效果,但它们通常忽略了位置信息,而位置信息对于生成空间选择性注意力图至关重要。在本文中,我们提出了一种新颖的用于移动网络的注意机制,通过将位置信息嵌入通道注意力中,我们称之为“坐标注意力”。与通道注意力通过2D全局池化将特征张量转换为单个特征向量不同,坐标注意力将通道注意力分解为两个沿着两个空间方向分别聚合特征的1D特征编码过程。通过这种方式,可以沿着一个空间方向捕捉长距离依赖关系,同时可以保留另一个空间方向的精确位置信息。然后,生成的特征图分别编码为一对方向感知和位置敏感的注意力图,可以互补地应用于输入特征图,以增强感兴趣对象的表示。我们的坐标注意力简单易用,可以灵活地插入经典移动网络,如MobileNetV2、MobileNeXt和EfficientNet,几乎没有计算开销。大量实验表明,我们的坐标注意力不仅有益于ImageNet分类,而且更有趣的是,在下游任务,如目标检测和语义分割中表现更好。

实验对比:

论文地址:https://arxiv.org/pdf/2103.02907.pdf

代码地址:GitHub - houqb/CoordAttention: Code for our CVPR2021 paper coordinate attention

2.将CA模块加入到YOLOv10中

注意:CA 模块是一种即插即用的模块,可以在许多位置添加。不同的数据集可能需要在不同的位置添加 CA 模块,其效果也会有所不同。建议在不同位置进行多次实验以便比较效果。以下是我选择添加CA模块的位置,供大家参考,但不一定要完全按照这种方式添加。

2.1 方法一:在YOLOv10的主干网络(Backbone)中添加CA模块

2.1.1 步骤一

在【ultralytics/nn/modules】目录下新建一个ca.py的文件,添加CA模块代码。代码获取链接:https://mbd.pub/o/bread/mbd-ZpuTkpZx

最后在【ultralytics/nn/moduels/_init_.py】文件里面导入CA模块。

2.1.2 步骤二

打开【ultralytics/nn/tasks.py】文件,在文件的开头导入CA模块。

然后找到parse_model这个方法(可以通过搜索parse_model)。

最后在parse_model方法中找到for语句(for i, (f, n, m, args) in enumerate(d["backbone"] + d["head"])),在for语句中再添加一个elif语句,将CA模块添加进去。

elif m in {CA}:
    args = [ch[f],  ch[f]]

添加的位置截图如下:

2.1.3 步骤三

修改模型。在【ultralytics/cfg/models/v10】目录下新建一个yolov10-ca.yaml网络结构配置文件。将CA模块添加到YOLOv10结构中(这里我将CA模块添加到主干网络的倒数第二层)。 代码获取链接:https://mbd.pub/o/bread/mbd-ZpuTkpZx

2.1.4 训练过程

为了方便训练,可以在项目目录下新建一个名为train.py的文件,这样以后只需执行train.py就可以开始训练模型了。 代码获取链接:https://mbd.pub/o/bread/mbd-ZpuTkpZx

(如果train.py文件已经存在,只需要修改其中模型和数据集的配置文件路径即可。我这里给出的train.py文件中只是列举了常用的超参数,如果需要修改其他的超参数,可以进入【ultralytics/cfg/default.yaml】文件修改即可。)

成功运行的网络结构截图如下:

开始训练模型的部分截图如下:

训练结果保存在【runs/detect】目录下。

2.2 方法二:在C2f模块的残差结构中添加CA模块

2.2.1 步骤一

在【ultralytics/nn/modules】目录下新建一个c2f_ca.py的文件。将CA模块添加到C2f模块的残差结构中。 代码获取链接:https://mbd.pub/o/bread/mbd-ZpuTkpZx

然后在【ultralytics/nn/moduels/_init_.py】文件里面导入Bottleneck_CA,C2f_CA模块。

2.2.2 步骤二

打开【ultralytics/nn/tasks.py】文件,在文件的开头导入C2f_CA模块。

找到parse_model这个方法(可以通过搜索parse_model)。

然后在parse_model方法中找到for语句(for i, (f, n, m, args) in enumerate(d["backbone"] + d["head"])),在for语句中的两个位置添加C2f_CA模块。

2.2.3 步骤三

修改模型。在【ultralytics/cfg/models/v10】目录下新建一个yolov10-c2f-ca.yaml网络结构配置文件。(这里我将主干中的C2f模块替换为C2f_CA模块,除此之外,也可以将Neck的C2f模块替换为C2f_CA模块) 代码获取链接:https://mbd.pub/o/bread/mbd-ZpuTkpZx

2.2.4 训练过程

在train.py文件中修改模型的配置文件路径,使用yolov10-c2f-ca.yaml文件,然后运行train.py。

成功运行的网络结构截图如下:

开始训练模型的部分截图如下:

训练结果保存在"runs\detect"目录下。

3.完整的项目文件下载路径

我们提供完整的项目文件,你也可以直接下载到本地,然后打开项目,修改数据集配置文件【NEU-DET.yaml】的数据集路径即可训练模型。 完整项目代码获取链接:https://mbd.pub/o/bread/mbd-ZpuTkpZx

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2117576.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电脑pe是什么意思_电脑pe系统作用详细分析

有些小白很好奇,电脑pe是什么意思?所谓的电脑pe系统其实就是当我们的电脑出现问题而不能进入正常系统时候的一种“紧急备用”系统。如果需要重装操作系统的话,以往采用光盘使用的比较多,随着技术的进步,用u盘制作一个pe启动盘去安…

Kubernetes 系列 | k8s入门运维

目录 一、K8S集群搭建1.1 部署方式1.2 了解kubeadm1.3 部署流程1.3.1 初始化配置1.3.2 安装容器运行时1.3.3 安装K8S软件包1.3.4 创建集群 二、集群高可用1.1 集群高可用-堆叠1.2 集群高可用-集群外etcd 三、Pod运维3.1 Pod运维3.2 Pod的生命周期3.3 Pod状况3.4 Pod阶段3.5 容器…

【C++前缀和】3212. 统计 X 和 Y 频数相等的子矩阵数量|1672

本文涉及的基础知识点 C算法:前缀和、前缀乘积、前缀异或的原理、源码及测试用例 包括课程视频 LeetCode3212. 统计 X 和 Y 频数相等的子矩阵数量 难度分:1672 给你一个二维字符矩阵 grid,其中 grid[i][j] 可能是 ‘X’、‘Y’ 或 ‘.’&a…

中秋佳节,科技好礼献团圆!五款数码好物大推荐

中秋节的到来,总是让人充满了对团圆和美好生活的向往。在这个家人团聚、朋友欢聚的美好时刻,除了享受月饼和团圆饭,还可以通过一些先进的数码好物,提升节日的愉悦感和生活的舒适度。从提升运动体验的南卡Runner Pro5,到…

Windows系统 安装 Nacos

使用说明:安装 Nacos 服务端,以单机模式启动,不用集群。 一、下载Nacos Nacos Server 下载 | Nacos 官网 下载解压后: bin:启动脚本;conf:配置文件 这个文件可以修改端口、增加数据库连接等配…

从零到一:为未上架APP开通微信商户支付服务的步骤详解

随着移动支付的普及,微信商户支付已成为众多商家不可或缺的一部分。然而,对于某些仍处于开发阶段或特殊需求下的APP来说,它们可能尚未在应用商店上架,但仍需接入微信支付功能以满足用户需求。本文将为您提供一份详细的微信商户支付…

2024年印尼金融科技报告解读(1) | 印尼金融科技发展现状与挑战

概述 金融科技的创新正加速全球金融普及和经济增长,尤其在东南亚,其影响尤为显著。 印尼作为该区域的经济龙头,凭借其庞大的人口基数和独特的地理位置,对"非接触式"服务和中小企业融资的需求迅猛增长,成为数…

mp3和mp4区别是什么?音视频转换,用这2个工具就够了

在刷视频的时候,在看电影的时候,在听歌的时候……我们经常能听到“mp3”、“mp4”这两种格式的名字。它们是什么格式?mp3和mp4区别是什么?我们能做什么? mp3是一种流行的音频编码格式,以其高效的压缩算法著…

屏幕空间UV 警戒线

屏幕空间UV 警戒线 屏幕UV已经抗锯齿

ueditor抓取图片

在ueditor.all.js文件中 修改catchremoteimage方法 原来的: 修改后: function catchremoteimage(imgs, callbacks) { //创建一个请求var oReq = new XMLHttpRequest() //获取请求地址前缀,根据自身项目获取const baseURL = http://uat.********* //url为请求地址根路径+具…

openGauss 数据库管理工具:DataKit 6.0 部署与配置实战

目录 一、DataKit简述 二、部署概要 三、系统规划 四、软件环境准备 1、关闭防火墙 2、配置时间同步 3、禁用 SELinux 4、关闭RemoveIPC 5、字符集设置 6、安装依赖包 五、openGauss DataKit部署与配置 1、openGauss 安装与配置 1.openGauss参数配置 2.重启 open…

React Native 0.76,New Architecture 将成为默认模式,全新的 RN 来了

关于 React Native 的 New Architecture 概念,最早应该是从 2018 年 RN 团队决定重写大量底层实现开始,因为那时候 React Native 面临各种结构问题和性能瓶颈,最终迫使 RN 团队开始进行重构。 而从 React Native 0.68 开始,New A…

第三次去银行办事,核心是犯了抓不住重点这个毛病

手机银行不小心输错了两次密码,然后就限制了交易,只能在柜台操作。 由此引发了比如提示密码错误、定期转活期、转账等功能的异常。 前两次去银行,竟然只是去解决了这些附带问题。 核心问题是限制非柜面交易啊。 哎 这就是抓不住重点&…

数据结构-堆-详解

数据结构-堆-详解 1.性质大根堆小根堆 2.实现2.1struct Heap、HeapInit、HeapDestroy2.2HeapPushAdjustUp 2.3HeapPopAdjustDown 2.4HeapTop、HeapSize、HeapEmpty 3.应用3.1堆排建堆排序 3.2TopK问题 1.性质 堆是一种特殊的完全二叉树,其父节点总是不大于/不小于 …

手把手教你使用亚马逊云服务器创建EC2实例

陈老老老板🤴 🧙‍♂️本文专栏:生活(主要讲一下自己生活相关的内容)生活就像海洋,只有意志坚强的人,才能到达彼岸。 🧙‍♂️本文简述:如何使用亚马逊云服务器创建EC2实例。 🧙‍♂…

CGAL 概念模型及Traits 概述

CGAL 概念模型及Traits 本节释了概念Concepts 、模型Models以及Traits类的含义。 CGAL Concepts and Models 概念Concepts是对类型的一组要求,即它具有特定的嵌套类型、特定的成员函数或具有特定的以该类型为参数的自由函数。概念的模型 Models是一个满足概念需求…

大厂最爱问的MVCC,到底是个啥?

引言 多版本并发控制(MVCC)是一种用于提高数据库并发性能的技术,尤其在处理高并发读写操作时极为有效。MVCC通过维护数据的多个版本来避免读写冲突,使得读操作无需阻塞写操作,写操作也不会影响读操作。下面&#xff0…

内网环境使用Docker部署Qwen2模型-vLLM篇

在此之前,我们已成功利用Docker与Ollama框架,在内网环境中部署了Qwen2模型。下面我们再来看一下使用Docker与vLLM框架部署Qwen2模型。 准备vLLM镜像 在一台具备网络环境的机器上执行以下命令,拉取vLLM的镜像: # 官方镜像 docke…

探索MySQL数据查询语言的无限魅力:精准检索,驾驭数据海洋的钥匙

作者简介:我是团团儿,是一名专注于云计算领域的专业创作者,感谢大家的关注 座右铭: 云端筑梦,数据为翼,探索无限可能,引领云计算新纪元 个人主页:团儿.-CSDN博客 目录 前言&#…

可视掏耳勺真的有作用吗?测评热门可视掏耳勺

随着现代人对个护健康的日益关注,可视掏耳勺这掏耳神器逐渐风靡市场,但同时也伴随着部分质疑的声音,甚至被贴上“智商税”的标签。因为有不少消费者使用时出现画质低清、材质不舒服等现象,那么,可视掏耳勺真的好用吗&a…