【论文精读】CAM:基于上下文增强和特征细化网络的微小目标检测

news2025/1/20 19:27:06

在这里插入图片描述


文章目录

  • 🚀🚀🚀摘要
  • 一、1️⃣ Introduction---介绍
  • 二、2️⃣Related Work---相关工作
    • 2.1 🎓 基于深度学习的对象检测器
    • 2.2 ✨多尺度特征融合
    • 2.3 ⭐️数据增强
  • 三、3️⃣提议的方法
    • 3.1 🎓 具有上下文增强和特征细化的特征金字塔网络
      • 3.1.1 ☀️上下文增强模块
      • ☀️3.1.2 特征细化模块


🚀🚀🚀摘要

微小的物体由于其低分辨率和小尺寸而很难被探测到。微小目标检测性能差的主要原因是网络的局限性和训练数据集的不平衡性。提出了一种结合上下文增强和特征细化的新型特征金字塔网络。将多尺度展开卷积的特征从上到下融合注入到特征金字塔网络中,补充上下文信息。引入通道和空间特征细化机制,抑制多尺度特征融合中的冲突形成,防止微小目标淹没在冲突信息中。此外,提出了一种数据增强方法copy-reduce-paste,该方法可以增加训练过程中微小对象对损失的贡献,保证训练更加均衡。实验结果表明,所提网络VOC数据集上目标目标的平均精度达到16.9% (IOU=0.5:0.95),比YOLOV4高3.9%,比CenterNet高7.7%,比RefineDet高5.3%。


一、1️⃣ Introduction—介绍

微小目标检测作为目标检测领域的一个挑战,被广泛应用于自动驾驶、医疗领域、无人机导航、卫星定位、工业检测等视觉任务中。近年来,基于深度学习的目标检测器取得了很大的进展,以yolo、SSD为代表的一阶段算法可以通过前向卷积神经网络直接快速访问到感兴趣的目标。然而,两阶段算法根据生成的候选框获得RoI(感兴趣区域),具有更高的准确性。尽管这些目标检测算法在精度和速度上取得了很大的进步,但在检测微小目标(小于32×32像素)时,其性能仍然很不理想。在大多数公开数据集上,微小物体的检测精度甚至不到较大目标的一半。因此,微小物体检测仍有很大的改进空间。

微小目标检测性能不佳主要是由于网络本身的局限性和训练数据的不平衡造成的。为了获得可靠的语义信息,现代检测器试图叠加越来越多的池化和下采样操作,使得像素较少的微小物体特征在转发传播中逐渐丢失,限制了微小物体的检测性能。FPN可以在一定程度上缓解信息扩散问题,通过水平融合低分辨率特征图和高分辨率特征图。然而,直接融合不同密度的信息会产生语义冲突,限制了多尺度特征的表达,使微小物体容易淹没在冲突信息中。同时,在目前的经典公共数据集中,微小目标的标注数量远远少于较大目标的标注数量。因此,在训练过程中,网络的收敛方向不断向较大的目标倾斜,导致微小目标的性能不佳。因此,我们认为从以上两个方面提高微小物体的检测率是可行的。

为了解决微小目标的特征分散和层与层之间的语义差异问题,本文提出了一种结合上下文增强和特征细化的特征金字塔复合神经网络结构。提出的算法框架如图1所示。
在这里插入图片描述
图1:整体网络结构。CAM和FRM是网络的主要组成部分。CAM将上下文信息注入FPN, FRM过滤FPN冲突信息。

它结合了上下文增强模块(CAM)和特征细化模块(FRM)。CAM融合多尺度展开卷积特征,获得丰富的上下文信息,用于特征增强。FRM在通道和空间维度上引入特征细化机制,抑制冲突信息,防止微小目标淹没在冲突信息中。同时,为了保证网络在训练过程中不会倾向于较大的目标,提出了一种称为复制-减少-粘贴的方法来增加训练中微小目标的损失贡献。我们在标准公共数据集PASCAL VOC上进行训练和测试,并通过对比实验和烧蚀实验验证了我们的方法检测微小物体的有效性。本文提出的算法在VOC数据集上的精度达到83.6% (IOU=0.5),高于大多数比较算法,对微小物体的精度达到16.9% (IOU=0.5:0.95),高于YOLOV4、CenterNet等前沿网络。

二、2️⃣Related Work—相关工作

2.1 🎓 基于深度学习的对象检测器

目标检测是一项基本的计算机视觉任务,它包含分类和定位两个方面,可以看作是一个回归问题。早期,手工设计的特征被广泛应用于目标检测。然而,手工设计的特征是一种浅特征,在基于cnn的特征出现后逐渐被取代。R-CNN作为两阶段算法的先驱,采用不同大小的先验盒对不同大小的目标进行匹配,然后通过CNN选择候选区域。为了减少训练时间,FastRCNN提取整幅图像的特征图,然后使用空间金字塔池化和RoI池化来生成区域特征并过滤候选区域。为了进一步提高微小目标的精度,EFPN提出了超分辨率特征金字塔结构来放大微小目标特征。与两级网络相比,一级网络速度更快,但精度较低。SSD在图像上密集地放置锚盒来获取目标盒,同时充分利用不同尺度的特征来检测较小的目标。YOLOV3选择基于特征金字塔的三个输出分别检测大、中、微小物体,显著提高了微小物体的检测性能。在FPN中引入了一种高分辨率注意机制,以挖掘微小目标的最有用信息。本文选择YOLOV3作为基准,并在此基础上进行改进。RefineDet引入了一种新的损失函数来解决简单样本和困难样本之间的不平衡问题。最近,基于无锚架构的检测器变得越来越流行。尽管目标检测算法在不断发展和更新换代,但在微小物体检测领域并没有大的突破,微小物体的检测精度仍然较低。

2.2 ✨多尺度特征融合

利用多尺度特征是提高微小物体检测精度的有效方法。 SSD是首次尝试利用多尺度特征来预测目标的位置和类别。 FPN从上到下合并不同粒度的相邻特征图,可以大大提高特征的表达能力,大量类似于FPN的变体结构已经出现。PANet在 FPN的基础上添加了额外的自下而上连接,以更有效地将信息从下层传输到上层。NAS-FPN通过神经架构搜索技术找到了一种新的连接方法。BiFPN改进了 PANet的连接方法,使其更加高效,并在连接点引入了简单的注意力机制。虽然上述结构极大地提高了网络的多尺度表达能力,但它们忽略了不同尺度特征之间冲突信息的存在,而上下文信息的缺乏可能会阻碍性能的进一步提升,尤其是对于微小物体,,很容易被冲突信息淹没,本文充分考虑了冲突信息和上下文信息对检测精度的影响。

2.3 ⭐️数据增强

训练集的预处理一直是深度学习中不可或缺的一部分,例如旋转、变形、随机擦除、随机遮挡、光照扭曲、MixUp等。,最近,一些针对微小物体的数据增强方法被提出。将损失视为一种反馈。将四张图像缩放至相同尺寸并拼接在一起,以增强反馈引导下微小物体检测的性能。与(Chen et al., 2020)不同,(Yu &Koltun, 2015)将 4 张图像缩放为不同尺寸并将它们拼接成一张。(Kisantal et al., 2019)尝试通过复制并粘贴微小对象来实现微小对象数据增强到原始图像。该方法只能增加微小物体的数量,而不能增加包含微小物体的训练图像的数量,一定程度上也会造成训练的不平衡。由于较大的目标广泛分布在每批训练中,本文保证了每批训练中微小目标对损失的贡献,使训练更加平衡。

三、3️⃣提议的方法

本章将详细介绍我们的微小物体检测网络。,如图 1 所示,{C2, C3, C4, C5} 表示输入图像被下采样 {4, 8, 16, 32} 次后的不同级别。 ,{F1,F2,F3}通过一层卷积表示为与{C3,C4,C5}对应的新生成的特征级别,而C2由于杂乱的噪声而被丢弃。 {L1,L2,L3}表示为FPN生成的特征级别,{P1,P2,P3}表示为FRM生成的特征级别。该网络主要由CAM和FRM组成。CAM 的灵感来自于人类识别物体的模式。例如,人类很难区分很高的天空中的鸟,但是当将天空作为上下文信息时,人类就很容易区分。因此,我们认为上下文信息有助于微小物体检测。CAM应用不同空洞卷积率的空洞卷积来获取不同感受野的上下文信息,并将其自上而下注入到FPN中以丰富上下文信息。但由于不同层次FPN之间的语义差异,在共享信息的同时会引入冗余信息和冲突信息。因此,提出FRM来过滤冲突信息,减少语义差异。,通过自适应融合不同层之间的特征,消除层间的冲突信息,防止微小物体特征淹没在冲突信息中。

同时,鉴于微小物体产生的正样本数量较少以及微小物体对丢失的贡献有限,提出了一种称为复制-减少-粘贴的数据增强方法。具体来说,复制训练集中较大的目标,缩小它们,然后将它们粘贴回原始图像。在粘贴过程中,需要保证粘贴的目标不与已有的目标重叠。,上述方法将在下面的章节中详细解释。

3.1 🎓 具有上下文增强和特征细化的特征金字塔网络

3.1.1 ☀️上下文增强模块

微小目标检测需要上下文信息。我们提出使用不同空洞卷积速率的空洞卷积来获取不同感受野的上下文信息,以丰富FPN的上下文信息。结构如图2所示。
在这里插入图片描述
图2:CAM的结构:特征分别以1、3、5的速率进行空洞卷积处理。语境信息是通过融合不同感受野的特征得到的

图2是cam的结构(Yu &Koltun, 2015)。我们在C5上以不同的空洞卷积速率进行空洞卷积,得到不同感受野的上下文信息。核大小为3×3,空洞卷积速率为1、3和5。可能的融合方式如图3 (a)、(b)和(c)所示。
在这里插入图片描述
图3:融合方式。

方法(a)和(c)分别为加权融合和拼接操作。即直接在空间维度和通道维度上添加特征映射。方法(b)是一种自适应融合方法。具体来说,假设输入的大小可以表示为(bs, C, H, W),我们可以通过卷积、拼接和Softmax操作获得(bs, 3, H, W)的空间自适应权值。三个通道一对一地对应三个输入,通过计算加权和可以将上下文信息聚合到输出。我们通过消融实验验证了每种融合方法的有效性,结果如下表1所示。 AP ⁡ s \operatorname{AP}_{\mathrm{s}} APs AP ⁡ m \operatorname{AP}_{\mathrm{m}} APm AP ⁡ l \operatorname{AP}_{\mathrm{l}} APl分别定义为微小、中等和大型目标的精度。 AR ⁡ s \operatorname{AR}_{\mathrm{s}} ARs AR ⁡ m \operatorname{AR}_{\mathrm{m}} ARm AR ⁡ l \operatorname{AR}_{\mathrm{l}} ARl分别表示小、中、大目标的召回率。由表1可以看出,(c)对微小物体的优势最大。 AP ⁡ s \operatorname{AP}_{\mathrm{s}} APs AR ⁡ s \operatorname{AR}_{\mathrm{s}} ARs均增长1.8%。方法(b)对于大中型目标改善最大。方法(a)带来的改进基本上介于两者之间。

在这里插入图片描述
表1:CAM的消融实验结果

☀️3.1.2 特征细化模块

提出FPN(Lin et al., 2017)来融合不同尺度的特征。然而,不同尺度的特征具有不可忽视的语义差异。直接融合不同尺度的特征会带来大量的冗余信息和冲突信息,降低了多尺度的表达能力。因此,提出FRM来过滤冲突信息,防止微小目标特征被淹没在冲突信息中。FRM的整体结构如图4所示。
在这里插入图片描述
图4:建议的FRM:(a) FRM的框架。(b) (a)中实线表示的结构


在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1556998.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

c++使用类的一些注意事项

前言: 本篇内容为前面的补充,介绍了我们使用类时需要注意些什么以及一些编译器的优化,可能有些理解不到位或者错误,请斧正。 目录 前言: 1.再谈构造函数 2.(c98)隐式类型转换中的编译器的优…

牛客NC31 第一个只出现一次的字符【simple map Java,Go,PHP】

题目 题目链接: https://www.nowcoder.com/practice/1c82e8cf713b4bbeb2a5b31cf5b0417c 核心 Map参考答案Java import java.util.*;public class Solution {/*** 代码中的类名、方法名、参数名已经指定,请勿修改,直接返回方法规定的值即可*…

Linux IRC

目录 入侵框架检测 检测流程图 账号安全 查找账号中的危险信息 查看保存的历史命令 检测异常端口 入侵框架检测 1、系统安全检查(进程、开放端口、连接、日志) 这一块是目前个人该脚本所实现的功能 2、Rootkit 建议使用rootkit专杀工具来检查&#…

在 Linux 中通过 SSH 执行远程命令时,无法自动加载环境变量(已解决)

问题场景 目前我的环境变量都存储在 /etc/profile 文件中,当我通过远程 SSH 执行一些命令时,提示命令找不到,如下所示: 问题出现原因 这里找到了一张出自尚硅谷的图片,很好的解释了该问题: 这是由于 Linu…

快速上手Spring Cloud 十七:深入浅出的学习之旅

快速上手Spring Cloud 一:Spring Cloud 简介 快速上手Spring Cloud 二:核心组件解析 快速上手Spring Cloud 三:API网关深入探索与实战应用 快速上手Spring Cloud 四:微服务治理与安全 快速上手Spring Cloud 五:Spring …

JAVAEE之网络编程

1.网络编程 网络编程,指网络上的主机,通过不同的进程,以编程的方式实现网络通信(或称为网络数据传输)。 当然,我们只要满足进程不同就行; 所以即便是同一个主机,只要是不同进程&am…

烫烫烫手的结构体大小计算来咯,很烫哦,慢慢消化。自定义类型(一)

emmm,在这炎热的夏天在宿舍吹着空调写着博客也是一件不错的事呢,今天就来来好好盘一下C语言中的自定义类型。 常常会回顾努力的自己,所以要给自己的努力留下足迹。 为今天努力的自己打个卡,留个痕迹吧 2024.03.29 小闭 目录 …

基于springboot实现数据库的加解密

项目地址 https://github.com/Chenchicheng/spring-ibatis-encryption 功能说明 支持使用注解的方式目标类进行加解密支持同一个类多个字段分别使用不同的加密方式支持自定义加密方法 本地调试 pull代码到本地,更换application.yml中的数据库用户名和密码&…

第十四届蓝桥杯(八题C++ 题目+代码+注解)

目录 题目一(日期统计 纯暴力): 代码: 题目二(01串的熵 模拟): 代码: 题目三(治炼金属): 代码: 题目四(飞机降落 深度…

UI的设计

一、RGB888的显示 即红色,绿色,蓝色都为8位,即通常说的24位色。可以很好显示各种过渡颜色。从硬件上,R、G、B三基色的连接线各需要有8根,即24根数据线;软件上存储的数据量也需要24位,即3个字节&…

【ERP原理与应用】用友U8实验

实验一、系统管理与基础设置 实验内容: 一、核算体系的建立 好友软件公司是一家软件制造和系统集成企业,其产品面向国内外市场,自 2019 年 3 月公司开始使用 ERP 软件管理业务。软件操作员有三位,黄红是账套 主管,张…

2024蓝旭春季第二次前端培训课

目录 CSS伪类与伪元素 伪类 伪元素 关系选择器 分类举例 后代选择器 子元素选择器 相邻兄弟选择器 通用兄弟选择器 作用使用场景 后代选择器(空格) 子元素选择器 (>) 相邻兄弟选择器 () 通用兄弟选择器 (~) 随机提问 CSS布局 基础布…

RSTP(快速生成树)

与stp的不同: 减少了端口的状态 增加了端口的角色 bpdu格式以及发送方式不同 1.RSTP 快速生成树 802.1w 作用:主要可以用来实现快速收敛,弥补普通生成树收敛慢的问题,收敛时间1s。没有时间机制,每台设备都会发送…

C语言------字符函数和字符串函数

在学习编程的过程中,我们会经常会遇到一些字符和字符串,为了方便操作字符和字符串,C语言标准库中就提供了一系列函数。那么,接下来就学习下这些函数。 1. 字符分类函数 C语言中有一系列的函数是专门做字符分析的,也就…

网络七层模型之会话层:理解网络通信的架构(五)

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

飞天使-k8s知识点28-kubernetes散装知识点5-helm安装ingress

文章目录 安装helm添加仓库下载包配置创建命名空间安装 安装helm https://get.helm.sh/helm-v3.2.3-linux-amd64.tar.gztar -xf helm-v3.2.3-linux-amd64.tar.gzcd linux-amd64mv helm /usr/local/bin修改/etc/profile 文件,修改里面内容,然后重新启用export PATH$P…

java回溯算法笔记

回溯算法综述 回溯用于解决你层for循环嵌套问题,且不剪枝的回溯完全等于暴力搜索。 回溯算法模板https://blog.csdn.net/m0_73065928/article/details/137062099?spm1001.2014.3001.5501 组合问题 “不含重复元素”“不可重复使用”(startindex i1&…

虚拟机体验 mac、Linux、Windows,老游戏和软件再也没有兼容问题

安装虚拟机 下载好 VMwareWorkstation Pro 后运行安装程序,根据流程完成安装; 勾选许可协议,点击「下一步」; 这里注意更改安装路径,最好选择 C 盘以外的其他磁盘,选择好后点击「下一步」; 这里…

2024/3/30面试题的总结

1.南京某公司 1.Java的几种基本数据类型?分别是多少字节? byte,8bit 1字节 char,16bit 2字节 short,16bit 2字节 int,32bit 4字节 float,32bit 4字节 long,64bit 8字节 doubl…