【论文阅读|基于 YOLO 的红外小目标检测的逆向范例】

news2024/11/25 11:11:33

在这里插入图片描述

基于 YOLO 的红外小目标检测的逆向范例

  • 摘要
  • 1 引言
  • 2 相关工作
    • 2.1 逆向推理
    • 2.2 物体检测方法
  • 3 方法
    • 3.1 总体架构
    • 3.2 逆向标准的可微分积分
  • 4 实验
    • 4.1 数据集和指标
    • 4.2 实验环境
    • 4.4 OL-NFA 为少样本环境带来稳健性
  • 5 结论

论文题目: A Contrario Paradigm for YOLO-based Infrared Small Target Detection(基于 YOLO 的红外小目标检测的逆向范例)

论文下载链接: https://arxiv.org/pdf/2402.02288.pdf

摘要

检测红外图像中的微小目标是计算机视觉领域的一项具有挑战性的任务,尤其是在将这些目标从嘈杂或纹理背景中区分出来时。与分割神经网络相比,传统的物体检测方法(如 YOLO)在检测微小物体时非常吃力,因此在检测小目标时性能较弱。为了在保持高检测率的同时减少误报,在 YOLO 检测器的训练中引入了反向决策标准。后者利用小目标的不可预测性,将它们与复杂背景区分开来。在 YOLOv7-tiny 中加入这一统计标准,缩小了红外小目标检测和物体检测网络中最先进的分割方法之间的性能差距。它还大大提高了 YOLO 对少样本环境的鲁棒性。

关键词: 小目标检测、逆向推理、YOLO、少样本检测

1 引言

在包括医疗或安全领域在内的各种应用中,准确检测红外(infrared, IR)图像中的小目标至关重要。红外小目标检测(Infrared small target detection, IRSTD)是计算机视觉领域的一项巨大挑战,其困难主要在于:(1) 目标的大小(面积低于 20 像素);(2) 复杂且纹理丰富的背景,从而导致许多误报;(3) 学习条件,即从小型、多样化程度低且高度类不平衡的数据集中学习,因为与背景类像素相比,目标类像素的数量非常少。过去几十年来,深度学习方法的兴起在物体检测领域取得了令人瞩目的进步,这主要归功于它们能够从大量标注数据中学习,提取出非常适合最终任务的非线性特征。在 IRSTD 中,语义分割神经网络的应用最为广泛[1]。其中包括 ACM[2]、LSPM[3]和最近最先进的(SOTA)方法之一,即 DNANet[4],它由多个嵌套的 UNets 和一个多尺度融合模块组成,能够分割不同大小的小物体。然而,依靠分割神经网络进行物体检测的一个主要问题是,在调整用于二值化分割图的阈值时,可能会出现物体破碎的情况。这会导致许多不希望出现的误报,并扭曲计数指标。Faster-RCNN [5] 或 YOLO [6] 等物体检测算法通过边界框回归明确定位物体,从而降低了这种风险。然而,这些算法往往难以检测到微小物体。很少有研究关注将此类检测器用于 IRSTD [7],也没有与 SOTA IRSTD 方法进行严格比较。

在本文中,提出了一种新颖的 YOLO 检测头,称为 OL-NFA(for Object-Level Number of False Alarms, OL-NFA对象级误报数量),专门用于小物体检测。该模块集成了一个逆向决策标准,用于引导特征提取,从而使不可预测的物体在背景中脱颖而出并被检测到。它用于重新估算由 YOLO 骨干计算出的对象性分数,并经过精心实施,以便在训练过程中进行反向传播。使用逆向范式的一个好处是,因为有大量的背景样本,它侧重于对背景建模,而不是对物体本身建模。这样,通过拒绝背景分布的假设来进行检测,就可以绕过类不平衡和训练数据少的问题。主要贡献如下:

1.设计了一种新颖的 YOLO 检测头,它整合了一种用于估算对象性分数的逆向标准。通过重点对背景而非物体本身进行建模,放宽了对大量训练样本的限制。

2.在著名的 IRSTD 基准上比较了 SOTA 分割神经网络和物体检测方法,结果表明在 YOLOv7-tiny 骨干中添加 OL-NFA 可以缩小 IRSTD 中物体检测器和 SOTA 分割神经网络 之间的性能差距。

3.此外,还在少样本环境中大幅提高了 YOLOv7-tiny 的性能(15-shot 的 AP 为 39.2%),证明了逆向范式在弱训练条件下的鲁棒性。

2 相关工作

2.1 逆向推理

逆向决策方法可以自动推导出与假设检验相关的决策标准。这些方法从感知理论,尤其是Gestalt理论中汲取灵感[8]。这些方法包括通过使用可解释的检测阈值来拒绝表征非结构化背景的原始模型。后者允许控制误报数量(NFA),通常定义为被测物体总数与所选原始的模型所遵循的规律的尾部分布之间的乘积。由于计算出的尾值取决于对象的特征,因此 NFA 值可以与任何给定对象相关联。文献中提出了几种逆向的公式。它们取决于考虑的是灰度图像还是二值图像。在第一种情况下,最常用的原始模型是像素灰度值的高斯分布 [9、10、11]。后者已被 [12] 整合到深度学习框架中,并在小目标分割中表现出了很好的性能。在第二种情况下,最广泛使用的原始模型是图像网格中 "真实 "像素的均匀空间分布。这就导致了参数 p p p 的二项分布,即 "真实 "像素 κ κ κ在任何给定参数形状的区域 ν ν ν内的数量[13, 14]:
NFA ( κ , ν , p ) = η ∑ i = κ ν ( ν i ) p i ( 1 − p ) ν − i , \text{NFA}\left(\kappa,\nu,p\right)=\eta\sum_{i=\kappa}^{\nu}\begin{pmatrix}\nu\\i\end{pmatrix}p^{i}\left(1-p\right)^{\nu-i}, NFA(κ,ν,p)=ηi=κν(νi)pi(1p)νi,
其中, η η η 是测试对象的数量。根据公式 (1),可能代表物体的像素子集更加重要,因为与图像整体密度相比,它包含许多空间上接近的点。工作重点是将这一原始的模型整合到物体检测器的训练循环中,以引导特征提取,而这在之前的研究中并没有考虑到。与 [12] 不同的是,[12] 的原始模型适用于像素级分类(即分割),而作者考虑的是另一种直接适用于对象级的模型,因此更适用于有边界框建议的神经网络。

2.2 物体检测方法

物体检测是在图像中检测感兴趣的物体,并通过边界框确定其位置的任务。针对此类任务,已经提出了几种深度学习方法 [15, 6]。YOLO 框架是应用最广泛的一种,因为它在各种应用中都有很好的性能,而且执行时间短。它是一种单阶段算法,使用单个卷积神经网络来预测边界框坐标、对象性和分类分数。具体来说,它将图像划分为一个个网格,并预测任何给定网格单元包含物体的概率(表示为物体度分数),如果存在物体,则预测物体的边界框坐标。YOLO 早期版本的一个问题是,它们在检测小物体时很吃力。事实上,如果要检测的物体太小,它可能只占据网格单元的一小部分,这使得 YOLO 难以准确地检测到它。为了解决这个问题,YOLOv3 [16] 引入了一个特征金字塔网络(feature pyramid network,FPN),将在多个尺度上检测到的特征结合起来。YOLO 的一些最新版本,如 YOLOR [17] 或 YOLOv7 [18],在一些著名的计算机视觉基准测试中取得了具有竞争力的检测性能,同时还提高了执行速度。还有人提出了卷积层数更少的 YOLO 微型版本。

3 方法

3.1 总体架构

在这里插入图片描述

作者提出了一种新颖的 YOLO 检测头,称为 OL-NFA(对象级 NFA 检测头),它集成了一种逆向标准,用于检测具有意外偏离背景分布特征的物体。OL-NFA 将根据 NFA 标准(式 (1))计算对象性得分,并应用于网络生成的特征图。

图 1 展示了方法的整体架构。红外输入图像首先经过 YOLO 主干网络,提取不同尺度的特征图。然后,通过颈部将三个较低层次的特征组合在一起,从而得到最终的特征图 F i F_i Fi,用于执行三个层次的检测: i ∈ 1 , 2 , 3 i∈{1, 2, 3} i1,2,3。为了实现检测,首先要通过密集层预测边界框坐标。然后,引入 OL-NFA 模块,利用 NFA 准则重新估算每个边界框的对象度得分。为此,使用 Faster R-CNN [15] 中的 ROI Align 提取出 η 个感兴趣区域(ROI),用 f r o i f_{roi} froi表示,并通过第 3.2 节所述的重要性层计算出每个 ROI 的重要性得分。最后,通过第 3.2 节中定义的函数 f a c t f_{act} fact,这些分数的范围为 [0,1],这样就可以应用 YOLO 中使用的二元交叉熵损失。

3.2 逆向标准的可微分积分

图 1 中的重要性层整合了公式 (1) 中给出的逆向标准。然而,由于该公式 (i) 是为二值图像而非灰度特征图而设计的,而且 (ii) 不可微,因此需要进行一些近似处理,以便将其整合到 YOLO 训练循环中。公式 (1) 带来的第一个困难是计算 f r o i ∈ R 2 f_{roi}∈\mathbb{R}^2 froiR2 中 "True "像素 κ 的数量。如果要对 f r o i f_{roi} froi进行二值化处理,就会破坏反向传播循环。因此,建议考虑实数成员系数(以模糊聚类或分类的精神为指导),即对每个像素处理一个系数,表示它属于包含二进制情况下的值为 1像素的集合的程度。为此,在像素值上使用了 sigmoid 函数 σ,这样就可以通过这些模糊归属系数的总和,近似地计算出 f r o i f_{roi} froi 中包含的像素数量,从而估算出局部密度。在计算 F i F_i Fi中的总点数时,也采用了同样的近似方法,以估算公式 (1) 中二项式定律的参数 p p p(代表 F i F_i Fi 的全局密度)。第二个问题是,NFA 函数是不连续的、不可微的,而且由于处理的是面积很小的物体 ν ν ν,它只取极少数不同的值。这些因素使得很难将公式 (1) "原封不动 "地集成到训练环路中,并进行有效的反向传播。因此,定义了 S ( κ , ν , p ) = − l n ( N F A ( κ , ν , p ) ) S (κ, ν, p) = - ln(NFA(κ, ν, p)) S(κ,ν,p)=ln(NFA(κ,ν,p)) 的意义,并在 k v > p \frac{k}{v} > p vk>p 时使用霍夫丁近似,从而得出
S ( κ , ν , p ) ≈ ν [ κ ν ln ⁡ ( κ ν p ) + ( 1 − κ ν ) ln ⁡ ( 1 − κ ν 1 − p ) ] − ln ⁡ η . S\left(\kappa,\nu,p\right)\approx\nu\left[\frac{\kappa}{\nu}\ln\left(\frac{\frac{\kappa}{\nu}}{p}\right)+\left(1-\frac{\kappa}{\nu}\right)\ln\left(\frac{1-\frac{\kappa}{\nu}}{1-p}\right)\right]-\ln\eta. S(κ,ν,p)ν[νκln(pνκ)+(1νκ)ln(1p1νκ)]lnη.
这样,就可以将函数 S ( κ , ν , p ) S (κ, ν, p) S(κ,ν,p) 的域扩展到 R 3 \mathbb{R}^3 R3,并输出更多的中间值。在 κ ν ≤ p \frac{\kappa}{\nu}≤ p νκp 的情况下,只需指定 ( κ , ν , p ) = − l n   η (κ, ν, p) = - ln~η (κ,ν,p)=ln η,因为它对应于明显的背景值。最后,由于显著性值的范围为 [ − l n ( N t e s t ) , + ∞ ] [- ln(N_{test}), +∞] [ln(Ntest),+],其中大值对应于可能的目标,为了获得范围为[0, 1]的对象性得分,应用了非对称激活函数 f a c t ( x , η ) = 2 σ ( x + l n η ) − 1 f_{act}(x, η) = 2σ(x + ln η) - 1 fact(x,η)=2σ(x+lnη)1,其中 x ∈ R x∈ \mathbb{R} xR η ∈ N ∗ η∈ \mathbb{N}^∗ ηN

4 实验

4.1 数据集和指标

在 NUAA-SIRST 数据集[2]上对提出的方法进行了评估,该数据集是为数不多的可公开获取并在文献中广泛使用的红外小目标数据集之一。该数据集由 427 幅红外图像组成,波长范围为 950 到 1200 nm。来自 NUAA-SIRST 的目标的空间范围从 2 - 3 像素到最大目标的 100 像素以上不等,这使得该数据集适合在各种目标尺寸上评估提出的方法。如图 2 第一行所示,目标被淹没在纹理云等具有挑战性的场景中。按照 60 : 20 : 20 的比例将数据集分为训练集、验证集和测试集。还通过仅在 15 幅和 25 幅图像上训练 神经网络 来评估提出的方法在少样本环境中的优势。在定量评估方面,侧重于传统的检测指标:F1 分数(F1)和平均精度(AP,精度-召回曲线下的面积)。还依赖精度(Prec.)和召回率(Rec.)来了解 F1 分数的实现值。表格中的结果是三次不同训练的平均值,上标为 F1 和 AP 的标准偏差。
在这里插入图片描述

4.2 实验环境

在 YOLOv7tiny 的基础上添加了 OL-NFA 检测头,因为与其他 YOLO 主干线相比,该基线在 NUAA-SIRST 数据集上表现出色。将其与几种基线进行比较:1) 专门为 IRSTD 设计的分割网络,即 ACM [2]、LSPM [3] 和 DNANet [4];2) YOLO 基线,如 YOLOv3 [16]、YOLOR [17]、YOLOv7 和 YOLOv7-tiny [18]。对于 IRSTD 分割神经网络,使用原始论文中推荐的训练设置。所有物体检测神经网络都在 Nvidia RTX6000 GPU 上进行了 600 epochs从头开始的训练,使用 Adam 优化器 [19],批量大小等于 16,学习率等于 0.001。少量训练也采用了相同的设置。

表 1 显示了每种比较方法在 NUAA-SIRST 上取得的性能。可以看到,用OLNFA 代替传统的 YOLO 检测头不仅提高了微小物体检测的 YOLO 性能,还缩小了 SOTA IRSTD 分割神经网络与传统物体检测神经网络之间的性能差距。具体来说,提出的方法比最佳 YOLO 基线的 F1 分数高出 0.7%。AP 标准也提高了 0.4%。此外,提出的方法在 F1 和 AP 方面的表现略好于 DNANet,后者是 IRSTD 的 SOTA 方法。提出的方法的推理时间也比 DNANet 的推理时间短得多,因此可以进行实时目标检测。提出的 OL-NFA 模块之所以性能卓越,主要是因为精度更高,但召回率损失有限,这可以用 NFA 控制误报数量的特性来解释。事实上,增加一个逆向的判定标准有助于增强小物体的特征,从而将它们与复杂背景区分开来。这一点可以从图 2 中看出,最佳 YOLO 基线会导致输入 3 和输入 4 出现多个误报,而提出的方法则能提供正确的检测,没有任何误报。

在这里插入图片描述

4.4 OL-NFA 为少样本环境带来稳健性

将逆向推理纳入神经网络的一个重要动机是网络能够通过学习背景元素的表示而不是目标本身学习判别小目标。因此,它应该能使神经网络对薄弱的训练条件具有鲁棒性。为了证实猜想,在 NUAASIRST 数据集上定量评估了所提出的方法在少样本环境中的优势。为此,分别在 15 幅和 25 幅图像上对网络进行了训练。对于每种少样本设置,都在三个明显的褶皱上训练检测器,它们之间没有重叠。在第 4.1 节定义的测试集上获得的结果是这三个褶皱的平均值,计算出的平均值见表 2。可以看出,提出的方法在节俭设置中的表现明显优于基线方法。事实上,在这些情况下,F1 分数和平均精度都至少提高了 20%。因此,得出结论,在基线方法中添加对象级 NFA 能显著提高其在节俭环境下的鲁棒性:当训练样本数量除以 10 以上时,F1 分数仅降低 15%,而平均精度则保持在 90% 以上。
在这里插入图片描述

5 结论

在本文中,提出了一种名为 OL-NFA 的新型 YOLO 检测头,它在 YOLO 网络的训练循环中集成了一个逆向的决策标准。它迫使网络对背景分布而不是要检测的物体进行建模。广泛的实验表明,提出的方法不仅显著提高了 YOLO 网络在节俭型和少样本环境下的小目标检测性能,而且在小目标检测方面与 SOTA 分割网络的性能相当。这一令人鼓舞的性能促使考虑进一步研究如何使用逆向范式来检测微小目标。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1461119.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024年2月中国数据库排行榜:PolarDB夺魁首登顶,TiDB攀升回探花

银装素裹覆大地,春意初醒待来临。2024年2月墨天轮中国数据库流行度榜单出炉,表现最亮眼的无疑是PolarDB,其自23年7月以来一路高歌猛进,此次更是一举夺魁,彰显了云原生数据库的蓬勃发展态势,OceanBase、TiDB…

笔试题详解(C语言进阶)

前言 欢迎阅读本篇文章!本篇文章通过一个笔试题来加强我们对C语言的理解,希望对你有帮助。后续我会写一个栏目,集合我见到的C语言题目,进行分析讲解。 1、题目一 判断下面程序的输出结果:(下面说的地址4/8字节是因为对…

使用Outlook邮箱保护您的隐私

在数字时代,我们的电子邮件地址就像是我们的数字身份证,它连接着我们的个人信息和网络世界。无论是注册新服务、购物还是预订餐桌,电子邮件地址都是我们身份的关键部分。然而,这也使我们容易受到垃圾邮件和隐私泄露的影响。但是&a…

基于ImageSharp实现趣味横生的点选验证

引言 随着安全需求的不断提升,传统的文本验证码已经无法满足防止机器自动识别和攻击的要求。点选式验证码作为一种交互式的验证手段,因其更难被自动化脚本破解而逐渐受到欢迎。利用开源图像处理库SixLabors.ImageSharp来实现点选式验证码功能。 ImageS…

将从excel 文件里获取的时间转换成标准时间

new Date(new Date(1900, 0, data.PostingDate).setDate(new Date(1900, 0, data.PostingDate).getDate()-1))

IDA按F5反汇编伪代码错误Please use ida (not ida64) to decompile the current file

IDA不能F5反汇编成为伪代码,提示Warning Please use ida (not ida64) to decompile the current file 不给我转伪代码,不让我用ida64,哪我就用ida32 换32位IDA果然可以了 又可以愉快的玩耍了

2024年1月京东平板电视行业分析:TOP10品牌销量及销额排行榜

鲸参谋监测的京东平台1月份平板电视市场销售数据已出炉! 根据鲸参谋电商数据分析平台显示,今年1月份,京东平台上平板电视的销量将近120万件,环比上个月增长约70%,同比去年下滑43%;销售额约34亿元&#xff…

指针的进阶(C语言)(上)

目录 前言 1、字符指针 2、指针数组 3、数组指针 3.1数组指针的定义 3.2 数组名VS&数组名 3.3数组指针的运用 前言 对于指针,我们已经有了初步认识(可以看我写的指针详解那一篇文章)。 简单总结一下基本概念: 1、指针就…

C# Winfrom实例:武汉智能安检闸机数据接收和解析

项目介绍:本实例主要是接收安检闸机的数据解析并显示到界面上,只做功能实现,不做界面美化 硬件:闸机一个、网线一根、电脑主机开发环境:vs2017 系统:win10涵盖知识点:tcp通讯、文件写入、多线程…

通过Linux终端搭建基于HTTP隧道的文件传输系统

嘿,Linux小侠们,准备好挑战一项酷炫的任务了吗?今天我们要一起通过Linux终端搭建一个基于HTTP隧道的文件传输系统,让我们的文件在网络的海洋中畅游无阻! 在开始之前,让我们先来想象一下这个场景&#xff1…

吃个桃桃~

解法&#xff1a;暴力、排序 #include <iostream> #include <vector> #include <algorithm> #include <cmath> using namespace std; #define endl \n struct tree {int index;int peach; }; bool cmp(tree a,tree b) {if (a.peach ! b.peach)return …

提升数据库操作技能:发现MyBatis-Plus学习网站的无限可能!

介绍&#xff1a;MyBatis-Plus是一个对MyBatis框架进行增强的工具&#xff0c;旨在简化开发流程并提升开发效率。以下是MyBatis-Plus的一些主要特点&#xff1a; CRUD操作简化&#xff1a;MyBatis-Plus提供了一些列的CRUD操作方法&#xff0c;这些方法已经封装好&#xff0c;可…

计算机服务器中了devos勒索病毒怎么办?Devos勒索病毒解密数据恢复

网络技术的不断发展与更新&#xff0c;为企业的生产运营提供了有利保障&#xff0c;企业的生产运营离不开数据支撑&#xff0c;通过企业数据可以综合调整发展运营方向&#xff0c;但网络是一把双刃剑&#xff0c;近期&#xff0c;云天数据恢复中心接到许多企业的求助&#xff0…

文件系统创建分区

目录 一、EXT4文件系统创建分区 1.使用 fdisk 分区 2.格式化写入文件系统 3.挂载 临时挂载 永久挂载 二、XFS文件系统创建分区 1.使用 gdisk 分区 2.格式化写入文件系统 3.挂载 临时挂载 永久挂载 三、创建swap分区 1.查看文件系统 2.新建swap分区 3.格式化分区 …

CSP-202006-2-稀疏向量

CSP-202006-2-稀疏向量 【60分思路-暴力枚举】 显然u[100000000], v[100000000]过不了7,8,9,10的样例&#xff0c;但是思路也比较简单易懂&#xff0c;初学者可以参考 #include <iostream> using namespace std; int u[100000000], v[100000000]; long long inner; in…

Java中的关键字

✨✨ 所属专栏&#xff1a; Java基石&#xff1a;深入探索Java核心基础✨✨ &#x1f388;&#x1f388;作者主页&#xff1a; 喔的嘛呀&#x1f388;&#x1f388; Java中的关键字是一些具有特殊含义的单词&#xff0c;它们在语法中有特定的用途&#xff0c;不能用作标识符&am…

ai写作工具哪具好,3款AI写作软件来揭晓

ai写作工具在当今信息爆炸的时代中正变得越来越受欢迎。随着人工智能技术的不断发展&#xff0c;越来越多的AI写作软件涌现出来&#xff0c;它们的功能和性能也日益完善。在这篇文章中&#xff0c;我们将揭晓3款备受推崇的AI写作软件&#xff0c;探讨它们各自的特点和优势。 第…

网络机顶盒哪个好?内行分享网络机顶盒排名

网络机顶盒是电视机的必备搭配&#xff0c;依然是不可缺少的部分&#xff0c;我作为网络机顶盒的从业者&#xff0c;经常给被问到的就是网络机顶盒哪个好&#xff0c;不同品牌之间差异较大&#xff0c;今天给大家分享业内最新发布的网络机顶盒排名&#xff0c;看看目前哪些网络…

前端简单知识复习

1.symbol类型 Symbol 是 ECMAScript 6 中引入的一种新的基本数据类型&#xff0c;它表示独一无二的值。Symbol 值是通过 Symbol() 函数创建的。 Symbol 值具有以下特点&#xff1a; 独一无二性&#xff08;唯一性&#xff09;&#xff1a;每个通过 Symbol() 函数创建的 Symb…

泛微e-office系统存在敏感信息泄露 附POC软件

免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该文章仅供学习用途使用。 1. 泛微e-office系统简介 微信公众号搜索:南风漏洞复…