面向卫星遥感的红外微小舰船目标检测方法:MTU-Net

news2024/10/6 5:58:31

论文简介

空间红外微小舰船检测旨在从地球轨道卫星所拍摄的图像中识别并分离出微小舰船。由于图像覆盖面积极其广大(如数千平方公里),这些图像中的候选目标相比空中或地面成像设备观测到的目标,尺寸更小、亮度更低且变化更多。现有的基于短距离成像的红外数据集和目标检测方法难以很好地适应空间监视任务的需求。为了解决这些问题,作者创建了一个空间红外微小舰船检测数据集(命名为NUDT-SIRST-Sea),包含48幅空间红外图像及17,598个像素级的微小舰船标注。每幅图像覆盖约10,000平方公里的区域,分辨率为10,000×10,000像素。鉴于在这种极具挑战性场景中微小舰船的极端特性(如小、暗、多变),作者在此文中提出了一种多级TransUNet(MTU-Net)模型。具体而言,作者设计了一个视觉Transformer(ViT)与卷积神经网络(CNN)混合编码器来提取多层次特征。首先利用几个卷积层提取局部特征图,随后输入到多层次特征提取模块(MVTM)中,以捕捉远距离依赖关系。此外,作者进一步提出了复制-旋转-缩放-粘贴(CRRP)数据增强策略,加速训练过程,有效缓解了目标与背景样本不平衡的问题。同时,作者设计了FocalIoU损失函数,以同时实现目标定位和形状描述。在NUDT-SIRST-Sea数据集上的实验结果显示,作者的MTU-Net在检测概率、虚警率及交并比等关键指标上,超越了传统方法及现有的基于深度学习的单帧红外小目标(SIRST)检测技术,彰显了其在空间红外微小舰船检测领域的优越性能。

方法介绍

工作贡献可以概括如下:

NUDT-SIRST-Sea是目前最大的带有广泛类别标签的手动注释数据集,专为空间红外检测领域设计。该数据集包含17,598个高精度边界框及像素级注释,旨在支持和评估多种空间红外图像中目标检测器的研发与性能评估。

作者提出了一种新颖的Transformer-CNN混合架构——多级TransUNet(MTU-Net),专为空间红外微小舰船检测设计。借助多级ViT-CNN混合编码器,该架构能有效整合并充分利用微小舰船的远距离依赖关系,通过粗到细的特征提取及多层次特征融合策略,实现特征的全面挖掘。

作者创新性地提出了一种复制-旋转-缩放-粘贴(CRRP)数据增强技术和FocalIoU损失函数,用以缓解前景-背景不平衡问题,并在目标定位与形状描述上实现双赢。

实验结果证实,空间红外微小舰船检测是一项具有挑战性的任务,以往基于地面或空中的SIRST方法难以妥善应对由该任务引入的诸多挑战(如目标极小、亮度极低等)。作者的方法在三项关键评价指标上达到了当前最优水平:检测概率(Pd)、虚警率(Fa)和交并比(IoU),彰显了其在该领域的先进性与实用性。

| NUDT-SIRST-Sea数据集

远大于常规的图像尺寸:与表I中列出的现有SIRST数据集相比,NUDT-SIRST-Sea中的每幅图像覆盖约10,000平方公里的区域,分辨率为10,000×10,000像素,其图像尺寸是NUDT-SIRST、NUST-SIRST和NUAA-SIRST的数千倍之大。如图2(a)所示,如此大幅面的图像包含了更多不同的场景(例如港口、陆地、云层和海洋等)。此外,如此巨大的图像尺寸也带来了更高的计算难度。

图片

更为复杂的背景环境:如图1所示,相比空间红外图像,基于空中或地面的红外图像因覆盖面积有限而显得更为简单。如图2(b)所示,不同的场景(如云朵、微小舰船、港口、陆地以及海面)可以构成更多种类的复杂场景组合。在NUDT-SIRST-Sea数据集中,几种特定场景被视为检测难点,包括:城市内河、云块遮挡、密集目标群以及港口内的目标。这些复杂的场景对检测方法捕捉远距离上下文信息的能力构成了严峻挑战。

图片

多类型疑似目标:如图2(c)所示,作者的NUDT-SIRST-Sea数据集含有丰富多样的疑似目标,包括微小云团、港口集装箱、礁石以及陆地光点等。这些疑似目标在形状与亮度上极易与真实的舰船目标混淆,从而可能引发误报。

图片

极小目标尺寸:如表I所示,NUDT-SIRST-Sea数据集的平均目标尺寸仅为29像素,远小于其他主流SIRST数据集图像中的平均目标尺寸。NUDT-SIRST-Sea数据集的目标与背景比为0.000029%,相比NUDT-SIRST、NUST-SIRST及NUAA-SIRST的目标与背景比,小数百倍。如图2(d)所示,76%的目标在空间图像中所占面积不到0.005%;而其他数据集中的目标在空间图像中所占面积大多超过0.05%。因此,NUDT-SIRST-Sea中极小的目标尺寸使得该数据集比其他数据集更具挑战性。

更暗淡的目标:如表I所示,NUDT-SIRST-Sea数据集相比于其他数据集,目标的平均信噪比(SNR)要低得多。这些现有数据集之间的详细比较如图2(e)所示。像NUDT-SIRST、NUST-SIRST和NUAA-SIRST这样的数据集主要集中在亮度较高的目标上。然而,在NUDT-SIRST-Sea中,超过20%的目标亮度低于0.5。相比之下,在其他基于空中和地面的数据集中,亮度低于0.5的目标占比不足5%。因此,与其它数据集相比,NUDT-SIRST-Sea在检测暗淡目标方面更具挑战性。

多尺度目标:如图2(f)所示,不同类型船只(如大型游轮、中型采油井架和小型游艇)的尺寸变化极大,范围从2像素至500像素不等。鉴于空间红外图像覆盖的广阔区域,不同尺度的目标常在同一场景中同时出现。在同一个场景中检测不同尺度的目标是一项相当具有挑战性的任务。

| MTU-Net

如图3所示,作者的MTU-Net以单幅图像作为输入,依次包含了一个多层次ViT-CNN混合编码器(第四章B节)、一个U形解码器(第四章C节)以及一个八邻域聚类模块(第四章D节),共同作用以生成像素级别的定位与分类结果。

图片

 

数据增强方法

在NUDT-SIRST-Sea数据集中,前景目标与背景的分布极不平衡。这种前景与背景的不平衡问题导致网络更多地关注那些信息量不大的背景区域,从而阻碍了网络的快速收敛。复制粘贴(Copy-Paste, CP)是一种用于实例分割的强大数据增强方法。在此基础上,作者进一步提出了CRRP数据增强方法(即,Copy with Relative and Regional Preservation, CRRP),旨在训练阶段手动增加候选目标的比例,从而加速网络的收敛速度。

相较于仅复制目标本身的CP方法,CRRP数据增强方法不仅复制目标,还复制目标周围的背景区域。这一方式使得CRRP方法能够很好地保留目标自身的信息以及目标与其背景之间的上下文信息。否则,没有上下文依赖关系的支持,一些可疑目标(例如,微小的云朵、港口集装箱、礁石和陆地亮点)可能被错误地识别为目标。因此,相比于CP方法,CRRP在针对基于空间的SIRST检测任务中是一种更合适的数据增强策略,因为它能更准确地模拟和保留实际场景中的目标与背景关系。

如图4(a)所示,作者首先收集目标周边的图像,并随机选取一个目标进行复制。接着,对选中的目标进行随机旋转。之后,将目标随机缩放至作为候选目标的大小。最后,将此候选目标粘贴到图像背景区域中的某个位置。如图4(b)所示,通过这一过程,前景目标与背景的分布不均衡问题得到缓解,并且与先前简单的数据增强方法(如旋转、平移和色彩抖动)相比,训练时间也大大缩短。这种方法通过增加目标实例的数量和多样性,提高了模型对微小舰船这类稀疏且易混淆目标的识别能力,从而促进了模型学习过程的高效性和准确性。

图片

| Focal Loss

Focal Loss专注于难例样本(如小尺度目标、目标边缘及疑似目标),有助于目标定位的精确性。然而,由于在背景中的疑似区域响应过高,Focal Loss可能导致较多的虚警。SoftIoU Loss则侧重于大尺度目标,却忽视了小尺度目标。这是因为相比于小尺度目标,大尺度目标在IoU计算中的贡献更大,这无意中导致了小尺度目标信息的丢失。为了在目标定位与形状描述上实现“双赢”,作者结合了SoftIoU Loss与Focal Loss的优点,提出了FocalIoU Loss。FocalIoU Loss融合了Focal Loss与SoftIoU Loss的优势,既能在背景区域保持较低响应,又专注于小尺度目标。作者提出的FocalIoU损失函数公式如下:

 

如图5(a)所示,低IoU输出的样本会导致FocalIoU损失较高,并使FocalIoU损失急剧下降。当IoU值较小时,表明该图像的整体分割性能较差,此时FocalIoU损失侧重于改善较难但相对简单的样本(例如大尺度目标),而非极度困难的样本,从而促使虚警率(Fa)降低,同时交并比(IoU)有所提升。相反,当IoU值较大时,FocalIoU损失的表现类似于标准的focal loss,更多地聚焦于真正的难题样本,这有助于提高检测概率(Pd)。因此,FocalIoU损失机制通过动态调整对不同类型样本的关注度,实现了在提高检测精度(Pd)和减少误报(Fa)的同时,优化目标轮廓匹配度(IoU),体现了在目标定位与形状描述上的双重优化效果。

图片

实验结果

| 定量分析

图片

图片

图片

| 定性分析

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1855312.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

详细分析Springmvc中的@ModelAttribute基本知识(附Demo)

目录 前言1. 注解用法1.1 方法参数1.2 方法1.3 类 2. 注解场景2.1 表单参数2.2 AJAX请求2.3 文件上传 3. 实战4. 总结 前言 将请求参数绑定到模型对象上,或者在请求处理之前添加模型属性 可以在方法参数、方法或者类上使用 一般适用这几种场景: 表单…

图形编辑器基于Paper.js教程03:认识Paper.js中的所有类

先来认一下Paper的资源对象,小弟有哪些,有个整体的认识。认个脸。 在Paper.js的 官方文档中类大致有如下这些: 基类: ProjectViewItemPointToolSizeSegmentRectangleCurveCurveLocationMatrixColorStyleTweenToolEventGradient…

用于射频功率应用的氮化铝电阻元件

EAK推出了新的厚膜氮化铝 (AlN) 电阻器和端接系列,以补充公司现有的产品。传统上,射频功率电阻元件采用氧化铍(BeO)陶瓷材料作为陶瓷基板;然而,由于国际上要求从产品中去除BeO的压力&#xff0c…

26.3 Django路由层

1. 路由作用 在Django中, URL配置(通常称为URLconf)是定义网站结构的基础, 它充当着Django所支撑网站的目录. URLconf是一个映射表, 用于将URL模式(patterns)映射到Python的视图函数或类视图上. 这种映射机制是Django处理HTTP请求的基础, 它决定了当客户端发送请求时, Django如…

RabbitMQ实践——临时队列

临时队列是一种自动删除队列。当这个队列被创建后,如果没有消费者监听,则会一直存在,还可以不断向其发布消息。但是一旦的消费者开始监听,然后断开监听后,它就会被自动删除。 新建自动删除队列 我们创建一个名字叫qu…

MM-LLM:CogVLM解读

在图文多模态模型中,范式是图像的编码器、文本编码器、模态融合器。也就是不同模态特征抽取加模态对齐。 这部分可以看李沐的精讲 在大模型里的范式在也是如此,目前的工作大部分都专注于怎么拉齐不同模态。 该论文的动机(背景)&…

Bev系列算法总结

1. LSS-Based 1.1 BevDet 通过Lift splat 对于2d 特征中的每个pixel(特征点)估计一个3d的深度分布,这样就可以将2d点投影到3d空间上。这样就可以拿到UVD个3d特征点,然后通过voxel pooling 对高度方向拍平, 这样就得到Bev空间的特征图。然后再通过Bev encoder以及任务头。 …

vue3-openlayers 使用tianditu,wmts和xyz等source加载天地图切片服务

本篇介绍一下使用vue3-openlayers加载天地图切片,三种方法: 使用tianditu(ol-source-tianditu内部实现其实用的wmts)使用wmts(ol-source-wmts)使用xyz(ol-source-xyz) 1 需求 vue…

ArkTS开发系列之导航 (2.6 图形)

上篇回顾:ArkTS开发系列之导航 (2.5.2 页面组件导航) 本篇内容: 显示图片、自定义图形和画布自定义图形的学习使用 一、知识储备 1. 图片组件(Image) 可以展示jpg 、png 、svg 、gif等各格式的网络和本地资源文件图…

潜艇伟伟迷杂交版植物大战僵尸2024最新免费安卓+ios苹果+iPad分享

嗨,亲爱的游戏迷们!今天我要给你们种草一个超有趣的游戏——植物大战僵尸杂交版。这款游戏不仅继承了原有经典游戏的核心玩法,还加入了许多创新元素,让玩家能够体验到前所未有的乐趣。快来跟随我一起探索这个神奇的世界吧&#xf…

自然语言处理领域的明星项目推荐:Hugging Face Transformers

在当今人工智能与大数据飞速发展的时代,自然语言处理(NLP)已成为推动科技进步的重要力量。而在NLP领域,Hugging Face Transformers无疑是一个备受瞩目的开源项目。本文将从项目介绍、代码解释以及技术特点等角度,为您深…

线程封装,互斥

文章目录 线程封装线程互斥加锁、解锁认识接口解决问题理解锁 线程封装 C/C代码混编引起的问题 此处pthread_create函数要求传入参数为void * func(void * )类型,按理来说ThreadRoutine满足,但是 这是在内类完成封装,所以ThreadRoutine函数实际是两个参数,第一个参数Thread* …

Python 围棋

效果图 完整代码 源码地址:Python 围棋 # 使用Python内置GUI模块tkinter from tkinter import * # ttk覆盖tkinter部分对象,ttk对tkinter进行了优化 from tkinter.ttk import * # 深拷贝时需要用到copy模块 import copy import tkinter.me…

高纯PFA容量瓶PFA试剂瓶在半导体材料的应用

在半导体生产过程中,为避免金属污染对硅器件性能造成不利影响,碳化硅产业链不同阶段产品(如衬底、外延、芯片、器件)表面的痕量杂质元素浓度表征至关重要。 在实验人员使用质谱法高精度检测第三代半导体碳化硅材料的痕量杂质浓度…

Linux - 探秘 Linux 的 /proc/sys/vm 常见核心配置

文章目录 PreLinux 的 /proc/sys/vm 简述什么是 /proc/sys/vm?主要的配置文件及其用途参数调整对系统的影响dirty_background_ratio 和 dirty_ratioswappinessovercommit_memory 和 overcommit_ratiomin_free_kbytes 实例与使用建议调整 swappiness设置 min_free_kb…

2024.6.23刷题记录

目录 一、P1102 A-B 数对 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 1.hash表-一次遍历 2.双指针(同向,可以算滑动窗口)-排序 二、P8667 [蓝桥杯 2018 省 B] 递增三元组 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 1.排序指针 2…

C++ | Leetcode C++题解之第187题重复的DNA序列

题目&#xff1a; 题解&#xff1a; class Solution {const int L 10;unordered_map<char, int> bin {{A, 0}, {C, 1}, {G, 2}, {T, 3}}; public:vector<string> findRepeatedDnaSequences(string s) {vector<string> ans;int n s.length();if (n < L…

《AI旋律:创意产业的重塑与共生》

AI乐章&#xff1a;技术革命下的创意产业新生态 在数字化浪潮的推动下&#xff0c;音乐创作领域迎来了前所未有的变革——AI音乐大模型的横空出世&#xff0c;犹如一颗石子投入平静的湖面&#xff0c;激起了层层涟漪。这些模型以令人难以置信的速度和多样性&#xff0c;将音乐…

WinForm 2048

WinForm 2048 是一个基于 Windows 窗体应用程序&#xff08;WinForms&#xff09;实现的经典益智游戏——2048。这个游戏通过简单的滑动或点击操作&#xff0c;将相同数字的方块合并&#xff0c;以生成更大的数字方块&#xff0c;最终目标是创造出一个数字为 2048 的方块。 游…

C++ | Leetcode C++题解之第188题买卖股票的最佳时机IV

题目&#xff1a; 题解&#xff1a; class Solution { public:int maxProfit(int k, vector<int>& prices) {if (prices.empty()) {return 0;}int n prices.size();k min(k, n / 2);vector<int> buy(k 1);vector<int> sell(k 1);buy[0] -prices[0]…