此前出了目标检测算法改进专栏,但是对于应用于什么场景,需要什么改进方法对应与自己的应用场景有效果,并且多少改进点能发什么水平的文章,为解决大家的困惑,此系列文章旨在给大家解读发表高水平学术期刊中的 SCI论文,并对相应的SCI期刊进行介绍,帮助大家解答疑惑,助力科研论文投稿。解读的系列文章,本人会进行 创新点代码复现,有需要的朋友可关注私信我获取。
一、摘要
遥感图像的实例分割任务是实现实例级对象的逐像素标记,对各种民用应用具有重要意义。尽管已有的实例分割方法取得了成功,但当它们直接应用于俯视图遥感图像时,大多数为自然图像设计的实例分割方法都遇到了性能急剧下降的问题。通过仔细的分析,我们发现挑战主要来自于由于严重的尺度变化、低对比和聚类分布而缺乏鉴别对象特征。为了解决这些问题,提出了一种新的上下文聚合网络(CATNet)来改进特征提取过程。该模型利用稠密特征金字塔网络(DenseFPN)、空间上下文金字塔(SCP)和层次感兴趣区域提取器(HRoIE)三个轻量级即插即用模块,分别在特征域、空间域和实例域聚合全局视觉上下文。DenseFPN是一种多尺度特征传播模块,通过采用层间残差连接、层间密集连接和特征重权策略,建立更加灵活的信息流。SCP利用注意力机制,通过将全局空间环境聚合到局部区域,进一步增强了特征。对于每个实例HRoIE为不同的下游任务自适应地生成RoI特征。我们在具有挑战性的 iSAID、DIOR、NWPU VHR- 10 和 HRSID 数据集上对提议的方案进行了广泛的评估。评价结果表明,在计算费用相似的情况下,拟议的方法的效果优于目前的技术水平。源代码和经过训练的模型可以在 https://github.com/yeliudev/CATNet 上找到。
二、网络模型及核心创新点
1.稠密特征金字塔网络(DenseFPN)
2.空间上下文金字塔(SCP)
3.层次感兴趣区域提取器(HRoIE)
三、数据集
iSAID : iSAID 是一个用于航空图像实例分割的大型数据集。iSAID中的所有图像都继承自DOTA , DOTA是面向目标检测的常用方法。它包含了 2806张图片中 655451 个实例的15个类,所有的对象都是从头开始独立标注的。图像的空间分辨率在 800到13000之间。我们在训练和测试的时候将它们分成了 512 × 512个 patch。各类缩写有 SH - ship、ST - storage tank、BD -棒球场、TC -网球场、BC -篮球场、GT -地田场、BR - bridge、LV -大型车辆、 SV - 小型车辆、 HE - 直升机、 SP - 游泳池、 RO -roundabout、SB -足球场、PL - plane、HA - harbor。
DIOR : DIOR是一个只有水平边界框标记的复杂航拍图像数据集。它包含23463张图片190,288个实例,覆盖了20个对象类。DIOR中的对象大小具有严重的类间和类内变量。这个数据集的复杂性也反映在不同的成像质量、天气和季节上。缩写类有:AL-飞机、AR -机场、BF -棒球场、BC -篮球场、BR -桥梁、CH -烟囱、DA -水坝、ES -高速公路服务区、ET 高速公路收费站、GC -高尔夫球场、GT -跑道,运动场、HA -港湾、OV -立交桥、SH -船舶、ST -体育场、SA -储水罐、TC -网球场、TS -火车站、VE车辆、WM -风力机。
NWPU VHR-10 : NWPU VHR-10 是另一个广泛应用于航空图像目标检测的数据集。它有800张高分辨率图像,其中 650张是正片,150张是负片,没有任何感兴趣的物体。该数据集包含10个对象
类别的注释。所有对象都使用可公开访问的水平边界框进行注释。类的缩写是AI -飞机,SH -船,ST -储罐,BD -棒球场,TC -网球球场,BC篮球场,GT跑道,HA港口,BR桥梁,VE车辆。
HRSID : HRSID 是最近推出的用于 SAR 图像中舰船检测和分割的数据集。该数据集包含总计 5,604 张高分辨率SAR图像,包含 16,951 个舰船实例。此数据集中的所有实例都使用像素级掩
码进行注释。图像空间分辨率分别为0.5m、1m、3m。
四、实验效果(部分展示)
(1)消融实验
表V (d)为消融研究结果。所提出的三个模块在遥感图像的目标检测和实例分割方面都能取得较好的效果。当彼此协作时,性能改进仍然是稳定的,这表明这些模块之间不相互干扰。将这些模
块组合在一起可以获得最佳的实验结果,实现了多领域多尺度上下文的同时聚合。请注意,1×模型缺乏训练。通过适当的数据增强或更长的训练计划,我们的模型可以获得更好的性能。
(2)对比实验
为了研究提出的模块各自的意义和有效性,我们将其与一些有代表性的方法和不同的模块组合进行了对比实验。所有的实验都是使用标准的训练和测试配方在 iSAID数据集上进行的。FLOPs的计算使用512 × 512输入。
图9 (b)和(c)比较了不同多尺度特征传播模块的目标检测和实例分割性能。数值结果如表V (a)示。与现有的代表性方法相比,DenseFPN在目标检测和实例分割任务上都有明显的优势,且计算成本更低。我们还观察到,在 DenseFPN中简单地叠加更多的基本块可以进一步提高性能,表明其模型缩放的能力和灵活性。
表V (b)显示了多个空间上下文模块之间的对比。与基线相比,NLNet可以有效地带来更高的性能,但计算开销较大。GCNet解决了计算复杂度问题,但也导致了另一个信息混淆问题。在重新加权上下文的帮助下,我们提出的CABlock使用不同的信道减少率稳定地优于GCNet。进一步的实验表明,将CABlocks从主干移动到多尺度融合模块后,可以在相似的计算代价下更好地提高性能。
表V (c)显示了多个RoI 提取器的比较结果。基线模型只裁剪RoI特性从单一的特征图,导致严重的信息丢失和实现普通的结果。简单地计算从多个图层中裁剪的 RoI 特征的总和或串联可以略微提高
性能。考虑到目标检测和实例分割任务需要不同的特征,结合HRoIE进行自适应特征融合,可以更好地为这些任务生成合适的RoI特征。
五、实验结论
本文深入研究了遥感图像的全局视觉上下文,提出了一种新型的CATNet 框架,该框架能够利用三个轻量级的即插即用模块,即密集特征金字塔网络、空间上下文金字塔和层次兴趣区域提取器。在特征域、空间域和实例域聚合全局视觉上下文。实验表明,这三个模块之间的协作可以有效地增强识别目标特征,从 而 提 高 目 标 检 测 和 实 例 分 割 的 精 度 。 在iSAID、DIOR、NWPU VHR-10 和HRSID数据集上的实验结果表明,在计算成本相似的情况下,所提出的方法显著优于当前的技术水平。我们期望对全球视觉环境的新理解和提出的模块的设计将有助于这一领域的未来研究。
注:论文原文出自Learning to Aggregate Multi-Scale Context for Instance Segmentation in Remote Sensing Images本文仅用于学术分享,如有侵权,请联系后台作删文处理。
解读的系列文章,本人已进行创新点代码复现,有需要的朋友欢迎关注私信我获取 ❤ 。