遥感目标检测的改进注意力特征融合SSD 方法
- I. INTRODUCTION
- II. RELATED WORK
- B. 特征融合
- C.注意力机制
- III. PROPOSED METHOD
- A. 特性融合模块——**FFM**
- B.双路径注意模块——DAM
- C. 多尺度接受域——MRF
- IV. EXPERIMENTS
- A. Data Sets and Training
- V. CONCLUSION
Attention and Feature Fusion SSD for Remote Sensing Object Detection
为了进一步提高单阶段方法的遥感目标检测性能,本文提出了一种名为注意力特征融合SSD (attention and feature fusion SSD)的端到端网络。
指标项:卷积神经网络,双路径注意机制,特征融合,图像处理,目标检测,遥感。
I. INTRODUCTION
遥感图像与自然场景图像在拍摄角度、目标分布、成像范围等方面存在不同,这使得遥感目标的检测仍然存在困难,具体表现在:
-
大宽高比,类间相似度高:航空图像的宽高比大,类间相似度高。
-
分布密集、物体小:物体在某些区域分布密集,以小物体为主。
-
复杂背景:遥感图像背景比较复杂,有些物体与背景相差不大。
为了解决上述问题,本文提出了一种改进的注意力特征融合SSD (AF-SSD)方法。
首先,设计了自顶向下多层特征融合模块(FFM),将语义信息引入浅层特征映射;
然后,引入双路径注意模块(DAM)对特征信息进行筛选。该模块利用空间注意和通道注意抑制背景噪声并突出关键特征。
然后,设计了多尺度感受域(MRF)模块,通过添加多个并行分支从不同尺度的感受域提取特征;
最后,优化损失函数,缓解正负样本之间的不平衡和分类难度。
II. RELATED WORK
B. 特征融合
虽然现有的目标检测算法在自然场景下性能良好,但对于小目标检测效果并不理想,尤其是单阶段检测方法。特征融合是解决这一问题的有效策略之一。
Lin et al. 以自底向上和自顶向下的方式集成多尺度特征,丰富上下文信息来改进模型。
Caoet al. 设计了两种不同的特征融合结构,并使用较高层次的特征映射来丰富浅层的语义信息。
DSSD 采用反卷积层和跳过连接引入了额外的大规模上下文信息,提高了平均精度(AP),特别是对于小对象。
C.注意力机制
在图像识别、语义分割、目标检测等计算机视觉任务中,可以利用注意机制增强关键特征,抑制无用特征,提高准确率。
空间注意和通道注意是深度学习模型中常用的两种方法。
STN 设计了一个空间变换模块,实现了图像的空间变换。
Hu 等在其挤压激励模型中引入注意信息和全局汇聚,利用信道间信息,增强了网络的鲁棒性。
Wang 等人设计了一个编码器-解码器模块,并在其上构建了残差注意网络。
实验结果表明,通过细化特征图,可以获得更好的输出结果。
III. PROPOSED METHOD
MRF: multiscale receptive field - 多尺度感受野
DAM: dualpath attention module - 双路径注意模块
FFM: feature fusion module - 特征融合模块
如图1所示,AF-SSD采用ResNet-50作为骨干进行特征提取,因为其结构轻量化可以缩短训练时间。三个模块分别是:特征融合、双路径注意和MRF。此外,我们在额外的特性层之前添加了一个MRF结构。
A. 特性融合模块——FFM
对于小对象,SSD主要使用浅层特征进行预测。但是,由于SSD的层数较浅,缺乏语义信息,因此对小对象的性能较差。因此,为了充分利用语义信息和纹理特征,设计了一种自顶向下的FFM,将语义信息引入到浅层。
如图2所示,FFM 由1 × 1卷积和双线性插值上采样组成。特征融合的过程如下:
首先,通过反卷积运算对深度特征FB进行上采样,以降低计算量;
然后,使用1 × 1卷积层对feature map的通道进行压缩;
最后,利用元素和对深度特征和浅层特征进行积分。
经过上述处理后,融合特征的通道保持不变,但单个通道的语义信息更丰富。后续实验表明,这些步骤丰富了浅层特征的语义信息,提高了模型在小对象上的性能。
为了平衡精度和速度,FFM 分别嵌入到Res3d和Res5c分支中。
B.双路径注意模块——DAM
由于feature map会被几个卷积层不断压缩,小物体的信息在深层会减少,背景噪声也会掩盖它。因此,有必要抑制非对象信息。DAM基于SE-Net模块。
DAM由两个平行的分支——空间注意分支和通道注意分支组成。利用空间注意分支保留空间信息,利用通道注意分支抑制无用信息。我们通过重新衡量输入特征图和注意图来获得精细化的地图。这样,关键特征将被突出显示,来自输入的背景噪声也将被抑制。精细映射 f 计算为
⊗表示元素乘法,FS为空间注意图,FC为通道注意图。在乘法之前,两个分支输出都被调整为RH×W×C。
空间注意图计算为:
通道注意图计算为:
C. 多尺度接受域——MRF
我们都知道,CNN的接受域是指feature map上的像素在原始图像上所映射的区域的大小。接受域越大,特征图中包含的全局信息就越多。接受域越小,特征图中的信息就越详细。接收域也是影响检测性能的因素之一。
如图4所示,MRF通过设置不同大小的并行卷积来捕获更多的多尺度特征。
MRF由4个分支组成,分别采用1 × 1 卷积、3 × 3 卷积、5 × 5 卷积、7 ×7 卷积和平均池化拓宽接受域。同时,我们使用1×1 卷积压缩信道。此外,我们将k × k变换分解为1 × k变换和k × 1变换。这样既保持了接受野的大小不变,又缩短了AF-SSD的推理时间。
- MRF模块可以有效增强AD-SSD的浅层特征,用于小目标的检测。
IV. EXPERIMENTS
A. Data Sets and Training
数据集:我们认为一个好的遥感数据集应该具有四个特点:数据量大,每类实例数量合理,面向对象的标注正确,不同类型的对象多,这样比较接近实际应用。
DOTA数据集:是一种用于目标检测的公开可用的光学遥感数据集。它包含15类总计188282个来自不同传感器和平台的实例,主要来自谷歌地球,还有一小部分来自JL-1卫星和GF-2卫星。
NWPU VHR-10:也是西北工业大学公布的公共遥感数据集。它包含了800张高分辨率的卫星图像,这些图像是从谷歌Earth和Vaihingen数据集剪辑而来的,其中650张是正图像集,其余的是负图像集。它包含10个类别,总计3651个实例。
V. CONCLUSION
本文提出了一种单阶段遥感目标探测模型,我们称之为AF-SSD。为了解决物体小、背景复杂和尺度变化带来的问题,我们首先引入自顶向下的FFM融合浅层和上层的特征。然后,引入一个DAM来抑制背景噪声。然后,设计了一个MRF模块来扩大接收域和捕获多尺度特征。此外,我们对损失函数进行了改进,以缓解正、负样本之间的不平衡。在DOTA和NWPU VHR-10上的实验结果表明,该方法对航拍图像中的小目标具有较好的检测效果。