面向遥感图像的小目标检测最新方法 FFCA-YOLO

论文简介

在遥感图像中，小目标检测面临着特征表示不足和背景混淆等挑战，特别是当算法需要在有限计算资源的约束下进行实时处理时，对准确性和速度的优化要求尤为严格。为解决这些问题，本文提出了一种高效的目标检测器——特征增强、融合与上下文感知YOLO（FFCA-YOLO）。FFCA-YOLO设计包含三项创新且轻量级的模块：特征增强模块（FEM）、特征融合模块（FFM）以及空间上下文感知模块（SCAM）。这三个模块分别提升了网络在局部区域的感知能力、多尺度特征融合能力以及跨通道和空间的全局关联性，同时尽量避免增加模型复杂度。如此一来，小目标的弱特征表现得以强化，混淆的背景得到有效抑制。

为了验证FFCA-YOLO的有效性，作者采用了两个公开的遥感小目标检测数据集（VEDAI和AI-TOD）以及一个自建数据集（USOD）。实验结果显示，FFCA-YOLO在这些数据集上的平均精度（mAP50）分别达到了0.748、0.617和0.909，超越了多个基准模型及当前最优方法。此外，该方法在不同模拟退化条件下的鲁棒性也得到了验证。

为进一步降低计算资源消耗同时保持效率，基于部分卷积（PConv）重构了FFCA-YOLO的主干和颈部结构，优化出了FFCA-YOLO的轻量版本（L-FFCA-YOLO）。与原版相比，L-FFCA-YOLO速度更快、参数规模更小、计算力需求更低，而精度损失甚微，展现了良好的性能与效率平衡。

方法介绍

作者认为，遥感应用中小目标检测的主要挑战可以概括为三点：特征表示不足、背景混淆，以及在有限的硬件条件下优化速度和精度。

在这篇文章中，作者的动机是设计一个高精度同时具备潜在的实时处理能力的小目标检测器。由此，作者首先分别提出了特征增强模块（FEM）与空间上下文感知模块（SCAM）来丰富局部和全局的上下文特征信息。其中，FEM通过多分支卷积拓宽了骨干网络的感受野；SCAM通过构建全局上下文关系来确定小目标与全局特征的联系。对特征融合而言，作者又提出了特征融合模块（FFM），它可以在不增加计算复杂度的情况下利用通道信息重新加权不同的特征图，进而提升特征的融合策略。上述三个模块都被引入到YOLO模型中，形成了一个特征增强、融合与上下文感知的YOLO网络，作者称其为FFCA-YOLO。

最后，作者为了在确保精度的情况下降低模型的计算资源消耗量，又利用部分卷积重构了FFCA-YOLO的骨干网络和颈部网络，得到了一个小版本的FFCA-YOLO模型，称之为L-FFCA-YOLO。

作者在本文的主要贡献可分为以下三点：

设计了一种高效的小目标检测器（FFCA-YOLO）及其精简版L-FFCA-YOLO。与几种基准模型和最先进的（SOTA）方法相比，FFCA-YOLO在小目标检测任务中具有先进的性能，并具有未来实时应用的潜力。

提出了三个创新的和轻量级的即插即用模块：FEM、FFM和SCAM。这三个模块分别提高了局部区域感知、多尺度特征融合、全局关联跨通道和空间的网络能力。它们可以作为公共模块插入到任何检测网络中，以增强小目标的弱特征表示，并抑制可混淆的背景。

基于航空遥感图像构建了一种新的小物体数据集USOD，在低光照和阴影遮挡条件下，小物体（小于32×32像素）的比例超过99.9%。此外，USOD在不同的模拟退化条件下有多个测试集，如图像模糊、高斯噪声、条纹噪声、噪声和雾等，可以作为遥感小目标检测的基准数据集。

作者选择YOLOv5作为他们的基准框架，因为与最新的YOLOv8相比，它的参数更少，并且可以在小目标检测任务中保持一定程度的准确性。FFCA-YOLO的整体架构如下图所示。首先，FFCA-YOLO只使用4个卷积子采样操作作为特征提取的主干，这与原来的YOLOv5不同。其次，在YOLOv5的颈部增加了三个专门设计的模块：提出了一个轻量级FEM来提高网络的局部区域感知；提出了FFM来提高多尺度特征融合的能力；SCAM的设计旨在提高全局关联跨信道和空间的能力。最后，通过基于PConv重构FFCA-YOLO，精度损失较小，得到了一个称为L-FFCA-YOLO的精简版本。

| 特征融合模块（FEM）

由于遥感图像的复杂性，在小目标检测任务中容易出现具有相似特征的误警。然而，骨干网的提取能力却很有限。本阶段提取的特征包含较少的语义信息和狭窄的接受域，这使得很难区分小物体和背景。因此，这里所提出的FEM考虑从两个角度增强小物体的特征。从特征丰富度增加的角度来看，采用多分支卷积结构提取多重判别语义信息。从扩大接受域的角度来看，采用空洞卷积获得更丰富的局部上下文信息。受RFB-s的启发，FEM的整体结构如下图所示。不同之处在于FEM只有两个具有空洞卷积的分支。每个分支对输入特征图进行1×1的卷积操作，初步调整后续处理的通道数。第一个分支是一个残差结构，它形成一个等价的映射来保留小物体的关键特征信息。其他三个分支执行级联标准卷积操作，其内核大小分别为1×3、3×1和3×3。在中间的两个分支上添加了额外的空洞卷积层，这样提取的特征图就可以保留更多的上下文信息。

与RFB-s相比，FEM具有更轻的结构，使模型能够通过多分支空洞卷积学习更丰富的局部上下文特征，提高了小对象的特征表示能力。

| 特征融合模块（FFM）

高级和低级的特征映射包含不同的语义信息。从多尺度特征图中聚合特征可以增强小目标的语义表示。作者所提出的FFM采用了基于BiFPN的颈部结构。与BiFPN不同，FFM改进了名为CRC的重新加权策略，并调整了原始的BiFPN以容纳三个检测头。FFM的结构如下图所示。

与BiFPN相比，FFM改进了涉及重加权通道的多尺度特征图的融合策略。BiFPN的融合策略是在特征图之间，这导致不同的通道具有相同的权重。为了加强多尺度特征对小目标的表示，充分利用不同通道的特征，所提出的CRC对特征图的通道进行了重新加权，如上图的下半部分所示。

作者这里设计了三种重新加权通道的策略。第一种策略使用类似于SENet或ECANet的通道注意机制来重新加权通道。该策略是可行的，但显著增加了计算成本和参数计数。第二种策略首先将特征映射连接起来，然后将相同数量的参数与标准化的可训练权值相乘。第三种策略进一步考虑了不同特征映射之间的语义差距，首先对每个特征映射中的通道进行重新加权，然后对不同的特征映射进行重新加权。

三种策略都提高了性能，但第二种和第三种策略之间的差异并不显著。因此，作者在FFM中选择了第二种策略来进行特征重加权。FFM的结构及其通道重加权策略优化了针对小目标的多尺度语义信息的融合过程，为后续的全局上下文建模提供了更有效的特征映射。

| 空间上下文感知模块（SCAM）

经过FEM和FFM之后，特征图已经考虑了局部上下文信息，并对小目标特征有很好的表示。在这个阶段，对小目标和背景之间的全局关系进行建模比对主干关系进行建模更有效。全局上下文信息可以用来表示像素交叉空间之间的关系，它抑制了无用的背景，增强了对象与背景之间的辨别能力。受GCNet和SCP的启发，SCAM由三个分支组成。第一个分支使用GAP和GMP来集成全局信息。第二个分支使用1×1卷积生成特征图的线性变换结果，在下图中命名为value。第三个分支使用1×1卷积来简化query和key的倍数。这个卷积在下图中被命名为QK。然后，将第一个分支和第三个分支分别与第二个分支进行矩阵相乘，随后所得到的两个分支分别代表了跨通道和空间的上下文信息。最后，在这两个分支上使用broadcast Hadamard product，得到了SCAM的输出。

| Lite-FFCA-YOLO（L-FFCA-YOLO）

FFCA-YOLO中的CSP块通过结合FasterNet中的FasterBlock进行重建，称为CSPFasterBlock，如下图所示。FasterNet得出的结论是，直接用PConv替换标准卷积将导致准确性的严重下降。因此，作者只用FasterBlock替换CSPBlock中的bottleneck，这保证了不同层的特征信息流过所有通道，而精度损失很小。FFCA-YOLO和L-FFCA-YOLO的主干中的参数计数如下表所示，说明L-FFCA-YOLO的主干中的参数比FFCA-YOLO少30%。