Abstract

由于大量的小目标、实例级噪声和云遮挡等因素，遥感图像的目标检测精度低，漏检率或误检率高。本文提出了一种新的基于SRGAN和YOLOV3的目标检测模型，称为SR-YOLO。解决了SRGAN网络对超参数的敏感性和模态崩溃问题。同时，YOLOv3中的FPN网络被PANet取代，缩短了最底层和最高层之间的距离，SR-YOLO模型通过增强路径丰富各层特征，具有较强的鲁棒性和较高的检测能力。在ucas-高分辨率空中目标检测数据集上的实验结果表明，SR-YOLO取得了优异的性能。与YOLOv3相比，SR-YOLO的平均准确率(AP)由92.35%提高到96.13%，对数平均缺失率(MR-2)由22%降低到14%，召回率由91.36%提高到95.12%。

1 Introduction

遥感图像目标检测广泛应用于民用和军事领域，如指导水果采摘、交通管理、环境分析、军事测绘、军事目标侦察等。与实地调查相比，遥感影像的精度更高。因为它可以实时捕获地面信息，并获得详细的信息。它可以准确识别遥感图像中的飞机、船舶、汽车等物体，在军事作战和交通管理等方面具有重要意义。提出了一种将提高的图像分辨率与目标检测相结合的方法，以改善一些低分辨率图像的检测任务。[3]，正则化参数S2R2将超分辨率技术应用于低分辨率人脸识别。[4]采用平移不变性和全局方法进行特征提取。消除低分辨率图像中的伪影和不连续，并对人脸图像进行超分辨率重构，提高检测精度。此外，在一些检测任务中，通过去模糊图像[5-8] 或去噪[9]来提高模型检测的准确性。这些方法在传统图像处理技术的基础上提高了分辨率，但由于自身的局限性，仍然受到大量小目标、实例级噪声和云遮挡的影响，难以应用于遥感图像目标检测。

本文研究了一种超分辨率方法，该方法利用深度学习中端到端训练的力量，将低级和高级视觉目标结合起来，产生我们所谓的“You only see once with Super-resolution”(SR-YOLO)。超分辨率图像包含更多可区分的特征，可以提高目标检测的准确性。作为提高目标检测对低分辨率输入的鲁棒性的一种手段，这种方法提供的结果比其他目标检测方法要好得多，并且可能适用于广泛的遥感卫星图像处理工具和高级任务。与以往的研究相比，本文采用先进的SRGAN超分辨率和第三版You Look Only one (YOLOv3)目标检测，将两者结合应用于遥感卫星图像中的飞机检测，并改进其网络结构，更好地应用于遥感图像的检测。SR-YOLO首先解决了SRGAN的超参数敏感性和模式崩溃问题，然后通过PANet[10]丰富了小目标的语义信息。最后，利用超分辨率技术驱动探测器进行目标检测，解决了遥感小目标检测难的问题。

本文分为两部分进行改进：1) 改进SRGAN网络。残差网络替换生成网络的归一化层，并加入惩罚机制重构鉴别器和生成器的损失函数。我们的SRGAN网络训练过程更稳定，获得了更全面的特征空间，生成的图像更细粒度。2) 改进YOLOV3网络。首先，根据我们使用的数据集，我们重新定义了一组新的适合飞机检测的边界框。最后，采用路径聚合网络(PANet)代替特征金字塔网络(FPN)[11]作为颈部网络，引入亚采样，将各级特征汇聚池化在一起，缩短上下距离，并利用增强路径丰富各级特征。

本文将分五章介绍我们提出的方法。第一章介绍了本文的研究背景、存在的问题和解决方案，并介绍了论文的结构和大纲。第二章介绍了超分辨率和目标检测的相关工作。第三章详细介绍了我们的方法。第四章介绍了实验过程，包括与其他算法的比较以及基于UCAS-AOD基准数据集的实验结果分析。第五章总结了本文的贡献和不足。

2 Related work

目前，已经有相当多的研究通过图像重建来提高低分辨率图像的检测精度。相比之下，受超分辨率重建和目标检测任务的约束，提高遥感图像检测精度的研究相对较少。我们从两个方向来回顾这项工作。

2.1图像超分辨

各种超分辨率网络，包括超分辨率生成对抗网络(SRGAN)、增强的深度超分辨率(EDSR)、深度反投影网络(DBPN)、超分辨率DenseNets 和深度拉普拉斯金字塔网络(DLPN)已经被提出[12-16]。这些超分辨率网络具有显著的图像放大效果，大大提高了视觉感知能力。这些网络更适合具有复杂背景的图像。例如，[17]使用低分辨率图像通过DBPN进行超分辨率重建，然后发送到SSD检测网络，以提高复杂背景图像检测的准确性。随着更高效的卷积神经网络(CNN)的引入，超分辨率技术也得到了迅速发展。超分辨率卷积神经网络(SRCNN)[18]首先使用双三次插值将低分辨率图像放大到物体大小，然后通过三层卷积网络对非线性映射进行拟合，最后输出高分辨率图像结果。SRCNN的网络结构非常简单，只使用了三个卷积层。一些研究通过引入残差网络来改进SRCNN[19,20]。[21]引入了递归层，但是使用手工制作的层进行数据增强仍然有局限性。DRRN[22] 受到 [21,23] 的启发，采用更深层次的网络结构来获得性能提升。EDSR去除了SRResNet (Super-Resolution ResNet)[12]的冗余模块，从而可以增加模型的大小，从而提高结果的质量。虽然扩散-卷积神经网络(Diffusion-Convolutional Neural Networks, DCNN)的深度特征可以保留高频图像的真实纹理，但消除模糊和伪影仍然是一个难题，[24]引入感知损失，[25]引入 against 对抗损失，已经解决了这一问题。SRGAN使用感知损失和对抗损失来提高生成图像的真实感和精细的纹理细节。然而，SRGAN具有超参数敏感性和模态崩溃，导致训练过程不稳定。目前，很少有超分辨率技术与遥感图像相结合来解决遥感图像中的目标检测问题。

2.2 遥感图像目标检测

目标检测分为两阶段和一阶段两类。两阶段检测算法将目标检测问题分为两个阶段：生成 Region Proposals 和对候选框区域进行分类和细化 [27-30]。单阶段检测算法基于不需要生成Region Proposals阶段的回归方法；不需要复杂的框架就可以直接获取对象的类别概率和位置坐标值[31-34]。一般两阶段算法的检测精度较高，速度较慢，适用于对精度要求较高的场景。单阶段算法检测精度低，速度快，可以实现实时检测[35]。

为了提高遥感图像中目标的检测精度，[36]提出了一种基于无监督分数的边界框回归（USB-BBR）算法，并结合非极大值抑制算法对检测目标区域的边界框进行优化。针对遥感图像大尺度、大场景中的小目标，[37]提出了Tiny-Net物体检测方法，该方法由主干TinyNet、中间全局注意力块、最终分类器和检测器组成。为了检测遥感图像中的特定物体，该模型[38]训练了多个检测器，每个检测器都专门用于特定大小的建筑物。此外，该模型通过同时训练道路提取任务和建筑物检测任务来隐式利用上下文信息。 [39]提出了一种新的深度网络——可旋转区域残差网络（R3-Net），用于检测航拍图像和视频中的多目标车辆。

为了提高遥感图像飞机检测的效率和准确性，[40] 提出了一种基于耦合 CNN 的飞机检测弱监督学习框架。 [41] 提出了一种端到端的半监督目标检测方法，与之前更复杂的多阶段方法相比。端到端训练在课程中逐渐提高伪标签质量，越来越准确的伪标签反过来有利于目标检测训练。 [42] 提出了一种混合可变加权堆叠自动编码器（HVW-SAE），用于学习软传感器建模的质量相关特征。通过对更多质量相关变量进行优先重构的约束，可以确保学习到的特征包含更多用于质量预测的信息。 [43] 提出了一种新颖且灵活的骨干框架，即 CBNetV2，以在预训练微调范式下使用现有的开源预训练骨干构建高性能检测器。 [44] 提出了一种新颖的动态头部框架来统一目标检测头部和注意力。所提出的方法在没有任何计算开销的情况下显著提高了目标检测头的表示能力。 [45] 提出了用于遥感图像分类的光谱空间加权核流形嵌入分布对齐（SSWK-MEDA）。该方法应用一种新颖的空间信息滤波器，有效利用邻近样本像素之间的相似性，避免非样本像素的影响，利用流形空间中特征的几何结构，解决迁移学习场景下遥感数据特征失真的问题.。

3 提出的方法

本文提出了一种新的检测模型SR-YOLO。我们探索了超分辨率 SRGAN 和 YOLOv3 检测网络的更好组合。所以，首先要解决SRGAN网络训练过程不稳定的问题，提高生成图像的质量。其次，YOLOv3 检测小目标的能力很重要。因此，本节将分为两部分介绍我们的改进，即SRGAN网络改进和YOLOv3网络改进。

3.1 SRGAN网络改进

生成网络微调：

首先将SRGAN生成网络中的BN层替换为残差网络。 [13, 46] 证明，在面向 PSNR 的任务中，移除 BN 层可以提高性能并降低计算复杂度。同时，去除BN层可以增强网络训练的稳定性，增强网络的泛化能力。将每层的BN层替换为3×3的卷积核卷积和 PReLU激活层后，增加了网络的深度和复杂度，充分利用了每次卷积后的特征，提高了生成网络的边缘特征处理。

重建损失函数：

[47]分析了GAN训练不稳定的原因，即GAN网络中的JS散度在分布p和q不重叠的情况下无法平滑地brighten照亮分布之间的距离，使得这个位置无法产生有效的梯度信息，从而导致模式崩溃。我们借鉴[47]思想，重构判别生成网络损失函数，训练过程更加稳定，加快损失收敛速度。

3.1.1 生成网络微调。

我们使用网络插值的方法来保持感知质量并消除 GAN 中的伪影和噪声，具体来说，我们首先训练一个面向 PSNR 的网络 GPSNR，然后通过微调获得一个基于 GAN 的网络 GGAN。我们对这两个网络的所有对应参数进行插值，得到一个插值模型 GINTERP，参数如式 1 所示：

其中，θGPSNR 和 θGGAN分别是GINTERP、GPSNR和GGAN的参数，α∈[0,1]是插值参数。实验表明，当α为0.2时，PNSR达到理想水平。

我们改进了生成网络中的残差块。原始生成网络的残差块，如图1残差块所示，采用3×3的卷积核进行卷积和BN层，然后选择PReLU函数激活。最后再次进行3×3的卷积核卷积和归一化。在原始残差块中加入极少量的参数，使特征信息更加丰富。

将两次卷积过程得到的特征向量与原始特征向量相结合，保证了特征信息的完整性。 16 个原始残差块堆叠在生成网络中或总共 16×2 BN 层。在超分辨率任务中，通常要求输出图像和原图在颜色、对比度、亮度等方面保持一致，只需改变图像的分辨率和一些细节即可。但是SRGAN生成器中的BN拉伸了图像的对比度，BN处理后图像的颜色分布也被归一化，破坏了图像原有的对比度信息，影响了输出图像的质量。当训练集的统计数据与测试集不同时，BN 层往往会产生不良伪影并限制模型的泛化能力。 [44, 45] 证明，在面向 PSNR 的任务中，去除 BN 层可以提高性能并降低计算复杂度。同时，去除 BN 层可以增强网络训练的稳定性和网络的泛化能力。因此，如图1中我们的残差块所示，我们将原来残差块的BN层替换为3×3卷积和PReLU激活层，增加了网络的深度和复杂度，充分利用了之后的特征每次卷积，以及对生成网络的边缘特征处理的改进。

在我们生成的网络中，如图 2 所示，我们的 16 个残差块通过 9×9 卷积层连接起来，以获得完整的底层特征空间。然后，使用两倍的上采样和 PReLU 激活。最后连接一个9×9的卷积层来恢复高分辨率的遥感数据。