目标检测20年（四）—

欢迎各位读者尽情阅读前三篇文献解读。这一篇将会介绍文献的第五部分：目标检测近些年的新技术发展以及第六部分：总结与未来展望。这也是本篇论文解读的最后一篇文章。

五、目标检测最新进展

5.1 不采用滑动窗口的检测

5.2 旋转和尺度变化的鲁棒性检测

5.2.1 旋转鲁棒性检测

5.2.2 尺度鲁棒性检测

5.2.2.1 尺度自适应训练

5.2.2.2 尺度自适应检测

5.3 更好的骨干网络检测

5.4 定位增强

5.4.1 边界框改进

5.4.2 全新精确定位损失函数

5.5 语义损失学习

5.6 对抗性训练

5.7 弱监督目标检测

5.8 域自适应检测

六、结论和未来方向

五、目标检测最新进展

过去二十年，新技术的出现对目标检测产生了巨大的影响，但基本原理核底层逻辑基本不变。本节将会关注近年来短时间内的最新算法，帮助读者理解目标检测。一些是之前介绍过的技术扩展，一些是混合概念的新交叉。

5.1 不采用滑动窗口的检测

由于图像目标可以由真实框左上和右下角唯一确定，因此目标检测可以等价为定位成对关键点问题。最近这样的想法是以预测边角热图实现。还有些方法也遵循这个思路，利用更多关键点（角落和中心点，极值点和中心点，代表性点）以获得更好的性能。另一种范式则是将目标视为一个/多个点，并直接预测目标属性（如宽、高等），而不进行分组。这种方法的优势就是其能够在语义分割框架下实现，而不需要设计多尺度的锚框。另外，DETR将目标检测视为集合预测，实现在基于参考的框架中完全解放。

5.2 旋转和尺度变化的鲁棒性检测

5.2.1 旋转鲁棒性检测

目标旋转在人脸检测、文本检测和遥感目标检测中很常见，最直接的解决方案就是数据增强。这样任何方向的目标都可以被增强的数据分布完美覆盖。亦或者为每个方向都单独训练独立的检测器。最近流行一种设计旋转不变的损失函数，增加对检测损失的约束，使旋转对象的特征保持不变。还有种解决方法是学习候选对象中的几何变换。两阶段检测器中，RoI池化旨在为任意位置和大小的目标建议提取固定长度特征表示。由于特征池化通常在直角坐标系下进行，旋转变换也不具有不变性。还有种方法是在极坐标中执行RoI池化，使特征对旋转变化具有鲁棒性。

5.2.2 尺度鲁棒性检测

最近对训练和检测阶段尺度鲁棒性检测进行了研究。

5.2.2.1 尺度自适应训练

现代检测器通常将输入图像重新缩放至固定大小，并在所有尺度上反向传播目标的损失。这样会导致“尺度不平衡”的问题。构建图像金字塔可以缓解该问题，但无法从根源解决。最近有人提出图像金字塔尺度归一化，在训练和检测阶段都构建图像金字塔，并且只反向传播一些特定尺度损失，如下图所示：

有人提出更有效的策略：SNIP with efficient Resampling（SNIPER），将图像裁剪并重新缩放到一组子区域，以便从大批量训练中受益。

5.2.2.2 尺度自适应检测

基于CNN的检测器，锚点大小和横纵比通常经过精心设计的。缺点就是配置不能适应意外的尺寸变化。为了提高对小目标检测，一些研究提出“自适应放大”技术，小目标自适应放大为“较大目标”。另一种改进则是预测图像目标比例分布，根据预测自适应重新缩放图像。

5.3 更好的骨干网络检测

检测器准确性和速度很大程度上取决于特征提取网络，即骨干网络（backbone），例如现有的ResNet、CSPNet、Hourglass和Swin Transformer。下图展示三种著名检测器精度：

上图展示的是Faster RCNN、R-FCN和SSD都分别在不同主干网络上的精度和平均精度。目标检测最近受益于Transformer强大的特征提取能力。coco数据集上，排名前十的检测方法都是基于Transformer的，其于cnn的性能差距逐渐变大。

5.4 定位增强

为提高定位精度，最近检测器有两种方法：

边界框改进
新的精确定位损失函数

5.4.1 边界框改进

最直观的方法就是边界框细化，即检测结果的后处理。最近有种方法就是迭代将检测结果输入到边界框回归器中，直到预测收敛到正确位置和大小。也有学者认为该方法不能保证定位精度单调性，多次细化可能会使定位退化。

5.4.2 全新精确定位损失函数

大多数目标检测器重，目标定位被视作一个坐标回归问题。然而，范式的缺点显而易见。回归损失并不对应定位的最终评估，特别是一些宽高比非常大的目标。其次，传统边界框回归方法没有提高定位置信度。多个边界框相互重叠时，可能导致非极大值抑制失败。可以设计新的损失函数缓解，例如直接使用IoU作为定位损失。也有人尝试在概率推理框架下改进定位，该方法直接预测边界框位置概率分布。

5.5 语义损失学习

计算机视觉的两个基本任务就是目标检测和语义分割。研究表明，目标检测可以通过学习语义分割损失进行改进。最简单的方法就是将分割网络视为固定的特征检测器，并视作辅助特征集成到检测器中。这种方法容易实现但分割网络会增加计算量。或者在原始检测器上引入额外的分割分支，使用更多多任务损失函数训练模型。这种方法可以实现分割，brunch将在推理阶段删除，检测速度不会受到影响。然而，训练需要像素级的图像注释。

5.6 对抗性训练

生成式对抗网络（Generative Adversarial Networks，GAN）于2014年提出，在图像生成、图像风格转移和图像超分辨率等任务中得到关注。这几年也被用于目标检测中，提高对小目标和遮挡目标的检测。对于小目标，GAN可以缩小大小物体之间的表示来增强小目标特征。有人想通过使用对抗性训练生成遮挡面具提高遮挡物体检测，对抗网络不是在像素空间中生成样本，而是直接修改特征来模拟遮挡。

5.7 弱监督目标检测

训练基于深度学习的目标检测器通常需要大量手动标记的数据。弱监督目标检测(WSOD)旨在通过仅使用图像级注释而不是边界框训练检测器来减轻对数据注释的依赖。多实例学习是一组监督学习算法，在WSOD中得到了广泛的应用。与使用一组单独标记的实例学习不同，多实例学习模型接收一组标记的包，每个包包含许多实例。如果我们将图像中的候选对象视为包，将图像级注释视为标签，则WSOD可以被表述为一个多实例学习过程。类激活映射是WSOD的另一组最新方法。对CNN可视化的研究表明，尽管CNN的卷积层没有对目标的位置进行监督，但其表现为目标检测器。类激活映射揭示了如何使CNN具有本地化能力，尽管是在图像级标签上进行训练。除了上述方法外，还有一些研究者认为WSOD是一种建议排序过程，通过选择信息量最大的区域，然后用图像级标注对这些区域进行训练。其他一些研究人员建议掩盖图像的不同部分。如果检测分数急剧下降，则被屏蔽区域有可能含有高概率的目标。最近，生成对抗训练也被用于WSOD。

5.8 域自适应检测

大多数目标检测器的训练过程本质上可以看作是在独立同分布数据假设下的似然估计过程。非id目标检测。数据，特别是对于一些现实世界的应用程序，仍然是一个挑战。除了收集更多的数据或应用适当的数据扩展之外，领域适应还提供了缩小领域之间差距的可能性。为了获得域不变的特征表示，已经在图像、类别或对象级别探索了特征正则化和基于对抗训练的方法。循环一致变换也被用于弥合源域和目标域之间的差距。其他一些方法也结合了这两种思想，以获得更好的性能。

六、结论和未来方向

在过去的20年中，目标检测取得了令人瞩目的成就。本文对20多年来的一些里程碑检测器、关键技术、加速方法、数据集和指标进行了综述。一些有希望的未来方向可能包括但不限于以下方面，以帮助读者获得超越上述方案的更多见解。

轻量级目标检测:轻量级目标检测旨在加快检测推理，以便在低功耗边缘设备上运行。一些重要的应用包括移动增强现实、自动驾驶、智慧城市、智能摄像头、人脸验证等。虽然近年来已经做出了很大的努力，但机器与人眼的速度差距仍然很大，特别是在检测一些小物体或检测多源信息时。

端到端目标检测:虽然已经开发了一些方法，使用一对一的标签分配训练，以完全端到端方式(网络中的图像到盒子)检测目标，但大多数仍然使用一对多的标签分配方法，其中非最大抑制操作单独设计。未来对该主题的研究可能集中在设计端到端管道，以保持高检测精度和效率。

小目标检测:在大场景中检测小物体一直是一个挑战。该研究方向的一些潜在应用包括计算人群或露天动物的数量以及从卫星图像中探测军事目标。一些进一步的方向可能包括视觉注意机制的整合和高分辨率轻量级网络的设计。

3D目标检测:尽管最近在2d目标检测方面取得了进展，但自动驾驶等应用仍依赖于获取物体在3D世界中的位置和姿态。未来的目标检测将在3D世界和多源、多视角数据(如RGB图像和来自多个传感器的3D激光雷达点)的利用中受到更多关注。

视频中的检测:高清视频中的实时目标检测/跟踪对视频监控和自动驾驶至关重要。传统的目标检测器通常被设计为基于图像的检测，而忽略了视频帧之间的相关性。通过探索计算限制下的时空相关性来改进检测是一个重要的研究方向

跨模态检测:多源/模态数据的目标检测，如RGB-D图像、激光雷达、流、声音、文本、视频等，对于像人类感知一样更精确的检测系统至关重要。一些悬而未决的问题包括:如何将训练有素的检测器移植到不同的数据模式中，如何进行信息融合以改进检测等

面向开放世界检测:域外泛化、零样本学习检测和增量检测是目标检测领域的新兴课题。他们中的大多数人想出了减少灾难性遗忘或利用补充信息的方法。人类有一种本能，能在环境中发现未知类别的物体。当给出相应的知识(标签)时，人类会从中学习新的知识，并保持模式。然而，目前的目标检测算法难以掌握未知类别目标的检测能力。开放世界中的目标检测旨在发现未明确给出或部分给出监督信号时未知类别的物体，这在机器人和自动驾驶等应用中具有很大的前景。

站在技术发展的高速公路上，我们相信本文将帮助读者建立一个完整的目标检测路线图，并找到这个快速发展的研究领域的未来方向。