【aiy篇】小目标检测综述

news2026/2/11 20:24:04

小目标检测（Small Object Detection）是指在图像中检测尺寸较小的目标物体，通常是指物体的尺寸小于图像大小的1/10或者更小，COCO为例，面积小于等于1024像素的对象维下目标。小目标检测是计算机视觉领域的一个重要研究方向，具有广泛的应用前景，例如安防监控、智能交通、无人机等。注：此篇会根据后面学的知识不断更新，欢迎交流回访

背景：

目标检测在过去几年中取得了显著的进展，然而，由于小目标视觉特征较差、噪声较多，小目标检测已成为计算机视觉中最具有挑战性的任务之一。此外，用于小尺寸目标检测的大规模基准测试数据集仍然不够全面。

数据集：

SODA-D和SODA-A，分别关注驾驶场景和空中场景。SODA-D包括24704张高质量交通图像和9个类别的277596个实例。SODA-A收集了2510张高分辨率航空图像，并在9个类中注释了800203个实例。

目前研究现状：

虽然在通用目标检测方面取得了实质性进展，但小目标检测的研究进展相对缓慢，即使是SOTA网络，在检测小目标和正常尺寸目标方面也存在巨大的性能差距。以DyHead为例，DyHead在COCO测试集上小目标的平均精度（mAP）度量仅为28.3%，显著落后于中型和大型目标（分别为50.3%和57.5%）。
这种性能下降有两个原因：

1）从小物体的有限和扭曲信息中学习适当表征存在固有的困难；
2）缺乏用于小对象检测的大规模数据集；

主要挑战：

1.目标信息丢失
特征提取器通常利用子采样操作来过滤噪声，并降低特征图的空间分辨率，从而不可避免地丢失目标信息。考虑到最终特征仍然保留了足够的信息，这种信息丢失在一定程度上几乎不会影响大中型对象的性能。然而这对小目标来说是致命的，因为检测头很难在高度结构化的表示上给出准确预测，在这种表示中，小物体的微弱信号几乎被消除。

2.噪声特征表示
判别特征对于分类和定位任务都至关重要，小物体通常分辨率低，外观质量差，因此很难从其扭曲的结构中进行区分学习。同时，小对象的区域特征容易受到背景和其他情况的污染，从而进一步将噪声引入学习表示。综上所述，小目标的特征表示容易受到噪声的影响，阻碍后续检测。

3.边界框扰动的低容忍
定位作为检测的主要任务之一，在大多数检测范式中被表述为回归问题，其中定位分支被设计为输出边界框偏移，通常采用联合交集（IoU）度量来评估精度。然而，定位小对象比定位大对象更困难。如图下图所示，与中大型对象（56.6%和71.8%）相比，小对象预测框的微小偏差（沿对角线方向的6个像素）导致IoU显著下降（从100%降至32.5%）。同时，更大的差异（例如，12像素）进一步加剧了这种情况，对于小对象，IoU下降到可怜的8.7%。也就是说，与较大的对象相比，小对象对box扰动的容忍度较低，从而加剧了回归分支的学习。
在这里插入图片描述

主要算法如下：

基于特征金字塔的方法：这种方法通过构建特征金字塔来捕获不同尺度的特征信息，然后将不同尺度的特征信息进行融合以提高目标检测的准确率。常见的基于特征金字塔的方法包括FPN（Feature Pyramid Network）、SSD（Single Shot Detector）等。
基于注意力机制的方法：这种方法通过引入注意力机制来提高小目标的检测性能，例如SENet（Squeeze-and-Excitation Network）、CBAM、SKNet等。
基于联合训练的方法：这种方法通过联合训练来提高小目标的检测性能，例如CornerNet、CenterNet等。
基于弱监督学习的方法：这种方法通过利用弱监督学习技术来减少标注数据的需求，例如WOD（Weakly Supervised Object Detection）等。
基于增强数据的方法：这种方法通过增加数据的多样性和难度来提高小目标的检测性能，例如使用数据增强技术（随机裁剪、颜色抖动）、增加负样本等。