【目标检测】Transformers在小目标检测中的应用：最新技术的基准测试和调查

news2025/4/20 3:37:05

《Transformers in Small Object Detection: A Benchmark and Survey of State-of-the-Art》
Transformers在小目标检测中的应用：最新技术的基准测试和调查
原文：https://arxiv.org/abs/2309.04902

1 研究背景和目的

小目标检测（SOD）对现有目标检测方法具有挑战性，而 Transformers 在计算机视觉任务中表现出色，本文旨在探讨 Transformers 在 SOD 中的性能优势及潜在原因。
与基于 CNN 的检测器相比，Transformers 在某些视频或图像数据集中表现更优，但其在 SOD 中的优势原因尚不完全明确。

2 相关工作概述：

介绍了基于 CNN 的目标检测器，如 YOLO、SSD、RetinaNet 等，以及 Transformer 模型的基本架构，包括编码器和解码器。
详细阐述了 DETR 和 ViT - FRCNN 这两个开创性的基于 Transformer 的目标检测器，它们在小目标检测和分类中表现欠佳，且存在计算成本高等问题。

使用Transformer 的小目标检测和流行的目标检测方法
在这里插入图片描述
DETR ViT-FRCNN

3 基于 Transformers 的 SOD 技术分类及讨论

3.1 对象表示技术Object Representation

各种对象表示技术被用于目标检测，如 RelationNet++ 通过 BVR 模块结合不同表示的优势，CenterNet++ 采用自下而上的方法提高了 SOD 的召回率。

3.2 高分辨率和多尺度特征图的快速注意力Fast Attention for High - Resolution or Multi - Scale Feature Maps

保持高分辨率的特征图对 SOD 性能至关重要，Deformable DETR 通过减少注意力计算的复杂度提高了对小目标的检测性能，Dynamic DETR 利用特征金字塔实现了高效的从粗到细的目标检测，O2DETR 用局部卷积代替注意力机制，CF - DETR 提出了 Transformer Enhanced FPN 模块，FEA - Swin 通过前景增强注意力整合上下文信息。

3.3 基于Transformer的检测器Fully Transformer - Based Detectors

ViDT 将 YOLOS 模型扩展为适用于 SOD 的高效检测器，DFFT 使用两个编码器保持高精度，SRDD 通过评分系统去除编码器中的冗余令牌。

3.4 架构和模块修改Architecture and Block Modifications

为改善 SOD 性能，许多研究对 DETR 进行了改进，如 TSP - FCOS 和 TSP - RCNN 消除了解码器中的交叉注意力模块并引入新的二分匹配技术，Conformer 融合了 CNN 和 Transformer 的特征表示，DIAG - TR 引入 GLFI 模块平衡小目标的尺度差异，其他方法还包括修改注意力机制、使用锚点、改进查询设计、添加局部感知块等。

3.5 辅助技术Auxiliary Techniques

辅助技术包括辅助解码 / 编码损失、迭代框细化、自上而下的监督、预训练、数据增强、一对多标签分配和去噪训练等，这些技术与主任务结合可提高性能。

3.6 改进特征表示Improved Feature Representation

一些方法通过改进特征表示来提高 SOD 性能，如 AO2 - DETR 对任意对象旋转具有鲁棒性，DETR++ 使用多尺度特征学习，PointDet++ 利用人体姿态估计技术，GhostNet 提供高质量的多尺度特征，MS Transformer 使用自监督学习和随机掩码，SOF - DETR、NLFFTNet、DeoT、HTDet、MDCT 等通过融合特征或改进模块来提取更丰富的特征。

3.7 时空信息Spatio - Temporal Information

视频中的小目标检测具有挑战性，一些基于 Transformer 的模型如 TrackFormer、TransT、Trans VOD、PTSEFormer、Sparse VOD、DAFA、VSTAM、FAQ 等被用于视频目标检测，这些模型利用时空信息和特征融合来提高检测性能。

4 实验结果与基准测试

4.1 Datasets

除了 MS COCO 数据集，还介绍了 12 个新的 SOD 数据集，包括 UAV123、MRS - 1800、SKU - 110K、BigDetection、Tang et al.、Xu et al.、DeepLesion、Udacity Self Driving Car、AMMW Dataset、URPC 2018 Dataset、UAV dataset、Drone - vs - bird。

4.2 视觉应用的基准测试Benchmarks in Vision Applications

4.2.1 常规应用Generic Applications

在 MS COCO 数据集上评估了小目标检测器的性能，发现大多数技术受益于 CNN 和 Transformer 的混合架构，预训练和多尺度学习是最有效的策略，CBNet V2 性能较优，DETR 容易过估计物体数量，Faster RCNN 和 SSD 在检测小目标时存在不足。
在这里插入图片描述

4.2.2 航空影像小目标检测Small Object Detection in Aerial Images

在 DOTA 图像数据集上，ReDet 通过多尺度学习和在 ImageNet 上的预训练取得了最高的精度值。
在这里插入图片描述

在这里插入图片描述

4.2.3 医学影像小目标检测Small Object Detection in Medical Images

在 DeepLesion CT 图像数据集上，MS Transformer 表现最佳，该数据集相对其他医学影像任务挑战性较小。
在这里插入图片描述

4.2.4 水下图像小目标检测Small Object Detection in Underwater Images

在 URPC 2018 数据集中，HTDet 是唯一被识别的基于 Transformer 的技术，且显著优于 SOTA CNN 方法，但总体 mAP 分数较低，说明水下目标检测仍是一项艰巨任务。

4.2.5 主动毫米波小目标检测Small Object Detection in Active Milli - Meter Wave Images

在 AMMW 数据集中，MATR 是唯一结合 Transformer 和 CNNs 的技术，能显著提高 SOD 性能。
在这里插入图片描述

4.2.6 视频小目标检测Small Object Detection in Videos

在 ImageNet VID 数据集上，Deformable DETR 与 FAQ 结合取得了最高性能，但 mAP@[0.5, 0.95] 仍较低，视频中的 SOD 仍有很大研究空间。

5 讨论

对比了基于 Transformer 的方法和基于 CNN 的方法的分类，发现一些策略在两者中都有应用，而 Transformer 通过时空变压器或更新对象查询来处理时空分析。
指出预训练和多尺度学习是提高性能的关键策略，但 Transformers 存在参数多、训练时间长、依赖大规模数据集和计算资源等问题。
小目标检测面临的主要挑战是漏检和重复检测框问题，可通过使用高分辨率图像、增强特征金字塔和优化解码器中的对象查询来解决。
除了通用和航空图像应用，Transformers 在其他应用中的发展相对不足，特别是在医学成像等关键领域。