《DETRs Beat YOLOs on Real-time Object Detection》
最近,基于端到端DETR取得了显著的性能。然而,DETR的高计算成本限制了它们的实际应用,并阻碍了它们充分利用无后处理(如非最大抑制(NMS))的优势。本文首先分析了NMS对现有实时目标检测器的准确性和速度的负面影响,并建立了一个端到端的速度基准。为了解决上述问题,我们提出了一种实时检测转换器(RT-DETR),这是我们所知的第一个实时端到端目标检测器。
具体来说,我们设计了一种高效的混合编码器,通过解耦尺度内交互和跨尺度融合来有效地处理多尺度特征,并提出了IoU感知的查询选择,通过向解编码器提供更高质量的初始object queries来进一步提高性能。
1. Introduction
问题:DETR的高计算成本问题尚未得到有效解决,这限制了DETR的实际应用,导致无法充分利用其优势。
为了实现上述目标,我们重新思考了DETR,并对其关键组成部分进行了详细的分析和实验,以减少不必要的计算冗余。我们发现,尽管引入多尺度特征有利于加速训练收敛和提高性能[49],但它也会导致输入编码器的序列长度显著增加。 因此,由于计算成本高,transformer encoder成为模型的计算瓶颈。为了实现实时目标检测,我们设计了一种高效的混合编码器来代替原始的编码器。通过解耦多尺度特征的尺度内交互和尺度间融合,编码器可以有效地处理不同尺度的特征。
此外,之前的工作[40,24]表明,解码器的object query初始化方案对检测性能至关重要。为了进一步提高性能,我们提出了IoU感知查询选择,通过在训练过程中提供IoU约束,为解码器提供更高质量的初始对象查询。 此外,我们提出的检测器支持通过使用不同的解码器层来灵活调整推断速度,而不需要重新训练,这得益于DETR架构中解码器的设计,并促进了实时检测器的实际应用。
2.2. End-to-end Object Detectors.
DETR存在两个主要问题:训练收敛缓慢和查询难以优化。Deformable DETR[49]通过提高注意力机制的效率,加速了多尺度特征的训练收敛。DAB-DETR[24]引入了4D参考点,并逐层迭代优化预测框。DN-DETR[20]通过引入查询去噪来加速训练收敛。Group-DETR[6]通过引入小组一对多分配来加速训练。DINO[46]建立在先前的工作基础上,取得了最先进的成果。
2.3. Multi-scale Features for Object Detection.
现代目标检测器已经证明了利用多尺度特征来提高性能的重要性,特别是对于小物体。FPN[22]引入了一种特征金字塔网络,该网络融合了来自相邻尺度的特征。Efficient-DETR[43]通过使用密集先验初始化对象查询来减少编码器和解码器层的数量。Sparse-DETR[32]选择性地更新预期由解码器引用的编码器令牌,从而减少计算开销。Lite DETR[19]通过以交错方式降低低级特征的更新频率来提高编码器的效率。尽管这些研究降低了DETR的计算成本,但这些工作的目标不是将DETR推广为实时检测器。
4. The Real-time DETR
具体来说,我们利用骨干网{S3、S4、S5}最后三个阶段的输出特征作为编码器的输入。混合编码器通过尺度内交互和跨尺度融合将多尺度特征转换为图像特征序列(如第4.2节所述)。
随后,采用IoU感知查询选择从编码器输出序列中选择固定数量的图像特征,作为解编码器的初始对象查询(如第4.3节所述)。最后,带有辅助预测头的解码器迭代优化对象查询以生成框和置信度得分。
4.2. Efficient Hybrid Encoder
如[21]所述,编码器占GFLOPs的49%,但在可变形DETR中仅贡献了11%的AP。从包含图像中对象丰富语义信息的低级特征中提取高级特征。直观地说,对concat的多尺度特征进行特征交互是多余的。
基于上述分析,我们重新思考了编码器的结构,并提出了一种新型的高效混合编码器。如图3所示,所提出的编码器由两个模块组成,基于注意力的尺度内特征交互(AIFI)模块和基于CNN的跨尺度特征融合模块(CCFM)。AIFI进一步减少了基于变量D的计算冗余,变量D仅在S5上执行尺度内交互。
我们认为,将self-attention操作应用于具有更丰富语义概念的高级特征可以捕捉图像中概念实体之间的联系,这有助于后续模块对图像中对象的检测和识别。 同时,由于缺乏语义概念,以及与高级特征的交互存在重复和混淆的风险,低级特征的尺度内交互是不必要的。 实验证明了该想法!
4.3. IoU-aware Query Selection
DETR中的object query是一组可学习的嵌入,由解码器优化,并由预测头映射到分类分数和边界框。然而,这些对象查询很难解释和优化,因为它们没有明确的物理意义。后续工作[40,24,49,43,46]改进了对象查询的初始化,并将其扩展到内容查询和位置查询(锚点)。其中[49,43,46]都提出了查询选择方案,它们的共同点是利用分类分数来选择编码器中前K个特征初始化对象查询(或仅初始化位置查询[46])。
然而,由于分类分数和位置置信度的分布不一致,一些预测的框具有较高的分类分数,但与GT框并不接近,这导致选择分类分数高、IoU分数低的框,而丢弃分类分数低、IoU评分高的框。这会损害检测器的性能。为了解决这个问题,我们提出了IoU感知的查询选择,通过约束模型在训练过程中为IoU得分高的特征产生高分类得分,为IoU分数低的特征产生低分类得分。 因此,与模型根据分类分数选择的前K个编码器特征对应的预测框具有高分类分数和高IoU分数。
5. Experiments
我们对IoU感知查询选择进行了消融研究,定量实验结果如4所示。我们采用的查询选择根据分类分数选择前K个(K=300)编码器特征作为内容查询,并采用与这些选定特征对应的边界框作为初始位置查询。
我们还分析了每个解码器层对推理速度的影响,并得出结论,每个解码器层消耗约0.5毫秒。此外,我们发现,随着解码器层索引的增加,解码器相邻层之间的精度差异逐渐减小。