DETRs Beat YOLOs on Real-time Object Detection
论文链接:http://arxiv.org/abs/2304.08069
代码链接:https://github.com/lyuwenyu/RT-DETR
https://github.com/ultralytics/ultralytics/tree/main/ultralytics/models/rtdetr(已集成到YOLOV8)
一、摘要
文中提出了第一个实时端到端对象检测器RT-DETR。通过借鉴高级DETR,分两步构建RT-DETR:首先专注于在不牺牲准确性的同时提高速度,然后在不牺牲速度的同时提高准确性。具体来说,设计了一个高效的混合编码器,通过分离同一尺度上的相互作用和跨尺度融合,以加快多尺度特征的处理速度。然后,提出了不确定性最小化的查询选择,为解码器提供高质量的初始查询,从而提高了准确性。此外,RT-DETR支持通过调整解码器层数来适应各种场景的灵活速度调整,而无需重新训练。
RT-DETR-R50 / R101在COCO上实现了53.1% /54.3%的AP,在T4 GPU上达到了108 / 74 FPS,在速度和准确性方面都超过了以前的高YOLOs。RT-DETR-R50在准确性和DINO-R50在FPS方面分别提高了2.2%。在预训练了Objects365之后,RT-DETR-R50 /R101在COCO上实现了55.3% / 56.2%的AP。
二、创新点
设计了一个高效的混合编码器来取代原始的Transformer编码器,通过将不同尺度特征内尺度交互和跨尺度融合解耦,显著提高了推理速度。为了避免低定位置信度的编码器特征被选为对象查询,提出了不确定性最小化的查询选择,通过明确优化不确定性,为解码器提供高质量的初始查询,从而提高了准确性。
(i) 提出了第一个实时端到端对象检测器,称为RT-DETR,它不仅在速度和准确度上都超过了先前先进的YOLO检测器,而且还消除了NMS后处理对实时对象检测的负面影响;
(ii)对NMS对YOLO检测器速度和准确度的影响进行了定量分析,并建立了一个端到端速度基准测试,以测试实时检测器的端到端推理速度;
(iii)提出的RT-DETR通过调整解码器层的数量来支持灵活的速度调整,以适应各种场景,而无需重新训练。
RT-DETR实现了速度和准确性的理想折中。具体来说,RT-DETR-R50在COCO val2017上达到了53.1%的AP,并在T4 GPU上达到了108 FPS,而RT-DETR-R101则达到了54.3%的AP和74 FPS,在速度和准确度上都超过了先前先进YOLO检测器中的L和X模型,如图1所示。还开发了通过缩放编码器和解码器以使用较小后端的小型RT-DETRs,这些后端超过了轻量级YOLO检测器(S和M模型)。RT-DETR-R50在准确性和FPS方面超过了DINO-Deformable-DETR-R50,准确度提高了2.2% (53.1%AP vs 50.9% AP),FPS提高了约21倍(108 FPS vs 5FPS),显著提高了DETRs的准确度和速度。在预训练了Objects365 [35]之后,RT-DETR-R50 / R101达到了55.3% / 56.2%的AP。
目录
- DETRs Beat YOLOs on Real-time Object Detection
- 一、摘要
- 二、创新点
- 三、原理
- NMS
- The Real-time DETR
- 3.1. Model Overview
- 3.2. Efficient Hybrid Encoder
- 3.3. Uncertainty-minimal Query Selection
- 3.4. Scaled RT-DETR
- 四、实验
- 4.1 Comparison with SOTA
- 4.2 Ablation Study on Hybrid Encoder
- 4.3 Ablation Study on Query Selection
- 4.4 Ablation Study on Decoder
- 5. Limitation and Discussion
- 五、总结
- Appendix of “DETRs Beat YOLOs on Real-time Object Detection”
- 1.Experimental Settings
- 2.Comparison with Lighter YOLO Detectors
- 3 Large-scale Pre-training for RT-DETR
- 4 Visualization of Predictions with Different Post-processing Thresholds
- 5 Visualization of RT-DETR Predictions
三、原理
NMS
NMS的执行时间主要取决于框的数量和两个阈值。为了验证这一观察,利用YOLOv5 [11](基于锚点的)和YOLOv8 [12](无锚点)进行分析。
首先计算在不同置信度阈值下,在同一输入上过滤输出框后剩余的框的数量。从0.001到0.25采样值作为置信度阈值,来计数两个检测器的剩余框的数量,并将这些数据绘制在条形图上,直观地反映出NMS对其超参数的敏感性,参见图2。随着置信度阈值的提高,更多的预测框被过滤掉,需要计算IoU的剩余框的数量减少,因此减少了NMS的执行时间。
此外,使用YOLOv8评估COCO val2017上的准确性,并测试在不同超参数下的NMS操作执行时间。请注意,采用的NMS操作指的是TensorRT的efficientNMSPlugin,它包括多个内核,如EfficientNMSFilter、RadixSort、EfficientNMS等。作者只报告EfficientNMS内核的执行时间。在带有TensorRT FP16的T4 GPU上测试速度,输入和预处理保持一致。超参数及其对应的结果在表1中显示。从结果可以得出结论,EfficientNMS内核的执行时间随着置信度阈值的降低或IoU阈值的提高而增加。原因在于,高置信度阈值直接过滤掉更多的预测框,而高IoU阈值在每一轮筛选中过滤掉更少的预测框。还在附录中可视化了YOLOv8在不同NMS阈值下的预测结果。结果显示,不当的置信度阈值会导致检测器出现显著的假正或假负。当置信度阈值为0.001,IoU阈值为0.7时,YOLOv8实现了最佳的平均精度(AP)结果,但相应的NMS时间处于较高水平。考虑到YOLO检测器通常报告模型速度并排除NMS时间,因此需要建立一个端到端的速度基准。
根据表2可以得出:对于YOLO检测器,具有相同准确度的无锚点检测器在NMS时间上优于基于锚点的检测器,因为前者所需的NMS时间少于后者。原因在于基于锚点的检测器生成的预测框比无锚点检测器多三倍。
The Real-time DETR
3.1. Model Overview
RT-DETR由一个骨干、一个有效的混合编码器和带有辅助预测头的Transformer解码器组成。RT-DETR的概述如图4所示。具体来说,将骨干的最后三个阶段的特征{S3,S4,S5}输入到编码器中。有效的混合编码器通过跨尺度特征融合和同尺度特征交互将多尺度特征转换成一系列图像特征。随后,采用不确定性最小化的查询选择方法选择一个固定数量的编码器特征作为解码器的初始对象查询。最后,带有辅助预测头的解码器迭代优化对象查询以生成类别和框。
3.2. Efficient Hybrid Encoder
计算瓶颈分析。引入多尺度特征加速了训练收敛并提高了性能 [45]。然而,尽管可变形注意力减少了计算成本,但序列长度的大幅增加仍然使得编码器成为了计算瓶颈。如Lin et al. [19]所述,编码器占用了Deformable-DETR中49%的GFLOPs,但只贡献了11%的AP。为了克服这个瓶颈,首先分析了多尺度Transformer编码器中的计算冗余。直观地讲,从低级特征中提取的高级特征包含了关于物体的丰富语义信息,因此对拼接的多尺度特征进行特征交互是冗余的。因此,设计了一系列具有不同类型编码器的变体,以证明同时进行跨尺度特征交互是不高效的,如图3所示。特别地,在RT-DETR中使用DINO-Deformable-R50,并使用较小的数据读取器和较轻的解码器进行实验,首先从DINO-Deformable-R50中移除多尺度Transformer编码器作为变体A。然后,在A的基础上插入不同类型的编码器,详细说明如下:
-
A → B A \rightarrow B A→B: 变体B在A中插入了一个单尺度Transformer编码器,该编码器使用了一层Transformer块。多尺度特征共享编码器以进行同尺度特征交互,然后将其连接作为输出。
-
B → C B \rightarrow C B→C: 变体C基于变体B引入交叉尺度的特征融合,并将拼接后的特征输入到多尺度Transformer编码器中,同时考虑尺度间和交叉尺度的相互作用。
-
C → D C \rightarrow D C→D:变体D 通过使用单尺度Transformer 编码器来解耦内部尺度交互和跨尺度融合,同时使用了一种类似于PANet [22]的结构来处理后者。
-
D → E D \rightarrow E D→E: 变体E在D的基础上增强了同层交互和跨层融合,采用了设计的有效混合编码器。
混合设计。基于上述分析,对编码器结构进行了重新思考,并提出了一个高效混合编码器,由两个模块组成,即注意力基于的跨尺度特征交互(AIFI)和卷积神经网络基于的跨尺度特征融合(CCFF)。具体来说,AIFI在变体D的基础上进一步减少了计算成本,仅在 S 5 S_{5} S5上进行了跨尺度交互,使用单尺度Transformer编码器。原因在于,对具有丰富语义概念的高级别特征应用自注意力操作,能够捕捉概念实体之间的联系,这有助于后续模块对对象的定位和识别。
然而,对于低级别特征的跨尺度交互是不必要的,因为缺乏语义概念,并且与高级别特征交互存在重复和混淆的风险。为了验证这一观点,在变体D中仅在 S 5 S_{5} S5上进行了跨尺度交互,实验结果报告在表3 (见行 D S 5 D_{S_{5}} DS5)。与D相比, D S 5 D_{S_{5}} DS5不仅显著减少了延迟(35%更快),而且提高了准确性(0.4% AP更高)。
CCFF是基于跨尺度融合模块优化的,它将在融合路径中插入几块包含卷积层的融合块。融合块的作用是将两个相邻尺度的特征融合为新的特征,其结构如图5所示。融合块包含两个 1 × 1 1 × 1 1×1的卷积来调整通道数,使用了 N N N个RepBlock进行特征融合,每个RepBlock由RepConv [8]组成,两个路径的输出通过逐元素相加融合。将混合编码器的计算形式化为:
Q
=
K
=
V
=
F
l
a
t
t
e
n
(
S
5
)
,
F
5
=
R
e
s
h
a
p
e
(
A
I
F
I
(
Q
,
K
,
V
)
)
,
O
=
C
C
F
F
(
S
3
,
S
4
,
F
5
)
,
(1)
Q = K = V = Flatten(S_{5}), \\ F_{5} = Reshape(AIFI(Q,K,V)), O = CCFF({S_{3},S_{4},F_{5}}), \tag1
Q=K=V=Flatten(S5),F5=Reshape(AIFI(Q,K,V)),O=CCFF(S3,S4,F5),(1)
其中‘Reshape‘表示恢复扁平特征的大小与‘S5‘有相同的大小。
3.3. Uncertainty-minimal Query Selection
为了减少DETR中对象查询优化的难度,后续的几项工作[42, 44, 45]提出了查询选择方案,这些方案共有的特点是它们使用置信分数来从编码器中选择前K个特征来初始化对象查询(或者只是位置查询)。置信分数代表特征包含前景对象的置信度。然而,检测器需要同时建模对象类别和位置,这两个因素都决定了特征的质量。因此,特征的性能分数是一个与分类和定位都相关的潜变量。基于分析,当前的查询选择导致选中的特征存在相当程度的不确定性,从而为解码器提供了次优的初始化,并阻碍了检测器的性能。
为了解决这个问题,提出了一种不确定性最小查询选择方案,该方案明确构建并优化了认知的不确定性,以建模编码器特征的共同潜变量,从而为解码器提供高质量的查询。具体来说,特征不确定性
U
U
U在公式(2)中被定义为定位预测分布
P
P
P和分类预测分布
C
C
C之间的差异。为了最小化查询的不确定性,在公式(3)中的损失函数中整合了不确定性,以进行基于梯度的优化。
U
(
X
^
)
=
∥
P
(
X
^
)
−
C
(
X
^
)
∥
,
X
^
∈
R
D
(2)
U(\widehat{X}) = ∥P(\widehat {X}) −C(\widehat{X})∥, \widehat{X} \in R^{D} \tag2
U(X
)=∥P(X
)−C(X
)∥,X
∈RD(2)
L
(
X
^
,
Y
^
,
Y
)
=
L
b
o
x
(
b
^
,
b
)
+
L
c
l
s
(
U
(
X
^
)
,
c
^
,
c
)
(3)
\mathcal{L}(\widehat{X}, \widehat{Y},Y) = \mathcal{L}_{box}(\widehat{b},b) + \mathcal{L}_{cls}(U(\widehat{X}),\widehat{c},c) \tag3
L(X
,Y
,Y)=Lbox(b
,b)+Lcls(U(X
),c
,c)(3)
其中,
Y
^
\widehat{Y}
Y
和
Y
Y
Y代表预测值和真实值。
Y
^
=
{
c
^
,
b
^
}
\widehat{Y} = \{\widehat{c}, \widehat{b}\}
Y
={c
,b
},
c
^
\widehat{c}
c
和
b
^
\widehat{b}
b
分别代表类别和bounding box。
X
^
\widehat{X}
X
代表编码后的特征。
有效性分析。为了分析不确定性最小查询选择的有效性,在COCO val2017 上可视化所选特征的分类分数和IoU分数,参见图6。绘制了一个散点图,其中分类分数大于0.5。紫色和绿色点分别代表从使用不确定性最小查询选择和普通查询选择的模型中训练得到的选择特征。图中的点越靠近右上角,相应特征的质量越高,即预测的类别和框更可能描述真实物体。图的上部和右部密度曲线反映了两种类型的点数。
散点图最显著的特征是紫色点集中在图的右上角,而绿色点集中在图的右下角。这表明不确定性最小查询选择生成了更多高质量的编码器特征。此外,对两种查询选择方案进行了定量分析。紫色点比绿色点多 138%,即绿色点(分类分数小于或等于 0.5)更多,可以被认为是低质量特征。而且,在分类分数大于0.5 的点中,紫色点比绿色点多120%。密度曲线上也有同样的结论,紫色和绿色之间的差距在图的右上角最为明显。定量结果进一步证明,不确定性最小查询选择为查询提供了更多具有准确分类和精确位置的特性,从而提高了检测器的准确性。
3.4. Scaled RT-DETR
由于实时检测器通常提供不同尺度的模型以适应不同场景,RT-DETR也支持灵活的缩放。具体来说,混合编码器通过调整嵌入维度和通道数来控制宽度,并通过调整Transformer层和RepBlock 的数量来控制深度。解码器的宽度和深度可以通过调整目标查询数和解码器层数来控制。此外,RT-DETR的速度也支持灵活的调整,通过调整解码器层数来实现。
作者观察到,去除末尾的几个解码器层对准确性几乎没有影响,但大大提高了推理速度。将配备ResNet50和ResNet101的RT-DETR与YOLO检测器的L和X模型进行了比较。通过应用其他较小的(e.g., ResNet18/34)或可扩展的(e.g., CSPResNet [40])骨干(如CSPResNet),可以设计出更轻量的RT-DETR,同时调整编码器和解码器的尺度。附录中比较了缩放后的RT-DETR与较轻的(S和M)YOLO检测器,在速度和准确性方面均优于所有S和M模型。
四、实验
4.1 Comparison with SOTA
表2比较RT-DETR 与当前实时(YOLOs) 和端到端 (DETRs) 检测器,其中仅比较YOLO 检测器的L 和 X 模型,并在附录中比较S 和 M 模型。RT-DETR 和 YOLO 检测器共享一个共同的大小(640,640),而其他DETRs 使用一个大小 (800,1333)。FPS 在带有TensorRT FP16 的T4 GPU 上报告,并且对于YOLO 检测器,根据在Sec. 3.2 中提出的端到端速度基准,使用官方预训练模型。RT-DETR-R50 实现53.1% AP 和108 FPS,而RT-DETR-R101 实现54.3%AP 和74 FPS,在速度和准确性方面均超越了类似规模
的最新YOLO 检测器和具有相同骨干的DETRs。实验设置见附录。
与实时检测器的比较。比较RT-DETR 与YOLO 检测器的端到端速度和准确性。比较RT-DETR 与YOLOv5 [11],PP-YOLOE [40],YOLOv6v3.0[16] (以下简称 YOLOv6),YOLOv7 [38] 和 YOLOv8[12]。与YOLOv5-L / PP-YOLOE-L / YOLOv6-L 相比,RT-DETR-R50 在 AP 方面提高了 4.1% / 1.7% / 0.3%,在FPS 方面增加了 100.0% / 14.9% / 9.1%,并且在参数数量上减少了8.7% / 19.2% / 28.8%。与YOLOv5-X / PP-YOLOE-X 相比,RT-DETR-R101 在3.6% / 2.0% AP 方面提高了准确性,在 72.1% / 23.3%FPS 方面增加了速度,并且在 11.6% / 22.4% 的参数数量上减少了。与 YOLOv7-L / YOLOv8-L 相比,RT-DETR-R50 在1.9% / 0.2% AP 方面提高了准确性,并且在96.4% / 52.1% FPS 方面增加了速度。与YOLOv7-X /YOLOv8-X 相比,RT-DETR-R101 在AP 方面提高了1.4% / 0.4%,并且在FPS 方面增加了64.4% / 48.0%。这表明RT-DETR 实现了实时检测的最新技术水平。
与端到端检测器的比较。将 RT-DETR 与使用相同骨干的现有 DETRs 进行比较。根据在 COCO val2017 上达到的相应准确性的设置,测试了DINO-Deformable-DETR [44] 的速度,即使用TensorRT FP16 测试速度,输入大小为 (800,1333)。表2显示 RT-DETR 在速度和准确性方面均优于具有相同骨干的所有DETRs。与DINO-Deformable-DETR-R50 相比,RT-DETR-R50 在2.2% AP 方面提高了准确性,并且在速度上提高了21倍速度(108 FPS 对比5 FPS),两者都有显著的改进。
4.2 Ablation Study on Hybrid Encoder
评估了在3.2节中设计的变体的指标,包括AP(使用1×配置训练),参数数量,以及延迟,参见表3。与基线A相比,变体B提高了1.9%的AP,并且增加了54%的延迟。这证明了跨尺度特征交互的重要性,但是单尺度Transformer编码器计算成本高昂。变体C在B的基础上提高了0.7%的AP,且增加了20%的延迟。这表明跨尺度特征融合也是必要的,但是多尺度Transformer编码器需要更高的计算成本。变体D在C的基础上提高了0.8%的AP,但是降低了8%的延迟,这表明解耦跨尺度交互和跨尺度融合不仅降低了计算成本,而且提高了准确性。与变体D相比, D S 5 D_{S_{5}} DS5降低了35%的延迟,但是提高了0.4%的AP,这表明低层次特征的跨尺度交互并不是必需的。最后,变体E在D的基础上提高了1.5%的AP。尽管参数数量增加了20%,但是延迟降低了24%,使得编码器更加高效。这表明混合编码器在速度和准确性之间实现了更好的平衡。
4.3 Ablation Study on Query Selection
本节进行不确定性最小化查询选择的消融研究,并在RT-DETR-R50的1×配置上报告了结果,参见表4。RT-DETR中的查询选择根据分类分数选择前K ( K = 300 K = 300 K=300)个编码器特征作为内容查询,并且使用与所选特征对应的预测框作为初始位置查询。在COCO val2017上比较了两种查询选择方案选择的编码器特征,并分别计算了分类分数大于0.5和分类分数及IoU分数均大于0.5的比例。结果显示,不确定性最小化查询选择所选的编码器特征不仅提高了高分类分数的比例(0.82% vs 0.35%),而且还提供了更多的高质量特征(0.67% vs 0.30%)。还评估了在COCO val2017上使用两种查询选择方案训练的检测器的准确性,其中不确定性最小化查询选择实现了0.8%的AP提升(48.7% AP vs 47.9% AP)。
4.4 Ablation Study on Decoder
表5显示了RT-DETR-R50使用不同数量解码器层的训练后,每个解码器层的推理延迟和准确率。当解码器层的数量设置为6时,RT-DETR-R50 达到了最佳的准确率53.1% AP。此外,还观察到相邻解码器层之间的准确率差异随着解码器层的索引增加而逐渐减少。以RT-DETR-R50-Det6 列为例,仅使用第5个解码器层进行推理仅损失 0.1% AP (53.1% AP 对比53.0% AP) 的准确率,同时减少了 0.5 ms 的延迟(9.3ms 对比8.8 ms)。因此,通过调整解码器层的数量而不需要重新训练,RT-DETR 支持灵活的速度调整,从而提高了其实用性。
5. Limitation and Discussion
局限性。尽管提出的RT-DETR在速度和准确性上均优于同类大小的高效实时检测器和端到端检测器,但它与其他DETR模型共享相同的局限性,即在小目标检测任务上的性能仍然不如强大的实时检测器。根据实验章节第一节,RT-DETR-R50在L模型(YOLOv8-L)中的 A P S v a l AP^{val}_{S} APSval最高值下降低了0.5%,而RT-DETR-R101在X模型(YOLOv7-X)中的 A P S v a l AP^{val}_{S} APSval最高值下降低了0.9%。希望在未来的工作中解决这个问题。
讨论。现有的大型DETR模型 [3, 6, 32, 41, 44, 46]在COCO test-dev [20]排行榜上表现出色。提出的RT-DETR在不同尺度上保持了与其他DETR相同的解码器,这使得可以使用高精度预训练的大型DETR模型来精炼轻量级检测器。作者相信,这可能是RT-DETR相对于其他实时检测器的优势之一,并且可能是未来探索的一个有趣方向。
五、总结
本工作提出了一种实时端到端检测器,称为RT-DETR,它成功地将DETR扩展到了实时检测场景,并达到了最先进的性能。RT-DETR包括两个关键的增强功能:一个高效的混合编码器,能够迅速处理多尺度特征,以及不确定性最小化的查询选择,这提高了初始物体查询的质量。此外,RT-DETR支持灵活的速度调优,无需重新训练,并消除了两个NMS阈值带来的不便,这有助于其实际应用。RT-DETR及其模型缩放策略,拓宽了实时物体检测的技术方法,为多样化的实时场景提供了超越YOLO的新可能性。
Appendix of “DETRs Beat YOLOs on Real-time Object Detection”
1.Experimental Settings
数据集和度量。将在COCO [20]和Objects365[35]上 进行 实 验,其 中RT-DETR在COCO train2017上进行训练,并在COCO val2017数据集上进行验证。报告了标准COCO指标,包括AP在0.50-0.95范围内的均匀采样IoU阈值,步长为0.05的平均值), A P 50 AP_{50} AP50, A P 75 AP_{75} AP75,以及不同尺度的AP: A P S AP_{S} APS, A P M AP_{M} APM, A P L AP_{L} APL。
实现细节。使用在ImageNet[7, 34]上预训练的ResNet [13, 14]作为骨干网络,骨干网络的学习率策略遵循[4]。在混合编码器中,AIFI包含1个Transformer层,CCFF中融合块包含3个RepBlocks。利 用不确定性最小查询选择来选择300个编码器特征来初始化解码器的对象查询。解码器的训练策略和超参数几乎遵循DINO[44]。使用AdamW[26]优化器在四块NVIDIA Tesla V100 GPU上进行训练,批量大小为16,并应用指数移动平均(EMA),
e
m
a
d
e
c
a
y
=
0.9999
ema decay = 0.9999
emadecay=0.9999。
1
×
1×
1×配置意味着总epoch为12,最终报告的结果采用6×配置。训练期间应用的数据增强包括随机{颜色扭曲、扩展、裁剪、翻转、缩放}操作,遵循[40]。RT-DETR的主要超参数列于附表A(详见RT-DETR-R50的配置)。在附录中列出了阈值。结果表明,不当的置信度阈值会导致检测器出现显著的假正或假负。使用置信度阈值为0.001和IoU阈值为0.7,YOLOv8实现了最佳AP结果,但相应的NMS时间较高。考虑到YOLO检测器通常报告模型速度并排除NMS时间,因此需要建立一个端到端的速度基准。
2.Comparison with Lighter YOLO Detectors
为了适应多样化的实时检测场景,开发了轻量级的缩放RT-DETRs,通过缩放带有ResNet50/34/18[13]的编码器和解码器。具体来说,在RepBlock中减半了通道数,同时保持其他组件不变,通过调整推理期间的解码器层数获得一系列RT-DETRs。在表B中比较了缩放的RT-DETRs与YOLO检测器的S和M模型。在训练期间,缩放的RT-DETR-R50/34/18分别使用了6/4/3个解码器层, D e c k Dec^{k} Deck表示在推理期间使用了 k k k个解码器层。 R T − D E T R − R 50 − D e c 2 − 5 RT-DETR-R50-Dec^{2−5} RT−DETR−R50−Dec2−5在速度和精度上都超过了所有M模型的YOLO检测器,而 R T − D E T R − R 18 − D e c 2 RT-DETR-R18-Dec^{2} RT−DETR−R18−Dec2则在速度上超过了所有S模型。与当前最先进的M模型(YOLOv8-M [12])相比, R T − D E T R − R 50 − D e c 5 RT-DETR-R50-Dec^{5} RT−DETR−R50−Dec5在AP精度上提高了0.9%,FPS增加了36%。与当前最先进的S模型(YOLOv6-S [16])相比, R T − D E T R − R 18 − D e c 2 RT-DETR-R18-Dec^{2} RT−DETR−R18−Dec2在AP精度上提高了0.5%,FPS增加了18%。这表明通过简单的缩放,RT-DETR能够在速度和精度上超越轻量级的YOLO检测器。
3 Large-scale Pre-training for RT-DETR
预先在更大的Objects365[35]数据集上训练RT-DETR,然后将其精调到COCO上以实现更高的性能。表C分别对RT-DETR-R18/50/101进行了实验。这三个模型都是在Objects365上预训练了12轮次,而RT-DETR-R18在COCO上精调了60轮次,而RT-DETR-R50和RT-DETR-R101则精调了24轮次。实验结果表明,在COCO val2017上,RT-DETR-R18/50/101的AP分别提高了2.7%/2.2%/1.9%。这种令人惊讶的改进进一步证明了RT-DETR的潜力,并为工业界的各种实时场景提供了最强实时对象检测器。
4 Visualization of Predictions with Different Post-processing Thresholds
为了直观地展示后处理对检测器的影响,使用不同的后处理阈值可视化了YOLOv8 [12]和RT-DETR的预测结果,如图A和B所示。通过为YOLOv8-L设置不同的NMS阈值和为RT-DETR-R50设置不同的分数阈值,展示了COCO val2017中的两个随机选定的样本的预测结果。
NMS阈值有两种:置信度阈值和IoU阈值,两者都影响检测结果。置信度阈值越高,过滤掉的预测框就越多,假阴性数量增加。然而,置信度阈值设置得较低,例如0.001,会导致出现大量冗余的框,假阳性数量增加(图A中的红色圆圈标记的位置)。然而,采用较低的IoU阈值会导致输入中有重叠或相互遮挡的对象时,真阳性被删除。与IoU阈值相比,置信度阈值处理预测框相对简单,因此易于设置,而IoU阈值设置起来较为困难。考虑到不同场景对召回率和准确性的重视程度不同,例如,通用检测场景需要较低的置信度阈值和较高的IoU阈值来提高召回率,而专用检测场景需要较高的置信度阈值和较低的IoU阈值来提高准确率,因此有必要根据不同场景仔细选择合适的NMS阈值。
RT-DETR利用二分匹配预测一对一的对象集合,消除了抑制重叠框的需要。相反,它直接通过分数阈值过滤低置信度框。与NMS中使用的置信度阈值类似,分数阈值可以根据特定场景的重视程度在不同的场景中进行调整,以实现最佳的检测性能。因此,设置RT-DETR的后处理阈值相对简单,不会影响推理速度,增强了实时检测器在不同场景下的适应性。
5 Visualization of RT-DETR Predictions
选择了若干个来自COCO val2017的样本,以展示RT-DETR在复杂场景和困难条件下检测性能(参见图C和D)。在复杂场景中,RT-DETR展示了它检测各种物体的能力,即使这些物体很小或者密集堆积,例如杯子、葡萄酒杯和个体。此外,RT-DETR成功地在各种困难条件下检测物体,包括运动模糊、旋转和遮挡。这些预测证实了RT-DETR的卓越检测性能。