YOLOv10：实时端到端目标检测的新突破

news2024/10/6 16:19:55

目标检测作为计算机视觉领域的一个核心问题，其关键在于能够在图像中准确识别并定位对象。随着深度学习技术的发展，基于深度神经网络的目标检测方法不断涌现，其中YOLO（You Only Look Once）系列算法以其优异的实时性和准确性，成为实时目标检测领域的主流选择。最近，清华大学的研究团队推出了YOLO系列的最新力作——YOLOv10，本文将对这篇论文进行详细解读，并探讨YOLOv10在实时目标检测领域的新突破。

YOLOv10简介

YOLOv10是YOLO系列的最新一代算法，它继承了YOLO家族在实时目标检测上的优势，同时在模型架构和后处理上进行了创新性改进，进一步提升了检测性能和效率。YOLOv10的核心贡献可以概括为以下几点：

无NMS（Non-Maximum Suppression）训练：YOLOv10提出了一种新的一致性双重赋值策略（Consistent Dual Assignments），使得模型在训练时能够获得丰富的监督信号，在推理时则无需NMS即可实现高效的端到端检测。
全面优化的模型架构：研究者们从效率和准确性两个角度出发，全面优化了YOLO的各个组件，包括轻量级分类头、空间-通道解耦下采样、基于秩引导的模块设计等。
大核心卷积和部分自注意力模块：YOLOv10引入了大核心卷积来扩大感受野，并提出了部分自注意力模块（PSA），以较低的计算成本增强模型性能。

YOLOv10的主要贡献

一致性双重赋值策略

在传统的目标检测模型中，NMS是一个必要的后处理步骤，用于从多个候选框中选择最佳的检测结果。然而，NMS不仅增加了推理时间，还使得模型无法实现端到端的训练。YOLOv10通过一致性双重赋值策略解决了这一问题，该策略在训练时采用一对多的赋值方式提供丰富的监督信号，在推理时则切换到一对一的赋值方式，无需NMS即可快速得到检测结果。

在训练期间，YOLO 通常利用 TAL 为每个实例分配多个正样本。一对多的分配方式产生了丰富的监督信号，促进了优化并使模型实现了卓越的性能。然而，这需要 YOLO 依赖于 NMS 后处理，这导致了部署时次优的推理效率。虽然之前的研究工作探索了一对一匹配来抑制冗余预测，但它们通常引入了额外的推理开销。与一对多分配不同，一对一匹配对每个 ground truth 仅分配一个预测，避免 NMS 后处理。然而，这会导致弱监督，以至于准确率和收敛速度不理想。幸运的是，这种缺陷可以通过一对多分配来弥补。

该研究提出的「双标签分配」结合了上述两种策略的优点。如上图所示，该研究为 YOLO 引入了另一个一对一 head。它保留了与原始一对多分支相同的结构并采用相同的优化目标，但利用一对一匹配来获取标签分配。在训练过程中，两个 head 联合优化，以提供丰富的监督；在推理过程中，YOLOv10 会丢弃一对多 head 并利用一对一 head 做出预测。这使得 YOLO 能够进行端到端部署，而不会产生任何额外的推理成本。

全面优化的模型架构

除了后处理之外，YOLO 的模型架构也对效率 - 准确率权衡提出了巨大挑战。尽管之前的研究工作探索了各种设计策略，但仍然缺乏对 YOLO 中各种组件的全面检查。因此，模型架构表现出不可忽视的计算冗余和能力受限。

YOLOv10对模型架构进行了全面优化，包括：

轻量级分类头：简化分类头的网络结构，减少计算量而不影响检测性能。
空间-通道解耦下采样：将空间下采样和通道变换操作分离，降低计算复杂度。
基于秩引导的模块设计：根据模型不同阶段的冗余程度，动态调整网络模块，提高计算效率。

大核心卷积和部分自注意力模块

YOLOv10引入了大核心卷积来扩大模型的感受野，增强对小目标的检测能力。同时，通过部分自注意力模块（PSA），YOLOv10在保持计算效率的同时，引入了Transformer模型的全局建模能力，进一步提升检测精度。

采用大核深度卷积是扩大感受野和增强模型能力的有效方法。然而，简单地在所有阶段利用它们可能会在用于检测小物体的浅层特征中引入污染，同时在高分辨率阶段也会带来大量的I/O开销和延迟。因此，建议在深阶段利用CIB中的大核深度卷积。具体来说，本文将CIB中第二个3×3深度卷积的核大小增加到7×7。此外，本文采用结构重参数化技术引入另一个3×3深度卷积分支，以缓解优化问题，而无需推理开销。此外，随着模型大小的增加，其感受野自然扩大，使用大核卷积的好处会减少。因此，对于小模型尺度，我们只采用大核卷积。