起飞咯,DEYO | YOLOv8赋能DETR构建检测达成检测新标杆

news2024/10/6 12:24:22

本文首发:AIWalker

https://arxiv.org/abs/2402.16370
https://github.com/ouyanghaodong/DEYO

内容摘要

DETR的训练范式在很大程度上取决于在ImageNet数据集上预训练其骨干。然而,由图像分类任务和一对一匹配策略提供的有限监督信号导致DETR的预训练不充分的颈部。此外,在训练的早期阶段匹配的不稳定性会导致DETR的优化目标不一致

为了解决这些问题,我们设计了一种创新的培训方法,称为分步培训。具体来说,

  • 在训练的第一阶段,我们采用一个经典的检测器,用一对多的匹配策略进行预训练,以初始化端到端检测器的主干和颈部。
  • 在训练的第二阶段,我们冻结了端到端检测器的主干和颈部,需要从头开始训练解码器。 通过逐步训练的应用,我们引入了第一个利用纯卷积结构编码器的实时端到端对象检测模型,DETR with YOLO(DEYO)。

在不依赖任何补充训练数据的情况下,DEYO在速度和准确性方面都超过了所有现有的实时对象检测器。此外,综合型DEYO系列可以使用单个8 GB RTX 4060 GPU在COCO数据集上完成其第二阶段训练,大大降低了训练支出。源代码和预训练模型可在https://github.com/ouyanghaodong/DEYO上获得。

本文贡献

  • 我们提出了第一种不需要额外数据集来训练DETR的训练方法:逐步训练。与传统的DETR训练方法相比,分步训练可以为探测器的颈部提供高质量的预训练,并从根本上解决训练初期由于二进制匹配不稳定而对骨干造成的损伤,从而显著提高探测器的性能。
  • 使用逐步训练,我们开发了第一个使用纯卷积结构作为编码器的实时端到端对象检测器DEYO,它在速度和准确性方面都超过了当前最先进的实时检测器,并且不需要后处理,因此其推理速度无滞后且稳定。
  • 我们进行了一系列的消融研究,以分析我们提出的方法和模型的不同组成部分的有效性。

本文方案


图2说明了我们提出的DEYO的全面架构。

  • DEYO采用YOLOv8作为其一对多分支,其中YOLOv8包括一个主干,一个特征金字塔网络(FPN和一个路径聚合网络(PAN),它们共同形成了颈部结构,此外还有一个能够在三个不同尺度上产生预测的头部。
  • DEYO的一对一分支使用了一个轻量级的纯卷积编码器和一个基于变换器的解码器。此外,我们还引入了与DINO中使用的CDN组件相同的CDN组件,以提高模型的精度。

One-to-many Branch

YOLO模型的泛化能力和实用性在计算机视觉领域得到了广泛的验证和广泛的认可。即使没有额外的数据集的帮助,YOLO在处理复杂场景,执行多目标检测和适应实时应用方面也表现出卓越的性能。

利用这些优势,我们选择YOLO作为DEYO模型的一对多分支,为DEYO提供高质量的、经过预先训练的骨干和颈部结构。该分支具有三个多尺度输出层,能够生成多达8400个候选区域。

与DETR模型所采用的一对一标签分配策略不同,YOLO在训练过程中受益于一对多标签分配策略,由于阳性样本的数量更高,因此在初始训练阶段可以对网络进行更全面的监督。 这些候选区域的任务不仅仅是分类;它们面临着更复杂的目标检测挑战。这进一步培养了一个强大的颈部结构,为解码器提供了丰富的多尺度信息,从而显着提高了模型的整体性能。

Efficient Encoder

与使用Transformer作为编码器的DETR相反,DEYO利用了YOLO’s Neck的纯卷积架构,该架构在初始阶段进行了预训练以编码多尺度特征。然后,这些编码的特征被馈送到特征投影模块中,以将它们与隐藏的维度对齐。由于颈部的强大的多尺度特征提取能力,在一开始就通过有效的预训练获得,编码器可以为解码器提供高质量的键值和建议的边界框。与DETR的随机初始化多尺度层和Transformer编码器相比,DEYO的纯卷积结构实现了显着的速度。这一进程可概述如下:

Query Generation

如图3所示,DEYO的查询生成方法与DETR的传统两阶段策略不同。具体来说,DEYO采用了一种解耦的边界框和嵌入生成方法,允许通过特征投影更有效地压缩颈部的多尺度信息。同时,DEYO继承了一个一对多的分支预先训练的边界框头部,将学习策略从密集过渡到稀疏,而不是从头开始训练。

One-to-one Branch

DEYO的一对一分支采用类似于DINO的架构,利用Transformer的自注意机制来捕获查询间关系,从而建立抑制冗余边界框的分数差异。在Transformer解码器的每一层中,查询被逐步细化,最终得到与对象一一对应的预测。这种设计大大简化了DEYO中的对象检测过程,消除了对非最大抑制(NMS)的依赖,确保了一致的推理速度。

在DEYO训练的第二阶段,我们冻结了DEYO的骨干和颈部,以从根本上规避训练初始阶段的二分匹配不稳定性,否则可能会对预训练的骨干造成不良影响。 受益于第一阶段提供的高质量初始化,DEYO实现了快速收敛和卓越的性能,即使在一对一分支中只监督几百个查询并从头开始训练。

本文实验

在表1中比较了DEYO与YOLOv 5、YOLOv 8和RT-DETR。与YOLOv8相比,DEYO在N、S和M尺度下的准确度显著提高了2.4AP/0.9AP/0.5AP,同时FPS提高了143%/110%/32% 。在尺度L和X上,DEYO继续在准确性和速度之间表现出更好的平衡。

如表3所示,DEYO在密集场景中表现出色,具有实时速度。具体来说,DEYO-X已经达到了令人印象深刻的92.3AP和43.3mMR,召回率为97.3

如图6所示,在X尺度上,与RT-DETR-X相比,DEYO表现出一些差异,RT-DETR-X利用ImageNet进行预训练。然而,这种差距可以归因于RT-DETR 并入了更有效的骨架。此外,我们认为COCO数据集上的性能并不能完全概括检测器的优点和缺点。考虑到DEYO不需要额外的训练数据,它可以利用更强大的数据增强策略,并降低训练成本。因此,DEYO在应用于自定义数据集时具有独特的优势。

推荐阅读

  • https://mp.weixin.qq.com/s/tFavH5_Sqtnq1_NMRt_AUg
  • U版YOLO-World来了,YOLOv8再度升级,三行代码上手YOLO-World!
  • YOLO-World | 赋能YOLOv8开集检测能力,构建新一代YOLO新标杆
  • YOLOv8重磅升级,新增旋转目标检测,又该学习了~
  • YOLO-NAS | YOLO新高度,引入NAS,出于YOLOv8而优于YOLOv8
  • YOLOv6 v3.0 | 重磅升级!性能超越V8!
  • DAMO-YOLO | 超越所有YOLO,魔搭社区开源至强YOLO,5行代码即可体验!
  • 南开大学提出YOLO-MS | 超越YOLOv8与RTMDet,即插即用打破性能瓶颈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1476752.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码遗产:探索祖传代码的历史、挑战与现代融合艺术

✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨ 🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua,在这里我会分享我的知识和经验。&#x…

C++惯用法之空基类优化

相关系列文章 C惯用法之Pimpl C惯用法之CRTP(奇异递归模板模式) C之std::tuple(二) : 揭秘底层实现原理 目录 1.空类 2.空基类优化 3.内存布局原则 4.实例分析 5.总结 1.空类 C 中每个对象的实例都可以通过取地址运算符获取其在内存布局中的开始位置,因此每个类…

浙江大学主办!2024年第7届信息通信与信号处理国际会议( ICICSP2024)征稿开启!

会议官网 IEEE | ICICSP 2024 学术会议查询-学术会议交流服务平台-爱科会易 (uconf.com)​www.uconf.com/

揭秘那些能说话的壁纸设计!

1、方小童在线工具集 网址: 方小童 该网站是一款在线工具集合的网站,目前包含PDF文件在线转换、随机生成美女图片、精美壁纸、电子书搜索等功能,喜欢的可以赶紧去试试!

STL常见容器(list容器)---C++

STL常见容器目录: 6.list容器6.1 list基本概念6.2 list构造函数6.3 list 赋值和交换6.4 list 大小操作6.5 list 插入和删除6.6 list 数据存取6.7 list 反转和排序6.8自定义排序案例 6.list容器 6.1 list基本概念 功能: 将数据进行链式存储; …

前端架构: 脚手架之多package项目管理和架构

多package项目管理 1 )多package项目管理概述 通常来说,当一个项目变大了以后,我们就要对这个项目进行拆分在前端当中,对于项目进行拆分的方式,通常把它称之为javascript包管理需要使用一个工具叫做 npm (Node Packag…

YOLOv8改进,添加GSConv+Slim Neck,有效提升目标检测效果,代码改进(超详细)

目录 摘要 主要想法 GSConv GSConv代码实现 slim-neck slim-neck代码实现 yaml文件 完整代码分享 总结 摘要 目标检测是计算机视觉中重要的下游任务。对于车载边缘计算平台来说,巨大的模型很难达到实时检测的要求。而且,由大量深度可分离卷积层构…

Blazor 向 ECharts 传递 option

目标 将ECharts封装为Blazor组件,然后通过jsRuntime向ECharts传递参数,即设置option。 封装ECharts 步骤: 1. 在index.html中引入echarts.min.js; 2. 创建blazor组件,将ref传递给js用于初始化echarts; …

redhat8.6环境下搭建Nextcloud私有云盘

目录 一、nextcoud简介 nextcloud功能: 获取Nextcloud: 二、安装步骤 第一步:编辑网页文件 添加域名管理信息 第二步:上传文件包 将nextcloud包移动到/nextcloud 解压: 也可以使用这个命令: 第三…

TensorFlow 使用 Rust 指南

一、概述 TensorFlow是由 Google Brain 团队开发的强大的开源机器学习框架,已成为人工智能的基石。虽然传统上与 Python 等语言相关,但 Rust(一种因其性能和安全性而受到重视的系统编程语言)的出现为 TensorFlow 爱好者开辟了新的…

信创生态丨九州未来与openEuler完成兼容互认证

近期,九州未来与openEuler开源社区完成产品兼容性互认证,并获得openEuler技术测评证书。测试结果显示,针对系统构建、兼容性、安全性、性能四个维度,九州未来自主研发的Animbus IaaS V8与openEuler 20.03 LTS SP3版本相互兼容性良…

创新之巅 健康之选 森歌集成灶智能水洗新揭秘

2024年2月27日,一场引领智能厨电风潮的盛会在杭州隆重召开。森歌集成灶以“勠力同心 共生共歌”为主题,成功举办了2024森歌智能厨电优秀经销商峰会。此次峰会上,森歌集成灶发布了令人瞩目的奥运冠军同款智能厨电新品——森歌鲸洗小灶Z60&…

3_相机模型

相机标定对于联系相机测量和真实三维世界测量也很重要。它的重要性在于场景不仅仅是三维的,也是物理单位度量的空间。因此,确定相机的自然单位(像素)与物理单位(如mm)的关系是三维场景重构的重要部分。相机标定的过程既给出相机的几何模型又给出透镜的畸…

从win11切换到ubuntu20的第1天

我不想做双系统,反正win11也没有意思,打游戏直接去网吧,所以电脑直接重装了ubuntu20,为什么不是ubuntu22?因为版本太新,很多东西不支持。为什么不装ubuntu18?因为我电脑装完了之后不支持外界显示…

springboot互联网智能导诊系统源码支持微信小程序

目录 智慧导诊系统开发原理 智慧导诊系统特点: 智能导诊功能介绍 支持通过主诉及症状进行导诊 智慧导诊系统概述 挂号引导 应用场景: 1.智慧医院 2.互联网医院 3.医疗健康平台 智慧导诊系统开发原理 导诊系统从原理上大致可分为基于规则模板和…

Presto简介、部署、原理和使用介绍

Presto简介、部署、原理和使用介绍 1. Presto简介 1-1. Presto概念 ​ Presto是由Facebook开发的一款开源的分布式SQL查询引擎,最初于2012年发布,并在2013年成为Apache项目的一部分;Presto 作为现在在企业中流行使用的即席查询框架&#x…

Outlook邮箱IMAP怎么开启?服务器怎么填?

Outlook邮箱IMAP服务器如何开启?Outlook设置IMAP的方法? Outlook邮箱作为其中的佼佼者,被广大用户所青睐。但在使用Outlook邮箱时,许多用户可能会碰到一个问题:如何开启IMAP服务?下面,蜂邮EDM就…

IOC 和 AOP

IOC 所谓的IOC(inversion of control),就是控制反转的意思。何为控制反转? 在传统的程序设计中,应用程序代码通常控制着对象的创建和管理。例如,一个对象需要依赖其他对象,那么它会直接new出来…

瑞_Redis_Redis命令

文章目录 1 Redis命令Redis数据结构Redis 的 key 的层级结构1.0 Redis通用命令1.0.1 KEYS1.0.2 DEL1.0.3 EXISTS1.0.4 EXPIRE1.0.5 TTL 1.1 String类型1.1.0 String类型的常见命令1.1.1 SET 和 GET1.1.2 MSET 和 MGET1.1.3 INCR和INCRBY和DECY1.1.4 SETNX1.1.5 SETEX 1.2 Hash类…

德人合科技 | 公司办公终端、电脑文件数据\资料防泄密管理系统,自动智能无感透明加密保护、防止外泄

德人合科技提供的公司办公终端、电脑文件数据和资料防泄密管理系统是一种高效、智能的解决方案,旨在确保企业数据的安全性和保密性。该系统采用自动智能无感透明加密保护技术,能够在用户无感知的情况下对文件进行加密,从而从源头上保障数据的…