YOLOv10: Real-Time End-to-End Object Detection

news2025/1/11 9:06:11

双重标签分配

与一对一多分配不同,一对一匹配只为每个地面真相分配一个预测,避免了NMS后处理。然而,这导致了较弱的监督,导致次优的准确性和收敛速度。幸运的是,这种缺陷可以通过一对一多分配来弥补。为此,作者为YOLO引入了双重标签分配,以结合两种策略的优点。

具体来说,如图2.(a)所示,作者在YOLO中增加了一个一对一的 Head 。它与原始一对一多分支保持相同的结构和采用相同的优化目标,但利用一对一匹配来获得标签分配。在训练过程中,两个 Head 与模型联合优化,使得主干和 Neck 能够享受到一对一多分配提供的丰富监督。

在推理过程中,作者丢弃一对一多 Head ,并利用一对一 Head 进行预测。这使得YOLO能够端到端部署,而不会产生任何额外的推理成本。此外,在一对一匹配中,作者采用顶部选择,其性能与匈牙利匹配[4]相同,但额外的训练时间更少。

一致的匹配度量

在分配过程中,一对一和多对多方法都采用一种度量来定量评估预测与实例之间的一致性水平。

以效率为导向的模型设计

b:The compact inverted block(CIB)紧凑倒置块

在深层阶段的CIB中使用大核深度卷积。作者将CIB中的第二个33深度卷积的核大小增加到77。此外,作者采用结构重参化技术带来另一个33深度卷积分支,以减轻优化问题,而无需推理开销

c:partial self-attention(PSA)部分自注意力模块

在11卷积后均匀地将特征在通道上划分为两部分。作者只将一部分输入到由多头自注意力模块(MHSA)和前馈网络(FFN)组成的块中。然后,两部分通过11卷积进行拼接和融合。

YOLO中的组件包括Stem、下采样层、带有基本构建块的阶段和 Head 。Stem产生的计算成本很少,因此作者仅对其他三个部分进行以效率为导向的模型设计。

  1. 轻量级分类 Head . 在YOLOs中,分类 Head 和回归 Head 通常共享相同的架构。然而,它们在计算开销上表现出显著的差异。例如,在YOLOv8-S中,分类 Head 的FLOPs和参数数量(5.95G/1.51M)分别是回归 Head (2.34G/0.64M)的2.5倍和2.4倍。但是,在分析了分类误差和回归误差的影响(见表6)之后,作者发现回归 Head 对YOLOs的性能承担了更多的意义。

因此,作者可以减少分类 Head 的开销,而不必担心对性能造成太大伤害。因此,作者为分类 Head 采用了简单的轻量级架构,该架构包括两个深度可分离卷积(核大小为3×3),后面跟着一个1×1卷积。

  1. 空间-通道解耦下采样. YOLOs通常使用常规的3×3标准卷积,步长为2,同时实现空间下采样(从到)和通道转换(从到)。这引入了不可忽视的计算成本和参数数量。相反,作者建议将空间缩小和通道增加操作解耦,实现更高效的下采样。

具体来说,作者首先利用点状卷积调节通道维度,然后使用深度卷积进行空间下采样。这减少了计算成本到和参数数量到。同时,它最大化了下采样期间的信息保留,以具有竞争力的性能降低延迟。

  1. 秩引导的块设计. YOLO通常为所有阶段采用相同的基本构建块,例如YOLOv8中的瓶颈块。为了彻底检查YOLO的这种同质设计,作者利用内在秩[31, 15]来分析每个阶段的冗余性。具体来说,作者计算每个阶段最后一个基本块中最后一个卷积的数值秩,这计算的是超过阈值的奇异值数量。图3(a)展示了YOLOv8的结果,表明深层阶段和大模型容易出现更多冗余。这个观察提示,为所有阶段简单地应用相同块设计并不是最佳容量效率权衡。

准确度驱动的模型设计

作者进一步探索了大核卷积和自注意力用于准确度驱动的模型设计,旨在以最小的成本提升性能。

  1. 大核卷积. 采用大核深度卷积是扩大感受野和增强模型能力的一种有效方法。然而,在所有阶段简单地利用它们可能会在用于检测小物体的浅层特征中引入污染,同时也可能在高分辨率阶段引入显著的I/O开销和延迟。因此,作者提出在深层阶段的CIB中使用大核深度卷积。具体来说,作者将CIB中的第二个33深度卷积的核大小增加到77。此外,作者采用结构重参化技术带来另一个33深度卷积分支,以减轻优化问题,而无需推理开销。此外,随着模型规模的增加,其感受野自然扩大,使用大核卷积的好处减弱。因此,作者只对小型模型规模采用大核卷积。
  2. 部分自注意力(PSA)。自注意力因其卓越的全局建模能力而被广泛应用于各种视觉任务中。然而,它表现出高计算复杂度和内存占用。为此,考虑到普遍存在的注意力头冗余,作者提出了一个高效的 partial self-attention (PSA) 模块设计,如图3(c)所示。

具体来说,作者在11卷积后均匀地将特征在通道上划分为两部分。作者只将一部分输入到由多头自注意力模块(MHSA)和前馈网络(FFN)组成的块中。然后,两部分通过11卷积进行拼接和融合。此外,作者遵循[21]将 Query 和键的维度设置为值维度的一半,并在MHSA中使用BatchNorm代替LayerNorm以便快速推理。而且,PSA只放置在具有最低分辨率的Stage 4之后,避免了自注意力二次计算复杂度过大的开销。通过这种方式,作者可以将全局表征学习能力以低计算成本融入到YOLOs中,这大大增强了模型的性能,并带来了性能的改进。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1921362.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一起来学习孟德尔随机化临床医学SCI发表吧!!!

如今,临床科研工作者面对越来越重的科研压力,以及越来越高的 SCI 文章要求,如何才能在不 进实验室、不做基础科研的前提下,利用好各种公共数据资源快速发表 SCI 论著?这是一个困绕每一 个临床科研医生的话题。真正的随…

Docker 使用基础(4)—存储卷

🎬慕斯主页:修仙—别有洞天 ♈️今日夜电波:秒針を噛む—ずっと真夜中でいいのに。 0:34━━━━━━️💟──────── 4:20 🔄 ◀️ ⏸ …

【JavaScript 算法】广度优先搜索:层层推进的搜索策略

🔥 个人主页:空白诗 文章目录 一、算法原理二、算法实现三、应用场景四、优化与扩展五、总结 广度优先搜索(Breadth-First Search, BFS)是一种用于遍历或搜索图或树数据结构的算法。该算法从起始节点开始,逐层向外扩展…

delete删除new[]创建的数组会发生什么

这是国泰君安技术面出的题 先说结论 如果是删除原始的数据类型,并不会发生什么,也不会产生内存泄露。如果是删除自定义类型,比如说类和结构体,则只能删除第一个,后面的可能会内存泄露。 一、删除原始数据类型 举个…

LeetCode 141.环形链表 C写法

LeetCode 141.环形链表 C写法 思路🧐: ​ 利用快慢指针,快指针走两步,慢指针走一步,如果没有环,快指针走完就返回false,如果有环,那么快指针一定先进环,等慢指针进环以后…

闯荡西游之路,续写经典传奇,大话西游图文架设教程

前言 这次给大家带来的是我精心准备了很久的,也是大家呼声很高的大话西游,云集西游版本,安卓苹果双端,非变态版本,包含天梯、星阵、八卦等玩法,游戏内置GM后台,快来体验一下吧~ 本文讲解大话西…

公司网站搭建源码系统 带网站的源代码包以及搭建部署教程

系统概述 随着互联网的飞速发展,网站已成为企业对外展示、交流和服务的重要窗口。然而,对于非技术背景的企业而言,自行开发网站往往面临技术门槛高、成本高、周期长等难题。因此,我们推出了这款集成了先进技术和丰富功能的网站搭…

一文详解DDL同步及其应用场景

目录 一、什么是DDL? 二、什么是DDL同步? 三、DDL同步的痛点 1、缺少自动DDL同步机制 2、缺少DDL变更监测预警 四、解决方案 五、应用场景及案例 案例一 案例二 案例三 在现代数据管理中,数据库的结构变更频繁且不可避免,特别是在…

风光摄影:相机设置和镜头选择

写在前面 博文内容为《斯科特凯尔比的风光摄影手册》读书笔记整理涉及在风景拍摄中一些相机设置,镜头选择的建议对小白来讲很实用,避免拍摄一些过曝或者过暗的风景照片理解不足小伙伴帮忙指正 😃,生活加油 99%的焦虑都来自于虚度时间和没有好…

秋招在线测评,性格和岗位是如何匹配的?

又是一年的秋招季,应届毕业生都会面临一个问题,如何将性格和岗位相互匹配,以找到最合适的自己的岗位呢? 事实上绝大部分人并没有找准最适合的岗位..... 对于应届毕业生来说,通常都是想着先拿下offer,至于是…

frameworks 之Zygote

frameworks 之Zygote Zygote.rc 解析Zygote 启动ZygoteInit.javaZygote.cppLiunx fork Zygote 中文意思为受精卵。 和其意思一样,该功能负责android系统孵化service 和 app 进程。 本文讲解Zygote的大概流程。涉及的相同的类,如下所示 system/core/rootd…

centos9+mysql8.0下mycat1.6部署

#创作灵感# 整理一下mysql代理技术,这个当时是和mysql集群部署一个项目的,一并整理出来供参考。 1、环境准备 此处使用的为M-M-SS双主双从结构集群,集群部署方法放在我的上一篇文章中 防火墙可以使用firewall-cmd放行,演示环境…

Nature Communications|柔性高密度、高灵敏应变传感器阵列(柔性应变传感/界面调控/电子皮肤/柔性电子)

复旦大学武利民( Limin Wu)和李卓( Zhuo Li)团队,在《Nature Communications》上发布了一篇题为“High-density, highly sensitive sensor array of spiky carbon nanospheres for strain field mapping”的论文。论文内容如下: 一、 摘要 在工程应用中,准确地映射应变…

SQL 删除emp_no重复的记录,只保留最小的id对应的记录。

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 描述 删除emp_no重…

CDGA|数据治理:标准化处理与确保数据可溯源性

在当今信息爆炸的时代,数据已成为企业决策、科学研究和政府管理的核心要素。然而,随着数据量的不断增加和来源的多样化,数据治理成为了一个亟待解决的问题。特别是在处理复杂数据时,标准化处理和确保数据的可溯源性显得尤为重要。…

etcd 实现分布式锁

10 基于 Etcd 的分布式锁实现原理及方案

Python算法分析学习目标及能力验证

1、突破编程的关键点 不破不立,如何破?如何立? 人生苦短,我用python 目标:不在于多,而在于准; 验证:必须量化,否则都是虚夸。 那么目标怎么准确可量化呢? …

容联云发布容犀大模型应用,重塑企业“营销服”|WAIC 2024

7月6日,在2024世界人工智能大会上,容联云成功举办主题为“数智聚合 产业向上”的生成式应用与大模型商业化实践论坛。 论坛上,容联云发布了容犀智能大模型应用升级,该系列应用包括容犀Agent Copilot、容犀Knowledge Copilot、容犀…

动态规划的一种常见技巧

动态规划是运筹学的一个分支,是求解决策过程最优化的过程。 动态规划并不是一种算法,而是一种思想,或者说策略 动态规划的思想就是将大问题分解成一个一个的小问题,聚焦到每个小问题并逐个击破,小问题解决了就没有大问…

数据融合工具(7)文本属性值规范化处理

一、需求背景 数据检查方案中,对文本属性值的检查一般包括以下内容: 检查属性值中不能含有不合理的标点符号(“,”、“?”、空格、换行符等); 确认全部属性字段是否为半角; 名称简…