YOLOv10:实时端到端目标检测的新突破

news2024/10/6 16:19:55

目标检测作为计算机视觉领域的一个核心问题,其关键在于能够在图像中准确识别并定位对象。随着深度学习技术的发展,基于深度神经网络的目标检测方法不断涌现,其中YOLO(You Only Look Once)系列算法以其优异的实时性和准确性,成为实时目标检测领域的主流选择。最近,清华大学的研究团队推出了YOLO系列的最新力作——YOLOv10,本文将对这篇论文进行详细解读,并探讨YOLOv10在实时目标检测领域的新突破。

YOLOv10简介

YOLOv10是YOLO系列的最新一代算法,它继承了YOLO家族在实时目标检测上的优势,同时在模型架构和后处理上进行了创新性改进,进一步提升了检测性能和效率。YOLOv10的核心贡献可以概括为以下几点:

  1. 无NMS(Non-Maximum Suppression)训练:YOLOv10提出了一种新的一致性双重赋值策略(Consistent Dual Assignments),使得模型在训练时能够获得丰富的监督信号,在推理时则无需NMS即可实现高效的端到端检测。

  2. 全面优化的模型架构:研究者们从效率和准确性两个角度出发,全面优化了YOLO的各个组件,包括轻量级分类头、空间-通道解耦下采样、基于秩引导的模块设计等。

  3. 大核心卷积和部分自注意力模块:YOLOv10引入了大核心卷积来扩大感受野,并提出了部分自注意力模块(PSA),以较低的计算成本增强模型性能。

YOLOv10的主要贡献

一致性双重赋值策略

在传统的目标检测模型中,NMS是一个必要的后处理步骤,用于从多个候选框中选择最佳的检测结果。然而,NMS不仅增加了推理时间,还使得模型无法实现端到端的训练。YOLOv10通过一致性双重赋值策略解决了这一问题,该策略在训练时采用一对多的赋值方式提供丰富的监督信号,在推理时则切换到一对一的赋值方式,无需NMS即可快速得到检测结果。

在训练期间,YOLO 通常利用 TAL 为每个实例分配多个正样本。一对多的分配方式产生了丰富的监督信号,促进了优化并使模型实现了卓越的性能。然而,这需要 YOLO 依赖于 NMS 后处理,这导致了部署时次优的推理效率。虽然之前的研究工作探索了一对一匹配来抑制冗余预测,但它们通常引入了额外的推理开销。与一对多分配不同,一对一匹配对每个 ground truth 仅分配一个预测,避免 NMS 后处理。然而,这会导致弱监督,以至于准确率和收敛速度不理想。幸运的是,这种缺陷可以通过一对多分配来弥补。

该研究提出的「双标签分配」结合了上述两种策略的优点。如上图所示,该研究为 YOLO 引入了另一个一对一 head。它保留了与原始一对多分支相同的结构并采用相同的优化目标,但利用一对一匹配来获取标签分配。在训练过程中,两个 head 联合优化,以提供丰富的监督;在推理过程中,YOLOv10 会丢弃一对多 head 并利用一对一 head 做出预测。这使得 YOLO 能够进行端到端部署,而不会产生任何额外的推理成本。

全面优化的模型架构

除了后处理之外,YOLO 的模型架构也对效率 - 准确率权衡提出了巨大挑战。尽管之前的研究工作探索了各种设计策略,但仍然缺乏对 YOLO 中各种组件的全面检查。因此,模型架构表现出不可忽视的计算冗余和能力受限。

YOLOv10对模型架构进行了全面优化,包括:

  • 轻量级分类头:简化分类头的网络结构,减少计算量而不影响检测性能。
  • 空间-通道解耦下采样:将空间下采样和通道变换操作分离,降低计算复杂度。
  • 基于秩引导的模块设计:根据模型不同阶段的冗余程度,动态调整网络模块,提高计算效率。

大核心卷积和部分自注意力模块

YOLOv10引入了大核心卷积来扩大模型的感受野,增强对小目标的检测能力。同时,通过部分自注意力模块(PSA),YOLOv10在保持计算效率的同时,引入了Transformer模型的全局建模能力,进一步提升检测精度。

采用大核深度卷积是扩大感受野和增强模型能力的有效方法。然而,简单地在所有阶段利用它们可能会在用于检测小物体的浅层特征中引入污染,同时在高分辨率阶段也会带来大量的I/O开销和延迟。因此,建议在深阶段利用CIB中的大核深度卷积。具体来说,本文将CIB中第二个3×3深度卷积的核大小增加到7×7。此外,本文采用结构重参数化技术引入另一个3×3深度卷积分支,以缓解优化问题,而无需推理开销。此外,随着模型大小的增加,其感受野自然扩大,使用大核卷积的好处会减少。因此,对于小模型尺度,我们只采用大核卷积。

YOLOv10的实验结果

研究团队在COCO数据集上对YOLOv10进行了广泛的实验验证。实验结果表明,YOLOv10在不同模型规模下均取得了优异的检测性能,与当前最先进的目标检测模型相比,在保持相似精度的同时,显著降低了推理延迟。

结论

YOLOv10作为YOLO系列的最新成员,通过创新性的一致性双重赋值策略和全面优化的模型架构,实现了实时目标检测领域的新突破。它不仅在学术上具有重要意义,也为自动驾驶、机器人导航、视频监控等实际应用提供了强大的技术支持。随着YOLOv10的开源,我们期待它在未来能够在更多的应用场景中发挥重要作用。

相关参考:

论文地址:https://arxiv.org/abs/2405.14458

Github地址:https://github.com/THU-MIG/yolov10

其他:https://zhuanlan.zhihu.com/p/700329479

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1798400.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

共筑安全防线 展望数字未来︱智汇云舟亮相广西网络安全与信息化高峰论坛

“没有网络安全,就没有国家安全”。自网络安全法颁布以来,国家及地方各级政府、企事业单位和社会各界高度重视并积极参与其中,信息系统的建设离不开网络安全体系的保障支撑,尤其在以数字孪生技术实现的综合业务管理平台设计中&…

GAT1399协议分析(10)--视频定义及解析

一、官方定义 二、字段解析 VideoID 类型BasicObjectID 解析参考GAT1399协议分析(8)--ImageInfo字段详解-CSDN博客 InfoKind 采集类型

工具:Linux如何挂载NTFS移动硬盘

从windows平台迁移数据至Linux平台,有时候会用到NTFS文件系统的硬盘,但Linux的file system一般又无法直接兼容NTFS系统。这个就需要用到ntfs-3g插件。 NTFS-3G是一个开源项目, NTFS-3G是为Linux, Android, Mac OS X, FreeBSD, NetBSD, OpenSo…

据阿谱尔调研显示,中国浮法玻璃产量大约占全球总产量的1/3以上

浮法玻璃是一种通过浸入熔融金属表面形成的玻璃板,其制造过程被称为浮法工艺。这一工艺的核心在于将熔化后的玻璃液顺利浮在低熔点的金属(通常是锡)表面上,使得玻璃板具有均匀的厚度和平整的表面。其化学成分主要由二氧化硅、氧化…

信创国产化 | 聚铭网络携手银河麒麟完成产品兼容性互认证

在我国信创国产化战略深入推进的大背景下,聚铭网络与麒麟软件积极响应国家号召,共同致力于软件和操作系统的国产化发展。近日,双方宣布已完成产品兼容性互认证工作,这一成果标志着两家公司在信创国产化道路上迈出了坚实的一步。 …

智能引领医疗新纪元:RFID技术在医疗器械管理中的高端应用

智能引领医疗新纪元:RFID技术在医疗器械管理中的高端应用 随着医疗技术的快速发展,医疗器械在医疗行业中扮演着至关重要的角色。然而,如何有效地管理这些医疗器械,确保其安全、准确、及时地服务于患者,一直是医疗机构…

DSP问题:TMS320F280049延时和实际不符

1、问题现象 我之前写的一篇点灯文章,发现LED等闪烁频率和设想不一致,延时100ms,实际延时要更长。 2、问题原因 电路中使用的晶振是10MHz,实际代码中配置的是20MHz的晶振。 3、解决方案 修改代码中的晶振配置为10MHz即可。…

俯视角2D游戏_02 子弹对象池

[!NOTE] 对象池 应用场合:这种做法常用于子弹这种会大量产生的对象 ,目的是减少性能的损耗 基本思路:产生的对象是有限的,并且加入到"对象池"的数组中不进行销毁,当需要使用时,再从对象池中提取对象循环利用&#xff0c…

1961. 检查字符串是否为数组前缀 - 力扣

1. 题目 给你一个字符串 s 和一个字符串数组 words ,请你判断 s 是否为 words 的 前缀字符串 。 字符串 s 要成为 words 的 前缀字符串 ,需要满足:s 可以由 words 中的前 k(k 为 正数 )个字符串按顺序相连得到&#xf…

Lab_ Exploiting a mass assignment vulnerability_实验室:利用大规模分配漏洞

使用 wiener:peter 登录 点击轻量级“l33t”皮夹克产品并将其添加到购物篮中。 去到购物车,点击下单,提示Not enough store credit for this purchase(没有足够的商店信用用于此次购买) 在Burp的HTTP历史记录中发现了API的请求…

Vivado 比特流编译时间获取以及FPGA电压温度获取(实用)

Vivado 比特流编译时间获取以及FPGA电压温度获取 语言 :Verilg HDL 、VHDL EDA工具:ISE、Vivado Vivado 比特流编译时间获取以及FPGA电压温度获取一、引言二、 获取FPGA 当前程序的编译时间verilog中直接调用下面源语2. FPGA电压温度获取(1&a…

解决CentOS 7无法识别ntfs的问题

解决CentOS 7无法识别ntfs的问题 方式一: Centos默认不支持ntfs文件格式,直接在Centos7上插U盘或移动硬盘无法识别,安装 ntfs-3g即可: # yum install epel-release -y # yum install ntfs-3g -y[rootbogon ~]# rpm -qa | grep nt…

外贸干货|如何提高商机转化率?

常常听到外贸业务员抱怨“询盘质量不高”、“有询盘没转化”、“有些客户只是来比价格的”……想必大家都不陌生! 但难道只有询盘问题、客户问题吗?我们自身的处理真的没问题吗?我想只有更多的自省自查我们可以控制的问题,优化我们…

尚云SunClouds打造以云算力为核心的混合云平台!

在数字经济迅猛发展的今天,算力已跃升为新基础能源,人工智能成为引领产业革新的核心工具。5月24日,尚云依托尚航科技全国智算中心的资源网络,打造了以云算力为核心的新一代混合云平台,尚云SunClouds品牌焕新上线&#…

React -- memo允许你的组件在 props 没有改变的情况下跳过重新渲染。

memo(Component, arePropsEqual?) 使用 memo 将组件包装起来,以获得该组件的一个 记忆化 版本。通常情况下,只要该组件的 props 没有改变,这个记忆化版本就不会在其父组件重新渲染时重新渲染。但 React 仍可能会重新渲染它:记忆化…

OpenAI新研究破解GPT-4大脑,分解1600万个特征打开“黑匣子”,Ilya 、Jan Leike也参与了!

6月7日凌晨,OpenAI在官网发布了一个新的研究成果,首次破解GPT-4的神经网络活动。通过改进大规模训练稀疏自动编码器将GPT-4的内部表示分解为 1600 万个特征。而且,前段时间离职的Ilya Sutskever、Jan Leike也是作者之一! 这不是破…

计算机专业本科就业还是考研?考研有哪些热门方向?

考研并不是一个逃避就业的避难所,也不是一个简单的提升待遇的手段。考研是提升自我的途径,特别是对于那些对特定技术领域有浓厚兴趣并愿意深入研究的人来说 一个本科生能够认真学三年,那么他们所掌握的技能和知识不应该逊色于那些通过短期培…

Faiss框架使用与FaissRetriever实现

Faiss是一个由Facebook AI Research开发的库,用于高效相似性搜索和稠密向量聚类。它为机器学习和深度学习中的向量检索问题提供了一种高效的解决方案,特别是在处理大规模数据集时。Faiss支持多种索引类型,包括基于量化的索引、基于聚类的索引…

Apache Doris 基础 -- 数据表设计(模式更改)

用户可以通过schema Change操作修改现有表的模式。表的模式主要包括对列的修改和对索引的修改。这里我们主要介绍与列相关的Scheme更改。对于与索引相关的更改,可以查看数据表设计/表索引,查看每个索引的更改方法。 1、术语 基本表(Base Ta…

命运2联机出错、无法组队?命运2频繁卡顿、延迟高的解决方法

命运2是一款由Bungie制作的第一人称射击游戏,昨日玩家们期待的最新DLC在全球发布,steam同时在线人数几乎打破历史记录达到314K,但是有不少玩家遇到联机失败、无法联机、匹配不了的情况,不知道怎么解决,下面提供几种解决…