YOLOv7:面向实时检测的目标检测器 | 附结构图

news2025/1/10 16:22:49

在这里插入图片描述

YOLOv7 在 5 FPS 到 160 FPS 范围内的速度和准确度都超过了所有已知的目标检测器,并且在 GPU V100 上 30 FPS 或更高的所有已知实时目标检测器中具有最高的准确度 56.8% AP。 YOLOv7-E6 目标检测器(56 FPS V100,55.9% AP)比基于Transformer的检测器 SWIN-L Cascade-Mask R-CNN(9.2 FPS A100,53.9% AP)的速度和准确度分别高出 509% 和 2%,并且比基于卷积的检测器 ConvNeXt-XL Cascade-Mask R-CNN (8.6 FPS A100, 55.2% AP) 速度提高 551%,准确率提高 0.7%,以及 YOLOv7 的表现还优于:YOLORYOLOXScaled-YOLOv4YOLOv5DETRDeformable DETRDINO-5scale-R50ViT-Adapter-B 和许多其他速度和准确度的目标检测器。 此外,只我们只在 MS COCO 数据集上从零开始训练 YOLOv7,而不使用任何其他数据集或预训练的权重。

在这里插入图片描述


模型设计

1.1 扩展的高效层聚合网络

在大多数关于设计高效架构的文献中,主要考虑因素不超过参数的数量、计算量和计算密度。 Ma 等人还从内存访问成本的特点出发,分析了输入/输出通道比架构的分支数量以及 element-wise 操作对网络推理速度的影响。Doll 等人在执行模型缩放时还考虑了激活,即更多地考虑卷积层输出张量中的元素数量。

在这里插入图片描述

  • 图 2(b)中 CSPVoVNet 的设计是 VoVNet 的一种变体。 CSPVoVNet 的架构除了考虑上述基本设计问题外,还分析了梯度路径,以使不同层的权重能够学习到更多样化的特征。上述梯度分析方法使推理更快、更准确。

  • 图 2(c) 中的 ELAN 考虑了以下设计策略——“如何设计一个高效的网络?”。他们得出了一个结论:通过控制最短最长的梯度路径,更深的网络可以有效地学习和收敛。

在本文中,作者提出了基于 ELANExtended-ELAN (E-ELAN),其主要架构如图 2(d)所示。

无论梯度路径长度和大规模 ELAN 中计算块的堆叠数量如何,它都达到了稳定状态。如果无限堆叠更多的计算块,可能会破坏这种稳定状态,参数利用率会降低。作者提出的E-ELAN使用expandshufflemerge cardinality来实现在不破坏原有梯度路径的情况下不断增强网络学习能力的能力。

在架构方面,E-ELAN 只改变了计算块的架构,而过渡层的架构完全没有改变。策略是使用组卷积来扩展计算块的通道和基数。将对计算层的所有计算块应用相同的组参数和通道乘数。然后,每个计算块计算出的特征图会根据设置的组参数g被打乱成g个组,然后将它们连接在一起。此时,每组特征图的通道数将与原始架构中的通道数相同。最后,添加g组特征图来执行合并基数。 E-ELAN除了保持原有的ELAN设计架构外,还可以引导不同组的计算块学习更多样化的特征。

1.2 基于concatenate模型的模型缩放

模型缩放的主要目的是调整模型的一些属性,生成不同尺度的模型,以满足不同推理速度的需求。例如,EfficientNet的缩放模型考虑了宽度、深度和分辨率。对于Scale-yolov4,其缩放模型是调整阶段数。Doll 等人分析了卷积和群卷积对参数量和计算量的影响,并据此设计了相应的模型缩放方法。

在这里插入图片描述

上述方法主要用于诸如PlainNetResNet等架构中。当这些架构在执行放大或缩小过程时,每一层的in-degreeout-degree都不会发生变化,因此可以独立分析每个缩放因子对参数量和计算量的影响。然而,如果这些方法应用于基于concatenate的架构时会发现当扩大或缩小执行深度,基于concatenate的转换层计算块将减少或增加,如图3(a)和(b)所示

从上述现象可以推断,对于基于concatenate的模型不能单独分析不同的缩放因子,而必须一起考虑。 以scaling-up depth为例,这样的动作会导致transition layer的输入通道和输出通道的比例发生变化,这可能会导致模型的硬件使用率下降。

因此,必须为基于concatenate的模型提出相应的复合模型缩放方法。 当缩放一个计算块的深度因子时,还必须计算该块的输出通道的变化。 然后,将对过渡层进行等量变化的宽度因子缩放,结果如图3(c)所示。 本文提出的复合缩放方法可以保持模型在初始设计时的特性并保持最佳结构。

训练方法

2.1 Planned re-parameterized convolution

尽管RepConvVGG基础上取得了优异的性能,但当将它直接应用于ResNetDenseNet和其他架构时,它的精度将显著降低。作者使用梯度流传播路径来分析重参数化的卷积应该如何与不同的网络相结合。作者还相应地设计了计划中的重参数化的卷积。

RepConv实际上结合了3×3卷积,1×1卷积,和在一个卷积层中的id连接。通过分析RepConv与不同架构的组合及其性能,作者发现RepConv中的id连接破坏了ResNet中的残差和DenseNet中的连接,为不同的特征图提供了更多的梯度多样性。

在这里插入图片描述

基于上述原因,作者使用没有id连接的RepConv(RepConvN)来设计计划中的重参数化卷积的体系结构。在作者的思维中,当具有残差或连接的卷积层被重新参数化的卷积所取代时,不应该存在id连接。图4显示了在PlainNetResNet中使用的“Planned re-parameterized convolution”的一个示例。对于基于残差的模型和基于concatenate的模型中Planned re-parameterized convolution实验,它将在消融研究环节中提出。

2.2 标签匹配

深度监督是一种常用于训练深度网络的技术。其主要概念是在网络的中间层增加额外的auxiliary Head,以及以auxiliary损失为导向的浅层网络权值。即使对于像ResNetDenseNet这样通常收敛得很好的体系结构,深度监督仍然可以显著提高模型在许多任务上的性能。图5(a)和(b)分别显示了“没有”和“有”深度监督的目标检测器架构。在本文中,将负责最终输出的Headlead Head,将用于辅助训练的Head称为auxiliary Head

过去,在深度网络的训练中,标签分配通常直接指GT,并根据给定的规则生成硬标签。然而,近年来,如果以目标检测为例,研究者经常利用网络预测输出的质量和分布,然后结合GT考虑,使用一些计算和优化方法来生成可靠的软标签。例如,YOLO使用边界框回归预测和GT的IoU作为客观性的软标签。在本文中,将网络预测结果与GT一起考虑,然后将软标签分配为“label assigner”的机制。

在这里插入图片描述

无论auxiliary Head或lead Head的情况如何,都需要对目标目标进行深度监督培训。在软标签分配人相关技术的开发过程中,偶然发现了一个新的衍生问题,即“如何将软标签分配给 auxiliary headlead head?”据我们所知,相关文献迄今尚未对这一问题进行探讨。目前最常用的方法的结果如图5©所示,即将 auxiliary headlead head分开,然后使用它们自己的预测结果和GT来执行标签分配。本文提出的方法是一种新的标签分配方法,通过lead head预测来引导 auxiliary headlead head。换句话说,使用lead head预测作为指导,生成从粗到细的层次标签,分别用于 auxiliary headlead head的学习。所提出的2种深度监督标签分配策略分别如图5(d)和(e)所示。

1、Lead head guided label assigner

lead head引导标签分配器主要根据lead head的预测结果和GT进行计算,并通过优化过程生成软标签。这组软标签将作为 auxiliary headlead head的目标训练模型。这样做的原因是lead head具有相对较强的学习能力,因此由此产生的软标签应该更能代表源数据与目标之间的分布和相关性。此外,还可以将这种学习看作是一种generalized residual learning。通过让较浅的auxiliary head直接学习lead head已经学习到的信息,lead head将更能专注于学习尚未学习到的残余信息。

2、Coarse-to-fine lead head guided label assigner

从粗到细的lead head引导标签分配器也使用lead head的预测结果和GT来生成软标签。然而,在这个过程中,生成了两组不同的软标签,即粗标签和细标签,其中细标签与lead head引导标签分配器生成的软标签相同,而粗标签是通过允许更多的网格来生成的。通过放宽正样本分配过程的约束,将其视为正目标。原因是auxiliary head的学习能力不如前lead head强,为了避免丢失需要学习的信息,将重点优化auxiliary head的召回率。

至于lead head的输出,可以从高recall结果中过滤出高精度结果作为最终输出。但是,必须注意,如果粗标签的附加权重接近细标签的附加权重,则可能会在最终预测时产生不良先验。因此,为了使那些超粗的正网格影响更小,在解码器中设置了限制,使超粗的正网格不能完美地产生软标签。上述机制允许在学习过程中动态调整细标签和粗标签的重要性,使细标签的可优化上界始终高于粗标签。

2.3 其他Tricks

这些免费的训练细节将在附录中详细说明,包括:
(1) conv-bn-activation topology中的Batch normalization:这部分主要将batch normalization layer直接连接到卷积层。 这样做的目的是在推理阶段将批归一化的均值和方差整合到卷积层的偏差和权重中。

(2) 隐性知识在YOLOR中结合卷积特征图的加法和乘法方式:YOLOR中的隐式知识可以在推理阶段通过预计算简化为向量。 该向量可以与前一个或后一个卷积层的偏差和权重相结合。

(3) EMA 模型:EMA 是一种在 mean teacher 中使用的技术,在系统中使用 EMA 模型纯粹作为最终的推理模型。

实验

3.1 Baseline对比

在这里插入图片描述

3.2 精度对比

在这里插入图片描述

3.3 速度精度对比

在这里插入图片描述

3.4 与其他实时目标检测器的比较

在这里插入图片描述

在这里插入图片描述


请添加图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/157199.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

小孩护眼灯什么牌子的好?分享四款最好的台灯品牌

最近发现,在接送我家神兽上下学时,小朋友们会揉眼睛,眼睛始终没睁开的感觉,还有不少小学就戴上了眼镜,我深知戴眼镜,真的很麻烦,所以更加看重孩子的护眼工作。市面上越来越多护眼灯,…

Java高手速成 | 实现人物拼图游戏

拼图游戏指将一幅图片分割成若干拼块,并随机打乱顺序,当将所有拼块都放回原位置时就完成了拼图(游戏结束)。 01、游戏介绍 在游戏中,拼块以随机顺序排列,网格上有一个位置是空的。完成拼图的方法是利用这个空位置移动拼块&#xf…

服务搭建常见问题

怎么将myeclipse项目部署到tomcat服务器 https://www.laike.net/article-162-238315-0.html eclipse提示错误:save could not be completed Dynamic Web Module 4.0 requires Java 1.8 or newer. https://blog.csdn.net/xixihaha_coder/article/details/118345378 …

微星 MPG B460I GAMING EDGE WIFI +i5-10400电脑 Hackintosh 黑苹果efi引导文件

硬件型号驱动情况主板微星 MPG B460I GAMING EDGE WIFI (MS-7C86)(LPC Controller B460芯片组)处理器英特尔 Core i5-10400 2.90GHz 六核已驱动内存16 GB ( 芝奇 DDR4 2666MHz 8GB x 2 )已驱动硬盘朗科科技 NVMe SSD 480GB (480 GB / 固态硬盘)已驱动显…

React学习笔记:实用又好用的Hooks函数

React框架以前是采用Class类编程,在类编程中使用生命周期比较方便,但是随着迭代更新,官方开始推荐使用函数式编程,但是函数式编程就没有状态这一个概念,于是乎官方就定义了一系列钩子函数来弥补在这一缺陷,…

Rabbitmq(七) -- rabbitmq的工作模式

1. 简单模式:无需交换机 消息产生消息,将消息放入队列消息的消费者(consumer) 监听 消息队列,如果队列中有消息,就消费掉,消息被拿走后,自动从队列中删除(隐患 消息可能没有被消费者正确处理,已经从队列中消失了,造成消息的丢失,这里可以设置…

VTK-数据集vtkUnstructuredGrid

前言:本博文主要介绍vtkUnstructuredGrid的特点、结构组成,vtkUnstructuredGrid的创建方法,及其vtkUnstructuredGrid相关的接口及示例。 特点 非结构化网格数据,是最常见的数据集类型,它的拓扑结构和几何结构都是非结…

Pycharm调试功能介绍

文章目录pycharm中的debug模式debug的断点调试pycharm中的debug模式 在pycharm中,一共有4中方法开启debug调试,如下: 点击导航栏的run >> debug 双击打开py文件 >> 右上角点击小虫子图标。 写好if name ‘main’: >> 点…

React 类组件你不知道的细节+案例

React基础-组件-类组件 1.组件概述 目标:了解React组件的作用和创建组件的方式 什么是组件组件的设计思想 1.what is 组件啊? 在前端开发中组件就是用户界面当中一块独立的区域,在组件内部会包含这块区域中的视图代码,样式代码以及逻辑代码 React是采用…

Cadence PCB仿真使用Allegro PCB SI配置差分对的方法图文教程

⏪《上一篇》   🏡《总目录》   ⏩《下一篇》 目录 1,概述2,配置方法3,总结1,概述 本文简单介绍使用Allegro PCB SI配置差分对的方法。 2,配置方法 第1步:打开待仿真的PCB文件,并确认软件为Allegro PCB SI 如果,打开软件不是Allegro PCB SI则可这样切换 执行Fil…

天下苦“个人公众号认证”久矣,吾闻今可

大家好,我是小悟 一看到个人公众号可以认证,便以迅雷不及掩耳之势准备资料,一顿操作猛如虎后,我的号终于认证啦。 看到别人的个人公众号有认证的,这两天我就在想要怎么才能认证,于是就去搜索相关的内容&am…

电子采购系统的优势是什么 常用的电子采购系统介绍

采购是企业发展中的重要环节之一。在企业采购流程中,并不是简单的完成买和卖就行了,这其中还会涉及到各个方面。例如,在企业采购活动中,常常会遇到供应商数据维护难,采购成本把控难,供应商筛选难等问题。而…

面对集中式缓存实现上的挑战,Redis交出的是何种答卷?聊聊Redis在分布式方面的能力设计

大家好,又见面了。 本文是笔者作为掘金技术社区签约作者的身份输出的缓存专栏系列内容,将会通过系列专题,讲清楚缓存的方方面面。如果感兴趣,欢迎关注以获取后续更新。 在本专栏前面的文章中,我们介绍了各种本地缓存框…

数据结构与算法1—线性表

1. 线性表的定义 线性表L是n(n≥0)个具有相同属性的数据元素a1,a2,a3,…,an组成的有限序列,其中序列中元素的个数n称为线性表的长度。当n0时称为空表,即不含有任何元素。常常将非空…

express接口

文章目录什么是接口创建 API 路由模块编写 GET 接口编写 POST 接口完整代码CORS 跨域资源共享使用 CORS 中间件解决跨域问题实现 JSONP 接口什么是接口 API (Application Programming Interface,应用程序编程接口 ) 是一些预先定义的函数,目的是提供应用…

TCP/IP 网络模型有哪几层

备注:本文参考小林coding相关内容,侵权请联系作者删除 1.应用层 最上层的,也是我们能直接接触到的就是应用层(Application Layer),我们电脑或手机使用的应用软件都是在应用层实现。那么,当两个…

高并发系统设计 -- 登录系统设计

同源策略 同源策略是一种安全策略。是游览器最核心最基本的安全功能。防止XSS,CSFR等攻击具体表现是游览器在执行脚本之前,会判断脚本是否与打开的网页是同源的,也就是协议,域名,端口是否都相同,相同就是同…

记录--前端性能监控初步实战

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前言 在当下前后端分离的主流环境下,前端部分的优化变得越来越重要。为了提升前端的性能和用户体验,我觉得可能需要从三个维度采集数据进行分析。 前端埋点。通过埋点收集和统计…

SCRM与CRM的区别

当私域流量的概念兴起时,企业直接触达用户的场景也越来越丰富,SCRM形式的私域运营已然成为很多企业数字化转型布局的关键阵地。 前言 当私域流量的概念兴起时,企业直接触达用户的场景也越来越丰富,SCRM形式的私域运营已然成为很多…

服务器部署所有前后端分离项目

1、Linux服务器安装好jdk、mysql、redis、node 2、拉取最新代码 gitee仓库项目地址:https://gitee.com/y_project/RuoYi-Vue 拉取代码到本地 3、修改后端配置 3.1、修改系统内上传文件位置的配置: 默认是windows系统的配置,将此配置修改…