目标检测算法——YOLOV7——详解

news2024/10/7 6:45:11

1、主要贡献

    主要是现有的一些trick的集合以及模块重参化和动态标签分配策略,最终在 5 FPS 到 160 FPS 范围内的速度和准确度都超过了所有已知的目标检测器。

    当前目标检测主要的优化方向:更快更强的网络架构;更有效的特征集成方法;更准确的检测方法;更精确的损失函数;更有效的标签分配方法;更有效的训练方法。

2、主要思路

    按照论文,目前模型精度和推理性能比较均衡的是yolov7 模型(对应的开源git版本为0.1版)。根据源码+导出的onnx文件+“张大刀”等的网络图(修改了其中目前我认为的一些bug,增加一些细节)。重新绘制了yoloV7 0.1版本的非常详尽网络结构。注意:

    1)其中的特征图结果维度注释是按照箭头的流方向,不是固定的上下方向。

    2)输入输出仅仅是指当前模块的输入输出,整体需要根据流方向累乘计算最终的结果。

    3)该模型版本没有辅助训练头。

    整体上和YOLOV5是相似的,主要是网络结构的内部组件的更换(涉及一些新的sota的设计思想)、辅助训练头、标签分配思想等。整体预处理、loss等可参考yolov5: 目标检测算法——YOLOV5_TigerZ*的博客-CSDN博客_目标检测yolov5

    

3、具体细节

    1)input

    整体复用YOLOV5的预处理方式和相关源码,唯一需要注意的是,官方主要是在640*640和1280*1280这样的相对较大的图片上进行的训练和测试。

    具体参考我的另一篇YOLOV5博客中的 “具体细节” -> ‘input’ 章节即可。目标检测算法——YOLOV5_TigerZ*的博客-CSDN博客_目标检测yolov5

    2)backbone

    主要是使用ELAN(该版本模型并没有使用论文里提到的最复杂的E-ELAN结构) 和 MP 结构。该版本模型的激活函数使用的是Silu。

    详细可以参考源码的 cfg/training/yolov7.yaml 文件 + models/yolo.py 文件 + 使用 export.py 导出onnx 结构使用 netron等软件来梳理。

    a.ELAN结构

    通过控制最短最长的梯度路径,更深的网络可以有效地学习和收敛。作者提出ELAN结构。基于ELAN设计的E-ELAN 用expand、shuffle、merge cardinality来实现在不破坏原有梯度路径的情况下不断增强网络学习能力的能力。(PS:该版本模型以及E6E网友反馈均未实现E-ELAN),论文中相关的图如下,其中的cross stage connection 其实就是1*1卷积:

    简化如下:

    

    

b.MP 结构

    个人认为这是一个相对鸡贼的结构,之前下采样我们通常最开始使用maxpooling,之后大家又都选用stride = 2的3*3卷积。这里作者充分发挥:“小孩子才做选择,大人都要”的原则,同时使用了max pooling 和 stride=2的conv。  需要注意backbone中的MP前后通道数是不变的。

    

3)neck & head

    检测头整体结构和YOLOV5类似,仍然是anchor based 结构,仍然没有使用YOLOX 和YOLOV6 的解耦头(分类和检测)思路,这一点目前不太理解,后续有精力可以魔改一下。主要是使用了:

    *SPPCSPC结构

    *ELAN-W(我自己命名非官方名字,因为基本上和ELAN类似,但是又不是论文中的E-ELAN)

    *MP 结构(和backbone参数不同)

    *比较流行的重参数化结构Rep结构

    以上参见本篇博客中的“主要思路”中的整体图,里面就有可视化的这些部件,可以非常直观的理解这些结构。详细可以参考源码的 cfg/training/yolov7.yaml 文件 + models/yolo.py 文件 + 使用 export.py 导出onnx 结构使用 netron等软件来梳理。

4)loss function

    主要分带和不带辅助训练头两种,对应的训练脚本是train.py 和 train_aux.py。

    不带辅助训练头(分损失函数和匹配策略两部分讨论)。

    损失函数

    整体和YOLOV5 保持一致,分为坐标损失、目标置信度损失(GT就是训练阶段的普通iou)和分类损失三部分。其中目标置信度损失和分类损失采用BCEWithLogitsLoss(带log的二值交叉熵损失),坐标损失采用CIoU损失。详细参见utils/loss.py 里面的 ComputeLossOTA 函数 配合 配置文件里的各部分的权重设置。

    匹配策略

    主要是参考了YOLOV5 和YOLOV6使用的当下比较火的simOTA.

    S1.训练前,会基于训练集中gt框,通过k-means聚类算法,先验获得9个从小到大排列的anchor框。(可选)

    S2.将每个gt与9个anchor匹配:Yolov5为分别计算它与9种anchor的宽与宽的比值(较大的宽除以较小的宽,比值大于1,下面的高同样操作)、高与高的比值,在宽比值、高比值这2个比值中,取最大的一个比值,若这个比值小于设定的比值阈值,这个anchor的预测框就被称为正样本。一个gt可能与几个anchor均能匹配上(此时最大9个)。所以一个gt可能在不同的网络层上做预测训练,大大增加了正样本的数量,当然也会出现gt与所有anchor都匹配不上的情况,这样gt就会被当成背景,不参与训练,说明anchor框尺寸设计的不好。

    S3.扩充正样本。根据gt框的中心位置,将最近的2个邻域网格也作为预测网格,也即一个groundtruth框可以由3个网格来预测;可以发现粗略估计正样本数相比前yolo系列,增加了三倍(此时最大27个匹配)。图下图浅黄色区域,其中实线是YOLO的真实网格,虚线是将一个网格四等分,如这个例子中,GT的中心在右下虚线网格,则扩充右和下真实网格也作为正样本。

    S4.获取与当前gt有top10最大iou的prediction结果。将这top10 (5-15之间均可,并不敏感)iou进行sum,就为当前gt的k。k最小取1。

    S5.根据损失函数计算每个GT和候选anchor损失(前期会加大分类损失权重,后面减低分类损失权重,如1:5->1:3),并保留损失最小的前K个。

    S6.去掉同一个anchor被分配到多个GT的情况。

    

    带辅助训练头(分损失函数和匹配策略两部分讨论)

    论文中,将负责最终输出的Head为lead Head,将用于辅助训练的Head称为auxiliary Head。本博客不重点讨论,原因是论文中后面的结构实验实现提升比较有限(0.3个点),具体可以看原文。

    

    一些细节:其loss函数和不带辅助头相同,加权系数不能过大(aux head loss 和lead head loss 按照0.25:1的比例),否则会导致lead head出来的结果精度变低。匹配策略和上面的不带辅助头(只有lead head)只有很少不同,其中辅助头:

    *lead head中每个网格与gt如果匹配上,附加周边两个网格,而aux head附加4个网格(如上面导数第二幅图,匹配到浅黄+橘黄共5个网格)。

    *lead head中将top10个样本iou求和取整,而aux head中取top20。

    aux head更关注于recall,而lead head从aux head中精准筛选出样本。

    需要注意依照yolov5中的中心点回归方式,仅能将图中红色特征grid,预测在图中红色+蓝色区域(实线组成的网格代表着特征图grid,虚线代表着一个grid分成了4个象限),是根本无法将中心点预测到gt处(蓝色点)!而该红色特征grid在训练时是会作为正样本的。在aux head中,模型也并没有针对这种情况对回归方式作出更改。所以其实在aux head中,即使被分配为正样本的区域,经过不断的学习,可能仍然无法完全拟合至效果特别好。

    

5)trics

概述:ELAN设计思想、MP降维组件、Rep结构的思考、正负样本匹配策略、辅助训练头

6)inference

测试阶段(非训练阶段)过程

4、结果

打赏

        你的打赏是我不断分享的动力,羞羞。点这里,嘿嘿。

参考连接

1、yolov7 网络架构深度解析_所向披靡的张大刀的博客-CSDN博客

2、https://d246810g2000.medium.com/%E6%9C%80%E6%96%B0%E7%9A%84%E7%89%A9%E4%BB%B6%E5%81%B5%E6%B8%AC%E7%8E%8B%E8%80%85-yolov7-%E4%BB%8B%E7%B4%B9-206c6adf2e69

3、【yolov7系列二】正负样本分配策略_所向披靡的张大刀的博客-CSDN博客+

4、https://arxiv.org/pdf/2207.02696.pdf

5、深入浅出 Yolo 系列之 Yolov7 基础网络结构详解 - 知乎

6、理解yolov7网络结构_athrunsunny的博客-CSDN博客

7、Yolov7算法卷土重来,精度速度超越所有Yolo算法,Yolov4作者全新力作!

8、深入浅出Yolov7之正负样本分配策略

9、yolov7正负样本分配详解 - 知乎

10、极市开发者平台-计算机视觉算法开发落地平台

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1124041.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

小家电亚马逊METI备案

亚马逊日本站要求有PSE认证和METI备案,也就是电子电气产品要出口日本,怎么办理,申请流程,费用等? 日本PSE认证的检测标准是什么? J60950检测标准 J62133和J60335。 哪些检测机构可以办理METI和PSE认证&a…

让家长、学生轻松掌握学业表现

亲爱的老师们!又到了定期发布成绩的时候啦!您是否为繁琐的操作而烦恼?不用担心,我来教给您如何使用成绩查询系统,让您的工作变得轻松又高效! 成绩查询系统是什么? 成绩查询系统是一种高效、便捷…

成都瀚网科技有限公司:抖音小店选品策略引领电商潮流

在抖音小店日益繁荣的电商环境中,选品显得尤为重要。一个好的产品可以带来稳定的流量和可观的销售额,而一个错误的选择可能导致店铺的运营陷入困境。那么,如何在抖音小店进行正确的选品呢?本文将为你揭示抖音小店选品的秘密通道。…

序列式容器——vector

1、vector是动态分配的数组,不必程序员手动去扩充数组大小,其原理:填充vector就像扔垃圾,家里的垃圾桶不够放,就倒到小区的大垃圾桶,小区大垃圾桶满了,就有垃圾车来回收,每次都是&am…

Redis的神奇之处:为什么它如此快速?【redis第三部分】

Redis的神奇之处:为什么它如此快速? 前言第一:redis为什么使用单线程第二:深入探讨Redis内存存储,包括内存布局、数据存储和索引机制1. 内存布局:2. 数据存储:3. 索引机制: 第三&…

神器抓包工具 HTTP Analyzer v7.5 的下载,安装,使用,破解说明以及可能遇到的问题

文章目录 1、HTTP Analyzer 工具能干什么?2、HTTP Analyzer 如何下载?3、如何安装?4、如何使用?5、如何破解?6、Http AnalyzerStd V7可能遇到的问题 1、HTTP Analyzer 工具能干什么? A1:HTTP A…

@RequestMapping运用举例(有源码) 前后端如何传递参数?后端如何接收前端传过来的参数,传递单个参数,多个参数,对象,数组/集合(有源码)

目录 一、RequestMapping 路由映射 二、参数传递 1、传递单个参数 2、传递多个参数 3、传递对象 4、后端参数重命名 一、RequestMapping 路由映射 指定请求访问的路径既可以修饰类,又可以修饰方法 RequestMapping支持Get、Post、Delete等多种请求方式 Re…

微信小程序开发源码系统集合版:含15大类别小程序功能 包升级更新

随着微信小程序的日益普及,越来越多的开发者投入到了小程序的开发工作中。为了帮助开发者更高效地进行小程序开发,给大家介绍分享一款微信小程序开发源码集合版,小程序开发平台包含15大类别的小程序功能。 一、微信小程序开发源码集合版概述…

React-Redux总结含购物车案例

React-Redux总结含购物车案例 reduc简介 redux是react全家桶的一员,它为react给i共可预测化的状态管理机制。redux是将整个应用状态存储到一个地方,成为store,里面存放着一颗树状态(state,tree),组件可以派发dispatch行为action给store,而不是直接通知其…

内衣洗衣机有必要买吗?口碑好的小型洗衣机测评

在近年以来,由于人们对健康的认识和生活质量的不断改善,使得内衣洗衣机这一类的产品在近年来得到了飞速的发展,洗烘一体机、洗烘套装的价格总体下降,功能和性能都得到了改善,往往更多的用户会选择一台或者多台洗衣机来…

java--基本的算术运算符、+符号做连接符

运算符是对变量、字面量进行运算的符号 1.基本的算术运算符 注意:如果是整数相除,得到的还是整数,会舍去小数点后面的数的 取余最后得到的是两个数相除的到的余数 2.“”符号可以做连接符的 1.“”符号与字符串运算的时候是用作连接符的&am…

雷电模拟器端口号 adb连接

在尝试adb连接雷电模拟器时,网上查询了一下端口号,发现说是5555. 但是自己尝试,会提示: cannot connect to 127.0.0.1:5555: 由于目标计算机积极拒绝,无法连接。 (10061) 终于发现,因为我打开的模拟器&am…

观察者模式java

观察者模式是一种常见的设计模式,用于在对象之间建立一对多的依赖关系。在该模式中,一个主题(被观察者)维护了一个观察者列表,并在自身状态发生变化时通知所有观察者进行相应的更新。 观察者模式的核心概念包括以下几…

阿里企业邮箱域名解析MX记录表

阿里企业邮箱配置需要为域名添加MX解析记录,不只是MX域名解析记录值,还需要为域名添加pop3、imap、smtp及mail等CNAME解析类型,阿里云百科aliyunbaike.com分享阿里云企业邮箱域名MX解析记录类型、记录值及服务器地址: 新版阿里企…

自研操作系统到底有没有技术难度?

自研操作系统到底有没有技术难度? 最近小米自研操作系统的事情引起了大家热烈讨论。今天我们来从技术的角度来分析一下做自研操作系统到底有没有技术难度。先说结论: 大家放心,做自研操作系统没有中国公司不可跨越的技术难度。但是要把操作系统的性能,用户体验&a…

C++设计模式_11_builder 构建器(小模式,不太常用)

builder 构建器也是属于“对象创建模式”模式的一种,是一个不常用,比较小的模式。 文章目录 1. 动机(Motivation)2. 代码演示builder 构建器2.1 builder 构建器模式的形式1方法2.2 builder 构建器模式的形式2方法2.3 两种形式总结…

推荐一款最近风很大的配音工具~

逐渐发现身边越来越多人开始朝着丰富多彩的副业方向发展,而在这其中,“自媒体”深受大家喜爱,许多人开始看到了商机并纷纷“下海”制作短视频,那么不知道在座的各位“下海”了没有呢哈哈哈哈?短视频需求越来越大&#…

测试左移和右移怎么做,这篇文章写的太详细了

通俗的讲:左移是往开发阶段移,右移是往发布之后移。 正常测试:提测后的测试工作——到——发布验证完成阶段。 测试左移:提测之前的测试。 如:代码单元测试,代码质量检测,代码接口持续测试 等。…

为什么电商使用高匿代理ip更有效果?

前言 随着电商业务的不断发展,越来越多的电商平台开始使用代理IP作为一种有效的反爬虫手段。而高匿代理IP作为代理IP中的一种,其相较于其他类型的代理IP可以更好地保护电商业务的隐私和安全,从而更加有效地为电商平台服务。本文将从代理IP的…

苹果Mac电脑音频处理工具:iZotope RX 10 最新 for mac

iZotope RX 10是一款知名的音频修复和后期处理工具。它因其出色的音频修复功能和强大的音频编辑工具而被广泛应用于音乐制作、电影后期制作、广播电视等领域。 以下是iZotope RX 10的一些主要功能和特点: 音频修复:iZotope RX 10具备强大的音频修复功能…