手把手带你调参Yolo v5(一)

news2024/12/24 3:17:33

来源:投稿 作者:王同学
编辑:学姐

YOLO系列模型在目标检测领域有着十分重要的地位,随着版本不停的迭代,模型的性能在不断地提升,源码提供的功能也越来越多,那么如何使用源码就显得十分的重要,接下来我会通过两篇文章带大家手把手去了解Yolov5(v6.1)的每一个参数的含义, 并且通过具体的图片例子让大家明白每个参数改动将会给网络带来哪些影响。

1. 代码获取方式🍀

项目地址:https://github.com/ultralytics/yolov5

进入仓库点击tags可以查看项目目前提供的版本

我选择的代码是v6.1版本

2. 准备项目环境✨

在配置Conda环境后就可以进入项目了,可以通过作者提供的requirements.txt文件进行快速安装。

即在终端中键入如下指令:

pip install -r requirements.txt

requirements.txt文件里面有一些包被注释掉了,这些包是做一些额外的操作时候用的,不安装并不会影响训练和测试;但是有些工具是将.pt文件转换成.onnx时必须安装的;以后会介绍pt怎么转换成onnx,这些用的时候安装就可以。

3. YOLOv5命令行预测方式介绍💡

这里介绍一下官方给提供的预测方式,我们平时都是在Pycharm中点击“运行”按钮去预测模型,其实还可以通过命令行的方式去预测,预测后的结果会自动保存到runs/detect路径下;其实在这条指令后面还可以加上一些参数,具体怎么加后面会详细说明。

python detect.py --source 0  # webcam
                          img.jpg  # image
                          vid.mp4  # video
                          path/  # directory
                          path/*.jpg  # glob
                          'https://youtu.be/Zgi9g1ksQHc'  # YouTube
                          'rtsp://example.com/media.mp4'  # RTSP, RTMP, HTTP stream

这里说一下 path/*.jpg ,这个意思就是预测path文件夹下以.jpg结尾的文件

4. detect.py文件解读🚀

4.1 检测一下看看效果

我们可以直接运行detect.py文件试试效果,运行后系统会把检测结果保存在runs\detect\exp2路径

检测效果就是这样子的

这两张是项目自带的图片,我们也可以把自己想测试的图片或者视频放到这个路径下:

4.2 参数详解

打开detect.py直接看217行

4.2.1 “weights”

这个就是指定网络权重的路径,默认是“yolov5s.pt”,官方提供了很多的版本,我们要更换的时候直接按照Model的名字更换就可以了;例如“yolov5m.pt” “yolov5l.pt”,他会自动的下载对应的权重,不需要我们去Github手动下载.(如果下载太慢或者失败只能去官网下载了,下载好了直接放到根目录下就可以)

这里说一下“default”:default是默认的参数,即使我们在运行时不指定具体参数,那么系统也会执行默认的值。

4.2.2 “source”

这个参数就是指定网络输入的路径,默认指定的是文件夹,也可以指定具体的文件或者扩展名等

4.2.3 “data”

这个就是配置文件的一个路径,配置文件里面包含了下载路径和一些数据集基本信息,在训练时如果不自己指定数据集,系统会自己下载coco128数据集

4.2.4 “imgsz, img, img-size”

这个意思就是模型在检测图片前会把图片resize成640的size,然后再喂进网络里,并不是说会把们最终得到的结果resize成640大小

4.2.5 “conf-thres”

这个就是置信度的阈值,置信度这个概念我在我的博文“YOLOv1详细解读”里面详细介绍了一下,感兴趣的小伙伴可以看一下。

通俗一点来说就是网络对检测目标相信的程度,如果这里设置“0”的话,那么网络只要认为这他预测的这个目标有一点点的概率是正确的目标,他都会给框出来,我们可以通过这几幅图对比一下

我这里把conf-thres参数依次设置成“0”, “0.25”,“0.8”

原图:

conf-thres=0

conf-thres=0.25

conf-thres=0.8

Q1:这里参数到底设置成多少好呢?

我觉得还是根据自己的数据集情况自行调整

4.2.6 “iou-thres”

这个参数就是调节IoU的阈值,这里简单介绍一下NMSIoU

4.2.6.1 NMS介绍

在执行目标检测任务时,算法可能对同一目标有多次检测。NMS 是一种让你确保算法只对每个对象得到一个检测框的方法。

在正式使用NMS之前,通常会有一个候选框预清理的工作(简单引入一个置信度阈值),如下图所示:

NMS 算法的大致过程:每轮选取置信度最大的 Bounding Box(简称 BBox) 接着关注所有剩下的BBox中与选取的BBox有着高重叠(IoU)的,它们将在这一轮被抑制。这一轮选取的BBox会被保留输出,且不会在下一轮出现。接着开始下一轮,重复上述过程:选取置信度最大BBox,抑制高IoU BBox。(关于Bounding Box Regression的详细介绍,我强力推荐我的另一篇博文)

IoU可以理解预测框和真实框的交并比

NMS步骤:

  • 第一步:对 BBox 按置信度排序,选取置信度最高的 BBox(所以一开始置信度最高的 BBox 一定会被留下来);

  • 第二步:对剩下的 BBox 和已经选取的 BBox 计算 IOU,淘汰(抑制) IOU 大于设定阈值的 BBox(在图例中这些淘汰的 BBox 的置信度被设定为0)。

  • 第三步:重复上述两个步骤,直到所有的 BBox 都被处理完,这时候每一轮选取的 BBox 就是最后结果。

在上面这个例子中,NMS只运行了两轮就选取出最终结果:第一轮选择了红色BBox,淘汰了粉色BBox;第二轮选择了黄色BBox,淘汰了紫色 BBox和青色BBox。注意到这里设定的IoU阈值是0.5,假设将阈值提高为0.7,结果又是如何?

可以看到,NMS 用了更多轮次来确定最终结果,并且最终结果保留了更多的 BBox,但结果并不是我们想要的。因此,在使用 NMS 时,IoU 阈值的确定是比较重要的,但一开始我们可以选定 default 值(论文使用的值)进行尝试。

4.2.6.2 不同阈值例子 如果看不懂的话就直接通过例子来理解一下:

这里我“iou-thres”分别取“0”,“0.45”,“0.9”,“1”

iou-thres=0:

iou-thres=0.45:

iou-thres=0.9:

iou-thres=1:

4.2.7 “max-det”

这个就是最大检测数量,默认是最多检测1000个目标:

我这里把“max-det”分别设置成“0”“1”“5”“1000”大家感受一下

max-det=0:

max-det=1:

max-det=5:

max-det=1000:

4.2.8 “device”

这个参数意思就是指定GPU数量,如果不指定的话,他会自动检测,这个参数是给GPU多的土豪准备的。

4.2.9 “action='store_true'”说明

这个类型的参数和之前的有很大区别,大家可以把他理解成一个“开关”,当我们运行程序的时候如果指定了带有action='store_true'类型的参数,那么就相当于启动这个参数所对应的功能,反之则不。我会拿下面的举个例子。

4.2.10 “view-img”

这个参数意思就是检测的时候是否实时的把检测结果显示出来,即我如果在终端中输入以下指令 :

python detect.py --view-img

那么意思就是我在检测的时候系统要把我检测的结果实时的显示出来,假如我文件夹有5张图片,如果指定了这个参数的话,那么模型每检测出一张就会显示出一张,直到所有图片检测完成。如果我不指定这个参数,那么模型就不会一张一张的显示出来。

4.2.11 “save-txt”

这个参数的意思就是是否把检测结果保存成一个.txt的格式,我们来看一下指定了这个参数的效果:

终端键入:

python detect.py --save-txt

可以看到输出结果多了一个labels文件夹

打开这个文件夹我们就可以看到两个.txt文件

这两个.txt文件里面保存了一些类别信息和边框的位置信息

4.2.12 “save-conf”

这个参数的意思就是是否以.txt的格式保存目标的置信度

如果单独指定这个命令是没有效果的;

python detect.py  --save-conf #不报错,但没效果

必须和--save-txt配合使用,即:

 python detect.py --save-txt --save-conf

如果指定了这个参数就可以发现,同样是保存txt格式的文件,这次多了红色框里面的置信度值。原来每行只有5个数字,现在有6个了。

4.2.13 “save-crop”

这个参数的意思就是是否把模型检测的物体裁剪下来,如果开启了这个参数会在crops文件夹下看到几个以类别命名的文件夹,里面保存的都是裁剪下来的图片。

这几张就是backpack和handbag文件夹下的图片

4.2.14 “nosave”

开启这个参数就是不保存预测的结果,但是还会生成exp文件夹,只不过是一个空的exp

我觉得这个参数应该是和“--view-img”配合使用的

4.2.15 “classes”

这里又出现了一个新的参数,这个的意思就是我们可以给变量指定多个赋值,也就是说我们可以把“0”赋值给“classes”,也可以把“0”“2”“4”“6”都赋值给“classes”

接下来说classes参数,这里看一下coco128.yaml的配置文件就明白了,比如说我这里给classes指定“0”,那么意思就是只检测人这个类别。

例:键入如下指令:

python detect.py --classes 0

4.2.16 “agnostic-nms”

这个是增强版的nms,算是一种trick吧,通过一个例子对比一下:

启用后:

然而我并没有感受到区别,或许是我用的yolov5s.pt的原因吧

4.2.17 “augment”

这个参数也是一种增强的方式

启用前:

启用后:

这个还是有很明显的区别的

4.2.18 “visualize”

这个参数的意思就是是否把特征图可视化出来,如果开启了这和参数可以看到exp文件夹下又多了一些文件,这里.npy格式的文件就是保存的模型文件,可以使用numpy读写,.png就是图片文件啦。

下面来看一下保存下来的特征图:

stage0:

stage3:

stage6:

stage23:

4.2.19 “update”

如果指定这个参数,则对所有模型进行strip_optimizer操作,去除pt文件中的优化器等信息。

4.2.20 “project”

这个就是我们预测结果保存的路径。

4.2.21 “name”

这个就是预测结果保存的文件夹名字

4.2.22 “exist-ok”

这个参数的意思就是每次预测模型的结果是否保存在原来的文件夹,如果指定了这个参数的话,那么本次预测的结果还是保存在上一次保存的文件夹里;如果不指定就是每次预测结果保存一个新的文件夹下。

4.2.23 “line-thickness”

这个参数就是调节预测框线条粗细的,因为有的时候目标重叠太多会产生遮挡;

终端键入:

python detect.py --line-thickness 10

4.2.24 “hide-labels”

这个参数就是隐藏标签的

终端键入:

python detect.py --hide-labels  

4.2.25 “hide-conf”

这个参数就是隐藏标签的置信度用的

终端键入;

 python detect.py --hide-conf

4.2.26 “half”

这个参数的意思就是是否使用 FP16 半精度推理,简单介绍一下低精度技术:

低精度技术 (high speed reduced precision)。在training阶段,梯度的更新往往是很微小的,需要相对较高的精度,一般要用到FP32以上。在inference的时候,精度要求没有那么高,一般F16(半精度)就可以,甚至可以用INT8(8位整型),精度影响不会很大。同时低精度的模型占用空间更小了,有利于部署在嵌入式模型里面。

4.2.27 “dnn”

这个参数的意思就是是否使用 OpenCV DNN 进行 ONNX 推理

DNN即Deep Neural Networks

这个我并没有用过,我觉得应该和torch.hub比较类似

感兴趣的小伙伴可以去opencv文档看一下

参考文献

非极大值抑制算法

小彩蛋:🎉

Pycharm通过点击“运行”按钮生成exp文件夹的速度要比在终端里键入指令生成exp文件夹的速度快。

有问题欢迎大家指正,如果感觉有帮助的话请点赞支持下👍📖🌟

Yolo系列论文+代码数据集🚀🚀🚀

关注下方《学姐带你玩AI》回复“YOLO”即可领取

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/183289.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Kylin基本介绍、特点、架构

目录1. Kylin的基本介绍2. Kylin的特点3. Kylin的架构1. Kylin的基本介绍 Kylin是一种MOLAP(Multidimensional OLAP),基于多维数据集,需要预计算。另一种OLAP是ROLAP(Relational OLAP),基于关系型数据库,不需要预计算&#xff0c…

单链表的使用方法.数据结构(三)[上]

前言 提示:文本为数据解构(三)单链表: 本文具体讲解单链表的具体使用方法 提示:以下是本篇文 系列文章目录 第一章 数据解构(一) 第二章 顺序表的具体使用方法.数据解构(二) 文章目录 前言 系列文章目录 文章目录 一、单链表视图 二、…

JavaWeb—Tomcat服务器

1 tomcat概述及基本使用 概述 tomcat是apache软件基金会的jakatai项目组的一个核心项目,由apache、sun和其他一些公司及个 人共同开发而成。由于有了sun公司的参与和支持,最新的servlet、jsp规范总是能在tomcat中得到 体现。因为tomcat技术先进、性能稳定…

git搭建远程仓库

前言:我们现在搭建远程仓库,常见的,是去github、gitlab、gitee等这类第三方平台网站上进行部署。咱就顺道说说这三个的区别。 github 是面向全世界的,由国外开发的,基本上放在上面都是开源的,私人仓库好像…

助力工业物联网,工业大数据之脚本开发【五】

01:脚本开发思路目标:实现自动化脚本开发的设计思路分析路径step1:脚本目标step2:实现流程step3:脚本选型step4:单个测试实施创建一个文件,存放要采集的表的名称#创建测试目录 mkdir -p /opt/da…

【苹果推iMessage】软件安装UIAPplicationSharedApplicationiMessage

推荐内容IMESSGAE相关 作者✈️IMEAX推荐内容iMessage苹果推软件 *** 点击即可查看作者要求内容信息作者✈️IMEAX推荐内容1.家庭推内容 *** 点击即可查看作者要求内容信息作者✈️IMEAX推荐内容2.相册推 *** 点击即可查看作者要求内容信息作者✈️IMEAX推荐内容3.日历推 *** …

CANoe-Macro Recorder(宏模块)

1、引子 初接触宏模块时,我还记得当时我主要的测试内容是RVC/OPS(倒车影像/雷达)和Climate(空调)。当时的测试手法是通过CANoe上的面板,模拟RVC/OPS/Climate ECU发送CAN总线消息给IVI(中控,娱乐音响系统),实现RVC/OPS/Climate功能在IVI上的显示与控制 例如模拟激活…

webpack DefinePlugin解析

DefinePlugin是webpack的一个官方内置插件,它允许在 编译时 将你代码中的变量替换为其他值或表达式。这在需要根据开发模式与生产模式进行不同的操作时,非常有用。例如,如果想在开发构建中进行日志记录,而不在生产构建中进行&…

1603_MIT 6.828 “El Torito” Bootable CD-ROM Format Specification阅读

全部学习汇总: GreyZhang/g_unix: some basic learning about unix operating system. (github.com) 最近正好趁着假期看了下MIT的OS课程,这是里面推荐阅读的一份资料。简单看了一下,整理一下自己的阅读笔记。 只要是涉及到有历史的计算机技术…

一文带你深刻的进入python,并且了解python的优缺点

嗯,你好,感谢您能打开我的文章,在这里我有一个好消息来告诉大家呢,那就是:还有350多天就要过年啦,哈哈哈哈,开不开心,兴不兴奋 名字:阿玥的小东东 学习:pytho…

零代码应用搭建规范建议

文/顿唯 况育军 贺书钿 编辑/杜逸敏 在明道云零代码开发平台里,一个完整的业务应用包含了工作表、视图、角色、自定义页面、工作流五大核心模块(统计和外部门户为可选模块功能),基于这些能力模块组件,我们能呈现给用…

飞桨时序建模库PaddleTS及产业应用实践

时间序列: 一种普遍存在的数据形态 众所周知,时间序列是一种普遍存在的数据形态,与我们的日常生活及生产活动密切相关。如:股票指数、原油价格等金融市场数据;温度、湿度等天气数据;振动、转速等工业设备运…

【技术短文】汽车软件质量改善

一、根因分析 根据汽车软件脆弱性主要因素分析,共有10余种因素会导致软件质量问题: 1.项目时间点压力,占比 71%2.缺乏安全编程理解/培训,占比 60%3.偶然编程错误,占比 55%4.缺乏质量…

Tarjan算法的应用---缩点与割点

图论中有时候会涉及到一些连通性问题,主要是针对于点来说,在有向图中有时候需要计算强连通分量,这时候代表分量的的点就非常重要;在无向图中有时候会需要知道割点,用到的算法都是Tarjan,这个算法还是有难理…

了解多线程与并发

文章目录前言继承Thread类实现Runnable接口实现Callable和Future接口线程生命周期线程优先级线程加入操作线程休眠操作中断线程线程安全问题线程同步机制1. 同步代码块2. 同步方法线程暂停与恢复知识拓展死锁前言 📋前言📋 💝博客&#xff1a…

用Devc++与easyx一步一步做游戏[启动界面部分]-之按钮制作

前面我们介绍了如何为dev c配置好easyx,至于用easyx能够做一些什么呢?大用处我不敢说,用来学习了解消息机制还是不错的。这我们来实现一个简单的游戏启动界面的设计,主要是按钮的设计。总体设计好的效果如下: GIF截图…

(免费分享)springboot音乐网站

开发工具:eclipse,数据库mysql5.7 jdk1.8技术:springbootmybatis/** * * * */package com.bjpowernode.music.ss.service.impl;import javax.annotation.Resource;import com.bjpowernode.music.common.AbstractService; import com.bjpowe…

基于 ROS 机器人和 RTAB-MAP 算法实现室内三维重建

本文叙如何利用RTAB-Map算法和Turtlebot3机器人在自己构建的室内场景中建图 文章目录1、安装依赖2、创建工作空间3、安装rtabmap和rtabmap_ros4、建立gazebo场景功能包5、建立机器人功能包6、为机器人添加kinect相机参考7、编译工作空间8、建立环境地图9、建图1、安装依赖 必要…

数据结构第五周 :(进制转换问题 + 迷宫自动行走问题 + 杨辉三角形 + 队列元素逆置 + 银行排队 + 整数划分问题 + 卡特兰数)

目录进制转换问题迷宫自动行走问题杨辉三角形队列元素逆置银行排队——队列整数划分问题买票问题——卡特兰数小兔的棋盘——卡特兰数进制转换问题 【问题描述】根据课堂讲授,请用“顺序栈”解决进制转换问题,不采用顺序栈,不给分。 【输入形…

前端屏幕录制工具 + 录制<video>标签内容

一、录制的实现思路 1.开始录制、停止录制、下载视频 2.Blob介绍 3.概念 var mediaRecord //用于录制视频 var mediaStream //视频流 var videoBuffer [] //保存的视频数据二、屏幕录制工具 下载地址: https://chrome.google.com/webstore/detail/tampermonkey…