Yolov5如何训练自定义的数据集,以及使用GPU训练,涵盖报错解决

news2024/11/25 0:30:43

本文主要讲述了Yolov5如何训练自定义的数据集,以及使用GPU训练,涵盖报错解决,案例是检测图片中是否有救生圈。 最后的效果图大致如下:

效果图1效果图2

life_buoy.jpg

0.jpg

前言

系列文章

1、详细讲述Yolov5从下载、配置及如何使用GPU运行

2、Labelimg标注自己的数据集,及如何划分训练集和验证集,应用于Yolov5

上一篇文章中,已经介绍了该如何标注自己的数据集,以及该如何给他们分类,接下来的话,就是根据我们已经标注好的数据集来进行训练啦。

将我们之前划分好的数据集放入项目中

image.png

补充:通过文件夹将数据集复制放进去的,pycharm可以索引的更快,不然会卡很久。

一、修改配置文件

我们需要指定数据集的位置,首先就是要修改 coco128.yaml 配置文件

1.1、修改 coco128.yaml 配置文件

我们复制data 文件夹下 coco128.yaml 配置文件,并重命名为 blog_demo.yaml

image.png

1.2、修改 yolov5s.yaml 配置文件

我们复制 models 文件夹下 yolov5s.yaml 配置文件,并重命名为 yolov5s_blog.yaml

image.png

参数的细节可能需要各位朋友自己去了解啦,我这里只是将类别数目修改成和data/blog_demo.yaml文件对应。

二、了解 train.py 参数

此处暂时不做深究,我们当前的任务是跑通整个代码。

主要是了解截图里面部分参数,这主要是因为训练的时候,不同的机器硬件参数不同,能做的事情也不同,所以相应需要调整,尽可能的把性能发挥到极致。

image.png

  1. weigths: 指的是训练好的网络模型,用来初始化网络权重
  2. cfg:为configuration的缩写,指的是网络结构,一般对应models文件夹下的xxx.yaml文件
  3. data:训练数据路径,一般为data文件夹下的xxx.yaml文件
  4. hyp: 训练网络的一些超参数设置,(一般用不到)
  5. epochs:设置训练的轮数(自己电脑上一般建议先小一点,测试一下,看跑一轮要多久)
  6. batch-size:每次输出给神经网络的图片数,(需要根据自己电脑性能进行调整)
  7. img-size:用于分别设置训练集和测试集的大小。两个数字前者为训练集大小,后者为测试集大小
  8. rect: 是否采用矩形训练
  9. resume: 指定之前训练的网络模型,并继续训练这个模型
  10. nosave: 只保留最后一次的网络模型
  11. notest:只在最后一次进行测试
  12. noautoanchor:是否采用锚点
  13. evolve:是否寻找最优参数
  14. bucket:这个参数是 yolov5 作者将一些东西放在谷歌云盘,可以进行下载
  15. cache-images:是否对图片进行缓存,可以加快训练
  16. image-weights:测试过程中,图像的那些测试地方不太好,对这些不太好的地方加权重
  17. device:训练网络的设备cpu还是gpu
  18. multi-scale:训练过程中对图片进行尺度变换
  19. single-cls:训练数据集是单类别还是多类别
  20. adam:是否采用adam
  21. sync-bn:生效后进行多 GPU 进行分布式训练
  22. local_rank:DistributedDataParallel 单机多卡训练,一般不改动
  23. workers: 多线程训练
  24. project:训练结果保存路径
  25. name: 训练结果保存文件名
  26. exist-ok: 覆盖掉上一次的结果,不新建训练结果文件
  27. quad:在dataloader时采用什么样的方式读取我们的数据
  28. linear-lr:用于对学习速率进行调整,默认为 false,含义是通过余弦函数来降低学习率,生效后按照线性的方式去调整学习率
  29. save_period:用于记录训练日志信息,int 型,默认为 -1
  30. label-smoothing: 对标签进行平滑处理,防止过拟合
  31. freeze:冻结哪些层,不去更新训练这几层的参数
  32. save-period:训练多少次保存一次网络模型

注意:参数含default的为默认值,可以直接在文件进行修改,那么运行时直接python train.py也可;直接在命令行指定也可以。

含action的一般为'store_true',使用该参数则需要在命令行指定。

三、训练数据集

可以使用命令行,也可以修改train.py代码,我为了方便测试,就直接使用命令行啦

 

bash

复制代码

python train.py --weights weights/yolov5s.pt --cfg models/yolov5s_blog.yaml --data data/blog_demo.yaml --epochs 100 --batch-size 16 --multi-scale --device 0

接下来就是我的报错踩坑过程啦。

3.1、报错1:AttributeError: module 'numpy' has no attribute 'int'.

错误如下图,这个很好解决,主要是由于 numpy 的版本引起的。我们换个版本即可。

image.png

yolo官方 requirements.txt 指定的 numpy 版本≥1.18.5,当你执行pip install -r requirements.txt命令时,他默认安装为1.24,但是再numpy版本更新时numpy.int在NumPy 1.20中已弃用,在NumPy 1.24中已删除。下面给2个解决方案:

1、重新安装numpy

pip uninstall numpy pip install numpy==1.22 -i <https://pypi.tuna.tsinghua.edu.cn/simple

image.png

2、修改当前项目模块中的 numpy 的源码

找到报错地方,将numpy.int更改为numpy.int_

我采取的方式是重新安装 numpy ,咋简单咋来。

接着重新尝试,还有坑….

3.2、报错2:OSError: [WinError 1455] 页面文件太小,无法完成操作。 Error loading "E:\environment\anaconda\envs\yolov5_6.1_demo_py3.8\lib\site-packages\torch\lib\nvfuser_codegen.dll" or one of its dependencies.

image.png

解决方案:

1、最简单的,关闭吃内存的软件,或者把pycharm重启试试看,不能行继续往下看。

2、调整虚拟内存啦

打开系统高级设置

image.png

image.png

还有可能你调整了这个虚拟内存大小,仍然会报这个错误,那就接着看第三个解决方案。

3、在命令行中设置 -workers=0 ,这个是设置多线程的参数,在个人机器上,这个参数到底设置多少,一般和 --batch-size 8 相挂钩,如果batch-size设置的小,workers可以试着调大一点,2,4等等,一步一步的测试,一步一步的调整,看看有没有到训练瓶颈。也可以调大 batch-size 到16、32,当然具体的参数大小还是需要自己测试。

如果在命令行种设置 --workers=0 仍然运行失败,修改 [datasets.py](<http://datasets.py>) 文件的第119行,直接改成

num_workers=0一般来说,改了这里,大概率是没问题啦。

image.png

再推荐一篇文章,pytorch中DataLoader的num_workers参数详解与设置大小建议

要是还不行的话,我的建议是直接 加钱,换电脑,哈哈哈哈


踩到这里,要是还有的话,建议评论一下,贴一下错误,复述一下步骤,我看看你还有踩到了啥。

因为版本的坑,自我感觉踩的挺深的,去掉版本问题,才只有两个报错信息。

 

bash

复制代码

### 3.3、raise RuntimeError('DataLoader worker (pid(s) {}) exited unexpectedly'.format(pids\_str)) from e raise RuntimeError('DataLoader worker (pid(s) {}) exited unexpectedly'.format(pids_str)) from e RuntimeError: DataLoader worker (pid(s) 64752) exited unexpectedly

这个也是我在我其中一个虚拟环境种爆出来的问题,我真的麻啦。

解决方法还是一样的,修改 datasets.py 的文件种的第119行,将num_workers直接设置为0。

3.4、开始使用自己的数据集训练

改完上面的错误,我们的训练终于开始啦。

 

bash

复制代码

python train.py --weights weights/yolov5s.pt --cfg models/yolov5s_blog.yaml --data data/blog_demo.yaml --epochs 100 --batch-size 8 --multi-scale --device 0

后面的参数啥的,完全可以根据自己电脑的性能来进行设置,就比如这个--batch-size 8 ,你要是显存大,完全可以改成 16、32、64等等。

image.png

训练完成后,会出现run/train文件夹下出现一个expn的文件夹,看最新的那个就是最近一次训练的结果。

image.png

weights 文件夹下就是通过训练出来的权重文件,best.pt 是最好的,last.pt 是最后一次。

我们可以拿去测一下,看看效果(我这种十几张数据的,十轮训练,坦白说后面都不一定检测的出来)

3.5、测试训练出来的权重效果

best.pt 文件复制到weights 文件夹下,然后我在网上再随便找了一张不是我们数据集的救生圈图片放到了根目录下,执行下面命令进行测试

 

bash

复制代码

python detect.py --weights weights/best.pt --source life_buoy.jpg

写到这个地方的时候,有点糟糕,数据量太小,然后训练轮数,太少,导致这十轮训练出来的数据,直接就没效果,然后我重新了标注了100来张照片,重新训练了100轮,重新训练了一个 best.pt 文件。(没有数据量真没法玩,比较难受) 效果大致为以下这样:

image.png

后面的内容主要是补充了一下可能会遇到的错误,以及笔者个人的一些自言自语。

如果给了你帮助的话,记得给作者点个赞,评论一下,分享一下属于你的成功的喜悦,让写这篇文章的我,也与你一起快乐一下吧。

3.6、另外可能会遇到的报错

报错1:AttributeError: 'FreeTypeFont' object has no attribute 'getsize’

pip uninstall pillow

pip install Pillow==9.5 -i <https://pypi.tuna.tsinghua.edu.cn/simple>

pip show Pillow 查看依赖包版本

报错2:OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.

我之前确实遇到了,后面专门写这个项目的时候,又没让我遇上了,应该还是版本问题,但是也先贴出来吧。

image.png

在pycharm里调试程序时可以直接通过在程序前添加这两个语句解决

 

bash

复制代码

import os os.environ['KMP_DUPLICATE_LIB_OK']='TRUE

四、补充:关于yolov5训练时参数workers和batch-size的理解

后面我自己在又一次训练时,又开始好奇 num_workers 和 batch-size 这两者的关系啦,细细的拜读了几位博主的博客,后在下面的这篇文章中找到了一些比较好的理解,大家可以阅读一下。

本小章节内容主要来自于: 关于yolov5训练时参数workers和batch-size的理理解 -作者:flamebox

如何让训练达到我们电脑的瓶颈,只能是一步一步的测试,然后去调整相关的参数。

最后

这个系列主要是想给自己一个记录,写在文档里也是写,发布博客也是写,前面几篇比较容易,后面会慢慢加深的。慢慢来吧。

越是容易写的文章,写起来越是麻烦。对版本问题真的很无赖,只能选择低版本的或者去踩坑。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/994912.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

最新仿闲鱼链接+独立后台管理 跳转APP

2024最新仿xy链接源码 后台一键生成链接&#xff0c;后台管理教程&#xff1a;解压源码&#xff0c;修改数据库config/Congig 不会可以看源码里有教程 下载程序&#xff1a;https://pan.baidu.com/s/16lN3gvRIZm7pqhvVMYYecQ?pwd6zw3

JS防抖和节流在前端开发中的应用场景

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 防抖&#xff08;Debouncing&#xff09;⭐ 节流&#xff08;Throttling&#xff09;⭐ 写在最后 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端…

C++与C编译后符号表对比(一百九十二)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 人生格言&#xff1a; 人生…

DBeaver 下载、安装与数据库连接(MySQL)详细教程【超详细,保姆级教程!!!】

本文介绍DBeaver 下载、安装与数据库连接&#xff08;MySQL&#xff09;的详细教程 一、DBeaver 下载 官网下载地址&#xff1a;https://dbeaver.io/download/ 二、安装 1、双击下载的安装包&#xff0c;选择中文 2、点击下一步 3、点击我接受 4、如下勾选&#xff0c;…

Java高级——类加载及执行子系统的案例与实战

类加载及执行子系统的案例与实战 概述类加载器案例TomcatOSGi 字节码案例动态代理Java逆向移植工具 实战——远程执行功能目标思路实现验证&#xff08;未完成&#xff0c;不会写JSP&#xff09; 概述 Class文件以何种格式存储、字节码指令如何执行等都是由JVM控制 字节码生成…

手写数据库连接池

数据库连接是个耗时操作.对数据库连接的高效管理影响应用程序的性能指标. 数据库连接池正是针对这个问题提出来的. 数据库连接池负责分配,管理和释放数据库连接.它允许应用程序重复使用一个现有的数据路连接,而不需要每次重新建立一个新的连接,利用数据库连接池将明显提升对数…

文本生成模型如何解码

文章目录 解码方法Greedy SearchBeam SearchsamplingTemperature Samplingtop-k samplingTop-p (nucleus) samplingContrastive search 总结相关资源 语言模型如何对于一个给定输入生成相应的输出呢&#xff1f;答案是使用解码策略(decoding strategy)。这里对现有的解码策略做…

在vx1000中对目标属性值的函数修改方法

通过在函数中编辑GFX对象属性值&#xff0c;实现Y坐标相反的操作方法 有时需要对目标属性的x 、y坐标做负方向转换&#xff0c;就需要以下方法来实现 return input.ProY*(-1); return input.C0*(-1);

验收测试的内容和流程有哪些?

验收测试 信息化项目验收确认测试内容一般包括&#xff1a;测试(复核 ),资料评审 ,质量鉴定三部分。 (一)验收评测工作主要包括 :文档分析 ,方案制定 ,现场测试 ,问题单提交 ,测试报告 ; (二)验收测试内容主要包括 :检查 "合同 " 或"验收标准 "要求的所…

【Redis】2、Redis持久化和性能管理

Redis 高可用 在web服务器中&#xff0c;高可用是指服务器可以正常访问的时间&#xff0c;衡量的标准是在多长时间内可以提供正常服务&#xff08;99.9%、99.99%、99.999%等等&#xff09;。 但是在Redis语境中&#xff0c;高可用的含义似乎要宽泛一些&#xff0c;除了保证提供…

C++之构造函数列表使用默认值(一百九十一)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 人生格言&#xff1a; 人生…

发布订阅机制和点对点机制

【Go项目】25. 在 gin 中引入 WebSocket 和 Hub_哔哩哔哩_bilibili gorilla/websocket: Package gorilla/websocket is a fast, well-tested and widely used WebSocket implementation for Go. (github.com) 1.订阅发布机制 引用上面链接的内容 发布订阅的基本工作原理 在分…

AQS源码剖析,完整流程解读

目录 1 AQS是什么2 AQS加锁流程3 结构4 AQS方法概览5 AQS源码剖析5.1 加锁方法5.2 释放锁5.3 await等待5.4 signal唤醒 1 AQS是什么 ​ AQS即AbstractQueuedSynchronizer缩写&#xff0c;翻译为抽象队列同步器&#xff0c;是一种用来构建锁和同步器的框架。 平时使用较多的Ree…

【C++】常用排序算法

0.前言 1.sort #include <iostream> using namespace std;// 常用排序算法 sort #include<vector> #include<algorithm>//利用仿函数 打印输出 class myPrint { public:void operator()(int val){cout << val << " ";} };//利用普通函…

车载网络测试 - UDS诊断篇 - CANTP常用缩写

CANTP层规范常用缩写 缩写英文全称中文注释BRSbit rate switch比特率开关BSBlockSize块大小CAN controller area network控制器局域网CAN_DL CAN frame data link layer data length in bytesCAN 帧数据链路层数据长度&#xff08;以字节为单位&#xff09;CAN FDcontroller a…

[kingbase运维之奇怪的现象]

#[kingbase运维之奇怪的现象] ##奇怪的现象 某银行数据中心应用反馈&#xff0c;业务接口日志记录了很多执行慢的SQL&#xff0c;出现的时间是随机的&#xff0c;单独在数据库客户端工具执行会很快返回结果。根据之前的经验推断是业务代码传入的参数类型与数据库表结构字段定义…

HDD-FAT32 ZIP-FAT32 HDD-FAT16 ZIP-FAT16 HDD-NTFS

FAT32、FAT16指的是分区格式&#xff0c; FAT16单个文件最大2G FAT32单个文件最大4G NTFS单个文件大于4G HDD是硬盘启动 ZIP是软盘启动 U盘选HDD HDD-NTFS

buuctf crypto 【还原大师】解题记录

1.打开题目就能直接看到密文 2.感觉爆破直接能解&#xff0c;试试爆破&#xff08;参考文章&#xff1a;[buuctf] crypto全解——前84道&#xff08;不建议直接抄flag&#xff09;_buuctf crypto_咸鱼壹号的博客-CSDN博客&#xff09; import hashlib k TASC?O3RJMV?WDJKX?…

建筑模板9层板和7层板的区别

建筑模板是建筑施工过程中不可或缺的一环&#xff0c;而在建筑模板的选择中&#xff0c;常见的有9层板和7层板两种选项。它们在结构、特性和应用方面存在一些区别。下面将详细探讨9层板和7层板之间的区别。 首先&#xff0c;9层板和7层板的名称源自其板材的层数。9层板由9层木片…

Docker容器技术实战-1

1.docker容器 docker就好比传统的货运集装箱 每个虚拟机都有独立的操作系统&#xff0c;互不干扰&#xff0c;在这个虚拟机里可以跑任何东西 如应用 文件系统随便装&#xff0c;通过Guest OS 做了一个完全隔离&#xff0c;所以安全性很好&#xff0c;互不影响 容器 没有虚拟化…