YOLOv9最新最全代码复现(论文复现)

news2025/1/9 1:26:07

YOLOv9最新最全代码复现(论文复现)

本文所涉及所有资源均在传知代码平台可获取

文章目录

    • YOLOv9最新最全代码复现(论文复现)
      • 引言
      • YOLOv9模型概述
      • 模型框架图
      • 环境搭建及训练推理
        • 环境配置
        • 数据集准备
        • 训练过程
        • 测试和评估
        • 实践应用
      • 报错修复
      • 总结和展望

引言

在目标检测领域,YOLO系列始终是速度与准确性的标杆。最新进展的YOLOv9,在《YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information》一文中展示了其性能的进一步提升。特别值得一提的是,即使在未采用Transformer结构的情况下,相较于RT-DETR、Yplov8等采用Transformer结构的模型,YOLOv9展现出了更为卓越的性能。本篇文章旨在详尽介绍YOLOv9的复现过程,包括环境配置、数据准备、模型训练与评估等关键步骤。该论文由YOLOv4、YOLOv7的作者王建尧博士撰写,对于目标检测领域的爱好者和研究者而言,无疑是一篇值得深入阅读的佳作。

在这里插入图片描述

fig.1. 模型表现图

YOLOv9模型概述

YOLOv9沿袭了YOLO系列一贯的完全卷积结构,通过引入“Programmable Gradient Information”技术,增强了模型学习目标特征的灵活性,使其在多个标准数据集上实现了最佳状态(SOTA)。尤其在MS COCO数据集上,YOLOv9不同版本的模型在多项性能指标上均实现了显著提升。

模型框架图

YOLOv9的模型框架设计体现了其对效率和性能的双重追求。核心改进包括:
深度可编程特征提取器:YOLOv9采用了先进的深度可编程特征提取器,这使得模型能够根据不同的检测任务自动调整其结构和参数,从而提高学习效率和适应性。

  • 有序列表增强特征金字塔网络(FPN):为了提升对小物体的检测能力,YOLOv9对特征金字塔网络的设计进行了增强,通过更有效的跨尺度连接和特征融合机制,增强了模型对于不同尺寸目标的识别精度。
  • 有序列表多尺度训练和推理:YOLOv9实现了在训练和推理阶段的多尺度处理能力,通过动态调整输入图像的尺寸,使模型能够更加鲁棒地处理各种分辨率的图像,进一步提升了模型的泛化能力。
  • 有序列表这些创新不仅提升了YOLOv9在目标检测领域的性能,也为未来的研究和应用提供了新的思路和可能性。

在这里插入图片描述

fig.2. 模型框架图

环境搭建及训练推理

环境配置

复现YOLOv9需要首先准备适宜的开发环境。我们推荐使用AutoDL平台,借助我已经准备好的环境镜像,可以免去繁琐的环境配置和数据集准备工作。
镜像信息详见附件

通过以下步骤可快速搭建:

克隆官方代码库:

git clone https://github.com/WongKinYiu/yolov9.git
cd yolov9

安装必要的Python依赖:

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/

使用清华大学的Python包镜像站点,以加快下载速度。

数据集准备

使用官方提供的脚本scripts/get_coco.sh下载并准备MS COCO数据集。该脚本会自动下载并解压数据集及标注文件。需要确保数据集目录结构正确,以便YOLOv9能正确读取数据。

bash scripts/get_coco.sh

建议下载到autodl-tmp目录再解压回文件目录,需要修改get_coco.sh的代码的第6、10、13、20行的代码

也可以手动下载数据集,
数据集信息详见附件
推荐的数据集文件目录

├── annotations
│   └── instances_val2017.json
├── images
│   ├── train2017
│   └── val2017
├── labels
│   ├── train2017
│   └── val2017
├── LICENSE
├── README.txt
├── test-dev2017.txt
├── train2017.cache
├── train2017.txt
├── val2017.cache
└── val2017.txt
训练过程

YOLOv9的训练支持单卡和多卡配置。以下是单卡训练的一个示例命令:

python train_dual.py --workers 8 --device 0 --batch 16 --data data/coco.yaml --img 640 --cfg models/detect/yolov9.yaml --weights '' --name yolov9 --hyp hyp.scratch-high.yaml --min-items 0 --epochs 500 --close-mosaic 15

多卡训练能够显著提升训练速度和效率,但对硬件资源的要求更高。由于训练数据量庞大,此处将训练轮次调整为1轮,在配置有4090 GPU的环境下,预计训练时间接近1小时。

在这里插入图片描述

fig.3. 模型训练图
如图可以看出,训练所需显存至少要24G,因此这里推荐使用3090或4090。
输出的结果在runs/train/yolov9/weights中。
其中best.pt是最好的(损失最小)模型,last.pt是最新的模型。

测试和评估

使用训练好的模型(也可以用镜像放置在ckpt文件夹下的模型)进行测试和评估,可以通过以下命令执行:

python val_dual.py --data data/coco.yaml --img 640 --batch 32 --conf 0.001 --iou 0.7 --device 0 --weights './yolov9-c.pt' --save-json --name yolov9_c_640_val

AP(平均精度)是评估目标检测模型性能的关键指标,YOLOv9在这一指标上的提升体现了其优越性。

在这里插入图片描述

fig.4. 模型推理图
结果保存在runs/val中

实践应用

YOLOv9可用于图片和视频的目标检测,以下是测试单张图片的命令示例:

python detect.py --weights ./ckpt/yolov9-c.pt --conf 0.25 --img-size 1024 768 --source infer/images/horses.jpg --device 0

此命令将输出图片的检测结果

在此环节中出现了些许问题,现已解决。

在这里插入图片描述

fig.5. 结果图

报错修复

在这里插入图片描述

fig.6. detect运行中发生的错误
通过查看issues可知可通过修改utils/general.py文件夹中的902行可解决。

在这里插入图片描述

fig.7. 正确代码
成功解决

在这里插入图片描述

fig.8. 成功推理结果

总结和展望

通过复现YOLOv9,我们不仅深入了解了其核心技术和实现方法,还体验了从环境配置到模型训练、评估的整个过程。YOLOv9在目标检测领域的高适用性和优异性能,使其成为未来研究和应用的重要基石。随着技术的进一步发展,期待YOLOv9在更多场景下的应用和优化。

文章代码资源点击附件获取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1962677.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【CVPR2024】Efficient LoFTR: 高效的 LoFTR:具有类似稀疏的速度的半密集局部特征匹配

Efficient LoFTR: 高效的 LoFTR:具有类似稀疏的速度的半密集局部特征匹配 Efficient LoFTR realtime_demo 0.摘要 \qquad 我们提出了一种新的方法来有效地产生跨图像的半密集匹配。以往的无探测器匹配器LoFTR在处理大视点变化和纹理差的场景下表现出了出色的匹配能力…

【零基础必看的前端教程】——JavaScript(八)函数

欢迎大家打开前端的新篇章——JavaScript,JavaScript与HTML、CSS合称为前端三大件,JavaScript是前端的重中之重,小洪将继续以零基础视角,带你循序渐进学习前端知识,一看就懂,小白也能转行做前端&#xff01…

创建个人公私钥对

Windows电脑 本地电脑打开命令输入框,如windows WINR–cmd打开cmd窗口输入ssh-keygen -t rsa -C “Remote dev” ,按三次回车,即可看到本地生成的公私钥进入用户目录,如windows为C:\Users\xxx(个人域账号).ssh,可看到…

在C++程序中新建并使用库

创建一个新的cpp文件后,定义一个函数 我们希望这个函数是可以被多个程序调用的,而不是直接输入在程序中进行编译。在C程序中,不是所有代码都会被编译成可执行文件,只有main函数所在的程序才可以生成可执行文件。而这个库是通过上一…

(第三期)书生大模型实战营——书生大模型全链路开源开放体系

任务及教程来自书生大模型实战营https://github.com/InternLM/Tutorial

负载均衡、软件平滑升级

安装nginx 1.26.1 平滑升级、负载均衡 安装依赖 gcc gcc-c pcre-devel openssl-devel 七层负载均衡配置: [rootf ~]# vim /usr/local/nginx/conf/nginx.conf 43 location / {44 # root html;45 # index index.html index…

在docker中安装MongoDB 5.0+

文章目录 1、查看物理机是否支持avx指令集:安装资料中的cpu-z_2.10-cn.exe,并打开2、查看虚拟机是否支持avx指令集:3、创建目录4、使用Docker来运行一个MongoDB数据库实例5、进入容器6、查看当前db版本7、查看当前db的链接机器地址8、帮助指令…

《昇思25天学习打卡营第24天》

接续上一天的学习任务,我们要继续进行下一步的操作 构造网络 当处理完数据后,就可以来进行网络的搭建了。按照DCGAN论文中的描述,所有模型权重均应从mean为0,sigma为0.02的正态分布中随机初始化。 接下来了解一下其他内容 生成…

程序一调用这个接口就会崩溃, 因为他的静态库添加是放在release文件下,而我用的debug模式

程序一调用这个接口就会崩溃 因为他的静态库添加是放在release文件下 而我用的debug模式 DESTDIR ../x64/ReleaseINCLUDEPATH ./../3rdparty/ZZDecode/include LIBS -lopengl32 \-lglu32 \-luser32 \./../3rdparty/ZZDecode/x64/release/ZZDecodeInterface.lib

华为仓颉语言测试申请

1. 申请网址 HarmonyOS NEXT仓颉语言开发者预览版 Beta招募- 华为开发者联盟 点击立即报名登录华为账号 勾选选项 , 点击同意 按要求填写信息即可 2. 申请通过后官方会通过邮件的方式发送相关下载途径 , 根据文档进行下载即可 package Cangmain(): Int64 {println("你…

Springboot使用Redis实现分布式锁

1、使用场景和实现方案: 使用场景:本地锁如Lock和Syncronized只能锁住本地进程,在分布式应用中,需要使用分布式锁来更好实现特定的业务。 实现方案:有多种,比如使用mysql、zookeeper、redis,各…

nginx续1:

八、虚拟主机配置 基于域名的虚拟主机 [rootserver2 ~]# ps -au|grep nginx //查看进程 修改Nginx服务配置,添加相关虚拟主机配置如下 1. [rootproxy ~]# vim /usr/local/nginx/conf/nginx.conf 2. .. .. 3. server { 4. listen …

基于Material studio拉伸-断裂过程的Perl脚本

在材料科学的研究中,拉伸-断裂过程一直是科学家们探索的焦点。这一过程涉及复杂的力学行为和材料内部微观结构的变化,对于理解材料的性能至关重要。然而,传统的实验方法不仅耗时耗力,而且难以捕捉到微观尺度上的所有细节。 为了满…

jQuery前端网页制作

1、Jquery的概述 1.1JavaScript库 JavaScript 高级程序设计(特别是对浏览器差异的复杂处理),通常很困难也很耗时。 为了应对这些调整,许多的 JavaScript (helper) 库应运而生。 这些 JavaScript 库常被称为 JavaScript 框架。 市面上一些广受欢迎的 JavaScript 框架:…

visual studio性能探测器使用案列

visual studio性能探测器使用案列 在visual studio中,我们可以使用自带的工具对项目进行性能探测,具体如下 1.选择性能探查器 Vs2022/Vs2019中打开方式: Vs2017打开方式: 注意最好将解决方案配置为:Release Debu…

【未来餐饮】 配送设置

一、创建门店 关键信息 1. 门店名字要有辨识度,尽量不和其他客户重名 2. 地址要具体到门牌号 3. 定位要和上面的地址一致 可以复制地址搜索地图,然后选择位置 二、创建配送模板 新建模板 填写模板 命名模板,勾上真省钱,然后保…

Meta再下一城:SAM 2

--->更多内容&#xff0c;请移步“鲁班秘笈”&#xff01;&#xff01;<--- “继用于图像的Meta Segment Anything Model &#xff08;SAM&#xff09;取得成功之后&#xff0c;我们发布了SAM 2&#xff0c;这是一种用于在图像和视频中实时进行对象分割的统一模型&#…

npm创建vue的ts项目

一、进入项目文件夹 使用cmd进入你想要创建项目的文件夹&#xff0c;此处为 E盘的test文件夹 cd E:\testE:二、创建项目 此处项目名为 MyTestProject npm create vitelatest输入上述代码&#xff0c;回车后会出现灰色的虚拟名称&#xff0c;此处输入你自己的名称即可&#…

软件平台化开发项目实践

汉捷咨询有40多位来自多家著名企业&#xff08;华为、中兴、三星等&#xff09;的咨询顾问和讲师&#xff0c;资深顾问/项目经理均有华为、中兴等领先企业高管及咨询实践15年以上经验&#xff0c;本文为汉捷一IPD资深顾问的行业实践总结&#xff0c;与各位同仁分享&#xff01;…

WPF用户登录界面设计-使用SQLite数据库进行存储

一、SQLite数据库介绍 SQLite是一款轻量级的关系型数据库&#xff0c;它小巧高效&#xff0c;无需服务器配置&#xff0c;仅需单一文件即可存储数据。SQLite跨平台支持&#xff0c;易于集成到各种应用程序中&#xff0c;并支持SQL语言进行数据操作。它保证了数据的完整性、一致…