yolov9-pytorch 深度学习目标检测算法模型

news2025/2/25 8:20:14

YOLOv9

论文

  • https://arxiv.org/abs/2402.13616

模型结构

YOLOv9将可编程梯度信息 (PGI) 概念与通用 ELAN (GELAN)架构相结合而开发,代表了准确性、速度和效率方面的重大飞跃。

算法原理

Yolov9将可编程梯度信息(PGI)和GLEAN(用于对象检测的生成潜在嵌入)架构集成到YOLOv9中可以增强其在对象检测任务中的性能。可编程梯度信息(PGI)概念,有助于通过辅助可逆分支生成可靠的梯度。这确保深度特征保留执行目标任务所需的关键特征,解决深度神经网络前馈过程中信息丢失的问题。通用ELAN(GELAN)架构,旨在优化参数、计算复杂度、准确性和推理速度。通过允许用户为不同的推理设备选择合适的计算模块,GELAN 增强了 YOLOv9 的灵活性和效率。实验结果表明,YOLOv9 在 MS COCO 等基准数据集上的目标检测任务中实现了最佳性能。它在准确性、速度和整体性能方面超越了现有的实时物体检测器,使其成为需要物体检测功能的各种应用的最先进的解决方案。

PGI主要包括主分支, 辅助可逆分支, 多级辅助信息三个组成部分。PGI推理过程仅使用主分支,因此不需要任何额外的推理成本。

YOLOv9提出了新网络架构——GELAN。GELAN通过结合两种神经网络架构,即结合用梯度路径规划(CSPNet)和(ELAN)设计了一种广义的高效层聚合网络(GELAN);GELAN综合考虑了轻量级、推理速度和准确度。GELAN整体架构如上图所示。YOLOv9将ELAN的能力进行了泛化,原始ELAN仅使用卷积层的堆叠,而GELAN可以使用任何计算块作为基础Module。

环境配置

Docker(方法一)

从光源中拉取docker镜像:

docker pull image.sourcefind.cn:5000/dcu/admin/base/pytorch:1.13.1-centos7.6-dtk23.10-py310

创建容器并挂载目录进行开发:

docker run -it --name {name} --shm-size=1024G  --device=/dev/kfd --device=/dev/dri/ --privileged --cap-add=SYS_PTRACE --security-opt seccomp=unconfined --ulimit memlock=-1:-1 --ipc=host --network host --group-add video -v /opt/hyhal:/opt/hyhal:ro -v {}:{} {docker_image} /bin/bash
# 修改1 {name} 需要改为自定义名称,建议命名{框架_dtk版本_使用者姓名},如果有特殊用途可在命名框架前添加命名
# 修改2 {docker_image} 需要需要创建容器的对应镜像名称,如: pytorch:1.10.0-centos7.6-dtk-23.04-py37-latest【镜像名称:tag名称】
# 修改3 -v 挂载路径到容器指定路径
pip install -r requirements.txt

Dockerfile(方法二)

cd docker
docker build --no-cache -t yolov9_pytorch:1.0 .
docker run -it --name {name} --shm-size=1024G  --device=/dev/kfd --device=/dev/dri/ --privileged --cap-add=SYS_PTRACE --security-opt seccomp=unconfined --ulimit memlock=-1:-1 --ipc=host --network host --group-add video -v /opt/hyhal:/opt/hyhal:ro -v {}:{} {docker_image} /bin/bash 
pip install -r requirements.txt

Anaconda(方法三)

线上节点推荐使用conda进行环境配置。 创建python=3.10的conda环境并激活

conda create -n yolov9 python=3.10
conda activate yolov9

关于本项目DCU显卡所需的特殊深度学习库可从光合开发者社区下载安装。

DTK驱动:dtk23.10
python:python3.10
pytorch:1.13.1
torchvision:0.14.1

安装其他依赖包

pip install -r requirements.txt

数据集

MS COCO

  • 训练集train2017.zip,验证集val2017.zip,以及标签label 创建空文件夹datasets,将标签文件进行解压后放入datasets,然后将训练集和验证集分别解压后放入datasets/coco/images文件夹中。 数据目录结构如下:
 ── coco
    |   ├── datasets
    |             ├── instances_val2017.json
    |   ├── images
    |             ├── train2017
    |                          ├── xxx.png
    |                          ├── xxx.png
    |                          └── xxx.png
    |             ├── val2017
    |                          ├── xxx.png
    |                          ├── xxx.png
    |                          └── xxx.png
    |   ├── labels  
    |             ├── train2017
    |                          ├── xxx.txt
    |                          ├── xxx.txt
    |                          └── xxx.txt
    |             ├── val2017
    |                          ├── xxx.txt
    |                          ├── xxx.txt
    |                          └── xxx.txt
    |   train2017.txt
    |   val2017.txt
  • 项目中已提供用于试验训练的迷你数据集datasets,下载后解压即可。

训练

权重文件下载yolov9-c.pt

单机多卡

python -m torch.distributed.launch --nproc_per_node 8 --master_port 9527 train_dual.py --workers 8 --device 0,1,2,3,4,5,6,7 --sync-bn --batch 128 --data data/coco.yaml --img 640 --cfg models/detect/yolov9-c.yaml --weights yolov9-c.pt --name yolov9-c --hyp hyp.scratch-high.yaml --min-items 0 --epochs 500 --close-mosaic 15

单机单卡

python train_dual.py --workers 8 --device 0 --batch 16 --data data/coco.yaml --img 640 --cfg models/detect/yolov9-c.yaml --weights yolov9-c.pt --name yolov9-c --hyp hyp.scratch-high.yaml --min-items 0 --epochs 500 --close-mosaic 15

推理

使用权重文件yolov9-c.pt,运行yolov9推理

python detect_dual.py --source './data/images/horses.jpg' --img 640 --device 0 --weights './yolov9-c.pt' --name yolov9_c_640_detect

result

精度

测试数据:test

测试指标:

模型数据类型map0.5:0.95map0.5
yolo9-c-converted全精度0.5300.703
yolo9-e-converted全精度0.5560.728
yolo9-c全精度0.5300.703
yolo9-e全精度0.5560.728
gelan-c全精度0.5260.695
gelan-e全精度0.5500.719

gelan-c和gelan-e是使用GELAN架构(模仿了CSPNet,并将ELAN扩展为GELAN)训练的模型。

yolov9-c和yolo9-e (GELAN+PGI)是论文中提到的 yolov9 完整模型的权重偏置文件,是包括了辅助可逆分支PGI的。而对应的converted模型是删除了辅助分支之后的模型权重文件。

应用场景

算法类别

目标检测

热点应用行业

安防,交通,教育

源码仓库及问题反馈

ModelZoo / yolov9_pytorch · GitLab

参考资料

https://github.com/WongKinYiu/yolov9

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1837503.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

时隔一年,SSD大涨价?

同样产品,2T,去年400多到手,今年700。 去年 今年

comfyui虚拟试衣、ai换装、电商换装源码

一、AI换装技术博客 1. 项目介绍 IDM-VTON 是一个虚拟试衣模型,可以在 ComfyUI 中进行部署。相比于其他虚拟试衣模型,如 OOTDiffusion,IDM-VTON 提升了图像保真度和细节保留,更强调真实感,而且就算是侧面的模特或者背面的模特都…

数据库:与红黑树不同的延迟序列

在内存里维护一个序列,可能第一个想到的就是红黑树。但是,红黑树算法复杂,这还不是主要的,主要的问题是:红黑树的空间利用率低。 红黑树的空间利用率 一个红黑树的节点,包括父节点指针、两个子节点指针、…

智慧校园发展趋势:2024年及未来教育科技展望

展望2024年及未来的教育科技领域,智慧校园的发展正引领着一场教育模式的深刻变革,其核心在于更深层次地融合技术与教育实践。随着人工智能技术的不断成熟,个性化学习将不再停留于表面,而是深入到每个学生的个性化需求之中。通过精…

SpringMVC系列七: 手动实现SpringMVC底层机制-上

手动实现SpringMVC底层机制 博客的技术栈分析 🛠️具体实现细节总结 🐟准备工作🍍搭建SpringMVC底层机制开发环境 实现任务阶段一🍍开发ZzwDispatcherServlet🥦说明: 编写ZzwDispatcherServlet充当原生的DispatcherSer…

电脑怎么录音?分享2种音频录制方法

在日常生活和工作中,我们经常需要录制电脑上的音频,无论是为了记录会议内容、保存网络课程,还是为了制作自己的音频素材,录音功能都显得尤为重要。那么电脑怎么录音?本文将详细介绍2种方法教你如何在电脑上进行录音&am…

如何避免接口重复请求(axios推荐使用AbortController)

前言: 我们日常开发中,经常会遇到点击一个按钮或者进行搜索时,请求接口的需求。 如果我们不做优化,连续点击按钮或者进行搜索,接口会重复请求。 以axios为例,我们一般以以下几种方法为主: 1…

二进制数转字符串

题目链接 二进制数转字符串 题目描述 注意点 32位包括输出中的 “0.” 这两位题目保证输入用例的小数位数最多只有 6 位 解答思路 将小数转为二进制的思路是将小数乘2,如果整数部分为1,则说明第i位是1(第i位则乘了2的几次方)…

STM32(七)———TIM定时器(基本and通用)

文章目录 前言一、通用定时器TIM简介1.STM32F10X系列总共最多有八个定时器:2.三种STM32定时器的区别:3.STM32 的通用定时器功能:4.计数器模式 二、基本定时器1.基本定时器的结构框图2.定时时间的计算3.定时器的结构体和库函数 总结 前言 一个…

无线备网,保障连锁零售数字化运营

为了提升运营效率、改进客户体验,零售商们不断引入新的数字化工具和平台,包括数字化收银、客流统计、客户关系管理系统等。现代化智慧零售的运营更加依赖于稳定、高效的网络连接,数字化网络不仅是提升运营效率和客户体验的关键,还…

iOS 18 Siri 升级之后都有哪些改变?

新界面 首先最显著的改变就是 Siri 的界面不同了,之前的界面是在打开 Siri 之后会出现一个圆形图案,而在 Siri 升级之后变成了屏幕边缘发出亮光。 来源:Apple 可在任意位置使用 苹果的生成式人工智能 Apple Intelligence 将为 Siri 提供支…

el-table 固定前n行 配合 max-height 生效

:row-class-name"TableRowClassName" 加上类名 <el-table:data"computedTableList"borderstyle"width: 100%":row-class-name"TableRowClassName"max-height"800"><el-table-column fixed prop"name"…

如何实现ElementUI动态表头?

可能看到这个标题,有些小伙伴会有些疑惑,动态表头是个什么东西,怎么没听说过? 其实动态表头在企业的项目中用途还是非常广泛的,比如erp系统什么的 那么动态表头是什么呢?说简单点就是让ElementUI的Table表格可以实现自定义表头展示+表头拖拽排序的一个功能 这个东西我…

嵌入式linux系统中SPI子系统driver与device分析02

大家好,本篇文件继续分析,linux系统重SPI数据结构体,它的实际运行原理与方法。 第一:SPI层次 第二:SPI子系统结构体关系图 spi_master ( spi_controller):对Soc的SPI控制器的抽象 spi_bus_type : spi的bus_type,代表了硬件上的SPI Bus spi_device : spi从设备 spi_d…

Java毕业设计 基于SSM助学贷款管理系统

Java毕业设计 基于SSM助学贷款管理系统 SSM 助学贷款管理系统 功能介绍 学生&#xff1a;登录 修改密码 学生信息 贷款项目信息 申请贷款 留言信息 公告 学校负责人&#xff1a;登录 修改密码 学生管理 学校负责人信息 贷款项目 贷款申请审批 留言信息 公告 银行负责人&…

如何在 Windows 中安装 Spire.PDF for Python

Spire.PDF for Python 是一款完全独立的 PDF 开发组件&#xff0c;用于在任何 Python 应用程序中读取、创建、编辑和转换 PDF 文件。本文将介绍如何在 Windows 中安装 Spire.PDF for Python。 最新python安装激活教程在下方&#xff1a; 步骤1 下载最新版的 Python 并将其安装…

opencv中文路径问题

目的 在windows系统上&#xff0c;就是直接用QT的utf8编码作为图片路径用在opencv读取或者写入函数&#xff0c;在路径当中含有中文时&#xff0c;会提示编码错误。 就是解决opencv中的中文路径的问题。 情况 代码如下&#xff1a; #pragma execution_character_set("…

【记录45】【案例】echarts 柱状图3D效果

环境 echarts4.1.0 <template> <!-- 商场各楼层统计 --><div id"threethree"></div> </template><script> import * as echarts from "echarts" export default {name:"",components:{},data(){return {…

老A营销训练营(更24年5月),轻理论,重实战,轻概念,重本质(97节课)

课程下载&#xff1a;https://download.csdn.net/download/m0_66047725/89388249 更多资源下载&#xff1a;关注我。 课程介绍&#xff1a; 课程来自课程来自老A的营销陪跑训练营。只适合中小企业和初创企业的老板或营销、市场、品牌等部门负责人及从业人员。不推荐没有营销…

深入JVM:线上服务性能问题诊断思路

文章目录 深入JVM&#xff1a;线上服务性能问题诊断思路一、序言二、常见线上性能问题三、诊断CPU使用率过高1、检查CPU高使用率进程2、导出线程堆栈信息3、深入识别高使用率线程4、高使用率线程信息定位 四、诊断服务响应时间过长1、诊断GC及内存问题2、诊断慢查询2.1 Arthas线…