实践体验密集小目标检测,以小麦麦穗颗粒为基准,基于YOLOv9全系列【yolov9/t/s/m/c/e】参数模型开发构建智能精准麦穗颗粒检测计数系统

news2025/1/11 0:43:07

对于常规的目标检测任务来说,诸如:COCO、VOC这类基础的数据场景,涌现出来了一些列性能初衷的检测模型,YOLO系列就是其中的佼佼者,不断地刷榜取得了越来越好的效果,不过这些评测指标是基于COCO、VOC这类公开的通识场景下的数据测评得到的,对于我们实际场景的数据会有怎样的效果表现还是有待考证的,密集小目标检测任务对于各类型的目标检测模型来说都是一个挑战性的任务,本文的主要目的就是想要应用开发YOLOv9系列的参数模型,以我们实验室场景下采集标注构建的小麦麦穗颗粒检测数据集为基准实验数据,分析评估模型的实际表现。在前文中我们已经进行了相关的开发实践,感兴趣的话可以自行移步阅读即可:

《基于YOLOv5[n/s/m/l/x]全系列参数模型开发构建小麦麦穗颗粒智能化精准检测识别计数系统》

《实践体验密集小目标检测,以小麦麦穗颗粒为基准,基于YOLOv7全系列【tiny/l/x】参数模型开发构建智能精准麦穗颗粒检测计数系统》

《实践体验密集小目标检测,以小麦麦穗颗粒为基准,基于YOLOv8全系列【tiny/l/x】参数模型开发构建智能精准麦穗颗粒检测计数系统》

首先看下实例效果:

接下来看下数据集实例:

关于YOLOv9的论文相关的介绍可以看这里:

《太卷了,目标检测新成员——YOLOv9: Learning What You Want to LearnUsing Programmable Gradient Information他来了》

如果想要基于YOLOv9从零开始开发构建自己的个性化目标检测系统,可以参照这里:

《基于YOLO家族最新模型YOLOv9开发构建自己的个性化目标检测系统从零构建模型完整训练、推理计算超详细教程【以自建数据酸枣病虫害检测为例】》

YOLOv9的作者人为很多模型设计过程中现有的方法忽略了一个事实,即当输入数据经过逐层特征提取和空间变换时,会丢失大量信息。目前,可以缓解这一现象的主要方法为:(1)可逆架构的使用:使用重复输入数据并以显式方式保持输入数据的信息;(2)掩码建模的使用:利用重构损失并采用隐式方式来最大化提取的特征并保留输入信息;以及(3)深监督概念的引入:使用未丢失太多重要信息的浅层特征预先建立从特征到目标的映射,以确保重要信息能够传递到更深的层次。然而,上述方法在训练过程和推理过程中存在不同的缺点。例如,可逆架构需要额外的层来组合重复馈送的输入数据,这将显著增加推理成本。此外,由于输入数据层到输出层不能有太深的路径,这种限制将使得在训练过程中对高阶语义信息的建模变得困难。至于掩码建模,其重构损失有时会与目标损失冲突。此外,大多数掩码机制还会与数据产生不正确的关联。对于深监督机制,它将产生误差积累,如果浅监督在训练过程中丢失信息,那么后续层将无法检索到所需的信息。上述现象在困难任务和小模型上将更为显著。所以作者深入研究数据通过深度网络传输时数据丢失的重要问题,即信息瓶颈和可逆函数进而提出了可编程梯度信息(PGI)以应对深度网络实现多个目标所需的各种变化。PGI可以为目标任务提供完整的输入信息来计算目标函数,从而获得可靠的梯度信息来更新网络权重。此外,还设计了一种新的基于梯度路径规划的轻量级网络架构——广义高效层聚合网络(GELAN)。GELAN的架构证实了PGI在轻量级模型上取得了卓越的成果。
YOLOv9贡献总结如下:
1.我们从可逆函数的角度对现有的深度神经网络架构进行了理论分析,并通过这个过程成功地解释了许多过去难以解释的现象。在此基础上,我们还设计了PGI和辅助可逆分支,并取得了良好的效果。
2.我们设计的PGI解决了深度监控只能用于极深度神经网络架构的问题,从而使新的轻量级架构能够真正应用于日常生活。
3.我们设计的GELAN仅使用传统卷积,比基于最先进技术的深度卷积设计实现了更高的参数使用率,同时显示出轻、快、准确的巨大优势。
4.将所提出的PGI和GELAN相结合,YOLOv9在MS COCO数据集上的目标检测性能在各个方面都大大超过了现有的实时目标检测器。

这里我们一共应用开发了YOLOv9全系列六款模型,分别是:yolov9-t、yolov9-s、yolov9-m、yolov9、yolov9-c、yolov9-e,这里就不再一一给出来所有模型的模型文件了,仅以最终选定的推理后端模型yolov9-m为例。

【yolov9-m】

# YOLOv9

# parameters
nc: 1  # number of classes
depth_multiple: 1.0  # model depth multiple
width_multiple: 1.0  # layer channel multiple
#activation: nn.LeakyReLU(0.1)
#activation: nn.ReLU()

# anchors
anchors: 3

# gelan backbone
backbone:
  [
   [-1, 1, Silence, []],  
   
   # conv down
   [-1, 1, Conv, [32, 3, 2]],  # 1-P1/2

   # conv down
   [-1, 1, Conv, [64, 3, 2]],  # 2-P2/4

   # elan-1 block
   [-1, 1, RepNCSPELAN4, [128, 128, 64, 1]],  # 3

   # avg-conv down
   [-1, 1, AConv, [240]],  # 4-P3/8

   # elan-2 block
   [-1, 1, RepNCSPELAN4, [240, 240, 120, 1]],  # 5

   # avg-conv down
   [-1, 1, AConv, [360]],  # 6-P4/16

   # elan-2 block
   [-1, 1, RepNCSPELAN4, [360, 360, 180, 1]],  # 7

   # avg-conv down
   [-1, 1, AConv, [480]],  # 8-P5/32

   # elan-2 block
   [-1, 1, RepNCSPELAN4, [480, 480, 240, 1]],  # 9
  ]

# elan head
head:
  [
   # elan-spp block
   [-1, 1, SPPELAN, [480, 240]],  # 10

   # up-concat merge
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 7], 1, Concat, [1]],  # cat backbone P4

   # elan-2 block
   [-1, 1, RepNCSPELAN4, [360, 360, 180, 1]],  # 13

   # up-concat merge
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 5], 1, Concat, [1]],  # cat backbone P3

   # elan-2 block
   [-1, 1, RepNCSPELAN4, [240, 240, 120, 1]],  # 16

   # avg-conv-down merge
   [-1, 1, AConv, [180]],
   [[-1, 13], 1, Concat, [1]],  # cat head P4

   # elan-2 block
   [-1, 1, RepNCSPELAN4, [360, 360, 180, 1]],  # 19 (P4/16-medium)

   # avg-conv-down merge
   [-1, 1, AConv, [240]],
   [[-1, 10], 1, Concat, [1]],  # cat head P5

   # elan-2 block
   [-1, 1, RepNCSPELAN4, [480, 480, 240, 1]],  # 22 (P5/32-large)
   
   # routing
   [5, 1, CBLinear, [[240]]], # 23
   [7, 1, CBLinear, [[240, 360]]], # 24
   [9, 1, CBLinear, [[240, 360, 480]]], # 25
   
   # conv down
   [0, 1, Conv, [32, 3, 2]],  # 26-P1/2

   # conv down
   [-1, 1, Conv, [64, 3, 2]],  # 27-P2/4

   # elan-1 block
   [-1, 1, RepNCSPELAN4, [128, 128, 64, 1]],  # 28

   # avg-conv down
   [-1, 1, AConv, [240]],   # 29-P3/8
   [[23, 24, 25, -1], 1, CBFuse, [[0, 0, 0]]], # 30  

   # elan-2 block
   [-1, 1, RepNCSPELAN4, [240, 240, 120, 1]],  # 31

   # avg-conv down
   [-1, 1, AConv, [360]],   # 32-P4/16
   [[24, 25, -1], 1, CBFuse, [[1, 1]]], # 33 

   # elan-2 block
   [-1, 1, RepNCSPELAN4, [360, 360, 180, 1]],  # 34

   # avg-conv down
   [-1, 1, AConv, [480]],   # 35-P5/32
   [[25, -1], 1, CBFuse, [[2]]], # 36

   # elan-2 block
   [-1, 1, RepNCSPELAN4, [480, 480, 240, 1]],  # 37

   # detect
   [[31, 34, 37, 16, 19, 22], 1, DualDDetect, [nc]],  # Detect(P3, P4, P5)
  ]

实验阶段我们保持了相同的参数设置,等待长时期的训练过程结束之后我们来对以上YOLOv9全系列不同参数量级的模型进行纵向的对比分析,如下:

【Precision曲线】
精确率曲线(Precision Curve)是一种用于评估二分类模型在不同阈值下的精确率性能的可视化工具。它通过绘制不同阈值下的精确率和召回率之间的关系图来帮助我们了解模型在不同阈值下的表现。
精确率(Precision)是指被正确预测为正例的样本数占所有预测为正例的样本数的比例。召回率(Recall)是指被正确预测为正例的样本数占所有实际为正例的样本数的比例。
绘制精确率曲线的步骤如下:
使用不同的阈值将预测概率转换为二进制类别标签。通常,当预测概率大于阈值时,样本被分类为正例,否则分类为负例。
对于每个阈值,计算相应的精确率和召回率。
将每个阈值下的精确率和召回率绘制在同一个图表上,形成精确率曲线。
根据精确率曲线的形状和变化趋势,可以选择适当的阈值以达到所需的性能要求。
通过观察精确率曲线,我们可以根据需求确定最佳的阈值,以平衡精确率和召回率。较高的精确率意味着较少的误报,而较高的召回率则表示较少的漏报。根据具体的业务需求和成本权衡,可以在曲线上选择合适的操作点或阈值。
精确率曲线通常与召回率曲线(Recall Curve)一起使用,以提供更全面的分类器性能分析,并帮助评估和比较不同模型的性能。

【Recall曲线】
召回率曲线(Recall Curve)是一种用于评估二分类模型在不同阈值下的召回率性能的可视化工具。它通过绘制不同阈值下的召回率和对应的精确率之间的关系图来帮助我们了解模型在不同阈值下的表现。
召回率(Recall)是指被正确预测为正例的样本数占所有实际为正例的样本数的比例。召回率也被称为灵敏度(Sensitivity)或真正例率(True Positive Rate)。
绘制召回率曲线的步骤如下:
使用不同的阈值将预测概率转换为二进制类别标签。通常,当预测概率大于阈值时,样本被分类为正例,否则分类为负例。
对于每个阈值,计算相应的召回率和对应的精确率。
将每个阈值下的召回率和精确率绘制在同一个图表上,形成召回率曲线。
根据召回率曲线的形状和变化趋势,可以选择适当的阈值以达到所需的性能要求。
通过观察召回率曲线,我们可以根据需求确定最佳的阈值,以平衡召回率和精确率。较高的召回率表示较少的漏报,而较高的精确率意味着较少的误报。根据具体的业务需求和成本权衡,可以在曲线上选择合适的操作点或阈值。
召回率曲线通常与精确率曲线(Precision Curve)一起使用,以提供更全面的分类器性能分析,并帮助评估和比较不同模型的性能。

【loss】

Loss曲线反映了模型在训练过程中,损失函数值随迭代次数(或训练轮数)的变化情况。损失函数是用来估量模型的预测值f(x)与真实值y的不一致程度的函数,其值越小,表明模型预测能力越强,性能越好。

【mAP0.5】
mAP0.5,也被称为mAP@0.5或AP50,指的是当Intersection over Union(IoU)阈值为0.5时的平均精度(mean Average Precision)。IoU是一个用于衡量预测边界框与真实边界框之间重叠程度的指标,其值范围在0到1之间。当IoU值为0.5时,意味着预测框与真实框至少有50%的重叠部分。
在计算mAP0.5时,首先会为每个类别计算所有图片的AP(Average Precision),然后将所有类别的AP值求平均,得到mAP0.5。AP是Precision-Recall Curve曲线下面的面积,这个面积越大,说明AP的值越大,类别的检测精度就越高。
mAP0.5主要关注模型在IoU阈值为0.5时的性能,当mAP0.5的值很高时,说明算法能够准确检测到物体的位置,并且将其与真实标注框的IoU值超过了阈值0.5。

【mAP0.5:0.95】
mAP0.5:0.95,也被称为mAP@[0.5:0.95]或AP@[0.5:0.95],表示在IoU阈值从0.5到0.95变化时,取各个阈值对应的mAP的平均值。具体来说,它会在IoU阈值从0.5开始,以0.05为步长,逐步增加到0.95,并在每个阈值下计算mAP,然后将这些mAP值求平均。
这个指标考虑了多个IoU阈值下的平均精度,从而更全面、更准确地评估模型性能。当mAP0.5:0.95的值很高时,说明算法在不同阈值下的检测结果均非常准确,覆盖面广,可以适应不同的场景和应用需求。
对于一些需求比较高的场合,比如安全监控等领域,需要保证高的准确率和召回率,这时mAP0.5:0.95可能更适合作为模型的评价标准。
综上所述,mAP0.5和mAP0.5:0.95都是用于评估目标检测模型性能的重要指标,但它们的关注点有所不同。mAP0.5主要关注模型在IoU阈值为0.5时的性能,而mAP0.5:0.95则考虑了多个IoU阈值下的平均精度,从而更全面、更准确地评估模型性能。

【F1值曲线】
F1值曲线是一种用于评估二分类模型在不同阈值下的性能的可视化工具。它通过绘制不同阈值下的精确率(Precision)、召回率(Recall)和F1分数的关系图来帮助我们理解模型的整体性能。
F1分数是精确率和召回率的调和平均值,它综合考虑了两者的性能指标。F1值曲线可以帮助我们确定在不同精确率和召回率之间找到一个平衡点,以选择最佳的阈值。
绘制F1值曲线的步骤如下:
使用不同的阈值将预测概率转换为二进制类别标签。通常,当预测概率大于阈值时,样本被分类为正例,否则分类为负例。
对于每个阈值,计算相应的精确率、召回率和F1分数。
将每个阈值下的精确率、召回率和F1分数绘制在同一个图表上,形成F1值曲线。
根据F1值曲线的形状和变化趋势,可以选择适当的阈值以达到所需的性能要求。
F1值曲线通常与接收者操作特征曲线(ROC曲线)一起使用,以帮助评估和比较不同模型的性能。它们提供了更全面的分类器性能分析,可以根据具体应用场景来选择合适的模型和阈值设置。

综合全系列六款不同参数量级模型的开发实验对比结果来看:六款不同参数量级的模型效果上呈现层次分明的效果,t系列的模型效果最差,syolov9两款模型次之,yolov9-m、yolov9-c和yolov9-e三款模型效果相近,综合参数量来考虑,这里我们考虑使用yolov9-m来作为线上推理模型。

接下来看下yolov9-m模型的详细情况。

【离线推理实例】

【Batch实例】

【混淆矩阵】

【F1值曲线】

【Precision曲线】

【PR曲线】

【Recall曲线】

【训练可视化】

从实验结果来看:YOLOv9模型得到的效果可以说是非常出色的了,这个可能跟我们的实验数据比较理想化有关,我们拍摄麦穗比较清晰,且距离镜头相对比较近,让每个麦穗颗粒显示的比较清晰直观,如果感兴趣的话也都可以自行尝试实验下,可能会有不同的结论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2205114.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

信息系统项目管理师(十大管理域、五大过程组)

前言:信息系统项目管理师重点掌握每个过程中的ITO,即输入(Inputs)、工具(Tools)、输出(Outputs)。还有每个过程属于哪个过程组。 十大管理:整体管理、范围管理、进度管理、成本管理、质量管理、人力资源管理、沟通管理、干系人管理、风险管理…

猫头虎分享:Python库 Django 的简介、安装、用法详解入门教程

猫头虎分享:Python库 Django 的简介、安装、用法详解入门教程 🚀🐍 今天猫头虎收到了一位粉丝的问题:“猫哥,如何在项目中使用Django搭建一个Web应用呢?”。这可是很多刚接触Python开发的朋友常遇到的困惑…

C++和OpenGL实现3D游戏编程【连载14】——VBO、VAO和EBO应用

🔥C和OpenGL实现3D游戏编程【目录】 1、本节实现的内容 我们从一开始学OpenGL到现在,OpenGL的图形绘图必须在glBegin()和glEnd()函数之间完成,在此基础之上,才能进行后续操作功能。但是我们今天要讨论一下OpenGL图形绘制的模式&a…

前端父子传递属性值

1. Vue3.4.X之前  2. Vue3.4.X之后版本 defineModel 父页面  子页面   

Python | Leetcode Python题解之第463题岛屿的周长

题目: 题解: class Solution:def islandPerimeter(self, grid: List[List[int]]) -> int:rowlen(grid)collen(grid[0])nums0c0gridgrid[[0]*col]for i in range(row):grid[i].append(0)for j in range(col):if grid[i][j]1:nums1if grid[i][j]1 and …

跨境独立站还能做多久?谈谈独立站的长期价值

这几年,品牌出海与跨境独立站成了商业圈子的热门话题。伴随而来的则是日益激烈的市场竞争,不少新入局的卖家纷纷抱怨:“现在做独立站已经赚不到钱了!”都发出了灵魂拷问,**跨境独立站还能做几年?**跨境电商…

【hot100-java】合并 K 个升序链表

链表篇 /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* ListNode() {}* ListNode(int val) { this.val val; }* ListNode(int val, ListNode next) { this.val val; this.next next; }* }*/ class Solu…

基于Python的在线音乐平台

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

qemu启动busybox虚拟机网络连接配置

一、busybox文件系统网络问题 由于根文件是用busybox构建,所以很多配置文件是没有的,包括部分网络的默认设置。启动虚拟机后只能使用ip命令和ifconfig命令查看网络状态。 二、开启qemu网络支持 想要使虚拟机上网,最简单的方式可以使用 -netde…

javaweb 文件存储

文件上传,是指将本地图片、视频、音频等文件上传到服务器,供其他用户浏览或下载的过程。 文件上传在项目中应用非常广泛,我们经常发微博、发微信朋友圈都用到了文件上传功能。 上传文件的原始form表单,要求表单必须具备以下三点…

双十一买些提高幸福感的生活单品!五款精选好物推荐~

双十一购物狂欢即将来临,这是一年一度的购物盛宴,家电和数码产品通常会在这个时期提供诱人的折扣。但品牌众多,每款产品又各有千秋,让人难以抉择。今天,我将分享一些在双十一期间值得考虑的高品质好物,让我…

【视频笔记】408新增知识点信号——里昂视频

文章目录 **2.信号****3.信号的实现**4.信号的处理**①忽略信号****②执行信号的默认操作****③捕获井处理信号**几个Linux支持的典型信号: **5.信号的产生**① **通过终端按键(键盘)产生信号**例如,CtrlC发送2号信号SIGINT、Ctrl\发送3号信号SIGQUIT② …

Matlab实现海洋捕食者优化算法优化回声状态网络模型 (MPA-ESN)(附源码)

目录 1.内容介绍 2部分代码 3.实验结果 4.内容获取 1内容介绍 海洋捕食者优化算法(Marine Predators Algorithm, MPA)是一种基于海洋生物捕食行为的新型群体智能优化算法。MPA通过模拟海洋捕食者如鲨鱼、海豚等在寻找猎物时的追踪、包围和攻击行为&…

双十一购买清单,应该如何选购宠物空气净化器,有哪几款推荐

作为一个宠物博主,每天都有人来问我家里养了猫应该怎么样才能清理浮毛,到底有哪些值得推荐。 这我可是有话说,当初就是心血来潮养了两只长毛猫,直到现在都还一直在清理猫咪掉毛的问题。猫咪掉的毛,不仅是会掉在沙发上…

EmEditor传奇脚本编辑器

主程序:EmEditor.exe 目前已有功能 可以自己指定一个快捷键 实现以下功能(默认快捷键为:F1) 以下全功能 都是鼠标所在行 按快捷键 (默认快捷键:F1) 1.在Merchant.txt中 一键打开NPC 没有…

11.Lab Ten —— mmap

内存映射文件(Memory-Mapped File)是一种将文件内容映射到进程的虚拟地址空间的技术,使得文件的内容可以像内存一样被访问。 通过内存映射文件,可以高效地访问和操作文件内容 首先切换到mmap分支 git checkout mmap make clean…

【机器学习】随机森林算法(看我以弱博强)

目录 算法引入: 算法介绍: 1. 集成学习: 2. 训练过程: 3. 分类和回归: 算法优点: 算法缺点: 算法实现: 1. 数据准备 2. 划分数据集 3. 创建随机森林模型 4. 训练模型 5…

Kubesphere4.1版本创建应用Mysql并实现外网访问

目前Kubesphere4.1版本可查创建应用资料较少,特此记录作为参考。 目标 使用Kubesphere4.1完成Mysql服务部署并实现外网访问。 具体流程如下: 1.创建企业空间 2.创建项目 3.创建应用仓库 4.创建应用(mysql) 5.配置外网访…

抖去推--短视频矩阵系统源码对外资料包

#短视频矩阵系统源码# #短视频矩阵系统源码开发# #短视频矩阵系统源码打包# 一、短视频矩阵系统源码安装 安装环境 短视频矩阵系统源码需要以下环境: PHP 7.0 及以上 MySQL 5.5 及以上 Nginx / Apache Redis FFMpeg 下载源码 从官网下载最新版本的短视频矩阵系统…

浅谈云原生--微服务、CICD、Serverless、服务网格

往期推荐 浅学React和JSX-CSDN博客 一文搞懂大数据流式计算引擎Flink【万字详解,史上最全】-CSDN博客 一文入门大数据准流式计算引擎Spark【万字详解,全网最新】_大数据 spark-CSDN博客 目录 1. 云原生概念和特点 2. 常见云模式 3. 云对外提供服务的…