实验室ICPR 2024论文分享┆DS MYOLO:一种基于状态空间模型的驾驶场景可靠目标检测器

news2024/12/23 18:39:08

论文分享·简介

本推文详细介绍了一篇实验室的最新论文成果《DS MYOLO: A Reliable Object Detector Based on SSMs for Driving Scenarios》,该论文已被第27届国际模式识别大会(ICPR)接收,论文的第一作者为李杨。论文提出了一种基于状态空间模型(SSM)的实时目标检测器(DS MYOLO)来精确检测驾驶场景下的多尺度变化目标,从而增强自动驾驶辅助系统的安全性。通过在交通标志数据集CCTSDB 2021和车辆标志数据集VLD-45上的实验比较,验证了DS MYOLO能够更加可靠的检测多尺度目标,与类似规模的YOLO系列实时目标检测器(YOLOv5-v10)相比,DS MYOLO表现出显著的潜力和竞争优势。本推文由李杨撰写,审校为陆新颖和朱旺。

原文链接:

http://arxiv.org/abs/2409.01093

1. 会议介绍

第27届国际模式识别大会(ICPR)将于2024年12月1日至5日在印度加尔各答隆重举行。ICPR起始于1972年,是国际模式识别联合会(IAPR)组织的模式识别领域的旗舰学术会议,每两年召开一次,主办国家或地区由国际模式识别联合会的理事会提前四年经无记名投票决定。大会涵盖了计算机视觉、机器学习、图像、语音、传感器模式处理等多个热门研究领域。ICPR为中国人工智能学会(CAAI)B类会议,中国计算机学会(CCF)C类会议。

2. 研究背景及主要贡献

近年来,深度学习的快速发展不断为计算机视觉提供新的见解。在自动驾驶场景中,实时检测和准确识别交通标志和车辆身份对于提高辅助驾驶系统的安全性至关重要。然而,驾驶场景中的目标尺度和大小往往差异较大,导致视觉特征不显著,且容易受到噪声干扰,这将对辅助驾驶系统造成潜在的安全隐患。近年来,基于卷积神经网络(CNN)的YOLO网络因其损耗小且性能高而受到学术界和工业界的广泛关注。然而,CNN的局部关注性导致难以有效检测不同尺度的目标。虽然Transformer的自注意力具有全局建模效应,但其二次计算复杂度导致计算成本较大。最近,基于状态空间模型的Mamba凭借其线性复杂度和全局选择性扫描机制,在自然语言、视觉等领域受到了许多研究人员的关注。鉴于Mamba的出色表现,我们提出了一种新颖可靠的目标检测器:称为DS MYOLO。我们的贡献可以概括为:

1)我们设计了一种简化的扫描融合模块(SimVSS Block),该模块主要由Mamba块与前馈网络串联组成,并通过残差连接增强梯度通信,在享受较低的计算成本下促进深层特征的进一步融合。

2)提出了一种高效通道注意力卷积算子(ECAConv),通过解耦卷积的输出通道并执行跨通道的注意力交互,ECAConv显著建立了通道之间的依赖关系并增强表示,同时保持与标准卷积类似的计算复杂度。

3)我们基于提出的SimVSS Block和ECAConv,进一步设计了不同规模的DS MYOLO(-N/-S/-M)实时目标检测器。在CCTSDB 2021和VLD-45上与最先进的实时目标检测器相比,DS MYOLO表现出强大的竞争力。

3. 方法

图1 DS MYOLO的整体架构

DS MYOLO的整体架构如图1所示。在主干网络中,Stem由SC、批量归一化和SiLU激活函数组成,顺序堆叠并下采样两次,产生大小为H/4和W/4,通道为C1的特征向量。为了有效提取主干网络中丰富的特征,采用ECAConv进行步幅为2的下采样,并利用ECACSP进一步捕获丰富的局部特征。我们在颈部网络之前引入了融合层,该融合层使用三个SimVSS Block来实现特征层{P3, P4, P5}的深度融合,同时享受较低的计算复杂度。在颈部网络中,我们遵循PAFPN的架构并通过ECACSP来提取不同尺度的特征。我们使用了最新的无NMS的解耦头设计(YOLOv10),它有效地解码输入中的小、中、大型目标,并高效地执行检测。

4. 实验

(1)实施细节

我们在PyTorch框架内使用单个NVIDIA 4090GPU进行实验。所有实验均从头开始训练200个Epoch,不使用任何预训练权重。使用SGD优化器,并有3个Epoch的预热期,将初始学习率从0.01降到0.0001,动量大小为0.937。输入大小固定为640×640,批量大小为16。数据增强策略包括随机缩放、平移和Mosaic等,并在最后10个Epoch禁用Mosaic。

(2)实验结果

我们将所提出的DS MYOLO与YOLO系列中其他最新最先进的实时目标检测器进行比较,其中包括YOLOv5-v10,以及Gold-YOLO,使用的指标包括模型参数量(M),计算量(G),mAP(%),检测框精度(%)和召回率(%)。

如表1所示,我们在CCTSDB 2021上将不同版本的DS MYOLO与最先进的YOLO实时目标检测器进行了比较。总体来说,DS MYOLO在多个指标上都表现出色,在轻量级模型中,DS MYOLO-N以4M参数量和9G计算量实现了52.22%的最高准确率和88.1%的检测框精度。进一步扩大模型规模时,DS MYOLO(-S/-M)仍然保证了可靠的检测性能,并明显超越了现有最先进的实时目标检测器。

表1 在CCTSDB 2021上与最先进的YOLO实时目标检测器的性能比较

如表2所示,我们在VLD-45上对轻量级的实时目标检测器进行了对比评估。几种轻量级模型的检测精度均达到了95%以上。在mAP方面,我们的DS MYOLO取得了最高的mAP、mAP50和mAP75。在检测框精度和召回率方面,DS MYOLO仍然表现最优,分别达到 97.7% 和 93.2%。总体而言,DS MYOLO 在整体性能方面表现较好,这表明在目标尺度变化剧烈的驾驶场景中,DS MYOLO具有更加可靠的性能。

表2 在VLD-45上与最先进的YOLO实时目标检测器的性能比较

(3)CAM可视化

图2展示了YOLOv5,YOLOv8,YOLOv10和DS MYOLO在CCTSDB 2021上的CAM可视化结果。可以看出,我们的DS MYOLO能够准确地检测到目标位置,并为检测区域分配更高的权重。此外,DS MYOLO能够聚焦不同尺度的目标,从而降低误检率。

图2 在CCSTDB 2021上的CAM可视化结果

5. 总结

论文提出了一种基于SSM的实时目标检测器(DS MYOLO)来精确检测驾驶场景下的多尺度变化目标,从而增强自动驾驶辅助系统的安全性。设计的SimVSS Block有效增强了深度网络中的特征融合。此外,所提出的高效通道注意力卷积(ECAConv)显著增强了跨通道特征交互。在CCTSDB 2021交通标志数据集和VLD-45车辆标志数据集上进行的大量实验表明,我们的DS MYOLO在同等规模的YOLO系列实时目标检测器中实现了最高性能,并表现出强大的竞争力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2106387.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用Cloudflare构建RAG应用;端到端语音开源大模型;AI幻灯片生成器,等六个开源项目

✨ 1: Cloudflare RAG 如何使用Cloudflare构建一个完整的RAG应用,结合多种搜索技术和AI服务。 Cloudflare RAG(Retrieval Augmented Generation)是一个全栈示例,展示如何使用 Cloudflare 构建 RAG 应用程序。该项目结合了 Cloud…

新能源车“卖电”有多赚?多地试点反向充电

新能源车“卖电”有多赚?多地试点车对桩反向充电 据经济观察报了解,在不同的城市,新能源车主参与车网互动获得的收益差异颇大。同时,有的车主担心增加充放电次数影响电池寿命,不愿意参与。 今年入夏以来,随…

C#实战|大乐透选号器[2]:初始化动态生成大乐透红球区选择球

哈喽,你好啊,我是雷工! 红球区和篮球区的选择球可以通过拖拽控件一个一个的拖放实现,但该方法太浪费时间,可以使用循环动态生成; 只要通过观察找到每个球的位置坐标的规律,就可以通过循环生成,这样即使有再多球也不至于一个一个的拖放实现了; 以下为初始化动态生成大乐…

Redis在Spring Boot中的应用详细讲解和案例示范

深入理解Redis在Spring Boot中的应用 Redis 作为一种高性能的键值数据库,常被用于缓存、会话管理和其他需要快速访问的数据存储场景中。在 Spring Boot 项目中集成 Redis,可以显著提高应用的性能和可扩展性。本篇文章将深入探讨如何在 Spring Boot 中使…

几千块考的证,公司根本不认,「PMP证书」是智商税吗?

有很多小伙伴们担心,自己的公司并不认可PMP证书,觉得考这个证书没什么用。 真的是这样吗🤔?但据观察来看,PMP主要是北上广深等发达城市的认可度更高,有75%都是来自于北上广深以及江苏、浙江等经济发达地区。…

内裤洗衣机是鸡肋吗?五大品质拔尖的佳品一览

当代年轻人对生活品质的追求日益迫切,现在许多用户都开始注重整理和清洗衣物,举例来说,通常会把婴儿的小件衣物分开洗,将不同类型的衣物分开洗,甚至是将内衣也分开洗,主要由于大型洗衣机的卫生问题又堪忧&a…

Android OpenGLES开发:EGL环境搭建

努力,不是为了要感动谁,也不是要做给哪个人看,而是要让自己随时有能力跳出自己厌恶的圈子,并拥有选择的权利,用自己喜欢的方式过一生! EGL是什么? 谈到openGL开发我们就不得不说EGL&#xff0c…

eetrade:黄金分哪几种,什么金最好

随着黄金价格的持续走高,越来越多的消费者开始关注黄金的购买。市场上出现了多种黄金类型,如足金、千足金、万足金、3D硬金、古法黄金等,让人感到困惑。本文将为您详细解析这些黄金的种类及其含金量,帮助您更好地理解和选择。 一…

备忘录在哪添加图片?桌面备忘录能保存图片吗

在快节奏的生活中,备忘录app已成为我们日常工作和学习的得力助手。它帮助我们规划任务、提醒重要事件,确保一切井然有序。但备忘录的用途远不止于此,随着科技的发展,现在的备忘录功能已经越来越强大。 很多人习惯在备忘录中记录文…

2.门锁_STM32_舵机设备实现

概述 需求来源: 门锁的开启和关闭,就是电机来控制。这里不进行实际门锁机械结构的设计,选择用舵机或者电机转动一定的角度,就代表门锁开启。 舵机开发整体思路: 使用STM32裸机开发舵机,使得舵机可以实现…

悟空有枪:玩家解包文件发现《黑神话》有AK47

今日,Reddit的《黑神话》子版的一位玩家分享了本作的全新震撼内容:AK47。据他描述,这是一位中国玩家解包发现的,页面描述十分搞笑:不能化身白衣秀士,捻诀念咒,什么也不会发生,快慢机…

【有啥问啥】抽象语法树(Abstract Syntax Tree, AST)的原理详解

抽象语法树(Abstract Syntax Tree, AST)的原理详解 引言 在编译器设计、编程语言解析以及静态分析工具中,抽象语法树(AST)是一个至关重要的概念。AST是一种树状结构,用于表示源代码的抽象语法&#xff0c…

ubuntu 常见问题的收录

在使用过程中,发现ubuntu的问题一点不必windows少。因为每次遇到问题都需要要上网找,所以收集起来之后就会方便一些。 版本体验 24.04:整体的风格大变样,更趋近于“现代化”?反正我是更喜欢了 😄。就着风…

PAT.7-1 按格式合并两个链表

题目 解题思路 题目一看是和链表相关的,而且是两个链表,那肯定核心思路和双指针相关了。 我们来一步步拆分问题: 首先我们要把给我们的链表构建出来,所以需要一个Node类,以及一个buildNode的方法。那么输入给我们的是…

CAS理解和说明

目录 1.CAS是什么? 2.CAS的应用场景 2.1 实现原子类 2.2 实现自旋锁 3.CAS的典型问题:ABA问题 1.CAS是什么? CAS:全称compare and swap(比较并交换) 我们假设内存中的原始数据V,旧的预期值A,需要修改的新值B 1.比较A与V是否相等(比较…

EmguCV学习笔记 VB.Net 9.2 VideoWriter类

版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的。 EmguCV是一个基于OpenCV的开源免费的跨平台计算机视觉库,它向C#和VB.NET开发者提供了OpenCV库的大部分功能。 教程VB.net版本请访问…

Android Camera 之 CameraInfo 编码模板(前后置摄像头理解、摄像头图像的自然方向理解)

一、Camera.CameraInfo Camera.CameraInfo 是用于获取设备上摄像头信息的一个类,它提供摄像头的各种详细信息,例如,摄像头的方向、是否支持闪光灯等,以下是它的常用属性 static int CAMERA_FACING_BACK:表示设备的后置…

kubernetes 中 利用yaml文件部署应用

目录 1 用yaml文件部署应用有以下优点 1.1 声明式配置: 1.2 灵活性和可扩展性: 1.3 与工具集成: 2 资源清单参数介绍 2.1 获得资源帮助指令explain 2.2 编写示例 2.2.1 示例1:运行简单的单个容器pod 2.2.2 示例2:运行…

二叉树 - 最大二叉树

654. 最大二叉树 方法一 /*** Definition for a binary tree node.* function TreeNode(val, left, right) {* this.val (valundefined ? 0 : val)* this.left (leftundefined ? null : left)* this.right (rightundefined ? null : right)* }*/ /*** param…

java整合Redission

1.maven仓库查询Redisson并倒入项目 <dependency><groupId>org.redisson</groupId><artifactId>redisson-spring-boot-starter</artifactId><version>3.35.0</version> </dependency> 2.配置文件&#xff08;采用yml配置方式&…