不同状态空间模型的实验对比(二)

news2024/10/7 16:25:54

对五个下游任务进行了实验比较,包括单/多标签分类、视觉对象跟踪、像素级分割、图像到文本生成和人/车辆再识别。

论文:https://arxiv.org/abs/2404.09516
作者单位:安徽大学、哈尔滨工业大学、北京大学

更多相关工作将在以下GitHub上不断更新
https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List

对于单标签分类问题,我们在广泛使用的ImageNet-1K[2]数据集上计算现有作品的准确率。如图12 (d)所示,我们可以发现,
基础版本的VMamba[60]和Mamba2D[68]在ImageNet1K数据集上取得了更好的结果,top-1的准确率分别为83.2%和83%。我们也很容易发现,目前基于mamba的视觉模型都是微小的、小的或基础的版本,很少预训练一个大型或巨大版本的Mamaba网络。总体性能与一些基于Transformer的模型相当,但仍然不如ImageNet分类数据集上的最先进的模型
在这里插入图片描述

对于多标签分类,我们选择行人属性识别(Pedestrian Attribute Recognition, PAR)任务[6],在PA100K[208]和PETA[209]数据集上进行实验。PA100K数据集包含从598个场景中收集的100,000个样本,涉及26个行人属性。我们基于默认设置(8:1:1)分割训练、验证和测试子集。
PETA数据集包含61个二值属性和19,000人的照片。训练、验证和测试子集分别包含9500、1900和7600张图像。按照其默认设置,选择35个行人属性进行实验。

在这里插入图片描述

本实验采用ViT-S[19]和基于mamba的网络虚拟机[61]作为主干。我们遵循基于视觉语言融合的PAR框架VTB[207],该框架以行人图像和属性集为输入,并预测每个属性的逻辑分数。从表10报告的实验结果可以发现,基于Vim-S的PAR模型在PETA数据集上达到81.08/73.75/80.91/84.96/82.52,在PA100K数据集上达到80.41/78.03/85.39/88.37/86.39。这些结果明显优于基于ViT-S的模型,但仍然明显低于基于Transformer网络开发的PAR算法。例如,基于vitb的VTB在PETA和PA100K数据集上达到85.31/79.60/86.76/87.17/86.71,83.72/80.89/87.88/89.30/88.21。

视觉目标跟踪

在本节中,我们比较了Mamba与Transformer,以及基于CNN的骨干基于OSTrack的跟踪任务[210]。具体来说,基于CNN的跟踪器有TrDiMP[211]、ToMP50[212]、DiMP50[213]、PrDiMP[214]、KYS[215]和ATOM [216];基于Transformer的跟踪器是HDETrack[217]、AiATrack[218]、STARK[219]、TransT[220]、MixFormer[221]和SimTrack[222]。为了实现公平的比较,我们在一个大规模的基于事件的跟踪数据集EventVOT[217]上训练和测试这些跟踪器,该数据集分别包含841、18和282个视频。详细实验结果见表11和图13。注意,比较中使用了三种广泛使用的评估指标,包括成功率(SR)、准确率(PR)和归一化准确率(NPR)。从表11中我们可以发现,使用Mamba骨干网替换ViT时,性能略有下降,但同时带来了参数数量的巨大减少(仅4.1M)。因此,我们可以得出结论,曼巴网络将是一个有前途的选择,为基于事件的跟踪。

在这里插入图片描述

像素级分割

最近,曼巴网络在医学图像分割中得到了广泛的应用,如图12 (e, f, g)所示。例如,基于swing - transformer的模型SwinUNet[223]在MRI心脏数据集中获得了89.33/99.57/88.46 (Dice, IoU, Accuracy)。相比之下,基于mamba的UNet实现了类似甚至更好的分段结果,如Mamba-UNet[67],半Mamba-UNet[70]和弱Mamba-UNet[72]。这些结果充分证明了曼巴结构在医学图像分割中的有效性

Image-to-Text代

对于图像到文本的生成,我们选择x射线医学的x射线报告生成任务图像作为输入,生成医疗报告5。在实验中,我们选择R2GenGPT6作为基线,并在IU-Xray数据集上评估其性能[224]。R2GenGPT由视觉编码器(Swin Transformer[20])、线性层和大型语言模型(llama-2-7B-chat[225])组成。训练方法包括最初冻结语言模型,然后对视觉编码器和线性层进行微调。我们将Swin Transformer替换为Vim模型[61],并将结果与表12中的其他方法进行比较。由于这两个模型都使用预训练的组件,Vision Mamba在BLEU-4和ROUGE-L评分方面表现出比Swin Transformer模型更优越的性能

在这里插入图片描述

人/车辆 Re-ID

如表13所示,我们对人再识别[257]和车再识别[256]两个再识别(re-ID)任务进行了实验。对于人员re-ID,使用了四个广泛使用的数据集,包括MSMT17 [258], Market1501 [259], DukeMTMC[260]和Occluded-Duke[261]数据集。从不同的场景中捕获这些数据集,并收集来自摄像机覆盖范围重叠的监控系统的样本,存在跨时间跨度、遮挡和背景干扰等挑战。对于车辆reID,使用VeRi-776[262]和VehicleID[263]数据集进行实验验证。与行人样本不同,观察视点的变化也会给车辆带来显著的外观差异,因此车辆数据集额外提供视点标签来标记车辆样本的不同视点。对于上述数据集,我们使用累积匹配特征(CMC)曲线和平均平均精度(mAP)作为评价指标。

参考TransReID[255]和Strong Baseline[264]等主流框架,我们保留了ID Loss、Triplet Loss和BN Layer,使用Vim[61]和VMamba[60]替代了CNN和Transformer主干,探索Mamba在重新识别任务中的潜力,对比结果如表13所示。Mamba模型提出的选择性扫描机制(SSM)允许低复杂度的序列建模,Vim和VMamba在此基础上进一步提出了二维图像数据的SSM建模方法。与需要复杂模块设计的基于cnn的模型相比,简单的Mamba网络已经具有有效性。即使与DeiT[265]、ViT[19]等复杂度较高的模型相比,Vim提出的双向扫描机制训练参数较少,在VehicleID数据集上也显示出了有效性。相比之下,vamba的交叉扫描机制不依赖于Transformer的结构(例如,位置嵌入和类标记),在Market1501、DukeMTMC和VeRi-776数据集上取得了可比较的结果。因此,我们期望在未来有更多基于曼巴的研究适用于重新识别任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1632252.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JavaScript 的基本术语大全

文章目录 1、概述2、基本术语2.1、有效负载 (Payload)2.2、ReadableStream2.3、模块系统2.4、DOM (Document Object Model)2.5、事件 (Events)2.6、活动委托 (Event Delegation)2.7、内容安全策略 (CSP)2.8、渐进增强和优雅降级2.9、JSON (JavaScript Object Notation)2.10、AJ…

支付宝沙盒(java使用支付宝)springboot

目录 前言 注册账号(直接搜索支付宝沙盒) ​编辑 具体代码编写 Application配置(按自己需求添加) config(这里需要亲自添加appid,privateKey,publicKey) controller类 Service类 ServiceImpl类 运…

OpenNJet产品体验丨从零部署一个炫酷的Web服务器

本文记录了使用OpenNJet从零部署一个Web服务器的心得体会。 OpenNJet官方网站:https://njet.org.cn/ 一、基本信息 产品名称 OpenNJet 体验版本 2.1.0 体验设备 VMware16Ubuntu18.04 体验时间 2024.4.23 体验耗时 1.5 h 二、产品信息 产品简介&#x…

【13-支持向量机(SVM):Scikit-learn中的分类与回归】

文章目录 前言理解SVM核心概念SVM的优势SVM的劣势Scikit-learn中的SVM实现安装与导入数据准备SVM分类SVM回归调优与最佳实践总结前言 支持向量机(SVM)是一种强大的机器学习算法,用于解决分类、回归和异常检测问题。它的核心思想是找到一个最优超平面,使得不同类别之间的边界…

一文了解云原生应用引擎的领跑者:OpenNJet

一文了解云原生应用引擎的领跑者:OpenNJet 1. 什么是应用引擎2. NGINX 架构与 NJet架构的区别3. OpenNJet 编译与安装步骤3.1 配置编译环境-CentOS 编译环境配置3.2 编译代码 4. OpenNJet 的基本使用4.1 系统目录结构及功能说明4.2 基础命令 5. 快速上手-如何通过 O…

4.Docker本地镜像发布至阿里云仓库、私有仓库、DockerHub

文章目录 0、镜像的生成方法1、本地镜像发布到阿里云仓库2、本地镜像发布到私有仓库3、本地镜像发布到Docker Hub仓库 Docker仓库是集中存放镜像的地方,分为公共仓库和私有仓库。 注册服务器是存放仓库的具体服务器,一个注册服务器上可以有多个仓库&…

IP纯净度对跨境电商有什么直接影响?

IP纯净度对跨境电商具有直接且深远的影响。在跨境电商的运作中,IP地址扮演着至关重要的角色,而IP纯净度则直接关系到跨境电商的网络安全性、访问效果以及业务竞争力。 第一点,纯净的IP地址对于提升跨境电商的网络安全性具有关键作用&#xf…

AI项目二十:基于YOLOv8实例分割的DeepSORT多目标跟踪

若该文为原创文章,转载请注明原文出处。 前面提及目标跟踪使用的方法有很多,更多的是Deepsort方法。 本篇博客记录YOLOv8的实例分割deepsort视觉跟踪算法。结合YOLOv8的目标检测分割和deepsort的特征跟踪,该算法在复杂环境下确保了目标的准…

信创 | 信创产品行业有哪些?已取得了哪些进展?

信创产业是一条庞大的产业链,涉及IT基础设施产品(如CPU芯片、服务器、存储、交换机、路由器等),以及基础软件、应用软件、网络安全等领域。信创产业的核心目标是建立自主可控的信息技术底层架构和标准,全面推进国产替代…

Models_M1

a1 Hugging Face a2 openai/whisper-large-v3 示 a3 ByteDance/Hyper-SD 示​​​​​​​ a4 OpenGVLab/InternV…

LeetCode-旋转链表

每日一题,很久没做链表的题了,今天做l一道相对简单的力扣中等难度题。 题目要求 给你一个链表的头节点 head ,旋转链表,将链表每个节点向右移动 k 个位置。 示例 1: 输入:head [1,2,3,4,5], k 2 输出&…

FPGA 以太网概念简单学习

1 MAC和PHY 从硬件的角度来说,以太网接口电路主要由 MAC ( Media Access Control )控制器和物理层接口 PHY(Physical Layer , PHY )两大部分构成。 MAC 指媒体访问控制子层协议,它和 PHY 接…

使用yolov8+QT+onnrunxtime进行开发的注意事项

1、本来想尝试做一个C的yolov8在QT5.15.2的应用; 因此,在实现这个目标的时候,我先用了yolov8自带的export进行导出,使用的代码很简单,如下所示: import os from ultralytics import YOLO# model YOLO(&q…

优卡特脸爱云一脸通智慧平台 UpLoadPic.ashx 文件上传致RCE漏洞复现

0x01 产品简介 脸爱云一脸通智慧管理平台是一套功能强大,运行稳定,操作简单方便,用户界面美观,轻松统计数据的一脸通系统。无需安装,只需在后台配置即可在浏览器登录。功能包括:系统管理中心、人员信息管理中心、设备管理中心、消费管理子系统、订餐管理子系统、水控管理…

uniapp分包,以及通过uni-simple-router进行分包

先说一下uniapp的直接分包方式,很简单: 配置分包信息 打开manifest.json源码视图,添加 “optimization”:{“subPackages”:true} 开启分包优化 我们在根目录下创建一个pagesA文件夹,用来放置需要分包的页面 然后配置路由 运行到…

OpenNMS安装

环境要求 硬件要求 Just Testing 1Minimum Server Specification 2Minimum Server Specification 2CPU2GHz dual core x86_643GHz quad core x86_64 and aboveRAM4GB (physical)16GB (physical) and aboveStorage (disk space)50-GB HDD, SSD1TB with SSD and above You can i…

Python并发编程:揭开多线程与异步编程的神秘面纱

第一章:并发编程导论 1.1 并发与并行概念解析 1.1.1 并发性与并行性的区别 想象一下繁忙的厨房中多位厨师同时准备不同的菜肴——即使他们共享有限的空间和资源,也能协同工作,这就是并发性的一个生动比喻。并发性意味着多个任务在同一时间…

基于 dockerfile 编写LNMP

目录 一. 环境准备 二. 部署 nginx 2.1 建立工作目录,并上传需要的安装包 2.2 配置 nginx.conf 文件 2.3 编写 dockerfile 2.4 构建一个新的镜像 2.5 启动一个新的容器 三. 部署MySQL 3.1 建立工作目录,并上传安装包 3.2 编写 Dockerfile 3.…

ROS学习笔记(14)拉普拉斯变换和PID

0.前提 近些时间在对睿抗的ROS仿真赛进行小组安排,对小组成员进行了一些安排,也要求他们以本次比赛写下自己的比赛经历博客,他们的培训由我来安排和负责,因此我得加吧油,起码保证我的进度得快过他们,才能安…

源码编译安装curl _ 统信UOS _ 麒麟KOS _ 中科方德

原文链接:源码编译安装curl | 统信UOS | 麒麟KOS | 中科方德 Hello,大家好啊!今天我们来探讨一个非常实用的话题:在统信UOS、麒麟KOS以及中科方德桌面操作系统上如何从源码编译安装curl。Curl是一个广泛使用的命令行工具和库&…