Swin版VMamba来了！精度再度提升，VMamba-S达成83.5%，超越Swin-S，已开源！

Swin版VMamba来了！精度再度提升，VMamba-S达成83.5%，超越Swin-S，已开源！

news2026/3/30 9:17:39

本文首发：AIWalker

就在昨日，华科王兴刚团队公开了Mamba在ViT的入局Vim，取得了更高精度、更快速度、更低显存占用。相关信息可参考：

入局CV，Mamba再显神威！华科王兴刚团队首次将Mamba引入ViT，更高精度、更快速度、更低显存！

就在纳闷Swin版的VMamba啥时候出来之时，UCAS、华为以及鹏城实验室联合提出了Swin版本的VMamba，不出之外的取得了更高的精度，VMamba-S比Vim-S指标还高出3.2% ，不过这在意料之中，Swin-S也比DeiT-S高3%左右，不得不为Vim早一天公开感到庆幸，_哈哈

https://arxiv.org/abs/2401.10166
https://github.com/MzeroMiko/VMamba

本文受到最近提出的状态空间模型的启发，提出了一种视觉状态空间模型（VMamba），在不牺牲全局感受野的情况下实现了线性复杂度。为了解决方向敏感的问题，我们引入了交叉扫描模块（CSM）遍历空间域和转换任何非因果的视觉图像顺序补丁序列。大量的实验结果证明，VMamba在各种视觉感知任务中表现出有前途的能力，而且随着图像分辨率的增加，表现出更明显的优势。

本文方案

上图为所提VMamba架构示意图，很明显与Swin Transformer具有相似的宏观架构，区别在于核心模块：VSS Block。很明显，VSS Block是一种大核卷积注意力模块，这里的关键就变成了如何基于SSM构建大感受野卷积注意力核了。在这里，参考S6(Selective Scan Mechanism)，作者引入了2D选择性扫描机制。在S6中，矩阵$ B \in R^{B \times L \times N}, C \in R^{B \times L \times N}, \Delta in \in R^{B \times L \times D} $由输入数据$ x\in R^{B \times L \times N}$ 推导而来。这就意味着：S6具有输入感知的上下文信息，确保了该机制内权值的动态性。

上图给出了由S6引申而来的交叉扫描模块CSM。流程上，

首先，将输入图像特征沿横纵坐标轴展开为序列，即图示的扫描扩展；
然后，沿四个方向进行扫描，即左上到右下、下右到左上、左下到右上、右上到左下。通过这种处理方式（可参考下图），任意像素都从不同方向集成了上下文信息。

最后，将每个序列回填至原始图像位置得到了新的图像特征。

本文实验

上表给出了三种不同大小VMamba架构参数信息，对应了Swin-T、Swin-S、Swin-B。

ImageNet分类

上表给出了ImageNet分类任务上的性能对比，可以看到：

在相似FLOPs下，VMamba-T以82.2%精度比RegNetY高出2.2%、比DeiT-S高出2.4%、比SwinT高出0.9%；
在Small尺度下，VMamba-S去的了83.5%，比RegNetY高出1.8%、比Swin-S高出0.5%；
在Base尺度下，VMamba取得了83.2%，比RegNetY高出0.3%、比DeiT-B高出0.1%。

COCO检测

ADE20K语义分割

Analysis

最后，作者还从感受野、输入分辨率等角度对VMamba进行了消融分析。总而言之，Mamba入局CV之路正式起航~

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1398107.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

钡铼楼宇暖通网关之 BACnet网关在空气源热泵智能控制系统中的应用介绍

钡铼楼宇暖通网关之 BACnet网关在空气源热泵智能控制系统中的应用介绍

前言在刚刚过去的2023年，空气源热泵市场依然火爆，全线市场销量递增，各种新品层出不穷，市场认可度持续攀升，在整个采暖市场，空气源热泵已然成为当红明星。热泵组管道比较复杂，传感器分布比较分…

阅读更多...

vue2 使用pdf.js 实现pdf预览，并可复制文本

vue2 使用pdf.js 实现pdf预览，并可复制文本

需求：pdf预览，并且可以选中pdf的内容进行复制。在ruoyi的vue前端项目中用到，参考了网上不少文章，因为大部分没给具体的pdf.js版本，导致运行过程中报各种api 错误，经过尝试以下版本可用&#xff0c…

阅读更多...

Linux中的新建用户、切换用户

Linux中的新建用户、切换用户

目录一、Linux系统中有哪些用户二、新建普通用户三、root账号与普通账号的切换一、Linux系统中有哪些用户 1.root 超级管理员（不受权限约束） 2.其他用户普通用户（受到权限约束） 二、新建普通用户创建新用户 sudo user…

阅读更多...

HarmonyOS鸿蒙学习基础篇 - 项目目录和文件介绍

HarmonyOS鸿蒙学习基础篇 - 项目目录和文件介绍

vue_basic├── hvigor //存储购置信息的文件，主要用于发布打包 ├── idea //开发工具相关配置可忽略 ├── AppScope //工程目录全局公共资源存放路径 │ └── resources │ │ └── base │ │ │ └── element //常亮存放 │ │ …

阅读更多...

2023年中国互联网测试开发大会（MTSC2023上海站）：核心内容与学习收获（附大会核心PPT下载）

2023年中国互联网测试开发大会（MTSC2023上海站）：核心内容与学习收获（附大会核心PPT下载）

在当今快速发展的互联网时代，软件质量与用户体验的保障离不开测试开发工程师的辛勤付出。本次峰会正是在这样的背景下应运而生，旨在汇聚业界精英，共同探讨测试开发的最新技术与实践。本文将深入剖析大会的核心内容，以及参与者从中…

阅读更多...

零日漏洞：威胁与应对

零日漏洞：威胁与应对

一、引言随着信息技术的迅猛发展，网络安全问题日益凸显。其中，零日漏洞已成为当今网络安全领域最受关注的问题之一。本文将深入探讨零日漏洞的威胁、产生原因以及应对策略，以期提高人们对这一问题的认识和防范意识。二、零日漏洞的威胁 …

阅读更多...

elementUI+el-upload 上传、下载、删除文件以及文件展示列表自定义为表格展示

elementUI+el-upload 上传、下载、删除文件以及文件展示列表自定义为表格展示

Upload 上传组件的使用官方文档链接使用el-upload组件上传文件具体参数说明，如何实现上传、下载、删除等功能获取文件列表进行file-list格式匹配代码文件展示列表自定义为表格展示使用的具体参数说明文件大小展示问题（KB/MB）文件下载代码…

阅读更多...

Ubuntu中查看IP地址的常用命令及使用方法

Ubuntu中查看IP地址的常用命令及使用方法

在Ubuntu操作系统中，了解和查看IP地址是进行网络配置、故障排除以及连接其他设备的重要一步。以下是几个常用的命令来查看IP地址： 一、ifconfig命令输入ifconfig 输出如图所示，即为ip地址如若提示没有ifconfig命令，则可以使用…

阅读更多...

node.js(expree.js )模拟手机验证码功能及登录功能

node.js(expree.js )模拟手机验证码功能及登录功能

dbconfig.js const mysql require(mysql) module.exports {// 数据库配置config: {host: localhost, // 连接地址port: 3306, //端口号user: root, //用户名password: wei630229, //密码database: exapp2, //数据库名}, // 连接数据库，使用mysql的连接池连接方式…

阅读更多...

力扣36. 有效的数独

力扣36. 有效的数独

模拟思路： 使用三个哈希表来存储数字个数 row[r][val] 用于存储第 r 行 val 1 的个数；column[c][val] 用于存储第 c 列 val 1 的个数； subboxes[i][j][val] 用于存储第 i 行、第 j 列个小九宫格 val 1 的个数，其中&#xff1…

阅读更多...

原生微信小程AR序实现模型动画播放只播放一次，且停留在最后一秒

原生微信小程AR序实现模型动画播放只播放一次，且停留在最后一秒

1.效果展示 0868d9b9f56517a9a07dfc180cddecb2 2.微信小程序AR是2023年初发布，还有很多问提（比如glb模型不能直接播放最后一帧；AR识别不了金属、玻璃材质的模型等…有问题解决了的小伙伴记得告诉我一声） 微信官方文档地址 3.代码…

阅读更多...

HashMap 的底层实现#JDK1.8 之前

HashMap 的底层实现#JDK1.8 之前

最近很多同学问我有没有java学习资料，我根据我从小白到架构师多年的学习经验整理出来了一份50W字面试解析文档、简历模板、学习路线图、java必看学习书籍、需要的小伙伴可以关注我公众号：“ Tom聊架构 ”， 回复暗号：“ 578”即…

阅读更多...

递归、搜索与回溯算法（专题一：递归）

递归、搜索与回溯算法（专题一：递归）

往期文章（希望小伙伴们在看这篇文章之前，看一下往期文章） （1）递归、搜索与回溯算法（专题零：解释回溯算法中涉及到的名词）【回溯算法入门必看】-CSDN博客接下来我会用几道题&#…

阅读更多...

【开源】基于JAVA语言的教学资源共享平台

【开源】基于JAVA语言的教学资源共享平台

目录一、摘要1.1 项目介绍1.2 项目录屏二、功能模块2.1 数据中心模块2.2 课程档案模块2.3 课程资源模块2.4 课程作业模块2.5 课程评价模块三、系统设计3.1 用例设计3.2 类图设计3.3 数据库设计3.3.1 课程档案表3.3.2 课程资源表3.3.3 课程作业表3.3.4 课程评价表四、系统展…

阅读更多...

WebSocket协议、与HTTP对比

WebSocket协议、与HTTP对比

WebSocket 也可前往本人的个人网站进行阅读 WebSocket 和 HTTP WebSocket和HTTP协议一样，都是基于TCP协议实现的应用层协议。 HTTP协议通常是单边通信，主要用于传输静态文档、请求-响应通信，适用于Web浏览器加载网页、API调用等。然而Web…

阅读更多...

C++类与对象【运算符重载】

C++类与对象【运算符重载】

🌈个人主页：godspeed_lucip 🔥 系列专栏：C从基础到进阶 🎄1 运算符重载🌽1.1 加号运算符重载🌽1.2 左移运算符重载🌽1.3 递增运算符重载🌽1.4 赋值运算符重载&#x1f33…

阅读更多...

『MySQL快速上手』-⑩-索引特性

『MySQL快速上手』-⑩-索引特性

文章目录 1.索引的作用2.索引的理解建立测试表插入多条记录查看结果 2.1 MySQL与磁盘交互的基本单位2.1 为何IO交互要是 Page2.3 理解单个Page2.4 理解多个Page2.5 页目录2.6 单页情况2.7 多页情况2.8 B vs B2.9 聚簇索引 vs 非聚簇索引非聚簇索引聚簇索引 3.索引操作3.1 创建主…

阅读更多...

C#操作pdf之使用itext实现01-生成一个简单的table

C#操作pdf之使用itext实现01-生成一个简单的table

创建.net 8控制台项目安装itext <PackageReference Include"itext" Version"8.0.2" /><PackageReference Include"itext.bouncy-castle-adapter" Version"8.0.2" /><PackageReference Include"itext.bouncy-cast…

阅读更多...

操作系统实验报告

操作系统实验报告

目录目录实验一一、实验结果实验二使用信号量实现进程互斥与同步一、实验结果 1. 使用信号量实现有限缓冲区的生产者和消费者问题 2. 使用信号量实现读进程具有优先权的读者和写者问题实验三死锁和预防一、实验要求二、实验内容三、实验结果实验四内…

阅读更多...

list上

list上

文章目录初步了解list面试题：为什么会有list？vector的缺点：vector、list优点 list结构迭代器的分类list的简单运用insert、erase、迭代器失效（和vector的区别）erase class和structlist的迭代器为什么这个迭代器的构造…

阅读更多...

推荐文章

最新文章