开源Mamba-2性能狂飙8倍!多个Mamba超强进化体拿下顶会

news2024/10/5 15:29:04

MambaOut的热度刚过去没多久,Mamba-2就带着它狂飙8倍的性能炸场了。

Mamba-2的核心层是对Mamba的选择性SSM的改进,同等性能下,模型更小,消耗更低,速度更快。与Mamba不同,新一代的Mamba-2再战顶会,这次顺利拿下ICML。

其实除了Mamba-2以外,还有很多关于Mamba的改进方案也被各大顶会收录,比如视觉Mamba中稿ICML 2024,SegMamba和Swin-UMamba均中稿MICCAI 2024。而且现在关于Mamba的各种研究一直在爆发性地增长,已经成了顶会的热门投稿方向。

这次我从Mamba众多改进方案中挑选了12个最新研究成果来分享,这些成果的代码都已开源,我也一并附上了,方便各位快速了解Mamba改进的前沿进展并复现。

论文原文以及开源代码需要的同学看文末

Mamba®: Vision Mamba ALSO Needs Registers

方法:本文探讨了Vision Mamba特征图中的伪影与Vision Transformers的区别,并引入了一种名为Mamba®的新型架构,通过策略性地插入寄存器来增强图像处理能力,实验证明Mamba®在准确性和可扩展性方面表现优越,为未来优化Mamba架构在视觉领域的研究提供了坚实的基础。

创新点:

  • 引入了一种改进的Mamba ® 架构,通过在令牌序列中插入一些新的、与输入无关的寄存器令牌,对Vision Mamba进行简单而有效的架构改进。与先前的方法不同,该方法不仅在输入层的一端附加几个寄存器令牌,而且在Vision Mamba的末尾,将寄存器令牌连接起来,形成用于最终预测的综合图像表示。

  • 在Vision Mamba中引入了寄存器令牌,以解决特征图中的伪影问题。通过在令牌序列中更密集地分布寄存器令牌,该方法能够更好地解决更普遍的伪影问题,从而增强图像处理能力。

SSAMBA: Self-Supervised Audio Representation Learning with Mamba State Space Model

方法:本文介绍了一种自监督音频Mamba(SSAMBA)模型,它利用状态空间模型(SSMs)和双向架构的优势进行音频表示学习,相比传统的基于Transformer的模型,SSAMBA提供了一种更高效、可扩展的替代方案。

创新点:

  • 提出了SSAMBA,这是第一个自我监督、无注意力、基于SSM(state space models)的音频表示学习模型。SSAMBA采用双向Mamba对音频进行编码和处理,并且在没有标签数据的情况下进行预训练。

  • 相比于传统的基于transformer的模型,SSAMBA采用了更高效且可扩展的Mamba架构,避免了二次复杂性。SSAMBA在资源受限的设备上表现出色,具有广泛的实际应用潜力,从移动和边缘设备到大规模云系统。

PoinTramba: A Hybrid Transformer-Mamba Framework for Point Cloud Analysis

方法:本文介绍了一种名为PoinTramba的新型混合框架,将Transformer的强大建模能力与Mamba的计算效率相结合,用于增强点云分析。通过将点云分段成组,Transformer捕捉到组内复杂的依赖关系并生成组嵌入,而Mamba则同时捕捉到组间关系,确保了全面的分析。

创新点:

  • PoinTramba是一种创新的混合框架,将Transformer的强大建模能力与Mamba的高效计算能力相结合,用于点云分析。通过融合这两种架构,PoinTramba在计算复杂度和分析性能之间实现了卓越的平衡,标志着领域中的一个重大进展。

  • 引入了一种新的双向重要性感知排序策略(BIO),以处理随机点云排序的负面影响。该策略根据计算得到的重要性分数重新排序组嵌入,从而显著提高了Mamba的性能,并优化了整体分析过程。

Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning

方法:MambaDM是一种用于离线强化学习的行动序列预测器,它通过一个创新的全局-局部融合Mamba(GLoMa)模块,有效地结合了全局和局部特征的多尺度序列建模,以捕捉强化学习数据集中的复杂相互关系,并在Atari和OpenAI Gym基准测试中实现了最先进的性能。

创新点:

  • 全局-局部融合(GLoMa):创新性地设计了GLoMa模块,用于同时捕捉局部和全局特征,以更好地理解强化学习轨迹内的内在相关性。

  • 数据集规模的缩放法则:与自然语言处理(NLP)领域不同,实验结果表明,在Atari和OpenAI Gym环境中,增加模型大小并不一定提高结果。但是,为MambaDM提供更大的数据集可以显著提高性能。

  • 依赖信息的捕捉能力:通过可视化分析Mamba核心转换矩阵的特征值变化,展示了Mamba模块捕捉依赖信息的能力。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“改曼巴”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1794631.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器人舵机:关键要素解析与选择指南

在机器人技术日新月异的今天,舵机作为机器人的核心部件之一,扮演着至关重要的角色。它的性能直接关系到机器人的运动控制、稳定性以及精度等方面。那么,在选择和使用机器人舵机时,我们需要关注哪些关键要素呢?本文将为…

网络协议二

一、套接字Socket 基于 TCP UDP 协议的 Socket 编程,在讲 TCP 和 UDP 协议的时候,我们分客户端和服务端,在写程序的时候,我们也同样这样分。 在网络层,Socket 函数需要指定到底是 IPv4 还是 IPv6,分别对应设…

【数据集划分】oracle数据集划分(总结版)

【数据集划分】假如你有接近百万条oracle数据库数据(成真版) 写在最前面最终代码原理:生成随机索引并打乱顺序示例作用应用场景 遇到报错:ORA-01795,通过CTE(Common Table Expressions)和窗口函…

springcloud Feign调用拦截器(统一处理拷贝请求头实现透传信息、内部调用鉴权、打印feign调用)

springcloud Feign调用拦截器(统一处理拷贝请求头实现透传信息、内部调用鉴权、打印feign调用日志) 实现接口Feign.RequestInterceptor 实现接口 feign.RequestInterceptor 并注入到IOC容器即可生效 示范代码如下 拷贝请求头,将原请求信…

系统安全及其应用

系统安全: 1)保护数据安全, 2)互联网,网络业务服务等,必须要通过工信部的资质审核 3)保护品牌形象 应用: 账号安全 1)把不需要或者不想登录的用户设置为nologin us…

C++ 11 【可变参数模板】【lambda】

💓博主CSDN主页:麻辣韭菜💓   ⏩专栏分类:C修炼之路⏪   🚚代码仓库:C高阶🚚   🌹关注我🫵带你学习更多C知识   🔝🔝 目录 前言 一、新的类功能 1.1默认成员函数—…

龙迅#LT8711H支持TYPE-C/DP/EDP转HDMI功能应用,分辨率支持 1080p@60Hz,芯片内置固件!

1. 概述 LT8711H是一款高性能 Type-C/DP1.2/EDP 转 HD-DVI1.3 转换器,设计用于将 USB Type-C 源或 DP1.2 源连接到 HD-DVI1.3 接收器。 该LT8711H集成了符合 DP1.2 标准的接收器和符合 HD-DVI1.3 标准的发射器。此外,还包括两个用于 CC 通信的 CC 控制器…

如何去掉IDEA中烦人的警告波浪线

有时候想去掉idea中那些黄色的红色的warning波浪线,这些不是错误,并不影响执行,一直显示显得让人很烦躁,去"Editor" -> "Inspections"中一个个设置很麻烦。 可以通过设置代码检测级别来降低代码检查的严格…

26-unittest之装饰器(@classmethod)

unittest中的setUp可以在每个测试方法运行前执行,有效的减少了代码量。但有个弊端,比如打开浏览器操作,执行每个测试方法前都要重新打开一次,这样就会浪费很多时间。 是否可以只打开一次浏览器,执行完所有的测试方法后…

星火秘境游戏开发链游app定制开发源码部署

星火秘境是一款神秘而充满冒险的游戏,开发这样一款游戏需要综合考虑多个方面,包括游戏设计、美术设计、程序开发、音效制作等。下面我将简要介绍一下游戏开发和链游app搭建的一般流程: 游戏设计: 确定游戏类型:星火秘…

集团性企业数字化建设与经营管理解决方案

一、集团企业经营管理存在的问题 大型集团企业在内部财务经营管理过程中普遍存在五个方面的脱节问题。 1、战略与执行脱节:战略与执行“两张皮”,80%的企业管理者表示,战略执行过程中缺乏监督管理的系统或平台,造成执行结果大打…

手机怎么压缩视频?归纳了三种快速压缩方案

手机怎么压缩视频?在数字时代,手机已经成为我们记录生活的重要工具,而视频作为其中的一种主要形式,更是占据了极大的存储空间。然而,随着手机拍摄的视频越来越多,如何高效压缩视频以节省存储空间&#xff0…

什么无线领夹麦克风音质最好?领夹麦克风品牌排行榜前十名推荐

​在当今的数字化浪潮中,个人声音的传播和记录变得尤为重要。无论是会议中心、教室讲台还是户外探险,无线领夹麦克风以其卓越的便携性和连接稳定性,成为了人们沟通和表达的首选工具。面对市场上琳琅满目的无线麦克风选择,为了帮助…

OpenCV引入QT编译

OpenCV引入QT编译 为什么要引入QT编译编译方式 Reference: OpenCV 配置选项参考文档 网上实在找不到对应教程,在此做个记录。 为什么要引入QT编译 在没引入QT前,没有上述工具栏。 可以显示当前像素位置的像素值。 可以缩放查看每一个像素的大小。这对…

win10系统下WPS工具显示灰色全部用不了,提示登录

如果你在写文档或使用excel时发现导航栏的工具全部使用不了,弹出是需要您登录,可以通过以下操作不用登录。 按照 1(搜索框)—> 2(应用)—> 3(WPS Office)点鼠标左键—> 4&a…

巧用docker+jmeter快速实现分布式百万级并发

分享背景 碰到的问题: 一个JMeter实例可能无法产生足够的负载来对你的应用程序进行压力测试~ 解决办法: 1、修改jmeter配置文件里的内存堆 2、引入jmeter分布式压测 带来的问题: 如果我们要做分布式负载测试–我们需要1个…

二叉树的顺序结构(堆的实现)

前言 普通的二叉树是不适合用数组来存储的,因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结 构存储。 现实中我们通常把堆 ( 一种二叉树 ) 使用顺序结构的数组来存储,需要注意的是这里的堆和操作系统 虚拟进程地址空间中的堆是两回事&…

Unity3D获得服务器时间/网络时间/后端时间/ServerTime,适合单机游戏使用

说明 一些游戏开发者在做单机游戏功能时(例如:每日奖励、签到等),可能会需要获得服务端标准时间,用于游戏功能的逻辑处理。 问题分析 1、自己如果有服务器:自定义一个后端API,客户端按需请求…

性能狂飙:SpringBoot应用优化实战手册

在数字时代,速度就是生命,性能就是王道!《极速启航:SpringBoot性能优化的秘籍》带你深入SpringBoot的内核,探索如何打造一个飞速响应、高效稳定的应用。从基础的代码优化到高级的数据库连接池配置,再到前端…

怎么用PHP语言实现远程控制两路照明开关

怎么用PHP语言实现远程控制两路开关呢? 本文描述了使用PHP语言调用HTTP接口,实现控制两路开关,两路开关可控制两路照明、排风扇等电器。 可选用产品:可根据实际场景需求,选择对应的规格 序号设备名称厂商1智能WiFi墙…