一举颠覆Transformer!最新Mamba结合方案刷新多个SOTA,单张GPU即可处理140k

news2025/1/10 16:20:43

还记得前段时间爆火的Jamba吗?

Jamba是世界上第一个生产级的Mamba大模型,它将基于结构化状态空间模型 (SSM) 的 Mamba 模型与 transformer 架构相结合,取两种架构之长,达到模型质量和效率兼得的效果。

在吞吐量和效率等关键衡量指标上,Jamba处理128k长上下文时吞吐量是 Mixtral 8x7B的3倍;在成本上,Jamba一共支持256k上下文,单张A100 GPU即可处理140k。

这种十分炸裂的效果得益于其作者对Mamba和Transformer两种架构的创新性结合。受此启发,为了让Mamba也可以在其他方面达到两全其美的效果,研究者们开始探索Mamba与其他技术的结合,以期解决单一模型或方法难以克服的挑战。

目前已出现不少非常值得学习的研究成果,我从中挑选了12种Mamba结合方案,都是2024最新,可借鉴的方法和创新点我做了简单介绍,已开源的代码也都整理了,方便同学们学习。

论文原文以及开源代码需要的同学看文末

结合MoE

MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

方法:本文提出了将SSM与Mamba相结合的研究方向,以便将SSM的潜力扩展到更大规模,并与现有的最先进的语言模型竞争。 MoE-Mamba通过Mamba与Mixture of Experts层的结合,实现了SSM和MoE的效率提升,并在2.35倍的训练步骤中达到了与Mamba相同的性能。

创新点:

  • 将Mixture of Experts与State Space Models相结合,开辟了一个新的研究方向。这条道路将使得更大规模的语言模型更有效地扩展。

  • 作者发现了两种表现相似但基于不同架构的模型之间奇怪的度量不一致情况。作者假设这一差异可能暗示了Mamba和其他SSM的潜在失效模式。

结合多模态

Fusion-Mamba for Cross-modality Object Detection

方法:本文提出了一种名为Fusion-Mamba的方法,旨在在隐藏状态空间中融合特征,这可能为跨模态特征融合开辟了一种新的范例。受到Mamba的启发,作者采用具有线性复杂度的Mamba构建了隐藏状态空间,并通过门控机制进一步改进,实现更深入和复杂的融合。

创新点:

  • Fusion-Mamba方法:作者引入了一种名为Fusion-Mamba的新方法,该方法首次利用Mamba进行多模态特征融合。在Fusion-Mamba中,作者设计了两个模块:State Space Channel Swapping (SSCS)模块用于浅层特征融合,Dual State Space Fusion (DSSF)模块用于在隐藏状态空间中进行深层特征融合。

  • 2D选择性扫描(SS2D)机制:作者引入了一种名为2D选择性扫描机制,用于解决二维视觉数据和一维语言序列之间的不兼容性。SS2D机制通过将图像补丁沿四个不同方向进行扩展,生成四个独立的序列,并利用这些序列建立全局感受野。

结合SAR

Simba:Mamba augmented U-ShiftGCN for Skeletal Action Recognition in Videos

方法:论文提出了一种新的Skeleton Action Recognition (SAR)框架,将选择性状态空间模型Mamba与图数据相结合。通过在具有Shift-GCN骨干的新型编码器-解码器架构中利用Mamba,作者解决了SAR任务中有效建模长序列的挑战。与缺乏结构先验并且性能低于GCN方法的纯Transformer不同,该方法利用Mamba的力量来增强时间建模,同时保留空间信息。

创新点:

  • 首次将选择性状态空间模型Mamba集成到骨骼动作识别(SAR)和图数据领域中。通过在新颖的编码器-解码器架构中与Shift-GCN骨干网络结合使用Mamba,解决了SAR任务中有效建模长序列的挑战。

  • 模型Simba在三个基准SAR数据集(NTU RGB+D、NTU RGB+D120和Northwestern-UCLA)上取得了最先进的性能。

结合PM扩散

P-Mamba: Marrying Perona Malik Diffusion with Mamba for Efficient Pediatric Echocardiographic Left Ventricular Segmentation

方法:论文提出一种名为P-Mamba的模型,用于高效的儿科心脏超声检查左心室分割,该模型通过使用DWT-based PMD分支和Vision Mamba分支相结合的方法,在准确性和效率方面优于现有模型。

创新点:

  • P-Mamba模型:在儿科心脏超声图像中,引入了一种名为P-Mamba的创新架构,用于儿科心脏左心室的分割。该模型采用了Vision Mamba层来提高计算和内存效率,并能够捕捉全局依赖关系。同时,在基于DWT的PMD编码器分支中,引入了基于DWT的Perona-Malik扩散(PMD)块来抑制噪声,同时保留左心室的局部形态特征。

  • 数据集:该研究使用了从Lucile Packard Children's Hospital Stanford(2014-2021)收集的1,958名儿科患者的4,467个心脏超声图像数据集,其中包括7,643个灰度2D视频剪辑和17,600个标记图像。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“Mamba结合”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1614588.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

去除图像周围的0像素,调整大小

在做分割任务时,经常需要处理图像,如果图像周围有一圈0像素,需要去除掉,重新调整大小 数组的处理 如果图像的最外一圈为0,我们将图像最外圈的图像0去除掉。 import numpy as npdef remove_outer_zeros(arr):# 获取数…

vue3【详解】选项式 API 实现逻辑复用

抽离逻辑代码到一个函数函数命名约定为 useXxxx格式 ( React Hooks 也是 )在 setup 中引用 useXxx 函数 演示代码:实时获取鼠标的坐标 逻辑封装 useMousePosition.js // 导入 ref, onMounted, onUnmounted import { ref, onMounted, onUnmounted } from "vue…

【Python-Pygame】

Python-Pygame ■ Pygame-简介■ Pygame-安装■ Pygame-Rect区域位置■ Pygame-Draw绘图函数■ Pygame-■ Pygame-■ Pygame-■ Pygame-事件监听■ Pygame-Event事件模块■ Pygame-游戏循环■ Pygame-Display显示模块■ Pygame-Time时间控制■ Pygame-Font文本和字体■ Pygame-…

软考 - 系统架构设计师 - ESB(企业服务总线)例题

问题 1: 根据描述 Ramp Control 是负责系统中相关各种业务活动的组件,根据题目描述,系统中包含检查机位环境,卸货,装货等业务活动,所以 Ramp Control 服务组件提供的服务名称就是 “负责检查机位环境&#…

OLAP多维语义模型

概述 为了严谨起见,在正式内容之前,先把OLAP多维语义模型是什么说明一下。 先说OLAP(Online Analytical Processing),它是和OLTP相对的概念,关于这两个概念的详细解释网上有很多。严格的来说OLAP与多维数…

Java Email API有哪些常用功能?如何使用?

Java Email API支持哪些邮件协议?常用的邮件API推荐? Java Email API作为Java开发领域中处理电子邮件的重要工具,为我们提供了丰富的功能来发送、接收和管理电子邮件。下面,AokSend就来详细探讨一下Java Email API的常用功能。 …

Webpack-

定义 静态模块:指的是编写代码过程中的html,css,js,图片等固定内容的文件 打包:把静态模块内容压缩、整合、翻译等(前端工程化) 1)把less/sass转成css代码 2)把ES6降级…

Gitlab: Python项目CI/CD实践

目录 1. 说明 2. 准备工作 2.1 服务器 2.2 开发机hosts文件 2.3 项目 3. 步骤过程 3.1 建仓Fastapi T1 3.2 开发机测试构建与推送 ​编辑 3.3 在工作站添加gitlab-runner 3.4 提交代码,查看Pipelines结果 3.5 观察部署情况 4. 参考 1. 说明 分别以一个…

Isaac Sim 1(学习笔记2024.4.22)

仅作为个人学习笔记使用,防止一转头就找不到了 一.ROS bridge 1.On Playback Tick 节点: 在模拟“播放”时生成一个时钟信号。接收到该节点发出的时钟信号的节点将在每个模拟步骤中执行它们的计算函数。 2.ROS Subscribe Twist 节点: 订阅 …

数据结构-循环队列和循环双端队列的多角度实现

文章目录 1. 循环队列的数组形式实现2. 循环队列的链表实现3. 循环双端队列的数组形式实现4. 循环双端队列的链表实现 在力扣的题面如下 1. 循环队列的数组形式实现 其实循环队列的数组形式只有下面要注意的点,只要掌握了下面的这几点,代码层面上就没有什么问题了 用数组模拟的…

精灵传信系统/支持对接易支付/网站+小程序双端php源码下载

简介 精灵传信支持在线提交发送短信,查看回复短信,在线购买额度,自定义对接易支付,设置违禁词,支持网站小程序双端。(文末下载) 演示截图 在数字化浪潮的推动下,技术创新正以前所未…

VUE 弹框内容懒加载-真实项目

背景&#xff1a;VUE 页面&#xff0c;点击按钮&#xff0c;弹框&#xff0c;内容从接口获取&#xff0c;数据量比较大&#xff0c;鼠标滑到页面最底部&#xff0c;调取一次接口&#xff0c;分批加载&#xff1b; demo&#xff1a; <template><div><!-- 触发弹…

通用变频器ACS800-04M-0320-3可议价

商业别名&#xff1a;ACS800-04M-0320-3 产品编号&#xff1a;68279429 ABB 型号名称&#xff1a;ACS800-04M-0320-3 目录说明&#xff1a;ACS800-04M-0320-3&#xff1b; ACS800-04M-0320-3 Pcont.max:250kW, Icont.max:521A 原产地&#xff1a;芬兰 (FI) 海关税则号&#xf…

现代图形API综合比较:Vulkan | DirectX | Metal | WebGPU

Vulkan、DirectX、Metal 和 WebGPU 等低级图形 API 正在融合为类似于当前 GPU 构建方式的模型。 图形处理单元 (GPU) 是异步计算单元&#xff0c;可以处理大量数据&#xff0c;例如复杂的网格几何形状、图像纹理、输出帧缓冲区、变换矩阵或你想要计算的任何数据。 NSDT工具推荐…

springboot3 集成knife4j No endpoint GET /doc.html.

springboot3 集成knife4j 访问页面&#xff1a;http://127.0.0.1:8022/doc.html 提示&#xff1a; No endpoint GET /doc.html. 描述环境&#xff1a; java17 springboot3.2.0 knife4j的jar包 <dependency><groupId>com.github.xiaoymin</groupId><a…

vue实现周日历 日历按周切换 vue日程管理

实现的功能 1、点击今天&#xff1a;回到今日日期并选中今日日期&#xff0c;查当天数据 2、点击左箭头&#xff1a;切换上一周 3、点击右箭头&#xff1a;切换下一周 4、黄圆圈代表有日程提醒&#xff0c;点击选中&#xff0c;下方对应显示当前日程提醒的内容&#xff0c;没有…

打造稳定安全的亚马逊测评环境:关键步骤与要点一览

亚马逊测评环境的搭建是一项既复杂又需要深入细致考虑的工作&#xff0c;它涉及多方面的技术配置和资源准备。以下是一些关键步骤和要点&#xff0c;帮助您更高效地构建测评环境。 一、资源筹备 1. 养号系统&#xff1a;选择稳定、高效的养号系统&#xff0c;确保能够模拟真实…

上传文件到HDFS

1.创建文件夹 hdfs -dfs -mkdir -p /opt/mydoc 2.查看创建的文件夹 hdfs -dfs -ls /opt 注意改文件夹是创建在hdfs中的&#xff0c;不是本地&#xff0c;查看本地/opt&#xff0c;并没有该文件夹。 3.上传文件 hdfs dfs -put -f file:///usr/local/testspark.txt hdfs://m…

【JavaEE初阶系列】——网络原理之进一步了解应用层以及传输层的UDP协议

目录 &#x1f6a9;进一步讲应用层 &#x1f388;自定义应用层协议 &#x1f388;用什么格式组织 &#x1f469;&#x1f3fb;‍&#x1f4bb;xml(远古的数据组织格式) &#x1f469;&#x1f3fb;‍&#x1f4bb;json(当下最流行得一种数据组织格式) &#x1f469;&…

Docker(二)Docker+ server部署极简前端页面

本篇文章介绍如何使用 Dockerserver 将一个极简前端页面进行部署 1.本地运行一个简单的前端页面&#xff0c;再把它部署到服务器上 index.html <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name&quo…