【AI学习】Mamba学习(二十):Mamba是一种线性注意力

news2024/12/24 2:09:28

论文《Demystify Mamba in Vision: A Linear Attention Perspective 》从线性注意力的视角,对Mamba 进行了阐释。

论文名称:Demystify Mamba in Vision: A Linear Attention Perspective (Arxiv 2024.05)
论文地址:https://arxiv.org/pdf/2405.16605
https://ar5iv.labs.arxiv.org/html/2405.16605

理解Mamba的一个维度是从RNN出发,另一个维度是从线性注意力的角度。
在这里插入图片描述

文章《Mamba是一种线性注意力?清华大学揭开视觉Mamba的真面目!》对这篇论文有详细的阐释。
(文章链接:https://mp.weixin.qq.com/s/0yPNXAujJyRLIIgM9bxF3Q)
我这里摘录一些关键信息。

Mamba的形式转化

直接看文章的图2
在这里插入图片描述
图2展示了如何将SSM的公式转换为与线性注意力机制相似的形式,从而揭示SSM和线性注意力之间的联系。

线性注意力的形式转化

Softmax注意力的形式:
在这里插入图片描述
线性注意力的形式:
在这里插入图片描述
线性注意力转化为递归形式:
在这里插入图片描述

Mamba与线性注意力的对比

分别从图示和公式的形式,将manba和线性注意力进行对比:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
除了这4个差异之外,重要的是要注意式12表示单头线性注意力。这表明选择性状态空间模型类似于单头线性注意,不包含多头设计。

总之,选择性 SSM 和线性注意力之间的相似性和差异可以概括为:
选择性状态空间模型类似于具有附加输入门、遗忘门和 Shortcut 的线性注意力,同时省略归一化和多头设计。

进一步的分析:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

文章的摘要和结论

摘要:Mamba是一个具有线性计算复杂度的有效状态空间模型。它最近在处理各种视觉任务中的高分辨率输入方面展现出了令人印象深刻的效率。在本文中,我们揭示了强大的Mamba模型与线性注意力Transformer之间惊人的相似之处,后者在实践中通常表现不如传统的Transformer。通过探索有效的Mamba和表现不佳的线性注意力Transformer之间的相似性和差异,我们提供了全面的分析,以揭开Mamba成功的幕后关键因素。具体来说,我们在统一的公式框架内重新表述了选择性状态空间模型和线性注意力,将Mamba描述为线性注意力Transformer的一个变体,具有六个主要区别:输入门、遗忘门、快捷连接、无注意力归一化、单头和修改后的块设计。对于每个设计,我们都仔细分析了其优缺点,并通过实证评估了其对视觉任务中模型性能的影响。有趣的是,结果突出显示,遗忘门和块设计是Mamba成功的两个核心贡献因素,而其他四个设计则不那么关键。基于这些发现,我们提出了一个Mamba启发的线性注意力(MILA)模型,将这两个关键设计的优点融入线性注意力中。结果表明,该模型在图像分类和高分辨率密集预测任务中都超越了各种视觉Mamba模型,同时享有可并行计算和快速推理速度

文章的主要结论:

  1. Mamba与线性注意力Transformer的关系:文章揭示了Mamba模型与线性注意力Transformer之间惊人的相似性,并将Mamba重新表述为线性注意力Transformer的一个变体,具有六个主要区别:输入门、遗忘门、快捷方式、无注意力标准化、单头和修改的块设计。

  2. 关键设计因素分析:通过细致分析每个设计因素的利弊,并实证评估其对视觉任务中模型性能的影响,发现遗忘门和块设计是Mamba成功的核心因素,而其他四个设计因素则不那么关键。

  3. 提出Mamba-Like Linear Attention (MLLA)模型:基于上述发现,文章提出了一个Mamba-Like Linear Attention (MLLA)模型,该模型将两个关键设计的优点结合到线性注意力中。结果表明,MLLA模型在图像分类和高分辨率密集预测任务方面都优于各种视觉Mamba模型,同时具有可并行计算和快速推理速度。

  4. 遗忘门的替代方案:文章还探讨了遗忘门的本质,并验证了在视觉任务中可以用适当的位置编码替代遗忘门,以保持并行化的计算和快速推理。

这些结论提供了对Mamba模型成功因素的深入理解,并展示了如何通过结合Mamba的关键设计优点来提升线性注意力模型的性能。

**Mamba块设计的宏观架构:**现代线性注意力Transformer模型通常采用如图3(a)所示的块设计,包括线性注意力子块和MLP(多层感知机)子块。与之相比,Mamba通过结合H3和Gated Attention两种基本设计,修改了块设计,如图3(b)所示。Mamba的改进块设计整合了多种操作,如选择性状态空间模型、深度卷积、线性映射、激活函数、门控机制等,比传统的Transformer块设计更有效。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2255654.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Bootstrap-HTML(三)Bootstrap5列表组全解析

Bootstrap-HTML(三)Bootstrap5列表组全解析 前言(一)HTML 列表基础回顾1.无序列表2.有序列表3.定义列表 二、无样式的有序列表和无序列表内联列表 三、Bootstrap5 列表组1.基础的列表组2.设置禁用和活动项3.链接项的列表组4.移除列…

【CSP CCF记录】202212-2第28次认证 训练计划

题目 样例1输入 10 5 0 0 0 0 0 1 2 3 2 10 样例1输出 1 1 1 1 1 10 9 8 9 1 样例1解释 五项科目间没有依赖关系,都可以从第 1 天就开始训练。 10天时间恰好可以完成所有科目的训练。其中科目 1 耗时仅 1天,所以最晚可以拖延到第 10 天再开始训练&…

java 18 异常处理

一,异常概念 基本概念Java语言中,将程序执行中发生的不正常情况称为“异常”。(开发过程中的语法错误和逻辑错误不是异常) 执行过程中所发生的异常事件可分为两大类: 1)Error(错误):Java虚拟机无法解决的严重问题。如:JVM系统内部…

【Spark】 groupByKey与reduceByKey的区别

groupByKey 操作:将相同键的所有值收集到一个集合中。实现:不会在map端进行局部聚合,而是直接将所有相同键的数据传输到reduce端进行聚合。缺点:由于没有本地聚合,groupByKey会导致大量的数据传输和shuffle&#xff0c…

房屋租赁系统源码 SpringBoot + Vue 实现全功能解析

这是一套使用 SpringBoot 与 Vue 开发的房屋租赁系统源码,站长分析过这套源码, 推测其原始版本可能是一个员工管理系统,经过二次开发后,功能被拓展和调整,现已完全适用于房屋租赁业务。 该系统功能完善,涉…

【ArcGISPro】训练自己的深度学习模型并使用

本教程主要训练的是识别汽车的对象检测模型 所使用的工具如下(导出训练数据进行深度学习、训练深度学习模型、使用深度学习检测对象) 1.准备训练数据 1.1新建面矢量,构建检测对象 右键地理数据库->新建->要素类 选择面类型 1.2点击编辑窗口进行勾画汽车检测对象…

鸿蒙特色实战3共享单车案例

1 案例截图 2 开发准备 本项目需要一台NEXT真机,并完成以下准备工作。 在AppGallery Connect(简称AGC)上,参考创建项目和创建应用完成HarmonyOS应用的创建,从而使用各类服务。 添加应用包名要注意:与新建…

Thonny IDE + MicroPython + ESP32 + 0.96寸OLED(IIC) 显示任意字符

四针脚0.96英寸OLED显示屏模块的具体参数如下表所示。 参数名称 参数特性 分辨率 128x64像素 通信方式 IIC 驱动芯片 SSD1306 屏幕颜色 白色、蓝色或黄蓝双色 元件: 四针脚0.96英寸OLED显示屏模块 ESP32 DEVKIT_C开发板 杜邦线USB Type-C 接线&#xf…

监控易助力IT运维再升级

在当今数字化时代,企业对于IT系统的依赖程度日益加深,IT运维管理的重要性也随之凸显。作为首都的一家知名企业,北京某公司在业务快速发展的同时,也面临着IT系统规模不断扩大、运维管理复杂度不断提升的挑战。为了更好地应对这些挑…

线程(二)——线程安全

如何理解线程安全: 多线程并发执行的时候,有时候会触发一些“bug”,虽然代码能够执行,线程也在工作,但是过程和结果都不符合我们的开发时的预期,所以我们将此类线程称之为“线程安全问题”。 例如&#xff…

prometheusgrafana实现监控告警

Prometheus负责集群数据的监控和采集,然后传递给grafana进行可视化,集成睿象云可实现监控报警,为了方便操作,可以通过iframe嵌套grafana到指定的页面。 文章目录 1.Grafana集成Prometheus2.iframe内嵌grafana3.监控告警 1.Grafana…

双绞线直连两台电脑的方法及遇到的问题

文章目录 前言一、步骤二、问题总结:问题1:遇到ping不通的问题。问题2:访问其他电脑上的共享文件时提示输入网络凭证问题3:局域网共享文件时提示“没有权限访问,请与网络管理员联系请求访问权限” 前言 办公室里有两台电脑,一台装了显卡用于…

如何使用Java编写Jmeter函数

Jmeter 自带有各种功能丰富的函数,可以帮助我们进行测试,但有时候提供的这些函数并不能满足我们的要求,这时候就需要我们自己来编写一个自定义的函数了。例如我们在测试时,有时候需要填入当前的时间,虽然我们可以使用p…

练8:递归

欢迎大家订阅【蓝桥杯Python每日一练】 专栏,开启你的 Python数据结构与算法 学习之旅! 1 递归 在 Python 中,递归(Recursion) 是一种函数调用自身的编程技术。 递归通常用来解决可以分解为类似子问题的问题&#xff…

Python金融大数据分析概述

💂 个人网站:【 摸鱼游戏】【神级代码资源网站】【海拥导航】💅 想寻找共同学习交流,摸鱼划水的小伙伴,请点击【全栈技术交流群】 金融大数据分析在金融科技领域越来越重要,它涉及从海量数据中提取洞察,为金…

WSL2下如何部署CosyVoice并开启API服务

环境: WSL2 英伟达4070ti 12G Win10 Ubuntu22.04 问题描述: WSL下如何部署CosyVoice并开启API服务 解决方案: CosyVoice 下载不顺的时候,最好提前开科学 一、部署 1.拉取源码 git clone –recursive https://github.com/FunAudioLLM/CosyVoice.gitwsl下拉取 gi…

室联人形机器人:家政服务任务结构化、技术要点、深入应用FPGA的控制系统框架设计(整合版)

目录: 0 引言 1 人形机器人对室内家政服务任务的结构化 1.1人形机器人在室内家政服务中的比较优势 1.1.1 人形机器人拟人性的7个维度 1.1.2 拟人性在室内家政服务工作中的比较优势 1.1.3 潜在的重要用户:宠物爱好者 1.2 居所室内环境的特征与结构…

基于 Apache Dolphinscheduler3.1.9中的Task 处理流程解析

实现一个调度任务,可能很简单。但是如何让工作流下的任务跑得更好、更快、更稳定、更具有扩展性,同时可视化,是值得我们去思考得问题。 Apache DolphinScheduler是一个分布式和可扩展的开源工作流协调平台,具有强大的DAG可视化界…

物联网接入网关的数据安全和高效传输详解

物联网接入网关,作为连接物联网终端设备与云端或本地服务器的关键环节,不仅负责数据的汇聚与转发,更需确保数据在传输过程中的安全无虞与高效流畅。 一、数据安全:构筑坚实防线 1. 加密技术的应用 天拓四方物联网接入网关内置了…

双指针算法(超详细版)

希望大家多多关注,有三必回 1.双指针 1.1快慢双指针 快慢双指针常用来解决循环问题,或是查找中间节点 1.1.1循环链表(141. 环形链表 - 力扣(LeetCode)) 解题思路: 1.定义快慢指针fast和slo…