读mamba有感,自然而然产生的问题及答案。

news2025/2/23 13:20:21

原文链接:https://arxiv.org/abs/2312.00752

Q:为什么说Mamba可以比肩甚至超越transformer?各自有什么优劣?

A:Transformer在处理长序列时,存在着计算效率低下的问题,无法对有限窗口之外的任何信息进行建模,以及相对窗口长度的二次缩放。(transformer虽然可以并行计算,但是由于其位置的编码, 交叉的联系,并且,Transformer并不会对记录的历史记录进行压缩(相当于就是,会保存并利用整个序列的历史信息,而不是只是用一个固定大小的状态或摘要总结来代表历史信息,好处是更全面地理解上下文,坏处就是计算效率低)。

Q:什么是RNN?为啥说RNN本身就可以理解成一个SSM?

Q:S4的全称是什么,S6又是什么,和SSM有什么联系?

A:实际就是这么一个过程:SSM——>S4——>S6——>Mamba

Structured State Spaces for Sequences(S4)

更准确来说就是:S4代表结构化状态空间模型(Structured State Space Model),是SSM的一种离散化形式。  

S4:它的操作可以简单理解为,对SSM的预测状态结果进行离散化,然后HiPPO进行长序列处理。(离散化SSM、循环/卷积表示,基于HiPPO处理长序列,不能有选择的处理信息,A,B,C,D的值都是固定不变的)(其中的ABCD是SSM状态方程中的参数)

SSM:输入是连续序列,输出也是连续的,是一个系统,是通过状态方程对下一个状态的预测(不能处理离散序列,不能有选择地处理信息A,B,C,D的值都是固定不变的h(t) = Ah(t-1) + Bx(t)

S6(Selective State Space Model):也是结构化状态空间模型。SSM+Selection。更准确来说也是S4的改进版本。(可以处理离散数据,有选择地处理信息,训练效率低

三者的关系相当于就是,SSM是S4,S6的基础结构,核心。S4是通过引入数据离散化,HiPPO对长数据进行处理。而S6更多的可以理解为在S4的基础上就进一步改进,引入了选择机制,能够有选择的处理信息。他的表现形式就是,将原本SSM中的ABCD四个固定参数,改成函数,然后实现自适应。当然结构也有一定变化。大致思路是这样。

说白了就是,S4是在SSM的后续进一步处理,或者说是加了一些外围。S6就是沿用S4(为了合适当然应该也微调了),然后从SSM的几个参数下手,微调结构,把参数改成函数,然后就实现了自适应(或者说是有选择性的处理)。

这样S4-->S6改进的结果就是,在处理复杂序列数据时更加灵活且有效,但是会牺牲一定的计算效率。

Mamba:(可以处理离散数据+有选择地处理信息+硬件感知算法+更简单的SSM架构)

Q:Mamba的硬件感知算法是什么,有什么作用?更简单的SSM架构,怎么简单了,和原本的有什么不同吗?有选择地处理信息,也是相当于把状态方程中的参数变成函数吗?还有就是可以处理离散数据,这里处理离散数据的具体步骤是怎样的?就是按什么规律进行采样吗(我记得哪里还提到个零阶保持是不是)?

其他:

transformer优势就在于,对信息进行位置编码,能够捕捉前后文关系,他是利用注意力机制的窗口,及多头注意力越多,效果会相对好点,但是计算复杂度暴涨。

SSM模型:从LTI连续空间线性时不变系统讲起,类似RNN离散化,CNN并行化,但没有离开线性+参数矩阵时不变两个假设。

Mamba原理:提出了选择机制,其实就是时序门控单元,通过离散化函数delta这个非线性总开关控制ABC矩阵三个小旋扭开关,相当于放开了时不变约束,实现时变。

Mamba=RNN(变形GRU)+CNN+选择性注意力机制

思想精髓:流体力学系统+李指数映射+固定矩阵A最优主管道

参考:

AI大讲堂:革了Transformer的小命?专业拆解【Mamba模型】_哔哩哔哩_bilibili

Mamba: Linear-Time Sequence Modeling with Selective State Spaces(论文笔记)_mamba 全文翻译-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2146449.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

查询中的行选择

用WHERE子句限制从查询返回的行。一个WHERE子句包含一个必须满足的条件,WHERE子句紧跟着FROM子句。如果条件是true,返回满足条件的行。 在语法中: WHERE 限制查询满足条件的行 condition 由列名、表达式、常数和比较操作组成…

bootstrap application nacos环境配置失效

tmd 环境配置 是yaml ,yml 后缀配置不生效 (不,看你取得文件名是什么) 如果 file-extension 配置的是yaml 就读取不到 yml 中的配置 2 . 如果还不行,、nacos 配置只能卸载bootstrap.yml 中,application.yml 不生效 bootstrap.yml…

c/c++语言中extern的用法(VS编译)

c/c语言中extern的用法 前言:1. 声明外部变量2. 声明外部函数3. 在头文件中使用注意事项 效果展示: 前言: extern 关键字不仅在 C 语言中使用,在 C 语言中也同样适用。它主要用于声明一个变量或者函数是在别的文件或翻译单元中定…

怎么操作使http变成https访问?

获取SSL证书 选择证书颁发机构:可以选择受信任的免费或付费证书颁发机构(CA)如JoySSL 申请和验证域名:注册并填写注册码230920,验证域名所有权。下载SSL证书文件到本地电脑. JoySSL品牌证书 注册享大额优惠JoySSL是网…

Android开发高频面试题之——Android篇

Android开发高频面试题之——Android篇 Android开发高频面试题之——Java基础篇 Android开发高频面试题之——Kotlin基础篇 Android开发高频面试题之——Android基础篇 1. Activity启动模式 standard 标准模式,每次都是新建Activity实例。singleTop 栈顶复用。如果要启动的A…

车市状态喜人,国内海外“两开花”

文/王俣祺 导语:随着中秋假期告一段落,“金九”也正式过半,整体上这个销售旺季的数据可以说十分喜人,各家车企不是发布新车、改款车就是推出了一系列购车权益,充分刺激了消费者的购车热情。再加上政府政策的鼎力支持&a…

Unity 使用Editor工具查找 Prefab 中的指定脚本

在 Unity 项目中,随着项目规模的扩大和 Prefab 数量的增加,管理和定位 Prefab 中的脚本变得更加复杂。为了提高开发效率,所以需要编写一个自定义的 Unity Editor 工具,帮助查找某个 Prefab 中是否使用了指定的脚本。本文将介绍如何…

LIN总线CAPL函数——干扰LIN帧响应段(linInvertRespBit )

🍅 我是蚂蚁小兵,专注于车载诊断领域,尤其擅长于对CANoe工具的使用🍅 寻找组织 ,答疑解惑,摸鱼聊天,博客源码,点击加入👉【相亲相爱一家人】🍅 玩转CANoe&…

目标检测:滑块验证

最近在做一些爬虫相关的任务,有时候在登录时候需要去做滑块验证,刚好自己是做AI这一块得,就想着使用目标检测去做检测,然后绕过滑块。

AI 时代,大模型产业落地的八大思考

引言 在人工智能领域,大模型技术正逐渐成为推动行业进步的关键力量。随着技术的发展,大模型不仅在学术界引起了广泛的关注,也在产业界展现出巨大的应用潜力。然而,如何将这些强大的模型有效地应用到实际产业中,仍然是…

什么软件可以远程控制电脑?好用的电脑远程控制软件有哪些?这6款可以帮到你!

在如今的数字化办公环境中,远程控制电脑已成为解决问题、协作工作的必备技能。 无论是技术支持、远程办公,还是简单的文件传输,远程控制软件都能让我们随时随地连接其他电脑,省时省力。 那么,有哪些好用的远程控制软…

大数据和代理:揭示它们之间的微妙联系

大数据,顾名思义,是指使用传统数据处理应用程序无法有效处理的极其庞大而复杂的数据集。这些数据集的特点是数量庞大、速度快、种类繁多,有可能提供有价值的见解并支持各个行业的决策过程。 这些数据可能来自各种来源,例如社交媒体…

一文速通calcite结合flink理解SQL从文本变成执行计划详细过程

文章目录 你可以学到啥测试代码背景知识SQL转变流程图问题 你可以学到啥 SQL如何一步步变成执行计划的有哪些优化器,哪些优化规则calcite 和flink 如何结合的 测试代码 EnvironmentSettings settings EnvironmentSettings.inBatchMode(); TableEnvironment tabl…

Shein西班牙开放平台模式广受市场欢迎,Shein适合卖什么产品?

Shein是一家专注于女性快时尚的跨境B2C互联网企业,主要面向欧美、中东等消费市场。经过海外十余年的发展,Shein在全球积累了数量庞大且仍在高速增长的广泛用户基础。目前Shein已开放自营商家及平台卖家两大合作模式,通过入驻Shein平台&#x…

23ai DGPDB,Oracle资源池战略的最后一块拼图

Oracle对资源池是有执念的! 在我看来,这种执念一方面是应用架构的微服务化,数据库被拆分的越来越小,而服务器的硬件能力是不断提升的,CPU核心数、内存和存储的容量都按照摩尔定律在不断增加,这就使得数据库…

QTAndroid编译环境配置

开始 QT 官网的安装教程安装,经过测试有部分小错误。以下是结合教程和网上搜集的一些材料最后安装成功的步骤。 SDK和JDKhttp://链接: https://pan.baidu.com/s/13CImHLAoUFAdecF2BVsBlQ?pwd627g 提取码: 627ghttp://链接: https://pan.baidu.com/s/13CImHLAoUFAd…

Git 代码撤销、回滚到任意版本(当误提代码到本地或master分支时)

两种情况(场景) 情况一 代码还只在本地,未push到运程仓库,想把代码还原到上一次commit的代码,此时操作为代码撤销 解决方案: git reset [--hard|soft|mixed|merge|keep] [commit|HEAD] 情况二 …

Axure设计之表格列冻结(动态面板+中继器)

在Web端产品设计中,复杂的表格展示是常见需求,尤其当表格包含大量列时,如何在有限的屏幕空间内优雅地展示所有信息成为了一个挑战。用户通常需要滚动查看隐藏列,但关键信息列(如ID、操作按钮等)在滚动时保持…

十三 系统架构设计(考点篇)

1 软件架构的概念 一个程序和计算系统软件体系结构是指系统的一个或者多个结构。结构中包括软件的构件,构件 的外部可见属性以及它们之间的相互关系。 体系结构并非可运行软件。确切地说,它是一种表达,使软件工程师能够: (1)分…

VMware vSphere 8.0 Update 3b 发布下载,新增功能概览

VMware vSphere 8.0 Update 3b 发布下载,新增功能概览 vSphere 8.0U3 | ESXi 8.0U3 & vCenter Server 8.0U3 请访问原文链接:https://sysin.org/blog/vmware-vsphere-8-u3/,查看最新版。原创作品,转载请保留出处。 作者主页…