《Video Mamba Suite》论文笔记(1)Mamba在时序建模中的作用

news2024/11/20 13:40:47

原文链接

https://arxiv.org/abs/2403.09626icon-default.png?t=N7T8https://arxiv.org/abs/2403.09626

原文代码

https://github.com/OpenGVLab/video-mamba-suiteicon-default.png?t=N7T8https://github.com/OpenGVLab/video-mamba-suite

原文笔记

What

《Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding》

为了评估 Mamba 是否可以成为视频理解领域中 Transformer 的可行替代方案在这项工作中,我们进行了一组全面的研究,探索 Mamba 在视频建模中可以扮演的不同角色,同时研究 Mamba 可能展现出良好性能的不同任务。

为了实现这一目标,我们探索了曼巴在理解视频中可能扮演的不同角色,以及调查曼巴可能表现出优势的各种任务。我们将 Mamba 分为四个角色来对视频进行建模:(1) temporal model, 2) temporal module, 3) multi-modal interaction network, and 4) spatial-temporal model. )

我们将 Mamba 分为四个角色来对视频进行建模,推导出一个由 14 个模型/模块组成的Video Mamba Suite,并在 12 个视频理解任务上对其进行评估。我们广泛的实验揭示了 Mamba 在纯视频和视频语言任务上的强大潜力,同时显示出有希望的效率-性能权衡。

PS:这篇文章是一篇以实验为主体推动的文章,他每章的命名都与传统CV论文或者Mamba论文不同,他将Mamba应用到很多Video领域,覆盖面很光,等于为很多视频研究领域提供了预训练和baseline,在实验中他提出了一个新的Mamba块DBM从作者给出的结果来看结果是很好的,这篇论文推荐看原文代码:https://github.com/OpenGVLab/video-mamba-suiteicon-default.png?t=N7T8https://github.com/OpenGVLab/video-mamba-suite

这篇文章比较长,本来想看完自己的部分就结束了

但是为了丰富自己的视野和帮助万一有需要的人于是完整翻译将在下几篇中给出

《Video Mamba Suite》论文笔记(2)Mamba对于多模态交互的作用-CSDN博客

《Video Mamba Suite》论文笔记(3)Mamba作为时序适配器的作用-CSDN博客

《Video Mamba Suite》论文笔记(4)Mamba在时空建模中的作用-CSDN博客

Why

现有的Video UnderStaning工作可以被分为三类

1:时空分离建模 - frame-based feature encoding + RNN/GRU/LSTM(cannot capture joint spatiotemporal information

2:时空合并建模 - C3D(效果不如3好,因为使用的是static local operators,说的就是卷积神经网络的卷积核是固定的,所以缺乏一些动态处理能力

3:时空合并建模 -Transformers(计算开销太大,“由于长视频中Vision Transformer的计算效率有限”

为了评估 Mamba 是否可以成为视频理解领域中 Transformer 的可行替代方案,在这项工作中,我们进行了一组全面的研究,探索 Mamba 在视频建模中可以扮演的不同角色,同时研究 Mamba 可能展现出良好性能的不同任务。

Challenge

Idea

我们将 Mamba 分为四个角色来对视频进行建模,推导出一个由 14 个模型/模块组成的Video Mamba Suite,并在 12 个视频理解任务上对其进行评估。我们广泛的实验揭示了 Mamba 在纯视频和视频语言任务上的强大潜力,同时显示出有希望的效率-性能权衡。

原文翻译

Abstract

理解视频是计算机视觉研究的基本方向之一,在大量致力于探索 RNN、3D CNN 和 Transformer 等各种架构的工作的努力下。新提出的状态空间模型架构,例如 Mamba,展现出了其能够将长序列建模方面的成功扩展到视频建模领域的良好特性。为了评估 Mamba 是否可以成为视频理解领域中 Transformer 的可行替代方案在这项工作中,我们进行了一组全面的研究,探索 Mamba 在视频建模中可以扮演的不同角色,同时研究 Mamba 可能展现出良好性能的不同任务。我们将 Mamba 分为四个角色来对视频进行建模,推导出一个由 14 个模型/模块组成的Video Mamba Suite,并在 12 个视频理解任务上对其进行评估。我们广泛的实验揭示了 Mamba 在纯视频和视频语言任务上的强大潜力,同时显示出有希望的效率-性能权衡。我们希望这项工作能够为未来视频理解研究提供有价值的数据点和见解。代码是公开的:https://github.com/OpenGVLab/video-mamba-suite。

Keywords:Video Understanding· State Space Model · Mamba

1 Introduction

视频理解是计算机视觉研究中的一个基本问题,它需要从视频中捕捉时空动态来定位活动或推断其演变。目前对视频理解架构的探索可以分为三类。第一类工作采用基于框架的特征编码,然后通过循环网络(如GRU和LSTM)进行时间依赖性建模。由于这种类型的分割时空建模不能捕获联合时空信息另一种工作使用卷积神经网络中的3D核同时考虑空间和时间相关性[25,73]。

继Transformer模型在语言和图片的处理上取得了巨大成功之后,video transformers在视频理解领域也取得了长足的进步,Video transformer表现出比RNN和3D-CNN更强的能力。Video Transformers将视频封装在一系列tokens中,注意力机制可以实现全局上下文交互和数据依赖的动态计算。因此,该模型擅长以统一的方式处理视频中的时间[10,78,89,90]或时空[6,68]信息。由于长视频中视频变压器的计算效率有限,出现了几种变体[2,6,20,55],以平衡速度性能的权衡。

近年来,状态空间模型(ssm)在自然语言处理(NLP)中显示出其优势。现代ssm[32]在NLP中表现出强大的表征能力,特别是在长序列建模中,同时保持线性时间复杂度这是因为它们的选择机制可以消除存储完整上下文的需要。值得注意的是,Mamba[30]将时变参数纳入SSM,并提出了一种硬件感知算法,以实现高效的训练和推理。Mamba令人印象深刻的缩放性能表明它是一个有前途的Transformer的替代品。同时,Mamba强大的性能和效率使其非常适合视频理解任务。然而,尽管一些初步尝试探索如何将Mamba应用于图像建模[53,96],但其在视频理解中的有效性仍不清楚。缺乏对曼巴在视频理解方面的潜力的全面研究,阻碍了对其在各种视频相关任务中的能力的进一步探索。

在本文中,我们没有提出一种新的方法。相反,我们对SSM(以Mamba模型作为代表)在视频理解背景下的潜力进行了广泛的调查。我们的目标是评估Mamba在这个领域是否可以成为Transformers的可行替代品。为了实现这一目标,我们探索了曼巴在理解视频中可能扮演的不同角色,以及调查曼巴可能表现出优势的各种任务。我们将 Mamba 分为四个角色来对视频进行建模:(1) temporal model, 2) temporal module, 3) multi-modal interaction network, and 4) spatial-temporal model. )1)时间模型,2)时间模块,3)多模态交互网络,4)时空模型。对于每个角色,我们研究了它在不同视频理解任务上的视频建模能力。为了确保与Transformers进行公平比较,我们仔细选择了基于标准或改进的变压器架构的对应模型。我们的探索派生了一个视频 Mamba Suite,其中包含 14 个模型/模块,用于 12 个视频理解任务。我们希望我们的视频 Mamba Suite 可以作为未来在视频理解领域探索基于 SSM 的模型的宝贵资源。

2 Related Work

2.1 Video Modeling

视频建模是实现深度视频理解的基石,并且随着时间的推移经历了重大的发展。最初,TSN[82]采用统一的视频采样,并利用二维网络[35,40]建立多帧共识来生成视频表示。在那之后,视频卷积网络取得了实质性进展。[48,75,81]等方法侧重于将时间模块集成到二维网络中以促进时空建模。相反,[9,25,60,73,74,87]等方法要么增强2D卷积网络的核[35,40,86],要么从头开始训练3D卷积网络以提取时空特征

然而,卷积网络受其依赖静态局部算子的限制,导致其表示能力有限。受到language transformers[8,17,62,63,70]和image transformers[11,18,20,34,54,69,84]有效性的启发,研究人员研究了Video Transformers的各种结构[2,6,45,55]。值得注意的是,结合时空联合注意的video transformer在这些结构中表现出优越的能力。因此,随后的研究工作[24,46,68,80,85]深入研究了基于这种结构的不同预训练方法。然而,与联合注意力相关的二次计算复杂性构成了一个重大障碍,阻碍了视频转换器处理更长的上下文的可扩展性,这与LLMs(Large language models)面临的问题相似[71,72]。一些研究已经开发了基于Transformer的变体[2,6,55],专门用于建模通常超过128帧的长视频。

或者,另一种方法是设计具有线性复杂度的模型架构。例如,RetNet[67]和RWKV[59]利用指数衰减技术来捕获全局信息。状态空间模型[31-33]还提供了线性复杂度,Mamba[30]采用高效的实现来促进数据相关的推理。在视觉领域,一些作品 [1, 19, 96] 探索了具有线性复杂度的视觉编码器。XCiT [1] 通过计算输入标记之间的交叉方差实现了与线性复杂度的全局交互。最近,[53,96] 对基于 Mamba 的视觉应用进行了初步探索。在这项研究中,我们研究了创建一个基于 Mamba 的视频模型以进行视频理解。

2.2 State-Space Models(SSMs)

作为状态空间模型(SSMs)时代的前跑者,[32]引入了一种新的模型,称为结构化状态空间序列(S4),它为cnn和变压器提供了捕获远程依赖的替代方案。S4 模型展示了序列长度线性缩放的一个有前途的特征。在此基础上,[65]提出了一种称为S5的高级层,它将MIMO SSM与高效的并行扫描集成到S4架构中。该开发旨在克服 SSM 的约束,提高其有效性。此外,[26] 贡献了一种新颖的 SSM 层 H3,显着缩小了 SSM 和基于Transformer的注意力在语言建模中的性能差距。[57] 通过在门控状态空间层中引入额外的门控单元来扩展 S4 模型,以增强其表现力。最近,[30] 引入了一个依赖于数据的 SSM 层,并开发了一个名为 Mamba 的通用语言模型。Mamba 在不同大小的大规模真实数据上的性能上优于Transformer,并展示了序列长度的线性缩放。在这项研究中,我们的目标是将 Mamba 在语言领域的成功扩展到视频理解。具体来说,我们构建了一个通用的框架,称为 Video Mamba Suite ,用于开发、验证和分析 Mamba 在视频理解方面的性能。

只有有限的工作使用SSM进行视频理解,而这些工作主要关注长期视频分类[41,79]。[41]扩展了S4架构,并将多尺度时间S4解码器纳入视频序列分类。[79]引入了一个掩码对比学习框架来增强状态空间模型。我们的研究将 SSM 的应用范围扩展到更广泛的视频理解任务。我们以 Mamba [30] 为例,涵盖了 SSM的多个用法 和更多与视频相关的任务,超越了只关注长视频的分类这项任务。

3 Preliminaries

3.1 State Space Model

在本节中,我们将介绍基于结构化状态空间 (SSM) 的模型,特别是 S4 [32] 和 Mamba [30] 模型。这些模型从处理序列或函数的连续系统中汲取灵感。假设一个系统随着时间的推移接受一系列输入 x(t),并产生一系列输出 y(t),同时通过隐藏状态 h(t) 转换输入。

该系统使用矩阵 A^N×N 来定义隐藏状态的演变,B^N×1 和 C^1×N 分别将输入和隐藏状态投影到输出。这个过程可以概括为 h′(t) = Ah(t) + Bx(t), y(t) = Ch(t)。

S4 和 Mamba 被设计为这些连续系统的离散等价形式。它们包含一个时间尺度参数 Δ,将连续参数 (A, B) 转换为它们的离散参数 (A拔, B拔)。转换使用 zero-order hold技术,得到离散公式,A拔 = exp(∆A), B拔 = (∆A)^−1(exp(∆A)−I)·∆B。一旦参数被离散化,在每个离散时间步t的系统行为如下所示:ht = A拔ht−1 + B拔xt, yt = Cht,该公式展现了隐藏状态是如何更新和产生输出的

最后,输出是通过全局卷积过程计算的,涉及结构化卷积核

该内核由转换后投影参数构造并应用于整个输入序列 x 以产生最终输出序列 y,即 y = x * K。这里,M 是输入序列 x 的长度。通过将连续动态转换为离散步骤,S4 和 Mamba 模型允许处理具有复杂依赖关系的序列。

3.2 Mamba Block

Mamba块[30]结合了线性注意算子和MLP块,灵感来自门控注意单元(GAU)[38],如图2(A)所示。该架构涉及通过可控扩展因子 E 扩展模型维度 D。对于每个块,大部分参数 (3ED2) 都在线性投影 层(2ED2 用于输入投影,ED2 用于输出投影),而内部 SSM 的贡献较小。相比之下,SSM 参数的数量(Δ、B、C 和矩阵 A 它们的投影的参数总量)要小得多。

3.3 Vim Block

ViM 块 [96],如图 2 (b) 所示,在 Mamba 块中添加了一个带有附加参数的后向选择性扫描分支。在此基础上,两个扫描方向的特征共享相同的线性投影和门控层。给定输入 x,对于每个方向,ViM 块首先将一维卷积应用于输入 x 并获得 x′o。然后块分别线性投影 x′o 到 Bo、Co、Δo。然后使用 Δo 分别变换 Ao拔 和 Bo拔。接下来,SSM 计算前向扫描特征 yf 和后向扫描特征 yb。最后,这两个特征都由门控层门控并取平均值以获得输出标记序列(output token sequence)。

3.4 DBM Block

我们进一步研究了一种分解的双向 Mamba 块,表示为 DBM,如图 2 (c) 所示。与 ViM 块相比,它采用逆设计。给定输入序列 x,DBM 块最初使用不同的线性层来分离前向特征 xf 和后向特征 xb。然后将这些特征通过具有共享参数的SSM模块进行双向扫描,得到x 'f和x 'b。随后,这两个特征在连接以生成输出标记序列之前经过两个不同的层进行门控操作。这个块引入了方向偏差并削弱了特定的动态。在我们在第 4.1 节中详述的实验中,我们观察到 DBM 块在小规模数据集上的性能有所提高。

4 Video Mamba Suite

在本节中,我们将介绍 Video Mamba Suite ,其中包含各种基于 Mamba 的模型,用于一组不同的视频理解任务。该套件以四个不同的角色利用 Mamba:时间模型时间模块多模态交互模型时空序列模型。每个角色将在以下各小节中讨论,逐渐揭示 Mamba 在视频理解方面的性能并突出其关键特征。由于空间限制,补充材料中提供了更多的实现细节和实验结果。

4.1 Mamba for Video Temporal Modeling

Tasks and datasets.我们评估了 Mamba 在五个视频时间任务上的性能:时间动作定位 (HACS Segment [91])、时间动作分割(GTEA [22])、密集视频描述(ActivityNet [36], YouCook [95])、视频片段描述(ActivityNet [36], YouCook [95])和动作预期(Epic-Kitchen-100 [13])。

Baseline and competitor.我们选择基于Transformer的对应模型作为每个任务的基线。具体来说,Transformer基线是ActionFormer[90]、ASFormer[89]、Testra[92]和PDVC[83]。为了构建 Mamba 挑战者,我们将基线模型的变换器块替换为基于 Mamba 的块,包括 vanilla Mamba [30]、ViM [96] 和我们的 DBM。请注意,在涉及因果推理的动作预期的上下文中,我们将基线的性能与普通 Mamba 块 [30] 进行比较。

Results and analysis.

我们在表 1 和表 5 中展示了四个任务的不同模型的比较结果。总体而言,虽然一些基于Transformer的模型已经结合了注意力变体来提高性能,但与 Transformer 系列中现有方法相比,该表展示了 Mamba 系列的卓越性能。

时间动作定位。 如表 1 所示,我们引入了 ActionMamba,它将 ActionFormer [90] 的 Transformer 块更改为 ViM 块,在 HACS 段数据集上实现了 44.26 的平均 mAP。使用我们的 DBM 块,ActionMamba 可以进一步提高平均 mAP 到 44.56。这显着优于其Transformer对应模型 1.22(44.56 对 43.34)。

时间动作分割。表 2 报告了时间动作分割的结果。与我们复制的 ASFormer [89] 相比,我们提出的 ASamba 表现出更好的性能。由于 ASamba 是一个纯编码器,而 ASFormer 采用编码器-解码器结构,我们还尝试了 ASFormer 的编码器版本,其中观察到性能下降。结果表明,与 Transformer 相比,Mamba 的巨大潜力。

密集的视频字幕。表 3 显示了密集视频字幕的结果。基线 PDVC 模型 [83] 采用Deformable Transformer 对视觉信息进行编码。相比之下,我们的带有 DBM 块的双向 Mamba 在时间事件定位和字幕生成方面表现出更强的性能。

视频段落字幕。表 4 展示了视频段落字幕的结果比较。我们还采用 PDVC 作为基线模型 [83],仅使用字幕损失训练模型。与字幕和定位都至关重要的密集视频字幕任务不同,视频字幕只专注于提取细粒度的视觉信息来生成字幕。表 4 中的结果表明,与时间可变形编码器相比,我们的双向 Mamba 为字幕带来了更强的特征表示。

行动预期。我们通过动作预期任务进一步评估了 Mamba 在因果建模方面的能力。通过将 5 秒时间特征作为输入,我们将拥有因果自注意力块的Testra [92]和因果 Mamba [30] 块进行比较。如表 5 所示,结果证明了 Mamba 优越的因果推理能力,这与表 4 文本生成的结论一致。

由于本人研究内容为dence video captioning,所以理应读到这里就结束了

但是为了文章的完整性 余下翻译将在下几篇给出

《Video Mamba Suite》论文笔记(2)Mamba对于多模态交互的作用-CSDN博客

《Video Mamba Suite》论文笔记(3)Mamba作为时序适配器的作用-CSDN博客

《Video Mamba Suite》论文笔记(4)Mamba在时空建模中的作用-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1657111.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

BS-Diff | 扩散模型在骨抑制任务上的首次登场!

摘要 胸部 X 射线(CXR)是肺部筛查中常用的低剂量方式。然而,由于大约 75% 的肺部区域与骨骼重叠,这反过来又阻碍了疾病的检测和诊断,因此 CXR 的功效受到了一定程度的影响。作为一种补救措施,骨抑制技术已…

PPT职场课:话术+技巧+框架+案例,告别只会念PPT不会讲(8节课)

课程目录 001-讲PPT如何开场及导入?5个简单实用的方法.mp4 002-讲PPT如何过渡衔接结尾?6类话术争来就用.mp4 003-掌握这3个逻辑表达万能框架,搞定98的PPT.mp4 004-学会这3种PPT结构讲解技巧告别只会念不会讲(上).mp4 005-学会这3种PPT结构讲解技巧告别只会念…

部署 Sentinel 控制台:实现流量管理和监控

序言 Sentinel 是阿里巴巴开源的一款流量防护与监控平台,它可以帮助开发者有效地管理微服务的流量,实现流量控制、熔断降级、系统负载保护等功能。本文将介绍如何在项目中部署和配置 Sentinel 控制台,实现微服务的流量防护和监控。 一、Sen…

JAVA(三)常用类和API

目录 常用类与基础API---String String的内存结构 构造器和常用方法 字符串构建 String与其他结构间的转换 String的常用API 系列1:常用方法 系列2:查找 系列3:字符串截取 系列4:和字符/字符数组相关 系列5:开头…

无人直播需要什么软件系统?最新AI实景自动无人直播软件:智能化引领直播拓客新时代

随着互联网的快速发展(无人直播招商加盟:hzzxar)直播行业已经成为商家品牌推广和商品销售的热门方式。近年来,人工智能技术的飞速发展,催生了一款令人惊叹的AI实景自动无人直播软件,为商家提供了全新的直播…

Facebook消息群发脚本的制作思路!

在数字化社交日益盛行的今天,Facebook作为全球最大的社交平台之一,为企业和个人提供了广阔的交流与合作空间。 然而,手动向大量用户发送消息既耗时又低效,因此,开发一款能够自动群发消息的脚本成为了许多人的需求&…

渗透之sql注入----二次注入

目录 二次注入的原理: 实战: 第一步:找注入点 找漏洞: 注入大概过程: 第二步:开始注入 二次注入的原理: 二次注入是由于对用户输入的数据过滤不严谨,导致存在异常的数据被出入…

树和二叉树的定义和基本术语

文章目录 前言一、树的定义二、树的基本术语三、二叉树的定义总结 前言 T_T此专栏用于记录数据结构及算法的(痛苦)学习历程,便于日后复习(这种事情不要啊)。所用教材为《数据结构 C语言版 第2版》严蔚敏。 一、树的定义…

HTTP请求三方接口绕过https证书检查

问题:在http请求https接口过程中经常会遇到SSL证书检查或者证书过期 ** sun.security.validator.ValidatorException: PKIX path validation failed: java.security.cert.CertPathValidatorException: validity check failed ** 解决办法:绕过证书检查…

Vue--》从零开始打造交互体验一流的电商平台(一)

今天开始使用 vue3 ts 搭建一个电商项目平台,因为文章会将项目的每处代码的书写都会讲解到,所以本项目会分成好几篇文章进行讲解,我会在最后一篇文章中会将项目代码开源到我的github上,大家可以自行去进行下载运行,希…

了解tensorflow.js

1、浏览器中进行机器学习的优势 浏览器中进行机器学习,相对比与服务器端来讲,将拥有以下四大优势: 不需要安装软件或驱动(打开浏览器即可使用);可以通过浏览器进行更加方便的人机交互;可以通过…

#内部类#

1,概念 如果一个类定义在另一个类的内部,这个内部类就叫做内部类。内部类是一个独立的类,它不属于外 部类,更不能通过外部类的对象去访问内部类的成员。外部类对内部类没有任何优越的访问权限。重点:内部类是一个独立的类 注意&…

分位数回归的基本原理和特点

基本模型及解释 分位数回归经典模型是由Koenker和Bassett (1978b)引入的,它从位置模型中的普通分位数(也称为“百分位数”)的概念扩展到更一般的一类线性模型,其中条件分位数具有线性形式。为了简单地回忆一下普通分位数,考虑一个实数随机变…

【通信】为什么用复形式表示信号

引入: 一个实例反映复信号和实信号对应关系(幅度与相位) 复信号的意义 在实际工程中,没有数学意义上的复数信号。再信号与系统中引入复数是为了: ①简化公式,特别是三角函数 ②复数的实部和虚部实际上代…

TCP 连接,一端断电和进程崩溃有什么区别?

TCP 连接,一端断电和进程崩溃有什么区别? 前言主机崩溃进程崩溃有数据传输的场景客户端主机宕机,又迅速重启客户端主机宕机,一直没有重启 总结 前言 有的小伙伴在面试腾讯的时候,遇到了这么个问题: 这个属…

云手机:海外舆情监控的新工具

在数字化时代,海外舆情监控对于企业、品牌和政府机构来说,已经变得至关重要。传统的舆情监控方法往往受限于地域、设备和技术,而云手机的出现,为海外舆情监控带来了全新的解决方案。 一、云手机与海外舆情监控的完美结合 云手机作…

RisingWave基本操作

什么是RisingWave RisingWave 是一款基于 Apache 2.0 协议开源的分布式流数据库。RisingWave 让用户使用操作传统数据库的方式来处理流数据。通过创建实时物化视图,RisingWave 可以让用户轻松编写流计算逻辑,并通过访问物化视图来对流计算结果进行及时、…

银行卡OCR识别接口快速对接

银行卡OCR识别接口又叫银行卡卡面信息识别接口、银行卡文字信息识别API接口,指的是传入银行卡照片,精准识别静态银行卡图像上的文字信息,包括银行卡号、卡类型、银行名称等。那么银行卡OCR识别接口如何快速对接呢? 首先我们找到一…

【新版系统架构】知识点背诵默写本

前言 系统架构考试在即,想要考试的人肯定感受到了沉甸甸的压力和紧迫感,脑海中不断闪过知识点的画面,却让人有些头昏脑胀,发现很难完全记住,这个考试很难,知识点很多。这次我在准备考试的同时,…

VBA技术资料MF152:列出工作表中所有单元格的注释

我给VBA的定义:VBA是个人小型自动化处理的有效工具。利用好了,可以大大提高自己的工作效率,而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套,分为初级、中级、高级三大部分,教程是对VBA的系统讲解&#…