《Video Mamba Suite》论文笔记(4)Mamba在时空建模中的作用

news2024/10/6 10:33:52

原文翻译

4.4 Mamba for Spatial-Temporal Modeling

Tasks and datasets.最后,我们评估了 Mamba 的时空建模能力。与之前的小节类似,我们在 Epic-Kitchens-100 数据集 [13] 上评估模型在zero-shot多实例检索中的性能。

Baseline and competitor.ViViT[2]TimeSformer[6]研究了ViT在空间注意转化为具有时空联合注意的模型的转换。根据这些工作,我们进一步扩展了ViM模型的空间选择扫描来合并时空选择性扫描。我们将此扩展模型称为 ViViM。我们利用在 ImageNet-1K [16] 上预训练的 ViM 模型进行初始化。ViM 模型包含一个 cls 标记,该标记插入到扁平标记序列的中间。为了将 ViM 模型转换为 ViViM,我们采用了图 6 所示的直接方法。对于由 M 帧组成的给定输入,我们在对应于每一帧的标记序列的中间插入 cls 标记。此外,我们添加了每帧初始化为零的时间位置嵌入。然后将扁平的视频序列输入到 ViViM 模型中。模型的输出是通过计算每个帧的cls令牌的平均值来实现的。

Results and analysis.我们进一步分析了ViViM在zero-shot多实例检索上的结果。表11给出了各种时空模型在zero-shot多实例检索上的性能。在比较ViT和ViM时,它们都在ImageNet-1K[16]上进行预训练,我们观察到我们的ViM优于ViT。有趣的是,尽管 ImageNet-1K 上 ViT-S [69] 和 ViM-S [96] 之间的性能差距很小(79.8 vs. 88.5),ViViM-S 在零样本多实例检索上显示出比 ViT-S 的显着改进(+2.1 mAP@Avg)。这一发现表明,我们的 ViViM 在对长序列进行建模方面非常有效,从而提高了性能。

5 Efficiency Analysis

我们比较了不同时空模型的推理速度。该测试在空间维度上修复了 196 个标记,并不断提高帧数。所有测试都是在单个 A100 GPU 上以半精度执行的。为了公平比较,所有注意块都配备了 Flash-attention [14, 15]。我们将推理速度从 4 帧测试到 8192 帧,并在图 7 和图 8 中列出测试结果。两个表都表明,Mamba 比 Transformer 系列模型提供速度优势,尤其是当帧数很大时。在图 8 中,为了公平比较,我们将 ViViM-T 与 ViT 进行比较,无论是否使用 Flash-attention [14, 15]。ViM-T 与 ViT+Flash-attention 的比较是公平的,因为这两种方法都是在考虑硬件 I/O 速度的情况下优化的。当输入帧数大于 256 时,我们的 ViViM-T 比具有闪存注意力的 ViT-T 更有效。如果没有 Flash-Attention,ViM-T 相对更有效,当帧数大于 64 时超过 ViT。对于图 7 中的 TimeMambaB,当输入超过 8192 帧时,效率开始超过 timeformer-B 的效率。由于令牌交互的形式仅在时间交互上有所不同,因此效率差异不如 ViVM 和 ViT 之间的比较那么显着。

6 Conclusion

我们在视频理解领域对 Mamba 的全面评估展示了它作为传统转换器的可行替代方案的潜力。通过Video Mamba Suite,包括14个模型/模块12个视频理解任务,我们证明了Mamba能够有效地处理复杂的时空动态,表现出优越的性能和有前途的效率-性能权衡。这些发现不仅强调了 Mamba 对视频分析任务的适用性,而且还为其在计算机视觉中的应用开辟了新的途径。未来的工作可以进一步探索 Mamba 的适应性,并将其效用扩展到更复杂、多模态视频理解挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1647081.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决Win10家庭版找不到组策略gpedit.msc的·方法

因为电脑出问题,一开机就会自动开启ie浏览器,所以就想找有没有方法解决,然后就了解到了gpedit.msc的作用以及相关的一些方法,也是为之后也许有人遇到相同的问题有个提供方法的途径。 首先我们直接运行gpedit.msc 是找不到的&…

Win10彻底关闭Antimalware Service Executable解决cpu内存占用过高问题

1,win键R打开运行输入gpedit.msc,即可打开本地组策略编辑器 2.依次打开:管理模板----windows组件----windows Defender-----实时保护 3.然后鼠标双击右侧的“不论何时启用实时保护,都会启用进程扫描。勾选 已禁用,就可…

embedding介绍和常用三家模型对比

Embedding(嵌入)是一种在计算机科学中常用的技术,尤其是在自然语言处理(NLP)领域。在NLP中,embedding通常指的是将文本中的单词、短语或句子转换为固定维度的向量(vector)。这些向量代表了文本中的语义和上下文信息。 1.embedding 介绍 1.1 为什么需要Embedding? 在…

基于鸢尾花数据集的四种聚类算法(kmeans,层次聚类,DBSCAN,FCM)和学习向量量化对比

基于鸢尾花数据集的四种聚类算法(kmeans,层次聚类,DBSCAN,FCM)和学习向量量化对比 注:下面的代码可能需要做一点参数调整,才得到所有我的运行结果。 kmeans算法: import matplotlib.pyplot a…

JavaScript之数据类型(2)——复杂类型(object)

object的介绍: 我对于object的理解是和C/C中的结构体一样,是一个自定义的数据类型,我们可以通过多个简单的数据类型来定义一个便于我们使用的新的数据类型。 在网上某佬对于其解释如下: Object类型,我们也称为一个对象…

ubuntu 安装单节点HBase

下载HBase mkdir -p /home/ellis/HBase/ cd /home/ellis/HBase/ wget https://downloads.apache.org/hbase/2.5.8/hbase-2.5.8-bin.tar.gz tar -xvf hbase-2.5.8-bin.tar.gz安装java jdk sudo apt install openjdk-11-jdksudo vim /etc/profileexport JAVA_HOME/usr/lib/jvm/…

设计模式之传输对象模式

在编程江湖里,有一种模式,它如同数据的“特快专递”,穿梭于系统间,保证信息的快速准确送达,它就是——传输对象模式(Data Transfer Object, DTO)。这不仅仅是数据的搬运工,更是提升系…

bfs之走迷宫

文章目录 走迷宫广度优先遍历代码Java代码打印路径 走迷宫 给定一个 nm 的二维整数数组,用来表示一个迷宫,数组中只包含 0或 1,其中 0表示可以走的路,1表示不可通过的墙壁。 最初,有一个人位于左上角 (1,1) 处&#…

MATLAB绘制蒸汽压力和温度曲线

蒸汽压力与温度之间的具体关系公式一般采用安托因方程(Antoine Equation),用于描述纯物质的蒸汽压与温度之间的关系。安托因方程的一般形式如下: [\log_{10} P A - \frac{B}{C T}] 其中, (P) 是蒸汽压&#xff08…

syncGradle项目时报错Unknown Kotlin JVM target: 22

解决方案1 定位到build.gradle.kts的出问题行,将其注释掉然后把sourceCompatibility行也注释掉重新sync. 这样会自动使用默认兼容的版本 你也可以根据文档手动解决兼容问题2 Configure a Gradle project | Kotlin Documentation (kotlinlang.org) ↩︎ Compatibil…

[VulnHub靶机渗透] Hackademic: RTB1

🍬 博主介绍👨‍🎓 博主介绍:大家好,我是 hacker-routing ,很高兴认识大家~ ✨主攻领域:【渗透领域】【应急响应】 【Java、PHP】 【VulnHub靶场复现】【面试分析】 🎉点赞➕评论➕收…

一、Vagrant搭建相关环境

目录 一、创建Vagrant相关环境1.下载安装VirtualBox2.在BlOS中设置CPU虚拟化3.使用Vagrant新建linux虚拟机3.1下载Vagrant3.2Vagrant官方镜像仓库3.3使用Vagrant初始化一个centos7的虚拟机 4.设置固定ip地址 二、安装docker1.按照docker 三、docker安装一些中间件1.mysql安装2.…

Elasticsearch:理解人工智能相似性搜索

理解相似性搜索(也称为语义搜索)的指南,这是人工智能最新阶段的关键发现之一。 最新阶段人工智能的关键发现之一是根据相似性搜索和查找文档的能力。相似性搜索是一种比较信息的方法,其基于含义而非关键字。 相似性搜索也被称为语…

【隧道篇 / WAN优化】(7.4) ❀ 01. 启动WAN优化 ❀ FortiGate 防火墙

【简介】几乎所有的人都知道,防火墙自带的硬盘是用来保存日志,以方便在出现问题时能找到原因。但是很少的人知道,防火墙自带的硬盘其实还有另一个功能,那就是用于WAN优化。 防火墙自带的硬盘 在FortiGate防火墙A、B、C、D系列&…

MWeb Pro for Mac:功能强大的Markdown博客编辑器

MWeb Pro for Mac是一款功能强大的Markdown博客编辑器,专为Mac用户设计,提供了一站式的博客写作和发布体验。这款软件不仅支持Markdown语法,还提供了丰富的编辑和排版功能,让用户能够轻松创建出精美的博客内容。 MWeb Pro的即时预…

每日一题4:Pandas创建新列

一、每日一题 一家公司计划为员工提供奖金。 编写一个解决方案,创建一个名为 bonus 的新列,其中包含 salary 值的 两倍。 返回结果格式如下示例所示。 解答: import pandas as pddef createBonusColumn(employees: pd.DataFrame) -> pd.D…

Redis高级(Redis持久化,Redis主从模式,Redis哨兵模式,Redis分片集群)

目录 一、单机Redis 1. 问题说明 2. 安装Redis 1 解压安装Redis【备用】 2 配置Redis 3 启动Redis 3. 小结 二、Redis持久化 1. 持久化机制介绍 2. RDB模式 3. AOF模式 4. RDB和AOF对比 5. 小结 三、Redis主从模式 1. 介绍 2. 搭建Redis主从架构【备用】 3. 主…

微服务领域的寻路者 —— Eureka深度探索与实战秘籍

文章目录 一、引言定义目标一个接地气的例子引言小结 二、Eureka架构2.1 Eureka Server一个有趣的例子2.2 Eureka Client一段简单的代码示例架构小结 三、工作流程1. 服务注册2. 心跳检测3. 服务发现4. 健康检查与失效剔除工作流程小结 四、核心机制4.1 服务注册与续约4.2 服务…

2024年03月 Scratch 图形化(三级)真题解析#中国电子学会#全国青少年软件编程等级考试

Scratch图形化等级考试(1~4级)全部真题・点这里 一、单选题(共18题,共50分) 第1题 运行程序后,角色一定不会说出的数字是?( ) A:2 B:4 C:6 D:8 答案:A 程序中随机数的取值最小为 2,最大为 20 ,那么随机数加上 2 之后的结果的最小值为 4 ,最大值为 22 。所…

设备树与/sys/bus/platform/devices与/sys/devices目录关系

设备树与sys/bus/platform/devices sysfs文件系统中/sys/bus/platform/devices下的设备是由设备树生成, 根节点下有compatible的子节点都会在/bus/platform/devices生成节点 总线 I2C、SPI 等控制器会在/bus/platform/devices生成节点 总线 I2C、SPI 节点下的子节点…