51-17 视频理解串讲— MViT,Multiscale Vision Transformer 论文精读

news2025/1/2 2:36:31

继TimeSformer模型之后,咱们再介绍两篇来自Facebook AI的论文,即Multiscale Vision Transformers以及改进版MViTv2: Improved Multiscale Vision Transformers for Classification and Detection。

本文由深圳季连科技有限公司AIgraphX自动驾驶大模型团队编辑。如有错误,欢迎在评论区指正。由于本司大模型组最近组织阅读的论文较多,为理清相互之间的脉络,画草图如下 <->

MViT,Multiscale Vision Transformers

MViT就是Transformer和多尺度分层建模相融合的产物。

Abstract

通过将多尺度、层次性特征的开创性思想与transformer模型联系起来,我们提出了用于视频和图像识别的多尺度视觉transformer,MViT。多尺度transformer有几个channel-resolution扩展过程。从输入分辨率和一个小的通道维度开始,每个stage分层地扩展通道容量,同时降低空间分辨率。这创建了一个多尺度的特征金字塔,其中早期的层以高空间分辨率运行,以模拟简单的低层次视觉信息,而更深的层则有空间粗糙但复杂的高维特征。我们评估了先前基础架构,它们为密集性质的视觉信号建模,用于各种视频识别任务。在这些任务中,并发vision-transformer依赖大规模外部预训练,并且在计算和参数方面成本高出MViT 5-10倍。我们进一步消除了时间维度,并将我们的模型应用于图像分类,它优于先前在视觉transformer上的工作。代码可在:https: //github.com/facebookresearch/SlowFast获得。

Introduction

我们从计算机视觉神经网络模型的智力历史开始。基于对猫和猴子视觉皮层的研究,Hubel和 Wiesel开发了一种视觉通路的分层模型,其神经元位于较低区域,例如 V1 响应定向边缘和条形等特征,而在较高区域响应更具体的刺激。Fukushima提出了Neocogniztron,这是一种由Hubel和 Wiesel层次结构明确驱动的模式识别神经网络架构。他的模型具有交替的简单细胞和复杂细胞层,从而结合了下采样和平移不变性,从而结合了卷积结构。LeCun等人采取了使用反向传播来训练该网络权重的额外步骤。通过这些核心工作,层次结构的视觉处理主要方面已经建立起来:(i)随着处理层次的上升,空间分辨率降低(ii)增加不同“通道”的数量,每个通道对应着越来越专一的功能。

同时,计算机视觉社区开发了多尺度处理,有时被称为“金字塔”策略。有两个动机:(i)采用较低分辨率,减少计算需求;(ii)在较低分辨率下更好地感知“上下文”,然后可以指导在较高分辨率下的工作。

Transformer架构允许学习在集合上定义的任意函数,并且在语言理解和机器翻译等序列任务中获得了可扩展的成功。基本上,Transformer使用具有两个基本操作的块。首先是对元素间关系建模的attention操作。其次是多层感知器multi-layer perceptron,MLP,它对元素内部的关系进行建模。将这些操作与归一化、残差连接交织在一起,可以使Transformer推广到各种各样的任务。

最近,Transformer被应用于关键的计算机视觉任务,如图像分类。在架构普遍主义的精神下,vision Transformer在各种数据和计算机制下接近卷积模型的性能。vision Transformer的第一层以2D卷积的方式对输入进行“拼接”,然后是一堆Transformer块,目的是在归纳偏置很小的情况下展示Transformer架构的强大功能。

在本文中,我们的目的是将多尺度、层次结构的基本思想与Transformer模型联系起来。我们假设分辨率和通道缩放的基本视觉原理有利于Transformer模型在各种视觉识别任务中。我们提出了多尺度vision transformer models(MViT),这是一种用于建模视觉数据(如图像和视频)的Transformer架构。考虑一个输入图像,如图1所示。与传统的Transformer在整个网络中保持恒定的信道容量和分辨率不同,多尺度Transformer有几个channel-resolution “scale”阶段。从图像分辨率和小通道维度开始,每个stage在降低空间分辨率的同时分层扩展通道容量。这在Transformer网络内部创建了一个多尺度的特征激活金字塔,有效地将Transformer的原理与多尺度、层次结构连接起来。

(参照ViT,模型基于纯Transformer架构,所以采用了Patch操作。图中的1,2,3,4是patch的大小,随着模型深入,patch是变大的,但是空间分辨(Patch分辨率)是降低的。)

由于前面网络层信道容量小,模型可以在高空间分辨率下运行,以模拟简单的低级视觉信息。反过来,更深的网络层可以有效地专注于空间粗略但有复杂的高级特征,以对视觉语义进行建模。MViT基本优势来自于视觉信号的极其密集的性质,这种现象在视频中捕获的时空视觉信号更加明显。同时,这种video multiscale models存在强烈的隐式时间偏差。

Related Work

Convolutional networks (ConvNets)

ConvNets融合了下采样、移位不变性和共享权重,是图像和视频计算机视觉任务的事实上的标准骨干。

Self-attention in ConvNets

自注意机制已被用于图像理解、无监督对象识别以及视觉和语言。自注意运算和卷积网络的混合也被应用于图像理解和视频识别。

Vision Transformers

目前,人们对将变换器应用于视觉任务的热情大多始于vision transformer(ViT)和detection transformer。我们直接建立在允许通道扩展和分辨率下采样的分阶段模型的基础上。DeiT提出了一种数据高效的方法来训练ViT。我们的训练配方建立在相同设置下的DeiT之上,并将我们的图像分类模型与之进行比较。

Efficient Transformers

最近的工作降低了二次注意力的复杂性,使转换器在自然语言处理应用程序中更高效,这是对我们方法的补充。还有几项并行工作提出了一种基于ViT的视频架构。然而,这些方法依赖于对大量外部数据(如ImageNet21K)进行预训练,因此使用了适应性最小的普通ViT。相比之下,我们的MViT为transformer引入了多尺度、层次特征,允许在没有大规模外部数据的情况下对密集的视觉输入进行有效建模。

Multiscale Vision Transformer,MViT

通用多尺度Transformer架构建立在stage的核心概念之上。每个stage由多个具有特定时空分辨率和通道维度的Transformer block组成。多尺度Transformer的主要思想是逐步扩展信道容量,同时从输入到输出网络池化分辨率。

Multi Head Pooling Attention

我们首先描述了Multi Head Pooling Attention(MHPA),这是一种自注意算子,它能够在transformer块中进行灵活的分辨率建模,允许多尺度transformer以逐渐变化的时空分辨率进行操作。与原始的多头注意(MHA)算子不同,其中通道维度和时空分辨率保持固定,MHPA池化潜在张量序列,以减少参与输入的序列长度(分辨率)。

Multiscale Transformer Networks

MViT是仅使用 MHPA 和 MLP 层进行视觉表示学习的多尺度Transformer模型。

Preliminaries: Vision Transformer (ViT)

Vision Transformer (ViT) 架构首先对分辨率为 T ×H×W 的输入视频进行切割,其中 T 是帧的数量 ,H代表高度和W代表宽度,每个大小为 1×16×16 的非重叠块,然后在展平的图像块上进行线性层逐点应用,将它们投影到transformer的潜在维度 D 中。这相当于核大小为1×16×16的卷积,如表1中模型定义中的patch1阶段。

接下来,将位置嵌入E∈R添加到具有维度D、长度为L的投影序列的每个元素,以编码位置信息并打破排列不变性。将可学习类嵌入附加到投影的图像patch。

然后将得到的长度为 L + 1 的序列由 N 个transformer块的堆栈顺序处理,每个块执行注意力 MHA、多层感知器MLP和层归一化LN操作。将X视为块的输入,单个transformer块的输出Block(X) 由下式计算

N个连续块之后的结果序列被层归一化,类嵌入class embedding被提取并通过线性层来预测所需的输出(例如类)。默认情况下,MLP 的隐藏维度为 4D。

值得注意的是,ViT在所有块中保持恒定的信道容量和空间分辨率。

Multiscale Vision Transformers (MViT)

我们的关键概念是逐步增长通道分辨率(即维度),同时降低整个网络的时空分辨率(即序列长度)。通过设计,我们的 MViT 架构在早期层中具有精细的时空(和粗通道)分辨率,在后期层中上采样/下采样到粗时空(和细通道)分辨率。

Scale stages

一个scale stage被定义为一组N个transformer块,它们在同一尺度上操作,在通道和空间时间维度D×T ×H×W上具有相同的分辨率。在输入(表 2 中的 cube1),我们将patch(或立方体,如果它们具有时间范围)投影到更小的通道维度(例如,比典型的 ViT 模型小 8 倍),但更长序列(例如 4×4 = 16 倍比典型的 ViT 模型密集;参见表 1)。

在stage转换(例如 scale1 到 scale2 ,表 2)中,对处理后的序列的通道维度进行上采样,同时对序列的长度进行下采样。这有效地降低了底层视觉数据的时空分辨率,同时允许网络在更复杂的特征中吸收处理后的信息。

Channel expansion

当从一个stage过渡到下一个stage时,我们通过将前一阶段最终 MLP 层的输出增加一个相对于阶段引入的分辨率变化的因素来扩展通道维度。具体来说,如果我们将时空分辨率下采样 4 倍,我们将通道维度增加 2 倍。

提高通道数就是通过简单的全连接层对向量维度D进行映射。

Query pooling

池化操作不仅提供了K和V向量的长度的灵活性,而且也提供了Q的长度的灵活性,从而输出序列。以内核s池化q向量 P(Q; k; p; s)  ,会导致序列变短。我们的目的是在stage开始时降低分辨率,然后在每个stage保持这种分辨率,只有每个stage的第一个池化注意力算子在非退化查询步幅 sQ > 1 下运行,所有其他算子都被限制为 sQ≡(1,1,1)。

PS:降低空间分辨率=降低序列长度=降低Q向量长度。

Key-Value pooling

与q pooling不同,改变K和V张量的序列长度不会改变输出序列长度、时空分辨率。然而,它们在池化注意算子的整体计算需求中起着关键作用。

我们将 K、V 和 Q 池化解耦,在每个阶段的第一层使用 Q 池化,并在所有其他层中使用 K、V 池化。由于K和V张量的序列长度需要与允许注意力权重计算相同,因此 K 和 V 张量上使用的池化步幅需要相同。在我们的默认设置中,我们将所有池化参数 (k; p; s) 约束为相同的,即stage内的 ΘK ≡ ΘV,但跨stage自适应地将 w.r.t 更改为尺度。

Skip connections

由于残差块内的通道维度和序列长度变化,我们跳跃连接以适应其两端之间的维度不匹配。MHPA 通过将查询池运算符 P(·; ΘQ) 添加到残差路径中来处理这种不匹配。如下图,我们不是直接将 MHPA 的输入 X 添加到输出中,而是将池化的输入 X 添加到输出中,从而将分辨率与参与查询 Q 匹配。为了处理阶段变化之间的通道维度不匹配,我们采用了一个额外的线性层,它对MHPA操作的层归一化输出进行操作。请注意,这与在非归一化信号上运行的其他(保留分辨率)跳跃连接不同。

(这一步,必须保证L k = L v,即图中THW ,所以要降低空间分辨率,需要改变Q向量的序列长度。我们知道要改变序列长度,一个很好的办法是pooling操作。现在对Q进行pooling操作,同时实验证明K,V向量pooling会提高相应指标,所以对K,V向量也进行了pooling操作,但是不会影响空间分辨率的大小。为了保证残差connection成立,需要对输入X同样进行和Q向量一样的pooling操作。)

同样证明,降低空间分辨率=降低序列长度=降低Q向量长度。

Experiments

请查看原文。MViT主要是用来处理视频序列,作者做了大量的实验来处理视频任务,同时也在图片任务上进行了测试,都取得了不错的结果。另外,该论文消融实验还是做的蛮多的,建议多读读,也许可以学到一些东西。

ViT-B/ MViT-B/ MViT-S

ViT-B框架,即原版ViT中没有分层结构,输出和输入形状是一样。MViT采用MHPA,引入了分层结构,提出了两个不同大小的模型MViT-B/ MViT-S。值得注意的是,两个模型的体量都比较小,不到7G的显存就可以运行MViT-B。

同其他模型相比,可以看到MViT性能还是比较优秀。

Conclusion

我们提出了MViT,旨在将多尺度、层次结构的基本概念与transformer模型连接起来。MViT 在降低视觉分辨率的同时分层扩展了特征复杂性。在实证评估中,MViT 在视频和图像识别方面都比单尺度模型显示出有根本的优势。

原文链接如下:

Multiscale Vision Transformers https://arxiv.org/abs/2104.11227.

MViTv2: Improved Multiscale Vision Transformers for Classification and Detection,

https://arxiv.org/abs/2112.01526.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1494022.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

农业风险管理案例参考:农作物受灾严重,如何降低损失?

1月20日&#xff0c;国家防灾减灾委员会办公室应急管理部发布2023年全国十大自然灾害&#xff0c;据公布数据显示&#xff0c;此次十大自然灾害致使农作物受灾面积超1092.7千公顷&#xff0c;直接经济损失达2353.22亿元。 农业是安天下、稳民心的战略产业&#xff0c;也是典型…

混沌工程-经典案例分享

目录 前言 案例 1、强弱依赖不合理 2、预案不生效 3、异常数据不兼容 4、监控体系缺陷 5、系统缺整体架构设计 总结 前言 我们公司从启动混沌工程到现在已经几乎覆盖了线上的所有核心业务&#xff0c;先后进行过2000次演练共挖掘出120个漏洞。这些漏洞有些得了及时修复…

基于Skywalking开发分布式监控(四)一个案例

上一篇我们简单介绍了基于SkyWalking自定义增强的基本架构&#xff0c;即通过把Trace数据导入数据加工模块进行加工&#xff0c;进行持久化&#xff0c;并赋能grafana展示。 现在我们给出一个例子&#xff0c;对于量化交易系统&#xff0c;市场交易订单提交&#xff0c;该订单…

2024国内知名大厂Java岗面经,java容器面试题

前言 刚刚过去的双十一&#xff0c;让“高性能”“高可用”“亿级”这3个词变成了技术热点词汇&#xff0c;也让很多人再次萌发成为「架构师」的想法。先问大家一个问题&#xff1a;你觉得把代码熟练、完成需求加上点勤奋&#xff0c;就能成为架构师么&#xff1f;如果你这么认…

Ubuntu22.04系统 安装cAdvisor提示找不到 CPU 的挂载点错误解决办法。

如果我们在安装cAdvisor时容器启动不起来 查看日志如下图所示 1、查看cgroup文件系统是v2 还是 v1 mount | grep cgroup 如图所示我的是v2 &#xff0c; cAdvisor 目前的最新版本&#xff08;v0.39.0&#xff09;仍然只支持 cgroup v1&#xff0c;不支持 cgroup v2。因此&#…

PRewrite: Prompt Rewriting with Reinforcement Learning

PRewrite: Prompt Rewriting with Reinforcement Learning 基本信息 2024-01谷歌团队提交到arXiv 博客贡献人 徐宁 作者 Weize Kong&#xff0c;Spurthi Amba Hombaiah&#xff0c;Mingyang Zhang 摘要 工程化的启发式编写对于LLM&#xff08;大型语言模型&#xff09;应…

大数据分析技术工程师CCRC-BDATE

大数据分析技术工程师介绍 大数据始于科技之美&#xff0c;归于创造价值。大数据时代&#xff0c;“谁用好数据&#xff0c;谁就能把握先机、赢得主动”。当下数据驱动的电信、社交媒体、生物医疗、电子政务商务等行业都在产生着海量的数据&#xff0c;随着大规模数据关联、交叉…

vue基本用法

文本插值 {{}} 用来绑定data方法返回的对象属性 v-bind:为标签的属性绑定data方法中返回的属性 事件绑定v-on:xxx 简写为xxx 双向绑定v-model 条件渲染 v-if v-else v-else-if 动态渲染页面元素

兰德:《中国量子技术的产业基础和军事部署报告》

2月1日&#xff0c;美国智库兰德公司发表中国量子技术的产业基础和军事部署报告&#xff0c;该报告强调了美国和中国均视量子科学和技术为确保各自经济和军事领导地位的战略要素。还指出量子科学是一项军民两用的技术。 该报告提到目前美国政府已经为量子科学制定了一项公开的国…

SoraAI优先体验资格注册教程

SoraA1视频工具优先体验资格申请 申请网址&#xff1a;https://openai.com/form/red-teaming-network 申请步骤&#xff1a; 填写基础信息 请使用英文根据内容填写以下内容&#xff0c;名、姓、电子邮件、居住国家、组织隶属关系(如果有)、教育水平 、学位&#xff08;哪个领…

数据库-DDL

show databases; 查询所有数据库 select database(); 查询当前数据库 use 数据库名&#xff1b; 使用数据库 creat database[if not exists] 数据库名…

【python】六个常见爬虫案例【附源码】

大家好&#xff0c;我是博主英杰&#xff0c;整理了几个常见的爬虫案例&#xff0c;分享给大家&#xff0c;适合小白学习 一、爬取豆瓣电影排行榜Top250存储到Excel文件 近年来&#xff0c;Python在数据爬取和处理方面的应用越来越广泛。本文将介绍一个基于Python的爬虫程序&a…

leetcode热题HOT 54. 螺旋矩阵(59. 螺旋矩阵 II)

一、问题描述&#xff1a; 给你一个 m 行 n 列的矩阵 matrix &#xff0c;请按照 顺时针螺旋顺序 &#xff0c;返回矩阵中的所有元素。 二、解题思路&#xff1a; 整体思路就是模拟螺旋遍历矩阵的过程&#xff0c;依次遍历外围边界的元素&#xff0c;并将其按顺序存入结果列表…

vant van-field 密码输入框小程序里隐藏、显示密码bug总结

老规矩先上效果图: vant 输入框组件 密码的隐藏与显示功能&#xff1a; 注: 用password属性控制密码的显示与隐藏 不要用type属性&#xff0c;type属性在真机上有时会没有效果 1、当然如果只用typepassword 不需要切换显示、隐藏也可以使用。 2、如果用到了密码的显示与…

计算机mfc140.dll文件缺失的修复方法分析,一键修复mfc140.dll

电脑显示mfc140.dll文件缺失信息时&#xff0c;不必担心&#xff0c;这通常是个容易解决的小问题。接下来让我们详细探究并解决mfc140.dll文件缺失的状况。以下将详述相应的解决方案&#xff0c;从而帮助您轻松克服这一技术难题。通过几个简单步骤&#xff0c;即可恢复正常使用…

mac使用Vscode运行C语言遇到的问题

mac系统如何使用vscode运行C语言 Unable to start debugging. Program path ‘/Users/ling/Learning/frontEnd/web/Test/main.cpp’ is missing or invalid. LLDB failed with message: Command ‘file-exec-and-symbols’. Target binary ‘/Users/ling/Learning/frontEnd/we…

(2024,SD3,整流流,定制的采样器,DiT)扩展整流流 transformer 以实现高分辨率图像合成

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis 公和众和号&#xff1a;EDPJ&#xff08;进 Q 交流群&#xff1a;922230617 或加 VX&#xff1a;CV_EDPJ 进 V 交流群&#xff09; 目录 0. 摘要 2. 流的无模拟训练 3. 流轨迹 3.1. RF 模型的定…

运维知识点-ACCESS

ACCESS access 扫出后缀为asp的数据库文件 迅雷下载&#xff0c;直接改后缀为.mdbMicrosoft Office Access是由微软发布的关系数据库管理系统。它结合了 MicrosoftJet Database Engine 和 图形用户界面两项特点&#xff0c;是 Microsoft Office 的系统程序之一。 Microsoft Off…

商城|商城小程序|基于微信小程序的智慧商城系统设计与实现(源码+数据库+文档)

商城小程序目录 目录 基于微信小程序的智慧商城系统设计与实现 一、前言 二、系统设计 三、系统功能设计 1、用户信息管理 2、 商品信息管理 3、公告信息管理 4、论坛信息管理 四、数据库设计 1、实体ER图 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 …

防患未然,OceanBase巡检工具应用实践——《OceanBase诊断系列》之五

1. OceanBase为什么要做巡检功能 尽管OceanBase拥有很好的MySQL兼容性&#xff0c;但在长期的生产环境中&#xff0c;部署不符合标准规范、硬件支持异常&#xff0c;或配置项错误等问题&#xff0c;这些短期不会出现的问题&#xff0c;仍会对数据库集群构成潜在的巨大风险。为…