MViT(ICCV 2021, Meta)论文解读

news2025/1/4 18:49:34

paper:Multiscale Vision Transformers

official implementation:https://github.com/facebookresearch/SlowFast

背景和出发点

这篇文章提出了多尺度视觉Transformer(Multiscale Vision Transformers, MViT)的概念,用于视频和图像识别。作者从多尺度特征层次结构的核心思想出发,结合Transformer模型,提出了一种新的架构。

解决了什么问题

MViT解决了现有视觉Transformer依赖大量外部预训练数据且计算和参数消耗大的问题。该模型在无需大规模外部预训练数据的情况下,显著提升了视频识别任务的性能。

创新点

  1. 多尺度特征层次结构:MViT通过多个通道-分辨率缩放阶段来实现多尺度特征金字塔。这些阶段从输入分辨率和较小的通道维度开始,逐步扩大通道容量,同时减少空间分辨率,从而创建了一个从高空间分辨率到低空间分辨率的多尺度特征金字塔。
  2. 有效的时空建模:MViT在视频识别任务中表现出色,利用时空信息来提高识别准确性。相比之下,其他视觉Transformer在帧序打乱的视频上表现较差,表明MViT更好地利用了时间信息。
  3. 计算效率高:与当前其他视频变压器模型相比,MViT在计算和参数消耗方面更加高效,能够在相同的准确性下显著减少计算量和参数数量。

方法介绍

这里的逐阶段降低分辨率增大通道数其实就是普通的ConvNets的做法,作者将其引入到Transformer结构中。作者首先提出了Multi Head Pooling Attention(MHPA)如图3所示,通过MHPA可以在Transformer block中实现灵活的分辨率建模,与分辨率和通道数都保持不变的原始的Multi Head Attention不同,MHPA通过池化操作减小 \(Q,K,V\) 的序列长度(即分辨率)实现对原始输入分辨率的降低。

通道数的增加是通过MLP实现的,当从一个stage过渡到下一个stage时,通过增加前一个stage最后一个MLP的输出来扩展通道维度。具体和卷积网络一样,当分辨率降低4倍时,通道数增加2倍。

作者通道MHPA构建了Multiscale Vision Transformer(MViT)如表2所示。

 

在MHPA中,分辨率的降维具体是通过对 \(Q\) 池化实现的,因此我们在每个stage的第一个pooling attention中设置pooling query的步长>1,其它的所有步长都设置=1。

和query pooling不同,改变key、value张量的sequence length不会影响输出的序列长度,即空间分辨率。但它们对池化注意力整体的计算量起着关键作用。因此作者解耦了 \(Q,K,V\) pooling的使用,只在每个stage的第一层使用query pooling,而在所有其它的层中使用key pooling和value pooling。

由于存在skip connection,当分辨率发生变化时,我们对residual path也进行池化来匹配维度的变化,如图3所示。当通道数发生变化时,我们通过一个额外的线性层来对齐通道维度。

实验结果

这篇文章主要是应用于视频分析的,因此除了空间分辨率外还有一个temporal维度,不过我们这里只关注2D图像识别。

在ImageNet上和其它模型的对比如下表所示

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1896756.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

nftables(1)基本原理

简介 nftables 是 Linux 内核中用于数据包分类的现代框架,用来替代旧的 iptables(包括 ip6tables, arptables, ebtables 等,统称为 xtables)架构。nftables 提供了更强大、更灵活以及更易于管理的规则集配置方式,使得…

中国1km高分辨率高质量逐年近地表CO数据集(2013-2022年)

该数据为中国高分辨率高质量逐年CO数据集,该数据集主要的空间范围覆盖整个中国,其中内容包括中国1km高分辨率高质量逐年CO数据集(2013-2022年)。时间分辨率为年,单位为mg/m3,数据以(.nc/.tif)格式进行存储。

Vscode快捷键崩溃

Vscode快捷键崩溃 Linux虚拟机下使用vscode写代码【ctrlA,CtrlC,CtrlV】等快捷键都不能使用,还会出现“NO text insert“等抽象的指令,问题就是不知道什么时候装了一个VIM插件,让他滚出电脑》》》

快速傅里叶变换(Fast Fourier Transform)

快速算法(FFT),即快速傅里叶变换(Fast Fourier Transform),是一种用于计算离散傅里叶变换(DFT)及其逆变换的高效算法。FFT算法由J.W.库利和T.W.图基于1965年提出,显著减少…

T100-XG查询报表的开发

制作XG报表 1、注册程序 azzi900 首先现将程序注册一下,在内部构建基础代码档。 2、注册作业 azzi910 也是直接新增一个,作业跟程序绑定一下。 3、T100签出规格程序 这个时候应该是没签出的,首先将规格迁出。 4、T100画面产生器 规格迁出之后,这个时候还需要生成一个画…

【探索Linux】P.37(传输层 —— TCP协议通信机制 | 确认应答(ACK)机制 | 超时重传机制)

阅读导航 引言一、确认应答(ACK)机制1. 成功接收2. 过程中存在丢包3. 引入序列号(1)序列号的定义(2)序列号的作用(3)序列号的工作原理(4)序列号和确认应答号 二、超时重传机制1. 超时…

Linux/Ubuntu访问局域网共享文件夹

文件夹中找到“Other Location”,输入“smb:IP地址/共享文件夹名称”,然后点击connect后者直接回车即可! End!

【毛发教程】使用 Maya、XGen 和虚幻引擎创建马尾辫发型

Malte Resenberger-Loosmann是国外一名首席艺术家,他负责指导整个艺术部门来制作独立游戏项目中的3D建模。在本文中,Loosmann展示了马尾辫发型背后的工作流程,分享了 Maya 和虚幻引擎中的场景设置,并解释了 GS CurveTools 如何帮助…

RTL8211FSI PHY电路设计

文章目录 硬件设计引脚功能框图说明PHYADDRPageLED 模式自动协商/速度/全半双工模式Soft Reset上电顺序 原理图设计参考 软件控制(FPGA)硬件调试 硬件设计 引脚 笔者前代数字采集板采用的 PHY 芯片是博通 Boardcom 的 B50610,其仅支持 0 ∼…

从零到一:eBay自养号测评全流程解析与实操建议

eBay自养号测评是一种通过模拟真实买家行为,为卖家提供市场反馈并提升店铺权重和排名的技术手段。以下是进行eBay自养号测评的具体步骤和注意事项: 一、准备阶段 1. 技术配置:搭建境外服务器:选择稳定的境外服务器,模…

【解码现代 C++】:实现自己的智能 【String 类】

目录 1. 经典的String类问题 1.1 构造函数 小李的理解 1.2 析构函数 小李的理解 1.3 测试函数 小李的理解 1.4 需要记住的知识点 2. 浅拷贝 2.1 什么是浅拷贝 小李的理解 2.2 需要记住的知识点 3. 深拷贝 3.1 传统版写法的String类 3.1.1 拷贝构造函数 小李的理…

go zero入门

一、goctl安装 goctl 是 go-zero 的内置脚手架,可以一键生成代码、文档、部署 k8s yaml、dockerfile 等。 # Go 1.16 及以后版本 go install github.com/zeromicro/go-zero/tools/goctllatest检查是否安装成功 $ goctl -v goctl version 1.6.6 darwin/amd64vscod…

0/1背包问题总结

文章目录 🍇什么是0/1背包问题?🍈例题🍉1.分割等和子集🍉2.目标和🍉3.最后一块石头的重量Ⅱ 🍊总结 博客主页:lyyyyrics 🍇什么是0/1背包问题? 0/1背包问题是…

html三级菜单

示例 <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <title>Menu Example</title> <link re…

加速度传感器信号处理注意事项

1 传感器分类 对于压电式压力传感器而言&#xff0c;输出信号是最重要的选择标准之一。压电式压力传感器与电子电路相连&#xff0c;电子电路将传感器产生的电荷成比例转换为电压。 如果选用外部设备&#xff08;电荷放大器&#xff09;充当电子元件&#xff0c;则称其为电…

MYSQL篇二:数据库的操作

文章目录 1. 创建数据库1.1 查看数据库列表1.2 创建与删除数据库 2. 数据的编码问题3. 字符集和校验规则3.1 查看系统默认字符集以及校验规则3.2 查看数据库支持的字符集3.3 查看数据库支持的字符集校验规则3.4 校验规则对数据库的影响 4. 操纵数据库4.1 查看当前是哪一个数据库…

力扣热100 滑动窗口

这里写目录标题 3. 无重复字符的最长子串438. 找到字符串中所有字母异位词 3. 无重复字符的最长子串 左右指针left和right里面的字符串一直是没有重复的 class Solution:def lengthOfLongestSubstring(self, s: str) -> int:# 左右指针leftright0ans0#初始化结果tablecolle…

LMT加仿真,十一届大唐杯全国总决赛

这次省赛带了太多个省一了&#xff0c;并且很多都进入了国赛总决赛&#xff0c;具体可看下面的图片&#xff0c;只放了一部分。目前只有B组是只有一个商用设备赛也就是LMT&#xff0c;A组和高职组都是仿真实践赛加上商用设备赛。 针对商用设备赛有对应的资料&#xff…

基于IIS的Windows系统Django项目本地部署

参考&#xff1a; 1. 基于Windows平台的Django本地部署和腾讯云服务器上部署&#xff08;1&#xff09;_如何在服务器上发布部署django程序 csdn-CSDN博客 2.Windows server iis部署Django详细操作 - Django中文 - 博客园 (cnblogs.com) 3.在IIS中部署pythonDjango项目时出…

大模型范式下的知识检索增强实践(非常详细)零基础入门到精通,收藏这一篇就够了

导读 OpenKG新开设“TOC专家谈”栏目&#xff0c;推送OpenKG TOC&#xff08;技术监督委员会&#xff09;专家成员的观点文章。本期邀请到阿里巴巴通义实验室自然语言处理方向负责人黄非研究员介绍通义大模型在知识检索增强方面的一些实践。 随着人工智能技术的飞速发展&…