Hiera:一个没有Bells-and-Whistles的分层视觉转换器

news2024/11/17 23:37:47

文章目录

  • Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles
    • 摘要
    • 本文方法
    • 实验结果

Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles

摘要

现代层次视觉转换器在追求监督分类性能的过程中增加了一些特定于视觉的组件。虽然这些组件带来了有效的精度和有吸引力的FLOP计数,但增加的复杂性实际上使这些变压器比它们的ViT对应产品慢。在本文中,我们认为这种额外的体积是不必要的。
本文方法
通过使用强视觉代理任务(MAE)进行预训练,我们可以在不损失精度的情况下从最先进的多级视觉变压器中去除所有的铃声和口哨。在这个过程中,我们创建了一个非常简单的分层视觉变压器Hiera,它比以前的模型更准确,同时在推理和训练过程中都要快得多。我们在图像和视频识别的各种任务上对Hiera进行了评估
代码地址
在这里插入图片描述

本文方法

在这里插入图片描述
Swin或MViT这样的现代层级式transformer比普通vit参数效率更高,但由于通过视觉特定模块(如移位窗口或convs)添加空间偏差的开销,最终速度变慢。相反,我们将Hiera设计得尽可能简单。为了增加空间偏差,我们选择使用强大的代理任务(如MAE)来教模型。Hiera完全由标准ViT块组成。为了提高效率,我们在前两个阶段使用“掩模单元”中的局部注意力(图4,5),其余阶段使用全局注意力。在每个阶段的过渡中,Q和跳跃连接的特征被线性层加倍,空间维度被2 × 2 maxpool池化。层次结构b显示在这里(其他配置见表2)
在这里插入图片描述
图4。层次模型的MAE。MAE与多阶段模型不兼容,但我们可以应用一些简单的技巧来解决这个问题。虽然MAE mask了单个令牌,但多级变压器中的令牌开始时非常小(例如,4 × 4像素),每级大小增加一倍。
(a)因此,我们掩码更粗的“掩码单位”(32×32像素)而不是直接token。
(b)为了提高效率,MAE是稀疏的,这意味着它删除了它所掩盖的东西(这是像卷积这样的空间模块的问题)。
©保留掩码令牌修复了这个问题,但放弃了MAE潜在的4 - 10倍的训练加速。
(d)作为基线,我们引入了一个技巧,将掩码单元作为卷积的单独实体,解决了问题,但需要不必要的填充。
(e)在Hiera中,我们通过改变架构来完全回避这个问题,这样内核就不会在掩码单元之间重叠。
在这里插入图片描述
MViTv2使用池化注意力(a),通过K和V的池化版本执行全局关注。对于大输入(例如视频)来说,这可能会很昂贵,所以我们选择用“掩码单元注意”(b)来代替它,它在掩码单元内执行局部注意(图4a)。这没有开销,因为我们已经将令牌分组为屏蔽单元。
我们不必像在Swin中那样担心转移(Liu et al, 2021),因为我们在阶段3和4中使用了全局注意力(图2)。
在这里插入图片描述
窗口注意(a)在固定大小的窗口内执行局部注意。这样做可能会在稀疏MAE预训练期间与删除的标记重叠。相比之下,掩模单元注意(b)在单个掩模单元内执行局部注意,无论其大小如何。

实验结果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/700241.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PS修改日期(简单两步)

PS修改日期(简单两步) Q:将图中的日期修改为6月10日 选择画笔工具,把要修改的日期涂抹掉 设置前景色,使用吸管吸附要涂抹的颜色,然后点击确定 使用设置好颜色的画笔,在要修改的日期上涂抹 …

接口自动化测试实操【设置断言思路】

1 断言设置思路 这里总结了我在项目中常用的5种断言方式,基本可能满足90%以上的断言场景,具体参见如下脑图: 在这里插入图片描述 下面分别解释一下图中的五种思路: 1) 响应码 对于http类接口,有时开发人…

期末复习【计算机网络】

期末复习【计算机网络】 前言推荐期末复习如何快速阅读电子书重点第1章 概述1.6 计算机网络的性能1.6.2 计算机网络的性能指标√ 1.7 计算机网络体系结构1.7.3 具有五层协议的体系结构√ 第2章 物理层2.3 物理层下面的传输媒体 *2.4 信道复用技术2.4.1 频分复用、时分复用和统计…

天津大学天津市认知计算与应用重点实验室视听觉认知计算团队12篇论文被语音处理顶会Interspeech 2023接收

天津大学天津市认知计算与应用重点实验室视听觉认知计算团队12篇论文被语音技术顶会Interspeech 2023接收,涵盖意图识别、口语理解、声学特征、语音识别、语音分离、情感识别等研究方向,论文简介如下。 01. Rethinking the visual cues in audio-visual…

Harbor 间通过API实现镜像复制

背景: 通过harbor搭建私有镜像仓库时,往往会设计出 研发镜像仓库--》测试镜像仓库--》产品镜像仓库,甚至更多。那个多镜像间的复制将成了一个必须解决的问题。当然可以通过harbor自带的界面操作即可实现需求,也可以通过harbor提供…

详解20个常见的模拟电路

桥式整流电路 二极管的单向导电性:二极管的PN结加正向电压,处于导通状态;加反向电压,处于截止状态。其伏安特性曲线,如下图。 理想开关模型和恒压降模型:理想模型指的是在二极管正向偏置时,其管…

乳腺癌预测的黑科技!一起探索 R 语言和随机森林算法的奇妙之处!

一、引言 乳腺癌是全球最常见的女性恶性肿瘤之一,也是导致女性死亡的主要原因之一。根据世界卫生组织的数据,每年有约200万例乳腺癌新病例的发生,导致60多万人死亡。乳腺癌的早期发现和精准治疗对于患者的生存率和预后至关重要。 然而&…

uniapp封装门票等票务样式

先看效果图 ticketpage组件引用后,根据父级背景颜色改变镂空的颜色,空组件只有中间镂空的样式,上面是插槽heaer,下面内容是插槽content,可以自定义自己的内容和样式。我实现的最终效果是用的uview组件,如果复现需要项目引入。可…

pytorch量化库使用(2)

FX Graph Mode量化模式 训练后量化有多种量化类型(仅权重、动态和静态),配置通过qconfig_mapping ( prepare_fx函数的参数)完成。 FXPTQ API 示例: import torch from torch.ao.quantization import (ge…

ACL2023 | 赔了?引入GPT-3大模型到智能客服,竟要赔钱?

作者 | 小戏、Python 关于大模型的商业落地,一个非常容易想到的场景就是智能客服,作为不止是大模型也是 NLP 领域的一个最主要的应用场景,由于人工客服的高昂成本,AI 客服伴随着模型技术的发展也逐步走进我们的生活,在…

vue iview table Tooltip内容过多闪屏解决

vue的项目,框架是iview 客户反应,指令描述的内容有几百个字,鼠标悬浮,浏览器开始闪烁 解决思路是加宽度限制,滚动, 后面发现像是transfer属性的bug,触碰浏览器底部,距离不够造成 …

重新理解 RocketMQ Commit Log 存储协议

最近突然感觉:很多软件、硬件在设计上是有 root reason 的,不是 by desgin 如此,而是解决了那时、那个场景的那个需求。一旦了解后,就会感觉在和设计者对话,了解他们的思路,学习他们的方法,思维…

C#可视化 国产热剧信息查询(具体做法及全部代码)

目录 题目: 做法: 代码部分: DBHelper类 From1主窗体代码 题目: 1. 首次打开页面,展示所有汽车信息列表,如图 1 所示。 2.双击第二行右边内容全部发生改变 数据库设计及内容 做法: 首先设置d…

React hooks文档笔记(五)useEffect——解决异步操作竞争问题

1.开发环境下组件加载两次? 非bug,重新安装组件仅在开发过程中发生,帮助找到需要清理的效果。在生产环境中只会加载一次。 React 将在 Effect 下次运行之前以及卸载期间调用您的清理函数。return () > {}; 2. 🌰订阅事件情况…

Python连接MySQL数据库(简单便捷)

🐒,本文中,使用到的工具有:Pycharm,Anaconda,MySQL 5.5,spyder(Anaconda) 什么是 PyMySQL? PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2 中则…

Java 语言基础练习题

Java 语言基础练习题 Key Point ●包的基本语法 ●Java 语言中的标识符,命名规范 ●八种基本类型 ●基本操作符 ●if 语句和switch 语句 练习 1.(标识符命名)下面几个变量中,那些是对的?那些是错的?错的请…

C++学习 程序控制结构

程序控制结构 以某种顺序执行的一系列动作,用于解决某个问题。包括 顺序结构、选择结构、循环结构。 顺序结构 按照顺序正常执行。前几篇文章的代码都是顺序结构的体现。 选择结构 执行满足条件的语句。 if 结构:if (表达式){} 表达式为真则执行&…

Linux历史及环境搭建(VMware搭建CentOS7环境)

Linux历史及环境搭建 1.Linux历史1.1 UNIX发展的历史1.2 Linux发展历史1.2.1 开源1.2.2 官网1.2.3 发行版本 2.VMware配置CentOS7环境2.1 CentOS下载2.2 配置环境2.3 切换国内阿里源2.4 无图形化界面开机 结语 1.Linux历史 在这里简要介绍Linux的发展史。要说 Linux&#xff0…

机器学习李宏毅学习笔记36

文章目录 前言Meta learning应用总结 前言 Meta learning(二)应用方向 Meta learning应用 回顾gradient descen Θ0(initial的参数)是可以训练的,一个好的初始化参数和普通的是有很大差距的。可以通过一些训练的任务…

Python通过私信消息提取博主的赠书活动地址

文章目录 前言背景设计开发1.引入模块2.获取私信内容3.根据文本提取url的方法4.获取包含‘书’的url5.程序入口 效果总结最后 前言 博主空空star主页空空star的主页 大家好,我是空空star,本篇给大家分享一下《通过私信消息提取博主的赠书活动地址》。 背…