NesT : 嵌套层次Transformer

news2025/4/23 5:57:33

        探讨了在不重叠的图像块上嵌套基本局部变换的思想,并以分层的方式对它们进行聚合。发现块聚合功能在实现跨块非局部信息通信中起着至关重要的作用。

        这个观察结果引导我们设计一个简化的体系结构,它需要在原始视觉转换器上进行少量的代码更改。所提出的明智选择的设计有三个好处:(1)NesT收敛速度更快,需要更少的训练数据,以在ImageNet和像CIFAR这样的小数据集上实现良好的泛化;(2)当将我们的关键思想扩展到图像生成时,NesT带来了一个强大的解码器,比以前基于变压器的生成器快8倍;(3)通过设计中的这种嵌套层次结构将特征学习和抽象过程解耦,可以构建一种新的方法(称为GradCAT),用于可视化地解释学习到的模型。


1. 引言

        缺乏归纳偏差,如局部性和平移等方差,是ViT模型数据效率低下的一个解释。Transformer模型以一种可变形的卷积方式学习局部行为:底层局部关注周围像素,顶层倾向于长期依赖。另一方面,高分辨率图像中像素对之间的全局自关注在计算上是昂贵的。减少自注意力范围是提高模型训练计算效率的一种方法。这些类型的见解与具有局部自注意力和层次transformer的最新结构一致,而不是整体的全局自注意力,它们对局部图像补丁进行关注。为了促进补丁间的信息交流,提出了专门的设计,如“光晕操作”和“移位窗口”。这些都是基于修改自注意力机制,并且在复杂的体系结构中经常产生。另一方面,设计目标保持原有的关注,引入聚合功能的设计,提高数据的准确性和效率,同时带来可解释性的好处。

        NesT模型通过堆叠规范Transformer Blocks来单独处理不重叠的图像块。跨块自注意力是通过分层嵌套这些Transformer 并将它们与建议的聚合函数连接来实现的。图1说明了整个体系结构和生成它的简单伪代码。

(左)嵌套变压器层次结构的NesT示意图;(右)生成架构的简单伪代码。每个节点t1处理一个图像块。在层次之间进行块聚合(这里的num hierarchy= 3),实现图像(feature map)平面上的跨块通信。

        将分层嵌套的 Transformer 与所提出的块聚合函数集成可以优于以前复杂的(局部)自注意力变体,从而大大简化了体系结构并提高了数据效率。

        NesT通过显著简化的架构设计实现了令人印象深刻的ImageNet分类精度。与流行的卷积架构相比,NesT在小数据集上实现了匹配的精度。当将这一思想从分类扩展到图像生成时,NesT可以被重新用于强大的解码器,该解码器可以获得比卷积架构更好的性能,同时具有相当的速度。

        提出了一种名为GradCAT的新方法,通过遍历其树状结构来解释NesT的推理过程。这提供了一种新的视觉可解释性,解释了聚合局部变形器如何选择性地处理来自语义图像补丁的局部视觉线索。

2. 相关工作

        基于Vision Transformer 的模型面临的一个挑战是数据效率。虽然原始的ViT在预训练时使用数亿张图像时性能优于卷积网络,但这种数据需求并不总是实际可行的。数据高效的ViT(DeiT)(Touvron et al 2021a,b)试图通过引入来自卷积网络的 教师蒸馏 来解决这个问题。尽管这种方法很有前景,但它增加了监督训练的复杂性,并且在数据高效基准测试(Hassani et al 2021; Chen et al 2021)上的现有报告性能仍然显著低于卷积网络。

        由于ViT已显示出在图像分类以外的视觉任务上的改进,之前的工作研究了其在生成建模、视频理解、分割和检测、可解释性等方面的适用性。

3. 提出的方法

3.1 主要架构

        总体设计是堆叠规范 transformer 层,对每个图像块独立进行局部自注意力,然后分层嵌套。通过在每两个层次之间提出的块聚合来实现空间相邻块之间处理信息的耦合。

        整体层次结构可由两个关键超参数确定:补丁大小S × S和块层次数T_d。每个层次结构中的所有块共享一组参数。


        首先,给定一个形状为H × W × 3的图像作为输入,其中H是高度,W是宽度,3代表RGB三个颜色通道。该模型将图像分割成大小为S × S的图像块(或称为“patches”)。每个这样的图像块都被线性投影(即,通过一个线性层转换)到一个R^d 维的嵌入向量中,其中R^d 表示 d 维实数空间。

        接下来,所有的这些嵌入向量被组织成块(blocks),并展平以生成一个输入张量X,其形状为 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1913810.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Dify中的weaviate向量数据库操作

一.安装weaviate客户端 1.Dify 0.6.9中weaviate信息 在Dify 0.6.9版本中weaviate容器信息如下: # The Weaviate vector store. weaviate:image: semitechnologies/weaviate:1.19.0restart: alwaysvolumes:# Mount the Weaviate data directory to the container.- ./volume…

精简库存,避免售罄 零售商常见错误及策略

减少库存是库存管理中最容易被误解和管理不善的策略之一。但如果正确执行,精简运营可以大幅降低成本,同时减少缺货和新鲜产品的损坏。 问题是什么?太多企业在尝试精简库存时陷入了同样的陷阱。不依赖过剩库存的库存规划能够提供所需的灵活性…

室内精准定位是什么?室内精准定位的方式有哪些?

说到室内精准定位很多人可能会比较陌生,因为这一说法并没有大范围推广,又或者说只是很多相关行业的人才知道这样的说法。但是定位这一问题大家都知道吧?尤其是要到一个地方去,都会进行定位导航。那么这一般都是户外定位&#xff0…

智能车载防窒息系统设计

摘要 随着汽车行业的快速发展,车辆安全问题越来越受到人们的关注。其中,车载防窒息系统是一项重要的安全设备。本论文基于STM32单片机,设计了一种智能车载防窒息系统。该系统主要包括氧气浓度检测模块、温湿度检测模块、声音检测模块、光线检…

应用在灯带Type-C接口上的PD SINK协议芯片ECP5701/ECP5702获取充电器的5V、9V、12V、15V、20V供电

方案背景 近日,欧盟就统一充电器接口的提案达成了一项政治协议,其中规定了在欧盟地区销售的所有手机或其他便携式中小型电子设备必须采用统一的USB Type-C接口。这项决定意味着未来将会有更多的产品强制性地使用TYPE-C充电接口。 在这个背景下&#xf…

qq通讯录如何关闭?一键操作,让通讯录的人看不到我

在当今社交网络盛行的时代,qq通讯录是我们与朋友、家人和同事保持联系的重要工具之一。然而,有时我们可能希望保持一些隐私,不希望所有人都能看到我们的动态或在线状态。针对这种情况,QQ提供了关闭通讯录的功能,使得我…

WPF界面设计-更改按钮样式 自定义字体图标

一、下载图标文件 iconfont-阿里巴巴矢量图标库 二、xaml界面代码编辑 文件结构 &#xe653; 对应的图标代码 Fonts/#iconfont 对应文件位置 <Window.Resources><ControlTemplate TargetType"Button" x:Key"CloseButtonTemplate"…

[Python自动化办公]--从网页登录网易邮箱进行邮件搜索并下载邮件附件

[Python自动化办公]–从网页登录网易邮箱进行邮件搜索并下载邮件附件 使用说明 ​ 本文使用Python的selenium库进行操作邮箱登录、固定名称搜索邮件并下载附件&#xff0c;Python版本&#xff1a;3.9.16, selenium版本&#xff1a;4.19.0&#xff0c;EdgeBrowser版本:126.0.2…

【ARM】MDK安装ARM_compiler5无法打开安装程序

【更多软件使用问题请点击亿道电子官方网站】 1、 文档目标 在客户安装了最新版本的MDK5.37及后续更新版本&#xff0c;但原工程使用ARM_Compiler_5.06进行编译和调试&#xff0c;需安装ARM_Compiler_5.06的编译器版本&#xff0c;但在解压缩的过程中后续无法打开ARM_Compiler…

图像分割-编码解码网络的训练-kreas实现

一、数据集加载&#xff1a; 纯手工打造一个函数用来加载数据&#xff0c;数据分别为image和mask 我们所需要的类型&#xff1a;&#xff08;B数量&#xff0c;长&#xff0c;宽&#xff0c;通道数&#xff09;&#xff0c;只要将数据加载成这样并mask和image对应就行。 第一步…

【抢先体验】Win11 22H2/23H2七月更新补丁KB5040442!

系统之家于7月10日发出最新报道&#xff0c;微软为Win11 22H2/23H2用户发布了七月的更新补丁KB5040442&#xff0c;用户更新系统后&#xff0c;可以发现版本号升至22621.3880和22631.3880。此次更新针对远程身份验证拨入用户服务协议与MD5冲突等多个问题进行修复。接下来跟随小…

视频怎么压缩变小?最佳视频压缩器

即使在云存储和廉价硬盘空间时代&#xff0c;大视频文件使用起来仍然不方便。无论是存储、发送到电子邮件帐户还是刻录到 DVD&#xff0c;拥有最好的免费压缩软件可以确保您快速缩小文件大小&#xff0c;而不必担心视频质量下降。继续阅读以探索一些顶级最佳 免费视频压缩器选项…

springboot通江银耳销售管理系统-计算机毕业设计源码15998

摘要 随着人们健康意识的增强&#xff0c;银耳这种传统的中药食材备受关注。而通江银耳是四川省通江县特产&#xff0c;中国国家地理标志产品。四川省通江县是银耳的发源地&#xff0c;中国银耳之乡&#xff0c;通江银耳因主产于此而得名&#xff0c;以其独到的质厚、肉嫩、易炖…

哪些行业更需要TPM管理咨询公司?

当下&#xff0c;TPM&#xff08;全面生产维护&#xff09;作为一种旨在提高设备效率、降低维护成本的管理理念&#xff0c;已经被越来越多的行业所认可和采纳。然而&#xff0c;不同行业因其特性和需求的不同&#xff0c;对TPM管理咨询公司的需求也各有侧重。下面将探讨哪些行…

selenium采集招标网站公告

selenium采集招标网站公告 一、项目介绍二、采集过程三、完整代码一、项目介绍 本次数据采集以某市建设工程交易服务中心数据为例,网址为“http://www.shcpe.cn/jyfw/xxfw/u1ai51.html”,网站首页如下图所示: 采集到的字段如下图所示: 二、采集过程 本次数据采集使用的…

sdwan是硬件还是网络协议?

SD-WAN&#xff08;Software-Defined Wide Area Network&#xff0c;软件定义广域网&#xff09;并不是一个硬件产品或单一的网络协议&#xff0c;而是结合了软件、硬件和网络技术的一种解决方案。SD-WAN的核心在于其软件定义的特性&#xff0c;它通过软件来控制和管理广域网的…

Ubuntu20.04下修改samba用户密码

Ubuntu20.04下修改samba用户密码 在Ubuntu系统中&#xff0c;修改samba密码通常涉及到两个方面&#xff1a;更改samba用户的密码和重置samba服务的密码数据库。以下是如何进行操作的步骤&#xff1a; 1、更改samba用户密码&#xff1a; 打开终端&#xff0c;使用以下命令更改…

智能汽车网络安全笔记

汽车五大域 动力底盘、车身控制、智能座舱、智能网联和高级辅助驾驶五大域 国外汽车安全法规标准 汽车网络安全管理体系&#xff08;CSMS&#xff09; CSMS指的是管理汽车的网络威胁和风险&#xff0c;并保护车辆免受网络攻击的组织过程和管理系统 安全验证和安全测试 8…

NVIDIA RTX 4090解析:卓越的性能表现带来全新的AI探索高度

前言 NVIDIA GeForce RTX 4090 在性能、效率和 AI 驱动的图形领域实现了质的飞跃。这款 GPU 采用 NVIDIA Ada Lovelace 架构&#xff0c;配备 24 GB 的 GDDR6X 显存。此外&#xff0c;RTX 4090还引入了多项创新技术。例如&#xff0c;它支持 DirectX12Ultimate&#xff0c;能够…

SpringMVC(2)——controller方法参数与html表单对应(请求参数的绑定)

controller方法参数与html表单对应 规则 1. 绑定机制 表单提交的数据都是kv格式的 usernamehaha&password123SpringMVC的参数绑定过程是把表单提交的请求参数&#xff0c;作为控制器中方法的参数进行绑定的&#xff0c;要求&#xff1a;提交表单的name和参数的名称是相同…