Inception Transformer

news2024/10/2 16:15:30

paper链接: https://arxiv.org/abs/2205.12956v2

code链接: https://github.com/sail-sg/iFormer

Inception Transformer

  • 一、引言
  • 二、实现细节
  • 三、实验
    • 一、分类
    • 二、检测
    • 三、分割
    • 四、消融实验

一、引言

最近的研究表明,Transformer具有很强的建立远程依赖关系的能力,但在捕获高频信息时却表现不佳。为了解决这个问题,本文提出了一种新颖的通用Inception Transformer(简称iF),它可以有效地学习视觉数据中高频和低频信息的综合特征。具体地说,将卷积和最大池化的优点移植到Transformer上,以捕获高频信息。与最近的混合框架不同,Inception混频器通过通道分裂机制,采用并行卷积/最大池化路径和自注意路径作为高频和低频混频器,带来了更高的效率,同时具有对分散在宽频率范围内的判别信息建模的灵活性。考虑到底层更多地用于捕获高频细节,而顶层更多地用于建模低频全局信息,进一步引入了频率斜坡结构,即逐渐减少给高频混频器的维数,增加低频混频器的维数,可以有效地权衡不同层之间的高低频分量。
ViT及其变体对视觉数据中的低频捕获能力很强,主要包括场景或对象的全局形状和结构,但对高频学习能力不强,主要包括局部边缘和纹理。这可以直观地解释为:vit中用于在非重叠补丁令牌之间交换信息的主要操作self attention是一个全局操作,并且更能够捕获全局信息(低频)。下图1(a)和1(b)所示,傅里叶频谱和相对对数振幅表明,ViT倾向于很好地捕获低频信号,而很少捕获高频信号。这种低频偏好降低了ViTs的性能,主要表现在:(1)在所有层中填充低频信息会导致高频成分(如局部纹理)的劣化,削弱了ViTs的建模能力;2)高频信息也具有鉴别性,可以使许多任务受益,例如(细粒度)分类。实际上,人类视觉系统以不同的频率提取视觉基本特征低频提供视觉刺激的全局信息,高频传达图像的局部空间变化(如局部边缘/纹理)。因此,有必要开发一种新的ViT体系结构来捕获视觉数据中的高频和低频。
CNN是一般视觉任务最基本的骨干。与ViTs不同,它通过感受野内的局部卷积覆盖更多的局部信息,从而有效地提取高频特征。最近的研究考虑到CNN和ViTs的优势互补,将二者进行了整合。有些方法将卷积层和注意层按串行方式堆叠,将局部信息注入全局上下文。不幸的是,这种串行方式只在一层中对一种类型的依赖项建模,要么是全局的,要么是局部的,并且在局部建模期间丢弃全局信息,反之亦然。其他工作采用并行注意力和卷积同时学习输入的全局和局部依赖关系。但是,部分通道用于处理局部信息,另一部分用于全局建模,这意味着当前的并行结构如果处理每个分支中的所有通道,则具有信息冗余。
在这里插入图片描述
为了解决这个问题,作者提出了一个简单有效的Inception Transformer (iFormer),如下图所示,它将CNN捕获高频的优点嫁接到vit上。
在这里插入图片描述
iFormer的关键组件是一个Inception令牌混合器,如下图所示。这种Inception混频器旨在通过捕获数据中的高频和低频来增强vit在频谱中的感知能力。为此,Inception混频器首先将输入特征沿通道维度进行分割,然后将分割后的分量分别送入高频混频器和低频混频器。
在这里插入图片描述

这里的高频混频器由最大池化操作和并行卷积操作组成,而低频混频器由ViTs中的自注意实现。这样,iFormer可以有效地捕获相应通道上的特定频率信息,从而在较宽的频率范围内获得更全面的特征。
此外,较低的层通常需要更多的局部信息,而较高的层需要更多的全局信息。这是因为,就像人类的视觉系统一样,高频分量中的细节有助于底层捕捉视觉的基本特征,也有助于逐步收集局部信息,从而对输入有一个全局的理解。受此启发,设计了一个频率斜坡结构。特别是,从低到高,逐步向低频混频器提供更多的通道维度。

二、实现细节

与串行方法相比,文献中将注意力与卷积并行结合的作品并不多。CoaT和ViTAE引入卷积作为平行于注意的分支,并利用elementwise sum对两个分支的输出进行合并。然而,Raghu等人发现,一些通道倾向于提取局部依赖关系,而其他通道则用于建模全局信息,这表明当前并行机制处理不同分支中的所有通道具有冗余性。相反,将通道分成高频和低频的分支。GLiT也采用并行方式,但直接将卷积和注意分支的特征拼接成混频器输出,缺少不同频率特征的融合。相反,本文设计了一个显式的融合模块来合并来自低频和高频分支的输出。
提出的Inception混合器,将CNN提取高频表示的强大能力嫁接到Transformer上。之所以使用“Inception”这个名字,是因为令牌混合器受到具有多个分支的Inception模块[的启发。Inception混频器没有直接将图像令牌送入MSA混频器,而是先将输入特征沿通道维度进行分割,然后将分割后的分量分别送入高频混频器和低频混频器。其中高频混频器由最大池化操作和并行卷积操作组成,而低频混频器由自注意实现。
给定输入特征映射 X ∈ R N × C X∈R^{N×C} XRN×C,将X沿通道维度分解为 X h ∈ R N × C h X_h∈R^{N×C_h} XhRN×Ch X l ∈ R N × C l X_l∈R^{N×C_l} XlRN×Cl,其中 C h + C l = c C_h + C_l = c Ch+Cl=c,将X_h和X_l分别分配给高频混频器和低频混频器。
高频混合器:考虑到最大滤波器的敏锐灵敏度和卷积运算的细节感知,提出了一种并行结构来学习高频成分。沿通道将输入 X h X_h Xh分为 X h 1 ∈ R N × C h 2 X_{h1}∈R^{N× \frac{C_h}{2}} Xh1RN×2Ch X h 2 ∈ R N × C h 2 X_{h2}∈R^{N× \frac{C_h}{2}} Xh2RN×2Ch。如下所示, X h 1 X_{h1} Xh1嵌入max-pooling层和线性层, X h 2 X_{h2} Xh2馈送到线性层和深度卷积层。
在这里插入图片描述
在这里插入图片描述
最后,将低频和高频混频器的输出沿通道维度进行拼接:
在这里插入图片描述
上采样操作选择每个位置的最近点的值,而不考虑任何其他点,这导致相邻符号之间过度平滑。作者设计了一个融合模块来克服这个问题,即在补丁之间交换信息的深度卷积,同时保持跨通道线性层,像以前的Transformer一样在每个位置工作。最终输出可以表示为:
在这里插入图片描述
像普通的Transformer一样,iFormer配备了前馈网络(FFN),不同的是,它还包含了上面的Inception令牌混合器(ITM);在ITM和FFN之前应用LayerNorm (LN)。因此,Inception Transformer块的正式定义为:
在这里插入图片描述
低频混频器。使用多头自注意在低频混频器的所有令牌之间进行信息通信。尽管特征图具有较强的全局表示学习能力,但较大的分辨率会给底层带来较大的计算成本。因此,简单地使用平均池化层来降低注意力操作前 X l X_l Xl的空间尺度,使用上采样层来恢复注意力操作后的原始空间维度。这种设计极大地降低了计算开销,使注意力操作集中在全局信息的嵌入上。这个分支可以定义为:
在这里插入图片描述
请注意,池化层和上采样层的内核大小和步幅仅在前两个阶段设置为2。
如下图所示,主干有四个不同通道和空间维度的阶段。对于每个块,定义了一个通道比,以更好地平衡高频和低频成分,即 C h C \frac{C_h}{C} CCh C l C \frac{C_l}{C} CCl,其中 C h C + C l C = 1 \frac{C_h}{C}+\frac{C_l}{C}=1 CCh+CCl=1。在频率斜坡结构中, C h C \frac{C_h}{C} CCh从浅层到深层逐渐减小, C l C \frac{C_l}{C} CCl,逐渐增大。因此,通过灵活的频率斜坡结构,iFormer可以有效地权衡各层的高频和低频分量。
在这里插入图片描述
不同iFormer模型的配置如下:
在这里插入图片描述

三、实验

一、分类

在这里插入图片描述
在这里插入图片描述

二、检测

在这里插入图片描述

三、分割

在这里插入图片描述

四、消融实验

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/347938.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vAPI:一个自托管的OWASP Top 10漏洞API靶场

关于vAPI vAPI是一款针对OWASP Top 10漏洞的练习靶场,vAPI项目是一个故意引入了多种漏洞的可编程接口API,广大研究人员可以利用vAPI来研究和练习OWASP Top 10漏洞。 工具要求 PHP MySQL PostMan Mitmproxy 工具安装 Docker安装 docker-compose up -d…

Jira和Confluence Server版终止支持倒计时365天,企业应对策略汇总

本文对Atlassian最新的Server版政策进行了解读,并给出应对方案;同时我们也将国内热门的替代工具与jira进行了比较细致的对比,以及介绍替换的优惠政策等。今天是2023年2月15日,距离 Atlassian 旗下 Jira、Confluence 等系列产品中国…

互联网的路由选择协议

互联网的路由选择协议 文章目录互联网的路由选择协议路由选择协议的几个概念分层次路由选择协议内部网关协议RIP协议距离向量算法RIP协议的报文格式内部网关协议OSPFOSPF的报文格式✨OSPF的特点外部网关协议BGPBGP的报文格式参考本篇主要讨论的是路由表中的路由是如何得出来的。…

如何获取 openai ChatGPT的key?(图文教学)

我直接对他进行询问 Q:获取chatptp的key A:对不起,作为ChatGPT,我不具有API密钥或访问凭据。我只是一个已经被训练好的自然语言处理模型,通过输入文本来生成回复。您可以在OpenAI的网站上了解有关他们的API和访问凭据…

Gif动态图片怎样在线生成?一招快速完成gif在线制作

Gif表情包作为日常聊天中必备的气氛调和剂,不仅能够更好的表达出自己的内心情绪,还能够缓解聊天的尴尬。那么,要怎么制作gif表情包呢?下面,介绍两个简单的方法,轻松一键就能在线完成gif制作(htt…

Linux安装elasticsearch-head

elasticsearch-head 是一款专门针对于 elasticsearch 的客户端工具,用来展示数据。 elasticsearch-head 是基于 JavaScript 语言编写的,可以使用 Nodejs 下的包管理器 npm 部署。 1 安装Nodejs nodejs下载地址: https://nodejs.org/en/dow…

记一次OOM

1,问题描述: 新上了一版代码之后,上游服务请求我们服务失败,报错:“服务不可用”,发现注册中心上服务掉线,查询日志:发现oom:Java heap space,GC overhead limit exceeded。 容易…

国产电容式触控IC的工作原理及应用

国产电容式触控IC采用CMOS工艺,内建稳压和驱动电路,具有高可靠性、高灵敏度、超低功耗、强稳定性、抗干扰能力强、宽工作电压等方面优点,专为取代光感和传统按键开发而设计。 电容式触控芯片 - CT8225是一款使用电容感应式原理设计的触摸芯片…

Linux_基本指令

新的专栏Linux入门来啦!欢迎各位大佬补充指正!! Linux_基本指令导入文件绝对路径与相对路径隐藏的文件指令ls查看stat查看文件属性cd进入路径mkdir创建目录touch创建文件rm删除man查询手册cp复制mv移动cat查看文件morelessheadtail时间相关的…

redis分布式锁的演变过程

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、直接添加Redis缓存二、使用setnx执行抢锁过程三、setnx获取锁+设置过期时间四、引入UUID解决误删锁问题五、引入Lua脚本来做删除六、对递归部分优化进行自旋七、添加自旋次数八、改为重入锁,使…

Grafana loki部署及使用及问题处理方法(超详细)

一、下载软件 因为我是本地测试,所以用的windows版本的包,loki服务window版本的安装包下载地址:下载地址,选择 promtail-windows版本的安装包下载地址:下载地址 Grafana服务的下载地址:下载地址 二、配置…

月薪过万的那些人,大部分都是做什么工作的?

三百六十行,行行出状元。不管是什么行业,月薪过万都是有的。只不过有些行业就是比较容易出现月薪过万,换句话说,就是这个行业内出现月薪过万的人数比较多。先说结论,综合来看月薪过万的这部分90后,大部分集…

JavaScript语法学习--《JavaScript编程全解》

《JavaScript编程全解》 JavaScript琐碎基础 0.前言 1.RN: react native是Facebook于2015年4月开源的跨平台移动应用开发框架,是Facebook早先开源的JS框架 React 在原生移动应用平台的衍生产物,支持iOS和安卓两大平台。 2.ts与js js:是弱…

[CentOS] Dell塔式服务器安装CentOS7

主要基于 UEFI GPT方式引导,LegacyMBR的方式这里不做讨论 目录基础信息BIOS设置U盘制作启动盘启动安装注意事项基础信息 CentOS7.5UltraISO 9.3.x机型:DELL OPTIPLEX 7080机型: DELL OPTIPLEX 5090机型: DELL OPTIPLEX 300U盘&a…

ChatGPT 未来会造成大量职业的裁员和失业吗?

大家好,小编来为大家解答以下问题,一个有趣的事情,一个有趣的事情,今天让我们一起来看看吧! 1、chatGpt来自那个国家? ChatGPT是一种聊天机器人技术,它来自美国,由OpenAI公司开发。…

HR管理系统的五大选择特点

市面上的HR管理系统那么多,难免选的眼花缭乱。我们的建议是,就根据你们自己的需求来,满足自身需求的,才是最好的。当然价格页得考虑。如果HRMS与你的组织需求不一致,则会妨碍有效的HR管理。跟着下面的步骤去选一款HR产…

第四章 - 基础查询语句(select,distinct,limit)

基础查询语句,select,distinct,limit查询单列数据查询多列数据查询所有数据去重查询(distinct)限制查询结果(limit)查询单列数据 在列名和函数没有冲突的时候可以不用加前后的比如有时候时间的…

微信小程序|基于小程序+C#制作一个超酷的个人简历

你还在用以前的方式投简历吗?趁着金三银四来临之际,跟随此文使用小程序制作一个便携超酷的个人简历,高调炫技,愉快的收offer吧! 一、小程序

内存泄漏检测组件 -- mtrace

目录 用mtrace检测内存泄漏 使用addr2line定位代码 C/CLinux服务器开发/后台架构师【零声教育】-学习视频教程-腾讯课堂 用mtrace检测内存泄漏 描述: mtrace()函数为内存分配函数安装hook(钩子)函数【malloc()、realloc()、memalign()&am…

Python语言零基础入门教程(十九)

Python 异常处理 python提供了两个非常重要的功能来处理python程序在运行中出现的异常和错误。你可以使用该功能来调试python程序。 1、异常处理 2、断言(Assertions) python标准异常 什么是异常? 异常即是一个事件,该事件会在程序执行过程中发生&…