CVPR2024《RMT: Retentive Networks Meet Vision Transformers》论文阅读笔记

news2024/10/5 0:55:34

论文链接:https://arxiv.org/pdf/2309.11523

代码链接:https://github.com/qhfan/RMT

引言

ViT近年来在计算机视觉领域受到了越来越多的关注。然而,作为ViT的核心模块--自注意力缺乏空间先验知识。此外,自注意力的二次计算复杂度在建模全局信息时的计算成本过高。这些问题限制了ViT的应用。许多先前的工作已经尝试缓解这些问题。例如,在Swin Transformer中,作者通过应用窗口化操作来划分用于自注意力的tokens。这一操作不仅减少了自注意力的计算成本,而且还通过窗口和相对位置编码的使用向模型引入了空间先验。除此之外,NAT改变了自注意力的感受野以匹配卷积的形状,在减少计算成本的同时,也使模型能够通过其感受野的形状感知空间先验。与之前的方法不同,作者从最近在NLP领域取得成功的保留网络(Retentive Network,简称RetNet)中获得灵感。RetNet利用依赖于距离的时间衰减矩阵为一维和单向文本数据提供显式的时间先验。作者将这种时间衰减矩阵扩展到空间领域,提出基于tokens间的曼哈顿距离的二维双向空间衰减矩阵。在空间衰减矩阵中,对于一个目标token,周围的tokens越远,它们的注意力得分衰减程度越大。这种属性允许目标token在感知全局信息的同时,对不同距离的tokens分配不同程度的注意力。作者使用这种空间衰减矩阵向视觉骨干引入显式的空间先验。将这种受RetNet启发并结合曼哈顿距离作为显式空间先验的自注意力机制命名为曼哈顿自注意力(Manhattan Self-Attention,简称MaSA)。除了显式的空间先验外,由自注意力进行全局建模引起的另一个问题是巨大的计算负担。以前的稀疏注意力机制以及RetNet中保留的分解方式大多会破坏基于曼哈顿距离的空间衰减矩阵,使它们不适用于MaSA。为了在不破坏空间衰减矩阵的情况下稀疏地建模全局信息,作者提出沿图像的两个轴分解自注意力的方法。这种分解方法在不丢失先验信息的情况下分解了自注意力和空间衰减矩阵。分解后的MaSA以线性复杂度对全局信息进行建模,并具有与原始MaSA相同的感受野形状。

在MaSA中,较深的颜色表示较小的空间衰减率,而较浅的颜色表示较大的空间衰减率。随着距离变化的空间衰减率为模型提供了丰富的空间先验信息。 

创新点

1、提出基于曼哈顿距离的空间衰减矩阵MaSA来增强自注意力

2、提出MaSA的分解形式,使得全局信息建模具有线性复杂度,同时不破坏空间衰减矩阵

3、利用MaSA,构建RMT。RMT在ImageNet-1k图像分类上取得了高top-1准确率,无需额外训练数据,并在目标检测、实例分割和语义分割等任务中表现出色

方法论

RetNet的时间衰减

RetNet是一种强大的语言模型架构。这项工作提出了一种用于序列建模的保留机制。保留机制将时间衰减引入到语言模型中。保留机制首先以一种递归的方式考虑序列建模问题。可以用如下公式表示,

在序列处理任务中,单向模型只能利用当前时间步之前的所有信息。例如,在自然语言处理中的自回归模型,当前词的预测只能基于之前的词,而不能使用之后的词。因此只有当n≥m时,才会有权重

MaSA

从RetNet中的保留机制出发,作者将其改写为MaSA。在MaSA中,作者将保留机制中观察到的单向和一维的时间衰减转变为双向和二维的空间衰减。这种空间衰减引入了一个与曼哈顿距离相关的显式空间先验到视觉骨干中。此外,作者还设计了一种简单的方法来同时分解自注意力和空间衰减矩阵。

从单向衰减到双向衰减

在RetNet中,由于文本数据的因果特性,保留机制是单向的,只允许每个token关注前面的tokens而不是后面的tokens。这一特性不适用于缺乏因果属性的任务,例如图像识别。因此,作者首先将保留扩展为双向形式,表示为,

从一维衰减到二维衰减

虽然修改后的Retention支持双向建模,但这种能力仍然局限于一维,对于二维图像来说是不够的。为了解决这个限制,作者将一维保留扩展到二维。在图像的上下文中,每个token在平面内具有唯一的二维坐标位置,第n个token的坐标表示为(xn, yn)。为了适应这一点,作者将矩阵D中的每个元素调整为基于它们2D坐标的曼哈顿距离。矩阵D重新定义如下,

此外,在Retention中,softmax被替换为门控函数(gating function)。这种变化为RetNet提供了多种灵活的计算形式,使其能够适应并行训练和递归推理过程。但作者发现,这种修改对于视觉模型来说,并没有改进;相反,它引入了额外的参数和计算复杂性。因此,作者继续使用softmax来为模型引入非线性。结合上述步骤,曼哈顿自注意力表示为,

分解的MaSA

在ViT backbone的早期阶段,大量的tokens导致在尝试对全局信息进行建模时自注意力的计算成本巨大。使用现有的稀疏注意力机制或者直接使用RetNet的递归/分块递归形式,会破坏基于曼哈顿距离的空间衰减矩阵,丢失显式空间先验。为了在不破坏空间衰减矩阵的情况下稀疏地建模全局信息,作者引入了一种简单的分解方法,该方法不仅分解了自注意力,还分解了空间衰减矩阵。分解的MaSA如下,

具体来说,作者分别计算图像水平和垂直方向的注意力分数。然后,将一维双向衰减矩阵应用于这些注意力权重。

基于MaSA的分解,每个tokens的感受野形状如下图所示,它与完整MaSA的感受野形状相同。该图表明分解方法完全保留了显式的空间先验。

为了进一步增强MaSA的局部表达能力,作者引入了一个局部上下文增强模块(local context enhancement module,简称LCE,由深度可分离卷积构成),

整体架构

与之前的通用ViT骨干网络类似,RMT分成了4个阶段。前3个阶段使用分解的MaSA,最后一个阶段使用原始的MaSA。此外,作者将条件位置编码(conditional positional encodings,简称CPE)集成到模型中。

实验

图像分类

结果表明,RMT在所有设置中一致优于先前的模型。具体来说,RMT-S仅使用4.5 GFLOPs就达到了84.1%的Top1准确率。RMT-B也在类似FLOPs的情况下比iFormer增加了0.4%。此外,RMT-L模型在top1准确率上比MaxViT-B提升了0.6%,同时使用的FLOPs更少。RMT-T也在许多轻量级模型中表现突出。至于使用token标签训练的模型,RMT-S比当前最先进的BiFormer-S提高了0.5%。

目标检测与实例分割

结果表明,作者的RMT在所有比较中表现最佳。对于RetinaNet框架,RMT-T比MPViT-XS高出+1.3 AP,而S/B/L也在其他方法上表现更好。对于使用“1×”计划的Mask R-CNN,RMT-L比最近的InternImage-B高出+2.8 box AP和+1.9 mask AP。对于“3×+MS”计划,RMTS比InternImage-T高出+1.6 box AP和+1.2 mask AP。此外,关于Cascade Mask R-CNN,RMT仍然比其他骨干网络表现得更好。所有以上结果表明,RMT以明显的优势超越了其竞争对手。

语义分割

除了RMT-T(以512×512的分辨率测试)所有FLOPs都是以512×2048的分辨率测试的。所有的RMT模型在所有比较中都取得了最佳性能。具体来说,,RMT-S在Semantic FPN中比Shunted-S高出+1.2 mIoU。此外,RMT-B比最近的InternImage-S高出+1.8 mIoU。所有以上结果证明了RMT模型在密集预测方面的优越性。

消融实验

结论

在这项工作中,作者提出了RMT,这是一种具有显式空间先验的视觉骨干网络。RMT将用于NLP中因果建模的时间衰减扩展到空间层面,并引入了基于曼哈顿距离的空间衰减矩阵。该矩阵将显式的空间先验融入到自注意力机制中。此外,RMT采用了一种自注意力分解形式,能够在不破坏空间衰减矩阵的情况下稀疏地对全局信息进行建模。空间衰减矩阵和注意力分解形式的结合使RMT具备了显式的空间先验和线性复杂度。在图像分类、目标检测、实例分割和语义分割等多个视觉任务中的广泛实验验证了RMT的优越性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1711642.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

oracle 12c GI卸载流程

集群节点停止服务 [crsctl stop crs -f grid运行deinstall [rootprimary1 bin]# su - grid [gridprimary1 ~]$ cd $ORACLE_HOME/deinstall [gridprimary1 deinstall]$ ls bootstrap_files.lst bootstrap.pl deinstall deinstall.pl deinstall.xml jlib readme.txt …

电机控制系列模块解析(25)—— 过压抑制与欠压抑制

一、概念解析 变频器作为一种重要的电机驱动装置,其内置的保护功能对于确保系统安全、稳定运行至关重要。以下是关于变频器过压抑制、欠压抑制(晃电抑制)、发电功率限制、电动功率限制等保护功能的详细说明: 过压抑制 过压抑制是…

基于python flask的疾病数据采集与可视化大屏,实现关联规则算法的治疗方法分析

背景 基于Python Flask的疾病数据采集与可视化大屏,旨在实现对疾病数据的采集、分析和可视化展示,为医疗领域提供决策支持和治疗方法分析。其中,关联规则算法被应用于治疗方法分析,旨在发现不同治疗方式之间的关联性和规律性&…

【RuoYi】使用代码生成器完成CRUD操作

一、前言 前面,介绍了如何下载和启动我们的RuoYi框架。为了让小伙伴们认识到ruoyi的强大,那么这篇博客就介绍一下如何使用ruoyi的代码生成器,自动生成前端页面以及后端的对应数据库表的CRUD操作!!!真的很强…

填补领域空白!TerDiT:首次探索大规模DiT模型量化问题(MMLab出品)

论文链接:https://arxiv.org/pdf/2405.14854 项目链接:https://github.com/Lucky-Lance/TerDiT 最近在大规模预训练的文本到图像扩散模型方面的发展显著提高了高保真图像的生成能力,特别是基于transformer架构的扩散模型(DiTs&a…

linux中使用gdb调试c++的dump文件

1 查看系统是否开启dump生成 0表示没开启 ulimit -c 但是这个只是针对当前这个连接,如果想要永久修改可以修改配置文件:vim /etc/profile,然后添加上面的命令ulimit - c unlimited.然后执行source /etc/profile或者重启使刚刚的配置可以…

selenium学习笔记

什么是selenium 比较官方的解释 Selenium是一个自动化测试工具,用于在Web应用程序中模拟用户操作。它提供了一组API,可以通过编程方式控制浏览器,并模拟用户的交互行为,例如点击、输入文本和导航等。Selenium支持多种编程语言&a…

让AI学相机对焦: Learning to AutoFocus

前言 分析来自谷歌发表在 CVPR 2020 上的论文 Learning to Autofocus :https://arxiv.org/pdf/2004.12260 目前网上对这篇论文的分析较少,有的分析并没有指出关键点,如:论文解读: Learning to AutoFocus-CSDN博客&am…

LeetCode115:不同的子序列

题目描述 给你两个字符串 s 和 t ,统计并返回在 s 的 子序列 中 t 出现的个数,结果需要对 109 7 取模。 代码 /*dp[i][j]:以i为结尾的s中有以j为尾的t的个数递推公式:当s[i - 1] 与 t[j - 1]相等时,dp[i][j]可以有两…

Trie字符串统计-java

Trie,又称前缀树或字典树,是一种有序树,用于保存关联数组,其中的键通常是字符串。 目录 前言☀ 一、Trie字符串统计☀ 二、算法思路☀ 1.Trie树定义🌙 2.变量解释🌙 3.插入操作🌙 4.Trie树查找操…

以果决其行,只为文化的传承

从他们每一个人的身上,我们看到传神的东西,就是他们都能用结果,去指引自己前进的方向,这正是我要解读倪海厦老师的原因,看倪海厦2012年已经去世,到现在已经十几年时间了,但是我们看现在自学中医…

【设计模式深度剖析】【6】【结构型】【外观模式】| 以电脑开关按钮为例,并结合微服务架构的API网关加深理解

👈️上一篇:桥接模式 设计模式-专栏👈️ 目 录 外观模式(Facade Pattern)定义英文原文直译如何理解呢?字面理解代码实现中的理解生活案例:操作多功能料理机典型案例分析:API网关与外观模式 外…

STM32H750外设之ADC连续转换模式

目录 概述 1 ADC数据转换模式介绍 1.1 功能介绍 1.2 ADCx_CFGR 2 连续转换模式 (CONT1) 2.1 功能介绍 2.2 连续转换模式 2.3 转换序列完成 3 注意问题 概述 本文主要介绍STM32H750外设之ADC连续转换模式的相关内容,包括与之相关的寄存器的控制位bit。每个…

详解makefile中的foreach

在 Makefile 中,foreach 函数用于迭代处理一个以空格分隔的列表,并针对列表中的每个元素执行相同的操作。这个函数通常用于循环处理一组变量或文件名,并执行相同的规则或命令。 语法: makefile Copy Code $(foreach var, list, …

四川古力未来科技抖音小店安全靠谱,购物新体验

在数字化浪潮席卷而来的今天,电商行业蓬勃发展,各种线上购物平台如雨后春笋般涌现。其中,抖音小店凭借其独特的短视频直播购物模式,迅速赢得了广大消费者的青睐。而四川古力未来科技抖音小店,更是以其安全靠谱、品质保…

单点11.2.0.3备份恢复到单点11.2.0.4

保命法则:先备份再操作,磁盘空间紧张无法备份就让满足,给自己留退路。 场景说明: 1.本文档的环境为同平台、不同版本(操作系统版本可以不同,数据库小版本不同),源机器和目标机器部…

广东省保健食品行业协会批复成为“世界酒中国菜”活动指导单位

广东省保健食品行业协会正式批复成为“世界酒中国菜”系列活动指导单位,共促餐饮文化交流发展 近日,广东省保健食品行业协会正式批复荐酒师国际认证(广州)有限公司,成为备受瞩目的“世界酒中国菜”系列活动的指导单位…

【Linux】初识Linux和Linux环境配置

1.什么是Linux操作系统 说到电脑系统 我想有大多数人会脱口而出:windows、mac 是的,这也是如今市场上主流的两种操作系统。 但是对于IT相关的人士来说,还有一种系统也是必须有姓名 那就是Linux Linux,Linux Is Not UniX 的…

Python Hydra:现代开发者的配置管理神器

更多Python学习内容:ipengtao.com Hydra是一个用于配置管理的强大工具,旨在帮助开发者处理复杂的应用程序配置。它支持多层次的配置合并、命令行覆盖、动态配置和实验管理。Hydra特别适用于需要处理大量配置参数的机器学习和深度学习项目。本文将详细介绍…

《公正》孙溟㠭艺术

孙溟㠭艺术《公正》 孙溟㠭艺术《公正》