InvPT++:用于视觉场景理解的倒金字塔多任务Transformer

news2024/11/9 1:55:51

文章目录

  • InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene Understanding
    • 摘要
    • 本文方法
      • 整体结构
      • InvPT++ Encoder
      • Task-Specific Preliminary Decoders
      • Structure of InvPT++ Decode
      • UP-Transformer Block
      • Cross-Scale Self-Attention: Fusion Attention and Selective Attention
    • 实验结果

InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene Understanding

摘要

多任务场景理解旨在设计能够用一个通用模型同时预测多个场景理解任务的模型。先前的研究通常以更局部的方式处理多任务特征,因此无法有效地学习空间全局和跨任务的交互,这阻碍了模型在多任务学习中充分利用各种任务一致性的能力。
在这里插入图片描述
任务之间的有效信息交换对于多任务密集场景的理解尤为重要,InvPT++提出了一种开创性的方法,以高效的方式构建不同任务特征在空间和任务维度上的全连接全局建模。
本文方法

  1. 提出了一种倒金字塔多任务Transformer ,能够在全局背景下建模不同任务的空间特征之间的跨任务交互
  2. 首先使用Transformer 编码器来捕获所有任务的任务通用特征
  3. 然后,设计了一个Transformer 解码器来全局建立空间和跨任务交互,并设计了一种新的UPTransformer 来逐步提高多任务特征的分辨率,并在不同尺度上建立跨任务交互。
  4. 提出了两种类型的跨尺度自注意模块,即融合注意和选择性注意,以有效地促进不同特征尺度的跨任务交互。
  5. 进一步引入了编码器特征聚合策略,以更好地对解码器中的多尺度信息进行建模。
    代码地址

本文方法

整体结构

在这里插入图片描述
(i)在所有任务之间共享的InvPT++ transformer编码器从输入图像中获取与任务无关的视觉特征。
(ii)一组任务专用初步解码器生成每个任务专用特征Fdt和初步预测Pt,它们随后在通道维度上级联以形成组合特征Fct。
(iii)独特的InvPT++转换器解码器处理所有T个任务的Fct作为输入,实现空间和任务维度上的全局跨任务交互,并以递增的分辨率细化任务特征。

InvPT++ Encoder

InvPT++编码器是一种transformer编码器,旨在提取给定图像的通用任务共享特征。在每个变换器层中,自注意模块通过对不同空间位置之间的长程空间依赖性建模来帮助学习全局特征表示。编码器产生一个特征序列,然后将其重塑为空间特征图。特征图的形状为H0×W0,其中H0和W0分别表示特征图的高度和宽度。假设我们学习了T个任务,然后将从编码器获得的任务通用特征传递给T个初步解码器,以生成相应的T个特征图。在实验中,我们探索了不同的编码器选择,例如,具有全局注意力的ViT和具有窗口注意力的Swin Transformer。

Task-Specific Preliminary Decoders

任务专用初步解码器的功能是生成不同任务的任务专用特征和粗略预测。为了实现这一点,我们构造了一个基本单元,该基本单元由具有3×3内核的卷积层、批处理归一化操作和ReLU组成,表示为“Conv BN ReLU”。每个任务的预备解码器由两个Conv BN ReLU单元组成。它接受编码器功能作为输入,并为相应的任务提供特定于任务的功能

Structure of InvPT++ Decode

在这里插入图片描述
InvPT++解码器的设计。它由三个阶段组成,每个阶段通过专门设计的transformer块,在不同尺度上对空间全局上下文中所有任务的特征之间的跨任务交互进行全局建模。多任务令牌序列的空间分辨率在不同阶段逐渐提高,每个阶段的注意力信息传递到下一阶段,以实现跨规模的跨任务交互。多尺度编码器功能用于帮助学习InvPT++解码器中的多尺度信息。

小结:多尺度,高分辨率,任务特征之间的交互

UP-Transformer Block

在这里插入图片描述
设计的“UP Transformer 块”的结构。
它学习对多任务特征进行上采样,然后通过一个新颖的跨尺度自注意模块建立全局全任务交互。
设计了一种注意力消息传递策略来桥接两个相邻阶段之间的注意力信息,编码器特征聚合机制有助于学习多尺度信息。该块采用特征序列Fs、来自前一阶段的注意力得分矩阵As−1和编码器特征Fes作为输入。它最终输出细化和上采样的多任务令牌序列Fs+1和注意力得分矩阵A′s。它们是下一阶段的投入。
在这里插入图片描述
Reshape & Up模块示意图。多任务令牌序列最初沿着第一维度进行划分,从而创建一系列特定于任务的令牌序列。然后将每个令牌序列重构为空间特征图,并通过双线性插值增加大小。在此之后,使用Conv BN ReLU单元来修改信道维度。然后,将最终的特征图展平为令牌序列,随后将其连接以形成上采样的多任务令牌序列。

Cross-Scale Self-Attention: Fusion Attention and Selective Attention

在这里插入图片描述
图示两种类型的跨尺度自我注意模块:融合注意和选择性注意。(a) 融合注意力将来自前一层的跨尺度注意力消息与当前阶段的注意力图合并。这促进了跨不同层次的自我注意模块的学习过程。(b) 相比之下,选择性注意建议使用早期量表中的注意信息作为指导,以确定自注意计算中的重要标记,这大大减少了计算冗余。它在关注消息中选择具有最高平均值的前k个令牌,并在当前阶段的自我关注计算中仅包含这k个令牌

实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/677893.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

团体程序设计天梯赛-练习集L1篇⑦

🚀欢迎来到本文🚀 🍉个人简介:Hello大家好呀,我是陈童学,一个与你一样正在慢慢前行的普通人。 🏀个人主页:陈童学哦CSDN 💡所属专栏:PTA 🎁希望各…

ChatGPT | LangChain的文本切割方法对比

本文来自http://blog.csdn.net/hellogv/ ,引用必须注明出处! ChatGPT面向对话格式的文本理解很好,但如果要把网络上的文章让ChatGPT直接分析则会有格式的问题。文本清洗是个大课题,讲起来需要很多篇幅,优化起来前路漫…

学习C++的意义

文章目录 前言意义软件方法论的发展面向对象的程序设计宽泛的意义 C到C的升级ubuntu安装g编译器总结 前言 C是一种强大而广泛应用的编程语言,具有广泛的用途和应用领域。无论你是计算机科学专业的学生、自学编程的爱好者,还是想要进一步提升编程技能的专…

在linux系统中如何设置定时任务

前言: 在linux日常运维过程中我们常常需要在指定时间段自动停止或启动某个服务我们不可能人为的手动去执行,这时候我们就可以给对应的任务设置一个定时。后面我就可以将周期性的、规则的工作交给定时任务去完成。 **一次性任务:**顾名思义就是…

SAP CAP篇七:为CAP添加Fiori Launchpad入口 (Sandbox环境)

本文目录 本系列之前的文章在现有代码基础上继续增强增强app文件夹文件 package.json文件夹appconfig文件fioriSandboxConfig.json文件 fiori.html更新Srv中的UiIndexContentProviderFactory 再次检查代码运行效果代码库 (Gitcode) 本系列之前的文章 本系列之前的文章&#xf…

javaWeb之cookiesession

1 回顾 1.1 response对象 一次响应封装对象,由服务器创建。使用response对象将服务器需要的数据发送给浏览器。 将数据存放response对象中,tomcat从response对象获得数据,根据数据组织http响应,最后将http响应内容发送给浏览器&…

CTF-Show密码学:ZIP文件密码破解【暴力破解】

萌新 隐写23 题目内容: 文件的主人喜欢用生日做密码,而且还是个90后。 一、已知条件 在这个题目中,我们有以下已知条件: 文件的主人喜欢用生日做密码 - 这个条件告诉我们,密码可能是一个八位的纯数字密码&#xff0c…

windows服务器——部署PKI与证书服务

作者简介:一名云计算网络运维人员、每天分享网络与运维的技术与干货。 座右铭:低头赶路,敬事如仪 个人主页:网络豆的主页​​​​​ 目录 前言 学习导图 一.PKI 概念 1.PKI体系能够实现的功能 二.公钥加密技术 1.公钥加…

股票量化系统QTYX选股框架实战案例集|大盘跳水,上涨趋势票抗跌-230621

前言 “实战案例个股画像”系列是和大家分享我基于QTYX的选股框架,在实战中选股的应用案例,和大家一起见证QTYX选股框架逐步完善的过程,帮助大家更好地理解QTYX选股框架精髓。 关于QTYX的使用攻略可以查看链接:QTYX使用攻略 首先要…

C++ 面向对象(2)——继承

C 继承 面向对象程序设计中最重要的一个概念是继承。继承允许我们依据另一个类来定义一个类,这使得创建和维护一个应用程序变得更容易。这样做,也达到了重用代码功能和提高执行效率的效果。 当创建一个类时,您不需要重新编写新的数据成员和…

【Python】异常处理 ① ( 异常概念 | 异常处理 | 异常捕获 )

文章目录 一、Python 异常简介1、异常概念2、Python 异常示例 二、Python 异常处理1、异常处理简介2、代码实例 - 出现异常代码3、代码实例 - 出现异常并进行捕获处理 一、Python 异常简介 1、异常概念 Python 异常 是在程序运行过程中发生的错误或问题的表示 ; 出现异常可能会…

【软件设计师暴击考点】面向对象考点暴击系列

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:软件…

记录好项目D12

记录好项目 你好呀,这里是我专门记录一下从某些地方收集起来的项目,对项目修改,进行添砖加瓦,变成自己的闪亮项目。修修补补也可以成为毕设哦 本次的项目是个房屋租赁系统 一、系统介绍 包括管理员、房东、租客三种角色&#…

【小沐学数据库】MongoDB下载、安装和入门(Python)

文章目录 1、简介2、下载和安装2.1 平台支持2.2 MongoDB Community Server2.3 MongoDB Shell2.4 MongoDB Compass2.5 pymongo库 3、概念3.1 数据库3.2 文档(Document)3.3 集合(Collection)3.4 元数据3.5 数据类型 4、Python代码测试4.1 连接数据库4.2 指…

kafka基础

文章目录 1、什么是消息队列?2、基础架构3、Kafka为什么快4、零拷贝5、Rebalance机制6、kafka如何避免重复消费7、避免消息丢失8、Kafka怎么实现消息的顺序消费9、什么是ISR10、Kafka文件存储机制 1、什么是消息队列? kafka是一个消息队列的中间件&…

ProGuard混淆及R8优化

前言:使用java编写的源代码编译后生成了对于的class文件,市面上很多软件都可以对class文件进行反编译,况且Android开发的应用程序是用Java代码写的,为了很好的保护Java源代码,我们需要对编译好后的class文件进行混淆。…

切底掌握Android中的Kotlin DSL

前言 在这篇文章中,我们将学习如何在您的 Android 项目中编写 Kotlin DSL。 这个文章会很长,所以花点时间,让我们一起来写你的 DSL。我们将讨论以下主题, 什么是简单英语中的 DSL?您使用任何 DSL 吗?为什…

微服务的文件配置

1 基于本地文件配置的痛点 ①修改本地配置文件 需要重启服务 ②viper能监听本地配置文件变动 修改内存中变量的值 貌似可以满足需求 痛点如果实例过多 手动改极有可能出错 很多服务都依赖一个配置 运维可以写脚本批量修改 出问题运维不想背锅 ③ 多语言开发的实例 使用…

ThreadX在mdk(AC5)中的移植

1.ThreadX简介 Threadx是由 Express Logic 公司开发的一款实时操作系统(RTOS),2019年被微软收购,成为了微软的一款Azure RTOS。在2020年,ThreadX也加入了开源大军,将ThreadX内核及其各大组件开源免费。 Th…

电赛汇总(一):微控制器以其外围电路模块设计

电赛汇总(一):微控制器以其外围电路模块设计 这一章节主要详细记录各种常用的微控制器的引脚功能、外围的电路模块等,以便随时查看翻阅。这部分内容出自黄智伟等学者著的《全国大学生电子设计竞赛教程–常用电路模块制作》一书中,感兴趣的朋…