《Transformer Scale Gate for Semantic Segmentation》CVPR2023

news2025/1/15 13:03:18

摘要

论文提出了一种名为Transformer Scale Gate(TSG)的模块,用于优化在语义分割任务中多尺度上下文信息的编码。现有的基于Transformer的分割模型在组合不同尺度的特征时没有进行选择,这可能导致次优尺度的特征降低分割的准确性。TSG利用Vision Transformer中的自注意力和交叉注意力的内在属性来选择尺度。TSG是一个高度灵活的即插即用模块,可以轻松集成到任何基于编码器-解码器的层次化视觉Transformer架构中。通过在Pascal Context和ADE20K数据集上的广泛实验,证明了所提特征选择策略的一致增益。

拟解决的问题

语义分割任务需要识别图像中的所有对象(包括“事物”和“物质”),并确定它们的类别。现有的基于Transformer的方法通常使用单一尺度的特征来处理语义分割问题,但这种方法难以处理不同大小的多个对象。为了解决这个问题,需要一种能够有效编码多尺度上下文信息并选择合适尺度特征的方法。

创新之处

  • 提出了Transformer Scale Gate(TSG)模块,利用Vision Transformer中的自注意力和交叉注意力来选择多尺度特征。
  • TSG是一个轻量级的模块,可以通过简单的线性层实现,易于集成到现有的Transformer架构中。
  • 扩展了TSG到编码器(TSGE)和解码器(TSGD)中,分别利用自注意力和交叉注意力指导来优化多尺度特征。

方法论

基本结构包括编码器和解码器。编码器由多个多头自注意力模块组成,用于捕获图像块的特征。解码器则包含自注意力模块和交叉注意力模块,用于生成分割掩码。

Transformer Scale Gate (TSG) 

TSG 的设计目的是解决现有 Transformer 模型在处理多尺度对象时面临的挑战。由于不同对象可能在不同的尺度上具有不同的显著性,因此需要一种机制来选择最适合每个图像块的特征尺度。

  1. 整合注意力图:将编码器和解码器中所有头的自注意力和交叉注意力图整合为单一的注意力图 𝐴。这是通过连接所有头的注意力图并使用线性层来实现的。

  2. 尺度门生成:通过一个多层感知机(MLP)和层归一化(Layer Normalization)处理整合后的注意力图 𝐴,然后使用 GELU 激活函数来预测尺度门 \widetilde{G}。接着,通过 softmax 函数在尺度维度上对 \widetilde{G} 进行归一化,得到最终的尺度门矩阵 𝐺。尺度门是一个矩阵,其中的每个元素g_{n,s}表示第 𝑛 个图像块在第 𝑠 个尺度上的重要性权重。

  3. 尺度门应用:在编码器和解码器中,使用 TSG 生成的尺度门来加权多尺度特征图,从而为每个图像块选择最合适的特征尺度。

 Transformer Scale Gate in Encoder (TSGE)

为了改善编码器中多尺度特征的处理,使其能够更有效地捕捉到不同尺寸对象的特征。通过自注意力机制的指导,TSGE 能够细化和优化这些特征,从而提高语义分割的准确性。

 Transformer Scale Gate in Decoder (TSGD)

在语义分割中,解码器负责将编码器提取的特征转换为最终的分割结果。由于不同对象可能在不同尺度上表现不同,因此需要一种机制来选择和整合不同尺度的特征,以确保分割结果的准确性和细节。

Query Token 的生成和使用

  1. 初始化:在解码器的开始,Query Token通常被初始化为一组可学习的向量,每个向量对应一个类别或对象实例。
  2. 自注意力:在解码器的自注意力模块中,Query Token参与计算,以学习不同类别或实例之间的相互关系。
  3. 交叉注意力:在交叉注意力模块中,Query Token与编码器的输出特征进行交互,以获得更丰富的上下文信息。
  4. 特征融合:通过交叉注意力模块,Query Token融合了来自编码器的多尺度特征,生成细化的特征表示。
  5. 最终预测:经过解码器的多个阶段,最终每个Query Token会形成一个类别嵌入向量,这些向量与编码器输出的特征图相结合,用于生成最终的语义分割结果。

结论

文章提出的TSG模块通过利用Vision Transformer的内在属性来有效地选择多尺度特征,以提高语义分割的准确性。TSG是一个简单的基于Transformer的模块,可以作为即插即用组件在Transformer分割网络中使用。通过在两个语义分割数据集上的广泛实验,证明了所提方法的有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1968353.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【网络】UDP协议——传输层、端口号、UDP协议、UDP协议端格式、UDP的特点、UDP的缓冲区、UDP使用注意事项

文章目录 Linux网络1. 传输层1.1 端口号1.2 UDP协议1.2.1 UDP协议端格式1.2.2 UDP的特点1.2.3 UDP的缓冲区1.2.3 UDP使用注意事项1.2.5 基于UDP的应用层协议 Linux网络 1. 传输层 传输层:是 OSI 模型和 TCP/IP 模型中的重要层次,位于网络层之上、应用层…

推荐一个gpt镜像网站

包含现在主流的大语言模型 一个网站,各种模型随意切换和体验 集成多种功能 不止于对话,更有文生图,思维导图等多种功能 支持多个平台 除了网页版,更有安卓, mac os, ipad os等多个平台,随时随地方便同步和使用 …

【大模型】【智能体】agent导论

基本的图像 react: prompt:

营收保持增长,汽车之家掌握了什么“流量密码”?

从汽车之家新鲜出炉的“成绩单”来看,汽车行业的流量生意依然红火。 财报显示,2024年第二季度,汽车之家实现总营收18.7亿元,同比增长2.2%;经调整净利润5.72亿元,经调整净利润率达30.6%。其中,在…

MySQL:管理和操作数据表

数据表是数据库的重要组成部分,每一个数据库都是由若干个数据表组成的。没有数据表就无法在数据库中存放数据。MySQL数据表的管理和操作是数据库管理员和开发人员日常工作中不可或缺的一部分。 创建数据表 CREATE 创建数据表的过程是规定数据列的属性的过程&#…

数字图像处理 --- 图像的离散余弦变换(python实战)

图像的离散余弦变换(python实战) 这篇文章是我上两篇文章的延续,主要是觉得前面的文章太长了,所以把关于图像的DCT变换部分单独拎出来放到这里,这两篇文章分别是: 1,一维DCT 数字信号处理 --- 一维离散余弦变换(pyth…

搜维尔科技:【研究】Haption的自动识别技术

Real-Time Interaction for Delmia Human RTID Human “Real-Time Interaction for Delmia Human” 是个附加在Delmia V5™上的软件,它能让使用者使用数字人体模型在虚拟环境中进行实时互动仿真 在Delmia 中使用RTI ,使用者可以模拟进行以下研究: 1. 可…

table car vs. table cars:数据库命名用单数还是复数?

数据库的命名方式已经形成了许多共识,比如全部小写、下划线分隔、使用标准缩写等;其中就包括「使用单数名词」。 用户 jonr 在 reddit 网的程序员笑话(ProgrammerHumor)社区发了一篇帖子,调侃这些数据库命名方式的共识…

突破csdn每日15篇文章限制的方法

买一个vip年会员248元,就可以了.......

Linux-3:Shell编程——基础语法(0-50%)

目录 前言 一、变量 1.定义变量 2.使用变量 3.修改变量 4.将命令的结果赋值给变量 5.只读变量 6.删除变量 二、传递参数 三、字符串 1.字符串举例 2.统计字符串长度 3.字符串拼接 4.截取字符串 总结 前言 Shell是一种程序设计语言。作为命令语言,它…

算法学习day26

滑动窗口系列题 一、替换后的最长重复子串 给你一个字符串 s 和一个整数 k 。你可以选择字符串中的任一字符,并将其更改为任何其他大写英文字符。该操作最多可执行 k 次。 在执行上述操作后,返回 包含相同字母的最长子字符串的长度。 输入&#xff1a…

MySQL--MySQL函数

前言:本博客仅作记录学习使用,部分图片出自网络,如有侵犯您的权益,请联系删除 MySQL函数 一、MySQL函数简介 函数表示对输入参数值返回一个具有特定关系的值,MSOL提供了大量丰富的函数,在进行数据库管理以…

CTFHub——XSS全系列

1、反射型: 发现为表单式,猜测哪个可能存在注入漏洞,分别做测试注入发现name框存在xss漏洞 输入发现有回显但不是对方cookie,参考wp发现要用xss线上平台 将xss平台测试语句注入,将得到的url编码地址填入url框&#xf…

Mongodb集合操作

文章目录 1、进入容器2、如果数据库不存在,则创建数据库,否则切换到指定数据库3、在 MongoDB 中,创建集合不是必须操作。当你插入一些文档时,MongoDB 会自动创建集合。4、查看数据库列表5、查看集合6、显示创建集合7、删除集合 1、…

Raspberry Pi Docker 运行 IRIS

在 Raspberry Pi 上成功安装 Docker 后可以安装 IRIS 数据库。 安装的命令为: docker run --name my-iris -d --publish 1972:1972 --publish 52773:52773 intersystems/irishealth-community:latest-em-linux-arm64v8 注意,我们这里暴露了 2 个端口&a…

Spring框架 配置Gateway网关/spring cloud gateway 基础入门案例教程

文章目录 目录 文章目录 安装流程 小结 概要安装流程技术细节小结 概要 网关作为微服务集群唯一的对外入口,可以实现很多功能. 例如: 统一的解决跨域(一个ajax请求 origin域名和请求目标url中域名不同,ip不同,域名不同,端口不同,都会引发的问题)问题. 统一的身份认证.认证解…

OpenStack Yoga版安装笔记(十)placement练习

1、练习场景说明 在OpenStack Yoga版安装笔记(九)中,placement已经在controller node虚拟机上安装完成,并且已经成功拍摄了快照。 此时,controller node虚机已经安装了keystone、keystone DB、glance、glance DB、Open…

反序列化漏洞vulhub靶场serial

环境搭建 下载 https://download.vulnhub.com/serial/serial.zip 解压出来就是这种 你会得到一个这样的文件,这里使用VMware新建一个虚拟机,这里记录比较重要的几部分。 这里就是使用我们刚才下过来的。 漏洞过程详解 1.信息收集 打开靶机&#xff0…

干货满满,从零到一:编程小白如何在大学成为编程大神?

✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨ 🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢,在这里我会分享我的知识和经验。&am…

Git(4) 解决Git相关问题的实用技巧

本文将介绍一些Git实用的技巧,实际操作中解决常见的Git问题。 问题1:将本地项目推送到远程仓库 如何将本地项目推送到远程仓库,包括处理常见错误的方法,并最终将代码推送到 main 分支。 步骤 1. 初始化本地仓库 确保已经在本地…