用于语义分割的动态焦点感知位置查询

news2025/1/15 20:00:41

文章目录

  • Dynamic Focus-aware Positional Queries for Semantic Segmentation
    • 摘要
    • 本文方法
      • Dynamic Focus-aware Positional Queries
      • Efficient High-resolution Cross-attention
      • Focus-aware Segmentation Framework
    • 实验结果

Dynamic Focus-aware Positional Queries for Semantic Segmentation

摘要

类似DETR的分割器支持了语义分割方面的最新突破,即端到端地训练一组表示类原型或目标分割的查询。最近,为了更容易优化,提出了mask注意力来限制每个查询仅关注由先前解码器块预测的前景区域。尽管很有前途,但它依赖于可学习的参数化位置查询,这些查询往往会对数据集统计信息进行编码,导致不同的单个查询的定位不准确。
本文方法

  1. 提出了一种用于语义分割的简单而有效的查询设计,称为动态焦点感知位置查询(DFPQ),该查询基于先前解码器块的交叉注意力得分和相应图像特征的位置编码同时动态生成位置查询。
  2. DFPQ为目标分割保留了丰富的定位信息,并提供了准确和细粒度的位置先验。
  3. 仅基于低分辨率交叉注意力分数聚合上下文token来执行局部关系聚合,来有效地处理高分辨率交叉注意力。
    代码地址

本文方法

在这里插入图片描述
(a) 原始随机初始化的位置查询作为可学习的网络参数,其中位置查询在Transformer解码器块之间共享,并且倾向于对建模语义区域的可能位置的数据集统计进行编码,这导致不准确的定位。
(b) 基于锚点的位置查询以边界框坐标为条件,以给出每个查询围绕锚点的位置先验。然而,锚点不能描述语义区域,因此对于语义分割来说仍然是次优的。
(c) 我们用于语义分割的动态焦点感知查询是根据先前解码器块的交叉注意力分数动态生成的,以提供准确和细粒度的位置先验,从而有助于逐步定位和细化目标片段。

在这里插入图片描述
(a) 我们的动态焦点感知位置查询(DFPQ)交叉注意力。“pos”是位置的缩写。我们在虚线框中显示了生成DFPQ,其中我们将图像特征的位置编码与前一解码器块的交叉注意力分数相乘,然后是投影函数h,以获得DFPQ。为了简单起见,这里我们省略了偏项。
(b) 我们的FASeg的总体框架建立在Mask2former的基础上,它使用主干对图像进行编码,使用像素解码器融合不同分辨率下的特征,使用变换器解码器学习每个目标片段的表示。我们首先在每个解码器块中应用我们的DFPQ,以提供更准确的位置先验(用蓝色箭头标记)。然后,我们进一步建议结合我们的高分辨率交叉注意力(HRCA)层来对查询和高分辨率特征图(用红色箭头标记)之间的交叉注意力进行建模。
这里,“Top-k”选择由前一个Transformer解码器块的交叉注意力分数指示的前k个像素。

交叉注意力:
在这里插入图片描述
Q和K都是由图像特征和位置编码组成
V为图像特征

Dynamic Focus-aware Positional Queries

在这项工作中,我们的目标是开发位置查询,在类似DETR的语义分割框架下提供有效的位置先验。我们认为,以交叉注意力得分为条件生成位置查询有三个好的性质。首先,交叉注意力得分指示具有丰富上下文的区域,并且可以直接反映目标片段的定位信息。因此,当在类似DETR的框架中堆叠具有交叉关注层的几个解码器块时,前一块中的定位信息有助于在后一块中逐步定位目标片段,特别是当块处理不同尺度的特征时。

其次,交叉注意力得分是动态生成的。与作为可学习参数的内容不可知的位置查询不同,后者倾向于对整个数据集的统计数据进行编码,并限制模型的泛化能力,交叉注意力得分是以反映特定上下文位置的每个目标片段为条件的,因此更准确。最后,交叉注意力得分可以覆盖细粒度的分割细节、边缘和边界,而不是只对单个中心或锚点进行编码

因此,我们建议同时根据前一解码器块的交叉注意力得分和相应图像特征的位置编码来生成位置查询,如图2(a)所示。具体地说,由于图像特征的位置编码Kp保留了位置信息,我们通过聚集Kp来形成我们的DFPQ,如前一解码器块的交叉关注层中的交叉关注分数A所示,其可以公式化为
在这里插入图片描述
通过这种方式,我们动态生成DFPQ,以提供目标片段的位置先验。它还可以覆盖不受锚点限制的细粒度分割提示。

Efficient High-resolution Cross-attention

如现有技术所证明的,高分辨率图像特征对于分割小区域是重要的。然而,对对象查询和高分辨率图像特征之间的交叉关注进行建模需要大量的内存占用和计算成本。在这种情况下,我们提出了一种高效的高分辨率交叉注意(HRCA)层,以从高分辨率特征图中挖掘细节,并承担合理的内存负担。具体而言,我们首先从所有对象查询的交叉注意力得分最高的低分辨率图像特征中选择前k个像素。然后,我们以自上而下的方式将这些区域映射到高分辨率特征图位置,并仅对这些位置进行交叉关注。
形式上,我们首先得到低分辨率的交叉注意力得分Al,然后通过双线性上采样操作f(·)导出其高分辨率对应值Ah=f(Al)。接下来,我们将Ah中得分最高的前k个像素纳入集合Ω, 有效的HRCA可以公式化为

在这里插入图片描述
我们的HRCA与以前的稀疏注意力方法密切相关,这些方法只关注整个序列的一部分。不同的是,我们的HRCA专门用于类似DETR的框架,该框架根据信息像素对目标片段的贡献而不是其他像素来确定信息像素。与我们的HRCA类似的一项工作是RCDA模块,这是一种具有代表性的稀疏交叉注意力方法,将交叉注意力解耦为行和列注意力,以降低内存和计算成本。

Focus-aware Segmentation Framework

们通过简单地结合我们的DFPQ和HRCA,在Mask2former框架上开发了我们的FASeg。我们的FASeg概述如图2(b)所示。我们首先为具有DFPQ的Mask2former提供了更准确和细粒度的位置先验。我们在每个解码器块的交叉关注层中应用DFPQ,以提供良好的位置先验,用于聚合上下文图像特征以定位目标片段。以这种方式,随着我们在解码器块中深入,我们逐渐地定位目标片段。由于在第一个Transformer解码器块之前没有交叉关注分数,我们通过对来自辅助预测头的预测前景掩码执行平均池化来获得第一个块的DFPQ。
接下来,我们使用HRCA(第3.3节)来丰富分割细节,使其具有可承受的峰值时间内存占用和计算复杂性。在级联的三个解码器块之后,我们添加了配备有HRCA的第四个解码器块,以自上而下的方式对高分辨率特征图上的交叉注意力进行建模。通过两个简单的修改,我们的FASeg比原来的Mask2former获得了稳定的性能增益

实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/626809.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Servlet运行原理及常见API

文章目录 一. Servlet运行原理二. Servlet常用API1. HttpServlet1.1. Servlet的生命周期1.2. Post请求的构造 2. HttpServletRequest2.1. 获取请求信息2.2. 前端给后端传输数据的三种方式2.2.1. 发送Get请求通过query string传输数据2.2.2. 发送Post请求通过form提交数据2.2.3.…

Python爬虫基础知识点

Python爬虫是使用Python编写的程序,可以自动抓取互联网上的数据。常用的Python爬虫框架包括Scrapy、BeautifulSoup、Requests等。Python爬虫可以应用于众多场合,如大数据分析、信息监测、数据挖掘和机器学习等领域。那么新手应该如何学习python爬虫呢&am…

LLCC68+HC32L110

一、准备 最近研究一下LORA,因为LLCC68是阉割版本的SX126X,所以就选用这颗芯片了 模块:随便选一家都可以我简单做了个测试板,接口如下:只需要注意DIO配置成中断引脚即可 二、程序流程 RX TX初始化 #define RF_FREQ…

springboot openfeign Sentinel统一降级处理

背景 openfeign降级常规操作如下: 此种方式太过于麻烦,每一个方法都要写一个降级逻辑,并且降级逻辑大多是雷同的。 目标 提供默认的降级方式,若openfeign未指定FallbackFactory则走默认降级方式,否则就走自定义的FallbackFact…

C++【unordered_map/set的底层实现-哈希表】—含有源代码

文章目录 前言一、unordered_map/unordered_set容器(1)unordered_map容器介绍及使用(2)unordered_set容器介绍及使用(3)它们和map/set对比 二、容器底层结构(1)哈希表概念&#xff0…

分布式算法之一致性 Hash 算法

tip:作为程序员一定学习编程之道,一定要对代码的编写有追求,不能实现就完事了。我们应该让自己写的代码更加优雅,即使这会费时费力。 💕💕 推荐:体系化学习Java(Java面试专题&#…

第35步 机器学习实战DLC:不平衡数据处理(下)

失踪人口回归的第二期,继续说一说用PSM处理不平衡数据。 一、啥叫PSM PSM全称为Propensity Score Matching,翻译过来就是倾向匹配得分,为了省流,让小Chart介绍一下: 放到我们的数据就是:根据某个特征&…

架构师需要看透公司的用户心智定位

一个架构师要站在用户的角度去思考架构的规划和设计。把注意力放在用户身上,已经有无数案例证明是可以带来重大商业和技术突破的。 很多创业公司,从初创到倒闭,都没搞清楚自己的目标人群和心智。如果一个公司,能锁定目标人群及其…

7个最佳WooCommerce跨境电商社交媒体插件

在互联的早期,您通常可以将产品直接放到网上并出售。但在今天你必须进行营销和做广告。如果没有包括社交媒体在内的可持续营销策略,您的商店可能会被忽视。值得高兴的是,有很多 WooCommerce跨境电商社交媒体插件可以用来传播信息,…

【CMake 入门与进阶(5)】 CMakeLists.txt 语法规则基础及部分常用指令-续(附使用代码)

project project命令用于设置工程名称: # 设置工程名称为 HELLO project(HELLO)执行这个之后会引入两个变量:HELLO_SOURCE_DIR 和 HELLO_BINARY_DIR,注意这两个变量名的前缀就是工程名称,HELLO_SOURCE_DIR 变量指的是 HELLO 工程…

华为推出首款全栈自主数据库 GaussDB,你怎么看?

鸿蒙套壳,鸿蒙套壳完了ERP套,ERP套壳,ERP套壳完了数据库套壳,数据库套壳完了…… 犹记得GaussDB之前一直宣传是基于PostgreSQL研发而来,不知道今天为啥摇身一变为首款全栈自主分布式数据库了。 基于开源研发改不恶心。…

智能设备管理系统

传统设备实施管理难点: 1、日常工作繁琐,手动纸质记录和 Excel 管理设备数据麻烦,后期难以汇总管理,且数据易丢失。 2、需核对设备巡检、保养、故障维修记录,手动更新设备状态和最近维修时间等。 3、无法实时获取设备最…

大学生网络工程想走网络安全方向该怎么规划?

明确需求,确定方向 网络安全 网络安全 是一个很广的概念,涉及的岗位也是非常多的,有安全服务、安全运维、渗透测试、web安全、安全开发、安全售前等等。可以看看下面每个岗位的要求与自身兴趣能力匹配度再决定最适合自己的方向。 渗透测试/Web安全工程师…

开启人机协作新时代:协作机器人的应用与展望

原创 | 文 BFT机器人 01 蓄势待发,产业变革新引擎 近年来,在政策扶持、资本助推和技术创新的共同作用下,产业迎来发展黄金期。日前,各行各业正经历产业智能化转型,机器人市场规模不断扩大,发展前景广阔&…

万宾建筑结构健康监测系统方案

建筑结构健康监测是现代建筑工程领域的重要措施之一。通过实时监测和评估建筑物的结构状态,可以及早发现潜在的问题,保障建筑物的安全性和稳定性。 随着城市化进程的加速和建筑规模的扩大,建筑结构的安全性和稳定性越来越受到关注。然而&…

chatgpt赋能python:Python快速打开:如何提高Python执行速度

Python 快速打开:如何提高 Python 执行速度 介绍 Python 是一种解释型语言,由于其简洁易读,广泛用于数据科学、机器学习、Web 开发等领域。然而,它的执行速度相对较慢,这通常是由于其解释器中面临的硬件资源限制以及…

如何查看docker下的mysql版本

进入运行的mysql的容器 docker exec -it mysqlserver bash 标红的位置可以是我们运行的别名,也可以为id 我们想连接mysql服务时报错了 我们看下配置文件 cat /etc/my.cnf 可以看到配置文件的sock文件位置并不在/var/lib/mysql文件夹中 这里又两种办法 1.直接修改…

JVM--方法区元空间

前言 本篇对java的JVM线程共享内存中的方法区进行系统性的讲解。 1、方法区&元空间概念 方法区是《Java虚拟机规范》中规定的一个内存区域,它用于存储已被虚拟机加载的类型信息、常量、静态变量、即时编译器编译后的代码缓存等。 元空间是方法区的实现。方法…

python基础----09-----类、对象、魔法方法、封装、继承、类型注解、多态、数据分析案例

一 初识对象 说白了就是类的实例化,类是一个抽象层的定义。 例如下面class Student就是定义的一个类,它是抽象层,然后stu_1 Student(),我们根据类创建了一个对象,就是对类的实例化,这个实例化对象我们是可…

paas云底座-数字化转型,你真的了解么

云底座是什么? 如图 底座其实就是一个基础打个比方: 把底座看成一块土地,我们在这块土地上可以盖楼房,可以挖一个游泳池,可以开一家饭店 也就是说我们这块土地可以开发很多东西言归正传 云底座其实就是数字化转型的“底…