(CVPR,2024)CAT-Seg:基于成本聚合的开放词汇语义分割

news2024/10/6 1:43:40

文章目录

  • 摘要
  • 引言
  • 方法
    • 计算成本与嵌入
    • 空间成本聚合
    • 类别成本聚合
    • CAT-Seg框架
  • 实验

摘要

开放词汇的语义分割面临着根据各种文本描述对图像中的每个像素进行标记的挑战。在这项工作中,我们引入了一种新颖的基于成本的方法,以适应视觉语言基础模型,特别是CLIP,用于复杂的语义分割任务。通过聚合余弦相似度分数,即图像和文本嵌入之间的成本体积,我们的方法通过微调其编码器,强大地适应了CLIP以对已见和未见类进行分割,解决了现有方法在处理未见类时面临的挑战。在此基础上,我们探讨了有效聚合成本体积的方法,考虑到它在图像和文本嵌入之间建立的多模态特性。此外,我们还研究了有效微调CLIP的各种方法。

引言

开放词汇的语义分割旨在根据文本描述,将图像中的每个像素分配到一个无限范围内的类标签。为了处理将图像与各种文本描述相关联的挑战,预训练的视觉语言基础模型,例如CLIP和ALIGN,因其在广泛的图像文本数据集上训练而具有强大的开放词汇识别能力而受到关注。然而,这些基础模型在训练过程中主要接受图像级别的监督,这在将它们应用于像素级分割任务时引入了显著的差异。
在本研究中,我们探讨了将图像的整体理解能力转移到像素级分割任务的方法。虽然一个直接的方法是微调CLIP的编码器,但现有的方法在此尝试中遇到了困难,因为它们在对已见类进行过度拟合时遇到了显著的问题。这导致了联合嵌入空间对未见类的不对齐,因为CLIP特征经过解码器模块进行聚合以生成分割掩码,从而失去了它们的对齐。因此,大多数方法选择冻结CLIP的编码器,仍然未充分探索这一挑战。

在这方面,我们扩展了对适应CLIP进行开放词汇语义分割的探索,并引入了一种新颖的基于成本的框架。我们建议聚合CLIP图像和文本嵌入之间的余弦相似度,即匹配成本,与视觉对应文本相对应。令人惊讶的是,我们发现,在这个框架上微调CLIP有效地适应了分割的下游任务,无论是已见还是未见的类别。鉴于此,我们深入探讨了更好地聚合图像和文本之间的成本体积以进行分割的方法。
在这里插入图片描述

直觉上,成本体积可以被视为粗略的语义掩码,与各自的类相关联,如图2所示。随后,这些粗略掩码可以进一步细化以获得准确的预测结果,成为成本聚合过程。基于此,我们旨在有效地聚合成本体积,并将该过程配置为空间和类聚合
我们的框架,名为CAT-Seg,将我们的基于成本的成本聚合框架与我们对微调CLIP编码器的最佳方法相结合。我们在每个标准的开放词汇基准上取得了最先进的结果,与最近的最新技术相比,A-847的mIoU提高了+3.6,PC459的mIoU提高了+8.1。CAT-Seg不仅有效,而且在训练和推理方面都比区域文本方法更高效,推理速度提高了3.7倍以上。

我们总结我们的贡献如下:

  • 我们提出了一个基于成本的框架,用于开放词汇的语义分割,通过微调其编码器,有效地将CLIP适应于分割的下游任务。

  • 为了聚合图像-文本成本体积,我们将我们的框架与空间和类聚合相结合,以推理多模态成本体积,并探索各种方法来增强我们的成本聚合框架。

  • 我们的框架CAT-Seg在标准的开放词汇基准以及极端情况下均实现了最先进的性能,展示了其多功能性和实用性。

方法

在给定图像I和候选类别集合 C = { T ( n ) } C = \{T(n)\} C={T(n)},其中 n = 1 , . . . , N C n = 1, . . . , N_C n=1,...,NC,其中 T ( n ) T(n) T(n)表示第n个类别的文本描述,NC是类别的数量时,开放词汇的语义分割为图像I中的每个像素分配一个类别标签。与传统的语义分割任务不同,开放词汇的分割任务在给定自由形式文本描述的情况下,额外面临着C的变化
在本节中,我们描述了我们用于开放词汇语义分割的基于成本的方法。具体来说,我们通过细化CLIP的图像和文本嵌入的余弦相似度分数,如图2所示。细化余弦相似度分数的过程,或称为成本聚合,最初是为了解决图像对应问题而开发的,专门设计用于处理图像到图像的成本体积。
在这里插入图片描述

另一方面,我们的目标是聚合图像到文本的成本体积,因此需要考虑成本体积的多模态性以及每种模态的特性。在这方面,如图3所示,我们将聚合阶段分解为两个独立的模块,即空间聚合类别聚合,合理地解决了开放词汇语义分割任务所面临的独特挑战。这包括处理推理过程中类别数量的变化,以及保证类别之间的排列不变性。具体来说,我们先进行空间聚合,然后进行类别聚合,并交替进行两种聚合。

计算成本与嵌入

在这里插入图片描述

给定图像 I I I和一组类别 C C C,我们提取了密集的图像嵌入 D V = Φ V ( I ) ∈ R ( H × W ) × d D^V = Φ^V (I) ∈ R^{ (H×W)×d} DV=ΦV(I)R(H×W)×d和文本嵌入 D L = Φ L ( T ) ∈ R N C × d D^L = Φ^L(T) ∈ R^{N_C×d} DL=ΦL(T)RNC×d,其中 Φ V ( ⋅ ) Φ^V (·) ΦV() Φ L ( ⋅ ) Φ^L(·) ΦL()分别表示CLIP的图像和文本编码器。为了提取密集的CLIP图像嵌入,我们修改了图像编码器的最后一个注意力层以消除池化效应。我们使用图像和文本嵌入 D V ( i ) D^V(i) DV(i) D L ( n ) D^L(n) DL(n),其中i表示图像嵌入的2D空间位置,n表示一个类别的索引,通过余弦相似度计算得到成本体积 C ∈ R ( H × W ) × N C C ∈ R^{(H×W)×N_C} CR(H×W)×NC。形式上,这定义为:
在这里插入图片描述

为了增强在高维特征空间中处理成本的能力,我们将成本体积馈送到一个单卷积层,该层独立处理每个成本切片 C ( : , n ) ∈ R ( H × W ) × 1 C(:, n) ∈ R ^{(H×W)×1} C(:,n)R(H×W)×1,以获得初始成本体积嵌入 F ∈ R ( H × W ) × N C × d F F ∈ R ^{(H×W)×N_C×d_F} FR(H×W)×NC×dF,其中 d F d_F dF是成本嵌入维度,如图3所示。

空间成本聚合

在这里插入图片描述

对于空间聚合,我们旨在考虑图像-文本成本体积内部的图像特性,例如图像内的空间平滑性。具体而言,我们分别为每个类别应用空间聚合。我们采用Swin Transformer 以实现计算效率,我们定义这个过程如下:
在这里插入图片描述

其中 F ( : , n ) ∈ R ( H × W ) × d F F(:, n) ∈ R^{ (H×W)×d_F} F(:,n)R(H×W)×dF T s a ( ⋅ ) T ^{sa}(·) Tsa()表示一对连续的Swin Transformer块,用于空间聚合,其中第一个块特征在局部窗口内的自注意力,接着第二个块在移动窗口内进行自注意力。请注意,我们将 d F d_F dF视为每个标记的通道维度,并且注意力是在各个类别内单独计算的。直观地,我们可以将空间聚合的过程大致对应于图2底部一行,其中“sofa”的成本体积经过聚合后得到了很好的细化,背景区域的噪声被抑制了。

类别成本聚合

在这里插入图片描述

在空间聚合之后,我们应用类别聚合来考虑文本模态,明确捕捉不同类别之间的关系。我们还考虑到了处理不同类别数量C的开放词汇语义分割的独特挑战,同时保持对它们的顺序不变。为了解决这些挑战,我们采用了一个没有位置嵌入的Transformer 层用于聚合,因为这可以同时满足上述两个标准。这个过程定义如下:
在这里插入图片描述

其中 F ′ ( i , : ) ∈ R N C × d F F ′ (i,:) ∈ R ^{N_C×d_F} F(i,:)RNC×dF T c a ( ⋅ ) T ^{ca}(·) Tca()表示用于类别聚合的Transformer块。与空间聚合相比,我们采用线性Transformer,因为在这个聚合中我们不需要考虑输入标记的空间结构,并且从输入标记数量的线性计算复杂度中受益。类别聚合过程可以与图2顶部一行联系起来,其中聚合的成本体积显示了对只有椅子的预测,而不包括沙发,因为这两个类别一起给出以进行推理。

CAT-Seg框架

在这里插入图片描述

在通过空间和类别聚合得到聚合的成本体积后,我们进一步增强了我们的方法,通过引入上采样聚合过程来推导语义分割预测。此外,借鉴最先进的成本聚合技术的见解,我们通过利用从CLIP的嵌入中得出的指导来完善我们的成本聚合策略。最后,我们研究了各种微调CLIP编码器的方法,以有效而高效地使CLIP适应开放词汇的语义分割。

  1. 上采样解码器

    在这里插入图片描述

    与FPN类似,我们对聚合的成本体积进行双线性上采样,并将其与从CLIP提取的相应级别的特征图进行串联,然后经过一个具有固定大小的3×3卷积核的卷积层。我们重复此过程 N U N_U NU次,生成一个高分辨率输出,然后将其馈送到预测头进行最终推理。为了提取高分辨率的特征图,我们避免使用额外的特征主干,因为这会引入沉重的计算负担。相反,我们从CLIP图像编码器的中间层提取这些图。具体地,我们从CLIP ViT的中间层的输出中提取特征图,然后使用一个可学习的转置卷积层将它们上采样。这种方法允许我们有效地利用CLIP学到的表示来获取详细的预测。

  2. 嵌入指导
    在这里插入图片描述

    为了增强成本聚合过程,我们额外利用嵌入 D L D^L DL D V D^V DV来提供输入的空间结构或上下文信息。直观地说,我们的目标是利用嵌入来引导过程,基于这样的假设:视觉上或语义上相似的输入标记,例如颜色或类别,具有相似的匹配成本,受到了立体匹配文献中成本体积过滤的启发。因此,我们重新定义Eq. 2和Eq. 3如下:
    在这里插入图片描述

    这里[·]表示连接, P V P^V PV P L P^L PL表示线性投影层, D V ∈ R ( H × W ) × d D^V ∈ R^{(H×W)×d} DVR(H×W)×d,而 D L ∈ R N C × d D^L ∈ R^{N_C×d} DLRNC×d,其中 d d d表示特征维度。值得注意的是,我们只提供嵌入给查询和键,因为我们发现这对于嵌入指导已经足够了。

  3. CLIP的高效微调
    虽然我们的目标是通过微调其图像和文本编码器充分使CLIP适应下游任务,但微调这样的基础模型可能会涉及数亿个参数,计算成本高且占用内存大。另一方面,冻结其中一些层不仅更有效,而且还可以帮助CLIP保持其原始嵌入空间,使其更具抗过拟合能力。为此,我们广泛研究了应该在CLIP 中冻结哪些层,同时考察了微调预训练模型的各种方法。

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1606114.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【算法】反转链表

本题来源---《反转链表》 题目描述: 给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 示例 1: 输入:head [1,2,3,4,5] 输出:[5,4,3,2,1]示例 2: 输入:head [1,2] 输…

ansible模块实战-部署rsync服务端

目录 1、根据部署流程所用到的命令找出模块 2.实战部署 2.1 服务部署:yum 安装 2.2 准备好rsync服务的配置文件 ,并将配置文件通过copy模块分发给192.168.81.136这台受控主机 2.3 创建虚拟机用户 2.4 创建密码文件和改权限 2.5 模块对应目录&…

大屏数字字体+渐变色

vue数据大屏使用数字字体_vue数字字体-CSDN博客 用css实现文字字体颜色渐变的三种方法_css 字体颜色渐变-CSDN博客

Java内存模型和 JVM 内存运行时

文章目录 前言一、什么是Java 的内存模型?二、什么是 JVM 的运行时数据区Java8 之前和之后的区别JVM 内存模型JVM 内存区域JVM 内存垃圾回收JVM如何判断哪些对象不在存活?JVM运行过程中如何判断哪些对象是垃圾? JVM 垃圾回收Java8 中的 jvm如…

Codeforces Round 924 (Div. 2) ---- F. Digital Patterns ---- 题解

F. Digital Patterns: 题目描述: 思路解析: 要求在一个方块中,任意相邻的方块中他的透明度系数不能相同,这样的方块称为趣味性方块,问这样的方块有多少种。 那么我们可以相当,假设 a1 a2, 那…

Day 17 计划任务

计划任务:在约定好的时间完成计划好的工作 一次性计划任务:at ①安装一次性计划任务at:yum -y install at ②启动at服务:systemctl start atd 使用at命令 at 执行任务的时间 at> 写入需要执行的命令 at> ...... …

数字营销:细分-目标-定位(STP)模式——如何实现精准营销

细分-目标-定位(STP)模型是最广为人知的营销策略之一。作为营销人员,我们倾向于追逐新鲜事物,总是追求最新、最闪亮的营销技术,并为自己领先于趋势而感到自豪。与内容营销相结合,STP模式仍然是简化营销运作…

Linux http协议与实现http服务器

目录 一、HTTP与URL 1、HTTP协议 2、URL 3、URL编码 4、报文与报头 报文(Message) 报头(Header) 二、HTTP(超文本传输协议)的内部运作机理 请求部分: 响应部分: 三、实现…

聊聊binlog是什么

1. 上一讲思考題解答:redo日志刷盘策略的选择建议 先给大家解释一下上一讲的思考題,我给大家的一个建议,其实对于redo日志的三种刷盘策略,我们通常建议是设置为1 也就是说,提交事务的时候,redo日志必须是刷入磁盘文件…

Java代码基础算法练习-水仙花数-2024.04.17

任务描述: 水仙花数也被称为超完全数字不变数、自恋数、自幂数、阿姆斯壮数或阿姆斯特朗数。水仙花数是 指一个 3 位数,它的每个位上的数字的3次幂之和等于它本身。 例如: 1的3次方 5的3次方 …

python 海龟画图tutle螺旋线

目录 初识turtle模块 基本绘图概念 示例:绘制一个正方形 示例:绘制彩色螺旋线 附录 常用命令 其它命令 在Python编程中,使用turtle模块进行图形绘制是一种非常有趣和富有教育意义的活动。通过控制一个小海龟(Turtle&#x…

2010-2022年各省新质生产力测算数据(含原始数据+计算代码+计算结果)

2010-2022年各省新质生产力测算数据(含原始数据计算代码计算结果) 1、时间:2010-2022年 2、来源:国家统计局、各省年鉴、能源年鉴、环境年鉴 3、范围:31省 4、指标: 省份、年份、分地区授权专利数&…

Java中类加载的机制

Java中类加载的机制 从宏观上看: 加载->链接->初始化 整个生命周期流程: 加载->验证->准备->解析->初始化->使用->卸载 1、加载 查找并加载类的二进制数据,并生成Class对象的实例的过程 也就是将类的.class文件…

excel里如何的科学计数法的数字转换成数值?

比如下图,要想把它们转换成3250跟1780,有什么快捷的办法吗? 科学计数法在excel里的格式,与我们常规在数学上写的有差异。这个转换可以这样做: 1.转换后的效果: 2.问题分析 题目中所附截图,单元…

Docker镜像,什么是Docker镜像,Docker基本常用命令【搜索,镜像下载,镜像删除,创建容器,导入到处镜像】及其镜像的分层

docker镜像 1.1什么是镜像,镜像基础 1.1.1 镜像的简介 镜像是一种轻量级,可执行的独立软件包,也可以说是一个精简的操作系统。镜像中包含应用软件及应用软件的运行环境,具体来说镜像包含运行某个软件所需的所有内容,…

ThingsBoard自定义需求生成告警规则以及清除告警规则

上一章已对基础的生成告警规则进行了介绍,如想查看基础,请查看下面的文章 ThingsBoard实现告警规则创建并生成报警信息-CSDN博客文章浏览阅读991次,点赞9次,收藏25次。发起者警报发起者是警报的实体例如:如果收到来自…

Golang基础-13

Go语言基础 介绍 并发 channel goroutine 互斥锁 读写锁 原子操作 select 超时处理 sync包 runtime包 介绍 本文介绍Go语言中 channel、goroutine、互斥锁、读写锁、原子操作、select、超时处理、sync包、runtime包等相关知识。 并发 进程是是最小的资源管理单元…

ArcGIS多数据框联动批量出图

这次内容是《ArcPy结合数据驱动模块的批量制图》课程的新增内容。学完这个课程大家对arcgis的数据驱动页面的批量出图应该是驾轻就熟,不管是无编程的完全基于ArcGIS数据驱动模块批量出图还是结合ArcPy的Mapping模块批量出图(arcpy.mapping)。…

MercadoLibre(美客多)入仓预约系统操作流程-自动化约号(开篇)

目录 一、添加货件信息 二、输入货件信息 三、选择发货 四、填写交货日期 五、注意事项 MercadoLibre(美客多)于2021年10月18号上线了新预约入仓系统,在MercadoLibre美客多平台上,新入仓预约系统是一项非常重要的功能&#x…

【技巧】win11 删除网络中心中多余的以太网信息

因为网络环境的变化,系统在识别网络时会出现“以太网1”,“以太网2”,“以太网3”的情况。虽然不影响使用,但是对于一些强迫症来说很不友好,通过以下方式删除: 1、Win R 打开,运行,…