Delving into Shape-aware Zero-shot Semantic Segmentation(CVPR2023)

news2025/1/16 1:57:34

文章目录

  • 摘要
  • 本文方法
    • Pixel-wise Vision-Language Alignment
    • Shape Constraint
    • Self-supervised Spectral Decomposition
    • 推理
  • 实验结果

摘要

由于大规模视觉语言预处理取得了令人瞩目的进展,最近的识别模型可以以零样本和开放集的方式对任意对象进行分类,并且具有令人惊讶的高精度。然而,将这一成功转化为语义分割并非易事,因为这种密集的预测任务不仅需要准确的语义理解,还需要精细的形状描绘,并且现有的视觉语言模型是用图像级语言描述训练的。为了弥合这一差距,我们在本研究中追求基于形状零样本语义分割。
本文要点

  1. 利用自监督像素特征构建的拉普拉斯矩阵的特征向量来提高形状感知
  2. 使用不同主干在不同数据集上实现的性能增益
  3. 得出了几个有趣且结论性的观察结果:促进形状感知的好处与掩码紧凑性和语言嵌入局部性高度相关
    在这里插入图片描述

本文方法

在这里插入图片描述
SAZS框架概述。SAZS解决了零样本语义分割的任务,其目的是通过开放集类别分割测试集图像Vtest,而无需额外的网络训练。在训练期间
(A)根据标签语义图Mgt,将输入图像Vtrain转换为与训练类别Ttrain的文本嵌入对齐的逐像素视觉嵌入。文本嵌入由CLIP的预训练文本编码器获得,并用作CLIP特征空间的优化锚
(B) 为了聚合输入图像中包含的形状先验,SAZS通过比较标签边界和视觉编码器的边界头的预测,联合训练边界检测的约束任务。
(C) 在推理过程中,为了减少可见类别和不可见类别之间的领域差距,SAZS将神经网络的像素预测与通过非学习获得的本征段相融合

Pixel-wise Vision-Language Alignment

比较共享特征空间中像素特征和不同文本锚定特征之间的距离是一种简单的零样本语义分割方法。然而,尽管先驱工作CLIP为视觉和文本输入引入了共享特征空间,但图像级CLIP视觉编码器对于密集预测任务是不可行的,因为图像中的精细细节以及像素之间的相关性都会丢失。在本节中,我们描述了我们解决这一问题的方法,方法是优化独立于CLIP的密集视觉编码器,并在训练过程中向CLIP特征空间中的文本锚点强制执行逐像素输出特征
我们使用扩展残差网络(DRN)和密集预测变换器(DPT)将图像编码为像素级嵌入。
文本编码器clip
图片文本对齐
为了实现视觉语言对齐,像素和相应语义类别之间的距离应最小化,而像素和其他类别之间的间距应最大化。在像素视觉和语言特征嵌入同一特征空间的假设下,我们利用余弦相似性作为特征之间的定量距离度量,并提出对齐损失作为所有像素的可见类上的交叉熵损失之和
在这里插入图片描述

Shape Constraint

由于CLIP是在图像级任务上训练的,因此简单地利用CLIP特征空间中的先验可能不足以用于密集的预测任务。为了解决这个问题,我们引入了边界检测作为一项约束任务,以便视觉编码器能够聚合图像中包含的更精细的信息。受InverseForm的启发,我们通过优化标签边缘和特征图中的边缘之间的仿射变换来解决这一约束任务。

提取视觉编码器的中间层特征,并将它们分割成patch。一方面,通过在标签语义掩码上应用Sobel算子来获得patch内的标签边缘。另一方面,特征块由边界头处理。然后,我们使用预训练的MLP计算地面实况边缘和处理后的特征块之间的第i个块的仿射变换矩阵576θi。请注意,该MLP是使用边缘掩码预先训练的,并且在我们的方法的训练过程中没有进行优化。我们通过以下方式将该仿射变换矩阵优化为单位矩阵

Self-supervised Spectral Decomposition

以无监督的方式将输入图像分解为具有清晰边界的本征段,然后将这些本征段与融合模块中神经网络的预测融合。亲和矩阵的推导是谱分解的关键。首先利用来自预训练的自监督变换器(即DINO)的最后一层的注意力块的特征f,像素i和j之间的亲和力定义为:
在这里插入图片描述

推理

给定一个用于推理的图像,我们首先使用预先训练的文本编码器CLIP对类别的短语进行编码,并获得C个类别的文本特征,每个类别由D维嵌入表示。然后,我们利用训练的视觉编码器来获得视觉特征图。最后的logits被计算为视觉特征图和文本特征之间的余弦相似性。同时,我们使用预先训练的DINO以无监督的方式提取语义特征,并计算顶部K个谱本征段Ek(在我们的实现中K=5)。最终的预测结果由融合模块生成,融合模块根据Ek和argmax的最大IoU(表示为ΦFUSE)从预测集合中进行选择。

实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/597951.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

WIKIBON:大模型炒作中,有哪些云与AI的新趋势?

进入2023年以来,以ChatGPT为代表的大模型喧嚣引发了AI的新一轮炒作热潮,堪比当年的加密货币。不同的是,以微软、NVIDIA、AWS、Google等为代表的云与芯片大厂纷纷实质性入局大模型,为大模型AI注入持续的生命力。因此ChatGPT可类比于…

【网络原理】TCP/IP四层模型中的重点网络协议

目录 🌟一、应用层协议 🌈1、XML协议 🌈 2、JSON 🌈 3、其他协议 🌟二、传输层协议(UDP与TCP重点) 🌈1、UDP协议格式 🌈 2、TCP协议格式 🎉TCP的10条…

字母钥匙圈

钥匙圈,字母! 项目概况: 在这个项目中,您将学习使用字母制作钥匙圈! 放置字母 是时候发挥创意了。为您的朋友或您自己设计一个。 指示 首先将字母拖到红色底座上(位于“设计入门”>“字母和数字”下…

RESTful Python

RESTful Python是一种使用Python编程语言实现RESTful API的方法。下面是一些常用的Python库和框架,可以用来创建RESTful API: Flask: Flask是一个轻量级的Python Web框架,可以用来创建RESTful API。它具有灵活、易于使用和快速开发的特点。 …

[数据库]关于数据库设计的原则

数据表设计原则: 自动编号的ID应该设计为bigint,因为int可能不够用,并且,为了便于统一管理,写的舒心不出错,建议所有表的自增ID全部使用bigint 。(缺点是占空间,如果有20亿条数据,浪…

地震勘探基础(二)之地震分辨率

地震分辨率 分辨率(resolution)表示分离出两个十分靠近的物体的能力,一般用距离表示。如果两个物体之间的距离大于某个特定距离时可以分辨出是两个分离的物体,小于这个特定距离时就不再能分辨出是两个物体,那么这个特…

电压放大器在超声波测距仪中的应用实例研究

超声波测距仪是一种用于测量距离的设备,其原理是利用超声波在空气中传播的速度和反射特性来计算距离。而电压放大器则是超声波测距仪中的一个重要组成部分,它可以将超声波信号放大到足够强的水平,以便于后续处理和显示。本安泰电子将为大家介…

【学习日记2023.6.1】数据库隔离级别

1. 数据库隔离级别 1.1 事务 事务只是一个改变,是一些操作的集合;用专业的术语讲,他就是一个程序的执行单元;事务本身其实并不包含这4个特性,只是我们需要通过某些手段,尽可能的让这个执行单元满足这四个特…

【C语言进阶笔记】

文章目录 1. const(常量指针、指针常量)2. static3. extern4. 指针数组和数组指针5. 结构体对齐6. int / uint取值范围、二进制形式与转换、负数表示7. \0,0,"0",0之间的区别8. 类型自动转换9. 内存结构10. …

【前端之旅】nvm-Node版本管理工具

一名软件工程专业学生的前端之旅,记录自己对三件套(HTML、CSS、JavaScript)、Jquery、Ajax、Axios、Bootstrap、Node.js、Vue、小程序开发(Uniapp)以及各种UI组件库、前端框架的学习。 【前端之旅】Web基础与开发工具 【前端之旅】手把手教你安装VS Code并附上超实用插件…

【HttpRunnerManager】搭建接口自动化测试平台操作流程

一、需要准备的知识点 1. linux: 安装 python3、nginx 安装和配置、mysql 安装和配置 2. python: django 配置、uwsgi 配置 二、我搭建的环境 1. Centos7 (配置 rabbitmq、mysql 、Supervisord) 2. python 3.6.8 (配置 django、uwsgi&am…

自然语言处理实战9-大语言模型的训练与文本生成过程

大家好,我是微学AI,今天给大家介绍一下自然语言处理实战9-大语言模型的训练与文本生成过程,以下是本文的目录结构: 文章目录 1.引言 2.大语言模型概述 3.大语言模型的应用项目 3.1 语言生成 3.2 机器翻译 3.3 问答系统 3.4 自动…

Express框架从入门到如土

目录 前言一,初体验二,路由2.1 什么是路由2.2. 路由的使用2.3 获取请求报文参数2.4 id的通配2.5 响应的设置 三,中间件3.1 中间件概述3.2 全局中间件与路由中间件的比对3.3 全局中间件的使用3.4 局部中间件的使用3.5 静态资源中间件&#xff…

“邮件营销新趋势,这个平台让你收获颇丰!

随着各媒体平台的迅速发展,2023年大家更专注于视频营销、网红营销、直播营销等营销方式。可以见得,数字媒介手段的发展,对于营销方式也产生了巨大的影响。但是,企业在拥抱新兴的营销方式的同时,也不要忽视传统的营销方…

好用的Chrome浏览器插件推荐(不定期更新)

好用的Chrome浏览器插件推荐 1.1 CSDN-浏览器助手1.2 Google 翻译1.3 JSON Viewer1.4 ModHeader - Modify HTTP headers1.5 Octotree - GitHub code tree 1.1 CSDN-浏览器助手 CSDN-浏览器助手 是一款集成本地书签、历史记录与 CSDN搜索(so.csdn.net) 的搜索工具 推荐&#x…

碳中和背景下我国空调系统发展趋势2022(李先庭)

碳中和背景下我国空调系统发展趋势 摘要 我国建筑空调系统在运行阶段的年碳排放量约为9.9亿t二氧化碳,降低其碳排放是实现碳达峰碳中和目标的重要挑战之一。本文对我国当前空调系统碳排放量进行了拆解,分…

node-exporter,prometheus,grafana三者之间的联系

一、node-exporter与节点机 用于收集节点机器的数据信息,那么node-exporter与节点机器的连接在哪里? node-exporter.yaml apiVersion: apps/v1 kind: DaemonSet metadata:name: node-exporternamespace: kube-systemlabels:k8s-app: node-exporter spe…

调整直线导轨间隙有什么方法?

直线导轨作为机械行业中非常重要的传动部件,应用范围当然相当广泛,尤其是自动化设备,基本上我们都能看到它的作用。 在机械行业待得久的人都知道,直线导轨在使用的过程中,为了保证直线导轨的正常工作,直线导…

C++ string类-2

at at 函数是在C还没有支持运算符重载的时候提供的。 他可以像 [] 重载运算符一样&#xff0c;找到某个位置的字符&#xff1a; string s1("hello world");s1.at(0) x;cout << s1 << endl; 输出&#xff1a; [] 重载运算符和 at&#xff08;&#x…

GIT常见报错以及解决方法

GIT常见报错以及解决方法 Changes not staged for commit问题复现原理解决 warning: adding embedded git repository问题复现原理解决 error: src refspec master does not match any问题复现 Changes not staged for commit问题复现&#xff1a;解决 Changes not staged for …