【论文速递】ICLR2022 - 语言驱动的语义分割

news2025/1/6 18:48:52

【论文速递】ICLR2022 - 语言驱动的语义分割

【论文原文】:LANGUAGE-DRIVEN SEMANTIC SEGMENTATION

作者信息】:Boyi Li Cornell University, Cornell Tech Kilian Q. Weinberger Cornell University Serge Belongie University of Copenhagen Vladlen Koltun Apple René Ranftl Intel Labs

获取地址:https://arxiv.org/abs/2201.03546

博主关键词: 小样本学习,语义分割,视觉语言模型

推荐相关论文:

【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
- https://blog.csdn.net/qq_36396104/article/details/130353850?spm=1001.2014.3001.5501

摘要:

我们提出了 LSeg,一种用于语言驱动语义图像分割的新型模型。LSeg使用文本编码器计算描述性输入标签(例如“草”或“建筑物”)的嵌入,以及使用基于Transformer的图像编码器来计算输入图像的每像素密集嵌入。图像编码器通过对比度目标训练以将像素嵌入与相应语义类别的文本嵌入对齐。文本嵌入提供了一种灵活的标签表示形式,在这种表示形式中,语义上相似的标签映射到嵌入空间中的相似区域(例如“猫”和“有毛的”)。这使得LSeg能够在测试时推广到以前未见过的类别,而无需重新训练甚至不需要单个额外的训练样本。我们证明了我们的方法在零样本和少样本语义分割方面具有高竞争力的性能,并且即使提供了一个固定的标签集,也可以与传统分割算法的准确性相匹配。代码和演示可在 https://github.com/isl-org/lang-seg 获得。

关键词 -小样本学习,图像分割,Transformer ,文本编码。

简介:

语义分割是计算机视觉中的核心问题,其目标是将图像分割为有着各自语义类别标签的连续区域。目前现有的语义分割方法通常假定可以对像素分配有限的语义类别标签。标签的数量由训练数据集决定,通常涵盖从少至数十个类别(Everingham等,2015)到数百个类别(Zhou等,2019;Mottaghi等,2014)。然而,英语语言定义了数十万个名词(Li等,2020c),限制的标签数量很可能会严重阻碍现有语义分割模型的潜在识别性能。

现有方法中标签数量受限的主要原因是注释图像以产生足够的训练数据的成本。为创建训练数据集,人类注释员必须将数千个图像中的每个像素都与一个语义类别标签相关联,这是一项极其费力且成本高昂的任务,即使只使用少量标签集。随着标签数量的增加,注释的复杂性会显著增加,因为人类注释员必须了解精细的候选标签。此外,当图像中存在适用于多个不同描述或受到标签层次结构支配的对象时,注释员之间的一致性也将成为问题。

为解决这个问题,零样本和小样本的语义分割方法被提出。few-shot方法(Shaban等,2017;Rakelly等,2018;Siam等,2019;Wang等,2019;Zhang等,2019;Nguyen&Todorovic,2019;Liu等,2020b;王等,2020;Tian等,2020;Boudiaf等,2021;Min等,2021)提供了一种只用少量标注图像学习区分新类别的方法。但是,这些方法仍需要包含新类别的标记数据以便进行转移。另一方面,zero-shot方法通常利用单词嵌入来发现或生成已知类和未知类之间的相关特征(Bucher等,2019;Gu等,2020),而无需额外的注释。这个领域的现有作品使用标准单词嵌入(Mikolov等,2013)并关注于图像编码器。
在这里插入图片描述

Fig. 1. 示例结果。LSeg 能够处理未见过的标签,以及任意长度和顺序的标签集。这使得能够动态合成zero-shot语义分割模型。从左到右,每次运行中被删除的标签都有下划线标记,而添加的标签则用粗体红色标记。

在本研究中,我们提出一种简单的方法,利用现代语言模型增强语义分割模型的灵活性和普适性。我们的工作受到 CLIP 模型(用于图像分类,Radford等,2021)的启发,该模型将高容量图像和文本编码器配对,以产生健壮的zero-shot分类器。我们建议使用针对视觉数据共同训练的最新文本编码器(例如 CLIP),将训练集中的标签嵌入到嵌入空间中,并训练一个视觉编码器,以便从输入图像中生成与相应标签嵌入接近的每像素嵌入。由于文本编码器被训练,以使密切相关的概念靠近彼此(例如,“狗”比“车辆”更接近“宠物”), 我们可以将文本编码器的灵活性转移到视觉识别模块中,同时仅使用现有语义分割数据集提供的限制标签集进行训练。如图1(最上排)所示的例子,该模型可以成功地标记属于“宠物”类的像素,尽管训练集中没有包含此标签。

我们的方法使得能够动态合成zero-shot语义分割模型。换句话说,用户可以任意地扩展、缩小或重新排列任何图像的标签集。我们还引入了一个输出模块,可以在保持这种灵活性的同时对预测进行空间正则化。我们在图1中展示了我们模型灵活性的一些示例。LSeg 能够基于给定的标签集输出不同的分割图。例如,在最后一行,输出(a)识别了椅子,并将所有非椅子对象标记为“其他”,因为这是模型提供的仅有的两个标签。当添加标签时,如(b)和(c)中所示,模型将能够成功地使用扩展标签集对其他对象进行分割。

我们对各种zero-shot和few-shot语义分割任务进行了定量评估。我们的方法在zero-shot设置中表现优异,并在多个few-shot基准测试中具有竞争力。与我们进行比较的最新基线不同,我们的方法不需要额外的训练样本。我们的实验还表明,与标准的固定标签分割方法相比,引入文本嵌入只会产生微不足道的性能损失。

智慧地球(AI•Earth)社区
学术论坛地址:https://bbs.csdn.net/forums/paper

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/567928.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

zabbix分布式2

nginx配置文件修改 #匹配连接次数 curl -s http://127.0.0.1/nginx_status | awk /Active/ {print $3} which curl 查看命令路径 nginx性能监控脚本 nginx_active() { /usr/bin/curl -s http://127.0.0.1/nginx_status | awk /Active/ {print $NF} #$NF最后一个 } nginx_rea…

Keithley吉时利2450源表技术参数

Keithley SMU 2450源表,吉时利2450:Keithley 的触摸屏图形源测量单元仪器可带来直观的测试平台体验,满足电源和测量需求。应用:离散设备、组件、FET、二管、电阻、电池、电源管理 IC、太阳能电池、LED、纳米材料、有机材料等。 Keithley吉时…

如何在华为OD机试中获得满分?Java实现【数字颠倒】一文详解!

✅创作者:陈书予 🎉个人主页:陈书予的个人主页 🍁陈书予的个人社区,欢迎你的加入: 陈书予的社区 🌟专栏地址: Java华为OD机试真题(2022&2023) 文章目录 1. 题目描述2. 输入描述3. 输出描述…

中华人民共和国档案法

中华人民共和国档案法 (1987年9月5日第六届全国人民代表大会常务委员会第二十二次会议通过 根据1996年7月5日第八届全国人民代表大会常务委员会第二十次会议《关于修改〈中华人民共和国档案法〉的决定》第一次修正 根据2016年11月7日第十二届全国人民代表大会常务…

5年测试老鸟整理,功能自动化测试入门到实践,超细总结...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 Python自动化测试&…

《汇编语言》- 读书笔记 - 第6章- 包含多个段的程序

《汇编语言》- 读书笔记 - 第6章- 包含多个段的程序 6.1 在代码段中使用数据程序 6.1程序 6.2 6.2 在代码段中使用栈6.3 将数据、代码、栈放入不同的段程序 6.4 实验 5 编写、调试具有多个段的程序 应该将数据、代码、栈放进不同的段中。 程序在加载和运行时都可以向系统申请内…

美团端侧CDN容灾解决方案

1. 前言 作为业务研发,你是否遇到过因为 CDN 问题导致的业务图片加载失败,页面打开缓慢,页面布局错乱或者页面白屏?你是否又遇到过某些区域 CDN 域名异常导致业务停摆,客诉不断,此时的你一脸茫然&#xff…

javaWebssh服装租赁店信息管理系统台myeclipse开发mysql数据库MVC模式java编程计算机网页设计

一、源码特点 java ssh服装租赁店信息管理系统是一套完善的web设计系统(系统采用ssh框架进行设计开发),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要 采用B/S模式开发。开发环境为TO…

C++第一章:开始

开始目录 引言一、开发环境和参考书籍二、一个简单的C程序三、初识输入和输出标准输入输出对象 四、注释五、控制流while循环for循环 六、数量不定数据的输入七、C 缩进和格式八、类简介使用一个类书店处理书籍信息程序 九、术语表 引言 C在人们的眼中通常是“复杂”一词的代表…

软考高级架构师笔记-4中间件、嵌入式技术

目录 1. 前言 & 考情分析2. 中间件3. 微处理器4. 嵌入式软件5. 嵌入式系统6. 嵌入式软件设计6. 结语1. 前言 & 考情分析 前文回顾: 软考高级架构师笔记-1计算机硬件软考高级架构师笔记-2计算机软件(操作系统)软考高级架构师笔记-3数据库本章考情: 本章节偶尔会考到…

多电商平台订单整合,库存同步ERP系统,为何不用电商API对接?

还有不到1个月就是618购物狂欢节了,这个节日对很多电商来说是重头戏,一年中销售额暴涨的机会。现在电商们会在多平台开直播,挂小黄车,如抖音、拼多多、小红书等。数据资源大户电商们通常会把这些不同类型的海量数据分散存储在各个…

如何快速使用 WeUI 组件库?

1、如何快速应用 WeUI 组件库 快速应用 WeUI 组件库的步骤如下: 1、进入即时设计社区资源广场:访问即时设计社区资源广场,该资源广场提供免费使用的 WeUI 组件库,包括深色版和浅色版。设计师可以根据产品风格选择合适的组件库。…

[C++]octomap安装后测试

测试环境&#xff1a; vs2019 octomap1.9.6 release x64 代码&#xff1a; #include <octomap/octomap.h> #include <octomap/OcTree.h> using namespace std; using namespace octomap; void print_query_info(point3d query, OcTreeNode* node) { if (…

使用JS来实现轮播图的效果

最好今天分享一个使用JS制作的轮播图效果 个人名片&#xff1a; &#x1f60a;作者简介&#xff1a;一名大一在校生&#xff0c;web前端开发专业 &#x1f921; 个人主页&#xff1a;几何小超 &#x1f43c;座右铭&#xff1a;懒惰受到的惩罚不仅仅是自己的失败&#xff0c;…

mjpg-streamer实现细节分析

mjpg-streamer实现细节分析 文章目录 mjpg-streamer实现细节分析输入初始化input_initinit_videoIninit_v4l2 启动摄像头输入线程cam_threaduvcGrabcompress_yuyv_to_jpegmemcpy_picture 输出初始化output_init启动摄像头输出线程server_thread设置 SO_REUSEADDR 选项。设置 IP…

数据库 查询执行(1) 多路归并

用户输入一个sql语句 sql解析器 将sql语句转换成一个 关系代数 但是同时也会附加一些 操作 (下方未体现)。 外存排序 原理 外部数据元素太多无法一次性的读入内存 通常设计者 会让磁盘块的大小和缓冲区的大小相等 。 首先构造初始的归并段 分别从横向和纵向 体会这…

单片机GD32F303RCT6 (Macos环境)开发 (二十七)—— 蓝牙透传模块HC-08的调试

蓝牙透传模块HC-08的调试 1、模块为汇承HC-08&#xff0c;GD32我们之前已经把usart1 配置成了dmaidle的方式接收数据&#xff0c;我们的hc-08模块连接的就是这一路usart。 所以&#xff0c;与GD32的连接比较简单&#xff0c;如下图&#xff1a; GD32 HC-08 TX(PA2 ) RX RX(PA3…

弘基笔记本电脑怎么使用U盘重装系统?

弘基笔记本电脑怎么使用U盘重装系统&#xff1f;有的用户的弘基笔记本电脑使用过程中出现了蓝屏的情况&#xff0c;系统频繁的出现蓝屏问题导致自己的使用受到了影响&#xff0c;那么这个情况怎么去进行问题的解决呢&#xff1f;一起来看看以下的解决方法吧。 准备工作&#xf…

挂耳式蓝牙耳机排行,四款挂耳式耳机盘点

现在耳机的更新换代也是相当快的&#xff0c;普通的入耳式耳机在长期佩戴的舒适度方面饱受诟病&#xff0c;所以新近流行的开放式耳机很好的避免这个问题&#xff0c;它拥有不入耳不伤耳佩戴设计&#xff0c;解放双耳的同时也更不易丢失。面对市面上款式多样的开放式耳机&#…

Qt基础 自定义消息框

ps&#xff1a;忘记copy那位大佬tip代码了&#xff0c;后面新增可以点选的控件 #pragma once#include <QWidget> #include <QHBoxLayout>#define SHADOW_WIDTH 15 // 窗口阴影宽度; #define TRIANGLE_WIDTH 15 // 小三角的宽度; #de…