CVPR 2023 | 基础模型推动语义分割的弱增量学习

news2024/11/16 3:39:35
前言 语义分割的弱增量学习(WILSS)目的是学习从廉价和广泛可用的图像级标签中分割出新的类别,但图像级别的标签不能提供定位每个片段的细节。为了解决该问题,本文提出了一个新颖且数据高效的框架(FMWISS)。该框架提出了基于预训练的共同分割,以提炼出互补基础模型的知识来生成密集的伪标签。用师生结构进一步优化噪声伪标签,并引入基于内存的复制-粘贴增强技术,以改善旧类的灾难性遗忘问题。
FMWISS在Pascal VOC和COCO数据集上的广泛实验证明了其优越性能,例如,在15-5 VOC设置中实现了70.7%和73.3%,分别比最先进的方法高出3.4%和6.1%。

Transformer、目标检测、语义分割交流群

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

论文:https://arxiv.org/pdf/2302.14250.pdf

论文出发点

已有的语义分割方法在一个数据集上预训练的模型,在另一个有新类别的数据集上重新训练时,很容易忘记学到的知识。这种现象被称为 "灾难性遗忘"。解决这种灾难性遗忘问题的一个很有前途的方法被称为增量学习。

最近,有一些方法被提出来解决语义分割的增量学习(ILSS)任务,进一步发展这些方法的一个关键障碍是对新类别的像素级注释的要求。以此为基础,从图像级别的标签中逐步更新模型,以获得新的类别。但图像级别的标签不能提供准确定位每个片段的细节,这限制了WILSS的性能和发展。

这篇论文提出一个基础模型驱动弱增量学习的语义分割框架,被称为FMWISS,旨在改进并更有效地利用给定的图像级标签对新类别的监督,同时保留旧类别的知识。

创新思路

本文尝试利用互补的基础模型来改善和更有效地使用仅给定图像级别标签的监督,提出了基于预训练的共同分割,通过从预训练的基础模型中提炼出类别意识和类别无关的知识来生成密集的掩码,这针对原始图像标签提供了密集的监督。

同时为了有效地利用伪标签,使用了一个师生架构,并提出了密集对比损失,以动态地优化嘈杂的伪标签。进一步引入了基于内存的复制-粘贴增强技术,以弥补旧类的遗忘问题,也可以提高性能。

方法

预训练的协同分割方法

为了获得新类别图像的密集预测,作者应用预训练的 CLIP 模型来提取给定图像级标签的类别感知像素注释:

由 CLIP 生成的伪掩码可以提供丰富的类别感知像素注释,但由于基于图像文本对的 CLIP 训练范式注定擅长实例级分类而不是分割,因此掩码有噪声。为了提高掩码质量,本文提炼另一种基础模型的知识,即自监督预训练模型。这些模型可以生成紧凑的类别不可知注意力图。但是,如何在给定可能包含多个对象的图像的情况下为目标类提取分割是个难点。为了解决这个问题,作者通过特定类别的种子指导来改进初始掩码:

伪标签优化

为了有效利用生成的伪像素标签,以提供比图像级标签更多的信息。因此,作者使用师生架构来进一步优化仍然嘈杂的伪掩码。具体来说,通过将分割模型作为学生模型,引入了一个插件教师模块(图 2 中的 ASPP 网络),以在训练过程中动态学习更好的伪掩码。

受无监督表示学习中 InfoNCE 损失的启发,本文执行密集对比学习,计算如下:

逐像素 BCE 损失和上式中的密集对比损失可以互相补充,帮助教师模块学习判别像素特征以及通过类内和类间像素特征建模来规范像素特征空间。

基于内存的复制粘贴增强

首先为每个旧类构建一个 memory bank,每个类存档将在基础模型训练期间存储 B 个前景实例和分割标签。然后,在每个步骤中,从随机选择的旧类档案中随机挑选一对前景图像和标签,并将它们随机粘贴到新类图像中。训练样本包含第 t 步的新类图像以及第 t-1 步的旧类图像和像素标签,如图4所示:

整体优化

通过提取训练模型和动态更新的教师模型的知识,在步骤 t 优化分割模型。由于教师模型主要通过二元交叉熵损失进行优化,因此,使用 BCE 损失将教师模型的预测进行提炼。考虑到学习到的伪掩码并不完美,作者使用软像素标签作为新类别的最终监督,并使用旧模型和教师模块输出的加权平均值作为旧类的监督。

结果

之前的 WILSS SoTA 和本文的 FMWISS 在 10-10 VOC 设置下的定性比较。从左到右:原始图像、WILSON、FMWISS 和 ground-truth。

在Pascal VOC 15-5数据集上设置的结果。其中,“P”和“I”分别表示像素级和图像级标签。使用图像级标签和使用像素级标签作为监督的最佳方法分别以粗体和下划线表示。

COCO-to-VOC 设置的结果:

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:444129970。群内有大佬负责解答大家的日常学习、科研、代码问题。

模型部署交流群:732145323。用于计算机视觉方面的模型部署、高性能计算、优化加速、技术学习等方面的交流。

其它文章

DiffusionDet:用于对象检测的扩散模型

CV小知识讨论与分析(7) 寻找论文创新点的新方式

CV小知识分析与讨论(6)论文创新的一点误区

一文看尽深度学习中的各种注意力机制

MMYOLO 想你所想:训练过程可视化

顶刊TPAMI 2023!Food2K:大规模食品图像识别

用于精确目标检测的多网格冗余边界框标注

2023最新半监督语义分割综述 | 技术总结与展望!

原来Transformer就是一种图神经网络,这个概念你清楚吗?

快速实现知识蒸馏算法,使用 MMRazor 就够啦!

知识蒸馏的迁移学习应用

TensorFlow 真的要被 PyTorch 比下去了吗?

深入分析MobileAI图像超分最佳方案:ABPN

3D目标检测中点云的稀疏性问题及解决方案

一文深度剖析扩散模型究竟学到了什么?

OpenMMLab教程【零】OpenMMLab介绍与安装

代码实战:YOLOv5实现钢材表面缺陷检测

TensorRT教程(六)使用Python和C++部署YOLOv5的TensorRT模型

超全汇总 | 计算机视觉/自动驾驶/深度学习资料合集!

高精度语义地图构建的一点思考

点云分割训练哪家强?监督,弱监督,无监督还是半监督?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/381492.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IM即时通讯开发实时消息的“时序性”与“一致性”

我们都知道,一个典型的分布式系统中,很多业务场景都需要考虑消息投递的时序,例如:IM中单聊消息投递:保证发送方发送顺序与接收方展现顺序一致;IM中群聊消息投递:保证所有接收方展现顺序一致&…

如何审计一个智能合约

智能合约审计用于整个 DeFi 生态系统,通过对协议代码的深入审查,可以帮助解决识别错误、低效代码以及这些问题。智能合约具有不可篡改的特点,这使得审计成为任何区块链项目安全流程的关键部分。 代码审计对任何应用程序都很重要,…

【ES】Elasticsearch核心基础概念:文档与索引

es的核心概念主要是:index(索引)、Document(文档)、Clusters(集群)、Node(节点)与实例,下面我们先来了解一下Document与Index。 RESTful APIs 在讲解Document与Index概念之前,我们先来了解一下RESTful APIs,因为下面讲解Documen…

Antd Form校验没有效果的问题

问题是这样的: 环境: antd4.x 现象: 如上页面 出现页面后直接点击按钮触发校验,不会有校验提示,页面没有任何反应假如只有其中任何一个,校验正常 比如,没有“模型编码”,只有“模…

变分推断 (Variational Inference) 解析

前言 如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。 变分推断 在贝叶斯方法中,针对含有隐变量的学习和推理,通常有两类方式,其一是马尔可…

Python爬虫:如何自动化下载网站图片

目录 Requests 访问页面 XPath 定位 JSON 对象 如何使用 XPath 自动下载百度图片 Selenium 库模拟浏览器 Requests 访问页面 Requests 是 Python HTTP 的客户端库,编写爬虫的时候都会用到,编写起来也很简单。它有两种访问方式:Get 和 P…

王道操作系统课代表 - 考研计算机 第五章 输入输出管理 究极精华总结笔记

本篇博客是考研期间学习王道课程 传送门 的笔记,以及一整年里对 操作系统 知识点的理解的总结。希望对新一届的计算机考研人提供帮助!!! 关于对 “输入输出管理” 章节知识点总结的十分全面,涵括了《操作系统》课程里的…

基于.NET 7 + iView 的前后端分离的通用后台管理系统开源框架

更多开源项目请查看:一个专注推荐.Net开源项目的榜单 今天给大家推荐一套前后端分离通用后台管理系统开源框架。 项目简介 这是基于.Net 7 Vue.js开发的、前后端分离框架,前端UI框架采用iView,该项目只有基础功能模块,不包含具…

VMware虚拟机安装centos(超详细图文教程)

1、centos下载 Ubuntu下载地址:点这里 下载不成功的也可关注公众号获取:待更新 2、打开VMware VMware安装过程:待更新 2.1 创建新的虚拟机 2.2 一般情况都会选择典型(如果这里有需要选择自定义的一般也不会看教程了&#xff…

【Spark分布式内存计算框架——Spark Streaming】10. 应用案例:百度搜索风云榜(中)实时数据ETL存储

5.3 实时数据ETL存储 实时从Kafka Topic消费数据,提取ip地址字段,调用【ip2Region】库解析为省份和城市,存储到HDFS文件中,设置批处理时间间隔BatchInterval为10秒,完整代码如下: package cn.itcast.spar…

华为机试题:HJ94 记票统计(python)

文章目录(1)题目描述(2)Python3实现(3)知识点详解1、input():获取控制台(任意形式)的输入。输出均为字符串类型。1.1、input() 与 list(input()) 的区别、及其相互转换方…

linux和windows中安装emqx消息服务器

大家好,我是雄雄,欢迎关注微信公众号雄雄的小课堂 现在是:2023年3月1日21:53:55 前言 最近几天看了下mqtt,通过不断的搜索资料,也将mqtt集成到项目中,跑了个demo运行,和预想中的差不多&#x…

Altair 宣布将于3月举办 Future.Industry 2023 全球虚拟大会

Altair(纳斯达克股票代码:ALTR)近日宣布将于 2023 年 3 月 8 - 9 日 举办年度全球虚拟大会 Future.Industry 2023。旨在探索影响全球未来的新趋势,并深入探讨仿真、高性能计算 (HPC)、人工智能(AI)和数据分…

使用jenkins+nginx自动化部署前后端项目并打包备份

前言:因为之前使用docker拉取的jenkins无法检测到本地服务器安装的jdk和maven,所以我在本地服务器直接拉取了jenkins,使用8090端口与docker拉取的jenkins进行对比,可以检测到本地服务器安装的jdk和maven,前端和后端分开…

ETHDenver 2023

ETHDenver是全球最大、持续时间最长的以太坊活动之一,今年的活动定于2月24日至3月5日在美国科罗拉多州丹佛市盛大举行。这次活动将面向以太坊和其他区块链协议爱好者、设计者和开发人员。Moonbeam作为ETHDenver 2023的Meta赞助商,将在本次活动中展示令人…

如何使用crAPI学习保护API的安全

关于crAPI crAPI是一个针对API安全的学习和研究平台,在该工具的帮助下,广大研究人员可以轻松学习和了解排名前十的关键API安全风险。因此,crAPI在设计上故意遗留了大量安全漏洞,我们可以通过 crAPI学习和研究API安全。 crAPI采用…

如何把照片的底色修改为想要的颜色

如何给照片更换底色?其实有可以一键给照片更换底色的 APP ,但是几乎都要收费。如果想要免费的给照片更换底色的话,分享两种简单便捷的方法给你。掌握了这项技能,以后就不用店花钱处理啦!1、免费!线上快速 给…

【SpringBoot教程】SpringBoot入门

SpringBoot介绍 SpringBoot简介 在您第1次接触和学习Spring框架的时候,是否因为其繁杂的配置而退却了?在你第n次使用Spring框架的时候,是否觉得一堆反复黏贴的配置有一些厌烦?那么您就不妨来试试使用Spring Boot来让你更易上手&…

Rancher Prime 为平台工程提供面向 K8s 的弹性能力

作者简介 张应罗,SUSE 资深架构师,拥有 16 年架构咨询工作经验,专注于 SUSE Enterprise Container Management 相关的产品落地方案及咨询方案设计。 平台工程 “DevOps 已死,平台工程才是未来!” 去年,知名软件工程师…

原来JS可以这么实现继承

当我们在编写代码的时候,有一些对象内部会有一些方法(函数),如果将这些函数在构造函数内部声明会导致内存的浪费,因为实例化构造函数得到不同的实例对象,其内部都有同一个方法,但是占据了不同的…