顶刊TPAMI 2024!无需全标注,仅用少量涂鸦标注即可获得确定和一致的语义分割预测结果...

news2025/4/9 3:03:17

57b4fbaa1c7df157481f047712b1a4dd.gif

本文介绍了山东大学,北京大学和纽约州立大学石溪分校合作开展的一项工作。该工作面向图像涂鸦弱标注语义分割任务,重点关注采用涂鸦弱标注时语义分割网络的不确定性和不一致性问题。

作者提出最小化熵损失函数和网络嵌入的随机游走过程来分别改善分割网络特征嵌入的不确定性和不均匀性。作者还引入本征空间上的自监督学习对图像的显著区域施加一致性损失,用于缓解不同场景下同一类别的特征不一致问题。最后,作者提出伪标注重训练策略,并在颜色空间流形上构造损失函数以缓解伪标注中噪声的影响。这一研究已被计算机视觉领域顶级期刊 IEEE TPAMI 接收,影响因子 20.8。

755c4a3ebf40265f8d6490d548785652.png

论文标题:

CC4S: Encouraging Certainty and Consistency in Scribble-Supervised Semantic Segmentation

论文作者:

潘志一,孙浩辰,蒋鹏(通讯作者),李革,屠长河,凌海滨

论文链接:

https://ieeexplore.ieee.org/document/10559264

代码链接:

https://github.com/panzhiyi/CC4S

会议版本链接:

https://openaccess.thecvf.com/content/ICCV2021/papers/Pan_Scribble-Supervised_Semantic_Segmentation_by_Uncertainty_Reduction_on_Neural_Representation_and_ICCV_2021_paper.pdf

d637557cb76665cdf3db35cf9e385545.png

引言

近些年在场景理解上的突破不仅来自于创新的网络架构设计,也得到了大规模细粒度标注的数据集的支持。然而,收集这样一个用于语义分割的数据集并不是一项轻松的工作。例如,对于 Cityscapes 数据集,人工标注一张图像的平均时间在三到五分钟。

因此,各种形式的弱监督被相继提出,例如图像级别监督,包围盒级别监督,点级别监督和涂鸦级别监督。在这些弱监督形式中,涂鸦级别监督凭借其能够在用户友好的标注方式下高效地提供监督信息的能力,获得了研究者们广泛的关注。

为了减少涂鸦标注监督和全标注监督之间的差异,大量的涂鸦监督工作或者从良好标注的其他任务中寻求额外的监督信息,或者通过图结构传播标注,或者将分割正则化引入损失函数。然而,涂鸦监督语义分割任务仍然存在两大方面的问题:

由于标注稀疏导致预测结果的不确定性。因为缺少足够的标注,分割网络会在部分区域产生不确定的预测结果。在下图 (a) 中,我们通过计算预测结果的熵值展示了不同标注形式下的不确定性情况。可以观察到分割网络在缺少涂鸦标注的区域(如边缘和背景部分),更可能给出不确定的预测结果。

由于标注多样导致预测结果地不一致性。由于涂鸦标注的形状和长度有很高的自由度,使得网络难以在训练图像中学习到一个稳定和一致的分割模式。如下图 (b) 所示,涂鸦监督下的网络会给出错误且不一致的预测结果。

fe07ccfceb7f54f2145f39b0ce0bbbb1.png

dcd060944b85fe29151d900a75534734.png

方法

为了应对涂鸦标注的这两大问题,本文提出一个整体性和针对性的方法(命名为 CC4S)来鼓励涂鸦标注监督下网络预测结果的确定性和一致性。

为了缓解不确定问题,本文将两个与语义分割相关的分析纳入考量。首先,每一个像素都只属于一个类别,因此在预测类别概率特征向量中应该只有一个通道占主导。其次,在同一个物体内部的神经表征应该是均匀一致的。相应地,我们探究确定性和均匀性这两种先验来构建我们的解决方案。我们最小化预测类别概率特征向量的熵来鼓励网络产生一个主导通道的预测结果。

考虑到边缘位置本身的不确定性,我们在最小化熵的同时去除了可能的边缘位置的影响。同时,引入一个嵌入网络的随机游走模块来根据特征的相似性将每个位置的特征传递到其他位置,以促进均匀的特征表达。另外,随机游走模块中的概率转移矩阵,也会帮助后续一致性增强的过程。

对于不一致性的问题,本文引入了自监督学习中的一致性损失。然而,现有的一致性损失通常都定义在所有的空间像素上,这对于涂鸦标注的边界区域和背景区域可能是不必要或不适用的。这是因为当这些区域通常有较大的变体空间,迫使网络在这些位置产生一样的特征表达可能会给网络带来不必要的负担或困扰。

受到谱聚类方法的启发,即转移矩阵的本征空间能够反映图像的显著区域,我们通过在概率转移矩阵的本征空间施加一致性损失来对图像的显著区域进行自监督学习。

利用这两种针对性的设计,我们能够训练分割网络从而得到确定且一致的特征表达与对应的分割结果。将初步的分割结果作为伪标注对网络进行自训练是一种通用的学习策略。然而,伪标注中所携带的错误标注会阻碍分割网络的优化。因此,本文进一步在颜色空间流形上构造损失函数来缓解错误标注的影响,并对该损失函数的作用域进行了详细地分析。

f8f2847280aa7a11a5fd77e674a36ceb.png

8d6f41948279513483761a0c941a0b95.png

实验

3.1 消融实验

3.1.1 减少不确定性

此消融实验逐步为基线网络添加最小化熵(作为损失函数),去除边缘的最小化熵,随机游走。可以发现,所有的操作都可以提升分割结果,而共同施加这些操作得到了最优的分割表现。另外,逐步提升边缘的准确性可以激发最小化熵损失函数的最佳性能。但为了不引入新的标注信息,我们在方法中使用无监督学习方法 SLIC 产生的超像素边缘。

1074816d4f47acd139bf03aa5a97d71d.png

在边缘 (boundary) 一栏,我们探究了无监督学习方法 SLIC 的超像素边缘,学习方法 HED 的边缘,以及语义边缘真值 GT 对最小化熵损失函数的性能影响。

3.1.2 自监督学习

从自监督学习的变形操作和作用特征两个方面开展消融实验。从变形操作来看,对图片的反转操作和平移操作都是有效的。从作用特征来看,自监督学习作用在特征的本征空间要明显优于特征空间本身。这是因为在同一种变形操作下,本征空间的变化要低于特征空间。

e21e761f462bceea1bfca6a29a74873d.png

在作用特征 (target representation) 一栏,我们探究了随机游走前后的特征 和 ,以及转移矩阵的本征空间 () 对自监督学习的性能影响。

3.1.3 伪标注重训练

我们将自训练学习分为伪标注生成阶段和伪标注重训练阶段,探索伪标注重训练阶段和颜色空间流形损失函数对涂鸦监督学习的影响。可以发现,伪标注重训练阶段相对于伪标注生成阶段的预测有显著提升,而颜色空间流形损失单独作用于伪标注重训练阶段时训练得到的网络性能更好。

4b7aed66533e993eaee89a4e83549f19.png

3.1.4 颜色空间流形损失与标注质量的关系

为了探索颜色空间流形损失与标注质量的关系,我们在标注比例和标注噪声两个维度构造了不同质量的标注。从实验结果来看,当标注具有噪声时,无论标注比例,颜色空间流形损失都是有效的。而当不具有噪声时,颜色空间流形损失仅在低标注比例的设置下提供有限的正向监督信息。这一观察也跟上述有关伪标注重训练的消融实验结果相符合。

6a8a1fb8f306abaa1e5304be72a9bd3f.png

3.2 对比实验

下表列出了所提方法与其他方法在 Pascal VOC 2012 和 Pascal Context 两个数据集上的分割性能表现。我们使用了三种语义分割网络作为我们方法的骨干。我们的方法几乎实现了与全监督下 DeepLabV2 相当的分割性能,而且在使用基于 Transformer 设计的骨干网络 OCRNet 下,达到了当前涂鸦监督语义分割任务的最先进性能。与其他方法的可视化比较也同样验证了方法的有效性。

f70555ae029bf3f5f4c05d7d829780f5.png

在标注类型 (Ann.) 一栏中,表示全标注,表示点标注,表示包围盒标注,表示图像类别标注,表示涂鸦标注。额外数据 (Extra Data) 一栏表示方法中是否使用了额外数据或需要额外数据训练的模块。

6a3185c3462419bc819abb4f72fe0ea7.png

3.3 鲁棒性实验

3.3.1 涂鸦标注质量

我们基于已有的涂鸦标注施加按比例缩小操作和随机丢弃操作构造质量更低的涂鸦标注来验证方法的鲁棒性。在两种质量下降情境下,随着涂鸦标注质量的降低,CC4S 的绝对性能完全优于其他消融方法,且性能下降的趋势也最缓慢。

e49ca7249e42cd983dc5567b2c4c8184.png

Baseline 表示基线方法,UR 表示不确定降低策略,SS 表示自监督策略,PR 表示伪标注重训练策略。

3.3.2 涂鸦标注位置

我们还探究了涂鸦标注的位置对于语义分割任务的影响。当前开源的涂鸦标注都是倾向于位于物体中心的,而根据我们的实验结果,位于边缘的涂鸦标注能够为网络学习提供更加丰富的监督。这是因为位于边缘的涂鸦标注蕴含物体边缘的形状信息。而同时提供物体边缘和物体中心的涂鸦标注能够大幅提升训练效率,这提示涂鸦标注过程中应该保证涂鸦标注位置的多样性。

d8b28a122f56f43af4b23d9cd86b9fc9.png

14c6021f5559ef46a96a646ebb47766b.png

结论

本文发现了仅凭涂鸦标注训练语义分割网络会导致不确定和不一致的预测结果的现象。基于此分析,我们开发了两种策略:一是减少神经表征的不确定性,二是是对神经本征空间进行自监督。通过伪标签重训练,方法达到了最先进的性能,甚至可以与一些全监督方法相媲美。我们的方法不需要额外的标注信息或预设的前提条件。此外,当涂鸦标注被随机丢弃或按比例缩小时,所提出的方法在这些极端情况下也能很好地发挥作用。

更多阅读

39cd8c7b32c3989e5c698a9a04352da1.png

213ce4adfa2e9f45d985c26d910dc578.png

5d285d6b10fdf7241ea03f1c61281f80.png

3fc71af18f423431efe5f728063ddea5.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

a7bd7fbe1d21cc3e0d4ba9a40f0d8cc4.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

9b43015f748a720adfe74694ab48dbfd.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1978550.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Altera之FPGA器件系列简介

目录 一、前言 二、命名规则 2.1 MAX V系列 2.2 Cyclone 系列 2.3 Arria 系列 2.4 Stratix 系列 2.5 Agilex 系列 三、器件划分 3.1 工艺制程 3.2 使用领域 四、参考 一、前言 Altera是作为FPGA领域的头部企业,是一家老牌的技术公司,成立于19…

【一图学技术】7.削峰与限流防刷技术解决方案及限流算法图解

削峰与限流防刷技术 一、削峰技术 ✈解决问题:解决流量大的问题,限制单机流量 🚀核心技术: 秒杀令牌:颁发给用户令牌,给予操作特权 秒杀大闸:限制令牌数量 队列泄洪:队列增加缓…

4_损失函数和优化器

教学视频:损失函数与反向传播_哔哩哔哩_bilibili 损失函数(Loss Function) 损失函数是衡量模型预测输出与实际目标之间差距的函数。在监督学习任务中,我们通常希望模型的预测尽可能接近真实的目标值。损失函数就是用来量化模型预…

神经网络基础--激活函数

🕹️学习目标 🕹️什么是神经网络 1.神经网络概念 2.人工神经网络 🕹️网络非线性的因素 🕹️常见的激活函数 1.sigmoid激活函数 2.tanh激活函数 3.ReLU激活函数 4.softmax激活函数 🕹️总结 &#x1f57…

计算机基础(Windows 10+Office 2016)教程 —— 第5章 文档编辑软件Word 2016(上)

第5章 文档编辑软件Word 2016 5.1 Word 2016入门5.1.1 Word 2016 简介5.1.2 Word 2016 的启动5.1.3 Word 2016 的窗口组成5.1.4 Word 2016 的视图方式5.1.5 Word 2016 的文档操作5.1.6 Word 2016 的退出 5.2 Word 2016的文本编辑5.2.1 输入文本5.2.3 插入与删除文本5.2.4 复制与…

二进制与进制转换与原码、反码、补码详解--内含许多超详细图片讲解!!!

前言 今天给大家分享一下C语言操作符的详解,但在此之前先铺垫一下二进制和进制转换与原码、反码、补码的知识点,都非常详细,也希望这篇文章能对大家有所帮助,大家多多支持呀! 操作符的内容我放在我的下一篇文章啦&am…

基于人工智能的口试模拟、LLM将彻底改变 STEM 教育

概述 STEM教育是一种整合科学(Science)、技术(Technology)、工程(Engineering)和数学(Mathematics)的教育方法。这种教育模式旨在通过跨学科的方式培养学生的创新能力、问题解决能力…

MySQL 高级 - 第十四章 | 事务基础知识

目录 第十四章 事务基础知识14.1 数据库事务概述14.1.1 存储引擎支持情况14.1.2 基本概念14.1.3 事务的 ACID 特性14.1.4 事务的状态 14.2 如何使用事务14.2.1 显示事务14.2.2 隐式事务14.2.3 隐式提交数据的情况14.2.4 使用举例14.2.4.1 提交与回滚14.2.4.2 测试不支持事务的 …

Yarn:一个快速、可靠且安全的JavaScript包管理工具

(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,还请三连支持一波哇ヾ(@^∇^@)ノ) 目录 一、Yarn简介 二、Yarn的安装 1. 使用npm安装Yarn 2. 在macOS上…

11.redis的客户端-Jedis

1.Jedis 以redis命令作为方法名称,学习成本低,简单使用。但是jedis实例是不安全的,多线程环境下需要基于连接池来使用。 2.Lettuce lettuce是基于Netty实现的,支持同步,异步和响应式编程方式,并且是线程…

EmEditor 打开文档后光标如何默认定位到文档最后一行?

1、录制宏 (1)、点击工具栏上的红色录制宏按钮,开始录制宏。如图: (2)、按住快捷键Ctrl End快捷键,使光标跳转到文档末尾 (3)、完成录制后,再次点击录制按钮…

Hive SQL ——窗口函数源码阅读

前言 使用Starrocks引擎中的窗口函数 row_number() over( )对10亿的数据集进行去重操作,BE内存溢出问题频发(忘记当时指定的BE内存上限是多少了.....),此时才意识到,开窗操作,如果使用 不当,反而…

stm32工程配置

目录 STM32F103 start:启动文件、内核寄存器文件、外设寄存器文件、时钟配置文件 library:标准库函数(内核及外设驱动) user:用户文件、库函数配置文件、中断程序文件 添加宏定义 STM32F407 start目录 启动文件…

实战:使用Certbot签发免费ssl泛域名证书(主域名及其它子域名共用同一套证书)-2024.8.4(成功测试)

1、使用Certbot签发免费ssl泛域名证书 | One实战:使用Certbot签发免费ssl泛域名证书(主域名及其它子域名共用同一套证书)-2024.8.4(成功测试)https://wiki.onedayxyy.cn/docs/docs/Certbot-install/

Transformer相关介绍

1 Transformer 介绍 Transformer的本质上是一个Encoder-Decoder的结构。 1.1 编码器 在Transformer模型中,编码器(Encoder) 的主要作用是将输入序列(例如文本、语音等)转换为隐藏表示(或者称为特征表示…

24军dui文职联勤保障部报名照规格要求

24军dui文职联勤保障部报名照规格要求 #军队文职 #文职 #文职备考 #联勤保障部队 #文职考试 #文职上岸 #2024军队文职

python-查找元素3(赛氪OJ)

[题目描述] 有n个不同的数&#xff0c;从小到大排成一列。现在告诉你其中的一个数x&#xff0c;x不一定是原先数列中的数。你需要输出最后一个<x的数在此数组中的下标。输入&#xff1a; 输入共两行第一行为两个整数n、x。第二行为n个整数&#xff0c;代表a[i]。输出&#x…

练习2.30

2.29题目没有理解,暂时没有做出来,先把2.30做了 上代码 (defn square [x](* x x)) ;第一版,直接定义 (defn square-tree[tree](cond (not (seq? tree)) (square tree)(empty? tree) nil:else (cons (square-tree (first tree)) (square-tree (rest tree)))) ) ;使用map …

LeetCode刷题笔记 | 283 | 移动零 | 双指针 |Java | 详细注释

&#x1f64b;大家好&#xff01;我是毛毛张! &#x1f308;个人首页&#xff1a; 神马都会亿点点的毛毛张 原地移除元素2 LeetCode链接&#xff1a;283. 移动零 1.题目描述 给定一个数组 nums&#xff0c;编写一个函数将所有 0 移动到数组的末尾&#xff0c;同时保持非零元…

Nextjs——国际化那些事儿

背景&#xff1a; 某一天&#xff0c;产品经理跟我说&#xff0c;我们的产品需要搞国际化 国际化的需求说白了就是把项目中的文案翻译成不同的语言&#xff0c;用户想用啥语言来浏览网页就用啥语言&#xff0c;虽然说英语是通用语言&#xff0c;但国际化了嘛&#xff0c;产品才…