十一章:Weakly-Supervised Semantic Segmentation Network —— 基于深度种子区域增长的弱监督语义分割网络

news2025/1/14 1:09:18

0.摘要

        本文研究了只使用图像级别标签作为监督来学习图像语义分割网络的问题,这是重要的,因为它可以显著减少人工标注的工作量。最近在这个问题上的最新方法首先使用深度分类网络推断出每个对象类的稀疏和有区别的区域,然后使用有区别的区域作为监督来训练语义分割网络。受传统图像分割方法中种子区域生长的启发,我们提出了一种从有区别的区域开始训练语义分割网络,并逐渐增加像素级别监督的方法,通过种子区域生长引入。种子区域生长模块被集成在深度分割网络中,并且可以从深度特征中受益。与传统的固定/静态标签的深度网络不同,提出的弱监督网络使用图像内的上下文信息生成新的标签。所提出的方法在使用静态标签的弱监督语义分割方法方面取得了显著的优势,并获得了最先进的性能,在PASCAL VOC 2012测试集上的mIoU得分为63.2%,在COCO数据集上的mIoU得分为26.0%。

1.引言

        深度卷积神经网络(DCNN)在图像语义分割问题上取得了巨大的成功[5,18],这要归功于大量的完全注释图像。然而,收集大规模准确的像素级注释是耗时的,通常需要大量的财力投入。然而,未标记和弱标记的视觉数据可以以相对快速和廉价的方式大量收集。因此,计算机视觉研究的一个有前途的方向是开发能够从未标记或弱标记的图像中学习的目标识别方法[14,32]。

        在这篇论文中,我们研究了从弱标记图像中学习语义分割网络的问题。在各种弱标记的设置中,图像级别注释是最经济和最高效的设置之一。在这种情况下,每个训练图像都有其图像类别标签,表示属于类别标签的对象出现在图像中。然而,对象的位置是未知的,我们需要推断对象的像素级位置。因此,训练弱监督语义分割网络的主要问题是如何将图像级别标签准确地分配给相应的像素。

        为了在训练中建立所需的像素标签对应关系,有一项非常有见地的研究工作。Kolesnikov等人[14]采用了一个带有分类激活图(CAM)方法的图像分类网络,选择最有区别的区域,并将这些区域作为分割网络的像素级监督。与早期的弱监督语义分割方法[22,20]相比,基于有区别区域的方法显著提高了这个具有挑战性的任务的性能。然而,在[14]中,有区别区域是小而稀疏的,如图1中的第0个迭代图像所示。在训练中,语义分割网络的监督被固定为稀疏的有区别区域。因此,我们将[14]中的学习策略称为"静态监督"。静态监督设置偏离了语义分割任务的要求,该任务要求在训练分割模型时需要准确和完整的对象区域。

        为了解决这个问题,我们提出了在训练语义分割网络时将有区别区域扩展到覆盖整个对象的方法。在实践中,有区别区域周围的像素总是属于同一个对象,因为相同对象的语义标签具有空间连续性。我们的动机是,使用图像标签可以从感兴趣的对象中找到小而稀疏的有区别区域,称为“种子线索”,种子线索周围具有相似特征(如颜色、纹理或深度特征)的像素可能具有与种子线索相同的标签。我们利用经典的种子区域生长(SRG)方法[1]来模拟这个过程,生成准确和完整的像素级标签。在这里,我们可以在像素级标签的监督下训练语义分割网络。与[14,19]不同,像素级标签是动态的。动态监督与使用固定监督的传统网络训练非常不同。在我们的情况下,我们让网络生成输入训练样本即训练图像的新标签。SRG被整合到深度分割网络中,可以端到端地优化并利用深度特征。我们将这种方法称为“深度种子区域生长(DSRG)”用于弱监督语义分割。

        在实践中,由分类网络定位的种子线索虽然小但精度高。将种子线索作为SRG中的种子点是一种自然的方式。此外,为了衡量种子点与相邻像素之间的相似性以进行区域生长,我们利用分割网络输出的分割图作为特征。因此,SRG将种子线索视为初始种子点;然后,在分割图中,具有高概率对应于它们所属类别的相邻像素将与种子线索具有相同的标签。这个过程重复进行,直到没有像素满足上述约束为止。最后,DSRG的输出被用作训练分割网络的监督。在训练阶段,使用监督来构建损失函数,称为"种子损失"。在种子区域中,损失与[5]中的完全监督损失函数相同;其他位置通过种子损失被忽略

        在训练过程中,DSRG方法逐渐丰富了分割网络的监督信息。如图1所示,第0个迭代中的监督实际上是分类模型生成的种子线索,这些线索定位了人和马的头部,是图像中最有区别的区域。随着迭代次数的增加,动态监督逐渐接近真实情况,并精确地覆盖整个对象内容。同时,动态监督指导网络产生有竞争力的分割结果。为了确保训练的稳定性,DSRG始终选择原始种子线索作为初始种子点。

        在实验中,我们在具有挑战性的PASCAL VOC 2012语义分割基准[8]和COCO上展示了我们方法的有效性,并展示了我们取得了最新的最优结果。此外,我们通过进行一些消融研究对DSRG方法进行了分析。

总结起来,本文的主要贡献如下:

  • 在深度语义分割网络中,我们利用了种子区域生长[1]机制,使网络能够安全地为弱监督语义分割生成新的像素级标签。此外,网络可以端到端地优化,并且容易训练。
  • 我们的工作在PASCAL VOC分割基准和COCO数据集上取得了最新的弱监督语义分割性能。我们的方法在PASCAL VOC验证集和测试集上的mIoU分别为61.4%和63.2%,优于许多复杂的系统,并且接近全监督分割系统[6](验证集/测试集上的mIoU分别为67.6%/70.3%)。

        本文的剩余部分按照以下方式组织。我们首先在第2节回顾相关工作,并在第3节中描述我们方法的架构。在第4节中,我们讨论了改进动态监督质量的详细过程,并分析了实验结果。第5节提出了我们的结论和未来的工作。

图1:顶部一行按顺序显示了一张带有图像级标签的训练图像,仅使用图像级监督的我们提出的方法的分割结果,以及真实标注的地面真值。我们的分割结果非常接近人工标注的地面真值。底部一行显示了在提出的弱监督语义分割网络训练过程中几个迭代中的动态监督情况。(黑色代表背景,白色代表未标记/忽略的像素)。

2.相关工作

2.1.基于图像级别的像素标注

2.2.种子区域生长

3.方法

3.1.使用分类网络生成种子点

3.2.种子损失

3.3.深度种子区域生长

4.实验

4.1.实验设置

4.2.与当下方法的比较

4.3.定性结果

4.4.消融研究

4.5.动态监督随着迭代的进行而带来的质量改进

4.6.COCO数据集结果

5.总结和未来工作

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/797721.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

const int * p,int const *p, int * const p, const int *const p 搞不清楚?

一、废话不多说,直接来结论 变量含义const int *p 指针p可以修改,*p不可修改int const *p 指针p可以修改,*p不可修改int *const p指针p不可以修改,*p可以修改const int * const p指针p不可以修改,*p不可以修改 显…

黑客学习手册(自学网络安全)

一、首先,什么是黑客? 黑客泛指IT技术主攻渗透窃取攻击技术的电脑高手,现阶段黑客所需要掌握的远远不止这些。 二、为什么要学习黑客技术? 其实,网络信息空间安全已经成为海陆空之外的第四大战场,除了国…

MES中的EAP有什么作用?

在现代制造业中,MES(Manufacturing Execution System)是一个关键的生产管理系统,用于监控、控制和优化制造过程。而EAP(Equipment Automation Program)作为MES的重要组成部分之一,在生产线上发挥…

DL优化器精简总结 | SGD, Momentum, AdaGrad, Rmsprop, Adam, AdamW

🔥 DL里的优化器相关考点,面试时面试官偶尔会问甚至变态点的会叫代码手撕,笔试选择题只要跟DL相关基本必考。废话不多说,直接上! 😄 当然并不是纯为了面试,只不过说你如果是搞DL的连优化器都说…

性能测试QPS+TPS+事务基础知识分析

本篇文章是性能测试基础篇,主要介绍了性能测试中对QPSTPS事务的基础知识分析,有需要的朋友可以借鉴参考下,希望可以对广大读者有所帮助 事务 就是用户某一步或几步操作的集合。不过,我们要保证它有一个完整意义。比如用户对某一个…

#P1009. [NOIP2016提高组] 玩具小人

题目描述 小南有一套可爱的玩具小人, 它们各有不同的职业。 有一天, 这些玩具小人把小南的眼镜藏了起来。 小南发现玩具小人们围成了一个圈,它们有的面朝圈内,有的面朝圈外。如下图: 这时 singer 告诉小南一个谜題: “眼镜藏在我左数第 33 个玩具小人的右数第 11 个玩具小人的…

CMU 15-445 -- Database Recovery - 18

CMU 15-445 -- Database Recovery - 18 引言ARIESLog Sequence NumbersNormal ExecutionTransaction CommitTransaction AbortCompensation Log Records Non-fuzzy & fuzzy CheckpointsSlightly Better CheckpointsFuzzy Checkpoints ARIES - Recovery PhasesAnalysis Phas…

第四范式x百胜软件 以生成式AI改造零售软件

7月20日,在百胜软件联合探路者举办的行业数字化转型研学活动上,百胜软件联合第四范式宣布将以「式说」大模型为核心,在软件智能化升级、行业赋能等方面开展深入合作,共同推动大模型在零售行业的创新与应用。 活动上,双…

RK3588 使用OpenCL 遇到坑

资源1:本文章的源代码为:加速中... 资源2:RK3588 Android上应用使用OpenCL,所需的所有so 一:RK3588是否支持OpenCL 通过GPT一通搜索,说不支持。 感觉GPT东西不全可信啊!!! 导致自己一直怀疑RK3588不支持OpenCL使用,为什么呢? 1.通过adb shell 发现里面没有clinfo…

游戏图标有哪些素材模板推荐

游戏图标设计在游戏UI中占有非常重要的地位。例如,当我们看到一个游戏的启动图标时,很容易区分它是哪个游戏。设计游戏图标不仅是一个图形,也是一个标志。 本文将通过各种游戏图标设计素材分享游戏图标的类别和设计游戏图标的思考。 1. 游戏…

滴水逆向三期笔记与作业——02C语言——05 正向基础/05 循环语句

目录 一、缓冲区溢出的HelloWorld二、永不停止的HelloWorld三、基础知识3.1 变量的声明3.2 类型转换(一般用于小转大)3.3 表达式3.4 语句和程序块3.5 参数与返回值3.6 关系运算符3.7 逻辑运算符:&& || !3.8 单目运算符3.9 三目运算符…

人工智能TensorFlow MNIST手写数字识别——实战篇

上期文章TensorFlow手写数字-训练篇,我们训练了我们的神经网络,本期使用上次训练的模型,来识别手写数字(本期构建TensorFlow神经网络代码为上期文章分享代码) http://scs.ryerson.ca/~aharley/vis/conv/ 0、插入第三方库 from PIL import Image# 处理图片 import tensorf…

Python补充笔记5-模块化、文件

目录 一、模块 二、模块的导入 三、python中的包​编辑 四、常用的内容模块 五、第三方模块的安装与使用 六、编码格式的介绍 七、文件读写的原理 八、常用的文件打开模式 ​九、文件对象的常用方法 十、with语句​编辑 十一、os模块的常用函数 十二、os.path模块的常用方法​编…

防御第四次作业

一、结合以下问题对当天内容进行总结 1. 什么是IDS? IDS是:入侵检测系统(intrusion detection system,简称“IDS”)是一种对网络传输进行即时监视,在发现可疑传输时发出警报或者采取主动反应措施的网络安全…

跨平台力量:探索C++Qt框架的未来前景

卓越的跨平台支持:CQt可以在多个平台上运行,包括Windows、Mac、Linux、Android和iOS等。这使得开发者能够使用同一份代码构建跨平台的应用程序,从而显著降低了开发成本和时间投入。 丰富的类库和工具:CQt提供了广泛的类库和工具&…

上位机编程 VS 嵌入式编程:哪个更有前途?揭秘行业发展秘密

上位机和嵌入式是计算机的两个具体应用领域,它们在语言、工具和应用方面存在一定的差异。上位机更加注重高层逻辑和抽象,提供了多种语言和工具供开发者选择。而嵌入式开发通常局限于使用C语言,并且在过去甚至需要使用汇编语言,开发…

QT Http协议

文章目录 前言一、HTTP概述二、HTTP的两种模型1.B/S模型2.C/S模型 三、请求报文和响应报文三、调试软件Postman四、QT中的HTTP类总结 前言 本篇文章来给大家讲解QT中的Http协议,Http协议主要用于网络中数据的请求和响应,那么这篇文章将给大家讲解一下这…

设计灵感充电!挂在悬崖边的建筑效果图,你会怎么设计?

我相信大部分人都看到过类似下面这张的民宿图片: 挂在悬崖边,四四方方的“盒子”,没有任何实用性和审美性可言。很多网友戏称:“这不是《消失的她》空中版吗?”那如果让你设计一个悬崖边的建筑,你会从何入手…

Python编程——while循环语句讲解

作者:Insist-- 个人主页:insist--个人主页 本文专栏:python专栏 专栏介绍:本专栏为免费专栏,并且会持续更新python基础知识,欢迎各位订阅关注。 目录 一、怎么理解循环? 二、while语句基础格式…

跨境电商多语言带直播功能功能列表

一、直播导购 1.直播入驻管理:直播入驻实际上就是商家入驻,开通商家后会获得直播权限 2.直播观看/拉流页面(分三屏,可以左右滑动): 左屏: 直播间信息:直播间名称、直播封面、房间号、在线人数、…