【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS

news2025/1/13 10:28:38

一篇CVPR2022上的论文,用于弱监督分割

论文标题:

Self-supervised Image-specific Prototype Exploration for Weakly Supervised Semantic Segmentation

作者信息:

在这里插入图片描述

代码地址:

https://github.com/chenqi1126/SIPE

论文链接:

https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_Self-Supervised_Image-Specific_Prototype_Exploration_for_Weakly_Supervised_Semantic_Segmentation_CVPR_2022_paper.pdf

Abstract

现有的WSSS方法通常依赖于类激活映射(CAM),它度量图像像素和分类器权重之间的相关性。然而,分类器只关注鉴别区域,而忽略了每幅图像中的其他有用信息,导致了不完整的定位映射。作者提出了一种自监督的Self-supervised Image-specific Prototype Exploration (SIPE)模型,包括一个Image-specific Prototype Exploration (IPE)模块(获得精细化的IS-CAM) 和 General-Specific Consistency (GSC) 损失函数(度量CAM和IS-CAM的差距)。

1.Introduction

Figrue1:该论文的主要Motivation
现有的方法: WSSS非常节省标注资源,大多数现有的方法都是利用类激活映射(CAM)[53]技术来提供目标对象的定位线索。这些方法训练一个分类器,并将其学习到的权重视为每个类的一般表示,即类中心(作者给出的自己的一个解释)。然后,利用该类中心与图像像素进行关联,得到定位图。
现有方法的缺点: CAM倾向于专注于一些主要区域(猫的头部),而忽略了其他有用的线索(猫的身体)。(这个缺点经常在很论文中提到)。
作者的motivation: 作者使用 t-SNE可视化相关方法,从训练好的分类网络中提取的前景的像素级特征可视化(Figure1),作者发现类中心(CAM)总是给离得近得像素(对应于一些主要区域)的高激活,而忽略了远处的像素。不平衡的激活导致了不完整的定位图。作者提出通过特征的中心(Figure1粉色,通过IPE模块提取原型获得)来辅助进行激活。
作者的方法: 作者提出了SIPE模型,包括提出了图像原型探索模型(IPE),获得图像的"原型"。IPE模块包括两步,第一步,利用像素间语义来探索空间结构线索,定位每个类的鲁棒种子区域。第二步,给定种子区域,提取特定于图像的原型,然后通过原型相关性生成的IS-CAM。另外,作者提出了一个通用特定一致性(GSC)损失来有效地规范原始的CAM和ISCAM,增强特征表示(监督refine CAM)。

2.Related Work

现有的方法大多采用类激活映射(CAM)来生成定位映射,然后将其细化为伪标签,以训练一个完全监督的分割模型。目前又这样几种策略来提高CAM的质量(具体不详细写了):

  • Erasure and accumulation.
  • Cross-image mining.
  • Background Modeling.
  • Self-supervised Learning

作者的这个方法也属于Self-supervised Learning,引入特定图像的原型来发现完整的区域,并构建自监督方式来增强特征表示(CAM)。

3. Approach

整体的方法的思路如下图:
在这里插入图片描述

3.1. Class Activation Mapping

常规的CAM的公式如下:
在这里插入图片描述
公式(1)Mk表示对第k个特定类别激活获得的CAM,对于背景采用下列公式进行激活:
在这里插入图片描述
公式(2)即减去所有的1减去其他类最大的 M k M_k Mk,然后乘以一个稀疏,得到对于背景的CAM。
总的激活即concat M k M_k Mk M b M_b Mb 即可获得。

3.2. Image-specific Prototype Exploration

IPE模块,主要包括两步:1.获取seeds区域。2.获取原型和更精细的IS-CAM。

Structure-aware Seed Locating:

作者认为尽管CAM比较注重关键的区分区域,但是仍在其余区域也能产生弱激活。作者提出了一种结构化的seeds处理方法,并以cam作为模板来匹配每个像素的最优类别。
具体做法如下图figure3所示:
在这里插入图片描述
首先对于任意像素 i i i,将其和其他像素 j j j计算相关性,这个是计算它们所对应的语义特征的相关性,即从Figure2中获得Semantic features,在对应的每个像素出求余弦相似度。即:
在这里插入图片描述
上述公式中的 f i f^i fi F s ( j ) F_s(j) Fs(j)在代码里面是一样的,relu是取非负。公式(3)就表示各个像素之间的相似度。作者认为高相关的像素可以突出空间结构。这里的 S S S作者称为struction map。
接着作者定义了一种评估方式,类似于 structure similarity,对于每一类,将器CAM和公式计算的 S i ( j ) S^i(j) Si(j)计算其IOU(可以理解为CAM和这个结构相似性 S i ( j ) S^i(j) Si(j)的重叠度),即:
在这里插入图片描述
那么对一个具体的像素 i i i和类别 k k k C k i C_k^i Cki它们结构相似性。Figure3就想表达这个含义(前景像素(绿星)与猫的身体相关,与猫类的CAM达到最高的IoU,背景像素(红星)与前景像素没有关联,因此它更有可能属于背景类)
对于每个像素而言,根据公式(4)计算的最大的miou来确定该像素的类别,即:
在这里插入图片描述
这里的 R R R作者称为seeds region(效果见figure 2)

Background-aware Prototype Modeling

作者改变了原resnet骨干网络的特征提取方式,用了类似于FPN(金字塔池化)那种多层次的方式,如下图:
在这里插入图片描述
这样提取到的多层次的特征记为 F h F_h Fh,作者认为图像的原型就是表示为在种子区域上的多层次特征的中心。用公式表示如下:在这里插入图片描述
公式中的双 L L L符号表示取真符号。(这个公式描述的是这个意思,但是代码里面用的两者相乘,然后再GAP)。(这里可以这样理解,这个就是一个原型就是按照seeds region所处位置,对特征的加权平均,像是一个关键点(中心点)代码中的格式是:prototypes:[n,21,c,1,1],c:768),总共输出有 k k k个类别原型和一个背景原型。)
接下来作者求取精细化的IS-CAM,利用公式:
在这里插入图片描述
公式(7)是计算特征图在原型上的余弦相似度(从figure1来看,可以理解为特征图和图像中心点(原型)的相似程度),作者将其作为更加精细化的CAM(IS-CAM)。

简单总结一下作者获取IS-CAM的过程: backbone特征---->structure map(两两像素的余弦相似度)----->seeds region(计算和CAM的miou,按照最大的miou给像素分配类别)---->图像原型Prototype(分层特征在seeds region上取加权平均)—>IS-CAM(Prototype和分层特征的余弦相似度。

3.3 Self-supervised Learning with GSC

作者自监督过程中的损失函数,主要有两个:
在这里插入图片描述
一个是CAM获得过程中的分类损失,如下公式:
在这里插入图片描述
另外一个损失是评估IS-CAM和CAM差距损失,使用L1损失并进行norm归一化,作者称为General-Specific Consistency (GSC)损失,计算方式如下:
在这里插入图片描述

4. Experiments

在各种算法面前取得了sota的结果:
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/703636.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【doxygen】markdown 表格中插入换行与缩进

文章目录 markdown 表格换行markdown 标准换行doxygen 中 markdown 表格换行 markdown 表格缩进 doxygen 中使用 markdown markdown 表格换行 markdown 表格生成 doxygen 时换行与标准的 markdown 语法稍有差异 markdown 标准换行 markdown 中可以使用 html 的换行标签 <…

Python学习之文件操作【基本操作,JSON文件操作】

前言 Python的文件操作是一个非常重要的主题&#xff0c;它可以用来读取&#xff0c;写入和操作各种类型的文件&#xff0c;包括文本文件、图像文件、音频文件等。在这里&#xff0c;我们将讨论一些基本的Python文件操作和JSON文件操作。 Python文件操作 Python提供了多种方…

73、基于51单片机温湿度光照检测控制esp8266无线WiFi app远程监测报警(程序+原理图+PCB源文件+参考论文+开题报告+元器件清单等)

研究目的 现代的生活中&#xff0c;许多情况都对环境的温湿度有比较严格的要求&#xff0c;因此&#xff0c;必须在某些特定环境安装温湿度报警器对环境的温湿度进行监控和调节。为此&#xff0c;本题目选用花卉温室的温湿度调节为背景环境&#xff0c;研究利用集成温湿度传感…

赛效:PDF文件怎么加密

1&#xff1a;在网页上打开并登录91ai工具&#xff0c;在特色功能里点击“PDF加密”。 2&#xff1a;点击上传文件&#xff0c;将本地PDF文件添加上去。 3&#xff1a;文件上传成功后&#xff0c;在文件下方设置密码后点击“开始加密”。 4&#xff1a;加密完成后点击下方下载按…

YOLOv5改进系列(12)——更换Neck之BiFPN

【YOLOv5改进系列】前期回顾: YOLOv5改进系列(0)——重要性能指标与训练结果评价及分析 YOLOv5改进系列(1)——添加SE注意力机制

浅谈安科瑞电力监控系统解决方案 安科瑞 许敏

摘要&#xff1a;随着经济的发展&#xff0c;能源消耗速度正不断加快&#xff0c;因此我国提出了绿色可持续发展战略&#xff0c;要求在发展建设中以节能为主&#xff0c;不断减少资源能耗&#xff0c;而电能便是首要控制内容。如今我国为电能使用&#xff0c;对计量表进行了优…

Web 应用程序综合监控

综合监控是什么意思 模拟用户通过 Web 应用程序的旅程并对其进行监控以检测任何增加延迟的元素的过程被广泛称为综合监控或综合测试。 为什么需要综合监测 为了确保最终用户的无缝体验&#xff0c;综合性能监控势在必行。监视综合事务以帮助您了解用户如何与 Web 应用程序交…

flex布局瀑布流占位两边对齐不对称

.page{display: flex;justify-content: space-between;flex-wrap: wrap; }.page:after {content: ;width: 400px; // 也可以 flex:1}

压缩文件——干货代码分享

1.背景 最近写接口遇到通过FTP服务器发送文件的需求&#xff0c;文件内容需加密并压缩&#xff0c;故记录一下&#xff0c;提供已经测试通过的代码。 2.代码 package com.example.demo.utils;import lombok.extern.slf4j.Slf4j;import java.io.*; import java.util.zip.GZIPOu…

大学智慧课堂系统整理

目录 一、题目类型选择器(非组件库) 1.1、效果展示 1.2、代码展示 二、题目类型选择器(Vant组件库) 2.1、效果展示 2.2、代码展示 一、题目类型选择器(非组件库) 使用vue2&#xff1a;在methods里区分单个点击和多个点击&#xff0c;在view视图区分判断题和选择题。 如下…

正则表达式和BeautifulSoup

文章目录 1、正则表达式介绍2、正则表达式和BeautifulSoup3、获取属性4、Lambda表达式 1、正则表达式介绍 正则表达式是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。它描述了一种字符串匹配的模式&#xff08;pattern&#xff09;&#xff0c;可以用来…

​Nature |HiFi宏基因组助力挖掘海洋“新”微生物组

近期在《Nature》发表的一篇研究论文中&#xff0c;表述了如何在罕见的微生物类群和环境中研究未知的酶和天然产物&#xff0c;研究突出了微生物组学在深入挖掘天然产物合成与酶学机制中的关键作用&#xff0c;对海洋生态、进化、生物技术与天然产物等领域的研究具有重要意义。…

基于Java+Vue前后端分离乐购游戏商城系统设计实现(源码+lw+部署文档+讲解等)

博主介绍&#xff1a;✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专…

制造企业可以通过数字工厂管理系统降低采购成本吗

制造企业可以通过数字工厂管理系统降低采购成本。制造业数字工厂系统是一种基于数字化技术的管理系统&#xff0c;可以帮助企业实现生产过程的数字化管理&#xff0c;提高生产效率和降低生产成本。下面具体介绍数字工厂管理系统如何降低制造企业的采购成本。 一、优化采购计划 …

【两个无穷大的数相加】

两个无穷大的数相加 两个无穷大的数相加&#xff0c;因为int有限,哪怕用long int也不可能够&#xff0c;用string存&#xff0c;用手工算数的方式从右往左一位一位加&#xff0c;满10就进一。这样不管有多长&#xff0c;都能算出结果。 最近在做QT项目&#xff0c;所以用c写的…

荔枝集团战队斩获 2023 Amazon DeepRacer自动驾驶赛车企业总决赛冠军

6月27日&#xff0c;2023 Amazon DeepRacer自动驾驶赛车企业总决赛在上海决出了最终结果&#xff0c;荔枝集团“状元红”战队与Cisco、德勤管理咨询、北京辛诺创新、神州泰岳、敦煌网等12支队伍的竞逐中&#xff0c;在两轮比赛中成绩遥遥领先&#xff0c;最终斩获桂冠。而今年年…

【LeetCode热题100】打卡第28天:不同的二叉搜索树验证二叉搜索树对称二叉树

文章目录 【LeetCode热题100】打卡第28天&#xff1a;不同的二叉搜索树&验证二叉搜索树&对称二叉树⛅前言 不同的二叉搜索树&#x1f512;题目&#x1f511;题解 验证二叉搜索树&#x1f512;题目&#x1f511;题解 对称二叉树&#x1f512;题目&#x1f511;题解 【Le…

真人手办店值得投资吗?

最近一两年有一种专为普通人设计的真人手办已经开始风靡&#xff0c;很多城市都有了真人手办店的身影&#xff0c;不少人的家里也摆上了属于自己的真人手办&#xff0c;这些手办可以说就是缩小版的我们自己。 除了消费者对这个新生事物有兴趣&#xff0c;许多想要创业的年轻人也…

Prophet算法框架趋势模型、季节模型原理详解与应用实践

本文是在ChatGPT协助下完成&#xff0c;提高了写作速度和效率。 1. 趋势模型 1.1. 趋势模型概述 当我们谈论Prophet中的趋势模型时&#xff0c;我们可以将其理解为描述时间序列数据中整体趋势的一种方式。趋势模型可以告诉我们数据随着时间的推移是如何变化的&#xff0c;是…

Kubernetes Pod篇

Pod基础概念&#xff1a; Pod是kubernetes中最小的资源管理组件&#xff0c;Pod也是最小化运行容器化应用的资源对象。一个Pod代表着集群中运行的一个进程。kubernetes中其他大多数组件都是围绕着Pod来进行支撑和扩展Pod功能的&#xff0c;例如&#xff0c;用于管理Pod运行的S…