【论文阅读】IRNet:具有像素间关系的实例分割的弱监督学习

news2024/11/18 6:39:39

【论文阅读】IRNet:具有像素间关系的实例分割的弱监督学习

文章目录

  • 【论文阅读】IRNet:具有像素间关系的实例分割的弱监督学习
    • 一、介绍
    • 二、联系工作
    • 三、方法
    • 四、实验结果

Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations

本文提出了一种以图像级类标签为监督的学习实例分割的新方法

方法生成训练图像的伪实例分割标签,用于训练全监督模型

  

生成伪标签,我们首先从图像分类模型的注意力图中识别对象类的置信种子区域

并传播它们以发现具有精确边界的整个实例区域

  

提出了IRNet,它估计单个实例的粗略区域,并检测不同对象类之间的边界

实例标签分配给种子,并在边界内传播它们

从而可以准确地估计实例的整个区域

  

IRNet是用注意力图上的像素间关系进行训练的,因此不需要额外的监督

在PASCAL VOC 2012数据集进行对比实验

  

一、介绍

实例分割是一项联合估计单个对象的类标签和分割掩码的任务。

卷积神经网络(CNNs)的监督学习推动了实例分割的最新进展

  

方法需要大量带有基本事实标签的训练图像,而这些图像通常是手工给出的

学习能够处理现实世界中不同对象类的实例分割模型并不简单

  

弱标签的低注释成本

可以利用图像级类标签来学习实例分割,因为这样的标签在大规模图像分类数据集中很容易获得

CAM通过调查局部图像区域对类分类分数的贡献来粗略估计每个类的面积

cam不能直接用作实例分割的监督,因为它们的分辨率有限,通常只突出对象的部分区域

  

提出了一种使用图像级类标签学习实例分割的新方法

甚至优于一些依赖于更强监督的方法

我们的方法对给定图像级标签的训练图像生成伪实例分割标签,并用伪标签训练已知的CNN模型

  

为了克服cam的这些局限性,我们引入了像素间关系网络(IRNet),该网络用于估计与cam互补的两种类型的附加信息

  • 类别无关的实例映射
  • 配对语义亲和力

IRNet有两个分支,分别估计实例映射和语义关联。

  

  • 第一个分支预测一个位移向量场,其中每个像素处的2D向量表示像素所属实例的质心。
  • 第二个分支检测不同对象类之间的边界。然后从检测到的边界以这样的方式计算成对语义亲和力,即被强边界分隔的两个像素被认为是具有低语义亲和力的一对

  

我们发现IRNet可以有效地训练来自cam的像素间关系

  • 通过分类无关的实例映射来识别和定位具有图像级监督的实例
  • 通过类边界检测在图像级监督下学习和预测像素之间的语义亲和力

  

二、联系工作

回顾方法密切相关的语义和实例分割模型

为这两个任务引入了弱监督方法

  

Image-level类标签被广泛用作弱标签

大多数使用图像级监督的方法都是基于CAMs

  • Is object localization for free? - weakly-supervised learning with con-volutional neural networks.
  • Grad-cam: Visual explanations from deep networks via gradient-based localization
  • Learning deep features for discriminative localization.

  

利用额外的数据或监督来获得额外的证据

  

在实例分割中,边界框被广泛用作弱标签

使用框标签的弱监督模型主要集中在估计对象形状上

  

  • GraphCut与通用边界检测[51]相结合,通过考虑边界来更好地估计物体形状
  • 一种方法通过检测类关注的峰值来识别单个实例,并将它们与高质量的分割结合起来
  • 分割建议必须使用额外的数据进行训练,并进行高级监督

  

像素间的语义关联

像素间的两两语义关联被用来提高语义分割的质量

  

  • 用于语义分割的cnn与计算像素语义关联矩阵的可微模块相结合,并在完全监督下以端到端方式进行训练
  • 预测的亲和矩阵被用作随机游走的转移概率矩阵,而在[6]中,它被嵌入到卷积解码器[36]中
  • 提出了一种弱监督模型来学习图像级类标签的两两语义亲和力

  

IRNet可以通过检测类边界更有效地学习和预测亲和力

在这里插入图片描述

  

Class Attention Maps

cam在我们的框架中起着两个重要的作用。首先,它们用于定义实例的种子区域,稍后传播这些种子区域以恢复整个实例区域

为了生成用于训练图像的cam,我们采用[52]的方法,使用具有全局平均池化的图像分类CNN,然后是分类层

  
在这里插入图片描述

  • f为CNN最后一层卷积的特征映射
  • φc为c类的分类权值

  
  

三、方法

IRNet旨在提供两种类型的信息:位移向量场和类边界图,这两种信息依次用于从cam中估计伪实例掩码。

在这里插入图片描述

IRNet有两个输出分支,分别预测位移向量场和类边界图。

两个分支共用同一个ResNet50骨干网,与第三节中的分类网相同

  
两个分支都从主干的所有五个层次获取特征映射

两个分支的所有卷积层之后都是组归一化[50]和ReLU
  

位移场预测分支:

  • 对每个输入特征映射应用1×1卷积层,如果通道数大于256,则将通道数减少到256
  • 附加了自顶向下的路径方式来迭代合并所有的特征图
  • 与相同分辨率的特征图连接,并通过1×1卷积层进行处理
  • 三个1×1卷积层解码位移场,其输出有两个通道

  

边界检测分支:

  • 对每个输入特征映射应用1×1卷积进行降维
  • 结果调整大小、连接并输入到最后一个1×1卷积层,该层根据连接的特征生成类边界图。

  

基于cam的像素间关系挖掘

像素间关系是训练IRNet的唯一监督,因此可靠地收集像素间关系非常重要

  

它们的坐标之间的位移和它们的类等价

利用cam来预测逐像素的伪类标签,并从中获得可靠的类等价关

在这里插入图片描述

从改进的置信区域中抽取相邻像素对,并根据它们的类等价性将它们分为P+和P−两个集合

在这里插入图片描述

  

位移场预测的损失

第一个分支预测一个位移向量场D∈Rw×h×2

每个2D向量指向相关实例的质心

首先,对于属于同一实例的一对像素位置xi和xj,它们的估计质心必须相同

  
在这里插入图片描述

  

为了满足第一个条件,我们首先假设一对相邻的像素(i, j)∈P+

  

  • 坐标位移δ(i, j) = xj- xi
  • D中的差值表示为δ(i, j) = D(xi) - D(xj)
  • 最小化L1损耗

  
在这里插入图片描述

因此我们从背景像素中消除了琐碎的质心估计。为此,我们将背景像素的以下损失最小化

在这里插入图片描述

  

类边界检测的损失

IRNet的第二个分支检测不同类之间的边界,输出记为B∈[0,1]w×h

虽然在我们的设置中没有给出类边界的基础真值标签

在这里插入图片描述

两个像素之间的类等价被表示为一个二进制标签,如果它们的伪类标签相同,则其值为1,否则为0

在这里插入图片描述

  

两两语义关联,类边界图和随机游走后从中心开始的标签传播

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
  

检测实例质心,初始位移场检测到的质心

在这里插入图片描述
  

IRNet的两个分支通过最小化我们之前定义的所有损失同时进行联合训练:

在这里插入图片描述
  
  

四、实验结果

框架的有效性在PASCAL VOC 2012数据集上得到了证明

框架为训练图像生成伪标签

在这里插入图片描述

伪标签的准确性大大高于AffinityNet,这要归功于IRNet预测的成对语义亲和力的优良质量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1521733.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024043期传足14场胜负前瞻

2024043期售止时间为3月17日(周日)21点30分,敬请留意: 本期深盘多,1.5以下赔率1场,1.5-2.0赔率7场,其他场次是平半盘、平盘。本期14场整体难度中等偏上。以下为基础盘前瞻,大家可根据…

Java后端面试经验分享,~纯分享

本文将从面试、工作、学习三个方面分享最近面试的一些心得以及以后发展的一些规划,仅供参考,哈哈,毕竟本人也很菜,因为菜才要多学习。一会儿也会分享两本Java面试题库(题库是b站大学找的,一会儿我也会分享出…

[Vue]组件间通讯

Vue组件间通讯 父子间通讯 非父子间通讯 父子间通讯 父组件通过 props 将数据传递给子组件父向子传值步骤 给子组件以添加属性的方式传值 子组件内部通过props接收 模板中直接使用 props接收 子组件利用 $emit 通知父组件修改更新 $emit触发事件,给父组件…

leetcode代码记录(组合

目录 1. 题目:2. 我的代码:小结: 1. 题目: 给定两个整数 n 和 k,返回范围 [1, n] 中所有可能的 k 个数的组合。 你可以按 任何顺序 返回答案。 示例 1: 输入:n 4, k 2 输出: [ […

python知识点总结(一)

这里写目录标题 一、什么是WSGI,uwsgi,uWSGI1、WSGI2、uWSGI3、uwsgi 二、python中为什么没有函数重载?三、Python中如何跨模块共享全局变量?四、内存泄露是什么?如何避免?五、谈谈lambda函数作用?六、写一个函数实现字符串反转,尽可能写出你知道的所…

【Linux C | 多线程编程】线程的基础知识

😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…

MySQL语法分类 DQL(1)基础查询

//语法 select 字段列表 from 表名列表 where条件列表 group by分组字段 having 分组后的条件 order by排序 limit 分页限定为了更好的学习这里给出基本表数据用于查询操作 create table student (id int, name varchar(20), age int, sex varchar(5),address varchar(100),ma…

Go语言加密技术实战:掌握encoding/pem库

Go语言加密技术实战:掌握encoding/pem库 引言PEM格式简介核心组成常见用途 Go语言的encoding/pem库概览核心功能使用场景 开始使用encoding/pem读取PEM文件编码为PEM格式 深入理解PEM编码自定义PEM头部信息 使用encoding/pem解码PEM文件PEM文件的加密与解密加密私钥…

代码随想录训练营Day25:● 216.组合总和III ● 17.电话号码的字母组合

216.组合总和III 题目链接 https://leetcode.cn/problems/combination-sum-iii/description/ 题目描述 思路 自己写的效率会慢一些&#xff0c;而且没有用到剪枝 class Solution {List<List<Integer>> list new ArrayList<>();List<Integer> lis…

基于PIESDK的二次开发--土壤水反演系统

目录 系统演示数据获取算法封装系统 系统演示 数据获取 基于TVDI的土壤水分反演需要有地表温度和植被指数数据&#xff0c;该部分参考Landsat计算TVDI进行干旱监测&#xff08;二&#xff09; 得到两张TIF影像 算法封装 初始的.py代码参数是直接指定的&#xff0c;然而在封…

【Javascript编程实操06】1、反转数组和字符串 2、将二维数组转一维数组

前言 1、反转数组和字符串 代码&#xff1a; 实现效果&#xff1a; 2、将二维数组转一维数组 代码&#xff1a; 实现效果&#xff1a; 总结 前言 本次主要是针对Javascript阶段的字符串与数组的实操练习&#xff0c;共有2个实操&#xff0c;大家可以在实操的过程中更加深…

ARM 寄存器学习:(一)arm多种模式下得寄存器

一.ARM7种状态以及每种状态的寄存器&#xff1a; ARM 处理器共有 7 种不同的处理器模式&#xff0c;在每一种处理器模式中可见的寄存器包括 15 个通用寄存器( R0~R14)、一个或两个(User和Sys不是异常模式&#xff0c;没有spsr寄存器)状态寄存器&#xff08;cpsr和spsr&…

想兼职赚钱?盘点6个靠谱兼职,赚钱更轻松!

1&#xff0c;微头条搬砖 微头条搬砖是一个门槛不高的赚钱方式&#xff0c;而且不需要你有多么好的原创能力&#xff0c;去收集一些热门文章的素材进行文章伪原创&#xff0c;十分钟就能搞定&#xff0c;只要你的文章有爆点&#xff0c;足够吸人眼球&#xff0c;就能够获取不低…

Web核心,HTTP,tomcat,Servlet

1&#xff0c;JavaWeb技术栈 B/S架构:Browser/Server&#xff0c;浏览器/服务器架构模式&#xff0c;它的特点是&#xff0c;客户端只需要浏览器&#xff0c;应用程序的逻辑和数据都存储在服务器端。浏览器只需要请求服务器&#xff0c;获取Web资源&#xff0c;服务器把Web资源…

Linux服务器(Debian系)包含UOS安全相关巡检shell脚本

#!/bin/bash# Define output file current_date$(date "%Y%m%d") # Gets the current date in YYYYMMDD format output_file"server_security_inspection_report_${current_date}.txt"# Empty the file initially echo > $output_file# 获取巡检时间 (…

蓝桥杯刷题(九)

1.三国游戏 代码 #输入数据 nint(input()) Xlilist(map(int,input().split())) Ylilist(map(int,input().split())) Zlilist(map(int,input().split())) #分别计算X-Y-Z/Y-Z-X/Z-X-Y并排序 newXli sorted([Xli[i] - Yli[i] - Zli[i] for i in range(n)],reverseTrue) newYli …

Pikachu 靶场搭建

文章目录 环境说明1 Pikachu 简介2 Pikachu 安装 环境说明 操作系统&#xff1a;Windows 10PHPStudy 版本: 8.1.1.3Apache 版本&#xff1a;2.4.39MySQL 版本 5.7.26 1 Pikachu 简介 Pikachu是一个使用“PHP MySQL” 开发、包含常见的Web安全漏洞、适合Web渗透测试学习人员练…

腾讯云轻量2核4G5M服务器卡不卡?性能怎么样?

腾讯云轻量2核4G5M带宽服务器支持多少人在线访问&#xff1f;5M带宽下载速度峰值可达640KB/秒&#xff0c;阿腾云以搭建网站为例&#xff0c;假设优化后平均大小为60KB&#xff0c;则5M带宽可支撑10个用户同时在1秒内打开网站&#xff0c;并发数为10&#xff0c;经阿腾云测试&a…

C++算法学习心得八.动态规划算法(4)

1.零钱兑换&#xff08;322题&#xff09; 题目描述&#xff1a; 给定不同面额的硬币 coins 和一个总金额 amount。编写一个函数来计算可以凑成总金额所需的最少的硬币个数。如果没有任何一种硬币组合能组成总金额&#xff0c;返回 -1。 你可以认为每种硬币的数量是无限的。…

劲仔食品三年倍增,抢先打响鹌鹑蛋“健康”属性品牌之争?

如果说&#xff0c;进入2024年后&#xff0c;在股价继续陷入回调状态的食品板块中有个股走势表现相对亮眼&#xff0c;那么劲仔食品必是其中之一。 从去年发布2023年三季度业绩公告以来&#xff0c;其强劲的业绩表现就带动了股价走出小趋势。2023年10月23日至今2024年3月13日收…