【论文速递】TPAMI2022 - 小样本分割的整体原型激活

news2024/11/18 22:32:08

【论文速递】TPAMI2022 - 小样本分割的整体原型激活

【论文原文】:Holistic Prototype Activation for Few-Shot Segmentation

获取地址:https://ieeexplore.ieee.org/document/9839487
CSDN下载:https://download.csdn.net/download/qq_36396104/87381093

博主关键词: 小样本学习,语义分割,整体性,原型

推荐相关论文:

【论文速递】CVPR2022 - 学习 什么不能分割:小样本分割的新视角
- https://blog.csdn.net/qq_36396104/article/details/128658168

摘要:

近年来,传统的基于深度cnn的分割方法取得了令人满意的性能,但其本质上是大数据驱动技术,难以推广到未见类别。随后开发了小样本分割,以在低数据状态下执行相关操作。遗憾的是,由于训练范式和网络架构的因素,现有方法容易对基类目标进行过拟合,分割边界不准确,在一定程度上阻碍了研究的进展。在本文中,我们提出了一个整体原型激活(HPA)网络来缓解这些问题。其新颖的设计可以概括为三个方面:1)一种无需训练的派生基类先验表示的方案。2)原型激活模块(PAM),通过高置信度过滤不相关类的对象,生成可靠的激活映射和匹配良好的查询特征。3)交叉引用译码器(cross - reference Decoder, CRD)用于交互特征加权和多层次特征聚合。 在标准小样本分割基准(PASCAL-5i和COCO-20i)上进行的大量实验验证了该方法的有效性。此外,在弱标签分割、零样本分割和视频对象分割等多个扩展任务上的优异性能也说明了它的灵活性和多功能性。我们的代码可以在https://github.com/chunbolang/HPA上公开获取。

关键词 -小样本学习,小样本分割,语义分割,原型激活,交叉引用

简介:

通过大规模标记数据集,深度卷积神经网络(cnn)在图像识别、目标检测、语义分割等多个视觉任务中取得了前所未有的研究进展[1][2][3][4][5][6][7][8]。然而,收集如此庞大的带注释的训练样本需要消耗大量的人力和物力,特别是对于密集的预测问题(如分割)。因此研究了一系列半监督和弱监督方法,但对大量全标记或弱标记图像的要求的性质没有改变[9]。此外,当推理阶段在未见类别上执行时,模型的泛化能力可能是脆弱的。在这种情况下,为了解决上述问题,提出了小样本学习(FSL),即学习可转移的元知识,然后利用很少的可用信息将其泛化[10]。

在本文中,我们进行了FSL在图像分割领域的应用,称为小样本分割(FSS)。给定一个要分割的原始(查询)图像,FSS模型将利用几个密集注释(支持)图像提供的信息,根据建立的语义类别检索目标区域。支持样本越少,任务就越有挑战性。在最极端的情况下,这些模型要求仅依靠一个支持数据从背景中分割物体,也称为1-shot segmentation。
在这里插入图片描述

Fig. 1. 说明传统FSS模型中存在的问题。(a)其他类别的物体(如绿色矩形的盆栽植物)对“人”的分割造成严重干扰,这与基类的过拟合有关。(b)该网络对物体边界和形状的预测不准确,表明缺乏低级细节。.

一般来说,FSS框架通过掩码平均池化操作[12]提取特定类别(即原型[11])的特征表示,然后将其嵌入到查询分支中,以某种方式指导分割,例如SG-One[12]中的“空间注意和乘法”,FWB[13]中的“空间注意和串联”,CANet[14]中的“扩展和串联”。然而,在 上述框架的指导阶段,只考虑了单一的前景表示,在抵抗不相关的语义对象[15][16][17]时表现出较低的性能,如图1(a)所示。从更广泛的角度来看, 网络倾向于过度拟合基本类别,导致区域的虚假激活。事实上,这是有道理的 。例如,给定“桌子”(基本)和“椅子”(新奇)两个语义类别,网络如何借助“椅子”原型成功地在包含这两个类别的查询图像中确定“桌子”作为背景? 毕竟,这两个类在语义上比后台类更相似。此外,由于数据有限和网络设计不合理,预测结果中存在典型的欠分割现象,主要表现为目标体不完整或边界模糊(如图1(b))。本文主要针对这两个问题。

对于第一个问题,我们认为一些基本类别的信息在元构建阶段也有帮助,但在以前的工作中被忽略了。 还是以上面提到的“桌子”和“椅子”的分割任务为例,既然很难利用“椅子”的特征来识别“桌子”,为什么不引入“桌子”本身的特征来辅助这个过程呢?换句话说,如果一个像素或一个区域与“表”类非常相似,那么我们可以将其归类为高置信度的背景。基于这一概念的最简单的实现之一是修改Wang et al.[15]提出的PANet。具体而言,在元训练阶段结束时,将部分基础数据集馈送到训练良好的骨干网络中,得到每个类的原型,并在测试时将这些代表性向量补充到无参数最近邻分类器中。但是这种像素-像素分割操作复杂度高,预测结果不自然(请参考[15]的失败案例),因此我们换一种思路进行探讨。所提出的原型激活模块(PAM)将基本原型与当前的新原型集成在一起,形成一个整体原型集,然后根据这个集合激活查询图像中每个目标的区域。如果对象区域被基础原型以高置信度激活,则对应的位置将在最终的激活映射中被擦除(即设置为0)。按照先进的FSS架构[18][19],该特征映射以拼接的形式嵌入到查询分支中。另外,对近期论文[14][17][18][20]中常用的“expand & concenate”操作也做了相应的修改。在每个位置选择和特征向量最相似的原型并放置,提供一个匹配良好的特征作为参考。

对于第二个问题,一个直观的解决方案是引入查询图像的低级特征,就像几个高级语义分割框架[21][22][23]设计的那样。 虽然这可能有助于分割边界的细化,但仍然存在目标体不完整的现象。我们认为,在样本有限的情况下,提高前景激活精度的关键是捕捉支持图像和查询图像之间的共存特征,然而,在单个原型的指导下,仅通过像素级特征匹配是远远不够的。因此,交叉引用译码器(cross - reference Decoder, CRD)的提出统一地缓解了上述问题。基于DeepLabv3+[21]解码器构建了CRD模块。在此基础上,采用一种包含两个互补分支的交互特征加权方案,分别对底层特征映射的相互依赖和自我依赖进行建模请注意,这种重新加权策略只包含一个可学习的参数来平衡两个分支的贡献,这对需要避免过拟合的FSS范式非常友好。然后将处理后的特征以多级特征聚合的方式与主路径的高级语义特征合并,丰富了分割线索。

在上述两个模块的基础上,我们建立了一个新的FSS框架,称为整体原型激活(HPA)。 图2说明了我们的模型的数据流,并简单地显示了每个组件的作用。给定特定类别(例如,瓶子)的查询图像,PAM模块通过抑制基本类别的不相关对象(例如,人)来处理提取的特征,并给出粗粒度的预测。最后,CRD模块利用底层信息细化分割结果,生成精确的对象边界。
在这里插入图片描述

Fig. 2. 针对1shot分割任务提出的HPA网络概述。给定“瓶子”类别的支持-查询图像对,我们的模型首先通过骨干网提取特征表示,然后将其馈送给PAM模块以过滤掉不相关类别的对象(例如“人”),最后利用CRD模块进一步细化分割结果。

在多种基准上进行了大量实验,验证了HPA的有效性,HPA的性能大大优于先进的方法。此外,令人惊讶的是,所提出的模型/组件在几个扩展任务上也表现出了出色的性能,如广义小样本分割、弱标签分割、零样本分割和视频对象分割。据我们所知,这是第一次如此全面地研究FSS模型在多个密集预测任务上的可转移性和可扩展性。 主要工作成果如下:

  • 提出了一种利用基本类别信息为模型推理提供更多支持的新思想,这在以前的工作中被忽略了。
  • 我们为FSS开发了一个整体原型激活(HPA)网络,以缓解基类的过拟合并生成准确的分割边界。据我们所知,这是第一个明确利用基础原型来解决FSS中的过拟合问题的工作。
  • 所提出的PAM和CRD模块分别可作为原型匹配和特征解码器的大容量即插即用组件。
  • HPA在PASCAL-5i和COCO-20i数据集上都取得了优异的性能,大大超过了先进的方法。

在这里插入图片描述

Fig. 3. 所提出的整体原型激活(HPA)网络的流程图,该网络由三个重要部分组成,即免训练基础原型获取、原型激活模块(PAM)和交叉引用解码器(CRD)。我们通过掩码平均池化操作计算新类别和基类别的原型,然后将它们合并形成整体原型集P_h。PAM根据这些代表性向量充分激活查询特征。将具有高置信度的不相关对象擦除,生成激活M,该概率图为获得良好匹配的特征F^'_q提供了一定的指导。最后,CRD利用两个分支(\tilde{F_s}和\tilde{F_q})的低级特征来细化分割边缘,同时提高激活精度。注意,损失J_{seg}和J_{act}是在元训练阶段评估的,我们在这里说明它们只是为了更好地理解。更多的原型匹配和最大擦除操作的细节可以在图4中找到。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/159880.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

三十、RabbitMQ(1)

🌻🌻 目录一、 关于中间件的概述二、基于消息中间件的分布式系统的架构2.1 消息中间件应用的场景2.2 常见的消息中间件2.3 消息中间件的本质及设计2.4 消息中间件的核心组成部分2.5 小总结三、消息队列协议3.1 什么是协议3.2 网络协议的三要素3.3 AMQP 协…

JAVA 23种设计模式示例

目录 一.单例模式 二.工厂方法模式 三.抽象工厂模式 四.建造者模式 五.原型模式 六.享元模式 七.门面模式 八.适配器模式 九.装饰者模式 十.策略模式 十一.模板方法模式 十二.观察者模式 十三.责任链模式 十四.代理模式 十五.桥接模式 十六.组合模式 十七.命令…

openGauss数据库PostGIS 安装与使用

目录 概述 1.PostGIS 安装 1.1 GCC-7.3编译器安装 1.2PostGIS依赖库安装 1.3.安装Postgis 2.使用Extension 2.1创建PostGIS Extension 2.2使用Extension 2.3删除Extension 概述 PostGIS Extension是PostgreSQL的空间数据库扩展,提供如下空间信息服务功能&…

SpringBoot+VUE前后端分离项目学习笔记 - 【21 权限菜单 中】

1 新建了sys_dict表以及相应Dict类保存菜单menu的icon数据 2 新建了sys_role_menu表以及相应RoleMenu类保存前端Role页面传来的角色菜单ID的绑定关系 3 在MenuController里增加获取Dict里icon的方法 提供前端菜单页面显示 4 在RoleController增加Post接口,获取前台传…

66页3万字医疗行业大数据治理解决方案

【版权声明】本资料来源网络,知识分享,仅供个人学习,请勿商用。【侵删致歉】如有侵权请联系小编,将在收到信息后第一时间删除!完整资料领取见文末,部分资料内容: 目 录 1. 1、医疗行业大数据管…

分享116个PHP源码,总有一款适合您

PHP源码 分享116个PHP源码,总有一款适合您 116个PHP源码链接:https://pan.baidu.com/s/1dsupZiZbKqvHPmlpIAgWqA?pwdg52q 提取码:g52q import os import shutil import time from time import sleepimport requests from bs4 import Bea…

C++11静态断言static_assert

C11静态断言static_assert一、运行时断言二、静态断言的需求三、静态断言四、单参数版本的静态断言一、运行时断言 断言(assertion)是一种编程中常用的手段。在通常情况下,断言就是将一个返回值总是需要为真的判别式放在语句中,用…

Oracle No-Fee Terms and Conditions (NFTC)到底有啥条款?

1995年Sun微系统公司推出Java至今已有28年的历史,由于厂商持续升级优化,使用场景广阔,生态完善,Java目前仍然保持着非常旺盛的生命力。 付费许可 2019年java更新了许可政策 https://www.oracle.com/java/technologies/javase/ja…

【一文速通】机器学习样本不均衡/数据分布不同怎么办?

样本不均衡是什么意思样本(类别)样本不平衡(class-imbalance)指的是分类任务中不同类别的训练样例数目差别很大的情况,一般地,样本类别比例(Imbalance Ratio)(多数类vs少…

antd中Tree组件使用方法个人笔记

一、前言 最近在自己自学前端&#xff0c;不清楚学习路线&#xff0c;只能盯着公司的前端项目硬看。 公司的前端项目是react框架&#xff0c;Ant Design Pro。 之前刚把router.config.js的逻辑理顺&#xff0c;目前准备开发个简单的前端页面。 在此总结下antd中<Tree>…

【算法刷题 DAY04】剑指offer树3和队列与栈总结

JZ36 二叉搜索树与双向链表 描述 输入一棵二叉搜索树&#xff0c;将该二叉搜索树转换成一个排序的双向链表。如下图所示 注意: 1.要求不能创建任何新的结点&#xff0c;只能调整树中结点指针的指向。当转化完成以后&#xff0c;树中节点的左指针需要指向前驱&#xff0c;树中…

虹科新闻 | 虹科与weeve正式建立合作伙伴关系

近日&#xff0c;虹科与weeve正式建立合作伙伴关系&#xff0c;双方就工业应用自动化领域进行深入的交流与合作&#xff0c;未来将共同致力于为中国市场提供完整的物联网边缘服务解决方案&#xff0c;解决中国客户的物联网挑战。 虹科与weeve都表示十分期待这次的合作。“虹科…

day36【代码随想录】贪心算法之根据身高重建队列、用最少数量的箭引爆气球、无重叠区间

文章目录前言一、根据身高重建队列&#xff08;力扣406&#xff09;二、用最少数量的箭引爆气球&#xff08;力扣452&#xff09;三、无重叠区间&#xff08;力扣435&#xff09;前言 1、根据身高重建队列 2、用最少数量的箭引爆气球 3、无重叠区间 一、根据身高重建队列&…

魔改插线板,让电视控制周边设备开关机

一.我的需求 本人是一个极简主义风格的人&#xff0c;自从用了N1盒子刷了coreELEC 系统后&#xff0c;就不断的进行折腾&#xff0c;跟大家说下我的心路历程。 1.我家很少看电视&#xff0c;不想因为偶尔开一次电视就每个月交24块钱&#xff0c;所以把广电的机顶盒停掉了。 2.电…

TextView

1.简介 向用户显示文本的用户界面元素。 2.常见使用 2.1 设置文本内容 //xml 硬编码 <TextView android:text"文本"/> //xml 推荐放在string.xml,为了国际化考虑 <TextView android:text"string/app_name"/> //kotlin tv.text getStr…

零基础学员的shell脚本的写作思路详解

前言 这两天一直再批改学员的脚本作业&#xff0c;大多数学员写的很好&#xff0c;有的学员写的不太好。 还有一些还没有入门到学员不知道脚本该咋写。 不知道脚本怎么写的学员&#xff0c;绝大多数犯了一个错误&#xff1a;一上来就把脚本想的太复杂了。 我们今天单独聊聊这…

以研究用途搭建OpenStreetMap Virtualbox服务器

又到了新年伊始&#xff0c;下载OpenStreetMap全球数据的时候了。结果惊奇的发现&#xff0c;主站已经无法打开。仔细了解了原委&#xff0c;表示理解。好在PBF数据依旧可以获取&#xff0c;只是瓦片服务已经关停。 1.OpenStreetMap的主要问题 OpenStreetMap之所以被Blocked&…

力扣刷题记录——459.重复的字符串、461. 汉明距离、476. 数字的补数

本专栏主要记录力扣的刷题记录&#xff0c;备战蓝桥杯&#xff0c;供复盘和优化算法使用&#xff0c;也希望给大家带来帮助&#xff0c;博主是算法小白&#xff0c;希望各位大佬不要见笑&#xff0c;今天要分享的是——《459.重复的字符串、461. 汉明距离、476. 数字的补数》。…

Mysql数据库中的表

创建表 和之前的创建库差不多&#xff0c;需要多指定一个engine&#xff08;不写默认INNODB&#xff09;这个后面说 字符集还有校对规则不指定的话和库的保持一致 案例 图形化创建就不说了&#xff0c;主要就指令 # 演示关于创建表的操作 # 在db02创建表USER包含id-整形 name…

(9)go-micro微服务Redis配置

文章目录一 go-redis介绍二 go-redis安装三 redis初始化连接四 存储mail邮件五 存储token六 最后一 go-redis介绍 Redis&#xff08;Remote Dictionary Server )&#xff0c;即远程字典服务&#xff0c;是一个开源的、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库…