计算机视觉——day95 PANet:基于样本原型对齐的Few-Shot图像语义分割

news2025/1/10 23:58:52

PANet:基于样本原型对齐的Few-Shot图像语义分割

  • 1. Introduction
  • 2. Related work
    • Few-shot segmentation
  • 3. Method
    • 3.1. Problem setting
    • 3.2. Method overview
    • 3.3. Prototype learning(原型学习)
    • 3.4. 非参数度量学习
    • 3.5. 原型对准正则化(PAR)
  • 4. Experiments
  • 5. Conclusion

在本文中,我们从度量学习的角度来解决具有挑战性的少镜头分割问题,并提出PANet,一个新的原型对准网络,以更好地利用支持集的信息。通过非参数度量学习,PANet提供了高质量的原型,这些原型既能代表每个语义类,又能区分不同的语义类。

1. Introduction

image-20230523130211296我们开发了一个原型对准网络(PANet)来处理少镜头分割,如图1所示。PANet首先通过共享的特征提取器将不同的前景对象和背景嵌入到不同的原型中。这样,每一个学习到的原型都是对应类的代表,同时又与其他类有足够的区别。然后,通过引用最接近其嵌入表示的类特定原型来标记查询图像的每个像素.

提出的PANet的结构设计有几个优点。首先,它没有引入额外的可学习参数,因此不容易出现过拟合。其次,在PANet中,原型嵌入和预测是在计算的特征图上进行的,因此分割不需要额外的通过网络。此外,由于正则化只在训练中进行,推理的计算成本不会增加。

2. Related work

Few-shot segmentation

Shaban等人首先提出了一种利用条件分支从支持集生成一组参数θ的少镜头分割模型,然后利用该模型对查询集的分割过程进行调优。Rakelly等人将提取的支持特征与查询特征串联起来,并使用解码器生成分割结果。Zhang et al.使用蒙面平均池来更好地从支持集中提取前景/背景信息。Hu等人的研究了网络的多个阶段的引导。这些方法通常采用参数化模块,将从支持集中提取的信息进行融合并生成分割。

相比之下,我们的模型设计更简单,更接近于原型网络。此外,我们采用晚期融合结合标注掩码,更容易推广到标注稀疏或更新的情况。

3. Method

3.1. Problem setting

3.2. Method overview

与现有的少镜头分割方法将提取的支持特征与查询特征融合,以参数化的方式生成分割结果不同,我们提出的模型旨在学习并对齐嵌入空间中每个语义类的紧凑、健壮的原型表示。然后通过非参数度量学习在嵌入空间内进行分割。image-20230523131105545如图2所示,我们的模型学习进行如下分割。对于每一段,它首先通过共享的骨干网将支持和查询图像嵌入到深层特征中。然后应用掩码平均池从支持集中获取原型,如3.3节所述。通过将每个像素标记为最近原型的类来执行查询图像的分割。在学习过程中,将在3.5节中引入一种新的原型对准正则化(PAR),以鼓励模型学习一致的嵌入原型,以支持和查询。

我们采用VGG-16网络作为特征提取器,遵循约定。保留VGG-16中前5个卷积块进行特征提取,去掉其他层。maxpool4层的步幅设置为1,以保持较大的空间分辨率。为了增加接收域,将conv5块中的卷积替换为膨胀卷积,膨胀集为2。由于提出的PAR没有引入额外的可学习参数,我们的网络经过端到端训练来优化vgg -16的权值,以学习一致的嵌入空间。

3.3. Prototype learning(原型学习)

我们的模型在原型网络的基础上,学习了包括背景在内的每个语义类的代表性和良好分离的原型表示。在本研究中,我们采用后期融合策略,因为它保持了共享特征提取器输入的一致性。

具体来说,给定支持集Si = {(Ic,k,Mc,k)},设Fc,k为网络对图像Ic,k输出的特征映射。这里c索引类,k =1,…,K对支持图像进行索引。类c的原型是通过屏蔽平均池来计算的:image-20230523131634685

其中(x, y)索引空间位置,1(·)是指示函数,如果参数为真,则输出值为1,否则输出值为0。此外,还计算了背景的原型:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oIGXOoto-1684820799451)(null)]

上述原型通过非参数度量学习端到端优化,如下所述。

3.4. 非参数度量学习

通过度量学习计算查询图像的概率映射M ~ q后,我们计算分割损失Lseg如下:image-20230523131817558

其中Mq为查询图像的地面真值分割掩模, N为空间位置总数。优化上述损失将为每个类派生出合适的原型。

3.5. 原型对准正则化(PAR)

image-20230523134435456图二,在block (b)中,提出的PAR通过执行查询到支持的少镜头分割和计算损失LPAR来对齐支持和查询的原型。GT为ground truth segmentation mask。

image-20230523134511915PANet在少镜头分割上的训练和测试过程在算法1中进行了总结。

4. Experiments

image-20230523134535458

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rWcMJxDo-1684820799574)(null)]

5. Conclusion

我们提出了一种基于度量学习的多镜头分割算法(PANet)。PANet能够从支持集中提取鲁棒原型,并使用非参数距离计算进行分割。通过提出的PAR,我们的模型可以进一步利用支持信息来辅助训练。在没有任何解码器结构或后处理步骤的情况下,我们的PANet比以前的工作表现要好得多。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/558701.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL高级 之 explain执行计划详解

使用explain关键字可以模拟优化器执行SQL查询语句,从而知道MySQL是如何处理你的SQL语句的,分析你的查询语句或是表结构的性能瓶颈。 explain执行计划包含的信息 其中最重要的字段为:id、type、key、rows、Extra 各字段详解 id select查询的序…

前端安全和防护:如何保护网站和用户信息的安全

第一章:引言 在当今数字化时代,随着互联网的飞速发展,网站已成为人们获取信息和进行交流的主要渠道。然而,随之而来的是对网站安全的日益关注。作为前端开发者和网站管理员,我们有责任确保用户的信息和网站的安全。本…

可分析表情和情绪的轻量化眼镜:Emteq OCOsense解析

近年来,越来越多VR头显开始尝试结合眼球追踪、手势追踪等生物识别技术,甚至在一些VR社交场景,也在探索将Avatar与面部识别功能结合。可以想象,未来生物识别与AR/VR等穿戴技术的关系将越来越紧密,尽管现阶段相关硬件在体…

Jenkins安装插件教程 牢记 Jenkis安装插件(plugin)的两种方法

目录 jenkins在线安装组件(plugin) jenkins离线安装组件(plugin) 前言:在jenkins学习使用或使用的过程中,由于网络的问题,在选择安装插件的时候,会出现某些插件安装失败。这是需要…

Word控件Spire.Doc 【列表】教程:在 Word 文档中插入列表

Spire.Doc for .NET是一款专门对 Word 文档进行操作的 .NET 类库。在于帮助开发人员无需安装 Microsoft Word情况下,轻松快捷高效地创建、编辑、转换和打印 Microsoft Word 文档。拥有近10年专业开发经验Spire系列办公文档开发工具,专注于创建、编辑、转…

【MaxCompute】基于Package跨项目访问资源实践

背景 目前随着公司业务的不断扩展,各个业务线的数据也越来越多,如果所有数据都集中管理比较错综复杂。MaxCompute的跨项目访问资源比较适合这样的场景。每个业务线创建对应的project,自行管理数据。如果有需要访问其他业务线数据的诉求&…

python3 爬虫相关学习6:html 和 css 简要回顾

因为要学爬虫,需要了解下html内容,我之前大概看过,这算是回顾下 以下html简单回顾内容,跟着这个地址的教程看了一遍,感谢 https://www.w3school.com.cn/html/html_jianjie.asp 下面是笔记 目录 1 html 2 常用标签…

文件缓冲区概念和磁盘的存储原理以及软硬链接

目录 缓冲区 缓冲区执行概念 C语言缓冲区存在于FILE结构体中 用户缓冲区刷新到OS缓冲区的策略 发生重定向 redir未重定向。 redir重定向。 磁盘的存储原理 细讲: Inode table Date block Inode bitmap Block bitmap Group Descriptor Table super Block 在目录…

脑机接口科普0020——是否鸡娃

本文禁止转载!!!! 现在有很多人开始给小孩早教,鸡娃,幼儿园就开始学英语,小学就开始学初中的内容,初中就开始学高中的内容。高中后开始拼命的做卷子,准备考大学,考完大学放纵。大学毕业后失业。 关于是否…

Matlab进阶绘图第21期—三角方块热图

三角方块热图,顾名思义,就是仅保留方块热图数据矩阵的上三角或下三角部分。 三角方块热图简单明了,通过不同颜色、不同大小的圆形表示数据的大小,可以更加直观地对矩阵数据进行可视化表达。 本文使用自制的trisquareheatmap小工…

ERROR: slow sql .. millis.

问题现象 运行过程中,查询页面报错,如下图: 404 NOT FOUND 排查日志,如下图: 查看数据库: 解决办法 在关联字段上添加索引,查询正常。

Linkage Mapper之Pinchpoint Mapper功能解析(含实际案例分析)

✅创作者:陈书予 🎉个人主页:陈书予的个人主页 🍁陈书予的个人社区,欢迎你的加入: 陈书予的社区 🌟专栏地址: Linkage Mapper解密数字世界链接 白尾兔(Lepus townsendii)的Pinchpoint映射器输出和栖息地浓集区效果图: 图片来源地址 <

【CANN训练营0基础赢满分秘籍】应用开发深入讲解→DVPP

1 数据预处理概述 1.1 典型使用场景 受网络结构和训练方式等因素的影响&#xff0c;绝大多数神经网络模型对输入数据都有格式上的限制。在计算视觉领域&#xff0c;这个限制大多体现在图像的尺寸、色域、归一化参数等。如果源图或视频的尺寸、格式等与网络模型的要求不—致时…

生命游戏的简单实现(c++代码)

今天上数模课&#xff0c;本来一如既往准备自习&#xff0c;但是&#xff0c;生命游戏——从前就在“人工智能”的书上看到过&#xff0c;今天一讲&#xff0c;发现如此简单。课上30min实现了一份简单的生命游戏代码/ 目录 前言 一、生命游戏 生命游戏的基本设置 生命游戏的规则…

WIN提权

win提权分为web和本地提权 web提权就是getshell后&#xff0c;权限是网站权限&#xff0c;要进行提权 本地提权是本地用户进行提权 本地用户的权限大于网站权限&#xff0c;所以本地提权成功概率比web提权概率大 因为我们做渗透测试&#xff0c;一般都是从网站入侵。所以大…

提高电商团队效率:必备的协作工具盘点

随着电商行业的快速发展&#xff0c;电商团队的规模和任务不断增加。然而&#xff0c;文件管理和文件协作方面的问题也随之出现。 电商行业可能存在的问题&#xff1a; 文件传输效率低下&#xff1a;电商团队需要频繁地共享和传输大量的文件&#xff0c;这会导致文件传输效率低…

快速上手,使用关键字驱动测试框架作为Web应用程序的自动化测试武器

目录 前言&#xff1a; 一、预备知识 二、关键字驱动测试框架 三、关键字驱动测试脚本 四、总结 前言&#xff1a; 自动化测试是软件测试中的重要环节之一&#xff0c;它可以帮助开发人员提高测试效率&#xff0c;节省时间和人力成本。随着互联网的发展&#xff0c;Web应…

互联网医院牌照申请|互联网医院申请流程

互联网医院牌照申请需要哪些资料和条件 随着互联网医疗的发展&#xff0c;越来越多的医疗机构开始申请互联网医院牌照。那么&#xff0c;互联网医院牌照的申请需要哪些资料和条件呢&#xff1f;以下是相关介绍。 申请资料 一、法定代表人身份证、执业医师资格证明 二、机构…

分布式事务解决方案Stata 整合 Spring Cloud + Nacos

1. 简介 Seata 是一款开源的分布式事务解决方案&#xff0c;致力于提供高性能和简单易用的分布式事务服务。Seata 将为用户提供了 AT、TCC、SAGA 和 XA 事务模式&#xff0c;为用户打造一站式的分布式解决方案。 2. Docker 安装 Seata 2.1 下载镜像 docker pull seataio/se…

js 如何定义类和引用

前言 JS是弱定义语言&#xff0c;最适合用于前端的数据处理。因为前端是数据的终点&#xff0c;用完就抛弃&#xff0c;所以前端一般都只是处理简单的业务逻辑。 但是有时候我们希望前端能进行一些复杂的处理&#xff0c;比如SqlLite本地缓存数据库&#xff0c;或者前端处理一…