小样本语义分割(HDMNet网络)

news2025/1/17 4:13:50

小样本语义分割(HDMNet网络)

  • 摘要
  • HDMNet 解决的问题
  • 本文贡献
  • HDMNet 模型
    • 1. 特征提取
    • 2. 解耦下采样和匹配模块(分层匹配结构)
      • 2.1. 粗粒度到细粒度解码器
      • 2.2 . 自注意力模块
      • 2.3. 相关性模块
    • 3. 损失函数
  • 总结

摘要

小样本语义分割(FSS)的目的是形成类不可知的模型分割看不见的类,只有少数的注释。现有的基于语义特征和原型表示的分割方法存在分割粒度过粗和训练集过拟合的问题。

本文基于Transformer架构设计了分层解耦匹配网络(HDMNet)挖掘像素级支持度相关。自注意模块用于辅助建立层次密集特征,作为完成查询和支持特征之间的级联匹配的手段。此外,我们提出了一个匹配模块,以减少训练集过拟合和引入相关蒸馏利用语义对应从粗分辨率,以促进细粒度分割。

该方法在实验中取得了较好的效果。我们在COCO-20 i数据集上实现了50.0%的mIoU,在五次分割上分别实现了56.0%。

HDMNet 解决的问题

大多数现有的语义分割深度网络无法扩展到以前看不见的类,并且依赖于注释数据集来实现令人满意的性能。数据收集和注释花费大量时间和资源,特别是对于密集预测任务。

小样本语义分割(FSS)将输入分为查询和支持集。它根据来自元学习或特征匹配的支持注释的语义线索分割查询目标。以往的方法仍然存在粗分割粒度和训练集过拟合问题。

如下图所示,“people”是在训练过程中被充分证明的基类。但是该模型仍然倾向于对“人”产生高激活,而不是对与支持样本相关的新类产生高激活,从而产生较差的结果。

在这里插入图片描述
如下图所示。基于原型的方法和自适应分类器方法旨在区分具有全局类特征的不同类别 。在密集预测任务中,查询对象和支持对象之间的对应关系是一个具有挑战性的问题.相比之下,基于匹配的方法挖掘像素级相关性,但可能严重依赖于特定类别的特征,并导致过拟合和弱泛化。

在这里插入图片描述
不同的小样本分割框架的图示。(a)基于原型的方法 (b) 自适应分类器方法。© 与Transformer架构相匹配的特性。(d) 我们的分层解耦匹配网络(HDMNet)与相关图提取。

为了解决这些问题,我们提出了分层解耦匹配网络(HDMNet)与相关映射蒸馏更好地挖掘像素级支持对应。HDMNet扩展了Transformer架构以构建特征金字塔并执行密集匹配。

以前的基于transformer的方法采用自注意层来解析特征,然后将查询和支持特征馈送到交叉注意层进行模式匹配,如上图(c)所示。这个过程将自我和交叉注意层多次叠加,混合了分离的嵌入特征,并意外地导致不必要的信息干扰。

本文贡献

本文将特征分析和匹配过程进行了分层解耦,设计了一种基于相关和提取的匹配模块。 这种关联机制计算像素级对应关系,而不直接依赖于特定于语义的特征,从而缓解了训练集过拟合问题。此外,我们引入了相关图蒸馏,鼓励浅层近似更深层的语义相关性,使前者更了解高质量预测的上下文。

  1. 扩展了Transformer的层次分析和特征匹配的小样本语义分割,与一个新的匹配模块减少过拟合。
  2. 提出了多层次多尺度结构下利用软对应的关联图提取方法。

HDMNet 模型

模型被训练为利用支持集提供的语义线索来定位查询图像上的感兴趣区域。该方法和基于支持原型的方法不同,该方法通过适当地利用查询集和支持集之间的像素级特征匹配来产生对查询图像的预测。
在这里插入图片描述

1. 特征提取

通过预训练ResNet-50来提取查询图像、支持图像、支持图像掩码的特征。

2. 解耦下采样和匹配模块(分层匹配结构)

在先前的基于匹配的方法与Transformer架构中,自注意和交叉注意层被交织多次,分别用于特征解析和模式匹配,如下图所示。我们注意到,交叉注意层实现了查询和支持特征之间的相互消息交换。查询样本的背景中的对象也可以与支持样本中的目标相关。 因此,它们可以用支持信息来丰富。利用这一发现,可以经由多个堆叠的交叉注意和自注意层将必要的支持信息累积到干扰物,使得解码器更难在它们之间进行区分

为了保证序列特征的纯度和模式匹配的一致性,提出了一种新的分层匹配结构,将下采样和匹配过程解耦,只采用独立的自注意力层来构建分层特征。

在这里插入图片描述
解耦下采样和匹配

首先,从主干提取的查询和支持特征被独立地发送到仅具有自关注层的顺序Transformer块,以充分利用支持和查询特征内的自相关性。

在块之间插入下采样层以建立可以帮助挖掘尺度间相关性的分层结构。然后,收集L个阶段的中间特征图,即 F l = 1 q F^{q}_{l=1} Fl=1q F l = 1 s F^{s}_{l=1} Fl=1s。假设 F l = 1 q F^{q}_{l=1} Fl=1q F l = 1 s F^{s}_{l=1} Fl=1s具有相同的空间大小。 l l l 是阶段索引,最后, F l = 1 q F^{q}_{l=1} Fl=1q F l = 1 s F^{s}_{l=1} Fl=1s用于产生相关性

和丰富的查询特征在这里插入图片描述

2.1. 粗粒度到细粒度解码器

HDMNet结合了一个简单的解码器,以粗到细的方式预测查询图像的最终掩模,该掩模具有分层丰富的特征
在这里插入图片描述具体地,粗粒度特征 X l + 1 ′ X^{′}_{l+1} Xl+1被放大以具有与细粒度特征 X l ′ X^{′}_ l Xl相同的空间大小。然后采用MLP层将它们与剩余连接融合

在这里插入图片描述
其中,l表示分层阶段,并且在这里插入图片描述
R H × W R^{H×W} RH×W R h l × w l R^{h_l×w_l} Rhl×wl表示将输入大小拟合到输出大小的双线性插值调整大小函数。最后,我们对 X 1 ′ X^{′}_1 X1应用一个具有1 × 1内核大小的卷积层,然后是一个双线性上采样层,以预测查询掩码 M o u t M^{out} Mout R H × W R^{H×W} RH×W

2.2 . 自注意力模块

基于现有的匹配方法直接采用交叉注意作为匹配模块,分别从查询集和支持集生成查询和关键特征。然而,我们观察到它导致过度拟合和弱泛化。该问题可能归因于模型更可能依赖于类特定特征来优化训练目标的事实。

遵循一般形式,Transformer块的关键元素是点积注意力层,公式为
在这里插入图片描述
HDMNet包含多个自注意力块(Self-Attn Block),每个块都会对特征进行层次化处理。自注意力机制用于捕捉图像内不同位置的长距离依赖关系,从而生成丰富的特征表示。不同层的特征会有不同的分辨率和通道数,用来表示不同层次的语义信息(如粗略轮廓和细节信息)。

2.3. 相关性模块

相关性计算(Correlation):HDMNet在每一层次的特征之间计算支持图像和查询图像的相关性。相关性计算能够捕捉查询图像和支持图像在每一层特征上的匹配关系。

相关性蒸馏(Correlation Distillation):通过多层次的相关性计算,逐步将粗分辨率的特征匹配信息传递到细分辨率层次。这样可以通过粗略到精细的过程,更准确地定位目标对象。

细节

  1. Flatten和Masked Flatten:支持特征和查询特征分别经过Flatten操作,支持特征会应用掩码(Mask)以保证只保留目标区域的特征信息。
  2. Cosine Similarity(余弦相似度):用于计算支持和查询特征的相似度,生成一个相似度矩阵。
  3. Scale和Inverse SoftMax:对相似度矩阵进行缩放和反向SoftMax操作,以突出重要的相关区域。
  4. MatMul:矩阵乘法,结合了支持特征和查询特征的信息。
  5. Concat和Linear:对结果进行拼接并通过线性层,以生成最终的分割表示。

在这里插入图片描述

3. 损失函数

HDMNet采用了 KL 散度损失,KL散度损失(KL Divergence Loss from Distillation):用于衡量不同分辨率相关性信息之间的一致性,从而使模型能够在各个层次保持一致的分割结果。这有助于减少训练集过拟合,提高模型对未见类别的泛化能力。

总结

HDMNet通过层次化特征和解耦的相关性计算模块,实现了少样本条件下的高精度语义分割。该网络在各层次上计算支持和查询图像的相关性,利用相关性蒸馏和KL散度损失减少过拟合,从而提升少样本分割任务的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2231829.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

layui 自定义验证单选框必填

对于输入框类型必填验证,只需要在 input 输入框加入 lay-verify "required" 即可。但对于单选按钮这种特殊的该怎么办呢?layui 为我们提供了自定义验证。 1. 在单选按钮上添加自定义验证的名称 2. 验证规则如下 // 单选框自定义验证form.ve…

植物神经紊乱别担心,这些运动让你重拾健康与平衡✨

在这个快节奏、高压力的时代,植物神经紊乱似乎已经成为现代人的“隐形杀手”。焦虑、失眠、心跳过速、呼吸不规律……这些症状不仅影响了我们的日常生活,更在无声中侵蚀着我们的身心健康。但别担心,通过科学合理的运动,我们可以有…

第1篇 引言

一、AIGC概念 1、AIGC定义 AIGC,即生成式人工智能(Artificial Intelligence Generated Content),是指利用人工智能技术自动生成或辅助创作内容的过程和结果。 简单来说:过去,写文章、画张图、唱首歌、弄个…

2. 从服务器的主接口入手

Webserver 的主函数 main.cpp,完成了哪些功能? #include "config.h"int main(int argc, char *argv[]) {string user "";string passwd "";string databasename "";Config config;config.parse_arg(argc, a…

向量数据库 PieCloudVector 进阶系列丨打造音乐推荐系统

在上一篇内容中,我们介绍了 PieCloudVector 如何助力构建基于图片数据的商品推荐系统,详细描述从数据集的准备到数据向量化处理,再到向量数据的存储和相似性搜索的完整流程。本文将进一步探讨如何将 PieCloudVector 应用于音频数据&#xff0…

python之数据结构与算法(数据结构篇)-- 栈

一、栈的概念 这里我们不去了解教科书上面的“教条概念”,其实“栈”的概念和古代的时候的“客栈”是有异曲同工之妙的。 在这里我们把客栈看成“栈”,旅客看作“栈元素” 1.当旅客进来住店时,叫做“入栈”; 2.当旅客退房时&#…

Java调用chatgpt

目前openai的chatgpt在国内使用有一定难度,不过国内的大模型在大部分情况下已经不弱于chatgpt,而且还更便宜,又能解决国内最敏感的内容安全问题。本文后续以spring ai调用国内chatgpt厂商实现为例,讲解怎么构建一个java调用chatgp…

web前端多媒体标签设置(图片,视频,音频)以及图片热区(usemap)的设置

多媒体标签运用 在HTML中有以下常见多媒体标签&#xff1a; <img> &#xff08;图像标签&#xff09; - 作用&#xff1a;用于在网页中嵌入图像。 - 示例&#xff1a; <img src"image.jpg" alt"这是一张图片"> 。其中 src 属性指定图像的…

安卓开发之数据库的创建与删除

目录 前言&#xff1a;基础夯实&#xff1a;数据库的创建数据库的删除注意事项 效果展示&#xff1a;遇到问题&#xff1a;如何在虚拟机里面找到这个文件首先&#xff0c;找到虚拟机文件的位置其次&#xff0c;找到数据库文件的位置 核心代码&#xff1a; 前言&#xff1a; 安…

基于SSM+微信小程序的订餐管理系统(点餐2)

&#x1f449;文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 基于SSM微信小程序的订餐管理系统实现了管理员和用户。管理端实现了 首页、个人中心、用户管理、菜品分类管理、菜品信息管理、订单信息管理、配送信息管理、菜品评价管理、订单投诉管理、…

《AI在企业战略中的关键地位:以微软和阿里为例》

内容概要 在当今商业环境中&#xff0c;人工智能&#xff08;AI&#xff09;的影响力如滔滔洪水&#xff0c;愈演愈烈。文章将揭示AI在企业战略中的崛起&#xff0c;尤其以微软和阿里巴巴为代表的企业&#xff0c;这两家科技巨头通过不同方式&#xff0c;将智能技术融入其核心…

华为荣耀曲面屏手机下面空白部分设置颜色的方法

荣耀部分机型下面有一块空白区域&#xff0c;如下图红框部分 设置这部分的颜色需要在themes.xml里面设置navigationBarColor属性 <item name"android:navigationBarColor">android:color/white</item>

【ESP32】ESP-IDF开发 | I2C从机接收i2c_slave_receive函数的BUG导致程序崩溃解决(idf-v5.3.1版本)

1. 问题 在调试I2C外设的demo时&#xff0c;按照官方文档的描述调用相关API&#xff0c;烧录程序后发现程序会不断崩溃&#xff0c;系统log如下。 初步分析log&#xff0c;原因是访问到了不存在的地址。一开始我以为是自己的代码问题&#xff0c;反反复复改了几次都会出现同样的…

企业数字化转型实施中的挑战与解决方案:架构引领的战略路径

在企业推动数字化转型的过程中&#xff0c;通常会面临复杂的挑战。随着技术的不断演进和业务环境的变化&#xff0c;企业架构&#xff08;Enterprise Architecture, EA&#xff09;成为帮助企业应对这些挑战的关键工具。通过提供一个全面的战略蓝图&#xff0c;EA使企业能够在保…

桑基图在医学数据分析中的更复杂应用示例

桑基图&#xff08;Sankey Diagram&#xff09;能够有效地展示复杂的流动关系&#xff0c;特别适合用于医学数据分析中的多种转归和治疗路径的可视化。接下来&#xff0c;我们将构建一个稍微复杂的示例&#xff0c;展示不同疾病患者在治疗过程中的流动&#xff0c;以及他们的治…

[SICTF Round4] PWN

这PWN题似乎是给我出的&#xff0c;4个一血1个2血。密码又过于简单。逆向太难了又不大会。 Stack fengshui main可以溢出覆盖rbpret所以它每一步都需要移栈。 可用的ROP里没有pop rdi,在4004c0里有错位的01 5d c3 &#xff1a;add DWORD PTR [rbp-0x3d], ebx 并且有对应的p…

消息中间件类型介绍

ActiveMQ&#xff1a; ActiveMQ可是个老将了&#xff0c;它功能全面、稳定可靠&#xff0c;还支持多种协议和编程语言。如果你需要一个兼容性好、易于集成的消息中间件&#xff0c;ActiveMQ可是个不错的选择。 RabbitMQ&#xff1a; RabbitMQ以其简单易用和高性能著称。它支持丰…

【设计模式系列】组合模式(十二)

目录 一、什么是组合模式 二、组合模式的角色 三、组合模式的典型应用 四、组合模式在Mybatis SqlNode中的应用 4.1 XML映射文件案例 4.2 Java代码使用案例 一、什么是组合模式 组合模式&#xff08;Composite Pattern&#xff09;是一种结构型设计模式&#xff0c;其核…

Ghidra无头模式(自动化批处理执行重复性任务)

Ghidra无头模式&#xff08;自动化批处理执行重复性任务&#xff09; 与Ghidra GUI探索单个项目中的单个文件不同&#xff0c;Ghidra headless analyzer&#xff08;Ghidra无头分析器&#xff09;更加适合批处理和用脚本控制Ghidra。 &#xff08;一&#xff09;启动analyzeHea…

【大众点评】店铺评论 加密参数生成逆向分析

点击好评 https://www.dianping.com/ajax/json/shopDynamic/allReview 分析参数_token 直接搜_token 共17个&#xff0c;优先看和请求相关的 给第一个_token打上断点&#xff0c;然后切换评论&#xff0c;就直接断住了 n h(i, e.sendData) _token: n 现在给它打上断点&am…