论文阅读——FECANet:应用特征增强的上下文感知小样本语义分割网络

news2024/10/2 3:21:37

代码:NUST-Machine-Intelligence-Laboratory/FECANET (github.com)
文章地址:地址
文章名称:FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced Context-Aware Network

摘要

Few-shot semantic segmentation 是学习在查询图像中定位新类的每个像素的任务,只有几个带注释的支持图像。因为典型的基于原型的方法无法学习细粒度的对应关系,当前基于相关性的方法构建成对特征相关性以建立多对多匹配。 然而,现有方法仍然遭受朴素关联中包含的噪声和关联中缺乏上下文语义信息的问题。 为了缓解上述这些问题,我们提出了一个特征增强的上下文感知网络(FECANet)。 具体来说,提出了一个特征增强模块来抑制由类间局部相似性引起的匹配噪声,并增强朴素相关中的类内相关性。 此外,我们提出了一种新颖的相关重建模块,该模块对前景和背景之间的额外对应关系以及多尺度上下文语义特征进行编码,显着促进编码器捕获可靠的匹配模式。 在 PASCAL-5i 和 COCO-20i 数据集上的实验表明,我们提出的 FECANet 与以前的最新技术相比有了显着的改进,证明了它的有效性。

引言

参考文章的不足

本文是对HSNet的改进。

特征细节的缺失阻碍了原型向量与查询图像中的目标对象进行细粒度匹配。为此,HSNet提出一种多对多对应模型,旨在通过分析4D相关空间中的模式关系来学习视觉对应关系。它构造多对多的相关张量,并使用中心枢纽4D卷积进行处理。

HSNet的不足:

  • 主要缺点是HSNet直接使用来自主干网络的特征生成的初始相关性作为编码器输入。朴素相关性可能包含许多由类间局部相似性引起的噪声。这些噪声会误导编码器学习不恰当的关系匹配并将背景实例分割为目标类的对象。同一类的区域由于类内多样性会衍生出低相关性,从而导致对象发现不完整。
  • 另一个缺点是超相关性缺乏上下文语义信息,阻碍了编码器学习上级关系匹配。而且,其构建的稠密相关性过滤了支持图像中的背景信息,导致前景与背景之间许多潜在的对应关系被遗漏。

本文的改进

我们提出了一个特征增强模块( FEM ),该模块采用了一种新颖的交叉注意力机制促进支持特征和查询特征之间的精确模式匹配。

由于直接利用主干网络得到的特征会导致包含由类内多样性和类间相似性引起的噪声的朴素相关性,我们提出通过抑制不同类之间的局部相似性和增强相同类之间的全局相似性来增强特征表示。我们在查询和支持特征之间交换信息来实现信息交流,这是通过查询(支持)特征与支持(查询)特征的相关性对支持(查询)特征进行加权的方法实现的。

FEM是精心设计的,具有很少的可训练参数,以达到类不可知分割的目的,并保留高泛化能力。

我们注意到,赋予全局上下文的特征对CNN描述符中的类内变化更加鲁棒,这有利于编码器准确地分割目标。因此,我们设计了一个由稠密积分关联和全局上下文关联生成组成的关联重构模块(CRM)。具体来说,我们将背景信息保留在支持特征中,并聚合不同的语义特征以生成包含前景和背景之间对应关系的稠密的整体相关性。在全局上下文关联生成中,我们采用自相似性模块,将局部区域的语义信息编码成向量,生成全局上下文特征图。我们利用多尺度指导模块,在多个尺度上融合全局上下文语义特征,以捕获更多样和复杂的上下文特征。

贡献如下:

  • 我们提出了一个特征增强模块来过滤受类间相似性和类内多样性影响的相关性中的噪声。它在空间和通道维度上交换支持和查询特征之间的信息,以增强特征表示。
  • 我们提出了一个相关性重构模块,该模块编码了前景和背景之间的额外对应关系和多尺度上下文语义特征,显著提高了编码器捕获可靠匹配模式的能力。
  • 在PASCAL - 5i数据集和COCO - 20i数据集上进行了大量实验,并与现有方法进行了比较。

方法

整体框架

在这里插入图片描述
(1)首先利用在ImageNet上预训练的卷积神经网络作为主干,为support image和query image提取丰富的中间特征图集,并将其表示为稠密成对集合

(2)从成对集合中选取3对support-query特征图,用support mask过滤掉support images中的背景信息

(3)每一对support和query特征被输入到提出的特征增强模块(FEM)中,通过support和query image之间的信息交换来增强特征表示。

(4)增强的特征(Esl , Eql)}被传输到提出的相关性重构模块(CRM)中,该模块通过一个新的自相似性模块捕获上下文语义信息,并在每个语义级别上建立support和query特征之间的局部和全局相关性。

(5)应用4D卷积编码器来分析相关性以捕获视觉对应关系,并将它们自下而上地进行融合。

(6)通过对编码器输出进行平均池化操作获取查询表示,并将其传递给residual 2D decoder以获得最终的查询掩码预测。

Feature Enhancement Module

在这里插入图片描述
受非局部块编码更广泛的上下文信息以增强表示能力的启发,我们开发了一个新颖的特征增强模块,通过在query和support特征之间交换信息来增强特征表示。与自注意力机制不同,我们的特征增强模块旨在通过空间层面的信息交流来捕获support特征和query特征之间的cross-image语义相似性和差异性。

我们注意到特征的每个通道图都可以看作是一个语义特定的响应(其实就是卷积的本质),并且不同的语义响应是相互关联的。因此我们设计了一个通道注意力模块来对二次加权的增强特征进行更好的相关性细化。

Cross-image information communication.

(1)首先利用在Fs和Fq上使用卷积操作生成新的特征图K和Q,其中:Q, K ∈ R ^Ck×Hl×Wl;Fs,Fq∈R ^Cl×Hl×Wl

(2)对Q和K的转置进行矩阵相乘得到特征图,并将此计算结果转置得到另一个分支的特征图

(3)我们分别对query分支和support分支应用softmax层计算空间注意力图Aq和As。
在这里插入图片描述
其中Aq ji表示query的第i个位置对support的第j个位置的影响。

(4)跟(1)同时,将Fq和Fs特征输入到同一个卷积层,分别生成两个新的特征图Vq和Vs

(5)在Vq和Aq之间执行矩阵乘法并将结果重塑为Ck × Hl × Wl的形状。support分支跟这个类似。

(6)分别将它们送入两个不同的转换函数层Transq和Transs,生成结果图Pq和Ps。
在这里插入图片描述
其中:Transq和Transq是由卷积构成的不同变换函数层。

具有全局上下文视图的增强特征图可以根据空间注意力图选择性地聚合上下文。相似的语义特征实现了相互增益,从而提高了类内紧凑性和语义一致性。
(1)利用全局池化层将support/query特征聚合为类特定的通道向量。

(2)使用由全连接层和激活函数组成的多层感知器将support/query通道向量映射到一个具有相似关系的通道特征空间。

常用的多层感知器通过利用支持特征和查询特征之间通道图的相互依赖关系来改进特定语义的特征表示。

(3)我们将映射后的通道向量与位置嵌入特征以重新加权的方式相乘,选择性地突出最重要的特征。

(4)我们利用残差连接将输出与原始输入特征结合。
在这里插入图片描述

Correlations Reconstruction Module

在这里插入图片描述
全局上下文特征为基于CNN的描述符的类内变化提供了鲁棒性。

在本模块中,相关性的集合被显式地在局部和全局上重建。

Dense integral correlation

我们从主干网络中选取若干个中间特征构建稠密关联集合,这些特征有细节信息,可以提升编码器学习细粒度对应关系的能力。

我们没有使用对象mask来过滤support特征并保持背景信息的相关性。

我们从骨干网中的一系列中间特征图中选择L对深度特征{(Fql , Fsl)}。我们直接在第l层使用余弦相似度计算与每一对查询和支持特征的相似度

在这里插入图片描述
其中,xq和xs分别表示Fq和Fs特征图的二维空间位置。

最后,我们将具有相同空间大小的4D相似性张量沿通道维度进行拼接来构建相关集合。我们在相关性集合中得到了三种稠密相关性,并将它们划分为三个不同的语义层。

Global context correlation

引入了一种新颖的局部自相似性方法,将局部空间语义特征编码为上下文向量特征,以获得全局上下文特征图。此外,我们引入了多尺度引导结构来捕获更多全局和复杂的上下文特征。

Local self-similarity

思路:计算特定大小的局部近邻区域内每个空间位置的相似性,用于self-similarity生成。

步骤:

(1)为了保证特征图中的边界位置可以包含在局部自相似性计算中,我们对特征图Esq进行大小为(k-1)/2(我们设k为奇数)的补零操作,得到补零后的特征图Esq∈R^C × (H+k-1) × (W+k-1)。Esq为特征对,含有query特征和support特征。

(2)以Esq中的某位置xij为中心,建立一个k*k的局部近邻区域,然后计算该中心和在局部区域中的每个点的点积来生成self-similarity向量ss。

在这里插入图片描述
Multi-scale guidance

问题:由于局部区域的大小限制了上述self-similarity特征图的通道数,难以包含更大范围的上下文语义信息。

思路:利用多尺度自相似性进一步提取上下文语义特征,捕获更复杂的自相似性特征

多尺度相似性可以提供更大的局部感受野和更丰富的上下文语义信息。

(1)用两个连续的卷积层F1和F2细化自相似性输出SS,生成SS1和SS2。

(2)将这些不同尺度的self-similarity特征与上采样操作串联起来,形成多尺度上下文特征图

在这里插入图片描述
(3)计算全局上下文相关性
在这里插入图片描述
其中MSql和MSsl分别表示查询和支持增强特征图Eql和Esl得到的多尺度self-similarity

作为对结果改进最有帮助的部分,我们的全局上下文相关性优化了相关性的构建。它利用赋予全局上下文的特征来生成上下文相关,其中包含了区域之间的对应关系。在CRM中,我们得到的区域到区域和像素到像素的相关性可以有效地促进编码器学习更全面和更深层次的模式匹配关系。

(4)将稠密积分关联Cl(上一个模块得到的)和多尺度全局上下文关联GCl沿通道维度串联起来构造集合

(5)由于相关性的集合具有不同的分辨率大小,文章将它们分别送入三个不同的4D卷积编码器中,分析query和support图像之间不同的语义级别对应关系。

Residual 2D Decoder

由于同一类别内的外观差异,当前支持图像可能仅引导网络分割查询图像中的部分对象。因此,我们构建了一个持续更新的记忆库来存储每个query image的预测图,从而进一步细化2D编码器的输出,为下一次相应的查询图像预测提供粗略的物体位置线索。

(1)对于训练阶段的每个查询图像,我们从内存库中获取对应的查询预测图,并将其与当前编码器输出进行拼接。

(2)对内存库中的初始查询预测图进行补零操作。

(3)然后,将拼接后的特征送入残差卷积模块。残差卷积模块由少数几个3x3和5x5卷积组成,并在每个卷积操作中使用残差连接来融合输入和输出。

(4)将残差卷积模块的输出传递给卷积块,预测一个双通道mask图。

(5)最后,我们将查询图像的当前预测图存储在内存库中,以便下一次进行相应的查询图像预测。

损失函数:

使用交叉熵损失,M是真实的,P是预测的。
在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述

结论

在这项工作中,我们提出了一种新的FECANet网络用于少样本语义分割任务。具体来说,我们提出了特征增强模块,通过在支持特征和查询特征之间交换信息,过滤受局部相似性和类内多样性影响的相关性中的噪声。过滤后的相关性为编码器学习合适的关系匹配提供了很好的指导。为了提高基于CNN的编码器对类内变化的鲁棒性,我们引入了自相似性方法,将全局上下文信息融入到相关性中。此外,在PASCAL - 5i和COCO - 20i数据集上的大量实验证明了所提模型的优越性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/380453.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

4年经验之谈,什么是接口测试?怎样做接口测试?

一、什么是接口?【文末学习资源分享】赶紧嫖!冲!!!! 接口测试主要用于外部系统与系统之间以及内部各个子系统之间的交互点,定义特定的交互点,然后通过这些交互点来,通过…

Nydus 在约苗平台的容器镜像加速实践

文 | 向申 约苗平台运维工程师 关注云原生领域 本文字数 9574阅读时间24分钟 本文是来自向申同学的分享,介绍了其在 K8s 生产环境集群部署 Nydus 的相关实践。 Nydus 是蚂蚁集团,阿里云和字节等共建的开源容器镜像加速项目,是 CNCF Dragon…

Spring Boot 3.0系列【3】基础篇之使用Spring Initializr快速创建项目

有道无术,术尚可求,有术无道,止于术。 本系列Spring Boot版本3.0.3 源码地址:https://gitee.com/pearl-organization/study-spring-boot3 文章目录前言安装JDK 17创建Spring Boot 项目方式1:网页在线生成方式2&#…

PyQGIS开发--自动化地图布局案例

前言创建地图布局是 GIS 作业结束时的一项常见任务。 它用于呈现最终结果的输出,作为与用户交流的一种方式,以便从地图中获取信息、知识或见解。 在包括 QGIS 在内的任何 GIS 软件中制作地图布局都非常容易。 但另一方面,当我们必须生成如此大…

centos7上安装mysql8.0

1、检查一下自己电脑上安装了哪些mysql [rootlocalhost ~]# find / -name mysql 2、把安装的mysql全部删掉 [rootlocalhost ~]# rm -rf /usr/lib64/mysql/ [rootlocalhost ~]# rm -rf /usr/local/mysql/ [rootlocalhost ~]# rm -rf /etc/selinux/targeted/active/modules/100…

《Roller: Fast and Efficient Tensor Compilation for Deep Learning》

《Roller: Fast and Efficient Tensor Compilation for Deep Learning》 用于深度学习 快速高效的张量编译器 作者 微软亚洲研究院以及多伦多大学等多所高校 摘要 当前编译为了产生高效的kernel时,搜索空间大,通常使用机器学习的方法 找到最优的方案…

管理逻辑备数据库(Logical Standby Database)

1. SQL Apply架构概述 SQL Apply使用一组后台进程来应用来自主数据库的更改到逻辑备数据库。 在日志挖掘和应用处理中涉及到的不同的进程和它们的功能如下: 在日志挖掘过程中: 1)READER进程从归档redo日志文件或备redo日志文件中读取redo记…

Apache Airflow Provider Sqoop 模块远程代码执行漏洞

漏洞描述 Apache Airflow 是一个以编程方式管理 workflow 的平台,Sqoop 模块用于在 Hadoop 和结构化数据存储(例如关系数据库)之间高效传输大量数据。 apache-airflow-providers-apache-sqoop 3.1.1 之前版本中,由于 SqoopHook …

【ONE·C || 自定义类型:结构体、段位、枚举、联合】

总言 C语言:自定义类型介绍。 文章目录总言1、结构体1.1、结构体声明1.1.1、基本声明方式1.1.2、特殊的声明:不完全声明1.2、结构体自引用1.2.1、结构体自引用说明1.2.2、typdef对结构体重命名1.3、结构体变量的定义和初始化1.4、结构体变量大小计算&…

VMware虚拟机安装Ubuntu(超详细图文教程)

VMware虚拟机安装Ubuntu(超详细图文教程) 1、Ubuntu下载 Ubuntu下载地址:点这里 注:但官网下载比较慢 也可关注公众号Time木回复: ubuntu22 获取 2、打开VMware VMware安装过程:待更新 2.1 创建新的虚…

5个面向开发人员的顶级报表工具

报表工具对有处理大量数据需求的公司至关重要。实际上,报表可以帮助公司实时访问公司资源,同时能够以可读和调整的格式分析和显示数据。本文为大家推荐五种成熟且强大的报表工具,重点介绍它们的功能和优势。 Stimulsoft Stimulsoft主要用于…

【安装教程】SSH远程连接工具-FinalShell的安装

👉👉👉👉👉👉 【目录在右侧哦~】省时间可以直接跳转到【安装步骤】 👉👉👉👉👉👉👉一、软件介绍(点我查看该软…

【python学习笔记】:环境搭建

Python 环境搭建 本章学习如何在本地搭建Python开发环境。 Python可应用于多平台包括 Linux 和 Mac OS X。 你可以通过终端窗口输入 "python" 命令来查看本地是否已经安装Python以及Python的安装版本。 Unix (Solaris, Linux, FreeBSD, AIX, HP/UX, SunOS, IRIX,…

「TCG 规范解读」PC 平台相关规范(3)

可信计算组织(Ttrusted Computing Group,TCG)是一个非盈利的工业标准组织,它的宗旨是加强在相异计算机平台上的计算环境的安全性。TCG于2003年春成立,并采纳了由可信计算平台联盟(the Trusted Computing Platform Alli…

消息队列原理与实战-学习笔记

消息队列:保存消息的一个容器,本质是个队列,但是需要支持高吞吐、高并发、高可用。 1 前世今生 1.1 业界消息队列对比 Kafka:分布式的、分区的、多副本的日志提交服务,在高吞吐场景下发挥较为出色RocketMQ:低延迟、强一致、高性…

概率论与数理统计期末小题狂练 11-12两套,12-13-1

11-12第一学期A1 略。2 X服从正态分布N(0,1),X^2服从卡方分布。又考查了卡方分布均值和方差公式。一开始如果对本题无从下手,大概是没看出来是什么分布。3 第二小空本身也可以作为一个结论。4 考查切比雪夫不等式&…

王道操作系统课代表 - 考研计算机 第三章 内存管理 究极精华总结笔记

本篇博客是考研期间学习王道课程 传送门 的笔记,以及一整年里对 操作系统 知识点的理解的总结。希望对新一届的计算机考研人提供帮助!!! 关于对 “内存管理” 章节知识点总结的十分全面,涵括了《操作系统》课程里的全部…

装修的正确顺序是什么?

装修的正确顺序可以概括为以下几个步骤:1.设计阶段:根据你的需求和预算,设计师会提供多个方案供你选择,确定最终的设计方案。2.拆除阶段:清除室内所有旧的装修材料,包括地板、瓷砖、灯具、门窗等&#xff0…

Windows Server 2016搭建文件服务器

1:进入系统在服务器管理器仪表盘中添加角色和功能。 2:下一步。 3:继续下一步。 4:下一步。 5:勾选Web服务器(IIS) 6:添加功能。 7:下一步。 8:下一步。 9:下一步。 10&a…

视觉SLAM十四讲 ch3 (三维空间刚体运动)笔记

本讲目标 ●理解三维空间的刚体运动描述方式:旋转矩阵、变换矩阵、四元数和欧拉角。 ●学握Eigen库的矩阵、几何模块使用方法。 旋转矩阵、变换矩阵 向量外积 向量外积(又称叉积或向量积)是一种重要的向量运算,它表示两个向量所形成的平行…