【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割

【论文原文】：FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced Context-Aware Network

获取地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10023953
CSDN下载：https://download.csdn.net/download/qq_36396104/87401747

博主关键词： 小样本学习，语义分割，视觉关联

推荐相关论文：

- 无

摘要：

小样本语义分割的任务是学习在只有少量标注支持图像的查询图像中定位新类的每个像素。由于典型的基于原型的方法不能学习细粒度的对应关系，目前基于相关性的方法都是通过构造成对的特征相关性来建立多对多匹配。然而，现有的方法仍然存在朴素关联中包含的噪声和关联中缺乏上下文语义信息的问题。 为了缓解上述问题，我们提出了一个特征增强的上下文感知网络(FECANet)。具体而言，提出了一种特征增强模块，以抑制类间局部相似引起的匹配噪声，增强朴素相关中的类内相关性。此外，我们提出了一种新的相关重建模块，该模块编码了前景和背景之间的额外对应关系以及多尺度上下文语义特征，极大地提高了编码器捕获可靠匹配模式的能力。在PASCAL-5 i和COCO-20i数据集上的实验表明，我们提出的FECANet与以前的技术相比有了显著的改进，证明了其有效性。源代码和模型已在https://github.com/ NUST-Machine-Intelligence-Laboratory/FECANET上提供。

关键词 -语义分割，小样本学习，小样本语义分割，学习视觉关联。

简介：

语义分割[1]-[6]是现代计算机视觉的重要组成部分，具有许多潜在的应用，从机器人操作[7]到医学图像诊断[8]。随着卷积神经网络[9]-[15]的快速发展，全监督语义图像分割取得了重大进展。然而，最先进的语义分割方法的训练通常需要具有像素级注释的大规模数据集[16]-[18]。对于他们来说，在给出很少的注释训练图像的情况下分割新对象是一个挑战。因此，针对上述新颖的类训练问题，提出了小样本分割[20]-[24]算法，目的是用少量支持图像对未见类的查询图像进行分割。

目前大多数的小样本分割方法[4]，[23]，[25]-[27]都是对支持特征的前景区域进行全局平均池化，得到原型向量，并利用它们来指导查询图像的分割。由于压缩的原型向量只保留目标类的最明显的信息，这些基于原型的方法将多对多通信简化为一对多匹配问题。特征细节的缺乏阻碍了原型向量与查询图像中的目标对象进行细粒度匹配。因此，多对多关联的解决在探索更好的few-shot语义分割性能方面具有巨大的潜力。 HSNet[28]是最近提出的多对多对应模型，旨在通过分析4D相关空间中的模式关系来学习视觉对应。它构造了多-多相关张量，并用中心轴四维卷积对其进行处理。

尽管HSNet在few-shot分割任务中取得了优异的性能，但其关联构造仍存在一些不足。其 主要缺点是HSNet直接使用骨干网特征生成的朴素初始相关性作为编码器输入。朴素相关可能包含许多类间局部相似性引起的噪声。 这些噪声会误导编码器学习不适当的关系匹配和段背景实例作为目标类的对象。另一方面，由于类内的多样性，同一类的区域会衍生出较低的相关性，从而导致对象发现不完整。HSNet[28]的另一个缺点是超相关缺乏上下文语义信息，这阻碍了编码器学习高级关系匹配。此外，该算法构造的密集相关性对支撑图像中的背景信息进行了过滤，从而忽略了前景与背景之间许多潜在的对应关系。

为了缓解上述问题，我们提出了一个特征增强的上下文感知网络(FECANet)。首先，受[29]和[30]工作的启发，我们提出了一个特征增强模块(FEM)，该模块采用了一种新的交叉注意机制，以促进支持特征和查询特征之间的精确模式匹配。由于直接利用骨干网获得的特征会导致包含类内多样性和类间相似度引起的噪声的朴素相关性，我们提出通过抑制不同类之间的局部相似度和增强同一类之间的全局相似度来增强特征表示 。具体来说，我们将单个特征的自注意机制转化为成对特征的交叉注意机制。我们通过查询(支持)特性与支持(查询)特性的相关性，对支持(查询)特性进行加权，在查询(支持)特性与支持(查询)特性之间进行信息交换，实现信息通信。此外，我们的FEM设计精巧，可训练参数很少，以服务于类别不可知分割的目的，并保持较高的泛化能力。为了完善相关结构，我们探索了编码器捕获可靠匹配模式的有用本质。我们注意到，在基于cnn的描述符中，赋予全局上下文的特征对类内变化更健壮，这有利于编码器准确地分割对象。为此，我们设计了一个由密集积分相关和全局上下文相关生成组成的相关重构模块（CRM）。具体来说，我们将背景信息保留在支持特征中，并将不同的语义特征聚合在一起，生成包含前景和背景对应关系的密集积分关联。在全局上下文相关生成中，我们采用自相似模块，将局部区域的语义信息编码为向量，生成全局上下文特征图。此外，我们利用一个多尺度引导模块，在多个尺度上融合全局上下文语义特征，以捕获更多样化和复杂的上下文特征。

我们的主要贡献总结如下:

我们提出了一个特征增强模块来过滤受类间相似性和类内多样性影响的相关性噪声。它在空间和通道维度上交换支持特征和查询特征之间的信息，以增强特征的表示。
我们提出了一个相关重建模块，该模块编码了前景和背景之间的额外对应关系以及多尺度上下文语义特征，极大地提高了编码器捕获可靠匹配模式的能力。
与目前的方法相比，在PASCAL-5 i数据集和COCO-20i上进行的大量实验证明了最先进的结果。

本文的其余部分组织如下:第二节和第三节描述了相关工作和初步工作，第四节介绍了我们的方法;然后，我们在第五节中报告了我们对两个广泛使用的用于小样本图像分割任务的数据集的评估;我们在第VI部分报告了消融研究，并在第VII部分最后总结了我们的工作。

在这里插入图片描述

Fig. 1. Overall architecture of the proposed FECANet which consists of three main parts: feature enhancement module, correlation reconstruction module, and Residual 2D decoder. We refer the readers to Section IV for details of the architecture..