论文阅读——FECANet:应用特征增强的上下文感知小样本语义分割网络

代码：NUST-Machine-Intelligence-Laboratory/FECANET (github.com)
文章地址：地址
文章名称：FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced Context-Aware Network

摘要

Few-shot semantic segmentation 是学习在查询图像中定位新类的每个像素的任务，只有几个带注释的支持图像。因为典型的基于原型的方法无法学习细粒度的对应关系，当前基于相关性的方法构建成对特征相关性以建立多对多匹配。然而，现有方法仍然遭受朴素关联中包含的噪声和关联中缺乏上下文语义信息的问题。为了缓解上述这些问题，我们提出了一个特征增强的上下文感知网络（FECANet）。具体来说，提出了一个特征增强模块来抑制由类间局部相似性引起的匹配噪声，并增强朴素相关中的类内相关性。此外，我们提出了一种新颖的相关重建模块，该模块对前景和背景之间的额外对应关系以及多尺度上下文语义特征进行编码，显着促进编码器捕获可靠的匹配模式。在 PASCAL-5i 和 COCO-20i 数据集上的实验表明，我们提出的 FECANet 与以前的最新技术相比有了显着的改进，证明了它的有效性。

引言

参考文章的不足

本文是对HSNet的改进。

特征细节的缺失阻碍了原型向量与查询图像中的目标对象进行细粒度匹配。为此，HSNet提出一种多对多对应模型，旨在通过分析4D相关空间中的模式关系来学习视觉对应关系。它构造多对多的相关张量，并使用中心枢纽4D卷积进行处理。

HSNet的不足：

主要缺点是HSNet直接使用来自主干网络的特征生成的初始相关性作为编码器输入。朴素相关性可能包含许多由类间局部相似性引起的噪声。这些噪声会误导编码器学习不恰当的关系匹配并将背景实例分割为目标类的对象。同一类的区域由于类内多样性会衍生出低相关性，从而导致对象发现不完整。
另一个缺点是超相关性缺乏上下文语义信息，阻碍了编码器学习上级关系匹配。而且，其构建的稠密相关性过滤了支持图像中的背景信息，导致前景与背景之间许多潜在的对应关系被遗漏。

本文的改进

我们提出了一个特征增强模块( FEM )，该模块采用了一种新颖的交叉注意力机制促进支持特征和查询特征之间的精确模式匹配。

由于直接利用主干网络得到的特征会导致包含由类内多样性和类间相似性引起的噪声的朴素相关性，我们提出通过抑制不同类之间的局部相似性和增强相同类之间的全局相似性来增强特征表示。我们在查询和支持特征之间交换信息来实现信息交流，这是通过查询(支持)特征与支持(查询)特征的相关性对支持(查询)特征进行加权的方法实现的。

FEM是精心设计的，具有很少的可训练参数，以达到类不可知分割的目的，并保留高泛化能力。

我们注意到，赋予全局上下文的特征对CNN描述符中的类内变化更加鲁棒，这有利于编码器准确地分割目标。因此，我们设计了一个由稠密积分关联和全局上下文关联生成组成的关联重构模块(CRM)。具体来说，我们将背景信息保留在支持特征中，并聚合不同的语义特征以生成包含前景和背景之间对应关系的稠密的整体相关性。在全局上下文关联生成中，我们采用自相似性模块，将局部区域的语义信息编码成向量，生成全局上下文特征图。我们利用多尺度指导模块，在多个尺度上融合全局上下文语义特征，以捕获更多样和复杂的上下文特征。

贡献如下：

我们提出了一个特征增强模块来过滤受类间相似性和类内多样性影响的相关性中的噪声。它在空间和通道维度上交换支持和查询特征之间的信息，以增强特征表示。
我们提出了一个相关性重构模块，该模块编码了前景和背景之间的额外对应关系和多尺度上下文语义特征，显著提高了编码器捕获可靠匹配模式的能力。
在PASCAL - 5i数据集和COCO - 20i数据集上进行了大量实验，并与现有方法进行了比较。

方法

整体框架

在这里插入图片描述
(1)首先利用在ImageNet上预训练的卷积神经网络作为主干，为support image和query image提取丰富的中间特征图集，并将其表示为稠密成对集合

(2)从成对集合中选取3对support-query特征图，用support mask过滤掉support images中的背景信息

(3)每一对support和query特征被输入到提出的特征增强模块(FEM)中，通过support和query image之间的信息交换来增强特征表示。

(4)增强的特征(Esl , Eql)}被传输到提出的相关性重构模块(CRM)中，该模块通过一个新的自相似性模块捕获上下文语义信息，并在每个语义级别上建立support和query特征之间的局部和全局相关性。

(5)应用4D卷积编码器来分析相关性以捕获视觉对应关系，并将它们自下而上地进行融合。

(6)通过对编码器输出进行平均池化操作获取查询表示，并将其传递给residual 2D decoder以获得最终的查询掩码预测。

Feature Enhancement Module

在这里插入图片描述
受非局部块编码更广泛的上下文信息以增强表示能力的启发，我们开发了一个新颖的特征增强模块，通过在query和support特征之间交换信息来增强特征表示。与自注意力机制不同，我们的特征增强模块旨在通过空间层面的信息交流来捕获support特征和query特征之间的cross-image语义相似性和差异性。

我们注意到特征的每个通道图都可以看作是一个语义特定的响应(其实就是卷积的本质)，并且不同的语义响应是相互关联的。因此我们设计了一个通道注意力模块来对二次加权的增强特征进行更好的相关性细化。

Cross-image information communication.

(1)首先利用在Fs和Fq上使用卷积操作生成新的特征图K和Q，其中：Q, K ∈ R ^Ck×Hl×Wl;Fs,Fq∈R ^Cl×Hl×Wl

(2)对Q和K的转置进行矩阵相乘得到特征图，并将此计算结果转置得到另一个分支的特征图

(3)我们分别对query分支和support分支应用softmax层计算空间注意力图Aq和As。
在这里插入图片描述
其中Aq ji表示query的第i个位置对support的第j个位置的影响。

(4)跟(1)同时，将Fq和Fs特征输入到同一个卷积层，分别生成两个新的特征图Vq和Vs

(5)在Vq和Aq之间执行矩阵乘法并将结果重塑为Ck × Hl × Wl的形状。support分支跟这个类似。

(6)分别将它们送入两个不同的转换函数层Transq和Transs，生成结果图Pq和Ps。
在这里插入图片描述
其中：Transq和Transq是由卷积构成的不同变换函数层。

具有全局上下文视图的增强特征图可以根据空间注意力图选择性地聚合上下文。相似的语义特征实现了相互增益，从而提高了类内紧凑性和语义一致性。
(1)利用全局池化层将support/query特征聚合为类特定的通道向量。

(2)使用由全连接层和激活函数组成的多层感知器将support/query通道向量映射到一个具有相似关系的通道特征空间。

常用的多层感知器通过利用支持特征和查询特征之间通道图的相互依赖关系来改进特定语义的特征表示。

(3)我们将映射后的通道向量与位置嵌入特征以重新加权的方式相乘，选择性地突出最重要的特征。

(4)我们利用残差连接将输出与原始输入特征结合。
在这里插入图片描述

Correlations Reconstruction Module

在这里插入图片描述
全局上下文特征为基于CNN的描述符的类内变化提供了鲁棒性。

在本模块中，相关性的集合被显式地在局部和全局上重建。

Dense integral correlation

我们从主干网络中选取若干个中间特征构建稠密关联集合，这些特征有细节信息，可以提升编码器学习细粒度对应关系的能力。

我们没有使用对象mask来过滤support特征并保持背景信息的相关性。

我们从骨干网中的一系列中间特征图中选择L对深度特征{(Fql , Fsl)}。我们直接在第l层使用余弦相似度计算与每一对查询和支持特征的相似度：

在这里插入图片描述
其中，xq和xs分别表示Fq和Fs特征图的二维空间位置。

最后，我们将具有相同空间大小的4D相似性张量沿通道维度进行拼接来构建相关集合。我们在相关性集合中得到了三种稠密相关性，并将它们划分为三个不同的语义层。

Global context correlation

引入了一种新颖的局部自相似性方法，将局部空间语义特征编码为上下文向量特征，以获得全局上下文特征图。此外，我们引入了多尺度引导结构来捕获更多全局和复杂的上下文特征。

Local self-similarity

思路：计算特定大小的局部近邻区域内每个空间位置的相似性，用于self-similarity生成。

步骤：

(1)为了保证特征图中的边界位置可以包含在局部自相似性计算中，我们对特征图Esq进行大小为(k-1)/2(我们设k为奇数)的补零操作，得到补零后的特征图Esq∈R^C × (H+k-1) × (W+k-1)。Esq为特征对，含有query特征和support特征。

(2)以Esq中的某位置xij为中心，建立一个k*k的局部近邻区域，然后计算该中心和在局部区域中的每个点的点积来生成self-similarity向量ss。

在这里插入图片描述
Multi-scale guidance

问题：由于局部区域的大小限制了上述self-similarity特征图的通道数，难以包含更大范围的上下文语义信息。

思路：利用多尺度自相似性进一步提取上下文语义特征，捕获更复杂的自相似性特征

多尺度相似性可以提供更大的局部感受野和更丰富的上下文语义信息。

(1)用两个连续的卷积层F1和F2细化自相似性输出SS，生成SS1和SS2。

(2)将这些不同尺度的self-similarity特征与上采样操作串联起来，形成多尺度上下文特征图

在这里插入图片描述
(3)计算全局上下文相关性

其中MSql和MSsl分别表示查询和支持增强特征图Eql和Esl得到的多尺度self-similarity

作为对结果改进最有帮助的部分，我们的全局上下文相关性优化了相关性的构建。它利用赋予全局上下文的特征来生成上下文相关，其中包含了区域之间的对应关系。在CRM中，我们得到的区域到区域和像素到像素的相关性可以有效地促进编码器学习更全面和更深层次的模式匹配关系。

(4)将稠密积分关联Cl(上一个模块得到的)和多尺度全局上下文关联GCl沿通道维度串联起来构造集合

(5)由于相关性的集合具有不同的分辨率大小，文章将它们分别送入三个不同的4D卷积编码器中，分析query和support图像之间不同的语义级别对应关系。

Residual 2D Decoder

由于同一类别内的外观差异，当前支持图像可能仅引导网络分割查询图像中的部分对象。因此，我们构建了一个持续更新的记忆库来存储每个query image的预测图，从而进一步细化2D编码器的输出，为下一次相应的查询图像预测提供粗略的物体位置线索。

(1)对于训练阶段的每个查询图像，我们从内存库中获取对应的查询预测图，并将其与当前编码器输出进行拼接。

(2)对内存库中的初始查询预测图进行补零操作。

(3)然后，将拼接后的特征送入残差卷积模块。残差卷积模块由少数几个3x3和5x5卷积组成，并在每个卷积操作中使用残差连接来融合输入和输出。

(4)将残差卷积模块的输出传递给卷积块，预测一个双通道mask图。

(5)最后，我们将查询图像的当前预测图存储在内存库中，以便下一次进行相应的查询图像预测。

损失函数：

使用交叉熵损失，M是真实的，P是预测的。
在这里插入图片描述

实验

在这里插入图片描述

结论

在这项工作中，我们提出了一种新的FECANet网络用于少样本语义分割任务。具体来说，我们提出了特征增强模块，通过在支持特征和查询特征之间交换信息，过滤受局部相似性和类内多样性影响的相关性中的噪声。过滤后的相关性为编码器学习合适的关系匹配提供了很好的指导。为了提高基于CNN的编码器对类内变化的鲁棒性，我们引入了自相似性方法，将全局上下文信息融入到相关性中。此外，在PASCAL - 5i和COCO - 20i数据集上的大量实验证明了所提模型的优越性。