论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

news2026/2/12 19:11:26

论文地址：https://arxiv.org/pdf/2303.14123.pdf

这是一篇2023年发表在CVPR上的论文，论文题目是Semantic Prompt for Few-Shot Image Recognitio，即用于小样本图像识别的语义提示。

1 Motivation

第一，最近几项研究利用语义信息来进行小样本学习的研究。 一方面因为通过少量样本去识别新类别很难，就想使用一些其他模态的信息辅助学习，文本特征可能包含新类和已知类之间的语义关系，所以是一个很好的选择。另一方面因为最近一些出现的强大的自然语言处理（NLP）模型能够从类别中提取出丰富且准确的文本信息。

第二，提出来的这些方法效果并不理想，模型仍然会受到从少量支持样本提取出来的虚假特征的影响。 因为这些方法直接使用文本嵌入作为图像的分类器，比如直接从类名推断出文本原型然后与视觉分类器相结合，这忽略了文本特征和视觉特征之间的 信息差距，因此文本特征无法与视觉特征很好地交互，从而无法给新类别提供具有判别性的视觉特征。
在这里插入图片描述
如图所示，输入一张独轮车的图像，特征提取器很容易受到背景杂波的影响，比如车上的女孩还有行人、瓦片等等，并且很有可能特征提取器无法识别其他环境中的独轮车，即无法学习到新类别的通用图像表示。

2 Idea

因此，本文提出了一种新的语义提示（SP）的方法，利用丰富的语义信息作为提示来 自适应 地调整视觉特征提取器。而不是将文本信息与视觉分类器结合来改善分类器。

本文设计了两种互补机制，将语义提示插入到特征提取器中：一种是通过 自注意力 在 空间维度 上实现语义提示和 patch嵌入之间的交互，另一种是通过沿 通道维度 转换后的语义提示来补充视觉特征。

通过结合这两种机制，特征提取器提取出具有判别性的与类相关(特定类别) 的特征，并仅用几个支持样本就可以获得更通用的图像表示。

3 Methods

3.1 训练方法

本文提出的方法包括两个训练阶段：
步骤一采用non-episodic training方法，预训练特征提取器 f 通过分类基类中所有的图像。
步骤二采用元训练范式，使用语义提示(SP) 在大量episodes中微调特征提取器 f ，使 f 能够在新类中提取出通用和与类相关的视觉特征表示。

3.2 预训练

主干网络采用 Visformer 。它用卷积块替换了前七个 Transformer 层，并在每个阶段之间采用池化以减少序列长度，从而降低计算成本。计算成本和序列长度成正比。

损失函数采用 标准交叉熵损失。目的使其最小化。
在这里插入图片描述
其中W表示分类器，b表示偏差。

具体的训练过程：
第一步，输入图像 $\mathbb{R}^{H \times W \times C\ }$ 先被划分为 M 个patches序列 $\left\{x_p^1x, x_p^2......x_p^M \right\}$ ,其中 $x_p^i∈ \mathbb{R}^{P \times P \times C\ }$ 是一个patch，P 是patch大小。
第二步，每个patch被映射到一个嵌入向量中，并添加一个可学习的位置嵌入。经过预处理的图像patches可以写为： $Z_0= [z_0^1 , z_0^2......,z_0^M ]$ ，其中 $z_0^i ∈ \mathbb{R}^{C_z}$ 是第0层Transformer中位置为 i 的patch token， $C_z$ 是每个token（标记）的通道数。
第三步，Patch 标记被送入 L 个 Transformer 层以提取视觉特征，每一层都由多头自注意力 (MSA)、MLP 块、层规范 (LN) 和残差连接组成。在顶层L，我们平均序列中所有的嵌入向量作为提取的图像特征：
在这里插入图片描述
其中 $z_L^i$ 是第 L 层的第 i 个嵌入向量

3.3 语义提示

首先，使用具有大规模预训练的 NLP 模型从类名中提取文本特征

在这里插入图片描述

具体的训练步骤，如图所示：
第一步，在一个训练episode中，给定一个支持图像 $x^s$ ，我们将其类名 $y^{text}$ 输入预训练语言模型 $g (\cdot)$ 以提取语义特征，即 $g(y^{text})$ 。
第二步，特征提取过程： $f_{g\ }\left(x^s\right)=f\left(x^s\middle| g\left(y^{text}\right)\right)$
第三步，将每个类中的支持特征平均得到原型，设 $p_i$ 表示类别 i 的原型，则:
在这里插入图片描述
其中 $x_j^s$ 是第 i 类的第 $j^{th}$ 支持图像。
第四步，在元训练期间，冻结文本编码器 g(·) 并微调其他参数，通过使用交叉熵损失来最大化查询样本与其原型之间的特征相似性 :

其中 s 表示余弦相似度， $p_{y^q}$ 是类 $y^q$ 的原型，τ 是温度超参数。

3.3.1 空间维度的交互

为了促进空间维度上的交互，本文使用语义提示扩展图像patch序列后再提供给 Transformer 编码器。通过自注意层，语义提示可以使特征提取器注意到与类相关的特征，同时抑制其他不相关特征。

给定语义特征 $g(y^{text})$ 和第 l 层的patch嵌入的输入序列 $Z_{l-1}=\left[z_{l-1}^1,z_{l-1}^2,\ldots,z_{l-1}^M\right]\in\mathbb{R}^{M\times C_z}$

使用投影后的语义特征扩展 ${\ Z}_{l-1}$ 获得一个新序列 ${\hat{z}}_{l-1}$ ∈ $\mathbb{R}^{(M+1)\times C_z}$ ：
在这里插入图片描述
其中 ${\ z}^0=h_s(g((y^{text}))\ \in\ \mathbb{R}^{C_z}$ 是空间交互的投影语义嵌入， $h_s(·)$ 是保持语义嵌入维度与patch嵌入相同的投影器。

然后，扩展序列 ${\hat{z}}_{l-1}$ 被送到其他Transformer 层以允许语义提示和patch标记之间沿空间维度的交互。

具体来说：
第一步，MSA将 ${\hat{z}}_{l-1}$ 中的每个标记通过线性投影映射到三个向量 $\mathbb{R}^{N_h\times\left(M+1\right)\times C_z}$
在这里插入图片描述
其中 $N_h$ 是注意头数， $C_h$ 是每个注意头的通道数。

第二步，计算q 和 k 的内积并沿空间维度执行 softmax 来计算注意力权重 ${A}$ ∈ $\mathbb {R}^{N_h \times (M+1) \times (M+1)}$
在这里插入图片描述
注意力权重用于选择和聚合来自不同位置的信息。

第三步，通过相加连接所有头的输出并通过线性投影得到最终输出
在这里插入图片描述

3.3.2 通道维度的交互

对于通道维度上的交互，本文首先将语义提示与从所有patches中提取的视觉上下文连接起来，然后将它们提供给 MLP 模块（多层感知机）。将提取的特征向量添加到每个patch标记中，以逐个通道地调制和增强视觉特征。

首先获得全局视觉上下文向量 $z_{l-1}^C ∈ \mathbb{R}^{C_z}$ , 通过对所有patch 标记进行平均:
在这里插入图片描述
将视觉上下文 $Z_{l-1}^c$ 与投影语义向量 ${\ z}^0$ 连接起来，送入 2 层 MLP 模块以获得调制向量 $\beta_{l-1}\in R^{C_z}$ :

其中 $W_1、b_1、W_2、b_2$ 是 MLP 模块的参数，σ 是 sigmoid 激活函数， $h_c$ 是通道交互的投影器。