Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification (Paper reading)

Renrui Zhang，Shanghai AI Laboratory，ECCV2022，Cited:45，Code，Paper

1. 前言

对比式视觉-语言预训练，也称为CLIP，通过大规模的图像-文本对来学习视觉表示，为zero-shot知识迁移展示了新的范式。它在下游任务上展现出令人瞩目的性能，实现了zeri-shot的知识迁移。为了进一步增强CLIP的适应能力，现有方法提出了微调可学习模块的方法，显著提高了少样本情况下的性能，但也引入了额外的训练时间和计算资源。在本文中，我们提出了一种适用于CLIP的无需训练的少样本分类方法，称为Tip-Adapter。它不仅继承了zero-shot CLIP的无需训练的优势，还能够在性能上与需要训练的方法相媲美。Tip-Adapter通过来自少样本训练集的键-值缓存模型构建适配器，并通过特征检索来更新CLIP中编码的先前知识。除此之外，通过对缓存模型进行微调，Tip-Adapter的性能可以进一步提升，达到在ImageNet上领先的水平，且仅需比现有方法少10倍的微调轮次，既高效又有效。我们在11个数据集上进行了大量的少样本分类实验，以展示我们提出的方法的优越性。

2. 介绍

在这里插入图片描述
我们提出了一种适用于CLIP的无需训练的自适应方法，称为Tip-Adapter，它通过在权重冻结的CLIP模型中附加一种新颖的非参数适配器实现。与现有方法不同，我们的方法不需要额外的训练，而是将适配器设计为一个查询-键缓存模型，使用zero-shot样本数据集。具体而言，Tip-Adapter通过CLIP的视觉编码器提取zero-shot样本图像的视觉特征，并将其相应的标签转换为独热编码。然后，创建一个包含zero-shot样本视觉特征和独热标签的缓存模型，将它们视为配对的键和值。通过缓存模型，与传统的通过随机梯度下降（SGD）进行微调相比，Tip-Adapter的无需训练的构建表现出很高的效率。在推理过程中，测试图像首先计算其与缓存键的特征相似性，然后汇总缓存值以形成适配器的预测，可以将其视为从缓存模型中检索少样本知识。然后，通过残差连接将适配器的预测与原始CLIP的预测相结合。通过这种方式，Tip-Adapter同时利用了来自预训练CLIP和少样本训练数据集的知识。令人惊讶的是，无需训练的Tip-Adapter可以与经过微调的CoOp和CLIP-Adapter表现相当。此外，如果我们将缓存键解冻为可学习参数，并进一步进行微调，Tip-Adapter的性能可以在很少的训练轮次内显著提升。我们将这个经过微调的版本称为Tip-Adapter-F，仅需要在ImageNet [10] 上进行 20 轮训练，就能达到与CoOp和CLIP-Adapter所需的 200 轮相媲美的最先进水平。在表1中，我们列出了所有现有方法在ImageNet上进行16-shot分类的性能、训练时间和推理速度的比较，表明我们的方法在准确性和效率之间取得了很好的平衡。
在这里插入图片描述

3. 方法

缓存模块结构: 给定预训练的CLIP模型和一个新的数据集，其中包含K-shot N-class训练样本，用于few-shot样本分类。每个类别中有 $K$ 个标注图像，表示为 $I_K$ ，并附带其标签 $L_N$ 。我们的目标是创建一个键-值缓存模型作为特征适配器，其中包含 $N$ 个类别内的few-shot本知识。对于每个训练图像，我们使用CLIP的预训练视觉编码器提取其 $C$ 维 $L_2$ 归一化特征，并将其地面真实标签转换为一个 $N$ 维的独热向量。对于所有 $N K$ 个训练样本，我们将它们的视觉特征和相应的标签向量表示为 $F_{train} ∈ R^{NK×C}$ 和 $L_{train} ∈ R^{NK×N}$ 。对于键-值缓存，CLIP编码表示 $F_{train}$ 被视为键，而独热的地面真实向量 $L_{train}$ 被用作它们的值。通过这种方式，键-值缓存会记忆从少样本训练集中提取的所有新知识，用于更新预训练CLIP中编码的先验知识。

Tip-Adapter: 构建缓存模型后，可以通过两次矩阵-向量乘法简单实现CLIP的适应。在推断过程中，测试图像的L2归一化特征 $f_{test} ∈ R^{1×C}$ 首先由CLIP的视觉编码器提取，并用作从键-值缓存中检索的查询。查询与键之间的关联可以估计为：
$exp(-\beta(1-f_{test}F_{train}^{T}))$
其中， $A ∈ R^{1×NK}$ ，而 $β$ 代表调节超参数。由于查询和键特征都是L2归一化的，术语 $f_{test}F^{T}_{train}$ 等同于测试特征 $f_{test}$ 与所有few-shot训练特征 $F^{T}_{train}$ 之间的余弦相似性。采用指数函数将相似性转换为非负值，β调节其锐度。随后，缓存模型的预测可以通过加权查询-键关联的缓存值的线性组合获得，表示为 $AL_{train} ∈ R^{1×N}$ 。除了从缓存模型中检索的few-shot知识外，预训练CLIP的先前知识通过 $f_{test}W^{T}_c ∈ R^{1×N}$ 计算，其中 $W_c$ 是从其预训练文本编码器生成的CLIP分类器的权重。通过残差连接混合两个预测，Tip-Adapter计算出测试图像的输出logits，如下所示：
$\alpha A L_{train} + f_{test}W^{T}_c = \alpha \varphi(f_{test}F^{T}_{train})L_{train} + f_{test}W^{c}_{T}$
其中， $α$ 表示残差比率，我们定义 $φ (x) = e x p (- β (1 - x))$ 。因此，TipAdapter的预测包含两个项，前一项自适应地总结了来自few-shot训练数据集的信息，后一项保留了来自CLIP分类器 $W^{T}_{c}$ 的先验知识。这两个项由权重 $α$ 平衡。经验上，如果预训练和下游少样本任务之间的领域差距较大，则将 $α$ 设置为较大的值，因为需要来自少样本集的更多知识；反之，如果差距较小，则将 $α$ 设置为较小的值。

Tip-Adapter微调：Tip-Adapter能够通过整合few-shot训练集中的新知识显著提升CLIP的性能。然而，当提供更多样本时，未经过训练的Tip-Adapter逐渐落后于需要训练的CoOp和CLIP-Adapter。为了减小差距并保持效率，我们提出了Tip-Adapter-F。Tip-Adapter-F将缓存模型中的键视为可学习参数的良好初始化，并通过随机梯度下降（SGD）进行微调。在ImageNet 上仅进行了20个时期的微调，Tip-Adapter-F实现了最先进的性能。具体而言，我们解除了缓存键 $F_{train}$ 的冻结，但仍然冻结了 $L_{train}$ 的值以及预训练CLIP的两个编码器。其直觉是，更新缓存模型中的键可以提升关联估计，从而能够更准确地计算测试图像与训练图像之间的余弦相似性。相比之下，缓存模型中的值是表示地面真实注释的独热编码，应该保持冻结以充分记忆类别信息。