*(论文解读)Prompt-Based Distribution Alignment for Unsupervised Domain Adaptation

Prompt-Based Distribution Alignment for Unsupervised Domain Adaptation

用于UDA的基于提示的分布对齐（二区论文）

摘要

近年来，尽管大型视觉语言模型（VLM）在大规模的下游任务中取得了前所未有的成功，但是现实世界中无监督领域适应（UDA）仍然没有得到很好的探索。因此，本文首先通过实验证明无监督训练的VLM可以显著的减少源域与目标域之间的分布差异，从而提高UDA的性能。无论如何，在下游UDA任务中直接部署此类模型的一个主要的挑战就是提示工程，这需要对齐源域和目标域之间的领域知识，因为UDA的性能受到领域不变表示的严重影响。

本文提出了PDA（Prompt-based Distribution Aligment），基于提示的分布对齐方法，将领域知识融入到提示学习中。具体来说，PDA采用了两个分支的提示调整范式，即基础分支和对齐分支。基础分支的重点是将与类相关的表示整合到提示中，确保不同类之间的区分。为了减小领域差异，对于对齐分支，本文为源域和目标域构建了特征库，并且提出了图像引导的特征调整（IFT,image-guided feature tuning），使得输入数据关注到特征库中的特征，从而有效的将自增强特征和跨域特征整合到模型中。

通过这两个分支的相互促进，增强VLM对UDA的适应性。本文在三个基准上进行了广泛的实验，来证明本文的PDA达到了最先进的性能。

Introduction

无监督领域适应旨在使用带有标签的源域数据和未标记的目标域数据来提高预训练模型在目标域的泛化性能。目前有很多方法来解决UDA问题，主要包括对抗性训练和度量学习。无论如何，领域对齐虽然有助于减小源域和目标域之间的差异，但是它可能无意中丢失了语义信息，这是因为语义信息和领域信息通常是相互纠缠的，在对齐领域特征时，语义特征也会受到影响。

最近，像CLIP这种大型视觉语言模型在各种下游任务中表现出强大的泛化性能。通过解耦视觉和语义表示，可以避免语义信息的丢失，提高UDA的性能。本文通过实验证明VLM对UDA问题的适用性。具体来说，本文评估了单模态ViT和带有手工标记提示的CLIP的性能。

解释图1：在Office-Home数据集中的指标比较，指标越高，模型的性能越好。r衡量特征的紧凑型，通常是通过类内距离与类间距离的比值来计算，r低表示同类样本之间的距离小，不同类样本之间距离大，更容易区分。通过在Office-Home数据集上的比较，突出了模型在多个关键指标上的优越表现。表明采用的方法在减少领域差异、增强特征的紧凑性和辨别力方面具有显著优势，从而提高了整体的预测准确性。虽然CLIP的源域特征r（Is）和目标特征r（It）的紧凑型与监督训练的ViT相似，但是MMD和KL散度最小化，从而导致目标域的精度(ACC)更高。这表明CLIP有可能最小化UDA的领域差异，而UDA受益于多模态交互。

为了进一步使VLM适应下游UDA任务，最有效的方法之一就是提示调优。当前最先进的提示调优方法，比如CoOp和MaPLe在一些特定的下游任务中表现出卓越的性能。CoOp方法采用软提示来学习合适的文本提示，MaPLe进一步引入视觉-文本提示来确保相互协同。

继续解释图1：（1）与CLIP相比，MaPLe（目的就在于减少领域偏移，尤其通过提示调优来优化模型）在对齐源域和目标域对齐上做了工作，其中MMD和KL散度比较低就可以证明这一点，这说明提示调优可以帮助最小化领域偏移。（2）MaPLe的图像特征更加紧凑，说明提示调优可以进一步提高CLIP的判别能力。

尽管如此，这些提示调优的方法都不足以完全解决领域偏移的问题，因为这些问题主要关注于如何优化提示词的位置和内容，并不是直接处理导致领域偏移的根本原因。因此，本文认为提示不仅应该关注其设计，还应该将领域知识融入到提示中来适应不同的领域。

为此，本文提出了一种基于提示的分布对齐（PDA）的UDA方法。PDA包含两个分支，即基础分支和对齐分支。基础分支通过提示调优生成图像和文本表示，重点是将类相关的表示集成到提示中，确保模型在不同领域中能够区分不同类别。UDA的主要目标就是最小化图像表示的分布偏移。对齐分支通过利用从图像中提取的特征来引入领域知识，旨在减少源域和目标域之间的特征差异。

为此，本文首先构建了源域和目标域特征库，并提出了图像引导的特征调优（IFT），使输入的图像表示与特征库相符，从而有效地将自增强和跨域特征集成到模型中。如图 1 所示，PDA 不仅在获得更具可判别性的图像和文本表示方面表现出色（r(Is)和r(It)高），而且有效地缓解了域差异（KL和MMD低）。因此，本文方法可以保证模型的可判别性，并能有效地从源域和目标域捕获重要特征，从而实现域对齐，使模型更好地适应目标域。

本文贡献：

（1）首先通过实验验证了VLM在UDA下游任务上的有效性。基于这一发现，本文进一步提出了一种基于提示的分布对齐（PDA）方法，用于将提示到调整到目标域。

（2）提出的PDA方法包括两个分支。基础分支确保了不同类别之间的可判别性。对齐分支通过IFT（图像引导的特征调优）获得领域不变表示。

（3）大量的实验证明了所提出的PDA的有效性，该PDA在Office-Home、Office-31和VisDA-2017上实现了最先进的性能。

Preliminaries

Unsupervised Domain Adaptation

UDA的重点在于使用源域中标记数据和目标域中未标记数据来提高模型在目标域中的泛化性能。源域数据（ns表示源域数据的样本数）：，目标域数据（nt表示目标域数据的样本数）：。源域和目标域的数据是从两个不同的分布中采样得到的，但是两个域共享相同的标签空间（可以理解为源域为室内动物的照片，目标域为室外动物的照片）。X表示输入空间，Y表示标签集合，从图像到标签存在映射关系M : {X} → Y。本文工作将提示V合并到输入中，因此映射关系变成M : {X，V} → Y。本文工作的目标就是缓解Ds和Dt之间领域偏移的问题，并学习一种提示，可以促进将源域的知识转移到目标域中。

Revisiting Prompt Learning

对比语言-图像预训练（CLIP）模型由图像编码器和文本编码器组成，分别对图像和对应的文本描述进行编码。

Zero-shot inference

预训练的CLIP模型使用手动设计的提示来适应下游任务，而不是微调模型。文本通常被设计为“A Photo of [Class]”。j将图像送入图像编码器得到图像表征z，将该类的文本表示送入文本编码器得到文本表征wi。图像文本配对分数通常是计算图像表征z和对应于该类的文本表示wi之间的余弦相似度<wi,z>得到的。某张图片属于第i类的概率为：

其中τ代表温度参数，K表示共有K个类别，< , >表示余弦相似度。

Text prompt tuning

文本提示调优避免了手动提示工程并且增强了CLIP的迁移能力。CoOp引入了一组M个连续的可学习向量v=[v1,v2,v3,,,vm]，第i类的文本提示ti表示为ti=[v,ci]，其中ci表示固定的输入嵌入标记。

通过基于transfomer的架构，可学习向量可以扩展到文本编码器的更深的transformer层，因此每一层输入都可以改写为 [vj, cj]，其中 J 是文本编码器中的transformer层数，[·,·] 是指串联操作。

Visual prompt tuning

其方法与文本提示调优的范式类似，自动学习输入到图像编码器每一层的上下文向量。对于每一层j（共有J层）：[vj,ej,cj]。其中vj表示可学习的上下文向量，ej表示图像嵌入，cj表示可学习的类标记，用于代表输入图像的类别。

Multi-modal prompt tuning

文本提示和视觉提示合并就成为CLIP。MaPLe通过在两种模式之间共享提示来调整视觉分支和文本分支。

Method

Prompting for Base Branch

Prompt design.

本文主要采用了多模态提示的范式。图像编码器前期层中，通过映射层将文本提示转化为视觉提示（具体过程可以理解为先将文本提示转换成文本嵌入向量，然后将文本嵌入向量通过投影层生成视觉提示向量，最后将生成的视觉提示向量与图像patch一同送到图像编码器进行编码）。这就意味着使用文本提示来指导图像编码的过程，使得图像在特征空间中拥有文本提示的信息，从而实现文本和图像的对齐。图像编码器的后续层中，每一层都利用独立的提示。这种设计允许每一层独立地捕捉图像不同的视觉特征和语义特征，从而实现图像和文本更好的交互，同时捕捉不同的视觉和文本提示。

Loss function.

采用对比损失函数来对齐文本表示和图像表示：

为了更深的探索目标域的数据，本文使用伪标签来训练未标记的数据。伪标签是通过预训练的CLIP模型生成的。为了增强这些伪标签的可靠性，本文设置了一个固定的阈值τ，当CLIP为给定的图像进行预测的最高概率低于τ时，这个伪标签就会被抛弃。因此更新了损失函数（其中I(·)表示指示函数）：

Pipeline of Alignment Branch

在对齐分支中，本文为源域和目标域分别构建了特征库，并且提出了IFT（图像引导的特征调整）方法，使得输入参与到特征库中，从而实现领域对齐。

Constructing feature banks

通过访问源域和目标域的数据，本文可以从两个域中得到文本特征和图像特征。基于CLIP强大的zero-shot能力，我们可以构建一个具有鲁棒性且准确的特征库。

首先，我们利用CLIP的zero-shot能力，为源域中的图像生成置信度分数。同样，我们为目标域中的图像生成置信度分数和相应的伪标签。具体来说，最大置信度分数的索引就是目标域图像的伪标签。

然后本文分别从源域和目标域中选取置信度分数前C位的图像的视觉特征，构建具有K-way C-shot的源域特征库和目标域特征库。

然后，我们得到每个类别的质心特征，分别为作为最终的源域特征库Zsc和目标域特征库Ztc。

Image-guided feature tuning (IFT)

IFT利用特征库来引导图像获得自增强特征和跨域特征。

首先，使用一个权重共享的投射层fpre（投影层是一个三层的多层感知机）将图像特征、源域特征库和目标特征库中的特征转换为Q、K、V：

本文使用注意力机制来对图像特征进行增强，接着使用另一个权重共享的投射层fpost来进一步处理增强的特征：

然后，本文将原始的图像特征通过残差连接和归一化来与当前特征结合：

最后增强的特征可以描述为:β1zvs + β2zvt

Loss function

通过使用对比损失函数来对齐源域和目标域特征库的图像表征（其中h表示IFT模块）：

表示源域增强的图像特征。

与基础分支类似，本文使用目标域的数据，然后获得目标域数据的图像增强表示，损失函数表示为：

总损失（γ表示超参数）：

在测试阶段，本文计算来自基础分支和对齐分支的预测的加权和，从而得出模型的最终预测。这两个分支不仅对于增强模型的可判别性至关重要，而且对于对齐源域和目标域之间的分布偏移也至关重要。

Conclusion

本文展示了VLM及其提示调优在无监督领域适应中的有效性。基于此，我们将分布对齐引入到提示调优中，并提出了一种具有双分支训练范式的基于提示的分布对齐（PDA）方法。这两个分支不仅在提高模型可判别性方面起着至关重要的作用，而且在缓解源域和目标域之间的分布偏移方面也起着至关重要的作用。大量的实验证实了我们提出的方法的有效性，我们的PDA方法在无监督域适应方面取得了新的最先进的性能。由于学习到的提示具有可转移性，我们可能会在未来的工作中进一步探索无监督域适应或其他下游任务的提示对齐。