*(论文解读)Prompt-Based Distribution Alignment for Unsupervised Domain Adaptation

news2025/1/13 22:04:11

Prompt-Based Distribution Alignment for Unsupervised Domain Adaptation

用于UDA的基于提示的分布对齐(二区论文)

摘要

近年来,尽管大型视觉语言模型(VLM)在大规模的下游任务中取得了前所未有的成功,但是现实世界中无监督领域适应(UDA)仍然没有得到很好的探索。因此,本文首先通过实验证明无监督训练的VLM可以显著的减少源域与目标域之间的分布差异,从而提高UDA的性能。无论如何,在下游UDA任务中直接部署此类模型的一个主要的挑战就是提示工程,这需要对齐源域和目标域之间的领域知识,因为UDA的性能受到领域不变表示的严重影响。

本文提出了PDA(Prompt-based Distribution Aligment),基于提示的分布对齐方法,将领域知识融入到提示学习中。具体来说,PDA采用了两个分支的提示调整范式,即基础分支和对齐分支。基础分支的重点是将与类相关的表示整合到提示中,确保不同类之间的区分。为了减小领域差异,对于对齐分支,本文为源域和目标域构建了特征库,并且提出了图像引导的特征调整(IFT,image-guided feature tuning),使得输入数据关注到特征库中的特征,从而有效的将自增强特征和跨域特征整合到模型中。

通过这两个分支的相互促进,增强VLM对UDA的适应性。本文在三个基准上进行了广泛的实验,来证明本文的PDA达到了最先进的性能。

Introduction

无监督领域适应旨在使用带有标签的源域数据和未标记的目标域数据来提高预训练模型在目标域的泛化性能。目前有很多方法来解决UDA问题,主要包括对抗性训练和度量学习。无论如何,领域对齐虽然有助于减小源域和目标域之间的差异,但是它可能无意中丢失了语义信息,这是因为语义信息和领域信息通常是相互纠缠的,在对齐领域特征时,语义特征也会受到影响。

最近,像CLIP这种大型视觉语言模型在各种下游任务中表现出强大的泛化性能。通过解耦视觉和语义表示,可以避免语义信息的丢失,提高UDA的性能。本文通过实验证明VLM对UDA问题的适用性。具体来说,本文评估了单模态ViT和带有手工标记提示的CLIP的性能。

解释图1:在Office-Home数据集中的指标比较,指标越高,模型的性能越好。r衡量特征的紧凑型,通常是通过类内距离与类间距离的比值来计算,r低表示同类样本之间的距离小,不同类样本之间距离大,更容易区分。通过在Office-Home数据集上的比较,突出了模型在多个关键指标上的优越表现。表明采用的方法在减少领域差异、增强特征的紧凑性和辨别力方面具有显著优势,从而提高了整体的预测准确性。   虽然CLIP的源域特征r(Is)和目标特征r(It)的紧凑型与监督训练的ViT相似,但是MMD和KL散度最小化,从而导致目标域的精度(ACC)更高。这表明CLIP有可能最小化UDA的领域差异,而UDA受益于多模态交互。

为了进一步使VLM适应下游UDA任务,最有效的方法之一就是提示调优。当前最先进的提示调优方法,比如CoOp和MaPLe在一些特定的下游任务中表现出卓越的性能。CoOp方法采用软提示来学习合适的文本提示,MaPLe进一步引入视觉-文本提示来确保相互协同。

继续解释图1:(1)与CLIP相比,MaPLe(目的就在于减少领域偏移,尤其通过提示调优来优化模型)在对齐源域和目标域对齐上做了工作,其中MMD和KL散度比较低就可以证明这一点,这说明提示调优可以帮助最小化领域偏移。(2)MaPLe的图像特征更加紧凑,说明提示调优可以进一步提高CLIP的判别能力。

尽管如此,这些提示调优的方法都不足以完全解决领域偏移的问题,因为这些问题主要关注于如何优化提示词的位置和内容,并不是直接处理导致领域偏移的根本原因。因此,本文认为提示不仅应该关注其设计,还应该将领域知识融入到提示中来适应不同的领域。

为此,本文提出了一种基于提示的分布对齐(PDA)的UDA方法。PDA包含两个分支,即基础分支和对齐分支。基础分支通过提示调优生成图像和文本表示,重点是将类相关的表示集成到提示中,确保模型在不同领域中能够区分不同类别。UDA的主要目标就是最小化图像表示的分布偏移。对齐分支通过利用从图像中提取的特征来引入领域知识,旨在减少源域和目标域之间的特征差异。

为此,本文首先构建了源域和目标域特征库,并提出了图像引导的特征调优(IFT),使输入的图像表示与特征库相符,从而有效地将自增强和跨域特征集成到模型中。如图 1 所示,PDA 不仅在获得更具可判别性的图像和文本表示方面表现出色(r(Is)和r(It)高),而且有效地缓解了域差异(KL和MMD低)。因此,本文方法可以保证模型的可判别性,并能有效地从源域和目标域捕获重要特征,从而实现域对齐,使模型更好地适应目标域。

本文贡献:

(1)首先通过实验验证了VLM在UDA下游任务上的有效性。基于这一发现,本文进一步提出了一种基于提示的分布对齐(PDA)方法,用于将提示到调整到目标域。

(2)提出的PDA方法包括两个分支。基础分支确保了不同类别之间的可判别性。对齐分支通过IFT(图像引导的特征调优)获得领域不变表示。

(3)大量的实验证明了所提出的PDA的有效性,该PDA在Office-Home、Office-31和VisDA-2017上实现了最先进的性能。

Preliminaries

Unsupervised Domain Adaptation

UDA的重点在于使用源域中标记数据和目标域中未标记数据来提高模型在目标域中的泛化性能。源域数据(ns表示源域数据的样本数):,目标域数据(nt表示目标域数据的样本数):。源域和目标域的数据是从两个不同的分布中采样得到的,但是两个域共享相同的标签空间(可以理解为源域为室内动物的照片,目标域为室外动物的照片)。X表示输入空间,Y表示标签集合,从图像到标签存在映射关系M : {X} → Y。本文工作将提示V合并到输入中,因此映射关系变成M : {X,V} → Y。本文工作的目标就是缓解Ds和Dt之间领域偏移的问题,并学习一种提示,可以促进将源域的知识转移到目标域中。

Revisiting Prompt Learning

对比语言-图像预训练(CLIP)模型由图像编码器和文本编码器组成,分别对图像和对应的文本描述进行编码。

Zero-shot inference

预训练的CLIP模型使用手动设计的提示来适应下游任务,而不是微调模型。文本通常被设计为“A Photo of [Class]”。j将图像送入图像编码器得到图像表征z,将该类的文本表示送入文本编码器得到文本表征wi。图像文本配对分数通常是计算图像表征z和对应于该类的文本表示wi之间的余弦相似度<wi,z>得到的。某张图片属于第i类的概率为:

其中τ代表温度参数,K表示共有K个类别,< , >表示余弦相似度。

Text prompt tuning

文本提示调优避免了手动提示工程并且增强了CLIP的迁移能力。CoOp引入了一组M个连续的可学习向量v=[v1,v2,v3,,,vm],第i类的文本提示ti表示为ti=[v,ci],其中ci表示固定的输入嵌入标记。

通过基于transfomer的架构,可学习向量可以扩展到文本编码器的更深的transformer层,因此每一层输入都可以改写为 [vj, cj],其中 J 是文本编码器中的transformer层数,[·,·] 是指串联操作。

Visual prompt tuning

其方法与文本提示调优的范式类似,自动学习输入到图像编码器每一层的上下文向量。对于每一层j(共有J层):[vj,ej,cj]。其中vj表示可学习的上下文向量,ej表示图像嵌入,cj表示可学习的类标记,用于代表输入图像的类别。

Multi-modal prompt tuning

文本提示和视觉提示合并就成为CLIP。MaPLe通过在两种模式之间共享提示来调整视觉分支和文本分支。

Method

Prompting for Base Branch

Prompt design.

本文主要采用了多模态提示的范式。图像编码器前期层中,通过映射层将文本提示转化为视觉提示(具体过程可以理解为先将文本提示转换成文本嵌入向量,然后将文本嵌入向量通过投影层生成视觉提示向量,最后将生成的视觉提示向量与图像patch一同送到图像编码器进行编码)。这就意味着使用文本提示来指导图像编码的过程,使得图像在特征空间中拥有文本提示的信息,从而实现文本和图像的对齐。图像编码器的后续层中,每一层都利用独立的提示。这种设计允许每一层独立地捕捉图像不同的视觉特征和语义特征,从而实现图像和文本更好的交互,同时捕捉不同的视觉和文本提示。

Loss function.

采用对比损失函数来对齐文本表示和图像表示:

为了更深的探索目标域的数据,本文使用伪标签来训练未标记的数据。伪标签是通过预训练的CLIP模型生成的。为了增强这些伪标签的可靠性,本文设置了一个固定的阈值τ,当CLIP为给定的图像进行预测的最高概率低于τ时,这个伪标签就会被抛弃。因此更新了损失函数(其中I(·)表示指示函数):

Pipeline of Alignment Branch

在对齐分支中,本文为源域和目标域分别构建了特征库,并且提出了IFT(图像引导的特征调整)方法,使得输入参与到特征库中,从而实现领域对齐。

Constructing feature banks

通过访问源域和目标域的数据,本文可以从两个域中得到文本特征和图像特征。基于CLIP强大的zero-shot能力,我们可以构建一个具有鲁棒性且准确的特征库。

首先,我们利用CLIP的zero-shot能力,为源域中的图像生成置信度分数。同样,我们为目标域中的图像生成置信度分数和相应的伪标签。具体来说,最大置信度分数的索引就是目标域图像的伪标签。

然后本文分别从源域和目标域中选取置信度分数前C位的图像的视觉特征,构建具有K-way C-shot的源域特征库和目标域特征库。

然后,我们得到每个类别的质心特征,分别为作为最终的源域特征库Zsc和目标域特征库Ztc。

Image-guided feature tuning (IFT)

IFT利用特征库来引导图像获得自增强特征和跨域特征。

首先,使用一个权重共享的投射层fpre(投影层是一个三层的多层感知机)将图像特征、源域特征库和目标特征库中的特征转换为Q、K、V:

本文使用注意力机制来对图像特征进行增强,接着使用另一个权重共享的投射层fpost来进一步处理增强的特征:

然后,本文将原始的图像特征通过残差连接和归一化来与当前特征结合:

最后增强的特征可以描述为:β1zvs + β2zvt

Loss function

通过使用对比损失函数来对齐源域和目标域特征库的图像表征(其中h表示IFT模块):

表示源域增强的图像特征。

与基础分支类似,本文使用目标域的数据,然后获得目标域数据的图像增强表示,损失函数表示为:

总损失(γ表示超参数):

在测试阶段,本文计算来自基础分支和对齐分支的预测的加权和,从而得出模型的最终预测。这两个分支不仅对于增强模型的可判别性至关重要,而且对于对齐源域和目标域之间的分布偏移也至关重要。

Conclusion

本文展示了VLM及其提示调优在无监督领域适应中的有效性。基于此,我们将分布对齐引入到提示调优中,并提出了一种具有双分支训练范式的基于提示的分布对齐(PDA)方法。这两个分支不仅在提高模型可判别性方面起着至关重要的作用,而且在缓解源域和目标域之间的分布偏移方面也起着至关重要的作用。大量的实验证实了我们提出的方法的有效性,我们的PDA方法在无监督域适应方面取得了新的最先进的性能。由于学习到的提示具有可转移性,我们可能会在未来的工作中进一步探索无监督域适应或其他下游任务的提示对齐。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2043751.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HTML标签简明通俗教程

HTML标签简明通俗教程 基本知识 HTML&#xff1a;是超文本标记语言&#xff08;Hyper Text Markup Language&#xff09;的缩写&#xff0c;它是用于创建网页的标准标记语言。标签是构成HTML文档的基本单位。 【HTML中的标签&#xff08;tag&#xff09;和元素&#xff08;e…

一款手机壳凭什么卖800元?Casetify品牌策略全解析 | 品牌出海

Casetify官网 巴黎奥运会&#xff0c;张怡宁的手机壳火了。 张怡宁在现场观战并使用手机的照片在网上流传&#xff0c;不是因为这位奥运前冠军&#xff0c;而是她的手机壳。这款满是「花花绿绿」图案的手机壳&#xff0c;迅速被网友发掘出是Casetify品牌的名为「炫彩花卉」的…

Windosw下Visual Studio2022编译OpenCV

OpenCV&#xff08;Open Source Computer Vision Library&#xff09;是一个开源的计算机视觉和机器学习软件库。它提供了一系列用于处理图像和视频的算法和函数&#xff0c;包括图像处理、特征检测、物体识别、人脸识别等。OpenCV支持多种编程语言&#xff0c;如C、Python、Ja…

从源码到应用:医疗陪诊系统与在线问诊小程序开发详解

在数字化医疗时代&#xff0c;医疗陪诊系统与在线问诊小程序的开发成为了医疗机构和技术公司关注的焦点。接下来&#xff0c;小编将与您一同深入了解。 一、医疗陪诊系统的核心功能 医疗陪诊系统旨在为患者提供更贴心的医疗服务&#xff0c;通过专业人员陪同患者完成就医过程。…

谷歌如何增加网站被收录的机会?

要增加网站被搜索引擎收录的机会&#xff0c;你需要采取一些有效的措施&#xff0c;要确保网站的内容质量高&#xff0c;内容质量不高的内容&#xff0c;哪怕被收录了&#xff0c;之后也是有很大概率会掉的&#xff0c;必须确保内容对用户是有价值的&#xff0c;并且是原创的&a…

ppt文件批量设置打开权限密码的方法

为PPT文件批量设置打开权限密码&#xff0c;可以通过Office软件内置的功能或借助第三方软件来实现。对于少量文件可以用PPT内置的密码设置功能实现&#xff0c;但是对于文件比较多的情况下必须要用到第三方的软件来进行批量设置&#xff0c;以下是一些方法。 一、使用Office软件…

立式报工台助力MES系统打造智能硬件解决方案

信息化与自动化的深度结合&#xff0c;使得企业在生产效率、质量控制以及资源管理等方面得以大幅提升。制造执行系统MES作为连接企业管理层与生产现场的重要桥梁&#xff0c;正在愈发得到重视。为了进一步强化MES系统的功能与应用&#xff0c;立式报工台作为一种新兴的智能硬件…

【网络】TCP协议面向字节流和粘包问题

目录 面向字节流 粘包问题 解决粘包问题的方法 个人主页&#xff1a;东洛的克莱斯韦克-CSDN博客 面向字节流 TCP是一种面向字节流的协议&#xff0c;这意味着TCP并不将传输的数据视为独立的消息或报文&#xff0c;而是将其视为一个连续的字节序列。在TCP连接中&#xff0c;发…

通过AI帮我分析实现的2019销售季度对比叠加图

话不多说,看效果 1)先准备销售表内容:高手自测.xlsx 2)向kimi上传文件,并提问 3)得出结果,代码如下: import pandas as pd from pyecharts.charts import Bar, Line, Overlap from pyecharts import options as opts# 读取Excel文件 df pd.read_excel(高手自测3.xlsx)# 数据预…

jenkins工具配置

上一篇&#xff08;https://blog.csdn.net/abc666_666/article/details/141207741&#xff09;文章我们介绍了基于docker安装jenkins的过程&#xff0c;本文将介绍如何配置jenkins的相关全局工具如maven、 jdk以及git等 配置的页面如下&#xff1a; 打开后的页面如下&#xff…

JookDB和MobaXterm下载安装使用

文章目录 1.使用背景2.MobaXterm的下载安装使用3.JooKDB的下载安装使用 1.使用背景 由于xshell和xftp等工具都是收费的&#xff0c;即使有破解版但是有的公司里不让用盗版的软件。可以使用MobaXterm来替代。 同理可使用JooKDB来代替收费的navicat 来连接数据库。 2.MobaXterm…

机器学习深度学习中的搜索算法浅谈

机器学习&深度学习中的搜索算法浅谈 搜索算法是计算机科学中的核心算法&#xff0c;用于在各种数据结构&#xff08;如数组、列表、树、图等&#xff09;中查找特定元素或信息。这些算法不仅在理论上具有重要意义&#xff0c;还在实际应用中扮演着关键角色。本文将详细探讨…

vulnhub靶机:DC-4

目录 导入靶机 信息收集 发现IP 目录扫描 端口扫描 访问 web 弱口令爆破 反弹shell 获得交互式 shell 提权 使用 hydra 暴力破解 SSH 连接 jim 用户 登录charles账户 使用 teehee 创建 root 用户 导入靶机 点击重试 然后网卡换成 NAT模式&#xff0c;开启靶机 信息…

web前端之实现霓虹灯背景魔术卡、旋转的背景动画、模糊效果、边框、变量、filter

MENU 前言效果图htmlstyle 前言 代码段定义一个名为Magic Card的卡片&#xff0c;并通过一系列CSS属性和动画效果来美化和增强该卡片的视觉效果。 效果图 html <div class"card">Magic Card </div>style 代码 property --rotate {syntax: "<a…

EasyCVR视频汇聚平台:深度解析GB/T 28181协议下的视频资源整合与应用

随着安防技术的快速发展和智慧城市建设的推进&#xff0c;视频监控系统作为公共安全、城市管理、企业运营等领域的重要基础设施&#xff0c;其重要性和应用范围不断扩大。在这一过程中&#xff0c;GB/T 28181作为国家标准中关于视频监控设备通信协议的规范&#xff0c;正逐渐受…

DatawhaleAI夏令营 多模态大模型

任务讲解 此次的任务和一般以模型为中心的任务不同&#xff0c;是以数据为核心的。要求在官方给定的数据集的基础上进行数据清洗和数据合成&#xff0c;生成更为优质的数据集&#xff0c;以提高多模态模型的性能。&#xff08;此次的模型以图文能力为主&#xff09; 我们将会…

搜维尔科技:驾驶模拟器背后的技术: Varjo的虚拟/混合现实 (VR/XR)提供独特的优势,最终加快汽车开发创新的步伐

专业驾驶模拟器广泛应用于车辆开发&#xff0c;帮助汽车行业在开发过程的早期做出更好的设计决策。总体目标是为测试驾驶员提供最真实的驾驶体验&#xff0c;包括动态动作和声音&#xff0c;并测试控制算法或辅助系统等功能。环境越真实&#xff0c;驾驶员的体验就越接近最终车…

[vue] pdf.js / vue-pdf 文件花屏问题

vue-pdf内核也是pdf.js&#xff0c;修改方式一样 在pdf.worker.js中加入几行代码&#xff0c;追加到”precinct.zeroBitPlanesTree zeroBitPlanesTree;“之后。 for (var l 0; l < layerNumber; l) {if (readBits(1) ! 0) {throw new JpxError("Invalid tag tree&qu…

vba代码插入折线图

xqwertyy52152018139hi303533312015 Sub test()Set sht1 ThisWorkbook.Worksheets("示例")x sht1.Range("I1").Lefty sht1.Range("I1").Topw sht1.Range("N15").Width * 15h sht1.Range("N15").Height * 25Set ch1 s…

Progressive Multi-modal Conditional Prompt Tuning

文章汇总 动机 图像的重复消化有助于提高分类精度。ProMPT不是直接进行预测&#xff0c;而是多次重新访问原始图像以检查答案&#xff0c;逐步将预测从粗糙细化到精确。 希望达到的效果如下&#xff1a; 图7:通过迭代进化&#xff0c;ProMPT逐步将CLIP产生的错误结果纠正为正…