ALIGN_ Tuning Multi-mode Token-level Prompt Alignment across Modalities

news2025/1/10 16:08:54

在这里插入图片描述

文章汇总

当前的问题

目前的工作集中于单模提示发现,即一种模态只有一个提示,这可能不足以代表一个类[17]。这个问题在多模态提示学习中更为严重,因为视觉和文本概念及其对齐都需要推断。此外,仅用全局特征来表示图像和标记是不可靠的[29,30],可能会失去目标物体的局部区域特征,导致次优分类。

1:TPT 单文本提示

2:VPT 单视觉提示

3:PLOT 通过OT(最优传输距离)寻找与图像特征最相关的prompt

4:MPT 多模态提示,即文本和图像都有提示

动机

通过分层OT(optimal transport)结合了多模态和令牌级对齐。

解决办法

首先,每个图像以及它的标签分别有 M M M组视觉提示和 N N N组文本提示。

对应一组样本(图像和标签),我们先

寻找最佳提示(第一个OT)

现在我们有 M M M组视觉提示 { v m } m = 1 M \{v^m\}^M_{m=1} {vm}m=1M N N N组文本提示 { t n } n = 1 N \{t^n\}^N_{n=1} {tn}n=1N,其中每个 v m ∈ R d v × b v^m\in R^{d_v \times b} vmRdv×b t n ∈ R d l × b t^n \in R^{d_l \times b} tnRdl×b都是长度为 b b b的可学习提示序列。在数学上,我们使用两个经验分布 P P P和$ Q $来建模两种模态的集合:

其中 x m x_m xm y n y_n yn表示 d d d维潜在空间的第 m m m个视觉输出和第 n n n个文本输出。它们被进一步建模为标记级嵌入上的离散分布,这将在后面介绍。Eq. 3平等地看待每个提示,并采用均匀分布的方式对权重进行建模。有了这两个语义集 P P P Q Q Q,图像和标签之间的距离不再是先将每个图像和标签表示为单个点,然后使用余弦相似度来计算的。ALIGN倾向于挖掘多模式特征来描述各种类概念,从而产生更好的表示。因此,距离可以表示为一个熵正则化的提示级OT问题[42]:

其中 λ > 0 \lambda>0 λ>0为正则化权值, C ∈ R M × N C\in R^{M\times N} CRM×N为视觉集 x x x与文本集 y y y之间的代价矩阵, T ∈ R M × N T\in R^{M\times N} TRM×N为有边际约束的待学习传输计划,如 T 1 N = 1 / M , T T 1 M = 1 / N T1_N=1/M,T^T1_M=1/N T1N=1/M,TT1M=1/N。注意, T m n T_{mn} Tmn衡量的是从第 m m m个视觉提示到第 n n n个文本提示的传递概率,较大的值意味着两个提示之间跨模态的高语义连接。因此,Eq. 4估计了 P P P Q Q Q之间的期望运输成本,为计算图像和标签之间的相似度提供了一个原理解决方案。

值得注意的是,Eq. 4中的代价矩阵 C C C T T T的学习起着至关重要的作用,直观地看,两点之间的传输代价越大,传输概率就越低

对于每组视觉提示和每组文本提示的组合,如图中的 C 2 , 3 C_{2,3} C2,3(第2组视觉提示和第3组文本提示的组合),我们都考量它的token级别的传输代价。

考量视觉patch和文本token之间的传输成本

我们将视觉输出 x x x和文本输出 y y y指定为标记嵌入的两个经验分布(这里为了清晰起见,我们省略了下标 m m m n n n):

式中 r = [ e ~ 1 , … , e ~ O , v ~ 1 , … , v ~ b ] r=[\tilde{e}_1,\ldots,\tilde{e}_O,\tilde{v}_1,\ldots,\tilde{v}_b] r=[e~1,,e~O,v~1,,v~b]为输出的长度为 J = b + O J=b+O J=b+O的视觉patch, s = [ t ~ 1 , … , t ~ b , w ~ k , 1 , … , w ~ k , k l ] s=[\tilde{t}_1,\ldots,\tilde{t}_b,\tilde{w}_{k,1},\ldots,\tilde{w}_{k,kl}] s=[t~1,,t~b,w~k,1,,w~k,kl]是长度为 b + k l b+k_l b+kl的输出文本标记。与代表提示级特征的 z z z h h h不同, x x x y y y在CLIP的共享嵌入空间中收集令牌级特征。自然地,在token级OT中,代价矩阵 C ^ ∈ R J × L \hat C \in R^{J\times L} C^RJ×L定义为 C ^ j l = 1 − sim ( r j , s l ) \hat C_{jl}=1-\text{sim}(r_j,s_l) C^jl=1sim(rj,sl),它衡量视觉patch和文本token之间的传输成本。因此, x x x y y y之间的距离是token级OT的总运输成本:

其中,传输计划 T ^ ∈ R J × L \hat T\in R^{J\times L} T^RJ×L表示第 j j j个视觉pacth传输到第 l l l个token特征,提供了对齐token级特征的原则解决方案。这促使我们开发了一个综合成本矩阵,同时考虑了提示和令牌级别的功能:

其中 β \beta β是一个权衡参数,控制令牌级成本的权重。前两项是提示级特征之间的余弦距离,最后一项是token级集之间的OT距离。通过这种方式,Eq. 6结合了来自两个层次的预训练知识:提示级特征和标记级嵌入。这使得提示级OT中学习到的传输计划 T T T能够在 M M M个视觉特征和 N N N个文本特征之间进行细粒度匹配,从而实现详细的对齐和更好的表示。

模型的预测

一旦Eq. 4被计算出来,我们按照之前的工作[17],预测图像 X j X_j Xj的标签为:

式中, C j , k C^{j,k} Cj,k为第 j j j个图像和第 k k k个标签的代价矩阵。注意,在我们的模型中,分类器 Q k Q_k Qk的权重可以看作是标签 k k k N N N个文本提示上的离散均匀分布,其中包含多个与类相关的语义,从而提高了分类结果。由于Sinkhorn算法可微分,通过最小化以下交叉熵损失,可以对所提模型的所有参数进行端到端优化:

其中, y X y_X yX为图像 X X X的单热标签向量。由于采用OT公式,我们提出的ALIGN的目标是学习 M M M个视觉提示序列和 N N N个文本提示序列,而不引入任何神经网络。我们在附录算法中描述了我们提出的模型。

摘要

视觉语言模型在提示调整方面的进步强调了它们在增强开放世界视觉概念理解方面的潜力。然而,之前的工作主要集中在单模态(每种情态只有一个提示)和整体层面(图像或句子)的语义对齐上,未能捕捉到样本多样性,导致次优提示发现。为了解决这一限制,我们提出了一个多模式令牌级调优框架,该框架利用最佳传输来学习和对齐一组跨模式的提示令牌。具体来说,我们依赖于两个基本因素:1)多模式提示发现,它保证了不同的语义表示;2)令牌级对齐,它有助于探索细粒度的相似性。因此,相似性可以计算为模态特定集之间的分层运输问题。在流行的图像识别基准上进行的大量实验表明,我们的方法具有优越的泛化和少样本能力。定性分析表明,习得的提示符号具有捕捉不同视觉概念的能力。代码可在https://github.com/wds2014/ALIGN上获得。

1.介绍

最近,提示调优在使大型预训练视觉语言模型(PVLs)如CLIP[1]和BLIP[2]适应下游任务方面取得了重大进展[3-6]。一个典型的PVL模型由两个分支网络组成:文本和图像编码器。这些网络用于提取相应的模态特征。PVL通常在web规模的图像-文本对上进行对比预训练,这鼓励视觉概念与共享语义空间中的自然语言保持一致。提示调优背后的核心思想之一是将下游任务制定为原始的预训练管道。例如,CLIP用一个手动提示模板““a photo of a {class}”来设计类别描述,它在通用图像识别中工作得很好。与全微调不同,在微调中,整个模型使用特定于任务的目标进行调整,需要高昂的计算成本,并带来知识转移问题的风险[7-9],提示调优则固定模型参数并优化提示向量,提示向量作为演示来帮助提取与任务相关的特征。这大大有利于通过PVLs表示,即使在没有训练样本的情况下执行零样本推理。

然而,识别PVLs的最佳提示并不是一项简单的任务,它通常需要解决文本和视觉模式之间复杂的语义对齐问题。受神经语言模型(NLP)的提示学习[10,7,11]的启发,提出了一种称为文本提示调优(TPT)的方法来学习CLIP文本编码器的连续提示嵌入,例如,“X X X X X {class}”,其中“X”表示可学习向量[3,4]。通过特定任务损失优化,学习到的提示嵌入提取了编码在固定参数中的预训练知识,比手工方法具有更好的灵活性和效率[1]。为了提高TPT在未见类上的泛化性,许多研究试图从梯度流[12,13]、原型和作文提示学习[14-16]中给出解决方案。学习单模提示往往无法捕捉到不同的概念,各种方法都倾向于基于集成学习[1]、最优传输[17]和贝叶斯推理[18-20]来探索多个提示,从而显示出鲁棒对齐和更好的性能。

与TPT并行,视觉提示调谐(visual prompt tuning, VPT)侧重于CLIP图像编码器的patch嵌入空间[6]。VPT将图像视为一个补丁序列,并引入视觉提示来增强图像表示,例如,“X X X X X {image}”,其中“image”表示图像补丁序列。VPT提供了一种简单高效的提取任务相关视觉特征的思路,已被广泛应用于许多视觉任务,如视频理解[21]、领域自适应[22]、迁移学习[23]和图像分割[24-26]。最近出现了将TPT和VPT结合起来学习多模态提示的研究趋势[27,28]。然而,他们目前集中于单模提示发现,即一种模态只有一个提示,这可能不足以代表一个类[17]。这个问题在多模态提示学习中更为严重,因为视觉和文本概念及其对齐都需要推断。此外,仅用全局特征来表示图像和标记是不可靠的[29,30],可能会失去目标物体的局部区域特征,导致次优分类

图1:最近的提示调优方法中的对齐比较。提出的ALIGN同时学习多模态多模提示,从而实现全面对齐。

为此,本工作开发了一个全面的提示调优框架,其中通过构建提示和令牌级最佳传输(OT)来学习多模式多模式提示。形式上,在向模态特定的编码器提供多个提示输入后,我们的提示级OT将每个图像视为视觉提示空间上的离散分布 P P P,并将每个标签视为文本提示空间上的离散分布 Q Q Q。有了这样的表述,分类任务就变成了测量 P P P Q Q Q之间的距离。此外,伴随着全局提示级特征,patch(或token)嵌入捕获目标对象的局部区域特征(或类别描述)。这激发了令牌级OT,其中每个提示输出都被建模为令牌嵌入空间上的离散分布。然后在视觉补丁和文本标记之间计算成本矩阵,从而实现标记级对齐。至关重要的是,提示级OT中的成本矩阵(衡量来自两个域的提示之间的传输成本)现在被转换为集成全局特征和令牌级OT的输出。这种分层连接使得使用详细的标记和补丁特征来预测标签成为可能,从而提高了准确性。

总之,我们的方法提供了一个新的提示调优框架,该框架通过分层OT结合了多种模式和令牌级对齐。提示级OT从图像和语言领域学习类的不同语义,而令牌级OT探索令牌嵌入之间的细粒度对齐。值得注意的是,通过不同的超参数设置,所提出的模型的变体涵盖了许多以前的工作,为跨不同应用的轻松适应提供了灵活性。本文的主要贡献如下:

•我们提出了一个用于多模态提示调优的多模式令牌级对齐框架,其中学习了多个提示以改进视觉和文本模式的表示。通过特殊的设置,许多以前的作品可以边缘到我们的框架中。

•我们将提示调优任务表述为分布匹配问题,并开发了提示和令牌级OT,以原则性和优雅的解决方案来处理该任务。

•我们将我们的方法应用于少样本分类、数据集迁移学习和领域泛化。在广泛使用的数据集上的实验结果表明了该模型的优越性。

2.背景

2.1 多模态提示微调

多模态提示调谐(Multi-modal prompt tuning, MPT)[28,27]是一项新开发的任务,它可以联合学习PVLs的文本和视觉提示。联合调谐范例不是单独优化单峰提示,而是利用PVLs的两个分支网络,而且在训练期间允许两种模式之间的交互,从而实现动态对齐。例如,我们使用基于CLIP的视觉转换器(ViT),它由ViT作为图像编码器 f f f和transformer作为语言编码器 g g g组成。给定输入图像 X ∈ R H × W × 3 X\in R^{H\times W \times 3} XRH×W×3 K K K个标签名称 { c l a s s k } k = 1 K \{{class}_k\}^K_{k=1} {classk}k=1K。MPT首先将 b b b个可学习的标记作为视觉提示 { v i ∈ R d v } i = 1 b \{v_i\in R^{d_v}\}^b_{i=1} {viRdv}i=1b,并将另一组 b b b个可学习的标记作为文本提示 { t i ∈ R d l } i = 1 b \{t_i\in R^{d_l}\}^b_{i=1} {tiRdl}i=1b。将它们与图像补丁和类名连接起来,可以得到CLIP的输出如下:

其中 < c l s > , < e o s > <cls>,<eos> <cls>,<eos>为虚拟令牌, [ e 1 , … , e O ] [e_1,\ldots,e_O] [e1,,eO] O O O个图像补丁嵌入, [ w k , 1 , … , w k , k l ] [w_{k,1},\ldots,w_{k,k_l}] [wk,1,,wk,kl]是长度为 k l k_l kl的第 k k k类token嵌入。在 f f f g g g的自关注层堆叠后,CLIP输出标记嵌入,并将 z z z h k h_k hk分别视为图像和标签的提示级特征。实证研究表明,通过视觉-语言映射函数如 v = F ( t ) v = F(t) v=F(t)投射语言提示 t t t,比独立学习语言提示 t t t更有效地获得视觉提示 v v v[28,6]。最后,MPT根据余弦相似度得分估计 x x x的标签:


式中 τ \tau τ为固定温度参数。MPT统一了TPT和VPT的思想,同时对视觉提示符 v v v和文本提示符 t t t进行直接调优。Eq. 1表示文本编码器 g g g以分类提示作为输入,输出 h h h作为相应的分类器权值。由于CLIP中预先训练的知识,MPT保留了执行开集分类的能力。注意CLIP中的编码器 f f f g g g都是冻结的,只有提示序列 v v v t t t在下游训练期间被优化。这个过程可以看作是引导编码器提取任务相关特征的一个引导步骤。

2.2 最优运输距离

最优传输(Optimal transport, OT)是测量两个分布之间距离的有效工具,在最近的机器学习研究中被广泛使用,如文本分析[31-33]、计算机视觉[34 - 39]和生成模型[40,41]。在这里,我们回顾离散OT匹配,详细信息请参阅[42]。给定两组数据点 X = { x i } i = 1 m X=\{x_i\}^m_{i=1} X={xi}i=1m Y = { y j } j = 1 n Y=\{y_j\}^n_{j=1} Y={yj}j=1n,其离散分布分别表示为 p = ∑ i = 1 m a i δ x i p=\sum^m_{i=1}{a_i \delta_{x_i}} p=i=1maiδxi q = ∑ j = 1 m b i δ y i q=\sum^m_{j=1}{b_i \delta_{y_i}} q=j=1mbiδyi a ∈ Δ m , b ∈ Δ n a \in \Delta^m ,b \in \Delta^n aΔm,bΔn,其中 Δ m \Delta^m Δm R m R^m Rm的简单概率。我们定义 X X X Y Y Y之间的成本矩阵为 C = ( C i j ) ∈ R ≥ 0 m × n C=(C_{ij}) \in R^{m\times n}_{\ge 0} C=(Cij)R0m×n,其中 C i j = c ( x i , y j ) C_{ij}=c(x_i,y_j) Cij=c(xi,yj)为从 x i x_i xi y j y_j yj的运输成本, C C C为成本函数。OT的目标是以最小的成本将 p p p传输到 q q q:

其中 < ⋅ , ⋅ > <\cdot,\cdot> <,>表示Frobenius点积, T ∈ R > 0 m × n T \in \mathbb{R}^{m\times n}_{> 0} TR>0m×n表示要学习的传输方案。然后在 m × n m\times n m×n空间的所有联合概率上最小化OT距离,并具有两个边缘约束 Π ( p , q ) : = { T : T 1 n = a , T T 1 m = b } \Pi(p,q):=\{T:T 1_n=a,T^T1_m=b\} Π(p,q):={T:T1n=a,TT1m=b},其中 1 m 1_m 1m表示 m m m维的全1向量。由于在Eq. 2中直接学习最优计划 T T T对于大规模问题可能会很耗时,因此来自[42,43]的Sinkhorn距离引入了对传输计划 h ( T ) = ∑ m , n − T m n In ( T m n ) h(T)=\sum_{m,n}-T_{mn}\text{In}(T_{mn}) h(T)=m,nTmnIn(Tmn)的熵约束,因此得到的算法在几次迭代内估计出 T T T,具有更好的灵活性和可扩展性。

3. 提出的方法

3.1 总体方法

图2:(a)提议的ALIGN的框架。ALIGN通过将特定于模式的分布与分层OT对齐来学习PVLs的多个提示。(b) ALIGN图像嵌入的t-SNE可视化。

在本节中,我们将介绍我们提出的模型的技术细节,该模型名为ALIGN,它是一个用于优化传输的多模式提示调整的整体框架(如图2所示)。得益于精心设计的多模式令牌级对齐模块,大多数现有工作可以通过特殊设置合并到我们的ALIGN中。从直观上讲,人类学习一个具有各种概念的类,这些概念提供了足够的语义特征,如颜色、布局、形状等,从而将其与其他类区分开来[17]。受此启发,本作品的目标之一是同时学习 M M M个视觉提示和 N N N个文本提示。具体来说,我们首先引入提示级OT,其中每个图像和标签都被建模为 M M M维视觉空间和 N N N维文本空间上的离散分布 P P P Q Q Q。此外,我们没有将提示输出表示为单个点,例如全局特征 z z z h h h,而是提取了CLIP中隐含的令牌级知识。回顾一下,第 k k k类的第 n n n个文本提示输出包含 b + k l b + k_l b+kl个标记嵌入,图像的第 m m m个视觉提示输出包含 b + O b + O b+O个补丁嵌入,它们捕获了相应模态的局部区域特征。这促使我们开发令牌级别的OT,为细粒度的对齐进行令牌级别的比较。因此, P P P Q Q Q中的第 m m m n n n个点本身被进一步建模为共享令牌嵌入空间上的离散分布。由于令人信服的两级OT连接,其中提示级OT中的成本矩阵由令牌级OT的输出获得,学习的传输计划捕获提示和令牌级特征,这提供了一种原则和优雅的方法来估计标签和图像集之间的距离。

3.2 多模式token级提示对齐

在MPT学习单模提示来描述类并基于提示级特征估计相似性的基础上,我们的目标是探索文本和视觉域的多模式表示,并进行细粒度对齐以提高预测精度。现在我们有 M M M组视觉提示 { v m } m = 1 M \{v^m\}^M_{m=1} {vm}m=1M N N N组文本提示 { t n } n = 1 N \{t^n\}^N_{n=1} {tn}n=1N,其中每个 v m ∈ R d v × b v^m\in R^{d_v \times b} vmRdv×b t n ∈ R d l × b t^n \in R^{d_l \times b} tnRdl×b都是长度为 b b b的可学习提示序列。在数学上,我们使用两个经验分布 P P P Q Q Q来建模两种模态的集合:

其中 x m x_m xm y n y_n yn表示 d d d维潜在空间的第 m m m个视觉输出和第 n n n个文本输出。它们被进一步建模为标记级嵌入上的离散分布,这将在后面介绍。Eq. 3平等地看待每个提示,并采用均匀分布的方式对权重进行建模。有了这两个语义集 P P P Q Q Q,图像和标签之间的距离不再是先将每个图像和标签表示为单个点,然后使用余弦相似度来计算的。ALIGN倾向于挖掘多模式特征来描述各种类概念,从而产生更好的表示。因此,距离可以表示为一个熵正则化的提示级OT问题[42]:

其中 λ > 0 \lambda>0 λ>0为正则化权值, C ∈ R M × N C\in R^{M\times N} CRM×N为视觉集 x x x与文本集 y y y之间的代价矩阵, T ∈ R M × N T\in R^{M\times N} TRM×N为有边际约束的待学习传输计划,如 T 1 N = 1 / M , T T 1 M = 1 / N T1_N=1/M,T^T1_M=1/N T1N=1/M,TT1M=1/N。注意, T m n T_{mn} Tmn衡量的是从第 m m m个视觉提示到第 n n n个文本提示的传递概率,较大的值意味着两个提示之间跨模态的高语义连接。因此,Eq. 4估计了 P P P Q Q Q之间的期望运输成本,为计算图像和标签之间的相似度提供了一个原理解决方案。

值得注意的是,Eq. 4中的代价矩阵 C C C T T T的学习起着至关重要的作用,直观地看,两点之间的传输代价越大,传输概率就越低。

一个自然的选择是用全局特征 C m n = 1 − sim ( z m , h n ) C_{mn}=1-\text{sim}(z^m,h^n) Cmn=1sim(zm,hn)来指定 C C C,其中 z m , h n z^m,h^n zm,hn分别表示第 m m m个视觉提示和第 n n n个文本提示的提示级特征。然而,上述定义主要强调提示级表示,并且可能具有有限的捕获详细令牌级特征的能力,例如,图像中的不同补丁可能捕获不同的局部区域特征。因此,获得的传输计划可能无法反映 P P P Q Q Q之间的真实关系。为此,我们进一步引入考虑两个提示之间的令牌级对齐的令牌级OT。具体来说,我们将视觉输出 x x x和文本输出 y y y指定为标记嵌入的两个经验分布(这里为了清晰起见,我们省略了下标 m m m n n n):

式中 r = [ e ~ 1 , … , e ~ O , v ~ 1 , … , v ~ b ] r=[\tilde{e}_1,\ldots,\tilde{e}_O,\tilde{v}_1,\ldots,\tilde{v}_b] r=[e~1,,e~O,v~1,,v~b]为输出的长度为 J = b + O J=b+O J=b+O的视觉patch, s = [ t ~ 1 , … , t ~ b , w ~ k , 1 , … , w ~ k , k l ] s=[\tilde{t}_1,\ldots,\tilde{t}_b,\tilde{w}_{k,1},\ldots,\tilde{w}_{k,kl}] s=[t~1,,t~b,w~k,1,,w~k,kl]是长度为 b + k l b+k_l b+kl的输出文本标记。与代表提示级特征的 z z z h h h不同, x x x y y y在CLIP的共享嵌入空间中收集令牌级特征。自然地,在token级OT中,代价矩阵 C ^ ∈ R J × L \hat C \in R^{J\times L} C^RJ×L定义为 C ^ j l = 1 − sim ( r j , s l ) \hat C_{jl}=1-\text{sim}(r_j,s_l) C^jl=1sim(rj,sl),它衡量视觉patch和文本token之间的传输成本。因此, x x x y y y之间的距离是token级OT的总运输成本:

其中,传输计划 T ^ ∈ R J × L \hat T\in R^{J\times L} T^RJ×L表示第 j j j个视觉pacth传输到第 l l l个token特征,提供了对齐token级特征的原则解决方案。这促使我们开发了一个综合成本矩阵,同时考虑了提示和令牌级别的功能:

其中 β \beta β是一个权衡参数,控制令牌级成本的权重。前两项是提示级特征之间的余弦距离,最后一项是token级集之间的OT距离。通过这种方式,Eq. 6结合了来自两个层次的预训练知识:提示级特征和标记级嵌入。这使得提示级OT中学习到的传输计划 T T T能够在 M M M个视觉特征和 N N N个文本特征之间进行细粒度匹配,从而实现详细的对齐和更好的表示。

一旦Eq. 4被计算出来,我们按照之前的工作[17],预测图像 X j X_j Xj的标签为:

式中, C j , k C^{j,k} Cj,k为第 j j j个图像和第 k k k个标签的代价矩阵。注意,在我们的模型中,分类器 Q k Q_k Qk的权重可以看作是标签 k k k N N N个文本提示上的离散均匀分布,其中包含多个与类相关的语义,从而提高了分类结果。由于Sinkhorn算法可微分,通过最小化以下交叉熵损失,可以对所提模型的所有参数进行端到端优化:

其中, y X y_X yX为图像 X X X的单热标签向量。由于采用OT公式,我们提出的ALIGN的目标是学习 M M M个视觉提示序列和 N N N个文本提示序列,而不引入任何神经网络。我们在附录算法中描述了我们提出的模型。

4.相关工作

单模态提示微调:有两种单模态提示调音的故事情节,TPT和VPT。前者关注PLV的语言分支,对连续嵌入空间中的快速学习感兴趣。作为代表性作品之一,CoOp[3]使用一组可学习的向量对提示上下文进行建模,并显示出比密集调优的手动提示有很大改进。为了解决未见类别的弱泛化性,CoCoOp[4]通过显式地对图像实例进行条件反射来扩展CoOp,这将注意力从特定的类集转移到每个输入实例,从而实现更强的泛化性能。PLOT[17]不是单模提示学习,而是利用提示与图像patch之间的OT距离学习多个文本提示,实现多元提示调优。ProDA[19]首先成熟地设计了多个提示,然后利用高斯分布对提示嵌入进行建模,对提示的不确定性进行建模。相应的,vpt指的是在图像输入空间中预先添加视觉补丁,这也显示了将vpt用于下游任务的令人印象深刻的结果。例如,Jia等[6]将可训练的视觉提示向量引入到每个Transformer层的图像patch序列中,并与线性头部一起学习。尽管这些模型在各种视觉任务上表现良好,但它们被设计为学习单模态提示,无法利用预训练的多模态知识。

多模态提示调优:超越单模态提示调优,MPT是最近引入的一项任务,它可以同时学习文本提示和视觉提示。这种联合调优策略不仅提取了多模态知识,而且支持跨模态提示之间的动态对齐,显示出更好的泛化。Zang等人[27]提出了一个统一的提示调整框架(UPT)[27],它在不同的模态之间共享一个初始提示,并设计了一个微小的网络来共同生成特定于模态的提示。几乎与UPT平行,Khattak等人[28]提出了多模态提示调谐(MaPLe),并采用投影矩阵明确地对其语言对应的视觉提示进行条件调整,允许梯度的相互传播以促进协同。相比之下,本工作旨在学习多模态多模提示,以更好地满足多样化综合表征的要求。此外,与通过全局提示级特征来衡量图像和标签之间的相似性不同,我们将每个提示建模为标记级嵌入空间上的经验分布,并在分层OT框架下将提示和标记级特征结合起来计算相似性得分,这为PVL适应下游任务提供了一种新颖而优雅的工具。

5.实验

图3:7个数据集的小样本学习结果(其他数据集的更详细结果见附录表)d . 1)。红色实线表示ALIGN方法,虚线表示各种基线。所有结果以三个种子的平均值报告。

表1:在11个数据集上从基础到新。提示是从16发基本设置中学习的。我们报告了基集(base)、新集(new)及其调和均值(H)的分类精度,其中 H = ( 2 × b a s e × n e w ) / ( b a s e + n e w ) H = (2 × base × new)/(base + new) H=(2×base×new)/(base+new)。最好的结果被突出显示。

表2:跨数据集迁移学习准确率结果。这里我们使用关键字母来表示数据集。最好的结果被突出显示。

表3:跨域概化精度结果。最好的结果被突出显示。

6.结论

提出了一种新的多模式令牌级对齐框架,用于最优运输下的多模式提示调整。我们首先使用提示级OT对跨模式的多模式提示进行建模,然后通过将每个提示本身视为令牌嵌入空间上的集合来引入令牌级OT。通过成本矩阵耦合这些两级OT,通过结合提示级特征和标记级嵌入来获得最终预测,从而实现细粒度对齐。大量的实验表明,我们提出的模型在四种设置下达到了竞争性能。就局限性而言,用户可能仍然需要较大的GPU内存来加载预训练的PVL权重,以便将提议的模型应用于测试过程。一个潜在的解决方案是将提示调优与知识蒸馏结合起来。我们把它留给未来的研究。由于对PVL的开放世界视觉概念的理解,我们的模型显示出有希望的零样本/少样本图像识别能力,这有可能鼓励研究人员获得新的更好的方法来提示调整。我们的工作可能会间接导致负面影响,如果有一个足够恶意或不知情的选择,少样本的分类任务。

参考资料

论文下载(NeurIPS 2023)

https://arxiv.org/abs/2309.13847

代码地址

https://github.com/wds2014/ALIGN

附录

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2228257.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL数据集成至金蝶云星空的解决方案

MySQL数据集成至金蝶云星空的解决方案 SYB生产用料清单新增-深圳天一-半成品-好&#xff1a;MySQL数据集成到金蝶云星空的技术实现 在企业信息化系统中&#xff0c;数据的高效流转和准确对接是确保业务顺畅运行的关键。本文将聚焦于一个具体案例——如何将MySQL中的生产用料清…

javaweb----VS code

前端开发神器&#xff1a;VS Code → 速度快、体积小、插件多 VS Code 安装官网&#xff1a;https://code.visualstudio.com/download VS Code一些必备的插件安装&#xff1a; 1、Chinese (Simplified) 简体中文 2、Code Spell Checker 检查拼写 3、HTML CSS Support 4…

【新闻转载】“假冒 LockBit”来袭:勒索软件借助 AWS S3 偷窃数据,威胁升级

关键要点 Trend团队发现了一些利用 Amazon S3&#xff08;简单存储服务&#xff09;传输加速功能的 Golang 勒索软件样本&#xff0c;用于窃取受害者的文件并上传至攻击者控制的 S3 存储桶。 这些样本中硬编码的 Amazon Web Services (AWS) 凭证被用于追踪与恶意活动关联的 AW…

第十五章 Vue工程化开发及Vue CLI脚手架

目录 一、引言 二、Vue CLI 基本介绍 三、安装Vue CLI 3.1. 安装npm和yarn 3.2. 安装Vue CLI 3.3. 查看 Vue 版本 四、创建启动工程 4.1. 创建项目架子 4.2. 启动工程 五、脚手架目录文件介绍 六、核心文件讲解 6.1. index.html 6.2. main.js 6.3. App.vue 一、…

BEV:针孔相机坐标转换

一 、背景 自动驾驶中经常涉及到不同坐标系之间的坐标转换&#xff0c;在BEV方案中用的比较多的是自车坐标到图像坐标的转换&#xff0c;系统整理了一下坐标转换过程流程。 二 、方法 旋转矩阵计算方法&#xff1a; translation: 平移参数[‘x’, ‘y’, ‘z’] 高阶畸变模型…

开关灯问题(c语言)

样例&#xff1a;10 10 &#xff0c;输出&#xff1a;1&#xff0c;4&#xff0c;9 5 5 &#xff0c;输出&#xff1a;1&#xff0c;4 代码如下 #include<stdio.h> //引入bool值的概念 #include<stdbool.h> int main() {int n 0;//n为灯的数量int m 0;…

centos虚拟机部署opengauss数据库

一、基本信息 1、虚拟机安装的centos版本 2、opengauss版本 地址&#xff1a;https://opengauss.org/zh/download/ 3、opengauss和gaussdb的区别 高斯数据库&#xff08;GaussDB&#xff09;是云数据库&#xff0c;需要购买。 openGaussDB是开源数据库&#xff0c;可以免费…

搜索TV 1.2.4 | 适用于TV端的浏览器应用,设计简洁,功能强大

Klonsdif搜索TV版是一款专为TV端设计的浏览器应用&#xff0c;界面简洁&#xff0c;操作简单&#xff0c;保留最纯粹的浏览体验。支持使用百度、必应、360、搜狗、秘塔AI搜索、360AI搜索、bilibili等内置搜索引擎&#xff0c;也可以直接输入网址访问。全免费、无广告&#xff0…

Spring Boot 实现文件上传下载功能

文章目录 一、原理分析1.1 请求类型1.2 服务器解析 二、功能实现2.1 创建项目并导入依赖2.2 文件上传功能实现2.2.1 文件上传 Service2.2.2 文件上传 Controller 2.3 文件下载功能实现2.3.1 文件下载 Service2.3.2 文件下载 Controller 2.4 文件上传前端代码(可选)2.4.1 上传文…

注册信息合理性验证

表单是网页中的一个重要功能,主要用于用户信息的收集。使用JavaScript进行表单验证对于提升用户体验、减轻服务器负担、确保数据准确性、增强安全性和提高开发效率等方面都具有重要意义。本文详细敍述进行合理化验化必要性和具体实现方法。 一 表单项合理性必要性 主要体现在…

4款专业音频在线剪辑工具帮你开启创意之路。

音频在线剪辑工具能够为我们提供很大的便利&#xff0c;对于不管是专业的音乐制作人还是音频创作爱好者来说&#xff0c;都能借助一些音频编辑工具来充分发挥自己的创意。所以这一次&#xff0c;我要给大家介绍几个专业方便的音频剪辑工具。 1、福昕音频在线 直达链接&#x…

pdf页面提取全攻略,试试这几个简单方法,提升工作效率(收藏篇)

怎么提取pdf页面&#xff1f;在日常的办公生活中&#xff0c;我们经常需要使用到pdf文件&#xff0c;因此我们经常需要对PDF文档进行一些页面处理&#xff0c;比如提取PDF文件中的其中一个页面。那要怎么提取pdf文件中的其中一页呢&#xff1f;其实很简单&#xff0c;下面分享几…

【计算机网络】单播帧和广播帧在一个局域网内部的传播过程

我们引入这样的一个模型。 路由器可以连接多个网络&#xff0c;在路由器的这一端&#xff0c;我们用交换机集线器连接了很多节点。 这些节点共同组成了一个局域网。 而路由器的另外两个端口又分别连接了其他的网络。MAC地址这个概念是数据链路层才拥有的东西&#xff0c;物理…

翻译新体验:四款在线翻译工具让你沟通更顺畅!

如果你还拿着手里的外文文件干瞪眼&#xff1f;别担心&#xff0c;今天&#xff0c;我要给大家介绍几款超给力的在线翻译工具&#xff0c;它们就像是你的语言小助手&#xff0c;随时待命&#xff0c;帮你搞定那些让人头疼的翻译问题&#xff01; 福昕在线翻译 直达链接&#…

不用求人,4个方法快速恢复小米手机删除短信

手机短信作为我们日常办理事情的重要验收通道&#xff0c;往往承载着许多重要的信息。然而&#xff0c;由于各种原因&#xff0c;我们可能会不小心删除了重要的短信。那么&#xff0c;小米手机用户如何恢复这些被删除的短信呢&#xff1f;接下来&#xff0c;我们将分点为您详细…

macOS 15 Sequoia dmg格式转用于虚拟机的iso格式教程

想要把dmg格式转成iso格式&#xff0c;然后能在虚拟机上用&#xff0c;最起码新版的macOS镜像是不能用UltraISO&#xff0c;dmg2iso这种软件了&#xff0c;你直接转放到VMware里绝对读不出来&#xff0c;办法就是&#xff0c;在Mac系统中转换为cdr&#xff0c;然后再转成iso&am…

打造自己的RAG解析大模型:(新技能)企业垂类数据标注(一)

在上一篇文章中&#xff0c;我们以通用版面分析服务为例&#xff0c;展示了从模型发布到API集成的完整流程。如果你成功完成了这些步骤&#xff0c;值得庆祝&#xff01;这不仅意味着你已成功安装PaddleX&#xff0c;还掌握了利用它发布OCR和目标检测等大模型服务的能力&#x…

基于vue框架的的驾校练习时段预约系统z94u5(程序+源码+数据库+调试部署+开发环境)文末可获取,系统界面在最后面。

系统程序文件列表 项目功能&#xff1a;用户,驾校教练,车辆信息,训练场,教练预约,时间段,预约取消,学员签到,学员签退 开题报告内容 基于Vue框架的驾校练习时段预约系统开题报告 一、研究背景与意义 随着汽车保有量的持续增长&#xff0c;驾驶培训需求日益旺盛。然而&#…

技术干货|热门仿真工具HyperWorks 的二次开发与 Python 结合,重构仿真新体验

目前市面上有许多热门仿真软件&#xff0c;其中HyperWorks是各大企业最常用的。目前HyperWorks发布了 2024 新版本&#xff0c;已经全面支持Python作为二次开发接口&#xff0c;对Python的支持已经在架构中引入了相应的模块&#xff0c;基本是百分百覆盖。借助Python本身的优势…

2022NOIP比赛总结

种花 1.本题是一道前缀和优化加上枚举的问题。先考虑 C 因为 F 是 C 下边随便加一个点&#xff0c;所以只要求出 C 就求出了 F 。 注意到&#xff0c;并没有要求上下行一样&#xff0c;唯一的要求是 C 的两个横要隔一行&#xff0c;这就是问题的突破点&#xff0c;这题很明显…