MoNA:复用跨模态预训练模型,少样本模态的福音 | ICML‘24

news2025/1/2 0:06:26

跨模态转移旨在利用大型预训练模型来完成可能不属于预训练数据模态的任务。现有的研究在将经典微调扩展到跨模态场景方面取得了一定的成功,但仍然缺乏对模态差距对转移的影响的理解。在这项工作中,进行了一系列关于转移过程中源表示质量的实验,揭示了更大的模态差距与较少知识重用之间的联系,这意味着转移效果不佳。然后,使用条件分布 P ( Y ∣ X ) P(Y|X) P(YX) 将这种差距形式化为不同模态之间的知识不对齐。针对这个问题,论文提出了“模态知识对齐”(MoNA)方法,这是一种元学习方法,旨在学习目标数据变换,以减少转移前的模态知识差异。实验证明,论文的方法实现了更好地重用跨模态转移中的源模态知识,从而对现有微调方法的改进。

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: Learning Modality Knowledge Alignment for Cross-Modality Transfer

  • 论文地址:https://arxiv.org/abs/2406.18864

Introduction


   将来自过去经验的知识转移至新任务是人类智能的基本能力。在机器学习社区中,不断追求这种获取和重用知识的能力,旨在构建能够更准确预测并更高效学习数据的人工智能系统。如今,由于在大量数据上进行训练的大型基础模型已广泛可用,因此使用这样的预训练模型作为新任务的强大特征提取器已成为迁移学习的常见做法。自然地,预训练模型和下游任务来自同一模态,例如,在ImageNet上预训练的视觉Transformer模型和CIFAR-100分类任务。然而,最近的研究尝试扩展到跨模态转移,例如使用视觉Transformer进行音频分类,并对表格数据进行微调语言模型。

   这种跨模态转移的动机易于理解,特别是当目标模态数据稀缺时。科学任务,如心电图分类和蛋白质距离预测,在收集大量训练数据方面存在困难,并且进一步需要人类专家进行昂贵的注释成本。在这种情况下,利用其他数据更容易收集的模态(如视觉和语言)的预训练模型,来帮助目标模式任务是可取的。然而,由于两个挑战,跨模态转移并不像模态内转移那样直接:1)跨模态的输入空间和标签空间不同,2)解决不同模态任务所需的知识也可能不同。

   先前的研究通过设计模态特定的嵌入器和预测器来应对第一个挑战,以便从输入到输出与预训练模型进行接口。然而,第二个挑战尚未得到很好解决。一些方法认为,大型预训练模型可以作为通用编码器,并在微调过程中冻结预训练模型。其他方法则同时微调预训练模型和模态特定组件。这两种方法实证表明,预训练模型可以迁移到其他模态。然而,源模态中哪些知识通过预训练模型进行了转移,以及这些知识如何有利于目标模态,仍然是一个未解决的核心问题。例如,ORCA观察到,在某些目标模态任务上从头开始训练模型甚至比对预训练模型进行普通微调更好。这表明如果不恰当地转移,预训练模型中包含的知识可能不会提高目标性能。

   在这项工作中,论文深入探讨了跨模态转移的第二个挑战。首先进行实验,研究目标模态微调如何影响源模态数据的表示质量。论文观察到,在一些目标模态任务上微调预训练的Swin Transformer可以帮助Swin编码器提取更具有区分性的图像特征,而在其他模态上微调则会削弱这种能力。这一实证观察表明,在不同程度上,不同模态之间可能存在知识面,称之为模态语义知识,这些知识会影响跨模态转移的有效性。

   为了明确模态之间差异的这一方面,将模态语义知识解释为条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX) 。根据目标模态的任务修改源模态的条件分布,使两者可以进行比较。因此,能够将模态知识差异形式化为源模态和目标模态的条件分布之间的差异。当目标条件分布与修改后的源条件分布相似时,称模态语义知识是对齐的,预训练模型学习的源区分功能可以被重用于目标模态。相反,模态语义知识相互矛盾,可能没有相互促进的作用,这解释了ORCA中的观察。

   论文的解释为理解先前跨模态转移作品提出的两阶段调优流程的有效性提供了新的视角:将第一阶段视为针对目标模态的隐式数据转换学习,从而使转换后数据的条件分布与源数据更加对齐。因此,这启示可以在微调之前直接学习一个适当的目标嵌入函数,有助于最小化知识不对齐。基于此,论文提出了一种新方法MoNA,通过两阶段训练改善跨模态转移。在第一阶段,MoNA利用元学习来学习一个最优的目标嵌入器,在全面微调时作为初始化之一,结合预训练权重,实现在全面微调过程中最大程度地重用源模态知识。在第二阶段,利用学习到的目标嵌入器作为起点,沿用传统微调方法,更新所有参数以适应目标任务,同时最大程度地利用源知识。

   论文在两个跨模态转移基准数据集NAS-Bench-360PDEBench上进行了大量实验,以验证假设和提出的方法的有效性。这两个基准数据集都集中在与科学问题相关的模态上,其中训练数据的稀缺性尤为严重。对MoNA与先前方法进行了比较,实验结果表明该方法表现出色。

Problem Formulation and Analysis


Introduction to basic notations and architecture

   考虑源模态 M s \mathcal{M}^s Ms 和目标模态 M t \mathcal{M}^t Mt 之间的知识转移。源模态中的数据(如视觉或语言数据)更容易获取且成本更低,同时大型预训练模型也是公开可用的。相反,目标模态数据不足以预训练自己的大型模型。这两个模态在输入空间和标签空间上均存在差异,即 X s ≠ X t \mathcal{X}^s\neq\mathcal{X}^t Xs=Xt Y s ≠ Y t \mathcal{Y}^s\neq\mathcal{Y}^t Ys=Yt 。跨模态转移旨在利用源预训练模型(由参数 θ S \boldsymbol{\theta}^{\mathcal{S}} θS 参数化)来帮助处理目标任务,该目标任务仅具有一小组带标签数据 { x i t , y i t } i = 1 n t \{\boldsymbol{x}_i^{t}, y_i^{t}\}_{i=1}^{n_t} {xit,yit}i=1nt

   根据先前的研究,模型结构 g θ g_{\boldsymbol{\theta}} gθ 包括一个嵌入器 e ( ⋅ ; θ e ) e(\cdot;\boldsymbol{\theta}_e) e(;θe) ,一个Transformer编码器 f ( ⋅ ; θ f ) f(\cdot;\boldsymbol{\theta}_f) f(;θf) 和一个预测器 h ( ⋅ ; θ h ) h(\cdot;\boldsymbol{\theta}_h) h(;θh) ,整个模型的参数表示为 θ = { θ e , θ f , θ h } \boldsymbol{\theta} = \{\boldsymbol{\theta}_e, \boldsymbol{\theta}_f, \boldsymbol{\theta}_h\} θ={θe,θf,θh} 。特别地,预训练的Transformer具有自己的嵌入器和预测器,因此将源模型的预训练权重表示为 θ 0 S = { θ e 0 S , θ f 0 S , θ h 0 S } \boldsymbol{\theta}^{\mathcal{S}}_0 = \{\boldsymbol{\theta}_{e_0}^\mathcal{S}, \boldsymbol{\theta}_{f_0}^\mathcal{S}, \boldsymbol{\theta}_{h_0}^\mathcal{S}\} θ0S={θe0S,θf0S,θh0S}

   嵌入器将输入数据映射到共享的输入嵌入空间 X ^ \hat{\mathcal{X}} X^ ,编码器从嵌入的输入中提取特征。预测器是一个线性层,将编码器的输出映射到标签空间上。对于目标模型 g θ T : θ T = { θ e T , θ f T , θ h T } g_{\boldsymbol{\theta}^\mathcal{T}}: \boldsymbol{\theta}^\mathcal{T} = \{\boldsymbol{\theta}^\mathcal{T}_e, \boldsymbol{\theta}^\mathcal{T}_f, \boldsymbol{\theta}^\mathcal{T}_h\} gθT:θT={θeT,θfT,θhT} ,嵌入器和预测器均经过特定重新设计以适应目标任务的输入和标签空间,同时使用 θ f 0 S \boldsymbol{\theta}_{f_0}^\mathcal{S} θf0S 来初始化编码器权重 θ f T \boldsymbol{\theta}^\mathcal{T}_f θfT

   这种架构的灵活性使得能够在目标任务上进行端到端的训练,简单地通过在给定训练数据集上最小化特定任务损失来微调目标模型的所有参数:

KaTeX parse error: Undefined control sequence: \label at position 196: … y_i^t\right), \̲l̲a̲b̲e̲l̲{eq:vanilla} \e…

   这里的 ℓ \ell 是任务损失函数,例如交叉熵。

   通过这种方式直接从目标监督中学习,鼓励模型学习有助于区分目标数据的知识。由于预训练模型已经包含源领域的辨别知识,因此跨模态转移自然期望源领域和目标领域的知识在某些方面相似,以便源领域的知识可以被重用来促进目标学习。接下来,1)进行实验表明这种相似性取决于模态,2)提供模态知识的解释并形式化知识差异。

  • Detailed Explanation of the Model Architecture

   特定于模态的嵌入器和预测器的实现完全按照ORCA中的设计进行。

   特定于模态的嵌入器的结构取决于任务是2D还是1D

  1. 对于2D任务,嵌入器由线性投影层和LayerNorm操作组成。对于任何大小为 C × H × W C\times H\times W C×H×W 的输入数据,其中 C C C H H H W W W 分别表示通道数、高度和宽度。首先将其调整大小为 C × 22 4 2 C\times 224^2 C×2242 并分成大小为 C × 4 2 C\times 4^2 C×42 N N N 个图像块,然后线性投影层将每个图像块映射到大小为 128 128 128 的标记,LayerNorm操作应用于所有映射的图像块。因此,嵌入器可以表示为一个函数 e 2 D : R N × 16 C → R N × 128 e_{2D}: \mathbb R^{N\times 16C}\to\mathbb R^{N\times 128} e2D:RN×16CRN×128

  2. 对于1D任务,嵌入器由线性投影层、LayerNorm操作和可学习的位置嵌入组成。对于任何大小为 C × L C\times L C×L 的输入数据,其中 C C C L L L 分别表示通道数和序列长度。首先将其分成大小为 C × L N C\times \frac{L}{N} C×NL N N N 个块,然后线性投影层将每个块映射到大小为 768 768 768 的令牌,LayerNorm操作应用于所有投影的块,最后将位置嵌入添加到块中。因此,嵌入器可以表示为一个函数 e 1 D : R C L → R 768 N e_{1D}: \mathbb R^{CL}\to\mathbb R^{768N} e1D:RCLR768N

   特定于模态的预测器的结构取决于任务是分类还是密集预测。

  1. 对于分类任务,预测器由一个平均池化层和一个线性投影层组成。平均池化层将大小为 N ′ × d N'\times d N×d 的密集特征图平均为大小为 d d d 的特征,然后线性投影层将特征映射到大小为 K K K 的对数值,其中 d d d K K K 分别表示特征维度和类别数量。因此,预测器可以表示为一个函数 h c : R N ′ d → R K h_{c}: \mathbb R^{N'd} \to \mathbb R^K hc:RNdRK

  2. 对于密集预测任务,预测器由一个线性投影层、一个像素重新排列操作和两个自适应池化层组成。线性投影层以大小为 7 2 × d 7^2\times d 72×d 的密集特征图作为输入,输出大小为 7 2 × 3072 7^2 \times 3072 72×3072 的新特征,然后重新组织成形状为 22 4 2 × 3 224^2 \times 3 2242×3 。接下来,两个池化操作依次应用,将特征大小从 3 × 22 4 2 3 \times 224^2 3×2242 变为 K × 22 4 2 K \times 224^2 K×2242 ,最终变为 K × H × W K \times H \times W K×H×W ,与输入的空间维度相符。因此,预测器可以表示为一个函数 h d : R 49 d → R K H W h_{d}:\mathbb R^{49d}\to\mathbb R^{KHW} hd:R49dRKHW

Distortion of learned source modality knowledge

   论文寻找一种定量比较不同跨模态转移场景中知识重用程度的方法。选择图像模态作为知识源,并从不同模态中选择四个目标任务,括两个与图像密切相关的任务:CIFAR-100,其中包含球形投影图像,以及两个与图像模态不相似的任务:表示手势的NinaPro和包含声音事件音频剪辑的FSD50K。具体来说,采用在ImageNet-22k上预训练的Swin Transformer Base作为源模型,并在不同任务上微调后检查模型的属性。

   考虑到比较是在不同模态间进行的,缺乏一个通用的度量标准来衡量转移过程中知识重用程度。因此,转而比较源知识的失真程度。具体来说,如果更多的源知识被重用来解决目标任务,则认为失真会更小,反之亦然。因此,利用预训练的源模型提取CIFAR-10的视觉表示,这是模型未见过的替代图像数据集。该特定源数据集中的样本被表示为 { x i s , y i s } \{\boldsymbol{x}^s_i,y^s_i\} {xis,yis} ,其对应的特征集为 { f i s = f ( e ( x i s ; θ e 0 S ) ; θ f 0 S ) } \{\boldsymbol{f}^s_i = f(e(\boldsymbol{x}^s_i;\boldsymbol{\theta}_{e_0}^\mathcal{S});\boldsymbol{\theta}_{f_0}^\mathcal{S})\} {fis=f(e(xis;θe0S);θf0S)} 。然后,分别使用公式1在四个目标任务上对预训练模型进行微调。在微调过程之后,再次利用微调后的编码器提取CIFAR-10的表示,并得到 { f i s ( M t ) = f ( e ( x i s ; θ e 0 S ) ; θ f T , M t ) } \{\boldsymbol{f}^s_i(\mathcal{M}_t) = f(e(\boldsymbol{x}^s_i;\boldsymbol{\theta}_{e_0}^\mathcal{S});\boldsymbol{\theta}_f^\mathcal{T}, \mathcal{M}_t)\} {fis(Mt)=f(e(xis;θe0S);θfT,Mt)}

   图2展示了五组不同的CIFAR-10图像特征的T-SNE可视化结果。该图表明,微调在CIFAR-100Spherical上的编码器在CIFAR-10图像样本上保持或甚至提高了它们的可区分性,而在NinaProFSD50K上微调的编码器则无法提取适用于图像的类别判别特征。考虑到在目标模态上微调会使得编码器专注于对目标数据进行分类和学习目标判别函数,这一观察表明,相较于后两种模态,用于区分CIFAR-100Spherical样本所需的知识与用于CIFAR-10样本所需的知识更加一致。这样的结论符合论文的直觉,因为CIFAR-100是视觉数据集,Spherical源自自然图像,而NinaProFSD50K与图像相关性较低。

   另一方面,结果显示,CIFAR-100Spherical能更好地重用预训练编码器中的源知识来解决任务,而NinaProFSD50K需要编码器进行更大调整,以适应目标任务。

   为了更全面地定量研究跨模态转移过程中源知识的重用(或失真),在CIFAR-10上使用线性探针评估使用不同目标模态微调的编码器提取表示的质量,分别考虑:1)不同的微调目标模态,2)不同的训练轮数,以及3)不同的转移方法。除了普通微调之外,还考虑以下两个基线:

  1. ORCA在微调之前添加了一个嵌入器训练阶段。第一阶段仅更新目标嵌入器参数 θ e T \boldsymbol{\theta}_e^\mathcal{T} θeT ,在共享输入空间 X ^ \hat{\mathcal{X}} X^ 中最小化源嵌入和目标嵌入之间的最优数据集转移距离(经过嵌入器处理后的分布尽量相似)。
  2. 论文提出了另一个基线方法,即从先前的工作修改而来的Embedder warmup(Emb),这也是一种两阶段训练方法。第一阶段仅通过使用与普通微调相同的任务损失来更新目标嵌入器,同时保持网络的其余部分冻结。第二阶段对整个网络进行微调。

   图3显示了线性探测的错误率,虚线表示预训练编码器上的线性探测结果作为参考。请注意,所有这些结果都是在CIFAR-10数据集上的错误率,反映了模型保留源模态知识的程度,暂时不关注目标模态的性能比较。从实验中,可以观察到模态对线性探测结果有最大的影响。在FSD50K上进行微调显著扭曲了编码器并损害了其在图像数据上的可区分性。在目标数据集上进行更多轮数的微调会导致对所有目标模态的源知识更大的扭曲,除了图像模态(CIFAR-100)。这些观察结果导致了一个结论,即在不同模态中区分样本的知识在不同程度上有所不同,将其称为模态语义知识的错位。论文认为,巨大的差异可能阻碍跨模态转移的有效性,因此,关于源模态预训练对目标模态有益的假设应该取决于这种差异。

   论文对两阶段训练方法的源知识保留效果做出了额外观察。与普通微调相比,ORCAEmb都实现了更低的源错误率,并且Emb的表现优于ORCA。这表明,在它们的第一阶段训练中,目标嵌入器隐式学习了一个从 X t \mathcal{X}^t Xt X ^ \hat{\mathcal{X}} X^ 的映射,缓解了目标和源之间的知识错位,并因此减少了模型在适应目标任务期间的扭曲。

Modality semantic knowledge discrepancy

   考虑使用条件分布 P ( Y ∣ X ) P(Y|X) P(YX) 来表示模态内的语义知识,该条件分布描述了模态的原始数据空间和语义空间之间的关系。这是因为对于神经网络而言,获取语义知识意味着学习一个从数据空间到语义空间的映射,这个映射类似于真实的条件分布。

   然而,衡量两个模态之间这种知识的一致性或“相似度”是非常具有挑战性的。困难在于,数据空间 X \mathcal{X} X 和标签空间 Y \mathcal{Y} Y 在不同的模态之间甚至是不同且不重叠的。因此,需要修改条件分布以使其在不同模态之间可比较。修改输入空间相对较容易,因为可以使用特定于模态的嵌入器将输入嵌入到一个共享空间 X ^ \hat{\mathcal{X}} X^ 中。然而,修改标签空间则更加复杂。

   考虑到源模态(如视觉和语言)拥有大型预训练模型且在语义上都非常丰富,论文做出以下假设:源模态标签空间的基数大于目标模态标签空间的基数,即 ∣ Y s ∣ = ∣ Y t ∣ |\mathcal{Y}^s| = |\mathcal{Y}^t| Ys=Yt

   这一假设在实践中很容易得到满足。例如,在ImageNet上训练的视觉Transformer可以学习一个包含一千个类别的判别函数,而在心电图分类任务中仅考虑了四类。基于这一假设,可以选择源模态标签空间 Y B s ⊂ Y s \mathcal{Y}^s_{\mathcal{B}} \subset \mathcal{Y}^s YBsYs 的子集,使得 ∣ Y B s ∣ = ∣ Y t ∣ |\mathcal{Y}^s_{\mathcal{B}}| = |\mathcal{Y}^t| YBs=Yt 。进一步引入一个类别置换 π ( ⋅ ) \pi(\cdot) π() ,调整源类别的顺序。因此,可以定义一个新的源模态标签空间,即在置换后的源子集 Y π , B s ≜ π ( Y B s ) \mathcal{Y}^s_{\pi,\mathcal{B}} \triangleq \pi(\mathcal{Y}^s_{\mathcal{B}}) Yπ,Bsπ(YBs) 。通过衡量修改后的条件分布 P ( Y π , B s ∣ X ^ ) P(Y^s_{\pi,\mathcal{B}}|\hat{X}) P(Yπ,BsX^) P ( Y t ∣ X ^ ) P(Y^t|\hat{X}) P(YtX^) 之间的差异,可以形式化模态语义知识的对齐程度如下:

给定满足假设的源模态 M s \mathcal{M}^s Ms 和目标模态 M t \mathcal{M}^t Mt ,设 X ^ \hat{\mathcal{X}} X^ 是由特定于模态的嵌入器从原始数据空间生成的共享输入空间, P ( Y s ∣ X ^ ) P(Y^s|\hat{X}) P(YsX^) P ( Y t ∣ X ^ ) P(Y^t|\hat{X}) P(YtX^) 分别是源模态和目标模态的条件分布。那么,两个模态之间的模态语义知识差异为
D ( M s , M t ) = inf ⁡ π , B d ( P ( Y π , B s ∣ X ^ ) , P ( Y t ∣ X ^ ) ) , D(\mathcal{M}^s, \mathcal{M}^t) = \inf_{\pi,\mathcal{B}} d(P(Y^s_{\pi,\mathcal{B}}|\hat{X}), P(Y^t|\hat{X})), D(Ms,Mt)=π,Binfd(P(Yπ,BsX^),P(YtX^)),
   其中 $ d(\cdot,\cdot)$ 是两个条件分布之间的任意差异度量。

   该定义基本上表示,如果能在源语义中找到一个最优子集,并在源语义和目标语义之间进行适当的一一对应匹配,使其与目标模态具有相似的条件分布,那么知识差异被认为很小。源模型应当能够像在子集内辨别源样本一样正确地区分目标样本。

   通过该定义,论文使用一种极端近似算法计算图像模态与四个目标任务之间的模态语义知识差异。如图4所示,与先前的观察相一致,表明不同模态确实具有不同程度的知识差异,而在这四个任务中,FSD50K是与图像模态最不相似的模态。

Modality Knowledge Alignment


   发现模态知识可能没有很好地对齐以及源知识重用不足的后果,论文提出了一种新方法MoNA,完整算法如算法1所示。该方法改善模态知识的对齐性,提高了跨模态传输的效果。

Embedder Warmup

   在先前的实验中,论文发现嵌入器warmup尽管训练目标很简单,却比其他方法更好地保留源知识。相应地,开始测试其在目标模态上的表现,同样优于其对应的方法。论文认为,在嵌入器warmup过程中,为了最小化任务损失,嵌入器被明确地强制将目标原始输入投影到源模型所冻结并根据源知识提取特征的可区分嵌入中。

   结合先前的分析,假设有效转移的关键是学习一个目标嵌入函数 e T : X → X ^ e^\mathcal{T}: \mathcal{X}\to \hat{\mathcal{X}} eT:XX^ ,使得目标条件分布 P ( Y t ∣ X ^ ) P(Y^t|\hat{X}) P(YtX^) 更加与源知识对齐。因此,论文建议在完整微调过程之前,提前学习这个嵌入函数。

Learning to Align Modality Knowledge

   由于无法在没有训练模型的情况下估计目标条件概率,直接将模态知识差异作为优化目标是困难的。作为替代方案,建议利用元学习流程来模拟图3中的过程,并在微调后优化源数据的表示质量。具体来说,一个理想的目标嵌入器会对齐模态知识,使得编码器在目标微调过程中保持其在图像数据上的可区分性。因此,如果使用一个源数据集来评估由这个理想目标嵌入器初始化的微调编码器,将获得源数据上的最小误差。

   这个过程是元学习中广泛研究的标准双层优化问题。特别是在当前的场景下,外部循环根据外部循环损失来更新目标嵌入器,该损失通过内部循环优化之后的目标编码器计算。图5(a)说明了在元学习期间外部循环中嵌入器参数 ϕ e \boldsymbol{\phi}_e ϕe 的单次更新,图5(b)展示了双层优化的过程。

   更具体地说,内部循环是在目标数据集上对模型进行优化,受到目标嵌入器由 ϕ e \boldsymbol{\phi}_e ϕe 初始化条件的限制

θ T ∗ ( ϕ e ) = arg ⁡ min ⁡ θ T L i n n e r ( x t , y t ; ϕ e ) , \begin{equation} \boldsymbol{\theta}^{\mathcal{T}^*}(\boldsymbol{\phi}_e) = \arg\min_{\boldsymbol{\theta}^\mathcal{T}} \mathcal{L}_{inner}(\boldsymbol{x}^t, y^t; \boldsymbol{\phi}_e), \end{equation} θT(ϕe)=argθTminLinner(xt,yt;ϕe),

   其中, L i n n e r \mathcal{L}_{inner} Linner 是与公式1中相同的损失函数,而

θ e t T = θ e t − 1 T − α ∇ L i n n e r , θ e 0 T = ϕ e . \begin{equation} \boldsymbol{\theta}_{e_t}^\mathcal{T}= \boldsymbol{\theta}_{e_{t-1}}^\mathcal{T} - \alpha \nabla \mathcal{L}_{inner}, \quad \boldsymbol{\theta}_{e_0}^\mathcal{T}=\boldsymbol{\phi}_e. \end{equation} θetT=θet1TαLinner,θe0T=ϕe.

   这种内部循环优化模拟了第二阶段的完整微调过程,并返回一个已经适应目标模态的编码器。请注意,内部循环中的整个目标模型的最优化取决于目标嵌入器的初始化,因此有 θ T ∗ ( ϕ e ) = { θ e T ∗ ( ϕ e ) , θ f T ∗ ( ϕ e ) , θ h T ∗ ( ϕ e ) } \boldsymbol{\theta}^{\mathcal{T}^*}(\boldsymbol{\phi}_e) = \{ \boldsymbol{\theta}^{\mathcal{T}^*}_e(\boldsymbol{\phi}_e),\boldsymbol{\theta}^{\mathcal{T}^*}_f(\boldsymbol{\phi}_e),\boldsymbol{\theta}^{\mathcal{T}^*}_h(\boldsymbol{\phi}_e) \} θT(ϕe)={θeT(ϕe),θfT(ϕe),θhT(ϕe)}

   外部循环是针对目标嵌入器的优化问题,目标是找到最优嵌入器参数 ϕ e ∗ {\phi}_e^* ϕe ,使得生成的最优目标编码器 θ f T ∗ ( ϕ e ∗ ) \boldsymbol{\theta}^{\mathcal{T}^*}_f(\boldsymbol{\phi}_e^*) θfT(ϕe) 能够产生高质量的源数据表示。为了计算损失,利用源模态中的一小部分带标签的数据集 { x i s , y i s } \{\boldsymbol{x}_i^s, y_i^s\} {xis,yis} 作为替代,并计算它们的特征 { f i s = f ( e ( x i s ; θ e 0 S ) ; θ f T ∗ ( ϕ e ) ) } \{\boldsymbol{f}^s_i = f(e(\boldsymbol{x}^s_i;\boldsymbol{\theta}_{e_0}^\mathcal{S});\boldsymbol{\theta}_f^{\mathcal{T}^*}(\boldsymbol{\phi}_e))\} {fis=f(e(xis;θe0S);θfT(ϕe))} 。然后,将这些特征归一化到单位球上,并测量源特征的对齐性和均匀性。具体来说,对齐损失衡量了来自同一类别的特征是否接近,而均匀性损失则衡量了来自不同类别的特征是否均匀分布在球面上。

   衡量编码器源模态可区分性的外部循环目标具有以下形式:

L o u t e r = L a l i g n + L u n i f o r m = − E i , j : y i s = y j s [ ∣ ∣ f i s − f j s ∣ ∣ 2 2 ] − log ⁡ E i , j [ e − 2 ∣ ∣ f i s − f j s ∣ ∣ 2 2 ] . \begin{equation} \begin{aligned} \mathcal{L}_{outer} &= \mathcal{L}_{align} + \mathcal{L}_{uniform} \\ &= - \mathop{\mathbb{E}}\limits_{i,j:y^s_i=y^s_j} [\vert\vert \boldsymbol{f}^s_i-\boldsymbol{f}^s_j \vert\vert_2^2] - \log \mathop{\mathbb{E}}\limits_{i,j} \left[e^{-2\vert\vert \boldsymbol{f}^s_i-\boldsymbol{f}^s_j \vert\vert_2^2}\right]. \end{aligned} \end{equation} Louter=Lalign+Luniform=i,j:yis=yjsE[∣∣fisfjs22]logi,jE[e2∣∣fisfjs22].

   值得注意的是,在嵌入器训练开始阶段,源知识无法被很好地保留。为了防止嵌入器过分关注源模态,并保持优化过程稳定,通过共同最小化两个目标并引入权衡参数 λ \lambda λ 在源知识学习和目标知识学习之间取得平衡:

L o u t e r ′ = λ L o u t e r + L i n n e r . \begin{equation} \mathcal{L}_{outer}^{'} = \lambda \mathcal{L}_{outer} + \mathcal{L}_{inner}. \end{equation} Louter=λLouter+Linner.

   在实践中,内部循环中采用简化的单步更新,这使得能够重复使用在内部循环模拟更新期间计算的损失 L i n n e r \mathcal{L}_{inner} Linner ,来有效地计算这个组合目标 L o u t e r ′ \mathcal{L}_{outer}^{'} Louter 。为此,论文提出的MoNA在第一阶段,使用以下公式更新目标嵌入器:

ϕ e ∗ = arg ⁡ min ⁡ ϕ e L o u t e r ′ . \begin{equation} \boldsymbol{\phi}_e^* = \arg\min_{\boldsymbol{\phi}_e} \mathcal{L}_{outer}^{'}. \end{equation} ϕe=argϕeminLouter.

   随着模态知识的更好对齐,MoNA在第二阶段进行普通微调。

Experiments




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2160330.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

最新视频号名字使用规范你了解了吗!

文章来源:视频号官方平台 视频号名字使用需遵循以下规范: 账号名字应当与简介的内容相符,且不得与已注册成功的账号名字重复。 账号超过180天未以视频号身份进行发表、评论等操作,将不再受到名字唯一保护,有其他用户申…

FPGA实现频率、幅度、相位可调的DDS以及DDS Compiler IP核的使用验证

文章目录 一、DDS介绍二、DDS原理2.1 频率计算2.2 相位改变2.3 波形切换 三、Matlab生成波形文件四、FPGA实现DDS4.1 Verilog代码4.2 仿真验证4.2.1 改变频率4.2.2 切换波形4.2.3 相位调节4.2.4 幅度调节 五、Xilinx DDS Compiler的使用5.1 功能框图5.1.1 相位累加器5.1.2 SIN/…

通俗讲解javascript的实例对象、原型对象和构造函数以及它们之间的关系

今天通俗讲解一下js的对象,因为要通俗,所以可能描述不甚准确。 在js中,想要创建一个对象,首先要写出构造函数(跟其它的语言不太一样哦,其它语言一般都会先写一个class 类名)。 构造函数写法如…

【PGCCC】 复合索引和部分索引,竟然能让查询速度提升 275 倍!

索引对于加速数据库查询和提高 PostgreSQL 应用程序的性能至关重要。但是,并非所有索引都以相同的方式发挥作用。复合索引和部分索引是两种常见类型,每种类型都有不同的用途和对性能的影响。本文我们将深入探讨复合索引和部分索引是什么、它们如何运作以…

关于在vue2中给el-input等输入框的placeholder加样式

::v-deep {.el-input--medium,.el-input__inner {height: 100%;background: #163670;border: 1px solid #4cc0f6;border-radius: 6px 6px 6px 6px;&::placeholder {color: #13EFFF;}} } 效果如下: .el-date-editor .el-range-input{&::placeholder {color:…

SAP MIGO M7146不支持移动原因

移动类型 Z91 查看配置:Z91 匹配的原因没有921 倒是Z92的原因里面有921 那解决方案有2种,但是要根据具体业务要求来 1、审视一下是否移动原因用错了 ?换一个移动原因 2、确实是这个移动类型 要用到这个移动原因 ,那就在上图 移…

Python编码系列—Python观察者模式:实现事件驱动架构的利器

🌟🌟 欢迎来到我的技术小筑,一个专为技术探索者打造的交流空间。在这里,我们不仅分享代码的智慧,还探讨技术的深度与广度。无论您是资深开发者还是技术新手,这里都有一片属于您的天空。让我们在知识的海洋中…

【数字ic自整资料】SV约束constraint

参考链接: SV--随机约束(一)_sv constraint-CSDN博客 SV--随机约束(二)_sv constraint f循环-CSDN博客 [SV]Constraint 遇到的问题_父类和子类 constraint-CSDN博客 目录 1、随机化的概念理解 2、约束(constrain…

基于报位时间判断船舶设备是否在线,基于心跳时间判断基站网络是否在线

文章目录 引言I 在线船舶查询在线或者离线船舶显示在线状态统计在线船舶II 树状显示船舶设备数据结构统计船舶设备在线数和总数III 基站网络是否在线IV 知识扩展统计某个key的数据,例如统计船舶分类下的在线船舶MyBatis引言 本文采用的数据库是SQL Server,开发语言为Java。 …

无线协议wlan在华为模拟器中的实现

无线技术 wifi6:标准为802.11; wifi发展趋势: vlan基本概念: wlan组网架构: 1)fat胖AP;能够独立工作,可以单独配置;小型网络使用,功能少; 2)fit瘦APAC:适用大型网络…

《深度学习》—— PyTorch的介绍及PyTorch的CPU版本安装

文章目录 一、PyTorch的简单介绍二、pytorch的CPU版本安装三、 torch、torchvision、torchaudio 三个库的介绍 一、PyTorch的简单介绍 PyTorch是一个由Facebook AI实验室开发的深度学习框架,它基于Python,并提供了高效的GPU加速和灵活的模型定义能力。1…

基于vue框架的传统服饰剪裁交流平台5m953(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能:用户,服装分类,服装资讯 开题报告内容 基于Vue框架的传统服饰剪裁交流平台开题报告 一、研究背景与意义 随着全球化进程的加速,文化多样性的保护与传承日益受到重视。传统服饰作为各民族历史文化的瑰宝,不仅承载…

阅读记录:Gradient Episodic Memory for Continual Learning

1. Contribution 提出了一组指标来评估模型在连续数据上的学习情况。这些指标不仅通过测试准确性来表征模型,还通过其跨任务迁移知识的能力来表征模型。针对持续学习任务,提出了GEM模型(Gradient Episodic Memory),它…

C++中stack类和queue类

感谢大佬的光临各位,希望和大家一起进步,望得到你的三连,互三支持,一起进步 数据结构习题_LaNzikinh篮子的博客-CSDN博客 初阶数据结构_LaNzikinh篮子的博客-CSDN博客 收入专栏:C_LaNzikinh篮子的博客-CSDN博客 其他专…

基于MT79815G CPE 板子上挂usb3.0的5G 模块,WIFI能跑多少速度呢

关于MT79815G CPE 板子上挂usb3.0的5G 模块,WIFI能跑多少速度的问题,我们以启明智显 ZX7981P智能无线接入型路由器(CPE)挂广合通5G模组为例说明: 一般来说,用 ZX7981P,通过软加速,U…

Java:列表操作

目录 1、判断列表是否为空或者为NULL2、列表包含3、列表排序4、列表截取5、列表合并6、列表求极值7、列表转字符串8、列表去重的四种方式9、列表转数组 1、判断列表是否为空或者为NULL Optional.ofNullable(list).orElse(Collections.emptyList()).isEmpty() // true为空或NU…

【JAVA-数据结构】时间空间复杂度计算案例

接着上一篇文章&#xff0c;对应举一些例子。 1.时间复杂度 【实例1】 // 计算func2的时间复杂度&#xff1f; void func2(int N) {int count 0;for (int k 0; k < 2 * N ; k) {count;} int M 10;while ((M--) > 0) {count;} System.out.println(count); } 基本操作…

在云渲染中3D工程文件安全性怎么样?

在云渲染中&#xff0c;3D工程文件的安全性是用户最关心的问题之一。随着企业对数据保护意识的增强&#xff0c;云渲染平台采取了严格的安全措施和加密技术&#xff0c;以确保用户数据的安全性和隐私性。 云渲染平台为了保障用户数据的安全&#xff0c;采取了多层次的安全措施。…

电子信息制造业数据安全如何防护?有什么加密方案?

电子信息制造业数据加密解决方案 问题 1.电子文档&#xff08;源代码、设计图纸、设计方案等&#xff09;均要做数据保护措施&#xff0c;防止内部人员有意或无意造成数据泄露&#xff1b; 2.与外部企业之间往来的外发文件&#xff0c;管控不当&#xff0c;容易造成泄密&…

工业能源物联网的建设与维护该如何实现

随着全球对可持续发展的重视&#xff0c;智能电网和微电网的应用逐渐成为能源转型的重要方向。在新型电力系统中&#xff0c;负荷侧资源不再是单纯消耗的“消费者”&#xff0c;而是既消耗电能又可生产电能的“产消者”。比如&#xff0c;电力用户利用屋顶建设光伏发电&#xf…