ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models 论文阅读

news2024/12/24 11:36:28

ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models 论文阅读

  • Abstract
  • 1. Introduction
  • 2. Related Work
  • 3. Method
    • 3.1. Problem Formulation
    • 3.2. Building ProbVLM
    • 3.3. Latent Diffusion for Probabilistic Embeddings
  • 4. Experiments and Results
  • 5. Conclusion
  • 阅读总结

文章信息:
在这里插入图片描述

发表于:2023ICCV
原文链接:https://openaccess.thecvf.com/content/ICCV2023/html/Upadhyay_ProbVLM_Probabilistic_Adapter_for_Frozen_Vison-Language_Models_ICCV_2023_paper.html
源码:https://github.com/ExplainableML/ProbVLM

Abstract

大规模视觉-语言模型(VLMs)如CLIP能够成功地在图像和文本之间找到对应关系。通过标准的确定性映射过程,图像或文本样本被映射到嵌入空间中的一个单一向量。这存在问题:由于多个样本(图像或文本)可以抽象出物理世界中的相同概念,确定性嵌入并不能反映嵌入空间中固有的模糊性。我们提出了ProbVLM,一种概率适配器,通过跨模态和模态内对齐,以事后方式估计预训练VLM嵌入的概率分布,无需大规模数据集或高昂的计算资源。在四个具有挑战性的数据集上(即COCO、Flickr、CUB和Oxford-flowers),我们估计了两个VLMs(即CLIP和BLIP)的多模态嵌入不确定性,量化了检索任务中嵌入不确定性的校准,并展示了ProbVLM优于其他方法。此外,我们提出了主动学习和模型选择作为VLM的两个实际下游任务,并表明估计的不确定性有助于这两个任务。最后,我们提出了一种新颖的技术,利用大规模预训练的潜在扩散模型可视化嵌入分布。

1. Introduction

近年来,由于视觉-语言模型(VLMs) [62, 51, 45, 74, 1, 35] 能够对齐图像和文本,这类模型变得极为流行。这些模型如CLIP [62] 和BLIP [45],在LAION-400M [70] 和 YFCC-100M [79] 等大规模数据集上进行训练,并且在零样本评估中(即无需在特定数据集上进行微调)展示了强大的性能,适用于各种下游任务。VLMs 的一个最流行的应用是跨模态检索 [86, 88],即根据查询的文本(图像)检索图像(文本)。然而,由于每种模态的固有模糊性 [97],图像与文本匹配(反之亦然)在根本上是个病态问题,即相同的标题(或图像)可以对应于多个图像(或标题)。因此,建模不同模态及其组合中的模糊性变得至关重要。

与将输入映射为嵌入向量不同,概率嵌入方法 [57, 10] 学习将输入样本映射到分布。这是通过对嵌入的分布进行参数化并训练深度神经网络来最大化其似然实现的。尽管这些概率模型在嵌入空间中对模糊性进行了建模,但它们需要从头开始训练深度网络,这需要访问与最新VLMs [62, 35, 51, 74, 45] 相关的大规模数据集和计算资源。

我们提出了ProbVLM,一种事后概率适配器,这是首个方法能够将冻结的大规模视觉-语言模型提供的确定性嵌入转化为概率嵌入,如图1所示。这使我们能够有效保留大规模预训练的优势,同时学习建模不同模态中的固有模糊性的分布。我们的ProbVLM将嵌入分布建模为异方差概率分布,并通过结合模态内和跨模态对齐目标进行训练,提供了良好校准的不确定性估计,这对于多个任务都有用。

我们在两个大规模视觉-语言数据集(即COCO [46] 和 Flickr [60])以及两个细粒度图像数据集(即CUB [85] 和 Oxford-Flowers [55],使用 [66] 的句子)上展示了ProbVLM无需从头开始训练大规模模型就能够学习到校准的不确定性。这与之前的概率嵌入工作 [57, 10] 形成了鲜明对比,后者需要从头开始训练新模型。我们进行了一系列分析,以了解训练目标的影响,并研究生成的不确定性的属性。此外,我们展示了我们的不确定性估计可以用于从微调的视觉-语言模型集中选择最佳模型,用于未标记目标数据集。它们还可以用于在主动学习设置中选择最适合的样本以进行模型微调。最后,通过预训练的潜在扩散模型 [67],即Stable Diffusion,我们从预测的分布中解码采样嵌入,以可视化预测的嵌入分布。我们展示了预测的嵌入分布确实捕捉到了有意义的变化模式,这些模式可能是可解释的。

2. Related Work

Vision-Language Models.近年来,这类模型[62, 51, 74, 1, 45, 47, 44, 100, 101, 90] 由于其在图像分类[105, 21, 106, 50]、跨模态检索[4] 以及开放词汇语义分割[24, 96] 等方面的广泛应用,已变得无处不在。其中最引人注目的是CLIP[62],它由一个图像编码器和文本编码器组成,在4亿图像-文本对上通过对比目标[28, 58] 进行训练。因此,该模型能够将图像和文本投影到一个共享的嵌入空间。在本文中,我们重点研究如何利用共享的嵌入空间来完成跨模态检索任务[60, 46]。最近的研究主要依赖于大规模预训练[62, 51, 74, 1, 104, 70, 69],将图像和文本投影到相同的度量空间。然而,必须注意的是,所有这些视觉-语言模型[62, 51, 45, 74, 1] 都提供了确定性映射,未能对输入中的固有模糊性进行建模。在这项工作中,我们将确定性模型(即CLIP)转化为概率模型,而无需大规模数据集。

Probabilistic Embeddings.这些方法[57, 10, 43] 为估计输入中的模糊性提供了优雅的解决方案[37]。其关键思想是将输入映射到嵌入空间中的概率分布,而不是点估计,从而对输入中固有的模糊性进行建模。在跨模态检索的背景下,这是通过优化对比目标的概率模拟来为图像和文本输入学习分布[10]。其他研究进一步提升了性能[43, 59, 34],扩展了这一公式来实现组合检索[54],并将其应用于视频检索[59, 17] 和姿态估计[78] 等任务。然而,大多数这些工作都专注于从头开始训练模型,未能利用广泛存在的预训练模型的强大功能。其中一个显著的例外是Probabilistic Face Embedding (PFE)[73],它提出了在保留确定性预训练模型的同时学习概率嵌入,用于人脸嵌入的学习任务。然而,这仅是在单模态设置中使用图像完成的。在本研究中,我们旨在利用预训练的视觉-语言模型,同时为两种模态提供概率嵌入。我们提出的ProbVLM导出的概率嵌入与预训练视觉-语言模型核心的跨模态学习保持一致。

Uncertainty Estimation.这些技术已经在计算机视觉的不同任务中得到广泛探索[36, 7, 41, 42, 56, 102, 83, 53, 80, 27, 68, 103, 65, 81, 77, 82]。不确定性大致可以分为两类:随机不确定性[36, 23, 3, 89, 12, 2, 87, 56, 95] 和认知不确定性[25, 7, 41, 91, 20, 33, 19, 18]。不确定性估计已被用于各种任务,例如识别模型故障[15, 5, 6, 92],并广泛应用于主动学习中,用于选择最优样本来训练模型[71, 38, 64, 72, 99, 98, 61, 52]。虽然许多这些方法专注于从头开始训练新的贝叶斯模型,以量化预测中的不确定性,但一些最新的研究[83, 102, 29] 提出了为预训练的冻结模型估计不确定性的方法。然而,这些工作处理的是单一模态的数据。本研究则有效地为预训练的冻结大规模视觉-语言模型估计不确定性。

3. Method

在这里插入图片描述

图2:提出的框架(ProbVLM)在现有的视觉-语言模型上引入了一个概率适配器,覆盖图像和文本编码器。这些适配器预测给定嵌入的参数化分布的参数。模型通过最小化一个包含模态内/跨模态监督的目标来进行训练,如第3节详细说明。

3.1. Problem Formulation

D = ( I , C ) \mathcal{D}=(\mathcal{I}, \mathcal{C}) D=(I,C) 表示一个视觉和语言数据集,其中 I \mathcal{I} I 是一组图像, C \mathcal{C} C 是一组标题。这两个集合通过地面真实匹配(ground-truth matches)相连,其中多重匹配是可能的。对于一个标题 c ∈ C c \in \mathcal{C} cC(对应于一个图像 i ∈ I i \in \mathcal{I} iI),其对应的图像集合(对应的标题集合)为 κ ( c ) ⊆ I \kappa(c) \subseteq \mathcal{I} κ(c)I(对应地 κ ( i ) ⊆ C \kappa(i) \subseteq \mathcal{C} κ(i)C)。最近在跨模态视觉-语言模型[62, 51, 74]上的进展通常涉及学习一个共享的嵌入空间 Z ⊆ R D \mathcal{Z} \subseteq \mathbb{R}^D ZRD D D D 维空间),用于图像和文本。这允许根据它们在共享嵌入空间中的距离量化跨模态元素之间的相似性。共享嵌入空间是通过一组两个编码器学习的:用于图像的 Φ V ( ⋅ ; θ V ) : I → Z \boldsymbol{\Phi}_{\mathcal{V}}(\cdot;\theta_{\mathcal{V}}):\mathcal{I}\to\mathcal{Z} ΦV(;θV):IZ 和用于文本的 Φ T ( ⋅ ; θ T ) : C → Z \Phi_\mathcal{T}(\cdot;\theta_\mathcal{T}):\mathcal{C}\to\mathcal{Z} ΦT(;θT):CZ,其中 θ V \theta_\mathcal{V} θV θ T \theta_\mathcal{T} θT 是各自映射函数的参数。

我们考虑一种现实场景,其中上述编码器集已使用大规模模型在庞大的数据集上进行训练,且计算成本高,例如 CLIP [62]、SLIP [51]、Flava [74] 和 BLIP [45]。这些编码器处于冻结状态,即我们拥有 Φ V ( ⋅ ; θ V ∗ ) \boldsymbol{\Phi}_{\mathcal{V}}(\cdot;\theta_{\mathcal{V}}^*) ΦV(;θV) Φ T ( ⋅ ; θ T ∗ ) \boldsymbol{\Phi}_\mathcal{T}(\cdot;\theta_{\mathcal{T}}^*) ΦT(;θT),其中 θ V ∗ \theta_{\mathcal{V}}^* θV θ T ∗ \theta_{\mathcal{T}}^* θT 代表预训练冻结编码器的参数。这些编码器是确定性的,将图像或文本映射到共享空间中的向量,即,给定一个样本图像 x V \mathbf{x}_{\mathcal{V}} xV(类似地也适用于样本文本 x T \mathbf{x}_{\mathcal{T}} xT),编码器提供一个嵌入 Z V : = Φ V ( x V ; θ V ∗ ) \mathbf{Z}_{\mathcal{V}}:=\boldsymbol{\Phi}_{\mathcal{V}}(\mathbf{x}_{\mathcal{V}};\theta_{\mathcal{V}}^*) ZV:=ΦV(xV;θV)(类似地, z T : = Φ T ( x T ; θ T ∗ ) \mathbf{z}_{\mathcal{T}}:=\boldsymbol{\Phi}_{\mathcal{T}}(\mathbf{x}_{\mathcal{T}};\theta_{\mathcal{T}}^*) zT:=ΦT(xT;θT))。然而,这些点估计 z \mathbf{z} z 无法捕捉到这些嵌入中固有的模糊性[57, 10, 17],而这种模糊性更好地通过概率分布 P z ∣ x P_\mathbf{z}|\mathbf{x} Pzx 来表示。因此,我们提出使用 ProbVLM 有效地估计预训练模型的 P z ∣ x P_\mathbf{z}|\mathbf{x} Pzx,在不重新训练编码器的情况下量化输出的不确定性。

3.2. Building ProbVLM

尽管这些大规模冻结的编码器是确定性的,但它们已经提供了高质量的点估计。 我们提出的方法利用了这一事实,使用嵌入向量 z \mathbf{z} z 作为期望分布 P z ∣ x P_\mathbf{z}|\mathbf{x} Pzx 的均值估计,并估计其余的参数。 P z ∣ x P_\mathbf{z}|\mathbf{x} Pzx 可以被建模为一个参数化分布 P z ∣ x ( z ∣ { z ^ , ν ^ . . ρ ^ } ) P_\mathbf{z}|\mathbf{x}(\mathbf{z}|\{\hat{\mathbf{z}}, \hat{\nu}.. \hat{\rho}\}) Pzx(z{z^,ν^..ρ^}),其中这些参数可以通过深度神经网络进行估计 [20, 36, 41]。因此,我们引入了 ProbVLM。

在这里插入图片描述

其中, Ψ ν \Psi_\mathrm{\nu} Ψν Ψ τ \Psi_\mathrm{\tau} Ψτ 分别表示由 ζ ν \zeta_\mathrm{\nu} ζν ζ τ \zeta_\mathrm{\tau} ζτ 参数化的视觉和文本编码器。同时, ζ : = ζ V ∪ ζ T \zeta := \zeta_{\mathcal{V}} \cup \zeta_{\mathcal{T}} ζ:=ζVζT 代表 ProbVLM 的整体参数。

它学习估计参数 { z ^ , ν ^ . . ρ ^ } \{\hat{\mathbf{z}}, \hat{\nu}..\hat{\rho}\} {z^,ν^..ρ^},利用冻结编码器 Φ V ( ⋅ ; θ V ∗ ) \Phi_{\mathcal{V}}(\cdot;\theta_{\mathcal{V}}^*) ΦV(;θV) Φ T ( ⋅ ; θ T ∗ ) \Phi_\mathcal{T}(\cdot;\theta_{\mathcal{T}}^*) ΦT(;θT) 的帮助。函数 Ψ V ( ⋅ ; ζ V ) \boldsymbol{\Psi}_{\mathcal{V}}(\cdot;\zeta_{\mathcal{V}}) ΨV(;ζV) Ψ T ( ⋅ ; ζ T ) \boldsymbol{\Psi}_\mathcal{T}(\cdot;\zeta_{\mathcal{T}}) ΨT(;ζT) 分别作用于图像和文本嵌入,但在训练过程中依赖于两种模态,具体如后文所述。我们为 Ψ ( ⋅ ; ζ ) \Psi(\cdot;\zeta) Ψ(;ζ) 设计了学习方案,使得:
(i)估计参数 z ^ \hat{\mathbf{z}} z^ 应保持对原始单模态嵌入 z \mathbf{z} z 的忠实(即 intra-modal 对齐),这使得 ProbVLM 的不确定性能够作为冻结编码器不确定性的良好代理。
(ii)估计参数 { ν ^ . . . ρ ^ } \{\hat{\nu}...\hat{\rho}\} {ν^...ρ^} 应捕捉模态内和跨模态的模糊性和不确定性(即 cross-modal 对齐)。

图2 展示了 ProbVLM 与冻结 VLM 的配合。

Intra-modal Alignment.为了确保由 Ψ ( ⋅ ; ζ ) \Psi(\cdot;\zeta) Ψ(;ζ) 估计的分布的均值反映冻结编码器提供的点估计,我们为模态内的嵌入设置了一个概率重建问题。也就是说,对于给定的样本 x \mathbf{x} x(来自图像或文本模态),我们从冻结编码器获得嵌入 z = Φ ( x ; θ ) \mathbf{z} = Φ(\mathbf{x}; \theta) z=Φ(x;θ)(使用适当的编码器),然后 Ψ ( ⋅ ; ζ ) \Psi(\cdot;\zeta) Ψ(;ζ) 的模态特定组件学习重建 z \mathbf{z} z(将重建结果称为 z ^ \hat{\mathbf{z}} z^)。 Ψ ( ⋅ ; ζ ) \Psi(\cdot;\zeta) Ψ(;ζ) 的模态特定组件设计为

(i) 通过假设独立但不具有相同分布的残差来放宽 i.i.d. 限制,并且

(ii) 在重建时学习残差的异方差性,这些残差可能遵循重尾分布 [83, 84, 40, 39, 30]。模态特定组件通过最大化对数据集中 N N N 个样本的嵌入的似然函数 L ( ζ ; { z i } i = 1 N ) \mathcal{L}(\zeta;\{\mathbf{z}_i\}_{i=1}^N) L(ζ;{zi}i=1N) 来学习。也就是说,模态特定的最优参数由下式给出:

在这里插入图片描述

在上述方程中, β ^ i e − ( ∣ z ^ i − z i ∣ / α ^ i ) β ^ i 2 α ^ i Γ ( 1 / β ^ i ) \frac{\hat{\beta}_i e^{-(|\hat{\mathbf{z}}_i - \mathbf{z}_i| / \hat{\alpha}_i)} \hat{\beta}_i}{2 \hat{\alpha}_i \Gamma(1 / \hat{\beta}_i)} 2α^iΓ(1/β^i)β^ie(z^izi∣/α^i)β^i 代表了广义高斯分布(GGD,由 G \mathcal{G} G 表示),该分布能够建模重尾分布(注意,Gaussian 和 Laplace 是 G \mathcal{G} G 的特例,其中 α = 1 , β = 2 \alpha=1,\beta=2 α=1,β=2 α = 1 , β = 1 \alpha=1,\beta=1 α=1,β=1)。变量 z ^ i , α ^ i , β ^ i \hat{\mathbf{z}}_i, \hat{\alpha}_i, \hat{\beta}_i z^i,α^i,β^i 是我们从模态特定组件中为给定输入 z i \mathbf{z}_i zi 预测的均值、尺度和形状参数。通过最小化负对数似然(等价于下述方程2)来获得模态特定的最优参数。给定 z \mathbf{z} z 和预测的 z ^ , α ^ , β ^ \hat{\mathbf{z}}, \hat{\alpha}, \hat{\beta} z^,α^,β^,损失函数为:
在这里插入图片描述

因此,ProbVLM 的视觉特定组件 Ψ ( ⋅ ; ζ V ) \boldsymbol{\Psi}(\cdot;\zeta_{\mathcal{V}}) Ψ(;ζV) 通过使用图像嵌入最小化方程3来训练,我们将这一损失函数表示为 L r e c V ( ζ V ) L_\mathrm{rec}^{\mathcal{V}}(\zeta_{\mathcal{V}}) LrecV(ζV)。类似地,文本特定组件 Ψ ( ⋅ ; ζ T ) \boldsymbol{\Psi}(\cdot;\zeta_{\mathcal{T}}) Ψ(;ζT) 通过最小化 L r e c T ( ζ T ) L_\mathrm{rec}^{\mathcal{T}}(\zeta_{\mathcal{T}}) LrecT(ζT) 进行训练。如下一节所述,我们还强制执行跨模态对齐,以便 ProbVLM 的预测分布能够捕捉到来自一对多对应关系的模态间不确定性。

Cross-modal Alignment. 当模态内部对齐试图将 ProbVLM 输出分布的均值匹配到从冻结视觉语言编码器获得的嵌入时,我们还强制要求图像和文本嵌入输出分布(来自 ProbVLM)代表相似概念时应保持彼此接近。也就是说,给定一个图像和文本嵌入对 ( z V , z T ) (\mathbf{z}_{\mathcal{V}}, \mathbf{z}_{\mathcal{T}}) (zV,zT)(来自冻结模型)代表相似的概念,来自 Ψ ( ⋅ ; ζ ) \boldsymbol{\Psi}(\cdot;\zeta) Ψ(;ζ) 的输出分布 G ( z ; z ^ V , α ^ V , β ^ V ) \mathcal{G}(\mathbf{z}; \hat{\mathbf{z}}_{\mathcal{V}}, \hat{\alpha}_{\mathcal{V}}, \hat{\beta}_{\mathcal{V}}) G(z;z^V,α^V,β^V) G ( z ; z ^ T , α ^ T , β ^ T ) \mathcal{G}(\mathbf{z}; \hat{\mathbf{z}}_{\mathcal{T}}, \hat{\alpha}_{\mathcal{T}}, \hat{\beta}_{\mathcal{T}}) G(z;z^T,α^T,β^T)(以下称为 G V ( z ) \mathcal{G}_{\mathcal{V}}(\mathbf{z}) GV(z) G T ( z ) \mathcal{G}_{\mathcal{T}}(\mathbf{z}) GT(z))应匹配。这可以通过直接从似然度来衡量,即 p ( z v = z u ) p(\mathbf{z}_v = \mathbf{z}_u) p(zv=zu),其中 z v ∼ G V ( z ) \mathbf{z}_v \sim \mathcal{G}_{\mathcal{V}}(\mathbf{z}) zvGV(z) z u ∼ G T ( z ) \mathbf{z}_u \sim \mathcal{G}_{\mathcal{T}}(\mathbf{z}) zuGT(z),如 [73] 中所示。

开始看不懂了,,,,,

在这里插入图片描述
其中, δ ( ⋅ ) \delta(\cdot) δ() 指的是 D i r a c − δ Dirac-\delta Diracδ 分布。上述积分可以通过定义 Δ z = z V − z T \Delta \mathbf{z} = \mathbf{z}_\mathcal{V} - \mathbf{z}_\mathcal{T} Δz=zVzT 并寻求 p ( Δ z ^ ) = 0 p(\hat{\Delta \mathbf{z}}) = 0 p(Δz^)=0 进一步简化。由于 z V \mathbf{z}_\mathcal{V} zV z T \mathbf{z}_\mathcal{T} zT 都是 GGD 随机变量,因此 Δ z \Delta \mathbf{z} Δz 遵循基于双变量 Fox H 函数 [76, 48, 49] 的分布。

在这里插入图片描述

其中, A = α ^ V 2 Γ ( 1 / β ^ V ) 4 Γ ( 3 / β ^ V ) A = \frac{\hat{\alpha}_{\mathcal{V}}^2 \Gamma(1 / \hat{\beta}_{\mathcal{V}})}{4 \Gamma(3 / \hat{\beta}_{\mathcal{V}})} A=(3/β^V)α^V2Γ(1/β^V) B = α ^ T 2 Γ ( 1 / β ^ T ) 4 Γ ( 3 / β ^ T ) B = \frac{\hat{\alpha}_{\mathcal{T}}^2 \Gamma(1 / \hat{\beta}_{\mathcal{T}})}{4 \Gamma(3 / \hat{\beta}_{\mathcal{T}})} B=(3/β^T)α^T2Γ(1/β^T) μ = z ^ V − z ^ T \mu = \hat{\mathbf{z}}_{\mathcal{V}} - \hat{\mathbf{z}}_{\mathcal{T}} μ=z^Vz^T,而 H \mathcal{H} H F o x   H Fox\textit{ H} Fox H 函数 [76, 48, 49]。方程 5 并没有提供一个适合深度神经网络训练的可扩展目标函数。因此,我们提出了一个易于扩展的近似方法,如下所示:

在这里插入图片描述

附录中展示了上述方程的详细信息。积分中的第一个项 ∫ G V ( z ) δ ( z − z T ) d z \int \mathcal{G}_{\mathcal{V}}(\mathbf{z}) \delta(\mathbf{z} - \mathbf{z}_{\mathcal{T}}) d\mathbf{z} GV(z)δ(zzT)dz 是在预测的分布 G V ( z ) \mathcal{G}_{\mathcal{V}}(\mathbf{z}) GV(z) 下,文本嵌入 z T \mathbf{z}_{\mathcal{T}} zT 的似然。类似地,第二个项是视觉嵌入 z V \mathbf{z}_{\mathcal{V}} zV 在预测的分布 G T ( z ) \mathcal{G}_{\mathcal{T}}(\mathbf{z}) GT(z) 下的似然。方程 6 的负对数得到一个可扩展的目标函数,用于学习 ProbVLM 的视觉和文本组件( Ψ V ( ⋅ ; ζ V ) \boldsymbol{\Psi}_{\mathcal{V}}(\cdot;\zeta_{\mathcal{V}}) ΨV(;ζV) Ψ T ( ⋅ ; ζ T ) \boldsymbol{\Psi}_{\mathcal{T}}(\cdot;\zeta_{\mathcal{T}}) ΨT(;ζT))的最优参数。

在这里插入图片描述

用于ProbVLM的总体目标设计为,

在这里插入图片描述

其中, λ c r o s s \lambda_{cross} λcross是一个超参数,用于控制跨模态和单模态项的相对贡献。

Uncertainty Quantification.给定来自冻结编码器的嵌入 z \mathbf{z} z,从训练好的 ProbVLM(适当组件的输出)中预测的分布允许计算自变量不确定性,其公式为 σ ^ a l e a t o r i c 2 = α ^ 2 Γ ( 3 / β ^ ) Γ ( 1 / β ^ ) \hat{\sigma}_\mathrm{aleatoric}^2 = \frac{\hat{\alpha}^2 \Gamma(3/\hat{\beta})}{\Gamma(1/\hat{\beta})} σ^aleatoric2=Γ(1/β^)α^2Γ(3/β^)。此外,我们将 Ψ ν \Psi_\mathrm{\nu} Ψν Ψ τ \Psi_\mathrm{\tau} Ψτ设计为简单的三层 MLP,并在训练期间使用 dropout 层(dropout 概率设为 0.1)。在推理过程中,激活 dropout,并进行多次前向传递(例如 M M M 次),可以估计认识论不确定性,其公式为 σ ^ epistemic 2 = 1 M ∑ m = 1 M ( z ^ m − 1 M ∑ j = 1 M z ^ j ) 2 \hat{\sigma}_\text{epistemic}^2 = \frac{1}{M} \sum_{m=1}^M (\hat{\mathbf{z}}_m - \frac{1}{M} \sum_{j=1}^M \hat{\mathbf{z}}_j)^2 σ^epistemic2=M1m=1M(z^mM1j=1Mz^j)2。我们将总不确定性估计为:

在这里插入图片描述

3.3. Latent Diffusion for Probabilistic Embeddings

对于给定的文本嵌入 z T \mathbf{z}_{\mathcal{T}} zT,通过 ProbVLM 估计的分布 G ( z ; z ^ T , α ^ T , β ^ T ) \mathcal{G}(\mathbf{z}; \hat{\mathbf{z}}_{\mathcal{T}}, \hat{\alpha}_{\mathcal{T}}, \hat{\beta}_{\mathcal{T}}) G(z;z^T,α^T,β^T) 可以通过从预测的分布中抽取样本(例如 { z ^ T , i } i = 1 Q \{ \hat{\mathbf{z}}_{\mathcal{T}, i} \}_{i=1}^Q {z^T,i}i=1Q)并将它们传递通过潜在的变换器(例如 ser Z ( x T ) \text{ser}_{\mathcal{Z}}(x_{\mathcal{T}}) serZ(xT))来可视化。接着,可以使用 CLIP 文本编码器和稳定扩散模型(例如 fusion model, e.g., Stable Diffusion \text{fusion model, e.g., Stable Diffusion} fusion model, e.g., Stable Diffusion)来合成图像样本的集合(例如 J J J)。这些图像样本对应于从分布中生成的图像。
在这里插入图片描述
第4.4节使用它来可视化预测的分布。

4. Experiments and Results

在这里插入图片描述

5. Conclusion

我们介绍了 ProbVLM,这是一种后处理方法,用于估计冻结的大规模确定性视觉语言模型的嵌入分布。我们通过框架有效地估计了经过校准的不确定性,并展示了这些校准估计在模型选择和主动学习等下游任务中的多种应用。此外,我们通过使用大规模预训练的潜在扩散模型(即稳定扩散模型)来解释 ProbVLM 预测的嵌入分布。我们希望我们的工作能突出并激发未来在高效概率嵌入方法方面的研究。

阅读总结

看不懂,废了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2120352.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于spring的博客系统(二)

4. 业务代码 4.1 持久层 根据需求, 先⼤致计算有哪些DB相关操作, 完成持久层初步代码, 后续再根据业务需求进⾏完善 1. ⽤⼾登录⻚ a. 根据⽤⼾名查询⽤⼾信息 2. 博客列表⻚ a. 根据id查询user信息 b. 获取所有博客列表 3. 博客详情⻚ a. 根据博客ID查询博客信息 b. 根据博客I…

【论文阅读】01-Survey on Temporal Knowledge Graph

原文名称:Survey on Temporal Knowledge Graph 1 Introduction 目前有两种方法:基于距离模型的嵌入变换方法和基于语义匹配模型的双线性模型。它们的思想都是将包含实体和关系的知识图谱嵌入到连续的低纬度实向量空间中 时间知识图的推理有两种,第一种是…

LeetCode 热题 100 回顾5

干货分享,感谢您的阅读!原文见:LeetCode 热题 100 回顾_力code热题100-CSDN博客 一、哈希部分 1.两数之和 (简单) 题目描述 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标…

【电子通识】半导体工艺——光刻工艺

什么是光刻工艺 人们经常将 Photo Lithography(光刻)缩写成 Photo。得此名称的原因是,这个工艺在晶圆上利用光线来照射带有电路图形的光罩,从而绘制电路。光刻工艺类似于洗印黑白照片,将在胶片上形成的图像印在相纸上。…

Java | Leetcode Java题解之第395题至少有K个重复字符的最长子串

题目&#xff1a; 题解&#xff1a; class Solution {public int longestSubstring(String s, int k) {int ret 0;int n s.length();for (int t 1; t < 26; t) {int l 0, r 0;int[] cnt new int[26];int tot 0;int less 0;while (r < n) {cnt[s.charAt(r) - a];…

一个小例子,给你讲透 Go 配置管理,轻松将其融入到项目中

在软件开发中&#xff0c;配置管理是一个不可或缺的部分。无论是开发环境、测试环境还是生产环境&#xff0c;我们都需要一种方法来存储和读取配置信息。 在 Golang 项目中&#xff0c;Viper 是一个非常流行且功能强大的库&#xff0c;用于处理配置文件。下面我会写一些例子&am…

C++第三节入门 - 引用详解

引用 引用可以对别名进行引用&#xff01; #include<iostream> using namespace std;int main() {int a 0; // 李逵int& b a; // 铁牛int& c b; // 在铁牛的基础上取名为黑旋风return 0; } 引用的特性&#xff1a; 引用在定义的时候必须初始化&…

『功能项目』单例模式框架【37】

我们打开上一篇36C#拓展 - 优化冗余脚本的项目&#xff0c; 本章要做的事情是编写单例模式基类&#xff0c;让继承其基类的子类在运行时只存在一个&#xff0c;共有两个单例基类框架&#xff0c;分别是不继承MonoBehaviour的单例和继承MonoBehaviour的单例框架 首先编写不继承…

【最新华为OD机试E卷-支持在线评测】跳马(200分)多语言题解-(Python/C/JavaScript/Java/Cpp)

🍭 大家好这里是春秋招笔试突围 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-E/D卷的三语言AC题解 💻 ACM金牌🏅️团队| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 🍿 最新华为OD机试E卷,全、新、准,题目覆盖率达 95% 以上,支持…

LabVIEW重构其他语言开发的旧系统

在面对一个运行已久、代码不清晰的项目时&#xff0c;如果该项目涉及复杂的通讯协议&#xff08;如串口和488通讯&#xff09;&#xff0c;重新开发并优化成LabVIEW版本可以极大提升系统的易用性和维护性。为了确保通讯协议的顺利解析和移植&#xff0c;借助专业工具分析现有通…

【OpenCV-阈值与平滑处理】灰度图、HSV、图像阈值、图像平滑处理(方框滤波、均值滤波、高斯滤波、中值滤波)

1 灰度图 import cv2 # 导入 OpenCV 库&#xff0c;用于图像处理 import numpy as np # 导入 NumPy 库&#xff0c;用于数组操作 import matplotlib.pyplot as plt # 导入 Matplotlib 库&#xff0c;用于绘图# %matplotlib inline 是 Jupyter Notebook 特有的魔法命令&…

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台&#xff0c;是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力&#xff0c;在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系…

kitti数据label的2d与3d坐标转为像素坐标方法与教程(代码实现)

文章目录 前言一、kitti标签label坐标转换的主函数1、主函数调用代码2、数据格式示意图二、kitti数据获取1、图像获取2、label标签数据获取3、标定文件数据获取 三、kitti标签坐标转换方法1、集成主函数-labels_boxes2pixel_in_image2、标签3d坐标转像素坐标-compute_box_3d(ob…

Caffenie配合Redis做两级缓存

一、什么是两级缓存 在项目中。一级缓存用Caffeine&#xff0c;二级缓存用Redis&#xff0c;查询数据时首先查本地的Caffeine缓存&#xff0c;没有命中再通过网络去访问Redis缓存&#xff0c;还是没有命中再查数据库。具体流程如下 二、简单的二级缓存实现-v1 目录结构 2…

MySQL——主从复制、读写分离

目录 前言 一、MySQL主从复制的概述 1、MySQL主从复制的概念 2、Mysql主从复制功能和使用场景 2.1、Mysql主从复制功能 2.2、Mysql主从复制使用场景 3、MySQL支持的复制类型 3.1、基于语句的复制 3.2、基于行的复制 3.3、混合复制 4、主从复制的工作过程 5、MySQL三…

iOS 15推出后利用邮件打开率的7种方法

自从苹果在2021年底推出iOS 15以来&#xff0c;邮件打开率就一直是一个让人头疼的指标。 Klaviyo市场情报主管Mindy Regnell表示&#xff1a;“对于启用了Apple邮件隐私保护&#xff08;MPP&#xff09;的用户来说&#xff0c;苹果会打开这些邮件并预先下载内容到他们的服务器…

2024年“华为杯”第二十一届中国研究生数学建模竞赛(附2004-2023年优秀论文合集)

中国研究生数学建模竞赛&#xff08;以下简称“竞赛”&#xff09;是教育部学位管理与研究生教育司指导&#xff0c;中国学位与研究生教育学会、中国科协青少年科技中心主办的“中国研究生创新实践系列大赛”主题赛事之一。本届比赛报名时间为&#xff1a;2024年6月1日&#xf…

数据结构——线性表(静态链表、循环链表以及双向链表)

1、静态链表 用数组描述的链表叫做静态链表&#xff0c;这种描述方法叫做游标实现法。 静态链表需要对数组的第一个和最后一个元素作为特殊元素处理&#xff0c;不存数据。 最后一个指向第一个有数据的下标地址&#xff0c;第一个游标指向第一个没有数据的下标地址。 我们对…

[译] 大模型推理的极限:理论分析、数学建模与 CPU/GPU 实测(2024)

译者序 本文翻译自 2024 年的一篇文章&#xff1a; LLM inference speed of light&#xff0c; 分析了大模型推理的速度瓶颈及量化评估方式&#xff0c;并给出了一些实测数据&#xff08;我们在国产模型上的实测结果也大体吻合&#xff09;&#xff0c; 对理解大模型推理内部工…

职场答案薄

公司做大的过程就是创始人把职责一层层分摊下去的过程&#xff0c;公司里的各级领导在招聘时的原始诉求都是一样的&#xff0c;就是招到可以帮自己分担一部分工作的人&#xff0c;然后自己好集中精力去做更重要的工作 如何去做运营 1.流程制度&#xff08;三个目的&#xff1a;…