ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models 论文阅读

Abstract
1. Introduction
2. Related Work
3. Method
- 3.1. Problem Formulation
- 3.2. Building ProbVLM
- 3.3. Latent Diffusion for Probabilistic Embeddings
4. Experiments and Results
5. Conclusion
阅读总结

文章信息：
在这里插入图片描述

发表于：2023ICCV
原文链接：https://openaccess.thecvf.com/content/ICCV2023/html/Upadhyay_ProbVLM_Probabilistic_Adapter_for_Frozen_Vison-Language_Models_ICCV_2023_paper.html
源码：https://github.com/ExplainableML/ProbVLM

Abstract

大规模视觉-语言模型（VLMs）如CLIP能够成功地在图像和文本之间找到对应关系。通过标准的确定性映射过程，图像或文本样本被映射到嵌入空间中的一个单一向量。这存在问题：由于多个样本（图像或文本）可以抽象出物理世界中的相同概念，确定性嵌入并不能反映嵌入空间中固有的模糊性。我们提出了ProbVLM，一种概率适配器，通过跨模态和模态内对齐，以事后方式估计预训练VLM嵌入的概率分布，无需大规模数据集或高昂的计算资源。在四个具有挑战性的数据集上（即COCO、Flickr、CUB和Oxford-flowers），我们估计了两个VLMs（即CLIP和BLIP）的多模态嵌入不确定性，量化了检索任务中嵌入不确定性的校准，并展示了ProbVLM优于其他方法。此外，我们提出了主动学习和模型选择作为VLM的两个实际下游任务，并表明估计的不确定性有助于这两个任务。最后，我们提出了一种新颖的技术，利用大规模预训练的潜在扩散模型可视化嵌入分布。

1. Introduction

近年来，由于视觉-语言模型（VLMs） [62, 51, 45, 74, 1, 35] 能够对齐图像和文本，这类模型变得极为流行。这些模型如CLIP [62] 和BLIP [45]，在LAION-400M [70] 和 YFCC-100M [79] 等大规模数据集上进行训练，并且在零样本评估中（即无需在特定数据集上进行微调）展示了强大的性能，适用于各种下游任务。VLMs 的一个最流行的应用是跨模态检索 [86, 88]，即根据查询的文本（图像）检索图像（文本）。然而，由于每种模态的固有模糊性 [97]，图像与文本匹配（反之亦然）在根本上是个病态问题，即相同的标题（或图像）可以对应于多个图像（或标题）。因此，建模不同模态及其组合中的模糊性变得至关重要。

与将输入映射为嵌入向量不同，概率嵌入方法 [57, 10] 学习将输入样本映射到分布。这是通过对嵌入的分布进行参数化并训练深度神经网络来最大化其似然实现的。尽管这些概率模型在嵌入空间中对模糊性进行了建模，但它们需要从头开始训练深度网络，这需要访问与最新VLMs [62, 35, 51, 74, 45] 相关的大规模数据集和计算资源。

我们提出了ProbVLM，一种事后概率适配器，这是首个方法能够将冻结的大规模视觉-语言模型提供的确定性嵌入转化为概率嵌入，如图1所示。这使我们能够有效保留大规模预训练的优势，同时学习建模不同模态中的固有模糊性的分布。我们的ProbVLM将嵌入分布建模为异方差概率分布，并通过结合模态内和跨模态对齐目标进行训练，提供了良好校准的不确定性估计，这对于多个任务都有用。

我们在两个大规模视觉-语言数据集（即COCO [46] 和 Flickr [60]）以及两个细粒度图像数据集（即CUB [85] 和 Oxford-Flowers [55]，使用 [66] 的句子）上展示了ProbVLM无需从头开始训练大规模模型就能够学习到校准的不确定性。这与之前的概率嵌入工作 [57, 10] 形成了鲜明对比，后者需要从头开始训练新模型。我们进行了一系列分析，以了解训练目标的影响，并研究生成的不确定性的属性。此外，我们展示了我们的不确定性估计可以用于从微调的视觉-语言模型集中选择最佳模型，用于未标记目标数据集。它们还可以用于在主动学习设置中选择最适合的样本以进行模型微调。最后，通过预训练的潜在扩散模型 [67]，即Stable Diffusion，我们从预测的分布中解码采样嵌入，以可视化预测的嵌入分布。我们展示了预测的嵌入分布确实捕捉到了有意义的变化模式，这些模式可能是可解释的。

2. Related Work

Vision-Language Models.近年来，这类模型[62, 51, 74, 1, 45, 47, 44, 100, 101, 90] 由于其在图像分类[105, 21, 106, 50]、跨模态检索[4] 以及开放词汇语义分割[24, 96] 等方面的广泛应用，已变得无处不在。其中最引人注目的是CLIP[62]，它由一个图像编码器和文本编码器组成，在4亿图像-文本对上通过对比目标[28, 58] 进行训练。因此，该模型能够将图像和文本投影到一个共享的嵌入空间。在本文中，我们重点研究如何利用共享的嵌入空间来完成跨模态检索任务[60, 46]。最近的研究主要依赖于大规模预训练[62, 51, 74, 1, 104, 70, 69]，将图像和文本投影到相同的度量空间。然而，必须注意的是，所有这些视觉-语言模型[62, 51, 45, 74, 1] 都提供了确定性映射，未能对输入中的固有模糊性进行建模。在这项工作中，我们将确定性模型（即CLIP）转化为概率模型，而无需大规模数据集。

Probabilistic Embeddings.这些方法[57, 10, 43] 为估计输入中的模糊性提供了优雅的解决方案[37]。其关键思想是将输入映射到嵌入空间中的概率分布，而不是点估计，从而对输入中固有的模糊性进行建模。在跨模态检索的背景下，这是通过优化对比目标的概率模拟来为图像和文本输入学习分布[10]。其他研究进一步提升了性能[43, 59, 34]，扩展了这一公式来实现组合检索[54]，并将其应用于视频检索[59, 17] 和姿态估计[78] 等任务。然而，大多数这些工作都专注于从头开始训练模型，未能利用广泛存在的预训练模型的强大功能。其中一个显著的例外是Probabilistic Face Embedding (PFE)[73]，它提出了在保留确定性预训练模型的同时学习概率嵌入，用于人脸嵌入的学习任务。然而，这仅是在单模态设置中使用图像完成的。在本研究中，我们旨在利用预训练的视觉-语言模型，同时为两种模态提供概率嵌入。我们提出的ProbVLM导出的概率嵌入与预训练视觉-语言模型核心的跨模态学习保持一致。

Uncertainty Estimation.这些技术已经在计算机视觉的不同任务中得到广泛探索[36, 7, 41, 42, 56, 102, 83, 53, 80, 27, 68, 103, 65, 81, 77, 82]。不确定性大致可以分为两类：随机不确定性[36, 23, 3, 89, 12, 2, 87, 56, 95] 和认知不确定性[25, 7, 41, 91, 20, 33, 19, 18]。不确定性估计已被用于各种任务，例如识别模型故障[15, 5, 6, 92]，并广泛应用于主动学习中，用于选择最优样本来训练模型[71, 38, 64, 72, 99, 98, 61, 52]。虽然许多这些方法专注于从头开始训练新的贝叶斯模型，以量化预测中的不确定性，但一些最新的研究[83, 102, 29] 提出了为预训练的冻结模型估计不确定性的方法。然而，这些工作处理的是单一模态的数据。本研究则有效地为预训练的冻结大规模视觉-语言模型估计不确定性。

3. Method

在这里插入图片描述

图2：提出的框架（ProbVLM）在现有的视觉-语言模型上引入了一个概率适配器，覆盖图像和文本编码器。这些适配器预测给定嵌入的参数化分布的参数。模型通过最小化一个包含模态内/跨模态监督的目标来进行训练，如第3节详细说明。

3.1. Problem Formulation

设 $\mathcal{D}=(\mathcal{I}, \mathcal{C})$ 表示一个视觉和语言数据集，其中 $\mathcal{I}$ 是一组图像， $\mathcal{C}$ 是一组标题。这两个集合通过地面真实匹配（ground-truth matches）相连，其中多重匹配是可能的。对于一个标题 $\in \mathcal{C}$ （对应于一个图像 $\in \mathcal{I}$ ），其对应的图像集合（对应的标题集合）为 $\kappa(c) \subseteq \mathcal{I}$ （对应地 $\kappa(i) \subseteq \mathcal{C}$ ）。最近在跨模态视觉-语言模型[62, 51, 74]上的进展通常涉及学习一个共享的嵌入空间 $\mathcal{Z} \subseteq \mathbb{R}^D$ （ $D$ 维空间），用于图像和文本。这允许根据它们在共享嵌入空间中的距离量化跨模态元素之间的相似性。共享嵌入空间是通过一组两个编码器学习的：用于图像的 $\boldsymbol{\Phi}_{\mathcal{V}}(\cdot;\theta_{\mathcal{V}}):\mathcal{I}\to\mathcal{Z}$ 和用于文本的 $\Phi_\mathcal{T}(\cdot;\theta_\mathcal{T}):\mathcal{C}\to\mathcal{Z}$ ，其中 $\theta_\mathcal{V}$ 和 $\theta_\mathcal{T}$ 是各自映射函数的参数。

我们考虑一种现实场景，其中上述编码器集已使用大规模模型在庞大的数据集上进行训练，且计算成本高，例如 CLIP [62]、SLIP [51]、Flava [74] 和 BLIP [45]。这些编码器处于冻结状态，即我们拥有 $\boldsymbol{\Phi}_{\mathcal{V}}(\cdot;\theta_{\mathcal{V}}^*)$ 和 $\boldsymbol{\Phi}_\mathcal{T}(\cdot;\theta_{\mathcal{T}}^*)$ ，其中 $\theta_{\mathcal{V}}^*$ 和 $\theta_{\mathcal{T}}^*$ 代表预训练冻结编码器的参数。这些编码器是确定性的，将图像或文本映射到共享空间中的向量，即，给定一个样本图像 $\mathbf{x}_{\mathcal{V}}$ （类似地也适用于样本文本 $\mathbf{x}_{\mathcal{T}}$ ），编码器提供一个嵌入 $\mathbf{Z}_{\mathcal{V}}:=\boldsymbol{\Phi}_{\mathcal{V}}(\mathbf{x}_{\mathcal{V}};\theta_{\mathcal{V}}^*)$ （类似地， $\mathbf{z}_{\mathcal{T}}:=\boldsymbol{\Phi}_{\mathcal{T}}(\mathbf{x}_{\mathcal{T}};\theta_{\mathcal{T}}^*)$ ）。然而，这些点估计 $\mathbf{z}$ 无法捕捉到这些嵌入中固有的模糊性[57, 10, 17]，而这种模糊性更好地通过概率分布 $P_\mathbf{z}|\mathbf{x}$ 来表示。因此，我们提出使用 ProbVLM 有效地估计预训练模型的 $P_\mathbf{z}|\mathbf{x}$ ，在不重新训练编码器的情况下量化输出的不确定性。

3.2. Building ProbVLM

尽管这些大规模冻结的编码器是确定性的，但它们已经提供了高质量的点估计。我们提出的方法利用了这一事实，使用嵌入向量 $\mathbf{z}$ 作为期望分布 $P_\mathbf{z}|\mathbf{x}$ 的均值估计，并估计其余的参数。 $P_\mathbf{z}|\mathbf{x}$ 可以被建模为一个参数化分布 $P_\mathbf{z}|\mathbf{x}(\mathbf{z}|\{\hat{\mathbf{z}}, \hat{\nu}.. \hat{\rho}\})$ ，其中这些参数可以通过深度神经网络进行估计 [20, 36, 41]。因此，我们引入了 ProbVLM。

在这里插入图片描述

其中， $\Psi_\mathrm{\nu}$ 和 $\Psi_\mathrm{\tau}$ 分别表示由 $\zeta_\mathrm{\nu}$ 和 $\zeta_\mathrm{\tau}$ 参数化的视觉和文本编码器。同时， $\zeta := \zeta_{\mathcal{V}} \cup \zeta_{\mathcal{T}}$ 代表 ProbVLM 的整体参数。

它学习估计参数 $\{\hat{\mathbf{z}}, \hat{\nu}..\hat{\rho}\}$ ，利用冻结编码器 $\Phi_{\mathcal{V}}(\cdot;\theta_{\mathcal{V}}^*)$ 和 $\Phi_\mathcal{T}(\cdot;\theta_{\mathcal{T}}^*)$ 的帮助。函数 $\boldsymbol{\Psi}_{\mathcal{V}}(\cdot;\zeta_{\mathcal{V}})$ 和 $\boldsymbol{\Psi}_\mathcal{T}(\cdot;\zeta_{\mathcal{T}})$ 分别作用于图像和文本嵌入，但在训练过程中依赖于两种模态，具体如后文所述。我们为 $\Psi(\cdot;\zeta)$ 设计了学习方案，使得：
（i）估计参数 $\hat{\mathbf{z}}$ 应保持对原始单模态嵌入 $\mathbf{z}$ 的忠实（即 intra-modal 对齐），这使得 ProbVLM 的不确定性能够作为冻结编码器不确定性的良好代理。
（ii）估计参数 $\{\hat{\nu}...\hat{\rho}\}$ 应捕捉模态内和跨模态的模糊性和不确定性（即 cross-modal 对齐）。

图2 展示了 ProbVLM 与冻结 VLM 的配合。

Intra-modal Alignment.为了确保由 $\Psi(\cdot;\zeta)$ 估计的分布的均值反映冻结编码器提供的点估计，我们为模态内的嵌入设置了一个概率重建问题。也就是说，对于给定的样本 $\mathbf{x}$ （来自图像或文本模态），我们从冻结编码器获得嵌入 $\mathbf{z} = Φ(\mathbf{x}; \theta)$ （使用适当的编码器），然后 $\Psi(\cdot;\zeta)$ 的模态特定组件学习重建 $\mathbf{z}$ （将重建结果称为 $\hat{\mathbf{z}}$ ）。 $\Psi(\cdot;\zeta)$ 的模态特定组件设计为

(i) 通过假设独立但不具有相同分布的残差来放宽 i.i.d. 限制，并且

(ii) 在重建时学习残差的异方差性，这些残差可能遵循重尾分布 [83, 84, 40, 39, 30]。模态特定组件通过最大化对数据集中 $N$ 个样本的嵌入的似然函数 $\mathcal{L}(\zeta;\{\mathbf{z}_i\}_{i=1}^N)$ 来学习。也就是说，模态特定的最优参数由下式给出：

在这里插入图片描述

在上述方程中， $\frac{\hat{\beta}_i e^{-(|\hat{\mathbf{z}}_i - \mathbf{z}_i| / \hat{\alpha}_i)} \hat{\beta}_i}{2 \hat{\alpha}_i \Gamma(1 / \hat{\beta}_i)}$ 代表了广义高斯分布（GGD，由 $\mathcal{G}$ 表示），该分布能够建模重尾分布（注意，Gaussian 和 Laplace 是 $\mathcal{G}$ 的特例，其中 $\alpha=1,\beta=2$ 和 $\alpha=1,\beta=1$ ）。变量 $\hat{\mathbf{z}}_i, \hat{\alpha}_i, \hat{\beta}_i$ 是我们从模态特定组件中为给定输入 $\mathbf{z}_i$ 预测的均值、尺度和形状参数。通过最小化负对数似然（等价于下述方程2）来获得模态特定的最优参数。给定 $\mathbf{z}$ 和预测的 $\hat{\mathbf{z}}, \hat{\alpha}, \hat{\beta}$ ，损失函数为：
在这里插入图片描述

因此，ProbVLM 的视觉特定组件 $\boldsymbol{\Psi}(\cdot;\zeta_{\mathcal{V}})$ 通过使用图像嵌入最小化方程3来训练，我们将这一损失函数表示为 $L_\mathrm{rec}^{\mathcal{V}}(\zeta_{\mathcal{V}})$ 。类似地，文本特定组件 $\boldsymbol{\Psi}(\cdot;\zeta_{\mathcal{T}})$ 通过最小化 $L_\mathrm{rec}^{\mathcal{T}}(\zeta_{\mathcal{T}})$ 进行训练。如下一节所述，我们还强制执行跨模态对齐，以便 ProbVLM 的预测分布能够捕捉到来自一对多对应关系的模态间不确定性。

Cross-modal Alignment. 当模态内部对齐试图将 ProbVLM 输出分布的均值匹配到从冻结视觉语言编码器获得的嵌入时，我们还强制要求图像和文本嵌入输出分布（来自 ProbVLM）代表相似概念时应保持彼此接近。也就是说，给定一个图像和文本嵌入对 $(\mathbf{z}_{\mathcal{V}}, \mathbf{z}_{\mathcal{T}})$ （来自冻结模型）代表相似的概念，来自 $\boldsymbol{\Psi}(\cdot;\zeta)$ 的输出分布 $\mathcal{G}(\mathbf{z}; \hat{\mathbf{z}}_{\mathcal{V}}, \hat{\alpha}_{\mathcal{V}}, \hat{\beta}_{\mathcal{V}})$ 和 $\mathcal{G}(\mathbf{z}; \hat{\mathbf{z}}_{\mathcal{T}}, \hat{\alpha}_{\mathcal{T}}, \hat{\beta}_{\mathcal{T}})$ （以下称为 $\mathcal{G}_{\mathcal{V}}(\mathbf{z})$ 和 $\mathcal{G}_{\mathcal{T}}(\mathbf{z})$ ）应匹配。这可以通过直接从似然度来衡量，即 $p(\mathbf{z}_v = \mathbf{z}_u)$ ，其中 $\mathbf{z}_v \sim \mathcal{G}_{\mathcal{V}}(\mathbf{z})$ 和 $\mathbf{z}_u \sim \mathcal{G}_{\mathcal{T}}(\mathbf{z})$ ，如 [73] 中所示。

开始看不懂了，，，，，

在这里插入图片描述
其中， $\delta(\cdot)$ 指的是 $Dirac-\delta$ 分布。上述积分可以通过定义 $\Delta \mathbf{z} = \mathbf{z}_\mathcal{V} - \mathbf{z}_\mathcal{T}$ 并寻求 $p(\hat{\Delta \mathbf{z}}) = 0$ 进一步简化。由于 $\mathbf{z}_\mathcal{V}$ 和 $\mathbf{z}_\mathcal{T}$ 都是 GGD 随机变量，因此 $\Delta \mathbf{z}$ 遵循基于双变量 Fox H 函数 [76, 48, 49] 的分布。

在这里插入图片描述

其中， $\frac{\hat{\alpha}_{\mathcal{V}}^2 \Gamma(1 / \hat{\beta}_{\mathcal{V}})}{4 \Gamma(3 / \hat{\beta}_{\mathcal{V}})}$ ， $\frac{\hat{\alpha}_{\mathcal{T}}^2 \Gamma(1 / \hat{\beta}_{\mathcal{T}})}{4 \Gamma(3 / \hat{\beta}_{\mathcal{T}})}$ ， $\mu = \hat{\mathbf{z}}_{\mathcal{V}} - \hat{\mathbf{z}}_{\mathcal{T}}$ ，而 $\mathcal{H}$ 是 $Fox\textit{ H}$ 函数 [76, 48, 49]。方程 5 并没有提供一个适合深度神经网络训练的可扩展目标函数。因此，我们提出了一个易于扩展的近似方法，如下所示：

在这里插入图片描述

附录中展示了上述方程的详细信息。积分中的第一个项 $\int \mathcal{G}_{\mathcal{V}}(\mathbf{z}) \delta(\mathbf{z} - \mathbf{z}_{\mathcal{T}}) d\mathbf{z}$ 是在预测的分布 $\mathcal{G}_{\mathcal{V}}(\mathbf{z})$ 下，文本嵌入 $\mathbf{z}_{\mathcal{T}}$ 的似然。类似地，第二个项是视觉嵌入 $\mathbf{z}_{\mathcal{V}}$ 在预测的分布 $\mathcal{G}_{\mathcal{T}}(\mathbf{z})$ 下的似然。方程 6 的负对数得到一个可扩展的目标函数，用于学习 ProbVLM 的视觉和文本组件（ $\boldsymbol{\Psi}_{\mathcal{V}}(\cdot;\zeta_{\mathcal{V}})$ 和 $\boldsymbol{\Psi}_{\mathcal{T}}(\cdot;\zeta_{\mathcal{T}})$ ）的最优参数。

在这里插入图片描述

用于ProbVLM的总体目标设计为，

在这里插入图片描述

其中， $\lambda_{cross}$ 是一个超参数，用于控制跨模态和单模态项的相对贡献。

Uncertainty Quantification.给定来自冻结编码器的嵌入 $\mathbf{z}$ ，从训练好的 ProbVLM（适当组件的输出）中预测的分布允许计算自变量不确定性，其公式为 $\hat{\sigma}_\mathrm{aleatoric}^2 = \frac{\hat{\alpha}^2 \Gamma(3/\hat{\beta})}{\Gamma(1/\hat{\beta})}$ 。此外，我们将 $\Psi_\mathrm{\nu}$ 和 $\Psi_\mathrm{\tau}$ 设计为简单的三层 MLP，并在训练期间使用 dropout 层（dropout 概率设为 0.1）。在推理过程中，激活 dropout，并进行多次前向传递（例如 $M$ 次），可以估计认识论不确定性，其公式为 $\hat{\sigma}_\text{epistemic}^2 = \frac{1}{M} \sum_{m=1}^M (\hat{\mathbf{z}}_m - \frac{1}{M} \sum_{j=1}^M \hat{\mathbf{z}}_j)^2$ 。我们将总不确定性估计为：

在这里插入图片描述

3.3. Latent Diffusion for Probabilistic Embeddings

对于给定的文本嵌入 $\mathbf{z}_{\mathcal{T}}$ ，通过 ProbVLM 估计的分布 $\mathcal{G}(\mathbf{z}; \hat{\mathbf{z}}_{\mathcal{T}}, \hat{\alpha}_{\mathcal{T}}, \hat{\beta}_{\mathcal{T}})$ 可以通过从预测的分布中抽取样本（例如 $\{ \hat{\mathbf{z}}_{\mathcal{T}, i} \}_{i=1}^Q$ ）并将它们传递通过潜在的变换器（例如 $\text{ser}_{\mathcal{Z}}(x_{\mathcal{T}})$ ）来可视化。接着，可以使用 CLIP 文本编码器和稳定扩散模型（例如 $\text{fusion model, e.g., Stable Diffusion}$ ）来合成图像样本的集合（例如 $J$ ）。这些图像样本对应于从分布中生成的图像。
在这里插入图片描述
第4.4节使用它来可视化预测的分布。

4. Experiments and Results

在这里插入图片描述

5. Conclusion

我们介绍了 ProbVLM，这是一种后处理方法，用于估计冻结的大规模确定性视觉语言模型的嵌入分布。我们通过框架有效地估计了经过校准的不确定性，并展示了这些校准估计在模型选择和主动学习等下游任务中的多种应用。此外，我们通过使用大规模预训练的潜在扩散模型（即稳定扩散模型）来解释 ProbVLM 预测的嵌入分布。我们希望我们的工作能突出并激发未来在高效概率嵌入方法方面的研究。