NeurIPS 2023 | 连接多模态对比表征：无需配对数据的高效对比表征学习方法

©PaperWeekly 原创 ·作者 | 王泽寒

单位 | 浙江大学

研究方向 | 多模态学习

论文地址：

https://arxiv.org/abs/2305.14381

项目主页：

https://c-mcr.github.io/C-MCR/

模型&代码地址：

https://github.com/MCR-PEFT/C-MCR

多模态对比表示（multi-modal contrastive representation, MCR）旨在将不同的模态输入编码到一个语义对齐的共享空间中。随着 CLIP 模型在视觉-语言领域的巨大成功，越来越多的研究这开始为更多的模态学习对比表征。然而，尽管这些方法在多模态理解、生成等诸多领域取得了巨大的成功，对于大规模高质量数据对的依赖严重限制了多模态对比表征的进一步发展。对于很多模态组合，大规模的高质量的配对数据是难以获得的。

本文提出了连接多模态对比表示（C-MCR），一种无需配对数据且训练极为高效的多模态对比表征学习方法。我们的方法在不使用任何配对数据的情况下，学习到了强大的 audio-visual 和 3D-text 表征，并在 audio-visual retrieval、audio-visual source localization、3D point cloud classification 等多个任务上取得了 state-of-the-art 效果。

介绍

多模态对比表示（MCR）旨在将来自不同模态的输入映射到共享的表示空间中。由于 CLIP 在视觉-语言领域的众多下游任务上展示出的令人印象深刻的泛化性能，学习更多模态间对比表征已成为一个热度研究问题，吸引了越来越多的关注。

然而，多模态对比表示的泛化能力主要受益于大量的高质量的数据对的可行性。这就严重限制了对比表征在缺乏大规模高质数据的模态上的发展。例如，音频-视觉数据对间的语义关联性往往是模糊的，3D 点云和文本的配对数据则是稀少的难以获得的。

不过，我们观察发现，这些缺乏直接配对数据的模态，往往和同一个中间模态具有大量高质量配对数据。例如，对于音频-视觉领域，虽然音频-视觉数据质量不可靠，但音频-文本和文本-图像的配对数据是充足且语义明确的。同样，虽然 3D 点云-文本配对数据很少，但 3D 点云-图像和图像-文本数据是广泛存在的。这些中间模态可以起到一个枢纽作用，来构建起更多模态的关联。

考虑到这些有着充足配对数据的模态间往往已经存在成熟的对比表征。本文提出了连接多模态对比表示（C-MCR），一种无需配对数据的训练高效的多模态对比表征学习方法。通过利用现有多模态对比表征间可能存在的重叠模态，来连接不同的对比表征，从而学到更多模态间的对齐关系。

我们的 C-MCR 具有两个优点：

1. 灵活性：C-MCR 使缺乏配对的模态上进行 MCR 学习成为可能。更重要的是，C-MCR 将每个学到的多模态对比表征空间视为一个节点，将不同多模态对比表征之间的重叠模态视为枢纽。连接各个孤立的多模态对比表征极大地扩展了获得的多模态对齐知识，并能挖掘出更广泛模态间的对比表示；

2. 高效性：由于 C-MCR 只是将已经学到的表示重新投影到一个新空间中，训练过程中只需学习两个简单的投影器，它的训练参数和成本非常的小。

在实验上，通过使用文本来连接视觉-文本（CLIP）和文本-音频（CLAP）对比表征空间，我们得到了一组高质量的视觉-音频表征。类似的，通过使用图片来连接文本-视觉（CLIP）和视觉- 3D 点云（ULIP）对比表征空间，我们还能获得一组 3D 点云-文本对比表征。

方法

Figure 1 中以使用文本来连接 CLIP 中的图像-文本空间和 CLAP 中的文本-音频空间为例，介绍了 C-MCR 的算法流程。文本（重叠模态）的数据分别被 CLIP 和 CLAP 的文本编码器编码为文本特征：、，同时，对于图像和音频（非重叠模态），大量非配对单模态数据也分别被编码到 CLIP 和 CLAP 空间，构成 image memory 和 audio memory

1. 特征语义增强

为了更鲁棒更全面的连接不同的空间，我们首先从两个角度来增强上述特征中的语义信息：模态间语义一致性和模态内语义完整性。

模态间语义一致性

CLIP 和 CLAP 空间本身已经分别学到了可靠的图像-文本和文本-音频表征。为了更好的量化对比表征空间中的 modality gap 以及更直接的挖掘非重叠模态间的关联性，我们利用 CLIP 和 CLAP 各自内在的模态对齐性来，来生成与第 i 个文本语义一致的图像和音频特征。具体的公式为：

模态内语义完整性

原始数据中的语义通常很复杂，而将其编码到表征空间的过程不可存在语义偏差和丢失。在连接现有的表示空间时，这种语义偏差和丢失将被继承并且放大，影响对齐的鲁棒性。为了增强每个表征的语义完整性，我们提出将高斯噪声作为语义增强方法。具体来说，我们将零均值高斯噪声添加到表征中，并将它们重新归一化为单位超球面上，计算过程如下：

如 Figure 1（c）中所示，在对比表征空间中，每个表征都会是分布在单位超球面上的一个点。添加高斯噪声并重新归一化则使表征能够代表了单位球体表面上的一个圆。在对比表征空间中，两个特征的空间距离越接近其语义相似度也越高，所以圆内的特征都具有相似语义，圆所能表示的语义比原始表征的点所代表的语义更全面和鲁棒。

Inter-MCR的对齐

为了建立两个对比表征空间的连接，我们只需要通过两个可学习的映射器和分别将 CLIP 和 CLAP 空间下语义增强后的特征映射到一个新的共享空间。该过程可以表示为：

在新投影的空间中，我们的目标是确保来自不同对比表征空间的具有相似语义的特征彼此接近。来源于同一文本的 (,) 特征对是自然语义一致的，可以将其视为真实标签对。此外由于各个对比表征空间中本身内在的语义对齐性，因此源自于 (,) 的 (,) 可以被视为伪标签对。为了更鲁棒地连接两个对比表征空间，我们分别对齐 (,) 和 (,)。其损失函数被定义为：

这里的和是互补的。（,）之间的语义高度一致，因此从它们中学习到的连接更加可靠，但它们的对齐对于音频-视觉来说是间接的学习。另一方面，（,）则更直接地有利于学习音频-视觉表征，但其语义一致性不太可靠。同时，由于（,）中的语义一致性还是源自与（,），从伪对（,）学习到的连接仍然可以被理解是基于重叠模态（即，文本）的。

Intra-MCR的对齐

近期的一些工作指出，对比表征空间中存在这 modality gap 的现象。尽管来自不同模态的特征在对比表征空间中语义对齐，但它们分布在表征空间的完全不同的子空间中。这意味着从 (,) 学习到的更稳定的连接可能无法直接被迁移到音频-视觉上。

为了更好地保持从文本中学习到的稳定连接，我们提出各个对比表征空间内部进行重新对齐，以此来缩小 modality gap。我们通过去除对比损失函数中的负例排斥结构来推导出用于减小 modality gap 的损失函数。典型的对比损失函数可以表述为：

我们只保留将正例拉近的机制，而去除负对之间的排斥效应，最终的公式可以被简化为：

实验

我们通过连接 CLAP 的音频-文本空间和 CLIP 的文本-视觉空间来获得音频-视觉表征，连接 ULIP 的 3D 点云-图像空间和 CLIP 的图像-文本空间来获得 3D 点云-文本表征。为了实现这种连接，我们不需要任何配对数据，只需要易于获得的音频、文本、图像、3D 点云的单模态数据即可。同时，我们的方法只需训练两个映射器，且各个空间的特征也可以预先提取并离线储存。这些极大的降低了连接两个空间的数据和计算资源要求。

1. 测试任务

音视频下游任务：

音频-图像检索：我们在 AVE 和 Flickr-SoundNet 数据上测试了不同音频-视觉表征的 zero-shot 检索精度，来评估粗粒度的图像-音频的匹配能力。
声源定位：根据一段音频来定位图像中对应的发声物体。我们选择了 VGGSS 和 MUSIC 数据集的测试集来评估 zero-shot 的声源定位能力，并反应表征识别细粒度物体和音频匹配程度的能力。
反事实音频图像识别：该任务要求区分出语义上不配对的音频图像对和语义匹配的音频图像对。我们在 Ex-VGGSS 和 Ex-FlickrNet 上测试了 zero-shot 的识别性能，以此来评估对于音频-视觉输入的更深入的理解和推理能力。

3D 点云下游任务：