NeurIPS 2023 | 连接多模态对比表征:无需配对数据的高效对比表征学习方法

news2024/10/6 6:50:20

9699e1f415d95da54e49e0f93a2690c8.gif

©PaperWeekly 原创 ·作者 | 王泽寒

单位 | 浙江大学

研究方向 | 多模态学习

d3679703b61a7f7fe78aaf87699b3762.png

论文地址:

https://arxiv.org/abs/2305.14381

项目主页:

https://c-mcr.github.io/C-MCR/

模型&代码地址:

https://github.com/MCR-PEFT/C-MCR

多模态对比表示(multi-modal contrastive representation, MCR)旨在将不同的模态输入编码到一个语义对齐的共享空间中。随着 CLIP 模型在视觉-语言领域的巨大成功,越来越多的研究这开始为更多的模态学习对比表征。然而,尽管这些方法在多模态理解、生成等诸多领域取得了巨大的成功,对于大规模高质量数据对的依赖严重限制了多模态对比表征的进一步发展。对于很多模态组合,大规模的高质量的配对数据是难以获得的。

本文提出了连接多模态对比表示(C-MCR),一种无需配对数据且训练极为高效的多模态对比表征学习方法。我们的方法在不使用任何配对数据的情况下,学习到了强大的 audio-visual 和 3D-text 表征,并在 audio-visual retrieval、audio-visual source localization、3D point cloud classification 等多个任务上取得了 state-of-the-art 效果。

b9a1ff261b7da383a2984c686ad2d32e.png

介绍

多模态对比表示(MCR)旨在将来自不同模态的输入映射到共享的表示空间中。由于 CLIP 在视觉-语言领域的众多下游任务上展示出的令人印象深刻的泛化性能,学习更多模态间对比表征已成为一个热度研究问题,吸引了越来越多的关注。

然而,多模态对比表示的泛化能力主要受益于大量的高质量的数据对的可行性。这就严重限制了对比表征在缺乏大规模高质数据的模态上的发展。例如,音频-视觉数据对间的语义关联性往往是模糊的,3D 点云和文本的配对数据则是稀少的难以获得的。

不过,我们观察发现,这些缺乏直接配对数据的模态,往往和同一个中间模态具有大量高质量配对数据。例如,对于音频-视觉领域,虽然音频-视觉数据质量不可靠,但音频-文本和文本-图像的配对数据是充足且语义明确的。同样,虽然 3D 点云-文本配对数据很少,但 3D 点云-图像和图像-文本数据是广泛存在的。这些中间模态可以起到一个枢纽作用,来构建起更多模态的关联。

考虑到这些有着充足配对数据的模态间往往已经存在成熟的对比表征。本文提出了连接多模态对比表示(C-MCR),一种无需配对数据的训练高效的多模态对比表征学习方法。通过利用现有多模态对比表征间可能存在的重叠模态,来连接不同的对比表征,从而学到更多模态间的对齐关系。

我们的 C-MCR 具有两个优点:

1. 灵活性:C-MCR 使缺乏配对的模态上进行 MCR 学习成为可能。更重要的是,C-MCR 将每个学到的多模态对比表征空间视为一个节点,将不同多模态对比表征之间的重叠模态视为枢纽。连接各个孤立的多模态对比表征极大地扩展了获得的多模态对齐知识,并能挖掘出更广泛模态间的对比表示;

2. 高效性:由于 C-MCR 只是将已经学到的表示重新投影到一个新空间中,训练过程中只需学习两个简单的投影器,它的训练参数和成本非常的小。

在实验上,通过使用文本来连接视觉-文本(CLIP)和文本-音频(CLAP)对比表征空间,我们得到了一组高质量的视觉-音频表征。类似的,通过使用图片来连接文本-视觉(CLIP)和视觉- 3D 点云(ULIP)对比表征空间,我们还能获得一组 3D 点云-文本对比表征。

cc362d1ded47bdf6bda88a760bf6f110.png

方法

36adff95109513dcc3e1a3e40eb28d59.png

Figure 1 中以使用文本来连接 CLIP 中的图像-文本空间和 CLAP 中的文本-音频空间为例,介绍了 C-MCR 的算法流程。文本(重叠模态)的数据分别被 CLIP 和 CLAP 的文本编码器编码为文本特征:、,同时,对于图像和音频(非重叠模态),大量非配对单模态数据也分别被编码到 CLIP 和 CLAP 空间,构成 image memory 和 audio memory 

1. 特征语义增强

为了更鲁棒更全面的连接不同的空间,我们首先从两个角度来增强上述特征中的语义信息:模态间语义一致性和模态内语义完整性。

  • 模态间语义一致性

CLIP 和 CLAP 空间本身已经分别学到了可靠的图像-文本和文本-音频表征。为了更好的量化对比表征空间中的 modality gap 以及更直接的挖掘非重叠模态间的关联性,我们利用 CLIP 和 CLAP 各自内在的模态对齐性来,来生成与第 i 个文本语义一致的图像和音频特征。具体的公式为:

5cd75f9ed0f4bf016f57cefa11523fa0.png

  • 模态内语义完整性

原始数据中的语义通常很复杂,而将其编码到表征空间的过程不可存在语义偏差和丢失。在连接现有的表示空间时,这种语义偏差和丢失将被继承并且放大,影响对齐的鲁棒性。为了增强每个表征的语义完整性,我们提出将高斯噪声作为语义增强方法。具体来说,我们将零均值高斯噪声添加到表征中,并将它们重新归一化为单位超球面上,计算过程如下:

6755acbe375e1727ce1a9c554fb12933.png

如 Figure 1(c)中所示,在对比表征空间中,每个表征都会是分布在单位超球面上的一个点。添加高斯噪声并重新归一化则使表征能够代表了单位球体表面上的一个圆。在对比表征空间中,两个特征的空间距离越接近其语义相似度也越高,所以圆内的特征都具有相似语义,圆所能表示的语义比原始表征的点所代表的语义更全面和鲁棒。

ca36df3496aa9cbf408471b2664520f2.png

Inter-MCR的对齐

为了建立两个对比表征空间的连接,我们只需要通过两个可学习的映射器 和 分别将 CLIP 和 CLAP 空间下语义增强后的特征映射到一个新的共享空间。该过程可以表示为:

5a377735fe3a32b23deb42f63a24e06a.png

在新投影的空间中,我们的目标是确保来自不同对比表征空间的具有相似语义的特征彼此接近。来源于同一文本的 (,) 特征对是自然语义一致的,可以将其视为真实标签对。此外由于各个对比表征空间中本身内在的语义对齐性,因此源自于 (,) 的 (,) 可以被视为伪标签对。为了更鲁棒地连接两个对比表征空间,我们分别对齐 (,) 和 (,)。其损失函数被定义为:

6fb962e4c4e3bb44ebe1460866ee7b88.png

这里的  和 是互补的。(,)之间的语义高度一致,因此从它们中学习到的连接更加可靠,但它们的对齐对于音频-视觉来说是间接的学习。另一方面,(,)则更直接地有利于学习音频-视觉表征,但其语义一致性不太可靠。同时,由于(,)中的语义一致性还是源自与(,),从伪对(,)学习到的连接仍然可以被理解是基于重叠模态(即,文本)的。

b29ec0aa12c1790d50e2a2e3d3324ef9.png

Intra-MCR的对齐

近期的一些工作指出,对比表征空间中存在这 modality gap 的现象。尽管来自不同模态的特征在对比表征空间中语义对齐,但它们分布在表征空间的完全不同的子空间中。这意味着从 (,) 学习到的更稳定的连接可能无法直接被迁移到音频-视觉上。

为了更好地保持从文本中学习到的稳定连接,我们提出各个对比表征空间内部进行重新对齐,以此来缩小 modality gap。我们通过去除对比损失函数中的负例排斥结构来推导出用于减小 modality gap 的损失函数。典型的对比损失函数可以表述为:

d3237c42695808ee2ab0052055790004.png

我们只保留将正例拉近的机制,而去除负对之间的排斥效应,最终的公式可以被简化为:

d5ff2d65bc03b3b682fc6f447e0e3f7a.png

f028d53082bff2e1129c315e360dc916.png

实验

我们通过连接 CLAP 的音频-文本空间和 CLIP 的文本-视觉空间来获得音频-视觉表征,连接 ULIP 的 3D 点云-图像空间和 CLIP 的图像-文本空间来获得 3D 点云-文本表征。为了实现这种连接,我们不需要任何配对数据,只需要易于获得的音频、文本、图像、3D 点云的单模态数据即可。同时,我们的方法只需训练两个映射器,且各个空间的特征也可以预先提取并离线储存。这些极大的降低了连接两个空间的数据和计算资源要求。

1. 测试任务

音视频下游任务:

  • 音频-图像检索:我们在 AVE 和 Flickr-SoundNet 数据上测试了不同音频-视觉表征的 zero-shot 检索精度,来评估粗粒度的图像-音频的匹配能力。

  • 声源定位:根据一段音频来定位图像中对应的发声物体。我们选择了 VGGSS 和 MUSIC 数据集的测试集来评估 zero-shot 的声源定位能力,并反应表征识别细粒度物体和音频匹配程度的能力。

  • 反事实音频图像识别:该任务要求区分出语义上不配对的音频图像对和语义匹配的音频图像对。我们在 Ex-VGGSS 和 Ex-FlickrNet 上测试了 zero-shot 的识别性能,以此来评估对于音频-视觉输入的更深入的理解和推理能力。

3D 点云下游任务:

  • 3D 点云物体分类:我们在 ModelNet40 数据集上测试了 zero-shot 的 3D 点云物体分类。通过在 3D 点云-文本领域的实验来验证 C-MCR 学习方法的广泛有效性。

2. 实验结果

在 AVE 和 Flickr-SoundNet 上的 zero-shot 音频图像检索结果如下:

ef7e48c517df858383726787dbb6db01.png

在 MUSIC-Solo 和 VGGSS 上的 zero-shot 声源定位结果如下:

87beac8365ac3d2b91d1e86048337f27.png

在 Ex-VGGSS 和 Ex-FlickrNet 上的 zero-shot 反事实音频图像识别结果如下:

2d3f264ef36e75e014298c4a7d51ea0d.png

在 ModelNet40 上的 zero-shot 3D 点云分类结果如下:

5fca1193c08e392a7e852328ff2b1ca0.png

更多阅读

bae3207a285efd8c489bd23ceb4becca.png

562ab6c51af476ace18f0323cef0b9dd.png

5e95a7f06c95aa3361cb16ce5fd270aa.png

fcf6c90377184e72303e833358e90088.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

9994338b37f334e68799bc5ebb80dbce.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

1da45a3dcef1ff62e9a22ea37f6773d4.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1148816.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IconWorkshop中文官方版下载_IconWorkshop最新版下载v6.91汉化破解版下载

IconWorkshop 6.91是由Axialis公司出品的一款专业图标创作工具。它能够为所有版本的Windows,MacOS,iOS和Linux制作您自己的专业图标。兼容Visual Studio,Photoshop和Illustrator等开发行业标准。软件内置了不少滤镜(模糊、平滑、锐…

CTFHub | MySQL流量、Redis流量、MongoDB流量的WriteUp

文章目录 MySQL流量题目题解 Redis流量题目题解 MongoDB流量题目题解 数据库类流量题需要用到Wireshark截取数据包,然后进行分析。 WireShark是非常流行的网络封包分析工具,可以截取各种网络数据包,并显示数据包详细信息。常用于开发测试过程…

算法刷题记录6 - 反转链表和链表两两交换

哎,都两周没刷题了,罪过 第一题 2023.10.29 周日 上链接 206. 反转链表 难度:简单 代码随想录 文档 代码随想录 视频 这道题说难不难,但是也不知道是太久没写没感觉了还是确实细节多,不看视频确实感觉不出写的问题在…

GEE错误——影像加载过程中出现的图层无法展示的解决方案

问题: // I dont know if some standard value exists for the radius, in the same, I will assume that some software would prefer to use square shape, but circle makes more sense to me. // pixels is noice if you want to zoom in and out to visualize…

Redis实现分布式锁之----超时和失效(非原子性)问题----解决方案

Redis实现分布式锁之----超时和失效(非原子性)问题----解决方案 超时和失效(非原子性)问题 原子性问题:上锁时存入线程名称,删除时要先判断锁内的名称是不是自己的,是再删除,但是后…

软件测试---边界值分析(功能测试)

选取正好等于、刚好大于、刚好小于边界的值作为测试数据 上点: 边界上的点 (正好等于);必选(不考虑区开闭) 内点: 范围内的点 (区间范围内的数据);必选(建议选择中间范围) 离点: 距离上点最近的点 (刚好大于、刚好小于);开内闭外(考虑开…

常见面试题-MySQL专栏(二)

了解索引扫描吗? 答: MySQL有两种方法生成有序结果: 通过排序操作按照索引顺序扫描 如果 explain 出来的 type 列值为 “index” 的话,说明是按照索引扫描了。 索引扫描本身的速度是很快的。但是如果索引不能覆盖查询所需的全…

【每日一题】H 指数 II

文章目录 Tag题目来源题目解读解题思路方法一:二分查找 写在最后 Tag 【二分查找】【数组】【2023-10-30】 题目来源 275. H 指数 II 题目解读 本题与 274. H 指数 题目一致,只是加强了一下条件,数组是有序的。 解题思路 方法一&#xff…

【Docker】如何查看之前docker run命令启动的参数

个人主页:金鳞踏雨 个人简介:大家好,我是金鳞,一个初出茅庐的Java小白 目前状况:22届普通本科毕业生,几经波折了,现在任职于一家国内大型知名日化公司,从事Java开发工作 我的博客&am…

如何高效制作视频滚动字幕:批量剪辑攻略

在视频制作过程中,添加滚动字幕是常见且重要的环节。它不仅可以帮助传达信息,还能增强视频的观感体验。然而,对于需要大量制作字幕的视频,逐一添加字幕无疑会浪费大量时间和精力。因此,本文将为你介绍运用云炫AI智剪制…

1.让数组动起来

概述 对数组进行分析,目标如下 线性表的概念数组的存储结构数组查询,插入,删除操作的特点及对应的时间复杂度刷题(盛最多水的容器) 线性表 在数据结构中,数据的逻辑结构分为线性结构和非线性结构 线性结构: n个数据元素有序集合…

在 Visual Studio 中远程调试 C++ 项目

目录 一、说明二、下载远程工具1. 官网下载2. 自己电脑上拷贝 三、 运行远程工具四、本机Visual Studio配置五、自动部署 一、说明 参考官方文档:https://learn.microsoft.com/zh-cn/visualstudio/debugger/remote-debugging-cpp?viewvs-2022 二、下载远程工具 …

【C语言】calloc()函数详解(动态内存开辟函数)

🦄个人主页:修修修也 🎏所属专栏:C语言 ⚙️操作环境:Visual Studio 2022 一.calloc()函数简介 我们先来看一下cplusplus.com - The C Resources Network网站上calloc()函数的基本信息: 1.函数功能 可以看到,calloc()函数的功能是:为num个大…

FastAPI框架学习笔记(快速入门FastAPI框架)

1. 写在前面 今天整理一篇后端框架的笔记, fastapi框架是比较主流的后端异步web框架,关键是python语言可以写,正好公司最近安排了一些后端服务的活, 所以就看了一个fastapi框架的入门课程(链接在底部),完成任务&#…

用户登录前后端开发(一个简单完整的小项目)——SpringBoot与session验证(带前后端源码)全方位全流程超详细教程

🧸注:不要看我的文件多,那是我的其他项目,这个项目所用的文件我会全部用红框框起来,没框的部分不用管,前端两个文件,后端一个文件 📜 目录 首先,定义前后端交互接口 然…

电子器件 电感

拿一根导线在笔上绕几圈,取下来就是一个空心电感,如果拿一个铁芯,在铁芯上绕相同的圈数,加了的铁芯的电感量是没有加铁芯的几千倍甚至上万倍,所以电感一般是有铁芯的。 下图是电感的模型,L 是理想电感&…

招生报名缴费小程序开发笔记(上)

前期调研 1.数字化趋势: 随着社会的数字化转型,越来越多的教育机构倾向于采用数字工具来简化和优化他们的招生和报名过程。招生报名缴费小程序是应对这一趋势的一种解决方案,可以提供高效、方便、快速的在线招生渠道。2.用户需求&#xff1a…

强化学习中值函数应用示例

一、Gridworld Gridworld是一个用于教授强化学习概念的简化的电子游戏环境。它具有一个简单的二维网格,智能体可以在其中执行动作并获得奖励。这个环境是有限的,因为它有一个明确的开始和结束状态,以及一组确定的动作和奖励。 在Gridworld中&…

C++二分查找算法的应用:最长递增子序列

涉及知识点 二分查找 单调映射 源码下载 点击下载源码 题目 给你一个整数数组 nums ,找到其中最长严格递增子序列的长度。 子序列 是由数组派生而来的序列,删除(或不删除)数组中的元素而不改变其余元素的顺序。例如&#xf…

Rust 语言介绍及安装

目录 1、简介 1.1 为什么选择Rust 高性能 可靠性 生产力 1.2 用 Rust 构建应用 命令行 WebAssembly 网络 嵌入式 2、安装 Rust Windows 的 Linux 子系统(WSL) 检查Rust 是最新的 卸载Rust版本: Cargo:Rust 的构建工…