【最新顶刊综述】【多模态学习】Vision + X：A Survey on Multimodal Learning in the Light of Data

Vision+X：基于数据的多模态学习综述

论文链接

0.论文摘要和信息

摘要

摘要——我们以多感官的方式感知世界并与世界交流，不同的信息源由人脑的不同部分复杂地处理和解释，构成一个复杂但和谐统一的感知系统。为了赋予机器真正的智能，近年来随着新兴技术的进步，结合各种来源数据的多模态机器学习已经成为越来越受欢迎的研究领域。在本文中，我们从一个新的角度对多模态机器学习进行了综述，不仅考虑了纯粹的技术方面，还考虑了不同数据模态的内在本质。我们分析了每种数据格式的共性和独特性，主要包括视觉、音频、文本和运动，然后介绍了通过数据模态组合（如视觉+文本）分类的方法进步，稍微强调视觉数据。我们从表征学习和下游应用层面调查了关于多模态学习的现有文献，并根据它们与数据性质的技术联系提供了额外的比较，例如，图像对象和文本描述之间的语义一致性，以及视频舞蹈动作和音乐节拍之间的节奏对应性。我们希望利用数据模态的内在性质和技术设计之间的一致性以及现有差距，将有利于未来的研究，以更好地解决与具体多模态任务相关的特定挑战，促使统一的多模态机器学习框架更接近真实的人类智能系统。

作者信息

Ye Zhu, Member, IEEE, Yu Wu, Member, IEEE, Nicu Sebe, Senior Member, IEEE, and Yan Yan, Senior Member, IEEE

1.引言

我们通过人类的多感官系统，通过看到物体、听到声音、说语言以及书写和阅读文本来感知世界并与之交流。来自这些不同来源的信息由人脑的不同部分处理，如[5]、[20]、[252]所示。例如，枕叶充当视觉处理的主要中心，解释物体的距离和位置，而颞叶处理听觉信息，帮助我们理解声音。由后上颞叶韦尼克区促进的语言理解对于解码书面和口头单词都是至关重要的。其他感官信息，如触摸和运动，由不同的大脑区域处理。这些整合而又不同的功能形成了一个复杂而和谐的人类感知系统。人类神经处理中的专业划分突出了不同模态之间的独特和共享特征，启发我们根据本文中的数据思考多模态机器学习问题。

历史上，视觉、音频和文本数据通常在单独的研究领域（即计算机视觉、数字信号处理和自然语言处理）中进行研究。随着为机器带来真正的智能的最终目标，人工智能(AI)的研究已经远远超出了单一感知视角的开发，而是进入了一个以协作方式研究多个感知系统相互作用的时代，就像在人脑系统中一样。随着近年来多模态学习的研究变得越来越流行，我们提出了一个调查，不仅研究了最近文献的技术发展，而且阐述了数据特征，以及检查了这种技术设计的逻辑和它们各自的数据性质之间的联系。

为了更好地构建论文，我们采用了以计算机视觉文献为中心的分类法，使用视觉作为主要数据模态，同时结合其他数据模态，包括音频、文本等。这些模式有共性，但在性质、形式和评估标准方面也有独特的特征。例如，音频数据可以被分类为音乐、语音或环境声音，其中语音与文本密切相关，而音乐通常以更主观的方式与运动相关联。然后，我们讨论多模态表示学习，区分监督和非监督设置，以及用于处理各种模态的流行网络架构。这种分类强调了研究重点从传统的手动注释数据的监督学习到对未标记数据的大规模预训练的转变。

随后，我们深入研究了多模态学习的下游方面，将多模态应用分为两个主要方向：判别应用和生成应用。对于每个方向，我们以视觉+X的形式对现有文献进行分组，其中X主要代表非视觉数据模态。该框架强调了跨不同场景的多模态学习的适应性和实用性。例如，类似于人类的多感官感知，结合视觉和语言对于字幕等任务至关重要，字幕提供视觉内容的文本描述，或基于视觉线索想象声音。回顾各种突出的多模式任务表明，尽管数据模式和目标不同，但出现了共同的技术方法。我们的详细分析研究了这些技术复杂性及其对底层数据属性的反映，加强了数据类型和模型策略之间的联系。这一探索也解决了多模态学习中的普遍挑战和未来方向。

与其他关于多模态学习的调查[15]、[18]、[91]、[115]、[143]、[283]相比，我们从数据本身的独特角度来解决问题。这种新颖的视角使我们能够在多模态数据的固有特征和方法的设计之间建立联系，从而在两个主要方面对多模态研究的未来进行深刻的讨论。一方面，我们认为强调和利用特定数据模态的独特特征将有助于解决与这些模态相关的具体应用问题。另一方面，认识到不同模态之间的共性将使研究人员能够构建一个更加统一和协作的框架，反映真实人类智能系统的能力。

如图1所示，论文的总体结构如下：第2节，我们首先根据不同模态的数据特征提供分析，重点是视觉、音频和文本。接下来，我们在第3节中探索多模态表征学习，根据当前流行的模型架构和不同的学习设置进行细分。在第4和第5节中，我们分别提出了具有判别和生成任务的具体多模态应用。除了任务和技术介绍之外，我们还通过将现有文献与其数据特征联系起来，做出了额外的努力，如第2节所述，揭示在特定方法和模型中处理和寻址哪个数据属性。第6节中，上述回顾构成了我们讨论现有挑战和未来可能方向的基础。第7节包括结束语和结论。

在这里插入图片描述
图1。我们综述的总体结构。我们首先介绍不同的数据模态及其特征，以及多模态数据集的例子。然后，我们介绍了按学习环境分类的表征学习领域。接下来，我们主要将应用领域分为判别方向和生成方向，并根据数据模态的组合进行更详细的分类。

2.数据分析

在本节中，我们通过分析多种数据模态的特征和共性来阐述它们的内在本质。附录A中列出了常用的多模态数据集，并提供了详细说明。

在这里插入图片描述

各种多模态数据集概述。R和S分别表示真实世界和合成性质。我们在本表中只列出了与多模态和跨模态问题相关的典型应用。一些大规模基准数据集（如MSCOCO）也广泛用于其他任务，如目标分割和检测。上述数据集的详细介绍见附录A。

2.1 视觉

我们将视觉数据分为图像和视频。作为人类感官系统和计算机视觉文献中的主要信息源，视觉数据因其高维度而通常被认为是“原始数据”。它包含了丰富的功能和细节，代表了丰富的视觉内容。然而，连续空间和时间方面的冗余对多模态学习任务中的处理、分析和有效利用提出了挑战。

图像

图像是计算机视觉研究的基础，其特征在于它们对变换的固有不变性。这一关键属性推动了经典图像处理方法和CNN等深度学习技术的发展，以提取有意义的视觉特征。

在深度学习之前，图像处理和计算机视觉研究主要旨在通过使用机器学习技术的手动特征提取和分析管道来破译图像内容和模式。例如，尺度不变特征变换（SIFT）[156]和定向梯度直方图（HOG）[54]，以及加速鲁棒特征（SURF） [17]是主要用于计算机视觉和图像处理的流行图像特征描述符的三个例子。在提取这些描述性特征后，使用一些机器学习算法，如支持向量机（SVM）[51]和主成分分析（PCA）[267]来进一步分析特征数据。随着深度神经网络架构[95]、[131]、[216]的快速发展以及ImageNet[62]、[202]等大规模图像数据集的可用性，计算机视觉进入了一个新时代，特征提取和分析的经典过程已被自动集成到神经网络设计中。

此外，计算机视觉在图像领域的应用已经从简单的图像分类[216], [216]广泛扩展和丰富到各种任务场景，如图像内的目标检测[310]和分割 [154]。除了上述旨在从现有图像中挖掘数据模式的判别任务应用之外，还有另一个应用分支旨在使用生成神经网络合成图像数据。

视频

视频是计算机视觉界广泛研究的另一种常见视觉数据形式[177]、[183]、[281]。与静态图像不同，视频跨时间维度封装信息。例如，视频中的人类动作通常由随时间在连续视频帧中描绘的一系列特定移动来定义，因为视觉上下文中的这种一致性和变换只能以视频的格式呈现。视频数据的这种时间特性也影响基于视频的应用，这些应用通常需要对时间元素（例如，动作、运动、光流）的额外理解和分析[46]、[230]。虽然由神经网络编码的常规图像表示可以应用于单个帧，但是提取视频表示需要寻址时间相关帧之间的连接。学习视频数据表示的直观和经典方法是将传统的2D卷积神经网络扩展到具有额外时间维度的3D架构中，一个值得注意的例子是为视频中的动作识别提出的I3D模型[30]。

关于基于视频的应用，这些任务类似于图像领域中的任务，其中最流行的判别任务包括视频分类（有时称为动作识别）[30]和分割[241]，以及寻求直接合成视频的生成任务[243]。对于后者，OpenAI[24]的Sora作为最新的大型视频生成器脱颖而出。

2.2 音频

传统上，音频处理的研究主要停留在数字信号处理的研究领域。在本次调查中，我们重点介绍三种主要类型的音频数据：语音、音乐和环境声音。

这些音频类型中的每一种在各种多模态任务应用中都具有相关性和适用性，进一步强调了多模态学习背景下音频数据的多样性。与视觉数据类似，音频信号是一种可以直接从环境中捕获的“原始数据”。然而，与静态图像不同，音频信号在时间维度上具有固有的连续性。

音乐

音乐是一种特殊类型的音频数据，在我们的日常生活中发挥着重要作用。音乐作为一种表现艺术形式，被认为是一个人内心世界的载体和反映。一般来说，音乐本身有传统古典音乐、交响乐、现代流行音乐、乡村音乐等多种流派。音乐也可以分为叙事音乐和插入音乐两类。叙事音乐是故事叙述中不可或缺的一部分，存在于故事的世界中，并被故事中的角色感知。相比之下，附带音乐只是为了观众的体验，强调情感和场景，而不是故事世界的一部分。音乐分类通常是主观的，对特定流派的分类不太严格。这些类型的一个共同特征是具有高听觉质量的音乐片段具有相对大的采样率。例如，对于CD质量的音乐，采样率为44.1 kHz[67]，这导致一分钟音乐作品超过200万个数据点。

从科学研究的角度来看，音乐音频波形的高维度给数据处理带来了困难，因此，研究人员开发了不同形式的音乐数据表示。在这项调查中，我们根据音乐数据表示是否是通过深度学习技术获得的。对于“非基于学习的”音乐表征，我们可以进一步将它们分为连续和离散的子类别。用于音频(包括音乐)的最一般的基于非学习的连续数据格式是如图2(a)所示的波形。波形是描述由空气振动在时域中测量的声压变化的二维数据。另一种流行和通用的音频表示类型是频谱图。与强调音频信号的时间变化的波形相比，频谱图还反映了声音随时间的频率含量，如图2(b)所示。在大多数情况下，我们将波形称为原始音频数据。1D 钢琴卷轴[72]和2D乐器数字接口（MIDI）是经典的离散表示[22]。如图2©所示，1D 钢琴卷轴是稀疏数据表示格式，其中水平轴是时间戳，并且垂直轴表示声学音高。2D MIDI可以被解释为具有乐器类型的合成钢琴卷帘格式，如图2（d）中由不同颜色表示的。1D pianoroll和2D MIDI离散形式都可以通过预定义的音乐合成器解码回原始音频空间。另一方面，“基于学习的”表示可以类似地由它们的离散和连续性质来指定。深度学习的最新进展引入了新的基于学习的离散表示，即矢量量化（VQ），以进一步将高维数据减少到离散token空间[179], [197]。基于连续学习的音乐表示与视觉数据中的音乐表示具有相似的属性，其中我们通常采用神经网络（如CNN）将原始音频信号编码为具有所需维度的嵌入特征。

在这里插入图片描述

图2.不同音频数据表示的图示。从上到下：(a)波形中的原始音频数据；(b)melspectrogram中的音频数据；（c）来自[72]的1D钢琴卷中的音乐片段，其中水平轴和垂直轴分别表示时间戳和音频音高；（d）来自[184]的MIDI音乐作品，其中颜色代表不同的乐器类型。

与其他数据模态相比，音乐音频信号在应用于特定下游任务时具有几个需要考虑的独特特征。首先，音乐数据是一个序列，其中应该强调完整音乐作品内的时间一致性。此外，除了时间维度之外，音频数据通常通过其频谱图表示形式的频率特征来表征。除了时间连贯性，节奏是评估音乐质量时需要考虑的另一个重要的独特音乐特征。

语音

语音主要是指口语的音频信号，与自然语言有着内在的对应关系。语音的数据表示类似于音乐，其中波形和频谱图是非基于学习的类别中常用的类型。然而，语音音频的一个显著独特性在于其与语言的自然相关性，其中语音音频的离散表示与语言标记对齐。因此，与音乐音频中使用的基于学习的VQ表示相比，语音的离散语言token驱动表示具有更统一的格式。当涉及到架构选择时，这一特征也会影响方法设计，如本文后面所详述的。

在语音的应用领域，像语音分离这样的经典任务得到了很好的研究，语音分离旨在从复合音频混合中分离出单个语音轨道[14]。另一个关键任务是自动语音识别（ASR）[295]，它专注于将口语转换成文本。ASR系统旨在准确转录人类语音，这使得它们对于声控界面和转录服务至关重要。同时，由于语音和语言性质之间的内在对应性质，语音数据经常应用于多语言翻译问题[70]或音频和文本之间的跨模态翻译[49]。多模态生成领域的最新工作也研究了用会说话的嘴唇从视觉输入中生成语音[124]。

还有另一种特殊类型的语言——为重听和言语障碍群体服务的语言，这就是“手语”。与可听语音不同，手语需要从手势中解释视觉信号，从而表现出与视觉和运动数据的自然联系。专注于手语的研究探索了手语识别和生成等任务[21]，[196]。本质上，手语识别旨在将特定的手势翻译成文本数据，而生成则解决相反的过程。尽管手语在“语音”类别中讨论，但是数据集 [74]、[172]通常包括视觉数据，例如图像和视频，伴随着语言注释。

环境声音

除了语音和音乐，还有其他类型的音频信号，例如伴随某些事件的声音，我们在本次调查中将其称为“环境声音”。与主观的音乐和与自然语言密切相关的语音相比，环境声音更常与视频结合使用，以表征特定的动作和事件。例如，我们很自然地将婴儿哭闹的声音与显示相应视觉场景的视频联系起来。这种独特的对应关系使得环境声音能够利用音频模态[113]、[239]为传统的视频动作识别任务提供额外的信息。上述音频表示也适用于环境声音。

然而，与音乐和语音音频信号相反，环境声音在预处理较少的情况下表现出更嘈杂的性质。与音乐和语音不同，音乐可以使用高度处理的数据格式（如音乐MIDI）来表示，语音受益于与文本的自然对应，环境声音的表示更加模糊。它缺乏明确的格式，如语音中的离散标记表示，或特定的特征，如音乐中的节奏。这些特性导致了在表示环境音频时固有的模糊性和挑战。

2.3 文本

从早期开始，自然语言处理（NLP）社区就一直在研究文本。虽然存在不同格式的文本数据，但在多模态学习的调查中，我们主要关注介绍几种类型的文本数据，它们表现出与其他数据模态的密切联系。近年来，NLP社区受到了极大的关注，特别是在开发大型语言模型（LLMs）方面取得了显著的成功，如GPT-3[193]。NLP的巨大成就与文本数据和语言的本质密切相关。与可被视为“原始数据”的视觉和音频信息不同，文本数据经过大量处理。更具体地说，它是一种通过人类文明进化而来的数据类型，其特征是尽管存在语言差异，但仍具有高度统一的格式和精确的语义。它标志着这样一个事实，即文本是高度信息和紧凑的，而视觉和音频信号通常包含丰富的信息冗余。文本在应用端的另一个独特特征是，大多数NLP任务的问题表述可以统一在“下一个词token预测”的概念下。该公式代表了各种NLP任务中的共同底层结构，这有助于该领域内的连贯性和一致性及其通过大型基础模型解决多项任务的潜力[19]。

字幕

字幕提供句子描述，总结视觉和文本相关的多模态作品中的全部或部分视觉内容。它们可以由单个句子组成，也可以扩展成由多个句子组成的更长的段落。词袋（BOW）[168]是文本表示的一种经典形式，将文本语料库表示为其单词的多集（即包）。随着深度学习的发展，字幕也经常由具有内部记忆状态的递归神经网络（RNNs）（例如，LSTM[105]）处理，以获得基于学习的表示。与CNN处理的视觉数据相比，RNNs中的记忆状态设计允许在给定句子中的连续单词之间建立循环连接，以更好地解释整体文本特征。NLP社区最近的一个突破是BERT（来自Transformers的双向编码器表示） [66]的成功，这是一种用于单词嵌入的大规模预训练模型。这一独特的特征在随后涉及字幕的研究中被广泛讨论。

对话

对话是多模态机器学习中文本数据的另一种常见形式，由于其固有的交互性质而不同于字幕，它涉及参与者之间具有逻辑连贯性的对话，而不是对视觉内容的单方面描述。因此，在处理对话数据时，不仅要特别注意句子中的单词（如纯字幕），还要特别注意完整对话中不同句子之间的联系。在关于视觉和语言的多模态学习的文献中，对话的这些独特特征通常通过在框架的设计中构成一个额外的数据组件——历史来解决。该组件通常捕获会话的流程，包括先前的交换，并由与单个句子的处理模块一起操作的专用机制进行处理。

问答

文本数据更具体的分类是问答。虽然它的表示总体上与其其他文本对应物（标记）相似，但它们经常在视觉语言任务中被用作研究网络视觉推理能力或评估特定任务性能的方法。视觉问答（VQA）[9]是一种代表性的使用问答来推理视觉上下文的任务。问答通常与对话密切相关，因为对话中的互动可以采取问答的形式。

ASR和OCR文本

虽然字幕和对话以更高级和语义的方式与视觉上下文相关，但基于自动语音识别(ASR)和光学字符识别(OCR)的文本呈现与音频和视觉信息略有不同的连接。具体来说，ASR和OCR是已经成熟了几十年的基础多模态研究主题，它们表现出文本和其他数据模态之间的精确对应关系[80]，[117]。此外，OCR还作为一种从文本语料库中获取文本数据的技术。

2.4 其他模态

多模态学习涵盖了视觉、音频和文本之外的各种数据模态。例如，3D数据代表一个重要的类别，包括点云和网格等子类别。这项调查侧重于探索反映人类感知系统的具有认知意义的数据模态。因此，我们将视觉、音频和文本以外的数据模态分类在一起，突出它们与这些主要模态的关系，以实现更集成的理解和呈现结构。

图

图数据通过节点和边提供关系信息的结构化表示，捕捉元素之间的连接和交互。虽然它可能不是通过人类感知系统自然存在的数据模态，但当连接到其他数据模态时，它在机器学习中发挥着重要作用。例如，场景图从图像建立图表示以解释对象之间的连接。利用视觉和图数据的多模态应用的典型示例是从视觉上下文生成场景图[142], [157]。图数据的非欧几里得性质也启发了图神经网络的设计[274]，[299]，它作为一种强大的模型架构来处理图数据。

光流

光流的概念在上个世纪首次被提出，作为表征视觉场景中由观察者和场景之间的相对运动引起的物体运动的测量[108]。随着计算机视觉的进步，特别是深度学习技术的进步，光流也与视觉数据一起被研究[236]、[251]、[257]、[264]。与其他运动数据格式相比，通常通过连续图像序列内的像素级变化以更精确的方式定义光流。然而，光流本身的计算一直是一个相当具有挑战性的研究问题，因为环境照明也会对图像的像素值产生很大的影响。总的来说，光流可以被认为是从视觉信息中明确导出的特定运动呈现。

点云和网格

点云和网格都是3D数据的重要形式，提供空间和结构信息，丰富了我们对物理环境的理解。虽然点云是三维坐标系中顶点的集合，但网格通过将点与边和面连接起来，进一步在此基础上构建，从而创建表示3D对象的形状和拓扑的综合模型。与本节讨论的其他数据模态一样，点云和网格不是由我们的感官系统直接捕获的，而是通过通常包含人类洞察力的过程构建的。

以人为中心的运动

人体运动经常被用来定义各种日常活动。人体二维骨骼数据人体运动的常用表示形式，它捕捉人体的关键点，并将其表示为图像内的轴坐标。它们可以用来定义各种日常活动，这些活动可以在现实生活中得到实际应用。例如，人类动作的自动检测在以人为中心的助理系统中特别有价值，例如用于检测老年人跌倒的健康助理。通常，我们可以通过预训练的网络（如OpenPose[28]、[29]）提取每帧的2D骨架数据。三维人体运动数据通常可以通过额外的数据维度提供更丰富的信息。3D运动数据的经典形式涉及将深度信息与常规2D关键点数据合并。除了提到的用于关键点采集的基于RGB相机的方法之外，还可以通过关键点检测域内的替代方法来导出关键点，例如来自3D数据的几何推理[231]和应用于激光雷达传感器数据的SLAM技术[226]。此外，在计算机图形（CG）领域中还有更频繁采用的其他形式的3D运动表示，例如蒙皮多人线性模型（SMPL） [155]。SMPL集成了蒙皮和混合形状来代表人体。另一方面，与捕获两帧之间所有像素的运动的光流相比，关键点运动跟踪跨帧的特定兴趣点，从而允许对对象或特征动态进行更集中的分析。同时，3D视频特征将这种分析扩展到空间域，将深度信息与运动相结合，以提供视觉结构和运动模式的更丰富、更详细的表示。

3.多模态表示学习

在本节中，我们将重点关注多模态表征学习研究。我们将本节分为三个部分：介绍几种流行的网络架构和评估，监督学习设置和无监督设置。这种分类背后的基本原理是基于这样一个事实，即多模态表征学习领域已经经历了从传统监督表征到大规模预训练的转变。监督学习环境下的经典方法通常需要完全注释的数据来训练网络，因此由于用于标记的繁琐的人工工作，对可用训练数据集的大小施加了限制。

为了克服瓶颈，多模态表征学习的研究趋势已经转向“无监督”设置，使用不一定需要人类注释的数据。这些数据集通常直接从互联网上收集，由来自不同模式的配对数据组成。值得注意的是，虽然这些数据集在模式之间具有内在的对应关系，但由于缺乏手动标签，它们在本次调查中被认为是无监督的。值得注意的是，这些无监督方法受益于更大的数据集大小，并见证了模型规模的增加。因此，在第3.3节中，对于无监督表征学习工作，我们主要介绍了近年来备受研究关注的大规模预训练研究。多模态环境下表征学习的主要研究目标是从多模态中学习相应数据表征之间的有效和可区分的映射。

3.1 网络架构

我们介绍了几种流行的网络架构主干，用于学习上述主要数据模态（即视觉、音频和文本）的数据表示。然而，我们注意到，对于指定的数据模态，存在其他流行的网络设计，例如，用于图数据的图形神经网络（GNNs）[205]和用于点云的PointNet [188]。

卷积神经网络CNN

作为计算机视觉领域最经典的网络架构之一，CNN[95], [131], [216]已被广泛用作视觉数据表示学习中的骨干架构。CNN的核心思想是通过由卷积层和激活函数组成的复杂函数从原始数据中提取高级数据表示。类似地，同样的想法也适用于学习音频信号的数据表示[96]。在经典视觉和音频数据的表示学习的背景下，CNN的训练通常利用多类交叉熵损失进行分类任务，使用：

在这里插入图片描述

其中 $y_c$ 是类别标签， $p_c$ 表示预测概率。然后，从CNN的最后一层提取的特征被进一步用作实际的数据表示。

循环神经网络RNN

学习自然语言的数据表示的特定需求是考虑其与单词的顺序顺序的时间相关性。因此，NLP社区遵循不同的网络架构，使用递归神经网络（RNN）和LSTM[85]、[105]来应对这一挑战。还努力通过RNNs学习音频数据表示[77]。

Transformers

Transformers[245]在计算机视觉和自然语言处理领域的机器学习社区中都获得了巨大的人气。Transformers的核心技术设计是自注意力机制，对顺序数据进行操作以学习整体信息。与CNN和RNN相比，Transformers在模型设计中有几个独特的优势：处理不同长度的顺序数据的灵活性；允许并行计算的效率，而不是像RNN那样遵循顺序处理。尽管Transformers最初是为NLP任务设计的[25]，但它已经成功地应用于视觉[94]和音频数据[240]的表示学习。

最近，Mamba[87]作为一种新的流行模型问世，与Transformers[245]相比，它在长语言和音频序列处理方面表现出了有希望的下游性能。它的关键优势之一是通过将选择性机制结合到状态空间模型中来解决计算挑战。

对于文本数据的表示学习，通常称为语言模型预训练，广泛使用的问题公式涉及“下一个token预测”，其将学习框定为联合条件概率挑战。因此，在这种情况下优化神经网络的基本方法经常涉及最大化似然性，通常通过使用交叉熵损失来实现。然而，值得注意的是，为了进一步增强神经网络的建模能力，还引入了各种其他目标函数。

总体而言，数据表示学习一直是机器学习中的一个重要研究方向，是一个处于研究管道上游的课题。因此，多模态表征学习方法的评估通常依赖于具体的下游任务，我们将在第4节中详细介绍。

3.2 监督学习

监督设置需要来自多模态源的注释来指导学习过程，这也是最经典的表征学习设置[65]，[300]。

一般来说，有两种方法被广泛用于监督表征学习。一种可能的方法是在从它们各自的特征空间获得数据表示之后建立映射，这可以被认为是表示为“单个模态域中的表示学习+模态之间的映射”的两阶段方法，通常具有用于第一特征提取阶段的固定主干模型[151], [167], [263]。或者，解决多模态表示问题的另一种方法是以端到端的方式学习给定数据对的统一表示，自由优化特征提取主干[10], [258]。

对于第一种方法，刘等人[151]利用来自视觉内容的现有预训练语义嵌入，并提出一个协作专家模型来聚合多模态信息。[167]使用混合嵌入专家（MEE）模型从异构数据中学习文本-视频嵌入。王等人[263]关注视频和文本表示的全局-局部序列比对。对于第二种方法，[258]提出学习用于匹配文本和图像数据的双分支神经网络。在视听领域，[10]通过“视听对应”学习任务来学习相互表征。

3.3 无监督学习

与在训练中需要详尽的手动注释的监督学习相反，存在其他范例来学习多模态上下文中的数据表示。在现有文献中，“无监督”、“弱监督”和“自监督”是描述具有细微差别的设置的代表性术语。具体来说，“无监督”通常指的是没有人工监督的网络训练，“弱监督”描述的是监督可能是嘈杂的、有限的或不精确的情况；“自监督”用于描述模型训练自己从输入的另一部分中学习输入的一部分。在本节中，我们将它们称为“无监督的”，只是为了便于结构和演示。

无监督学习设置的基本思想依赖于来自多种模态的成对数据之间的内在同步性质的前提[192]、[290]、[319]。例如，某些视频动作自然伴随着特征声音，如2.2节中的环境声音部分所述。图像和字幕也被配对以训练视觉和语言模型。

如今，在多模态学习研究领域，特别是在文本-图像领域，有几种大规模预训练模型因其令人印象深刻的性能以及广泛的下游应用而备受关注[160], [173], [195]。我们可以将大规模预训练视为一种特定类型的多模态表示学习，因为预训练的主要目标是学习一个联合和统一的跨模态表示，该表示可以灵活地转移到其他领域或下游任务。

预训练领域通常有两种流行的方法，即基于对比学习的[4]、[192]和基于掩模重建的[45]、[135]、[158]。这种模型最流行的例子之一包括用于视觉和语言预训练的CLIP（对比语言-图像预训练）[192]。这些模型中的大多数是按照用于自然语言[25]和图像[41]的BERT[66]和GPT（生成式预训练Transformer model）模型开发的，其核心设计包括为文本和图像生成任务预训练的Transformer model架构[245]。受GPT模型成功地展示了使用语言或图像来引导大型神经网络在各自领域完成各种生成任务的潜力，研究人员自然会进入多模态领域来连接这些模态。CLIP模型在4亿个文本-图像对上进行训练，被认为是多模态学习领域最早用于桥接文本和图像数据空间的大规模预训练模型之一。另一个例子是VATT（视频-音频文本Transformer model）[4]，这是一种基于Transformer model的自监督大规模模型，用于从原始视频、音频和文本中学习表示。它首先通过线性投影处理来自不同模态的原始数据，并通过噪声对比估计（NCE）训练模型来学习语义潜在空间。这些预训练工作的一个共同点是，所提出的模型是使用大量计算资源用大量数据训练的。从技术上看，CLIP遵循一般思路对齐配对图像的嵌入空间和对应的文本描述。它采用批处理构造技术[218]，将整个句子描述作为一个整体进行编码，而不是逐个单词地处理文本。剪辑通过优化给定对的相似度分数来联合训练文本和图像编码器。在推理时间期间，模型可以通过经由学习的文本编码器以文本形式嵌入目标数据集的类的名称或描述来用于零样本预测。

值得注意的是，虽然这些大规模模型[4]、[192]、[193]能够取得非常令人印象深刻的结果，但在模型架构和训练技术方面几乎没有激进的创新。因此，虽然它们受到了极大的关注，但关于这些作品也存在争议。关于这种大规模预训练模型的讨论之一是，令人印象深刻的结果很大程度上是由于为训练模型而精心设计的多样化和巨大的数据，以及它们在现有模型上的大规模规模。其他关于隐私和道德问题的担忧也被提出来反对这些作品。总体而言，尽管在这个话题上存在争议，但这些模型确实有助于建立一个更加统一的在多模态学习区域中连接视觉和文本空间的工具包，这也促进了大量基于对齐特征空间为各种下游任务开发的后续工作。

3.4 表示学习的趋势

机器学习和计算机视觉研究社区正在快速发展，在数据集规模和计算资

源升级的支持下，有使用新兴基础模型扩大数据表示学习的趋势。由大型预训练模型（如CLIP[192]）学习的多模态表示已成功应用于各种多模态下游任务，提高了性能，特别是在模型的泛化能力轴方面。然而，我们也想强调，扩大规模并不是灵丹妙药。尽管有这些好处，但基本问题仍然存在，如分布外的挑战和放大的模型偏差[253]。虽然大型预训练模型对于许多多模态任务来说非常强大，但未来的研究需要专注于具有更多边缘案例和复杂数据格式的真实场景，以实现安全和负责任的部署。

4.判别式应用

在本节中，我们讨论用于区分任务应用的多模态学习工作，小节以“Vision+X”的形式用特定的数据模态组合分类，其中X代表附加的数据模态。

对于判别应用，流行的方法通常从第3.1节中的一般表示学习中继承神经网络，带有附加模块以适应特定任务的目标。多模态学习中的一般方法设计遵循“分离处理”和“统一融合”的思想。更具体地说，不同模态的数据首先用相应的网络分支处理，然后在输出不同任务的最终结果之前，由额外的相互模块进一步执行模态间学习。由于确切的目标取决于任务场景，我们将详细介绍留在下面的小节中。在评估方面，不同的多模态任务有其相应的评估协议。与具体的方法设计类似，我们在下面的小节中详细介绍了评估。

4.1 视觉+音频

视听事件定位（AVEL）

视听事件（AVE）被定义为在视频片段中既可听又可视的事件[239]，AVEL任务旨在在不受约束的视频[73]、[147]、[239]、[273]、[285]中定位AVE。这项任务最早是在[239]中提出的，还有AVE视频数据集（详见表1和附录A）。总体任务目标类似于环境音频数据的动作识别以及在监督或弱监督设置下对时间定位的要求。为了解决伴随事件的附加环境声音，一种常见的方法是通过不同的注意力模块[73]、[239]、[273]、[296]实现跨模态交互。许多现有的工作遵循用单独的编码器处理音频和视频数据的框架，并融合处理后的信息以进行时间定位和活动分类。来自视频流的时间连接通常经由诸如LSTM的模型主干来寻址[105]。AVEL任务的评估通常利用预测准确性度量。

视听视频解析（AVVP）

AVVP问题旨在将视频解析为时间片段，并将它们标记为可听、可视或两者[146]、[238]、[271]。它最初是从AVEL任务发展而来的，其任务重点是识别，而AVEL更侧重于时间定位。作为AVEL任务的一个变体，已经开发了几个作品，其共同的核心思想是寻求学习有效的视听特征作为基础，然后结合进一步完善的技术设计来满足特定的任务要求。例如，林等人[146]引入了音频和视觉特征的序列到序列方式集成。Yu等人[296]通过考虑潜在的视听异步来探索AVVP任务。

可视声源定位(VSSL)

视觉声源定位(VSSL)任务旨在在给定声音[180]、[190]、[191]、[209]、[210]、[223]的情况下定位图像中相应的视觉位置。虽然原始声源定位任务（SSL）已在信号处理领域得到广泛研究[86]，但基于深度学习的视觉定位首次提出于[209]。高级思想还侧重于学习配对音频和视觉数据之间的相关性，除了视觉部分之外，VSSL任务倾向于在给定不同环境音频信号的情况下切换视觉数据内的感兴趣区域。整体流水线通常由用于视觉和音频输入的单独编码器组成，然后在训练期间融合用于学习定位模块的视听信息。在如何经由注意力机制[190]、[209]、使用各种定位或对比损失的训练技术[190]、[191]、[209]来执行融合方面，更多的技术细节可能不同。为了评估VSSL任务的性能，通常使用诸如cIoU(完整IOU)和AUC(ROC曲线下面积)分数的度量来量化声源的预测面积的精度。

4.2 视觉+文字

视觉定位

作为一种流行的辨别视觉和语言任务，视觉定位旨在在给定文本描述作为输入的情况下定位图像中的对象[61]、[63]、[78]、[106]、[112]、[140]、[148]、[153]、[214]、[276]、[291]、[292]、[298]。在[122]中首次提出并研究了实现句子与视觉语境之间交叉参照的思想，该任务也被称为“指代表达理解”。关于引用的开创性工作通常只需要从描述句子输入[110], [161], [297]中找到单个对象，其前提是期望感兴趣区域实现给定文本描述的最大后验概率。最近的作品处理了一个更具挑战性的视觉基础设置，其中任务被细化为两个子目标：措辞和基础。对于第一个子目标，模型应该定位给定文本描述中提到的所有对象，然后在图像中单独检测它们相应的框[152], [186]。

在视觉定位任务的方法设计方面，大多数工作[61]、[63]、[78]、[106]、[110]、[112]、[140]、[148]，[153]、[161]、[214]、[276]、[291]、[292]、[297]、[298]可以分为监督、弱监督和无监督设置。监督设置指的是提供短语-对象对的注释的条件，弱监督设置移除用于文本描述输入的短语注释，并且无监督设置完全移除用于两种数据模态的注释。至于一般的管道，大多数方法遵循两阶段或单阶段框架。对于两阶段框架，模型首先提取图像中潜在对象的区域建议，然后对建议进行排序并与语言短语匹配。对于一阶段框架，视觉对象和文本短语在学习过程中被对齐和连接，以避免像两阶段设计中那样的冗余区域建议。在弱监督或无监督设置的情况下，通常需要一些额外的正则化损失，如结构损失和判别损失[229], [276]来更好地学习相应对象区域和文本短语之间的相关性。视觉接地的评估类似于其他视觉定位任务，其通常使用预测和真实框之间的IoU（并集上的交集）作为定量测量，阈值为0.5。视觉接地任务的另一个独特度量是PointIt（指向游戏度量[276]，它计算具有最大预测注意力权重的像素位置，如果选择的命中点位于真实框区域内，则预测被视为有效。

时间活动定位(TAL)

活动定位任务（TAL）也称为视频定位，它试图在给定某个活动的语言描述的情况下定位视频剪辑的时间片段，如查询[8]、[43]、[44]、[81]、[261]、[305]、[305]。与图像内的视觉基础相比，TAL需要沿着时间方向进行额外的推理和匹配，如其名称所示。对于这项任务，模型不仅要捕捉视觉活动和语言之间的相关性，还要能够在时间上定位连续视频帧之间的片段。虽然高级框架结构仍然类似于以前具有单独编码器的多模态判别任务，但用于融合特征的多模态处理模块、适用于特定任务目标的解码器模块以及TAL任务的早期代表性工作引入了不同的技术来强调网络的时间推理能力。高等人[81]提出了一种具有时间定位回归网络的跨模态时间回归定位器（CTRL），以将融合的视觉-文本信息与视频时间位置对齐。用于评估的流行定量指标包括平均IoU和IoU@A，代表预测段和基本真实注释之间的重叠百分比。

视觉蕴涵

视觉蕴涵（VE）试图预测一段文本与图像的逻辑关系[237]，[278]，[279]。它是从文本蕴涵任务[52]发展而来的，其最初的目标是决定一个假设是否可以从前提中逻辑地推导出来。谢等人[278]将文本蕴涵扩展到多模态上下文，用图像代替文本前提。托马斯等人[237]通过引入不同级别的粒度进一步细化了任务。VE任务的重点在于网络的多模态推理能力。为了实现图像和文本假设之间的推理，早期的方法[278]、[279]采用单独的网络分支来处理视觉和文本数据，并利用注意力交互进行交互。一个改进的框架[237]进一步将文本假设分解为其组成部分，并提出通过为分解的文本组件引入抽象意义表示（AMR）图来增强推理。通常通过给定前提作为输入的预测精度来评估性能。

时空视频定位

时空视频定位（STVG）是最近的多模态任务，位于视觉接地和时间定位的交叉点，在视频的视觉上下文中整合空间、时间和语言之间的推理[119]、[228]、[287]、[307]。具体地，给定对象的未修剪视频和文本描述，该任务寻求针对所描述的目标对象定位时空管道(即，边界框序列)。大多数现有的STVG方法要么建立在视觉基础的思想上，要么专注于时间定位设计。处理该任务的一种流行范例采用两阶段设计，该设计利用预先提取的对象建议，然后通过注意力机制整合时间定位[260]，[289]。与此同时，另一个工作线程提出了一个阶段的框架，并且不依赖于对象建议的先验[121]，[287]。就网络架构而言，Transformer被广泛用作这种方法设计的主干[228], [287], [307]。STVG通常通过比较GT和预测时间戳之间的帧重叠来经由IoU度量来评估。

4.3 视觉+音频+文字

多模态检索

另一个被广泛研究的多模态判别任务是检索[47]、[88]、[255]、[256]、[266]、[311]。大多数检索工作通过测量来自不同模态的学习表征之间的相似性来在表征空间上操作。因此，检索任务也是表征学习工作中最常用的下游任务之一。

虽然检索任务可以在数据的单个模态内进行，但多模态检索寻求将其原始设置扩展到跨模态场景，其中我们希望检索与来自不同数据模态的输入相匹配的项目，例如，基于文本的视觉检索、基于音频的视觉检索。例如，CAMP[265]通过跨模态的消息传递来学习文本和图像嵌入。顾等人[88]提出用辅助生成模型改进文本视觉检索。[263]通过在学习的表示空间中经由全局-局部对齐方法额外地查看局部细节来查看基于文本的视频检索的任务。[319]经由用于视听跨模态检索的基于VAE的框架学习相互视听潜在空间。Oncescu等人[178]提出在给定自然语言查询的情况下检索音频信号。

视听问答

视听问答，顾名思义，是基于集成音频模态的视觉问答的扩展[136]、[137]、[288]、[301]。具体来说，AVQA经常涉及关于视频中不同视觉对象、声音及其关联的问题。现有的方法设计通常是从VQA框架扩展而来的，具有额外的交互有音频数据。例如，一个直观的框架 [137]将两分支编码器设计扩展为三分支，并在通过注意力机制引入交互之前分别处理视频、音频和文本数据。答案预测精度常用于评估。

5.生成式应用

在本节中，我们的重点是生成应用程序的跨模态合成任务。这些任务涉及从特定模态或多个模态生成数据作为输入。

在跨模态合成任务中生成数据通常有两种高级方法：从给定数据库检索项目，或者通过神经网络直接合成和解码数据。对于基于检索的生成，核心思想遵循逻辑来搜索与“生成的”数据最相似的一个或几个项目。很大一部分基于检索的工作在数据表示级别上执行相似性测量，而没有实际考虑解码部分。从技术上讲，我们认为这样的作品被归类在表征学习部分。因此，我们主要关注介绍“真正生成”数据的作品，而不是为生成应用程序检索本节中的项目。

5.1 生成网络

在深入具体的应用任务之前，我们首先介绍三个流行的通用生成任务主干模型，这些模型在多模态生成文献中被广泛采用。

变分自动编码器（VAE）[126]是在无监督学习环境下基于深度神经自动编码器[100]提出的经典生成模型。自动编码器的核心依赖于这样的前提，即有效训练的编码器应该以这样的方式学习数据表示，即编码的表示可以被解码以重建由解码器输入的原始数据。与传统的自动编码器相比，VAE通过使用高斯先验重新参数化潜在空间，在瓶颈层上引入正则化，其中学习的高斯参数允许采样新数据。VAE的典型训练通常包括两种类型的损失，即变分损失（ELBO）[126]，其由潜在表示空间上的正则化损失（例如，Kullback-Leibler散度）和输出数据上的重建损失（例如，均方误差（MSE））组成。经典的变分目标可以由以下等式公式化和导出：

在这里插入图片描述

其中 $p$ 表示解码器， $q$ 是编码器， $x$ 和 $z$ 分别表示原始数据和学习的潜在嵌入。在实际实现中，假设 $z \sim N (μ, σ)$ 的重新参数化技术允许我们基于从 $N$ 个样本中采样来最小化KL散度：

在这里插入图片描述

VAE已被广泛用于音频和图像中的各种生成任务[99]、[126]以及跨模态生成的多模态上下文[224]、[319]。

基于GAN的模型

生成对抗网络（GANs）[83]是各种生成模型的另一种主流主干类型。从高层次的角度来看，GAN涉及两个代理（即生成器 $G$ 和鉴别器 $D$ ）进行对抗性博弈。生成器旨在合成类似于真实数据的真实数据以愚弄鉴别器，而鉴别器的目标是通过 $G$ 将合成的数据与真实数据区分开来。与VAE类似，基于GAN的模型的训练不需要外部注释，只需要真实的原始数据，因此经常用于无监督或弱监督设置。GANs的标准训练还从潜在空间正则化（也称为对抗性损失）和重建优化两个方面最小化损失[83]，[204]。继最初的工作之后，已经提出了GAN模型和对抗损失的多种变体，例如具有Wasserstein损失的Wasserstein GAN[11]、[90]和条件GAN[170]。经典GAN损失公式如下：

在这里插入图片描述

其中 $G$ 和 $D$ 分别是生成器和鉴别器。x和z表示原始数据和学习的潜在嵌入。在应用层面，GAN首先广泛应用于图像生成[23], [114]，后来的研究还探索了基于GAN的音频合成模型[127], [132]或跨模态区域[302], [316], [317]。

基于DPM的模型

与VAEs和GANs相比，扩散概率模型（DPMs）[217]是近年来非常流行的另一种生成主干。原则上，DPM包括在两个相反方向上的有限步骤的马尔可夫链。前向，也称为“扩散”过程寻求在每个扩散步骤将噪声逐渐添加到给定数据中，而逆去噪过程旨在去除在前向步骤中添加的噪声并从非信息性噪声分布中恢复实际数据。传统DPM有两种变体，它们在马尔可夫链的状态空间公式上不同。经典DPMs假设状态空间是连续的，并用高斯噪声参数化扩散过程[68], [101], [125], [128], [175], [219], [220], [221]，而DPMs的另一种变体考虑离散状态空间，并用状态转移矩阵[12], [89], [320]公式化扩散过程。变分下界[101]是用于有效DPMs学习的经典损失函数，还提出了其他实际损失，如辅助损失[12], [89]、无分类器引导 [103]和对比扩散损失[320] ，以进一步提高生成性能。普通DPM在定义如下的变分下界上训练：

在这里插入图片描述

其中 $q$ 和 $p$ 分别表示扩散和去噪过程。 $x_i$ 表示扩散步骤t处的数据。DPMs由于其在图像[68]、[101]、[102]、[109]、[175]、音频[128]、[134]、[171]的生成任务中的竞争性能，以及在跨模态场景中，如文本到图像[89]、[174]、[320]和舞蹈到音乐生成[320]。

生成任务的评估一直是需要考虑的一个重要方面。通常，多模态环境中合成数据的评估考虑了单模态和多模态标准。单峰度量不仅用于多峰场景，还用于一般的生成任务，例如图像生成中的保真度。除了一般质量之外，多模态生成还考虑了跨模态的对应关系，例如视频和音乐之间的节拍对应关系。我们在附录B中总结了生成任务中各种合成数据的通用评估指标。

5.2 视觉+音频

从视觉生成音乐

最近寻求从视觉数据（通常来自视频）生成音乐的研究可以根据它们采用的音乐表示进行分类。音乐生成作品的一个分支[2]、[69]、[79]、[227]依赖于符号音频表示，如1D钢琴卷帘和2D midi，正如我们在第2.2节中介绍的。符号音乐表示可以通过不引入额外噪声的预定义合成器解码回原始音频波形，从而保持所生成音乐的高质量。当与基于学习的音乐表示和解码器[67]、[317]、[320]相比时尤其如此，其中合成的音乐通常具有相对高的噪声水平。其次，基于符号表示的作品的计算成本通常低于基于纯学习的方法，因为符号音乐表示非常稀疏和低维，这有助于学习和推理过程。然而，这种基于符号的音乐生成方法在音乐多样性和灵活性方面也受到限制。特别是在目前的研究工作中，生成的音乐通常仅限于某个特定的预定义乐器声音[2]、[69]、[79]。值得注意的是，尽管框架输出是原始音乐，但大多数基于符号的音乐生成作品并不直接使用我们在5.1节中介绍的生成主干。从技术上讲，它们中的大多数都是基于交叉熵损失形式的真实MIDI注释进行训练的。相比之下，研究工作的另一个分支以连续或离散的形式部署基于学习的音乐表征。然而，尽管连续音乐表示已经在音乐合成领域中被利用[132]，但最近的跨模态音乐一代采用离散形式的学习音乐特征——矢量量化（VQ）——作为中间表示[317], [320]，利用大规模预训练音乐合成模型点唱机[67]。例如，D2MGAN[317]提出了一种基于GAN的框架，该框架以人体运动数据和舞蹈视频帧作为输入，并生成音乐VQ表示。CDCD[320]建立在具有由VQ表示的离散状态空间的扩散概率模型的基础上，并结合了对比扩散损失来训练网络，以改善跨模态应用的输入输出对应关系。

视频生成语音

除了音乐音频之外，另一个特定的生成任务寻求从人类说话的视频合成语音音频[75]、[76]、[124]、[166]、[169]、[187]、[203]、[248]、[286]。该音频生成任务的一个独特方面是，语音在很大程度上依赖于说话时嘴唇的运动。基于这一特点，该方向的许多工作都专注于从视频输入中读取和解释视觉嘴唇运动，然后将其转换为音频波形，这也解释了为什么这种“视频到语音”的合成任务也被称为“唇到语音”生成。因此，尽管有从视频生成音频的主题，但这一领域的大部分作品都集中在“视频中的动作”上，而不是原始视频。为了增强嘴唇运动和语音音频之间的相关性，进一步采用视听跨模态注意机制来提高生成质量。金等人[124]提出了一种具有视觉上下文的注意力GAN来读取嘴唇以进行语音合成。亚达夫等人[286]使用VAE生成主干和随机建模方法。同时，还研究了该问题的更精细的变体，其具有解开的语音特征，如个人说话风格[187]。

从视频生成环境声音

寻求从自然视频[36]、[42]、[314]中生成声音的研究工作特别强调生成的声音和视觉上下文之间的对齐，这包括语义和时间对齐。陈等人[36]通过采用感知损失并在优化过程中考虑声音类别来解决语义对齐问题。周等人[314]针对视频输入和音频解码器遵循相当经典的编码器-解码器框架，提出了三种方法，包括帧到帧、序列到序列和基于流的变体。在[42]中，作者用提出的REGNET框架解决了语义和时间对齐问题，其核心技术设计包括视觉编码器和音频转发正则化器。一般来说，与语音和音乐相比，环境声音除了与某些活动的对应性之外，具有相对较少的独特属性。总结上述工作，我们注意到高级技术思想相当笼统，类似于标准管道设计。

从声音生成视觉

作为从视觉生成声音的相反方向，仅从音频模态直接生成像素级自然图像或视频是一个具有挑战性的问题。然而，作为一种特定类型的声音任务视觉生成，从语音音频合成说话的面孔 [38], [222], [306], [312]是一个研究相对较好的子领域。类似于“视频到语音”任务，这种反向的视觉信息更强调视频剪辑中嘴唇的运动。在大多数情况下，说话面孔生成任务的输入包括参考图像和驾驶音轨。早期作品[37], [222], [249]采用了一个通用流水线，该流水线具有两个独立的编码器用于输入，一个解码器用于主要通过基于GANs的生成主干来合成说话视频。最近的工作试图通过将以前的架构分成层次结构来细化和改进综合结果[38]，[58]。除了原始视频，更具体的运动数据，如流也用于进一步实现高分辨率生成[306]。一些工作还试图通过将视频生成问题重新表述为光流形式的运动生成任务来生成自然视频[33]，[64]。