图文检索综述（2）：Deep Multimodal Data Fusion

Deep Multimodal Data Fusion

摘要
1 引言
2 基于编码器-解码器融合
- 2.1 数据级别融合
- 2.2 分层特征融合
- 2.3 决策级别融合
3 基于注意力融合
- 3.1 模态内的自注意力
- 3.2 模态间的交叉注意力
- 3.3 基于transformer的方法
4 基于图神经网络融合
- 4.1 单个模态的表示学习
- 4.2 融合数据的表示学习
5 基于生成式网络融合
6 基于其他约束的融合

发布时间（2024）

标题：多模态数据融合

不按早期/后期融合分类，按模型分类

摘要

多模态人工智能 (Multimodal AI) 通常涉及各种类型的数据（例如，图像、文本或从不同传感器收集的数据）、特征工程（例如，提取、组合/融合）和决策（例如，多数表决）。随着架构变得越来越复杂，多模态神经网络可以将特征提取、特征融合和决策过程集成到一个模型中。这些过程之间的界限越来越模糊。融合所基于的传统多模态数据融合分类法（例如，早期/晚期融合）已不再适合现代深度学习时代。因此，基于所使用的主流技术，我们提出了一种新的细粒度分类法，将最先进 (SOTA) 模型分为五类：编码器-解码器方法、注意机制方法、图神经网络方法、生成神经网络方法和其他基于约束的方法。现有的大多数多模态数据融合综述仅侧重于一项特定任务，结合了两种特定模态。与这些综述不同，本综述涵盖了更广泛的模态组合，包括视觉 + 语言（例如视频、文本）、视觉 + 传感器（例如图像、激光雷达）等，以及它们对应的任务（例如视频字幕、物体检测）。此外，还提供了这些方法之间的比较，以及该领域的挑战和未来方向。

1 引言

对于视频文本多模态数据融合，[41, 56, 68, 107, 123, 124, 195] 中的研究利用 Transformer、BERT、注意机制、对抗学习以及它们的组合来解决文本到视频的检索任务
传统的多模态数据融合方法：
（1）早期融合（early fusion）：将从每种模态获得的原始数据或预处理数据融合后再发送到模型；
（2）中期融合（intermediate fusion）：将从不同模态提取的特征融合在一起并发送到模型进行决策；
（3）后期融合（也称为“决策融合”；late fusion / decision fusion）：将从每种模态获得的各个决策融合在一起以形成最终预测，例如多数投票或加权平均值，或者基于各个决策的元 ML 模型。
（4）混合融合（hybrid fusion）：早期、中期和后期融合的组合

但随着模型结构的复杂，融合已经从显式的变为隐式的深度学习架构固有的复杂性通常将表征学习、模态融合和决策交织在一起，这违背了过去的简单分类。

Zhang 等人 [235] 对深度多模态融合进行了综述。然而，作者使用传统分类法对模型进行分类：早期融合、晚期融合和混合融合。
Gao 等人 [45] 对多模态数据融合进行了综述。它介绍了深度学习的基本概念和几种深度多模态模型的架构，包括基于堆叠自编码器的方法、基于循环神经网络的方法、基于卷积神经网络的方法等。然而，它不包括 SOTA 大型预训练模型和基于 GNN 的方法，例如 BERT 模型。
Meng 等人 [121] 对用于数据融合的 ML 进行了综述。它强调传统的 ML 技术而不是深度学习技术。此外，作者将方法分为三类：信号级融合、特征级融合和决策级融合。融合方法的分类方式与传统分类法类似：早期融合、中期融合和晚期融合，这对社区来说并不新鲜。
在多模态领域还有其他几篇评论 [4, 128, 227]，其中大部分都侧重于特定的模态组合，例如 RGB 深度图像。

与通常侧重于单一任务（如多模态对象识别）和两种模态（如 RGB+深度数据）的特定组合的现有调查 [2、46、243] 相比

在这里插入图片描述

2 基于编码器-解码器融合

在这里插入图片描述

2.1 数据级别融合

数据先融合–》编码器提取特征
优势：
（1）它可以最大限度地保留每个模态的原始信息；
（2）单个网络主干的设计最大限度地降低了计算成本。
适合原始数据级组合仅适用于同质数据。
对于异构数据，例如文本数据+RGB 图像 [207]，需要进行数据预处理，例如对文本数据进行词嵌入。原始数据级融合的可视化如图 7（a）所示。图 8 介绍了图 7（a）中的合并操作（“M”），它通常涉及逐元素的加法或乘法、连接和叉积。

2.2 分层特征融合

融合不同抽象级别的数据，可以从深度网络中提取多层特征
类似地，在场景理解任务中，[173]和[226]分层融合来自不同模态的特征（例如，低级，中级和高级特征）以提高模型性能，而[170]将高级特征融合在一起。

优势：
（1）融合架构的灵活性——可以决定融合发生的位置以及针对特定任务融合多少个分层特征
（2）易于与注意机制结合——同一级别的多模态分层特征之间的连接可以通过注意机制升级，这将在第3部分中介绍。这使得研究人员能够利用不同模态之间的关系来增强融合模型的性能。特征之间使用注意力

缺点：需要大量计算资源
因此，这种融合方法通常用于两种或三种模态的融合。分层特征融合的可视化如图 7(b) 所示。

2.3 决策级别融合

与分层融合不同，决策融合的灵活性低

优点：
(1) 可用于探索每种模态对生成最终决策的相对贡献权重
(2) 易于判断每种模态的预测结果是否正确
(3) 网络易于设计和实施。
明显的缺点是：
(1) 整个网络的性能可能受到一种模态的限制（例如，一种模态的分支无法正常工作并产生错误的预测，严重影响最终预测），
(2) 多模态信息融合的灵活性较低
决策级融合的可视化如图 7© 所示。

Bendre 等人 [14] 提出了一种多模态变分自动编码器 (VAE [83]) 架构，它可以学习图像特征的共享潜在空间。该模型将多模态数据连接起来形成单个嵌入，然后将其传递给 VAE 以学习潜在空间。Khattar 等人 [81] 提出了一种基于 VAE 的端到端架构来解决假新闻分类问题。该模型将文本特征和视觉特征连接在一起形成嵌入。然后，自动编码器重建词嵌入特征和视觉特征。

3 基于注意力融合

3.1 模态内的自注意力

在这里插入图片描述
利用模态内的关系
注意操作可以是基于点积的 [85]，也可以是基于加法门的 [134]等等。
例如，Gao 等人 [47] 提出了基于模态内-模态间注意模块的模型来解决 VQA 任务。作者采用了模态内注意机制来增强每个模态子网络的特征学习能力。同样，Malinowski 等人 [115] 提出了一种基于硬注意的多模态融合方法，该方法在空间位置上生成二元掩码，以确定哪些特征被传递到下游处理。

3.2 模态间的交叉注意力

缺点：计算复杂性大
例如，张等人 [228] 应用点积注意力机制来探索文本和图像特征之间的模态间关系。同样地，Hu 等人 [65] 提出了一个双向模态间交叉注意模块，其中作者创建了一个视觉引导的语言注意模块和一个语言引导的视觉注意模块来利用视觉模态和语言模态之间的跨模态关系。
例如，Wu 等 [200] 提出了一种基于共同注意的多模态假新闻检测模型。在该模型中，每次融合操作之前，它们都通过共同注意机制用另一种模态增强每种模态。堆叠的多个共同注意层迫使模型融合多模态特征并学习它们之间的相互依赖关系。此外，Lu 等 [111] 开发了一种独特的交叉注意机制，将通道注意和特征交叉机制相结合。这种方法促进了不同模态之间的动态信息交互，使模型能够强调更具代表性的特征。后来，Yoon 等人 [215] 提出了一种复杂的多模态编码器，利用交叉注意将视觉和听觉表示结合起来。
例如，Gao 等人 [47] 提出了一种基于模态内-模态间注意模块的模型来解决 VQA 任务，其中模态内注意力增强了单个模态特征，而模态间注意力捕获了各种模态之间的相互作用。例如，Ye 等人 [211] 提出的注意机制可以自适应地将焦点转移到查询表达式中的突出单词和输入图像的重要部分。

这里可能说的是cnn：传统注意力机制辨别局部关系有效，辨别长距离关系较弱
为了抵消这一限制，人们引入了非局部注意的概念 [186]。这种创新方法旨在考虑整个输入空间中的关系，从而使模型能够有效地理解和利用长距离依赖关系。袁等人 [221] 的工作是非局部注意的一个显著实现，其中利用基于非局部注意的网络来融合同质多模态图像数据，例如 MRI 和 PET 的集成或红外和可见光图像的融合。与局部注意力机制不同，非局部注意力超越了接近度的限制，提供了输入空间的整体视角，使其成为多模态数据融合技术进步的宝贵资产。

3.3 基于transformer的方法

在这里插入图片描述
1）uni-Transformer 架构：在这种架构中，来自不同模态的输入数据将由单个编码器或多个堆叠编码器联合处理
2）多 Transformers 架构：在这种架构中，来自不同模态的输入数据将由特定于模态的 Transformers 分别编码，然后进行联合建模

4 基于图神经网络融合

到目前为止，我们已经回顾了基于编码器-解码器的融合和基于注意力的融合。这些方法的模型在从欧几里得空间内的数据中捕获隐藏模式方面取得了巨大成功。然而，它们很难处理从非欧几里得域生成的数据，这些数据以具有复杂关系和对象间相互依赖关系的图形表示 [241]。
基于 GNN 来解决与图数据相关的多模态问题：跨模态检索任务 [30、204、217]、

图卷积网络 (GCN) 脱颖而出：它利用适合图数据的卷积层聚合来自相邻节点的信息，从而促进跨模态的空间局部特征融合
图注意力网络 (GAT)：它将注意力机制引入到图结构中。通过动态权衡相邻节点的重要性，GAT 可以精确关注图的相关部分，通过捕获不同数据源之间的复杂模式和关系来增强融合过程

4.1 单个模态的表示学习

在这里插入图片描述

4.2 融合数据的表示学习

与其他融合方法相比，基于 GNN 的融合模型的优势包括：
(1) 能够通过深度学习技术直接处理图结构数据，而无需将数据投影到欧几里得空间；
(2) 能够直观地利用图结构数据中节点之间的关系，并可以扩展到利用多模态问题中的模态内和模态间关系。
缺点：图构建过程通常高度依赖于对特定输入数据和任务特征的先验知识。它耗时耗空间，不易推广。

到目前为止，我们回顾了基于编码器-解码器的融合、基于注意的融合和基于 GNN 的融合。它们都可以利用不同模态之间的关系来提高多模态网络的性能。然而，这种融合方法难以处理缺失数据问题。

5 基于生成式网络融合

GenNN 的主要目标是生成与现实世界分布非常接近的数据，方法是直接对这些分布进行建模，或者学习将更简单的分布转换为更复杂的分布。

6 基于其他约束的融合

用于损失函数正则化项
如图 13(a) 所示，协调表征架构分别处理各个模态，但对它们施加某些相似性约束，以将它们带入协调空间 [15]。可以使用典型相关分析 (CCA) 约束、余弦距离约束、L2 距离约束或其他约束将每个模态的学习表征相互比较 [26, 57]。这些相似性约束将作为损失函数中的正则化项
张量融合网络
除了基于正则化的方法外，Zadeh 等人 [224] 提出了第一个基于张量的融合网络。它主要考虑了模态间和模态内的关系。如图 13(b) 所示，该方法将每个模态扩展 1 维，然后计算不同模态的笛卡尔积。以两种模态为例，作者在获得特征后进行外积（张量积）。可以看出，扩展后获得了两种模态之间的特征相关性，并且保留了每个特定模态的信息。对于三种模态，该方法不仅可以获得双模态和三模态组合的特征相关性，还可以保留每个特定模态的特征。然而，随着多模态数量的增加，特征维数会迅速爆炸式增长。此外，当参数数量过大时，很容易增加过拟合的风险。此外，还有这项工作的变体，例如 [108]。在本文中，作者提出了一种低秩多模态融合方法，该方法利用低秩张量进行多模态融合，以提高效率
不同的是，Wang 等人 [187] 提出了一个通道交换网络，它可以动态地交换不同模态子网络中的通道。具体来说，通道交换过程由训练期间批量归一化缩放因子的大小来衡量的单个通道重要性自我引导。这种方法是无参数的。然而，这个模型只适用于同质数据。异构多模态数据的性能是有限的。

到目前为止，我们已经回顾了基于编码器-解码器的方法、基于注意机制的方法、基于 GNN 的方法、基于 GenNN 的方法和其他基于约束的方法。目前，大多数多模态数据融合的 SOTA 算法都是为两种特定模态的组合而设计的。因此，我们根据它们对更多模态（模态数量大于 2）的泛化能力对它们进行比较。（1）基于编码器-解码器的方法。网络架构相对灵活。很容易将新模态集成到基于编码器-解码器的模型中，例如，为新模态添加新的子编码器分支 [23]。此外，所有子编码器的权重可以共享。当子编码器的数量增加时，计算成本不会急剧增加 [87]。（2）基于 GenNN 的方法涵盖各种架构，包括但不限于 GAN、VAE、扩散和基于流的模型。随着输入模态的多样性和数量的增加，基于 GenNN 的多模态网络的架构趋于变得越来越复杂