[论文速读] Multimodal Fusion on Low-quality Data:A Comprehensive Survey 低质多模态数据融合综述

摘要：

多模态融合侧重于整合多种模态的信息，以实现更准确的预测，在自动驾驶和医疗诊断等广泛场景中取得了显着进展。然而，多模态融合的可靠性在很大程度上仍未得到探索，特别是在低质量数据设置下。本文调查了野外多模态融合的常见挑战和最新进展，并以综合分类法呈现它们。从以数据为中心的角度来看，我们确定了低质量数据的多模态融合面临的四个主要挑战，即

（1）被异质噪声污染的噪声多模态数据，

（2）缺少某些模态的不完整多模态数据，

（3）不平衡多模态数据，不同模态的质量或属性显着不同；

（4）质量变化多模态数据，每种模态的质量相对于不同样本动态变化。

这种新的分类法将使研究人员能够了解该领域的现状并确定几个潜在的方向。我们还对该领域的开放问题以及有趣的未来研究方向进行讨论。

介绍：

我们对世界的感知基于多种模态，例如触觉、视觉、听觉、嗅觉和味觉。即使某些感官信号不可靠，人类也可以从不完美的多模态输入中提取有用的线索，并进一步拼凑出正在发生事件的整个场景[1]。随着传感技术的发展，我们可以轻松收集各种形式的数据进行分析。为了充分释放每种模态的价值，多模态融合成为一种有前途的范例，通过整合所有可用的线索来进行下游分析任务，例如医学图像分析、自动驾驶汽车[2]，[3]和情绪识别[4]，[5]，[6]，获得精确可靠的预测。直观地讲，融合来自不同模态的信息提供了探索跨模态相关性并获得更好性能的可能性。然而，人们越来越认识到，广泛使用的人工智能模型经常被低质量数据中的虚假相关性和偏差所误导。在现实世界中，不同模态通常会由于意外的环境因素或传感器问题而发生变化。最近的一些研究从经验和理论上都表明，传统的多模态融合可能无法处理现实中的低质量多模态数据，例如不平衡的 [7]、[8]、[9]、[10]、嘈杂的 [11] 甚至损坏的 [12] 多模态数据。为了克服这种限制，向现实世界中强大而广义的多模态学习迈进，我们确定了低质量多模态数据的属性，并重点关注现实环境中多模态机器融合的一些独特挑战。我们还重点介绍了可能有助于使多模态融合在开放环境中更可靠、更值得信赖的技术进步。在本文中，我们确定并探讨了围绕低质量多模态数据多模态融合的四个核心技术挑战。它们总结如下（也在图 1 中直观地说明）

(1）噪声多模态数据（Noisy multimodal data）。第一个基本挑战是学习如何减轻多模态数据中任意噪声的潜在影响。高维多模态数据往往包含复杂的噪声。多模态数据的异质性使其具有挑战性，同时也为通过探索不同模态之间的相关性来识别和减少潜在噪声提供了机会。

(2) 不完整的多模态数据（Incomplete multimodal data）。第二个基本挑战是使用不完整的多模态数据进行学习。例如，在医学领域，即使患有相同的疾病，患者也可能选择不同的医疗检查，从而产生不完整的多模态数据。开发灵活可靠的能够处理不完整多模态数据的多模态学习方法是一个具有挑战性但有前途的研究方向。

(3) 不平衡多模态数据（Imbalanced multimodal data）。第三个根本挑战是如何减轻模式之间的偏见和差异的影响。例如，视觉模态整体上比音频模态更有效，导致模型走捷径，缺乏对音频的探索。尽管现有的融合方法表现出有希望的性能，但在某些模态首选应用程序的推理中，它们可能无法比单模态主导模型表现得更好。

(4) 动态变化多模态数据的质量（Quality dynamically varying multimodal data）。第四个基本挑战是如何适应多模态数据质量动态变化的性质。在实践中，由于不可预见的环境因素或传感器问题，不同样品的一种模式的质量通常会有所不同。例如，在低光或背光条件下，RGB 图像的信息量低于热模态图像。因此，在现实应用中，通过了解质量变化来动态集成多模态数据是必要的。

为了解决这些日益重要的多模态融合问题，本研究通过几种分类法系统地组织了关键挑战。与之前相关工作讨论各种多模态学习任务[13]、[14]不同，本次调查主要关注多模态融合这一多模态学习中最基本的问题，以及下游任务中低质量多模态数据带来的独特挑战，包括聚类、分类，对象检测和语义分割。在以下各节中，我们通过面临低质量数据的多模态融合的最新进展和技术挑战详细介绍了该领域：噪声多模态数据学习（第 2 节）、缺失模态插补（第 3 节）、平衡多模态融合（第 4 节）和动态多模态融合（第 5 节）。第 6 节中的讨论作为结论提供。

第二节，学习多模态噪声数据（LEARNING ON NOISY MULTIMODAL DATA）：

由于噪声的存在，在现实场景中收集高质量的多模态数据不可避免地面临重大挑战。多模态数据 [15] 噪声可能由传感器错误 [16]、环境干扰或传输损耗引起。对于视觉模态，传感器中的电子噪声会导致细节丢失。此外，由于环境因素，音频模态可能会遭受意外的失真。更糟糕的是，弱对齐甚至未对齐的多模态样本也经常出现，它们位于更高层次的语义空间中。幸运的是，考虑多种模态之间的相关性或更好地利用多模态数据可以帮助噪声多模态数据的融合。各种相关工作[16]、[17]、[18]证明多模态模型优于单模态模型。这可以归因于多模态数据通过利用不同模态之间的相关性来识别和减轻潜在噪声的能力。多模态噪声根据其来源可以大致分为两类：1）由传感器误差、环境因素或传输产生的模态特定噪声。每个模态分别，2）由弱对齐或未对齐的多模态对产生的跨模态噪声，可以被视为语义级噪声

2.1节，特定模态降噪（Modal-specific noise reduction）

特定于模态的降噪方法很大程度上取决于输入模态和手头的任务。在本节中，我们重点介绍多模态图像融合任务中的视觉降噪。大多数特定于模态的降噪方法侧重于从多模态数据中聚合有用信息并减轻多模态融合中噪声的影响。

2.1.1节，加权平均融合（Weighted average fusion）

一种简单的多模态降噪方法是对多模态数据进行平均融合。由于噪声的随机性，平均运算有效地降低了融合图像中的噪声比例。拉贾林加姆等人。 [19]开发了一种智能多模态融合算法。该方法将输入图像分解为高频和低频分量，并提出低频分量的平均融合规则，同时对高频分量利用引导滤波。本质上，基于平均的多模态降噪方法将相同的融合权重分配给不同的模态。然而，每种模态的噪声严重程度不同，并且在多模态样本中存在差异。针对上述问题，提出基于加权平均的多模态降噪方法。布迪拉贾等人。 [20]提出了一种基于引导滤波器的多模态图像融合方案。他们的方法涉及高斯分解，分别对基础层和细节层进行局部平均能量和基于平均梯度的显着图。奎特等人。 [21]提出了一种融合规则，用于计算不同带宽和级别的输入图像的小波变换模最大值。该方法旨在有效地结合来自多种图像模态的信息。阿希姆等人。 [22]在多尺度医学图像分析文献中为磁共振（MR）和计算机断层扫描（CT）图像开发了一种基于分数低阶矩的融合规则。考虑到不同模式之间的相似性和差异，Yu 等人。 [23]将图像分为公共分量和创新分量，并通过关节稀疏表示用公共和创新稀疏系数来表示源图像。王等人。 [24]设计了一种门机制来动态融合视觉特征。通过利用视觉特征作为补充信息，该方法有效地减轻了语音信号中噪声的影响。但是，该策略假设视觉数据是干净的。如果视觉数据也被噪声破坏，则该解决方案可能不是最优的。萨德吉等人。 [25]采用具有马尔可夫依赖性的潜在序列变量来决定视觉数据是否有利于视听语音增强。白等人。 [18]提出了一种软关联机制来处理较差的图像条件。在实践中，Transformer 中的自注意力机制可用于自适应地决定从图像中获取何处信息以及获取哪些信息。程等人。 [16]同时采用软注意力和硬注意力来减轻激光雷达-立体融合任务中由卷帘快门效应引起的噪声问题。具体来说，融合块用于聚合来自立体相机的补充信息并生成两个视差图。然后，通过比较视差图和激光雷达点，滤除原始数据中的噪声点

2.1.2 节，基于联合变化的融合（Joint variation based fusion）

当融合多种视觉模态（例如 RGB 和热）时，联合优化通常用于基于变化的降噪。在单峰降噪领域，以图像模态为例，基于Total Variation（TV）的经典去噪模型等价于求解如下：

单模态优化：

解释：

u0(x,y) 是带有噪声的输入像素。
u(x,y) 是去噪后的输出像素。
这个优化目标的第一项是数据保真项，它表示去噪后图像与原图像的差异，目的是让去噪后的图像尽可能接近原始图像。
第二项是正则化项，利用图像的总变差来控制图像的平滑度，确保去噪后的图像不会出现过度的振荡或噪声。
λ 是平衡这两项的超参数，决定了保真度与平滑度之间的权衡。

多模态优化：

um(x) 是第 m 个模态（例如RGB或热成像）中的输入数据。
wm 是每个模态的权重，满足，确保不同模态的贡献能够根据权重进行平衡。
该公式扩展了单模态去噪模型，将多个模态的图像融合起来进行去噪。
第一项是对所有模态的加权和，用于确保去噪后的图像能同时与所有模态的输入图像保持相似。
第二项同样是正则化项，控制去噪图像的平滑度。

2.2节，跨模态降噪（Cross-modal noise reduction）

        许多多模态任务（例如，多模态目标检测、视觉和语言理解）高度依赖于正确对齐的多模态训练数据。然而，现实世界的多模态对往往包含弱对齐甚至未对齐的样本[32]。例如，在 RGB/热 4 多模态对象检测中，多模态输入通常是弱对齐的，即相同对象的位置可能会在不同模态之间移动 [33]。

        在社交媒体中，文本描述通常与图像内容无关，即不成对的模式。在本节中，我们将弱对齐或未对齐的多模态样本视为跨模态噪声。与特定于模态的噪声相比，跨模态噪声位于更高级别的语义空间。目前的跨模态降噪方法大致可分为基于规则的滤波、基于模型的校正和噪声鲁棒性正则化。从数据角度来看，采用一些严格的规则来进行数据清理[34]、[35]、[36]。

        作为最近的代表性方法，CAT（复杂性、动作和文本识别）是一种过滤策略，旨在选择信息丰富的图像文本对，从而减少跨模态噪声的影响[35]。

        在多光谱目标检测中，图像配准（即空间对齐）是常用的预处理[37]、[38]。通过使用几何规则来对齐两幅图像，可以在不同模态之间校正移位的位置。从模型的角度来看，模型过滤或校正方法试图识别跨模态噪声样本并进一步去除或校正它们。为了实现这一目标，Huang 等人提出了一种称为噪声对应整流器（NCR）的方法来解决跨模态噪声[12]。

        NCR利用神经网络的记忆效应，根据损失差异将数据分为干净子集和噪声子集。随后，它以协同教学的方式使用自适应预测模型来纠正对应关系。应用于图像文本匹配作为展示，NCR 在存在跨模态噪声数据的情况下实现了卓越的性能。 ALBEF [39]采用动量模型来生成伪目标作为额外的监督。 BLIP [40]引入了一个过滤器，根据图像文本对的相似性去除噪声数据，然后利用字幕器重新生成相应的网络文本。这种过滤和字幕策略可以提高多模态对的质量，有助于下游视觉语言任务的改进。噪声鲁棒正则化是减轻跨模态噪声影响的另一个角度。为了明确稳定和协调多模态预训练并减轻潜在噪声的影响，NLIP [41] 采用噪声自适应正则化来避免过度拟合噪声图像文本对，并根据估计的噪声概率调整对齐标签。此外，NLIP 利用概念条件跨模态解码器生成合成标题来估算丢失的对象信息。为了减轻视觉语言任务中跨模态噪声的影响，Liet al。 [42]提出了 OSCAR，检测图像中的对象标签并将它们用作对齐的锚点。

        最近的工作提供了理论和实证分析，以阐明跨模态噪声在多模态对比学习中的影响[43]。此外，该研究引入了一种新的 MMCL 损失，旨在处理不成对的多模态样本，证明了实证实验中增强的鲁棒性。

第2.3节，讨论

总而言之，从噪声多模态数据中学习是一个常见但具有挑战性的问题。当前的方法从两个角度解决这个问题：模态特定降噪（针对特征噪声）和跨模态降噪（针对语义噪声）。然而，这些方法通常专注于特定场景，例如多模态图像融合或自动驾驶，而对一般噪声模式和学习范式的探索相对较少。我们已经确定了该领域的几个潜在研究课题。首先，利用不同模式的噪声之间的相关性非常重要。例如，高光谱图像中具有相似波长的图像通常表现出相似的噪声模式。其次，利用噪声和清洁模式之间的互补性来降低噪声将是有效的。第三，解决高级语义噪声提出了一个有趣的方向，也更具挑战性。例如，我们如何使用多模态大型语言模型（MLLM）来解决这个问题？

这张图展示了多模态输入在不同条件下（如噪声、缺失、不平衡和动态）所面临的问题，并引入了与模态、特征和样本相关的数学符号和公式。

这个公式表示每个模态 m 和特征 d 对应的输入数据质量是理想质量减去噪声项的结果。
这意味着每个数据的质量可能受到噪声或其他干扰因素的影响，导致实际质量低于理想状态。

表示数据缺失的情况，这个公式表示在某些情况下，某个模态 m对应的输入数据质量可能为 0，意味着该模态数据缺失（比如图中蓝色的缺失区域）。

表示不同模态质量比较，这个不等式表示不同模态之间的质量期望可能不同，通常一个模态的平均质量可能高于另一个模态。比如，某些模态可能更容易受到噪声、缺失或不平衡的影响。

模态间的协方差。这个公式指出，不同模态之间的质量并不是独立的，可能存在协方差关系。也就是说，某个模态的质量变化可能影响其他模态的质量。

总结：这张图的公式描述了不同模态的数据质量如何受到噪声、缺失、不平衡等因素的影响，以及多模态之间的质量相互关联性。这种情况在处理多模态数据（如图像、音频、雷达数据等）时尤其重要，因为不同模态的质量可能显著影响模型的整体性能。