[论文速读] Multimodal Fusion on Low-quality Data:A Comprehensive Survey 低质多模态数据融合综述

news2024/11/24 22:33:41

摘要

多模态融合侧重于整合多种模态的信息,以实现更准确的预测,在自动驾驶和医疗诊断等广泛场景中取得了显着进展。然而,多模态融合的可靠性在很大程度上仍未得到探索,特别是在低质量数据设置下。本文调查了野外多模态融合的常见挑战和最新进展,并以综合分类法呈现它们。从以数据为中心的角度来看,我们确定了低质量数据的多模态融合面临的四个主要挑战,即

(1)被异质噪声污染的噪声多模态数据,

(2)缺少某些模态的不完整多模态数据,

(3) 不平衡多模态数据,不同模态的质量或属性显着不同;

(4)质量变化多模态数据,每种模态的质量相对于不同样本动态变化。

这种新的分类法将使研究人员能够了解该领域的现状并确定几个潜在的方向。我们还对该领域的开放问题以及有趣的未来研究方向进行讨论。

介绍:

我们对世界的感知基于多种模态,例如触觉、视觉、听觉、嗅觉和味觉。即使某些感官信号不可靠,人类也可以从不完美的多模态输入中提取有用的线索,并进一步拼凑出正在发生事件的整个场景[1]。随着传感技术的发展,我们可以轻松收集各种形式的数据进行分析。为了充分释放每种模态的价值,多模态融合成为一种有前途的范例,通过整合所有可用的线索来进行下游分析任务,例如医学图像分析、自动驾驶汽车[2],[3]和情绪识别[4],[5],[6],获得精确可靠的预测。直观地讲,融合来自不同模态的信息提供了探索跨模态相关性并获得更好性能的可能性。然而,人们越来越认识到,广泛使用的人工智能模型经常被低质量数据中的虚假相关性和偏差所误导。在现实世界中,不同模态通常会由于意外的环境因素或传感器问题而发生变化。最近的一些研究从经验和理论上都表明,传统的多模态融合可能无法处理现实中的低质量多模态数据,例如不平衡的 [7]、[8]、[9]、[10]、嘈杂的 [11] 甚至损坏的 [12] 多模态数据。为了克服这种限制,向现实世界中强大而广义的多模态学习迈进,我们确定了低质量多模态数据的属性,并重点关注现实环境中多模态机器融合的一些独特挑战。我们还重点介绍了可能有助于使多模态融合在开放环境中更可靠、更值得信赖的技术进步。在本文中,我们确定并探讨了围绕低质量多模态数据多模态融合的四个核心技术挑战。它们总结如下(也在图 1 中直观地说明)

(1)噪声多模态数据(Noisy multimodal data)。第一个基本挑战是学习如何减轻多模态数据中任意噪声的潜在影响。高维多模态数据往往包含复杂的噪声。多模态数据的异质性使其具有挑战性,同时也为通过探索不同模态之间的相关性来识别和减少潜在噪声提供了机会。

(2) 不完整的多模态数据(Incomplete multimodal data)。第二个基本挑战是使用不完整的多模态数据进行学习。例如,在医学领域,即使患有相同的疾病,患者也可能选择不同的医疗检查,从而产生不完整的多模态数据。开发灵活可靠的能够处理不完整多模态数据的多模态学习方法是一个具有挑战性但有前途的研究方向。

(3) 不平衡多模态数据(Imbalanced multimodal data)。第三个根本挑战是如何减轻模式之间的偏见和差异的影响。例如,视觉模态整体上比音频模态更有效,导致模型走捷径,缺乏对音频的探索。尽管现有的融合方法表现出有希望的性能,但在某些模态首选应用程序的推理中,它们可能无法比单模态主导模型表现得更好。

(4) 动态变化多模态数据的质量(Quality dynamically varying multimodal data)。第四个基本挑战是如何适应多模态数据质量动态变化的性质。在实践中,由于不可预见的环境因素或传感器问题,不同样品的一种模式的质量通常会有所不同。例如,在低光或背光条件下,RGB 图像的信息量低于热模态图像。因此,在现实应用中,通过了解质量变化来动态集成多模态数据是必要的。

为了解决这些日益重要的多模态融合问题,本研究通过几种分类法系统地组织了关键挑战。与之前相关工作讨论各种多模态学习任务[13]、[14]不同,本次调查主要关注多模态融合这一多模态学习中最基本的问题,以及下游任务中低质量多模态数据带来的独特挑战,包括聚类、分类,对象检测和语义分割。在以下各节中,我们通过面临低质量数据的多模态融合的最新进展和技术挑战详细介绍了该领域:噪声多模态数据学习(第 2 节)、缺失模态插补(第 3 节)、平衡多模态融合(第 4 节)和动态多模态融合(第 5 节)。第 6 节中的讨论作为结论提供。

第二节,学习多模态噪声数据(LEARNING ON NOISY MULTIMODAL DATA)

由于噪声的存在,在现实场景中收集高质量的多模态数据不可避免地面临重大挑战。多模态数据 [15] 噪声可能由传感器错误 [16]、环境干扰或传输损耗引起。对于视觉模态,传感器中的电子噪声会导致细节丢失。此外,由于环境因素,音频模态可能会遭受意外的失真。更糟糕的是,弱对齐甚至未对齐的多模态样本也经常出现,它们位于更高层次的语义空间中。幸运的是,考虑多种模态之间的相关性或更好地利用多模态数据可以帮助噪声多模态数据的融合。各种相关工作[16]、[17]、[18]证明多模态模型优于单模态模型。这可以归因于多模态数据通过利用不同模态之间的相关性来识别和减轻潜在噪声的能力。多模态噪声根据其来源可以大致分为两类:1)由传感器误差、环境因素或传输产生的模态特定噪声。每个模态分别,2)由弱对齐或未对齐的多模态对产生的跨模态噪声,可以被视为语义级噪声

2.1节,特定模态降噪(Modal-specific noise reduction)

特定于模态的降噪方法很大程度上取决于输入模态和手头的任务。在本节中,我们重点介绍多模态图像融合任务中的视觉降噪。大多数特定于模态的降噪方法侧重于从多模态数据中聚合有用信息并减轻多模态融合中噪声的影响。

2.1.1节,加权平均融合(Weighted average fusion)

一种简单的多模态降噪方法是对多模态数据进行平均融合。由于噪声的随机性,平均运算有效地降低了融合图像中的噪声比例。拉贾林加姆等人。 [19]开发了一种智能多模态融合算法。该方法将输入图像分解为高频和低频分量,并提出低频分量的平均融合规则,同时对高频分量利用引导滤波。本质上,基于平均的多模态降噪方法将相同的融合权重分配给不同的模态。然而,每种模态的噪声严重程度不同,并且在多模态样本中存在差异。针对上述问题,提出基于加权平均的多模态降噪方法。布迪拉贾等人。 [20]提出了一种基于引导滤波器的多模态图像融合方案。他们的方法涉及高斯分解,分别对基础层和细节层进行局部平均能量和基于平均梯度的显着图。奎特等人。 [21]提出了一种融合规则,用于计算不同带宽和级别的输入图像的小波变换模最大值。该方法旨在有效地结合来自多种图像模态的信息。阿希姆等人。 [22]在多尺度医学图像分析文献中为磁共振(MR)和计算机断层扫描(CT)图像开发了一种基于分数低阶矩的融合规则。考虑到不同模式之间的相似性和差异,Yu 等人。 [23]将图像分为公共分量和创新分量,并通过关节稀疏表示用公共和创新稀疏系数来表示源图像。王等人。 [24]设计了一种门机制来动态融合视觉特征。通过利用视觉特征作为补充信息,该方法有效地减轻了语音信号中噪声的影响。但是,该策略假设视觉数据是干净的。如果视觉数据也被噪声破坏,则该解决方案可能不是最优的。萨德吉等人。 [25]采用具有马尔可夫依赖性的潜在序列变量来决定视觉数据是否有利于视听语音增强。白等人。 [18]提出了一种软关联机制来处理较差的图像条件。在实践中,Transformer 中的自注意力机制可用于自适应地决定从图像中获取何处信息以及获取哪些信息。程等人。 [16]同时采用软注意力和硬注意力来减轻激光雷达-立体融合任务中由卷帘快门效应引起的噪声问题。具体来说,融合块用于聚合来自立体相机的补充信息并生成两个视差图。然后,通过比较视差图和激光雷达点,滤除原始数据中的噪声点

2.1.2 节,基于联合变化的融合(Joint variation based fusion)

当融合多种视觉模态(例如 RGB 和热)时,联合优化通常用于基于变化的降噪。在单峰降噪领域,以图像模态为例,基于Total Variation(TV)的经典去噪模型等价于求解如下:

单模态优化:

解释:

  • u0​(x,y) 是带有噪声的输入像素。
  • u(x,y) 是去噪后的输出像素。
  • 这个优化目标的第一项是数据保真项,它表示去噪后图像与原图像的差异,目的是让去噪后的图像尽可能接近原始图像。
  • 第二项是正则化项,利用图像的总变差来控制图像的平滑度,确保去噪后的图像不会出现过度的振荡或噪声。
  • λ 是平衡这两项的超参数,决定了保真度与平滑度之间的权衡。

多模态优化:

  • um​(x) 是第 m 个模态(例如RGB或热成像)中的输入数据。
  • wm​ 是每个模态的权重,满足 ,确保不同模态的贡献能够根据权重进行平衡。
  • 该公式扩展了单模态去噪模型,将多个模态的图像融合起来进行去噪。
  • 第一项是对所有模态的加权和,用于确保去噪后的图像能同时与所有模态的输入图像保持相似。
  • 第二项同样是正则化项,控制去噪图像的平滑度。

2.2节,跨模态降噪(Cross-modal noise reduction)

        许多多模态任务(例如,多模态目标检测、视觉和语言理解)高度依赖于正确对齐的多模态训练数据。然而,现实世界的多模态对往往包含弱对齐甚至未对齐的样本[32]。例如,在 RGB/热 4 多模态对象检测中,多模态输入通常是弱对齐的,即相同对象的位置可能会在不同模态之间移动 [33]。

        在社交媒体中,文本描述通常与图像内容无关,即不成对的模式。在本节中,我们将弱对齐或未对齐的多模态样本视为跨模态噪声。与特定于模态的噪声相比,跨模态噪声位于更高级别的语义空间。目前的跨模态降噪方法大致可分为基于规则的滤波、基于模型的校正和噪声鲁棒性正则化。从数据角度来看,采用一些严格的规则来进行数据清理[34]、[35]、[36]。

        作为最近的代表性方法,CAT(复杂性、动作和文本识别)是一种过滤策略,旨在选择信息丰富的图像文本对,从而减少跨模态噪声的影响[3​​5]。

        在多光谱目标检测中,图像配准(即空间对齐)是常用的预处理[37]、[38]。通过使用几何规则来对齐两幅图像,可以在不同模态之间校正移位的位置。从模型的角度来看,模型过滤或校正方法试图识别跨模态噪声样本并进一步去除或校正它们。为了实现这一目标,Huang 等人提出了一种称为噪声对应整流器(NCR)的方法来解决跨模态噪声[12]。

        NCR利用神经网络的记忆效应,根据损失差异将数据分为干净子集和噪声子集。随后,它以协同教学的方式使用自适应预测模型来纠正对应关系。 应用于图像文本匹配作为展示,NCR 在存在跨模态噪声数据的情况下实现了卓越的性能。 ALBEF [39]采用动量模型来生成伪目标作为额外的监督。 BLIP [40]引入了一个过滤器,根据图像文本对的相似性去除噪声数据,然后利用字幕器重新生成相应的网络文本。这种过滤和字幕策略可以提高多模态对的质量,有助于下游视觉语言任务的改进。噪声鲁棒正则化是减轻跨模态噪声影响的另一个角度。为了明确稳定和协调多模态预训练并减轻潜在噪声的影响,NLIP [41] 采用噪声自适应正则化来避免过度拟合噪声图像文本对,并根据估计的噪声概率调整对齐标签。此外,NLIP 利用概念条件跨模态解码器生成合成标题来估算丢失的对象信息。为了减轻视觉语言任务中跨模态噪声的影响,Liet al。 [42]提出了 OSCAR,检测图像中的对象标签并将它们用作对齐的锚点。

        最近的工作提供了理论和实证分析,以阐明跨模态噪声在多模态对比学习中的影响[43]。此外,该研究引入了一种新的 MMCL 损失,旨在处理不成对的多模态样本,证明了实证实验中增强的鲁棒性。

第2.3节, 讨论

总而言之,从噪声多模态数据中学习是一个常见但具有挑战性的问题。当前的方法从两个角度解决这个问题:模态特定降噪(针对特征噪声)和跨模态降噪(针对语义噪声)。然而,这些方法通常专注于特定场景,例如多模态图像融合或自动驾驶,而对一般噪声模式和学习范式的探索相对较少。我们已经确定了该领域的几个潜在研究课题。首先,利用不同模式的噪声之间的相关性非常重要。例如,高光谱图像中具有相似波长的图像通常表现出相似的噪声模式。其次,利用噪声和清洁模式之间的互补性来降低噪声将是有效的。第三,解决高级语义噪声提出了一个有趣的方向,也更具挑战性。例如,我们如何使用多模态大型语言模型(MLLM)来解决这个问题?

这张图展示了多模态输入在不同条件下(如噪声、缺失、不平衡和动态)所面临的问题,并引入了与模态、特征和样本相关的数学符号和公式。

  • 这个公式表示每个模态 m 和特征 d 对应的输入数据质量 是理想质量减去噪声项的结果。
  • 这意味着每个数据的质量可能受到噪声或其他干扰因素的影响,导致实际质量低于理想状态。

 表示数据缺失的情况,这个公式表示在某些情况下,某个模态 m对应的输入数据质量可能为 0,意味着该模态数据缺失(比如图中蓝色的缺失区域)。

表示不同模态质量比较,这个不等式表示不同模态之间的质量期望可能不同,通常一个模态的平均质量可能高于另一个模态。比如,某些模态可能更容易受到噪声、缺失或不平衡的影响。

模态间的协方差。这个公式指出,不同模态之间的质量并不是独立的,可能存在协方差关系。也就是说,某个模态的质量变化可能影响其他模态的质量。

总结:这张图的公式描述了不同模态的数据质量如何受到噪声、缺失、不平衡等因素的影响,以及多模态之间的质量相互关联性。这种情况在处理多模态数据(如图像、音频、雷达数据等)时尤其重要,因为不同模态的质量可能显著影响模型的整体性能。

待补充

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2164159.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android平台使用VIA创建语音交互应用

Android平台使用VIA创建语音交互应用 概述 在 Android 平台上开发一款语音助手应用需要整合多种技术,包括语音识别(ASR)、文字转语音(TTS)、以及热词检测(Hotword Detection)。这些技术共同构成了语音助手应用的核心交互方式,使用户能够通过语音命令与设备进行无缝交…

JavaWeb便利店管理系统

目录 1 项目介绍2 项目截图3 核心代码3.1 Controller3.2 Service3.3 Dao3.4 spring-mybatis.xml3.5 spring-mvc.xml3.5 login.jsp 4 数据库表设计5 文档参考6 计算机毕设选题推荐7 源码获取 1 项目介绍 博主个人介绍:CSDN认证博客专家,CSDN平台Java领域优…

spring里面内置的非常实用的工具

一 、请求数据记录 Spring Boot提供了一个内置的日志记录解决方案,通过 AbstractRequestLoggingFilter 可以记录请求的详细信息。 AbstractRequestLoggingFilter 有两个不同的实现类,我们常用的是 CommonsRequestLoggingFilter。 通过 CommonsRequestL…

Python 烟花展示:使用 Pygame 创建绚丽的夜空

在Python中,使用pygame库可以轻松地创建图形和动画效果,非常适合制作各种游戏和视觉展示。今天,我们将一起探索如何使用pygame来制作一个简单的烟花展示程序。这个程序将模拟烟花在夜空中绽放的壮丽景象,通过随机生成的粒子来模拟…

MQTT客户端实战:从连接到通信。详细说明MQTT客户端和MQTT代理进行通信

EMQX安装 EMQX服务器安装 安装文档,见链接不另外写 https://docs.emqx.com/zh/emqx/latest/deploy/install-ubuntu.html 启动 EMQX 启动为一个 systemd 服务: sudo systemctl start emqx在windows安装客户端 在线 MQTT WebSocket 客户端工具&…

唯众智能化控制箱

为满足智慧城市、雪亮工程、智能交通、智慧农业等领域大数据信息化的管理要求,唯众自主研发设计了智能化控制箱,该产品是一款集智能网络传输、温湿度监测、门锁控制于一体的综合系统。该系统由先进的I/O网络模块、高精度传感器、强大的管理后端以及便捷的…

window下 php 安装 lua扩展

1.执行php -v 看看自己的php是什么版本 2.下载对应版本 https://pecl.php.net/package/lua 3.安装 php_lua.dll 放在 php的ext文件夹下 liblua.dll放在php的根目录下 4.编辑php.ini 5.重启 6. 执行 php -m

计算机毕业设计之:云中e百货微信小程序设计与实现(源码+文档+定制)

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…

国内可用ChatGPT-4中文镜像网站整理汇总【持续更新】

一、GPT中文镜像网站 ① yixiaai.com 支持GPT4、4o以及o1,支持MJ绘画 ② chat.lify.vip 支持通用全模型,支持文件读取、插件、绘画、AIPPT ③ AI Chat 支持GPT3.5/4,4o以及MJ绘画 二、模型知识 o1/o1-mini:最新的版本模型&am…

跑lvs出现soft connect怎么处理?

首先,我们先了解一下什么是soft connect。简而言之,就是工具会将所有连接在psub上的信号认作soft connect(也就是short)。如图1所示,VSS和AVSS都接到了p上,它们通过psub便有了soft connect。 如果有soft co…

AfuseKt1.3.6-10110功能强大的安卓网络视频播放器,支持多种在线存储和媒体管理平台!

AfuseKt 是一款功能强大的安卓网络视频播放器,专为满足用户对多样化媒体播放需求而设计。它不仅支持多种流行的在线存储和媒体管理平台,如阿里云盘、Alist、WebDAV和Emby等,还提供了刮削功能和海报墙展示,使得用户能够更加便捷地管…

解锁视频生成新时代! 探索智谱CogVideoX-2b:轻松生成6秒视频的详细指南

文章目录 一、CogVideoX的诞生背景二、 创建丹摩平台实例三、 环境配置与依赖安装四、模型文件与配置五、 模型运行六、使用 Web 界面生成视频 一、CogVideoX的诞生背景 CogVideoX 的推出标志着视频生成技术进入了一个全新的阶段。在视频生成领域,长期以来一直存在效…

2024 年海上安全:技术集成商需要考虑的几件事

今年,海上发生了许多新的冲突,从索马里海盗到红海商船遇袭。这些事件表明,2024 年,安全专业人员做好准备帮助客户应对海上紧急情况(无论是什么情况)是多么重要。 技术是任何安全战略的关键推动因素。掌握最…

Python 课程19-FastAPI

前言 FastAPI 是一个用于构建 API 的现代化、快速的 Python Web 框架。它基于 Python 的 type hints 构建,能够自动生成 API 文档并提供出色的性能。FastAPI 的设计目标是简单易用、高性能和支持异步操作,因此它非常适合开发高并发的 Web 应用程序和 AP…

c# 子类继承父类接口问题

在C#中,子类并不直接“继承”父类继承的接口,但子类的确会继承父类对接口的实现(如果父类实现了该接口)。这里有一些关键的概念需要澄清: 接口继承:当一个类实现了某个接口时,它必须实现接口中…

Webpack教程-概述

什么是Webpack Webpack是一个静态资源打包工具。它以一个或多个文件作为打包入口,将整个项目所有的文件编译组合成一个或多个文件进行输出。(输出的文件即编译好的文件,就可以在浏览器上运行) Webpack官网 核心概念 entry (入口) entiry 指webpack…

2024下最全软考机考操作事项、绘图指南合集!

从2023年下半年软考全部科目改革为机考方式后,到现在已经进行过两场考试,鉴于有很多考生是初次参加软考,就给大家介绍下关于软考机考的具体操作指南,希望对大家有所帮助。 一、操作事项 在考试正式开始前,软考办会开放…

ClickHouse复杂查询单表亿级数据案例(可导出Excel)

通过本篇博客,读者可以了解到如何在 ClickHouse 中高效地创建和管理大规模销售数据。随机数据生成和复杂查询的示例展示了 ClickHouse 的强大性能和灵活性。掌握这些技能后,用户能够更好地进行数据分析和决策支持,提升业务洞察能力。 表结构…

性能测试1初步使用Jmeter

当你看到这边文章的时候,详细你已经知道啥是性能测试,以及也听说过Jmeter了,所以不过多介绍,这里,只是帮助你快速的使用Jmeter来测试接口。 1获取安装包 官网下载地址:https://jmeter.apache.org/downloa…

力扣19 删除链表的倒数第N个节点 Java版本

文章目录 题目描述代码 题目描述 给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点。 示例 1: 输入:head [1,2,3,4,5], n 2 输出:[1,2,3,5] 示例 2: 输入:head [1], n 1 …