如何处理多模态数据噪声不均衡动态?天大等最新《低质量数据的多模态融合》综述

news2025/1/10 1:55:46

图片

多模态融合致力于整合来自多种模态的信息,目的是实现更准确的预测。在包括自动驾驶和医疗诊断等广泛的场景中,多模态融合已取得显著进展。然而,在低质量数据环境下,多模态融合的可靠性大部分仍未被探索。本文综述了开放多模态融合面临的常见挑战和最新进展,并将它们呈现在一个全面的分类体系中。从数据中心的视角,我们确定了低质量数据上多模态融合面临的四个主要挑战,即(1)噪声多模态数据,它们被不同种类的噪声污染;(2)不完整的多模态数据,某些模态缺失;(3)不平衡的多模态数据,不同模态的质量或属性有显著差异;以及(4)质量变化的多模态数据,每种模态的质量会根据不同样本动态变化。这一新的分类体系将使研究人员能够理解该领域的现状,并识别出几个潜在的研究方向。我们还讨论了这一领域的开放问题以及有趣的未来研究方向。

图片

论文:https://arxiv.org/abs/2404.18947

我们对世界的感知基于多种模态,例如触觉、视觉、听觉、嗅觉和味觉。即使某些感官信号不可靠,人类也能从不完美的多模态输入中提取有用线索,并进一步拼凑出正在发生事件的整个场景【1】。随着感知技术的发展,我们可以轻松收集各种形式的数据进行分析。为了充分释放每种模式的价值,多模态融合作为一种有前景的范式出现,通过整合所有可用线索进行下游分析任务,以获得精确和可靠的预测,例如医学图像分析、自动驾驶车辆【2】【3】和情感识别【4】【5】【6】。直观地说,融合来自不同模式的信息提供了探索跨模态相关性并获得更好性能的可能性。然而,人们越来越认识到,广泛使用的AI模型常常被低质量数据中的假相关性和偏见所误导。在现实世界中,由于意外的环境因素或传感器问题,不同模态的质量通常存在差异。一些最近的研究实证和理论上表明,传统的多模态融合可能在野外的低质量多模态数据上失败,例如不平衡【7】【8】【9】【10】、噪声【11】或甚至损坏【12】的多模态数据。为了克服这一限制,并向实际应用中强大且通用的多模态学习迈进一步,我们确定了低质量多模态数据的特性,并专注于现实世界多模态机器融合的一些独特挑战。我们还强调了可能有助于使多模态融合在开放环境中更加可靠和值得信赖的技术进展。在本文中,我们识别并探索了围绕低质量多模态数据的多模态融合的四个核心技术挑战。它们总结如下(也在图1中直观展示): 

(1) 噪声多模态数据。第一个基本挑战是学习如何减轻多模态数据中任意噪声的潜在影响。高维多模态数据往往包含复杂的噪声。多模态数据的异质性使得识别和减少潜在噪声成为挑战,同时也提供了通过探索不同模态之间的相关性来识别和减少噪声的机会。

(2) 不完整的多模态数据。第二个基本挑战是如何学习带有部分缺失模态的多模态数据(即不完整的多模态数据)。例如,在医疗领域,即使是患有同一疾病的患者也可能选择不同的医疗检查,产生不完整的多模态数据。开发能够处理不完整多模态数据的灵活且可靠的多模态学习方法是一个具有挑战性但充满希望的研究方向。 

(3) 不平衡的多模态数据。第三个基本挑战是如何减轻模态间偏差和差异的影响。例如,视觉模态通常比听觉模态更有效,导致模型采取捷径且缺乏对音频的探索。尽管现有融合方法表现出有希望的性能,但它们可能无法在某些偏好特定模态的应用上比单模态主导模型表现更好。

(4) 质量动态变化的多模态数据。第四个基本挑战是如何适应多模态数据的质量动态变化性质。在实践中,由于不可预见的环境因素或传感器问题,一个模态的质量通常会因不同样本而变化。例如,在低光或逆光条件下,RGB图像的信息量不如热成像模态。因此,在实际应用中,意识到融合中的质量变化并动态整合多模态数据是必要的。 

为了应对这些日益重要的多模态融合问题,本研究系统地组织了通过几个分类体系的关键挑战。与以往讨论各种多模态学习任务【13】【14】的相关工作不同,这项综述主要关注多模态学习中最基本的问题以及在下游任务中低质量多模态数据所引起的独特挑战,包括聚类、分类、对象检测和语义分割。在以下部分中,我们通过最近的进展和多模态融合面临的技术挑战详细介绍了这一领域:在噪声多模态数据上的学习(第2节)、缺失模态插补(第3节)、平衡多模态融合(第4节)和动态多模态融合(第5节)。第6节提供了一个作为结论的讨论。

在噪声多模态数据上的学习

在现实世界场景中收集高质量的多模态数据不可避免地面临着由噪声带来的重大挑战。多模态数据【15】的噪声可能源于传感器错误【16】、环境干扰或传输损失。对于视觉模态,传感器中的电子噪声会导致细节丢失。此外,音频模态可能因环境因素受到意外的扭曲。更糟糕的是,弱对齐甚至未对齐的多模态样本也常见,这存在于更高级别的语义空间中。幸运的是,考虑多模态之间的相关性或更好地利用多模态数据可以帮助融合噪声多模态数据。各种相关工作【16】【17】【18】表明,多模态模型超越了它们的单模态对应物。这可以归因于多模态数据利用不同模态之间的相关性,识别和减轻潜在噪声的能力。

多模态噪声大致可以根据其来源分为两类:1) 模态特定噪声,来源于各个模态的传感器错误、环境因素或传输;2) 跨模态噪声,来源于未对齐的多模态对,可以被视为语义级别的噪声。

不完整多模态学习

在真实应用中收集的多模态数据常常不完整,某些样本的部分模态因意外因素(如设备损坏、数据传输和存储损失)而缺失。例如,在面向用户的推荐系统中,浏览行为历史和信用评分信息可能并不总是对某些用户可用【48】。同样地,虽然结合多种模态的数据,例如磁共振成像(MRI)扫描、正电子发射断层扫描(PET)和脑脊液(CSF)信息,可以为阿尔茨海默病提供更准确的诊断【49】【50】,但由于PET扫描的高测量成本和CSF的不适感侵入性测试,一些患者可能拒绝进行这些检查。因此,在阿尔茨海默病诊断中常见不完整的多模态数据【51】。通常,传统的多模态学习模型假设多模态数据的完整性,因此不能直接适用于部分模态缺失的情况。针对这一问题,旨在探索具有部分缺失模态的不完整多模态数据的信息的不完整多模态学习出现,并在近年来获得了越来越多的研究关注【52】。在本节中,我们主要关注不完整多模态学习研究的当前进展。从是否对缺失数据进行插补的角度来看,我们将现有方法分为两大类,包括基于插补的和无插补的不完整多模态学习,其中基于插补的方法进一步分为两组,如图2所示,包括实例和模态级别的插补。

平衡多模态学习

不同的模态之间紧密相关,因为它们从不同的视角描述同一概念。这一属性激发了多模态学习的兴盛,其中多种模态被整合,旨在增强对相关事件或对象的理解。然而,尽管存在自然的跨模态相关性,每种模态都有其独特的数据来源和形式。例如,音频数据通常表现为一维波形,而视觉数据则由像素组成的图像构成。一方面,这种差异赋予了每种模态不同的属性,如收敛速度,然后使得同时处理和学习所有模态变得困难,给联合多模态学习带来了难度。另一方面,这种差异也反映在单模态数据的质量上。尽管所有模态描述相同的概念,它们与目标事件或对象相关的信息量不同。例如,考虑一个标有会议的音视觉样本,视觉数据明显显示了会议的视觉内容,这很容易被识别(见图1c)。而相应的音频数据是嘈杂的街道汽车声,很难与会议标签建立联系。视觉模态的信息量显然比音频模态多。由于深度神经网络的贪婪本性【9】,多模态模型倾向于仅依赖具有充足与目标相关信息的高质量模态,同时对其他模态欠拟合。为了应对这些挑战并提高多模态模型的效能,最近的研究集中于策略上,以平衡模态之间的差异并增强模型的整体性能。

动态多模态融合

当前的多模态融合方法常基于一种假设,即多模态数据的质量是静态的,这在现实世界场景中并不总是成立的。处理具有动态变化质量的多模态数据是多模态智能系统不可避免的问题。由于意外的环境因素和传感器问题,一些模态可能会遭受可靠性差和丢失任务特定信息的问题。此外,不同模态的质量会根据场景动态变化,如图5所示。这一现象激发了一种新的多模态学习范式,即动态多模态融合,其目标是适应多模态数据质量的动态变化并有选择性地整合任务特定信息。在本节中,我们关注动态多模态融合的挑战,并将当前文献中的进展分类为三个主要方向,包括启发式、基于注意力和意识到不确定性的动态融合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1649419.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux专栏03:使用Xshell远程连接云服务器

博客主页:Duck Bro 博客主页系列专栏:Linux专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ 使用Xshell远程连接云服务器 编号:03 文章目录 使用Xsh…

鸿蒙OpenHarmony实战开发-MiniCanvas

介绍 基于OpenHarmony的Cavas组件封装了一版极简操作的MiniCanvas,屏蔽了原有Canvas内部复杂的调用流程,支持一个API就可以实现相应的绘制能力,该库还在继续完善中,也欢迎PR。 使用说明 1.添加MiniCanvas依赖 在项目entry目录…

Spring Boot3.x集成Disruptor4.0

Disruptor介绍 Disruptor是一个高性能内存队列,研发的初衷是解决内存队列的延迟问题(在性能测试中发现竟然与I/O操作处于同样的数量级)。基于Disruptor开发的系统单线程能支撑每秒600万订单,2010年在QCon演讲后,获得了业界关注。2011年&…

C++手写协程项目(协程实现线程结构体、线程调度器定义,线程挂起函数、线程切换函数、线程恢复函数、线程结束函数、线程结束判断函数,模块测试)

协程结构体定义 之前我们使用linux下协程函数实现了线程切换,使用的是ucontext_t结构体,和基于这个结构体的四个函数。现在我们要用这些工具来实现我们自己的一个线程结构体,并实现线程调度和线程切换、挂起。 首先我们来实现以下线程结构体…

【iOS】——浅析CALayer

文章目录 一、CALayer介绍二、UIview与CALayer1.区别2.联系 三、CALayer的使用1.初始化方法2.常用属性 四.CALayer坐标系1.position属性和anchorPoint属性2.position和anchorPoint的关系3.position、anchorPoint和frame的关系 五、CALayerDelegate六、CALayer绘图机制1.绘图流程…

官方教程来啦!上手体验YashanDB主备部署、同步延迟和自动切换能力

在上一篇深度干货 | 如何兼顾性能与可靠性?一文解析YashanDB主备高可用技术中,我们深入探讨了YashanDB高可用的架构设计原理和关键技术,本文将聚焦于实践操作,快速体验YashanDB的主备高可用能力。 概要 YashanDB提供了不同部署形…

C++程序设计教案

文章目录: 一:软件安装环境 第一种:vc2012 第二种:Dev-C 第三种:小熊猫C 二:语法基础 1.相关 1.1 注释 1.2 换行符 1.3 规范 1.4 关键字 1.5 ASCll码表 1.6 转义字符 2.基本框架 2.1 第一种&…

如果insightface/instantID安装失败怎么办(关于InsightFaceLoader_Zho节点的报错)

可能性有很多,但是今天帮朋友解决问题的时候又收集了一种新的思路。 首先,可以先按照这篇文章里边提到的方法去安装: 【全网最详细】ComfyUI下,Insightface安装指南-聚梦小课堂_insightface如何安装-CSDN博客 其次,…

解决Python中的 `ModuleNotFoundError: No module named ‘fcmeans‘` 错误

ModuleNotFoundError: No module named fcmeans 解决Python中的 ModuleNotFoundError: No module named fcmeans 错误如何解决这个错误fcmeans 库简介应用实例 解决Python中的 ModuleNotFoundError: No module named fcmeans 错误 在进行数据科学或机器学习项目时,…

Linux内核之获取文件系统超级块:sget用法实例(六十八)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

大眼橙C1 Air投影仪:千元预算内的明智之选

在科技日新月异的今天,投影仪已经不再是会议室或教室的专属,而是越来越多地走入了寻常百姓家。家庭影院的概念越来越流行,尤其在都市人之间逐渐成为一股风尚。市场上投影仪非常多,如何选到一台合适的投影仪也成为困扰广大用户的一…

了解TMS运输管理系统,实现物流高效运转

TMS运输管理系统(Transportation Management System)是一种集成物流和信息技术的解决方案,通过优化运输流程、实时跟踪货物信息和自动化管理操作,提高物流效率,降低运营成本,实现高效运输。 TMS运输管理系…

软件设计师-重点的构造型设计模式

一、桥接模式(Bridge): 意图: 将抽象部分与其实现部分分离,使它们都可以独立地变化。 结构: 适用性: 不希望在抽象和它的实现部分之间有一个固定的绑定关系。例如,这种情况可能是…

探索大模型能力--prompt工程

1 prompt工程是什么 1.1 什么是Prompt? LLM大语言模型终究也只是一个工具,我们不可能每个人都去训一个大模型,但是我们可以思考如何利用好大模型,让他提升我们的工作效率。就像计算器工具一样,要你算10的10倍&#x…

【计算机网络】计算机网络的性能指标

计算机网络的性能指标被用来从不同方面度量计算机网络的性能。常用的八个计算机网络性能指标:速率、带宽、吞吐量、时延、时延带宽积、往返时间、利用率、丢包率。 一.速率 (1) 数据量 比特(bit,记为小写b)是计算机中数据量的基…

JavaWEB 框架安全:Spring 漏洞序列.(CVE-2022-22965)

什么叫 Spring 框架. Spring 框架是一个用于构建企业级应用程序的开源框架。它提供了一种全面的编程和配置模型,可以简化应用程序的开发过程。Spring 框架的核心特性包括依赖注入(Dependency Injection)、面向切面编程(Aspect-Or…

c++ 线程交叉场景试验

1.需求 1.处理一个列表的数据,要求按照列表的数据处理10个数据 2.可以使用多线程处理,但是针对每个线程,1~10的处理顺序不能变。 3.每个数据的处理必须原子,即只有一个线程可以针对某个数据进行处理,但是10个数据是可…

2024年CSC公派联合培养博士项目申报即将开始~

一、选派计划 联合培养博士研究生面向全国各博士学位授予单位选拔。 联合培养博士研究生的留学期限、资助期限为6-24个月。留学期限应根据拟留学单位学制、外方录取通知(或正式邀请信)中列明的留学时间确定。个人申报的资助期限应不超过留学期限&#…

79、贪心-跳跃游戏II

思路: 首先理解题意:从首位置跳最少多少次到达末尾。 第一种:使用递归,将所有跳转路径都获取到进行求出最小值。 第二种:使用动态规划,下一次最优取决上一次的最优解 第三针:贪心&#xff…

python数据分析常用基础语法

Python语言基础——语法基础 前言一、变量的介绍与使用变量的介绍变量命名规则变量的使用拓展 二、标识符标识符命名命名规则注意事项 三、数据类型数据类型的介绍数据类型的查看示例 四、输入与输出输入和输出的介绍format格式化输出占位符 五、代码缩进与注释代码缩进 前言 …