图文检索综述(2):Deep Multimodal Data Fusion

news2024/12/24 0:54:00

Deep Multimodal Data Fusion

  • 摘要
  • 1 引言
  • 2 基于编码器-解码器融合
    • 2.1 数据级别融合
    • 2.2 分层特征融合
    • 2.3 决策级别融合
  • 3 基于注意力融合
    • 3.1 模态内的自注意力
    • 3.2 模态间的交叉注意力
    • 3.3 基于transformer的方法
  • 4 基于图神经网络融合
    • 4.1 单个模态的表示学习
    • 4.2 融合数据的表示学习
  • 5 基于生成式网络融合
  • 6 基于其他约束的融合


发布时间(2024)


标题:多模态数据融合

不按早期/后期融合分类,按模型分类

摘要

多模态人工智能 (Multimodal AI) 通常涉及各种类型的数据(例如,图像、文本或从不同传感器收集的数据)、特征工程(例如,提取、组合/融合)和决策(例如,多数表决)。随着架构变得越来越复杂,多模态神经网络可以将特征提取、特征融合和决策过程集成到一个模型中。这些过程之间的界限越来越模糊。融合所基于的传统多模态数据融合分类法(例如,早期/晚期融合)已不再适合现代深度学习时代。因此,基于所使用的主流技术,我们提出了一种新的细粒度分类法,将最先进 (SOTA) 模型分为五类:编码器-解码器方法、注意机制方法、图神经网络方法、生成神经网络方法和其他基于约束的方法。现有的大多数多模态数据融合综述仅侧重于一项特定任务,结合了两种特定模态。与这些综述不同,本综述涵盖了更广泛的模态组合,包括视觉 + 语言(例如视频、文本)、视觉 + 传感器(例如图像、激光雷达)等,以及它们对应的任务(例如视频字幕、物体检测)。此外,还提供了这些方法之间的比较,以及该领域的挑战和未来方向。

1 引言

对于视频文本多模态数据融合,[41, 56, 68, 107, 123, 124, 195] 中的研究利用 Transformer、BERT、注意机制、对抗学习以及它们的组合来解决文本到视频的检索任务
传统的多模态数据融合方法:
(1)早期融合(early fusion):将从每种模态获得的原始数据或预处理数据融合后再发送到模型;
(2)中期融合(intermediate fusion):将从不同模态提取的特征融合在一起并发送到模型进行决策;
(3)后期融合(也称为“决策融合”;late fusion / decision fusion):将从每种模态获得的各个决策融合在一起以形成最终预测,例如多数投票或加权平均值,或者基于各个决策的元 ML 模型。
(4)混合融合(hybrid fusion):早期、中期和后期融合的组合

但随着模型结构的复杂,融合已经从显式的变为隐式的 深度学习架构固有的复杂性通常将表征学习、模态融合和决策交织在一起,这违背了过去的简单分类。

Zhang 等人 [235] 对深度多模态融合进行了综述。然而,作者使用传统分类法对模型进行分类:早期融合、晚期融合和混合融合。
Gao 等人 [45] 对多模态数据融合进行了综述。它介绍了深度学习的基本概念和几种深度多模态模型的架构,包括基于堆叠自编码器的方法、基于循环神经网络的方法、基于卷积神经网络的方法等。然而,它不包括 SOTA 大型预训练模型和基于 GNN 的方法,例如 BERT 模型。
Meng 等人 [121] 对用于数据融合的 ML 进行了综述。它强调传统的 ML 技术而不是深度学习技术。此外,作者将方法分为三类:信号级融合、特征级融合和决策级融合。融合方法的分类方式与传统分类法类似:早期融合、中期融合和晚期融合,这对社区来说并不新鲜。
在多模态领域还有其他几篇评论 [4, 128, 227],其中大部分都侧重于特定的模态组合,例如 RGB 深度图像。

与通常侧重于单一任务(如多模态对象识别)和两种模态(如 RGB+深度数据)的特定组合的现有调查 [2、46、243] 相比

在这里插入图片描述

2 基于编码器-解码器融合

在这里插入图片描述
在这里插入图片描述

2.1 数据级别融合

数据先融合–》编码器提取特征
优势:
(1)它可以最大限度地保留每个模态的原始信息;
(2)单个网络主干的设计最大限度地降低了计算成本。
适合原始数据级组合仅适用于同质数据。
对于异构数据,例如文本数据+RGB 图像 [207],需要进行数据预处理,例如对文本数据进行词嵌入。原始数据级融合的可视化如图 7(a)所示。图 8 介绍了图 7(a)中的合并操作(“M”),它通常涉及逐元素的加法或乘法、连接和叉积。

2.2 分层特征融合

融合不同抽象级别的数据,可以从深度网络中提取多层特征
类似地,在场景理解任务中,[173]和[226]分层融合来自不同模态的特征(例如,低级,中级和高级特征)以提高模型性能,而[170]将高级特征融合在一起。

优势:
(1)融合架构的灵活性——可以决定融合发生的位置以及针对特定任务融合多少个分层特征
(2)易于与注意机制结合——同一级别的多模态分层特征之间的连接可以通过注意机制升级,这将在第3部分中介绍。 这使得研究人员能够利用不同模态之间的关系来增强融合模型的性能。特征之间使用注意力

缺点:需要大量计算资源
因此,这种融合方法通常用于两种或三种模态的融合。分层特征融合的可视化如图 7(b) 所示。

2.3 决策级别融合

与分层融合不同,决策融合的灵活性低

优点:
(1) 可用于探索每种模态对生成最终决策的相对贡献权重
(2) 易于判断每种模态的预测结果是否正确
(3) 网络易于设计和实施。
明显的缺点是:
(1) 整个网络的性能可能受到一种模态的限制(例如,一种模态的分支无法正常工作并产生错误的预测,严重影响最终预测),
(2) 多模态信息融合的灵活性较低
决策级融合的可视化如图 7© 所示。

Bendre 等人 [14] 提出了一种多模态变分自动编码器 (VAE [83]) 架构,它可以学习图像特征的共享潜在空间。该模型将多模态数据连接起来形成单个嵌入,然后将其传递给 VAE 以学习潜在空间。Khattar 等人 [81] 提出了一种基于 VAE 的端到端架构来解决假新闻分类问题。该模型将文本特征和视觉特征连接在一起形成嵌入。然后,自动编码器重建词嵌入特征和视觉特征。

3 基于注意力融合

3.1 模态内的自注意力

在这里插入图片描述
利用模态内的关系
注意操作可以是基于点积的 [85],也可以是基于加法门的 [134]等等。
例如,Gao 等人 [47] 提出了基于模态内-模态间注意模块的模型来解决 VQA 任务。作者采用了模态内注意机制来增强每个模态子网络的特征学习能力。同样,Malinowski 等人 [115] 提出了一种基于硬注意的多模态融合方法,该方法在空间位置上生成二元掩码,以确定哪些特征被传递到下游处理。

3.2 模态间的交叉注意力

缺点:计算复杂性大
例如,张等人 [228] 应用点积注意力机制来探索文本和图像特征之间的模态间关系。 同样地,Hu 等人 [65] 提出了一个双向模态间交叉注意模块,其中作者创建了一个视觉引导的语言注意模块和一个语言引导的视觉注意模块来利用视觉模态和语言模态之间的跨模态关系。
例如,Wu 等 [200] 提出了一种基于共同注意的多模态假新闻检测模型。在该模型中,每次融合操作之前,它们都通过共同注意机制用另一种模态增强每种模态。堆叠的多个共同注意层迫使模型融合多模态特征并学习它们之间的相互依赖关系。此外,Lu 等 [111] 开发了一种独特的交叉注意机制,将通道注意和特征交叉机制相结合。这种方法促进了不同模态之间的动态信息交互,使模型能够强调更具代表性的特征。后来,Yoon 等人 [215] 提出了一种复杂的多模态编码器,利用交叉注意将视觉和听觉表示结合起来。
例如,Gao 等人 [47] 提出了一种基于模态内-模态间注意模块的模型来解决 VQA 任务,其中模态内注意力增强了单个模态特征,而模态间注意力捕获了各种模态之间的相互作用。 例如,Ye 等人 [211] 提出的注意机制可以自适应地将焦点转移到查询表达式中的突出单词和输入图像的重要部分。

这里可能说的是cnn:传统注意力机制辨别局部关系有效,辨别长距离关系较弱
为了抵消这一限制,人们引入了非局部注意的概念 [186]。这种创新方法旨在考虑整个输入空间中的关系,从而使模型能够有效地理解和利用长距离依赖关系。袁等人 [221] 的工作是非局部注意的一个显著实现,其中利用基于非局部注意的网络来融合同质多模态图像数据,例如 MRI 和 PET 的集成或红外和可见光图像的融合。与局部注意力机制不同,非局部注意力超越了接近度的限制,提供了输入空间的整体视角,使其成为多模态数据融合技术进步的宝贵资产。

3.3 基于transformer的方法

在这里插入图片描述
1)uni-Transformer 架构:在这种架构中,来自不同模态的输入数据将由单个编码器或多个堆叠编码器联合处理
2)多 Transformers 架构:在这种架构中,来自不同模态的输入数据将由特定于模态的 Transformers 分别编码,然后进行联合建模

4 基于图神经网络融合

到目前为止,我们已经回顾了基于编码器-解码器的融合和基于注意力的融合。这些方法的模型在从欧几里得空间内的数据中捕获隐藏模式方面取得了巨大成功。然而,它们很难处理从非欧几里得域生成的数据,这些数据以具有复杂关系和对象间相互依赖关系的图形表示 [241]。
基于 GNN 来解决与图数据相关的多模态问题:跨模态检索任务 [30、204、217]、

图卷积网络 (GCN) 脱颖而出:它利用适合图数据的卷积层聚合来自相邻节点的信息,从而促进跨模态的空间局部特征融合
图注意力网络 (GAT):它将注意力机制引入到图结构中。通过动态权衡相邻节点的重要性,GAT 可以精确关注图的相关部分,通过捕获不同数据源之间的复杂模式和关系来增强融合过程

4.1 单个模态的表示学习

在这里插入图片描述

4.2 融合数据的表示学习

与其他融合方法相比,基于 GNN 的融合模型的优势包括:
(1) 能够通过深度学习技术直接处理图结构数据,而无需将数据投影到欧几里得空间;
(2) 能够直观地利用图结构数据中节点之间的关系,并可以扩展到利用多模态问题中的模态内和模态间关系。
缺点:图构建过程通常高度依赖于对特定输入数据和任务特征的先验知识。它耗时耗空间,不易推广。

到目前为止,我们回顾了基于编码器-解码器的融合、基于注意的融合和基于 GNN 的融合。它们都可以利用不同模态之间的关系来提高多模态网络的性能。然而,这种融合方法难以处理缺失数据问题。

5 基于生成式网络融合

GenNN 的主要目标是生成与现实世界分布非常接近的数据,方法是直接对这些分布进行建模,或者学习将更简单的分布转换为更复杂的分布。

6 基于其他约束的融合

用于损失函数正则化项
如图 13(a) 所示,协调表征架构分别处理各个模态,但对它们施加某些相似性约束,以将它们带入协调空间 [15]。可以使用典型相关分析 (CCA) 约束、余弦距离约束、L2 距离约束或其他约束将每个模态的学习表征相互比较 [26, 57]。这些相似性约束将作为损失函数中的正则化项
张量融合网络
除了基于正则化的方法外,Zadeh 等人 [224] 提出了第一个基于张量的融合网络。它主要考虑了模态间和模态内的关系。如图 13(b) 所示,该方法将每个模态扩展 1 维,然后计算不同模态的笛卡尔积。以两种模态为例,作者在获得特征后进行外积(张量积)。可以看出,扩展后获得了两种模态之间的特征相关性,并且保留了每个特定模态的信息。对于三种模态,该方法不仅可以获得双模态和三模态组合的特征相关性,还可以保留每个特定模态的特征。然而,随着多模态数量的增加,特征维数会迅速爆炸式增长。此外,当参数数量过大时,很容易增加过拟合的风险。此外,还有这项工作的变体,例如 [108]。在本文中,作者提出了一种低秩多模态融合方法,该方法利用低秩张量进行多模态融合,以提高效率
不同的是,Wang 等人 [187] 提出了一个通道交换网络,它可以动态地交换不同模态子网络中的通道。具体来说,通道交换过程由训练期间批量归一化缩放因子的大小来衡量的单个通道重要性自我引导。这种方法是无参数的。然而,这个模型只适用于同质数据。异构多模态数据的性能是有限的。

到目前为止,我们已经回顾了基于编码器-解码器的方法、基于注意机制的方法、基于 GNN 的方法、基于 GenNN 的方法和其他基于约束的方法。目前,大多数多模态数据融合的 SOTA 算法都是为两种特定模态的组合而设计的。因此,我们根据它们对更多模态(模态数量大于 2)的泛化能力对它们进行比较。(1)基于编码器-解码器的方法。网络架构相对灵活。很容易将新模态集成到基于编码器-解码器的模型中,例如,为新模态添加新的子编码器分支 [23]。此外,所有子编码器的权重可以共享。当子编码器的数量增加时,计算成本不会急剧增加 [87]。(2)基于 GenNN 的方法涵盖各种架构,包括但不限于 GAN、VAE、扩散和基于流的模型。随着输入模态的多样性和数量的增加,基于 GenNN 的多模态网络的架构趋于变得越来越复杂

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2217356.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数据结构】宜宾大学-计院-实验三

线性表的应用——实现两多项式的相加 课前准备:实验学时:2实验目的:实验内容:实验结果:实验报告:(及时撰写实验报告)实验测试结果:代码实现:(C/C)…

Java 小游戏《超级马里奥》

文章目录 一、效果展示二、代码编写1. 素材准备2. 创建窗口类3. 创建常量类4. 创建动作类5. 创建关卡类6. 创建障碍物类7. 创建马里奥类8. 编写程序入口 一、效果展示 二、代码编写 1. 素材准备 首先创建一个基本的 java 项目,并将本游戏需要用到的图片素材 image…

华为 HCIP-Datacom H12-821 题库 (38)

🐣博客最下方微信公众号回复题库,领取题库和教学资源 🐤诚挚欢迎IT交流有兴趣的公众号回复交流群 🦘公众号会持续更新网络小知识😼 1.请对 2001:0DB8:0000:C030:0000:0000:09A0:CDEF 地址进行压缩。( )&…

阻塞I/O与非阻塞I/O

目录 一、基本概念 二、阻塞I/O的实现机制 —— 等待队列 一、基本概念 阻塞:在执行单元进行操作时,如果不能获得申请的资源,则执行单元挂起直至资源可用后再进行操作。 非阻塞:在执行单元进行操作时,如果不能获得申…

UDP反射放大攻击防范手册

UDP反射放大攻击是一种极具破坏力的恶意攻击手段。 一、UDP反射放大攻击的原理 UDP反射放大攻击主要利用了UDP协议的特性。攻击者会向互联网上大量的开放UDP服务的服务器发送伪造的请求数据包。这些请求数据包的源IP地址被篡改为目标受害者的IP地址。当服务器收到这些请求后&…

爬虫实战(黑马论坛)

1.定位爬取位置内容: # -*- coding: utf-8 -*- import requests import time import re# 请求的 URL 和头信息 url https://bbs.itheima.com/forum-425-1.html headers {user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like…

DBSwitch和Seatunel

一、DBSwitch 什么是DBSwitch?它主要用在什么场景? 通过步骤分析可以看到这个是通过配置数据源,采用一次性或定时方案,同步到数据仓库的指定表,并且指定映射关系的工具。有点类似于flinkcdc的增量同步。 参考: dbs…

【实战案例】SpringBoot项目中异常处理通用解决方案

项目中经常会出现一些异常,比如在新增项目的时候必要的字段没有填写。在springboot项目中,遇到异常会往上抛出给调用方,DAO层遇到异常抛给Service层,Service层遇到异常抛给Controller层,Controller层遇到异常就抛给了S…

Qt-系统网络HTTP客户端(66)

目录 描述 相关函数 使用 准备工作 处理响应 测试 代码 补充 描述 进⾏ Qt 开发时, 和服务器之间的通信很多时候也会⽤到 HTTP 协议 Qt 中提供了客户端,但是并没有提供相应的服务器的库,所以这里我们只讨论 客户端 • 通过 HTTP 从服务器获取…

Unity 2d UI 实时跟随场景3d物体

2d UI 实时跟随场景3d物体位置&#xff0c;显示 3d 物体头顶信息&#xff0c;看起来像是场景中的3dUI&#xff0c;实质是2d UIusing System.Collections; using System.Collections.Generic; using UnityEngine; using DG.Tweening; using UnityEngine.UI; /// <summary>…

RequestBody接收参数报错com.fasterxml.jackson.databind.exc.MismatchedInputException

目录&#xff1a; 1、错误现象2、解决办法3、最终验证 1、错误现象 报错的现象和代码如下&#xff1a; 2、解决办法 查了很多都说参数类型对不上&#xff0c;但是明明是对上的&#xff0c;没有问题&#xff0c;最后只有换接收方式后验证是可以的&#xff1b;最终想了一下&…

Flink状态一致性保证

前言 一个Flink作业由一系列算子构成&#xff0c;每个算子可以有多个并行实例&#xff0c;这些实例被称为 subTask&#xff0c;每个subTask运行在不同的进程或物理机上&#xff0c;以实现作业的并行处理。在这个复杂的分布式场景中&#xff0c;任何一个节点故障都有可能导致 F…

智能算力中心万卡GPU集群架构深度解析

智能算力中心万卡GPU集群架构深度分析 自ChatGPT发布&#xff0c;科技界大模型竞赛如火如荼。数据成新生产要素&#xff0c;算力成新基础能源&#xff0c;大模型成新生产工具&#xff0c;“AI”转型势不可挡。模型参数量突破万亿&#xff0c;对算力需求升级&#xff0c;超万卡…

Docker学习笔记(2)- Docker的安装

1. Docker的基本组成 镜像&#xff08;image&#xff09;&#xff1a;Docker镜像就像是一个模板&#xff0c;可以通过这个模板来创建容器服务。通过一个镜像可以创建多个容器。最终服务运行或者项目运行就是在容器中。容器&#xff08;container&#xff09;&#xff1a;Docker…

Ansible概述

目录 一、ansible简介 二、absible的特点 三、ansible的工作原理以及流程 四、ansible环境安装部署 五、ansible命令行模块 六、inventory 主机清单 一、ansible简介 Ansible是一个基于Python开发的配置管理和应用部署工具&#xff0c;现在也在自动化管理领域大放异彩。…

MT1341-MT1350 码题集 (c 语言详解)

MT1341反比例函数 c 语言实现代码 #include <stdio.h>double f(double x) { return 1.0 / x; }double trapezoidal_integration(double a, double b, int n) {// computer step lengthdouble h (b - a) / n;// computer points valuedouble sum (f(a) f(b)) / 2.0;//…

初阶数据结构【2】--顺序表(详细且通俗易懂,不看一下吗?)

本章概述 线性表顺序表顺序表问题与思考彩蛋时刻&#xff01;&#xff01;&#xff01; 线性表 概念&#xff1a;一些在逻辑上成线性关系的数据结构的集合。线性表在逻辑上一定成线性结构&#xff0c;在物理层面上不一定成线性结构。常见的线性表&#xff1a;顺序表&#xff0…

Origin画图——百分比堆积柱状图(深度学习篇)

1.当数据有以下特征&#xff0c;不同特征在不同情况下的数值的时候就可以使用百分比柱状图表示。 1 2.将自己的数据导入到Origin中&#xff0c;本示例中以不同机器学习的方法的在不同测试集下的R2作为示例。数据如下所示。绘图百分比柱状图&#xff0c;两种都可以。 3.生成的…

推荐一个可以免费上传PDF产品图册的网站

​在数字化时代&#xff0c;企业将产品图册以PDF格式上传至网络&#xff0c;不仅便于客户浏览和下载&#xff0c;还能提升企业的专业形象。今天&#xff0c;就为您推荐一个可以免费上传PDF产品图册的网站——FLBOOK&#xff0c;轻松实现产品图册的在线展示。 1.注册登录&#x…

【xilinx-versal】【Petalinux】添加TMP75温度传感器Linux驱动

Xilinx versal添加TMP75温度传感器Linux驱动 I2C总线的内核配置打开Cadence I2C 控制器配置xilinx I2C配置(不使用)添加设备树总结I2C总线的内核配置 TMP75挂载第一个i2c总线上,地址是0x48。 petalinux-config -c kernel打开内核配置界面。 打开Cadence I2C 控制器配置 │…