多模态理论——什么是多模态?多模态的关键技术?

news2025/1/1 10:51:20

多模态理论

文章目录

  • 多模态理论
    • 1.什么是多模态(multimodal)
    • 2.深度学习中的多模态
    • 3.多模态学习的关键技术
      • 3.1模态表示
      • 3.2多模态对齐
      • 3.3多模态融合
    • 4.多模态任务

1.什么是多模态(multimodal)

模态指的是数据或者信息的表现形式,如文本、图像、音频、视频等

多模态指的是数据或者信息的多种表现形式,一个信息,它可以存在多种表现形式。

“下雪”场景的多模态数据(视频、图像、音频、文本)

为什么会有多模态呢?

因为人类有多种感官来处理信息:比如听觉、嗅觉、视觉、触觉、味觉等,它们都可以获取并且处理不同形式的信息。

为了让计算机具备分析互联网数据的能力、模拟人类的认知方式,同时处理多个模态数据的多模态信息处理技术应运而生。

2.深度学习中的多模态

在目前的人工智能任务中,我们所说的多模态更多的指对于 3V 任务的支持,也即 Verbal(文本)、Vocal(语音) 和 Visual(视觉)

深度学习中有很多经典的任务,都是基于这三种任务之间互相转换的。比如图像生成任务(Image Generation from Text),根据文本描述生成图像,反过来的图像描述任务(Image Captioning),根据图像来生成文本,就像是我们小学学的看图作文一样。

image-20241004102659554

参考:5分钟理解什么是多模态-CSDN博客

3.多模态学习的关键技术

多模态学习(Multimodal Learning)是一种利用多模态数据进行学习的方法,这些数据模态可能包括文本、图像、音频、视频等,通过融合多种数据模态来训练模型,从而提高模型的感知与理解能力,实现跨模态的信息交互与融合

多模态学习涉及多种关键技术,包括模态表示、对齐、融合、转换以及协同学习等。这些技术有助于建立不同模态之间的对应关系,学习多模态的共享表征空间,以及利用各模态间的互补性来增强语义理解。

image-20241004165500585

对齐vs融合

对齐关注的是如何在不同模态之间建立对应关系,而融合则是关于如何将这些多模态信息有效地结合起来,以提高模型的性能。

3.1模态表示

  • 什么是模态表示(Modal Representation)?

模态表示是将不同感官或交互方式的数据(如文本、图像、声音等)转换为计算机可理解和处理的形式,以便进行后续的计算、分析和融合。

文本模态的表示:文本模态的表示方法有多种,如独热表示、低维空间表示(如通过神经网络模型学习得到的转换矩阵将单词或字映射到语义空间中)、词袋表示及其衍生出的n-grams词袋表示等。目前,主流的文本表示方法是预训练文本模型,如BERT。

视觉模态的表示:视觉模态分为图像模态和视频模态。图像模态的表示主要通过卷积神经网络(CNN)实现,如LeNet-5、AlexNet、VGG、GoogLeNet、ResNet等。视频模态的表示则结合了图像的空间属性和时间属性,通常由CNN和循环神经网络(RNN)或长短时记忆网络(LSTM)等模型共同处理。

声音模态的表示:可以通过梅尔频率倒谱系数(MFCCs)、波形图或频谱图等形式表示,声音模态的表示通常涉及音频信号的预处理、特征提取和表示学习等步骤,常用的模型包括深度神经网络(DNN)、卷积神经网络(CNN)和循环神经网络(RNN)等。

传感器数据:比如加速度计或陀螺仪数据,通常表示为时间序列信号。

表征学习(Representation Learning)旨在从原始数据中自动提取有效特征,形成计算机可理解的模态表示,以保留关键信息并促进跨模态交互与融合。

  • 什么是多模态联合表示(Joint Representation)?

多模态联合表示是一种将多个模态(如文本、图像、声音等)的信息共同映射到一个统一的多模态向量空间中的表示方法。

多模态联合表示通过神经网络、概率图模型将来自不同模态的数据进行融合,生成一个包含多个模态信息的统一表示。这个表示不仅保留了每个模态的关键信息,还能够在不同模态之间建立联系,从而支持跨模态的任务,如多模态情感分析、视听语音识别等。

  • 什么是多模态协同表示(Coordinated Representation)?

多模态协同表示是一种将多个模态的信息分别映射到各自的表示空间,但映射后的向量或表示之间需要满足一定的相关性或约束条件的方法。这种方法的核心在于确保不同模态之间的信息在协同空间内能够相互协作,共同优化模型的性能。

image-20241004092412638

🤔联合表示vs协同表示

一个是映射到统一的空间中,一个是分别映射到各自空间,然后再建立联系/关联

3.2多模态对齐

对齐是指在不同模态的数据之间发现和建立对应关系的过程

什么是显示对齐(Explicit Alignment)?

直接建立不同模态之间的对应关系,包括无监督对齐和监督对齐。显式对齐的一个重要工作是相似性度量。大多数方法都依赖于度量不同模态的子组件之间的相似性作为基本构建块。

1. 无监督对齐:利用数据本身的统计特性或结构信息,无需额外标签,自动发现不同模态间的对应关系

  • CCA(典型相关分析):通过最大化两组变量之间的相关性来发现它们之间的线性关系,常用于图像和文本的无监督对齐。

  • 自编码器:通过编码-解码结构学习数据的低维表示,有时结合循环一致性损失(Cycle Consistency Loss)来实现无监督的图像-文本对齐。

**2. 监督对齐:**利用额外的标签或监督信息指导对齐过程,确保对齐的准确性。

  • 多模态嵌入模型:如DeViSE(Deep Visual-Semantic Embeddings),通过最大化图像和对应文本标签在嵌入空间中的相似度来实现监督对齐。
  • 多任务学习模型:同时学习图像分类和文本生成任务,利用共享层或联合损失函数来促进图像和文本之间的监督对齐。

image-20241004094542310

什么是隐式对齐(Implicit Alignment)?

不直接建立对应关系,而是通过模型内部机制隐式地实现跨模态的对齐。这包括注意力对齐和语义对齐。

**1.注意力对齐:**通过注意力机制动态地生成不同模态之间的权重向量,实现跨模态信息的加权融合和对齐。

  • Transformer模型:在跨模态任务中(如图像描述生成),利用自注意力机制和编码器-解码器结构,自动学习图像和文本之间的注意力分布,实现隐式对齐。

  • BERT-based模型:在问答系统或文本-图像检索中,结合BERT的预训练表示和注意力机制,隐式地对齐文本查询和图像内容。

**2.语义对齐:**在语义层面上实现不同模态之间的对齐,需要深入理解数据的潜在语义联系。

  • 图神经网络(GNN):在构建图像和文本之间的语义图时,利用GNN学习节点(模态数据)之间的语义关系,实现隐式的语义对齐。

  • 预训练语言模型与视觉模型结合:如CLIP(Contrastive Language-Image Pre-training),通过对比学习在大量图像-文本对上训练,使模型学习到图像和文本在语义层面上的对应关系,实现高效的隐式语义对齐。

3.3多模态融合

什么是多模态融合(MultiModal Fusion)?

多模态融合指的是抽取自不同模态的信息整合成一个稳定的多模态表征,能够充分利用不同模态之间的互补性。从数据处理的层次角度将多模态融合分为数据级融合、特征级融合和目标级融合

image-20241004093207042

  • 数据级融合(Data-Level Fusion):
    数据级融合,也称为像素级融合或原始数据融合,是在最底层的数据级别上进行融合。这种融合方式通常发生在数据预处理阶段,即将来自不同模态的原始数据直接合并或叠加在一起,形成一个新的数据集。

​ 应用场景:适用于那些原始数据之间具有高度相关性和互补性的情况,如图像和深度图的融合。

  • 特征级融合(Feature-Level Fusion):
    特征级融合是在特征提取之后、决策之前进行的融合。不同模态的数据首先被分别处理,提取出各自的特征表示,然后将这些特征表示在某一特征层上进行融合

    应用场景:广泛应用于图像分类、语音识别、情感分析等多模态任务中。

  • 目标级融合(Decision-Level Fusion):
    目标级融合,也称为决策级融合或后期融合,是在各个单模态模型分别做出决策之后进行的融合。每个模态的模型首先独立地处理数据并给出自己的预测结果(如分类标签、回归值等),然后将这些预测结果进行整合以得到最终的决策结果。

​ 应用场景:适用于那些需要综合考虑多个独立模型预测结果的场景,如多传感器数据融合、多专家意见综合等。

image-20241004093808516

参考资料:

一文彻底搞懂多模态 - 多模态学习_学习多模态-CSDN博客

多模态学习综述(MultiModal Learning) - 知乎 (zhihu.com)

4.多模态任务

早期的

1)视听语音识别:通过视频和音频识别出文字

2)多模态情感计算:通过肢体动作、面部表情、语音,生物电信号、心率等信息,进行情感识别

3)跨媒体检索:图文互搜

image-20241004113433287

现代多模态任务

  • 图像/视频描述:给定图像或视频,用文本描述出来,就像小学时的看图说话或看图写作

  • 视觉问答:较为复杂,可能还涉及推理image-20241004114246825

  • 指称表达理解与生成:表达描述->给出候选框,给出候选框->表达描述image-20241004114340124

  • 文本生成图像/视频:根据描述的文本转成图像或视频

  • 视觉对话:类似于ChatGPT

  • 视觉语音导航:根据视觉信息,发出语音指令,操控机器image-20241004114903830

此外还有多模态自动驾驶、视觉常识推理、视觉语言推理、视觉蕴含等

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2205548.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

完美收官丨飞易通端到端整体解决方案助力嵌入式技术发展

2024年10月10日,Embedded World 2024展会在美国德克萨斯州奥斯汀完美收官。Embedded World 2024是嵌入式系统领域的全球性盛会,汇聚了来自世界各地的专业人士,促进了嵌入式系统、工业自动化、汽车技术和通信系统领域的合作与发展。 应展会举办…

深入解析 Go 语言中的结构体:从基础用法到高级技巧的全方位指南

结构体(Struct)是 Go 语言中的一种重要数据类型,能够帮助我们将多个数据组合成一个自定义的类型。与其他编程语言的类(Class)类似,结构体允许我们定义字段、方法,并灵活操作数据。本文将从基础到…

遥控器传输信号算法详解!

一、算法概述 无人机遥控器信号传输算法主要基于无线通信技术,通过特定的调制、编码和信号处理技术,将遥控器的操作指令转化为无线电信号,并传输给无人机。无人机接收到信号后,再将其解码为可识别的指令,从而实现对无…

10月造价、注安考试的押题资料,到底有没有用?

​随着考试的临近,各大考试机构也开始推出了各种考前押题资料。面对网络铺卷而来的考前押题资料,考生自己也无从判断资料的质量,那该如何选择靠谱的押密资料呢?今天考试100就带大家来分析一下: 1、正确看待押题资料 首…

标签页(tabs)内容的显示和样式

1. 代码 <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <title>Tabs Example</title> &…

吴恩达深度学习笔记(一)-基础知识

上图三种神经网络&#xff1a;标准、卷积&#xff08;用于图像&#xff09;、循环&#xff08;序列化数据、时序数据&#xff09; 数据类型&#xff1a;结构化&#xff08;表格&#xff09;、非结构化&#xff08;语言、图片、文本&#xff09; 二分类问题&#xff1a; 0、1判…

Qt-窗口对话框QFileDialog的使用(53)

目录 描述 相关函数 使用 描述 文件对话框 ⽂件对话框⽤于应⽤程序中需要打开⼀个外部⽂件或需要将当前内容存储到指定的外部⽂件 相关函数 打开⽂件&#xff08;⼀次只能打开⼀个⽂件&#xff09; QString getOpenFileName 打开多个⽂件&#xff08;⼀次可以打开多个⽂件…

2024下半年软考中级网络工程师,这100题,必做!

第一章节&#xff1a;计算机硬件基础&#xff08;5&#xff09; 1、在机器指令的地址字段中&#xff0c;直接指出操作数本身的寻址方式称为&#xff08; &#xff09;。 A 隐含寻址 B 寄存器寻址 C 立即寻址 D 直接寻址 答案&#xff1a;C 解析: 立即寻址方式通常直接在指…

Copilot Coaching新功能铸就Word更强

Copilot 的意思是副驾驶。 现在&#xff0c;您的副驾驶教练来了&#xff1a;Copilot Coaching Copilot Coaching 是 Word 中的一项新 Copilot 功能&#xff0c;可在您查看内容时为您提供支持&#xff0c;以实现语法和拼写之外的改进 - 帮助您澄清想法&#xff0c;并为您提供有…

Granafa配置基于elasticsearch数据源的折线图

Granafa可以直接配置基于elasticsearch数据源的折线图&#xff0c;用于展示es库中数据的最值、均值、总量等

AI绘画教程 重阳节海报设计

本期 AI 绘画的主题是海报设计&#xff0c;让我们一同探索能设计出哪些不同风格的海报吧。 今天是重阳节&#xff0c;一起用 AI 绘画制作一些画风清新的海报吧。正所谓 “遥知兄弟登高处&#xff0c;遍插茱萸少一人”。让我们一起通过这些设计&#xff0c;在对长辈的思念与祝福…

2022年全国大学生数学建模竞赛E题目-小批量物料生产安排详解+思路+Python代码时序预测模型

E题补完计划开始,接着之前专栏里面的E题内容写完接下来的所有问题。经过第一问得到了最佳物料编码的前六位排名: 是通过聚合指标和熵权法计算得到的,现在我们需要完成第一问的接下来两个目标,分别是建立物料需求的周预测模型和利用历史数据对预测模型进行评价。对于周预测…

Python物联网编程:10个IoT设备通信的脚本

今天我们要聊的是如何使用Python编写脚本来实现10个IoT设备之间的通信。物联网&#xff08;IoT&#xff09;是一个充满无限可能的领域&#xff0c;它将日常设备连接到互联网&#xff0c;使它们能够互相通信、收集数据并做出响应。Python以其简洁易懂的语法和强大的库支持&#…

力扣题/回溯/N 皇后

N 皇后 力扣原题 按照国际象棋的规则&#xff0c;皇后可以攻击与之处在同一行或同一列或同一斜线上的棋子。 n 皇后问题 研究的是如何将 n 个皇后放置在 nn 的棋盘上&#xff0c;并且使皇后彼此之间不能相互攻击。 给你一个整数 n &#xff0c;返回所有不同的 n 皇后问题 的解…

代码随想录day32:动态规划part5

完全背包 二维 /* 完全背包&#xff1a;动态规划 */ int unboundedKnapsackDP(int[] wgt, int[] val, int cap) {int n wgt.length;// 初始化 dp 表int[][] dp new int[n 1][cap 1];// 状态转移for (int i 1; i < n; i) {for (int c 1; c < cap; c) {if (wgt[i -…

009——二叉树

目录 二叉树的五种基本形态&#xff1a; 1.二叉树可以是空树 2.只有一个根节点的树 3.斜树&#xff1a;只有左子树或右子树的树 4.左右孩子都有的树 二叉树的性质&#xff1a; 1.假设根节点是第一层&#xff0c;在二叉树的第i层上最多有2^(n-1)个结点 2.深度为k的二叉树…

【JAVA+flowable】工作流 获取流程节点 几种方法总结

flowable中 获取流程中任务节点的方法有好几种 1.这种是常见的一种 获取流程 正在激活 中任务节点 List<HistoricActivityInstance> historicActivityInstanceList historyService.createHistoricActivityInstanceQuery().processInstanceId(procInsId).activityTyp…

Java面试宝典-Java集合02

目录 Java面试宝典-Java集合02 21、TreeMap 和 TreeSet 在排序时如何比较元素&#xff1f; 22、ArrayList 和 LinkedList 的区别是什么&#xff1f; 23、ArrayList 和 Vector 的区别&#xff1f; 24、队列和栈是什么&#xff1f;有什么区别&#xff1f; 25、Queue和Deque的区别…

FreeRTOS对事件标志组的总结

事件标志组 事件标志组讲可以用一个例子来理解&#xff0c;“拼车”&#xff0c;一辆车上有32个座位&#xff08;一个事件标志组的长度&#xff09;&#xff0c;前8个座位用来存放车辆信息&#xff0c;车上可以坐24个人。我们可以选择当所有人都坐满再发车&#xff0c;也可以选…

常用类(一)----包装类的使用和分析

文章目录 1.包装类2.课堂测试题3.包装类方法4.Integer创建机制5.Integer面试题 1.包装类 概念&#xff1a;基本数据类型对应的类就是包装类&#xff0c;就是为了把基本数据类型转换为包装类&#xff0c;使用这个类里面的方法操作数据----装箱的过程&#xff1b; //装箱&#…