2024多模态大模型发展调研

news2025/1/11 7:00:12

随着生成式大语言模型应用的日益广泛,其输入输出模态受限的问题日益凸显,成为制约技术进一步发展的瓶颈。为突破这一局限,本文聚焦于研究多模态信息的协同交互策略,旨在探索一种能够统一理解与生成的多模态模型构建方法。在此基础上,深入研究可控的混合多模态信息生成技术,力求揭示多模态语义层次间的隐含关系,从而实现对生成内容的精准编辑。此外,本文还致力于构建具备强时空一致性的多模态混合输出生成式模型,以期实现时序一致的长视频生成,并在复杂的音视频内容理解与生成任务中进行实践应用验证,为推动多模态大模型技术的全面发展贡献力量。

1.生成式模型输入输出模态受限

对于现有的大语言模型,一方面,其大多局限于关注于某种单一模态信息的处理,而缺乏真正「任意模态」的理解;另一方面,其都关注于多模态内容在输入端的理解,而不能以任意多种模态的灵活形式输出内容。

text -> text :GPT-3.5, LLaMa, 百川

text -> image :Dalle3,Midjourney

text -> audio :sunoAI

text + image -> video : 可灵AI

text + image -> text: GPT-4, 文心一言

NExT-GPT:实现输入到输出「模态自由」, NUS华人团队开源

What Makes Multimodal Learning Better than Single (Provably)

从泛化角度解释多模态优越性的第一个理论处理,制定了一个多模态学习框架,该框架在实证文献中得到了广泛的研究,以严格地理解为什么多模态优于单模态,因为前者可以获得更好的隐空间表示。

本文基于一种经典的多模态学习框架,即无缝进行潜空间学习(Latent Space Learning)与任务层学习(Task-specific Learning)。具体地,首先将异构数据编码到一个统一潜空间 Z \mathcal{Z} Z,对应的映射函数族为 G \mathcal{G} G,要寻找的最优的映射是 g ∗ \mathcal{g}^* g。接着,潜空间的表示再经过任务层的映射被用于指定任务中,映射的函数族为 H \mathcal{H} H,其中最优映射为 h ∗ \mathcal{h}^* h

2.多模态信息协同交互策略

深度学习中多模态的融合策略

在深度学习中,多模态(multimodal)融合策略用于集成来自不同模态的数据,以提升模型的性能和泛化能力。多模态数据可以包括文本、图像、音频、视频、传感器数据等,通过有效融合这些不同类型的数据,能够从中提取更丰富和全面的信息。以下是几种常见的多模态融合策略:

  1. 早期融合(Early Fusion)

  2. 晚期融合(Late Fusion)

  3. 中期融合(Intermediate Fusion)

  4. 混合融合(Hybrid Fusion)

  5. 基于注意力机制的融合(Attention-based Fusion)

  6. 基于图神经网络的融合(Graph Neural Networks-based Fusion)

  7. 联合学习(Joint Learning)

3.统一理解与生成的多模态模型构建方法, 探索统一理解与生成的多模态模型构建方法

LaVIT 将文本和视觉两种模态以统一的形式表示,以便复刻 LLM 的学习方法——下一个 token 预测,模型如图 所示。

给定一对图像和文本,图像被分词成离散 token,并与文本 token 连接形成多模态序列。然后,LaVIT 在统一的生成目标下进行优化

给定一对图像和文本,图像被分词成离散 token,并与文本 token 连接形成多模态序列。然后,LaVIT 在统一的生成目标下进行优化

视觉分词器:将非语言图像转换为 LLM 可以理解的输入。视觉分词器接收预训练的视觉编码器的视觉特征,并输出一系列具有类似词汇高级语义的离散视觉 token。

通过精心设计的分词器,视觉输入可以与文本 token 集成,形成一个多模态序列,然后在统一的自回归训练目标下输入到 LLM 中。

Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization

AnyGPT,一种 any-to-any 的多模态大语言模型。采用离散的表征统一处理语音、文本、图像和音乐等多种不同模态信号。文章构建了一个多模态,以文本为中心的数据集 AnyInstruct-108k。该数据集利用生成模型合成,是一个大规模多模态指令数据集。

使用多模态分词器 (tokenizer),将原始的多模态数据,比如图像和语音,压缩成离散语义 token 的序列。再使用多模态解分词器 (de-tokenizer),将离散语义 token 的序列转换回原始模态数据。离散表征的好处是能够过滤掉高频的,特定于模态的感知信息,同时保留基本的低频语义信息。架构层面,继承现有的 LLM 架构,无需任何修改。同时允许直接应用现有的 LLM 工具,从而提高训练和推理的效率。AnyGPT 使用 LLaMA-2-7B作为基座模型,它在 2TB 的文本标记上进行了预训练。除了重塑 embedding matrix 和预测层外,其余语言模型保持不变。
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

4.构建强时空一致性的多模态混合输出生成式模型,多模态语义层次的隐含关系

时空一致性(Spatiotemporal Coherency)指的是空间和时间上的连贯性或一致性。在多个领域,如深度学习、神经科学、计算机视觉等,这一概念都有重要的应用。

在计算机视觉领域中,时空连贯性常用于视频分析、运动检测、显著性检测等任务。例如,在显著性检测中,研究者们利用时空连贯性来识别视频中的显著区域,这些区域在时间和空间上都与周围区域存在显著差异。这有助于实现更准确的视频分析和理解。

通过语义分割视频和生成视频音频语音字幕来优先考虑时空一致性。

INTERNVIDEO2: SCALING FOUNDATION MODELS FORMULTIMODAL VIDEO UNDERSTANDING

数据处理的创新:时空一致性的重要性
在数据处理方面,InternVideo2强调了时空一致性的重要性。通过语义分割视频并生成视频-音频-语音字幕,改进了视频和文本之间的对齐。

  1. 视频剪辑的语义分割

    为了保持时空一致性,使用AutoShot模型代替传统的SceneDet滤镜来分割视频剪辑。AutoShot基于时间语义变化而不是像素差异来预测边界,从而生成语义完整的剪辑,避免混入不一致的上下文。

  2. 视频、音频和语音字幕的生成与融合

在MVid数据集中,视频来自多个来源,包括YouTube和其他匿名来源,以提高数据集的多样性。对于视频数据集,首先保留超过2秒的剪辑。对于超过30秒的视频剪辑,如果剪辑中的片段来自同一镜头,则随机选择一个30秒的片段。此外,还自动为MVid的视觉、音频和语音生成字幕,然后使用LLM校正并融合它们,以便训练使用。

全面盘点多模态融合算法及应用场景

多模态融合(Multimodal Fusion)是指结合来自不同模态(如视觉、听觉、文本等)的数据,以提升信息处理和理解能力的技术方法。多模态数据通常具有不同的物理性质和信息特征,通过融合这些多模态信息,可以获得更全面和准确的理解。这种融合过程可以发生在数据层、特征层和决策层:

  • 数据层融合:直接对不同模态的数据进行融合。
  • 特征层融合:提取不同模态的数据特征后进行融合。
  • 决策层融合:对不同模态的处理结果进行融合。

多模态融合的应用场景
多模态融合技术在各个领域有着广泛的应用,以下是一些典型的应用场景:

  • 图文生成与理解

    • 图像描述生成:根据图像内容生成自然语言描述。
    • 文本到图像生成:根据文本描述生成对应的图像。
  • 语音和视觉结合的情感分析
    通过结合语音和视觉数据,识别用户的情感状态,提高情感分析的准确性。

5.实现时序一致的长视频生成。在复杂音视频内容理解与生成任务中进行应用验证

大模型CoDi,具有任意输入和输出图、文、声音、视频4种模态的能力。

从声音、文字、图像到视频,所有模态被彻底打通,如同人脑一般,实现了真正意义上的任意输入,任意输出。

无论是单模态生成单模态(下图黄)、多模态生成单模态(下图红)、还是多模态生成多模态(下图紫),只要指定输入和输出的模态,CoDi就能理解并生成想要的效果:

只需告诉大模型,想要“一只玩滑板的泰迪熊”,并输入一张照片+一段声音:

在这里插入图片描述

模型设计二阶段:

阶段一:组合条件训练,给每个模态都打造一个潜在扩散模型(LDM),进行组合训练。

阶段二:进一步增加生成的模态数量。

扩散模型(Diffusion Model)是一种生成模型,最近在图像生成、视频生成、语音合成等领域取得了显著的进展。与传统的生成对抗网络(GAN)和变分自编码器(VAE)不同,扩散模型通过逐步将噪声添加到数据并反转这一过程来生成新样本。

Any-to-Any Generation via Composable Diffusion

总结

1.多模态信息处理能力:选取合适的基座模型(LaVIT,LLaMA-2)。此类模型需要能够理解和处理多种模态的信息,包括但不限于文本、图像、音频和视频。这要求模型具有跨模态的交互能力,能够解析并融合来自不同模态的数据。

2.大规模多模态数据集:构建一个包含多模态数据的大型数据集(AnyGPT AnyInstruct-108k),这些数据集应覆盖广泛的模态组合和复杂的交互场景。例如,可以构建包含多轮对话、图像描述、音频解说和视频剪辑等多种模态信息的数据集,用于模型的预训练和微调。

3.统一的多模态表示:参考AnyGPT、所采用的离散序列建模方法,需要一个统一的表示框架来整合和处理不同模态的数据。这种表示方式应能够捕获各模态之间的内在联系,并实现跨模态信息的有效转换和传递。

4.可控的混合多模态信息生成方法:设计一种能够精确控制多模态信息生成的方法(CoDi 二阶段),允许用户在生成过程中指定所需的模态和内容。这要求模型能够理解并响应用户的多模态输入,并生成相应的、符合用户期望的输出。

5.强时空一致性的生成能力:参考InternVideo2构建具有强时空一致性的生成模型,确保生成的长视频在时序和空间上保持连贯性和一致性。这要求模型能够处理复杂的时序信息和空间布局,以确保生成的视频内容在逻辑和视觉上都是合理的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2183992.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C# 无边框窗体,加阴影效果、多组件拖动、改变大小等功能完美实现优化版效果体验

一、预览效果 国庆节第一天,祝祖国繁荣昌盛! 1.1 效果图 (WinForm无边框窗体,F11可全屏) 拖动窗体时半透明效果(拖动时参考窗体后面释放位置) 说明:本功能的实现基于网友的原型完善而来,更多代码可以参考他的文章 h

智能平衡移动机器人-平台硬件电路

目录 硬件电路主要模块包括: 主控制器 TMS320F28069数字信号处理器 电池 电机驱动电路 直流电机的驱动 编码器 传感器与外设模块 APP 为了使智能平衡移动机器人达到更好的平衡控制效果,机器人的本体设计更为轻便、集中。机器人的硬件电路也进行集…

课设实验-数据结构-单链表-文教文化用品品牌

题目&#xff1a; 代码&#xff1a; 正解&#xff1a; #include<stdio.h> #include<stdlib.h> #include<string.h> #define MaxSize 10 //定义顺序表最大长度static int result; //字符串比较结果 static int i; //循环初始值 static bool flag; //记录结…

Typora使用与Markdown语法详细教程

Typora 基本介绍 Typora 是一款由 Abner Lee 开发的轻量级 Markdown 编辑器。Markdown 是一种 轻量级标记语言&#xff0c;它允许人们使用易读易写的纯文本格式编写文档&#xff0c;然后转换成有效的 XHTML&#xff08;或者 HTML&#xff09;文档。 安装 下载地址&#xff…

C语言 getchar 函数完全解析:掌握字符输入的关键

前言 在C语言中&#xff0c;getchar 是一个非常实用的函数&#xff0c;用于从标准输入流&#xff08;通常是键盘&#xff09;读取单个字符。这对于处理文本输入非常有用&#xff0c;尤其是在需要逐个字符处理的情况下。本文将深入探讨 getchar 函数的用法和特点&#xff0c;并…

开放式耳机是什么意思?哪个品牌好?开放式蓝牙耳机测评分享

开放式耳机是目前比较流行的一种蓝牙耳机类型&#xff0c;它凭借佩戴舒适、安全性高、透气性好以及健康卫生等等特点成为了很多人的耳机选择。但其实并没有太多人了解开放式耳机&#xff0c;不知道什么是开放式耳机、开放式耳机是否比封闭式耳机强、什么样的人适合开放式耳机以…

Optiver股票大赛Top2开源!

Optiver股票大赛Top2开源&#xff01; ↑↑↑关注后"星标"kaggle竞赛宝典 作者&#xff1a;杰少 Optiver第二名方案解读 简介 Optiver竞赛已经于今天结束了&#xff0c;竞赛也出现了极端情况&#xff0c;中间断崖式的情况&#xff0c;在Kaggle过往的竞赛中&#…

【电路基础 · 1】电路模型和电路定律(自用)

总览 1.电路和电路模型 2.电流和电压参考方向 3.电功率和能量 4.电路元件 5.电阻元件 6.电压源和电流源 7.受控电源 8.基尔霍夫定律 重点&#xff1a; 1.电压、电流的参考方向 2.电阻元件、电源元件的特性 3.基尔霍夫定律&#xff08;基尔霍夫电流定律KCL、基尔霍夫电压定律K…

【办公类-48-03】20240930每月电子屏台账汇总成docx-3(三园区合并EXCLE,批量生成3份word)

背景需求&#xff1a; 前期电子屏汇总是“总园”用“”问卷星”、“一分园”用“腾讯文档”&#xff0c;二分园“用“手写word”” 【办公类-48-02】20240407每月电子屏台账汇总成docx-2&#xff08;腾讯文档xlsx导入docx&#xff0c;每页20条&#xff09;【办公类-48-02】20…

C语言 | Leetcode C语言题解之题451题根据字符出现频率排序

题目&#xff1a; 题解&#xff1a; #define HASH_FIND_CHAR(head, findint, out) HASH_FIND(hh, head, findint, sizeof(char), out) #define HASH_ADD_CHAR(head, intfield, add) HASH_ADD(hh, head, intfield, sizeof(char), add)struct HashTable {char key;int val;UT_ha…

基于小程序+Vue + Spring Boot的进销存库存出库入库统计分析管理系统

目录 一、项目背景及需求分析 1. 项目背景 2. 需求分析 二、系统架构设计 1. 技术选型 2. 模块划分 三、数据库设计数据库表结构 四、前端实现 五、后端实现 1. RESTful API设计 2. 数据库操作 六、安全性和性能优化 1. 安全性 2. 性能优化 七、测试与部署 1. …

Unity之寻找子物体的8种方式

废话不多说&#xff0c;举个例子&#xff1a; 当前的transform是Cube1物体&#xff0c;所以。。。。 寻找子物体的方式有以下几个&#xff1a; 1.transform.Find("go2/go3") 好处&#xff1a;可以快速通过路径定位对应的子物体&#xff0c;甚至是子子子物体。 2.t…

UG NX二次开发(C++)-建模-采用NXOpen获取拉伸特征的信息

文章目录 1、前言2、创建一个特征3 采用NXOpen来实现拉伸特征信息的获取1、前言 UG NX二次开发过程中,大部分初学者喜欢用UFun函数来实现UG NX二次开发的功能,因为相较于NXOpen,UFun函数简单易懂;但是有时UFun函数如果初始值设置不好,出现的错误也比较难排查。比如对于拉…

L4 KNN 算法

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 KNN 算法用于约会数据集分类 在这周中&#xff0c;学习如何使用 K 近邻&#xff08;K-Nearest Neighbors, KNN&#xff09;算法对一个约会数据集进行分类。KN…

SpringGateway(网关)微服务

一.启动nacos 1.查看linux的nacos是否启动 docker ps2.查看是否安装了nacos 前面是你的版本&#xff0c;后面的names是你自己的&#xff0c;我们下面要启动的就是这里的名字。 docker ps -a3.启动nacos并查看是否启动成功 二.创建网关项目 1.创建idea的maven项目 2.向pom.x…

路由器WAN口和LAN口的区别

一.路由器WAN口和LAN口的区别简单来说&#xff1a;LAN口输出&#xff08;内网&#xff09;&#xff0c;WAN口输入&#xff08;互联网&#xff09;&#xff0c;接线方法"光猫网口"——>"路由器WAN口"&#xff0c;"路由器LAN口"——>"打…

SD-WebUI forge支持flux模型。算力互联forge镜像使用教程

SD-WebUI Forge运行截图&#xff1a; 以下为教程&#xff1a; 启动SD 首先要选择使用我的镜像创建容器实例 1.进入Jupyter 2.双击打开左边main.ipynb&#xff0c;打开脚本 3.选中运行的代码&#xff0c;点击上面的运行符号 4.出现7860端口开放&#xff0c;说明运行成功了 …

C++入门基础知识95——【关于C++ 自增自减运算符】

成长路上不孤单&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a; 【14后&#x1f60a;///C爱好者&#x1f60a;///持续分享所学&#x1f60a;///如有需要欢迎收藏转发///&#x1f60a;】 今日分享关于C 自增自减运算符的相关内容&#xff01…

Difference of Convex Relaxation (DC)

问题背景 minimize ⁡ m ∥ m ∥ 2 s u b j e c t t o ∥ m H h k e ∥ 2 ≥ 1 , ∀ k . \begin{aligned}&\underset{m}{\operatorname*{minimize}}\quad\|\boldsymbol{m}\|^2\\&\mathrm{subject~to}\quad\|\boldsymbol{m}^\mathsf{H}\boldsymbol{h}_k^e\|^2\geq1,\for…

Java | Leetcode Java题解之第450题删除二叉搜索树中的节点

题目&#xff1a; 题解&#xff1a; class Solution {public TreeNode deleteNode(TreeNode root, int key) {TreeNode cur root, curParent null;while (cur ! null && cur.val ! key) {curParent cur;if (cur.val > key) {cur cur.left;} else {cur cur.rig…