A Survey on Multimodal Large Language Models综述

news2025/1/22 21:42:09

论文题目:A Survey on Multimodal Large Language Models

论文地址:https://arxiv.org/pdf/2306.13549

话题:多模态LLMs综述

MLLMs Paper: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

1. 摘要

近期,以GPT-4V为代表的跨模态大型语言模型(MLLM)成为研究热点,它利用强大的大型语言模型(LLM)作为大脑执行跨模态任务。MLLM展现出如基于图像创作故事、OCR-free数学推理等令人惊讶的能力,这在传统跨模态方法中极为罕见,预示着通往通用人工智能的潜在路径。为此,学术界和产业界都在努力开发能与GPT-4V竞争甚至更好的MLLM,以惊人的速度推动研究极限。本文旨在追踪和总结MLLM的近期进展。首先,我们阐述了MLLM的基本公式及其相关概念,包括架构、训练策略和数据以及评估。接着,我们介绍了如何扩展MLLM以支持更多粒度、模态、语言和场景的研究主题。随后,我们探讨了跨模态幻觉和扩展技术,包括多模态ICL(M-ICL)、多模态CoT(M-CoT)和LLM辅助视觉推理(LAVR)。最后,我们讨论了现有挑战并指出有潜力的研究方向。鉴于MLLM时代才刚刚开始,我们将持续更新此综述,希望它能激发更多研究。

2. 引言

        近年来,大型语言模型(LLMs)在数据规模和模型规模上的扩展带来了显著的进步,包括指令遵循、情境学习(ICL)和思维链(CoT)等能力。尽管LLMs在大多数自然语言处理(NLP)任务上展示了令人惊讶的无/少量样本推理性能,但由于它们只能理解离散文本,因此对视觉信息是“盲”的。与此同时,大型视觉模型(LVMs)在视觉识别上表现良好,但在推理能力上通常落后。

        LLM(大型语言模型)和LVM(多模态模型)的结合催生了MLLM这一新领域。MLLM能够接收、推理和输出多模态信息,是基于LLM的模型。在MLLM之前,多模态研究分为判别式和生成式两种范式,具体代表是CLIP和OFA。CLIP是判别式范式的代表,它将视觉和文本信息投影到统一的空间,为下游多模态任务搭建桥梁。OFA是生成式范式的代表,它以序列到序列的方式统一多模态任务。MLLM在序列操作上与OFA类似,但有两个显著特点:一是基于具有亿级参数的LLM,二是采用新的训练范式,如多模态指令调整,以鼓励模型遵循新指令。由于这两个特点,MLLM展现出新的能力,如根据图像编写网站代码、理解梗的深层含义以及无OCR的数学推理。

        自GPT-4发布以来,多模态语言模型(MLLMs)因其多模态能力而引发了研究热潮。研究迅速发展,得益于学术界和工业界的努力。初步研究集中在基于文本提示和图像、视频、音频等模态的内容生成。后续工作扩展了能力或应用场景,包括:1)更细粒度的支持,通过框或点击来支持特定区域或对象;2)增强对输入和输出模态的支持,如图像、视频、音频和点云;3)改进语言支持,将MLLMs的成功扩展到其他语言;4)扩展到更多领域和用例,如医学图像理解和文档解析,以及开发多模态代理来辅助现实世界交互。图1展示了MLLMs的发展时间线。

        接着,深入讨论了MLLMs的一些重要问题,如如何进一步改进或扩展、以及如何缓解多模态幻觉问题。随后,介绍了三个关键技术,分别针对特定场景:M-ICL用于提升少样本性能,M-CoT用于复杂推理任务,以及一个开发基于LLM的系统来解决复合推理任务或处理常见用户查询的一般思路。最后,综述以总结和潜在的研究方向结束。

3. 结构

        典型的MLLM可以抽象为三个模块:预训练的模态编码器、预训练的LLM(大型语言模型)以及连接它们的模态接口。这些模块可以类比为人类感官系统,其中模态编码器(如图像/音频编码器)相当于人的眼睛和耳朵,接收并预处理光学/声学信号,而LLM则相当于大脑,理解和推理处理后的信号。模态接口的作用是协调不同模态。一些MLLM还包括一个生成器,除了文本外还能输出其他模态。图2展示了这种架构的图示。在这一节中,我们依次介绍了每个模块。

3.1 模态编码器(Modality Encoder)

        编码器将原始信息(如图像或音频)压缩成更紧凑的表示形式。为了提高效率,通常使用已经与其他模态对齐的预训练编码器,而不是从头开始训练。例如,CLIP通过在大规模图像-文本对上进行预训练,使其视觉编码器在语义上与文本对齐。因此,使用这种预先对齐的编码器通过对齐预训练更容易与LLM对齐。

        常用的图像编码器总结在表1中。除了基本的CLIP图像编码器外,一些研究也探索了使用其他变体。例如,MiniGPT-4使用了EVA-CLIP(ViT-G/14)编码器,并采用了改进的训练技术。Osprey则引入了基于卷积的ConvNext-L编码器,以利用更高分辨率和多级特征。还有一些工作探索了无编码器架构,例如Fuyu-8b直接将图像块投影到LLM之前,从而自然支持灵活的图像分辨率输入。

        在选择编码器时,通常考虑的因素包括分辨率、参数大小和预训练语料库许多研究表明,使用更高分辨率的图像可以显著提高性能。提高输入分辨率的方法可以分为直接缩放和块划分方法。直接缩放方法将高分辨率图像输入到编码器中,这通常需要进一步调整编码器或使用更高分辨率的预训练编码器。CogAgent使用双编码器机制,分别处理高分辨率和低分辨率图像,并通过交叉注意力将高分辨率特征注入到低分辨率分支。块划分方法将高分辨率图像切割成块,并复用低分辨率编码器。与输入分辨率相比,参数大小和训练数据组成的重要性较小。

        其他模态的编码器。例如,Pengi使用CLAP模型作为音频编码器,而ImageBind-LLM使用ImageBind编码器,它支持编码图像、文本、音频、深度、热成像和惯性测量单元(IMU)数据。这些强大的编码器使得ImageBind-LLM能够响应多种模态的输入。

3.2 Pre-trained LLM

        使用预训练的大型语言模型(LLM)的效率和实用性,因为它们已经通过大量的网络语料库预训练,包含了丰富的世界知识,并展现出强大的泛化和推理能力。表格2总结了常用的公共LLM,其中大多数属于因果解码器类别,遵循GPT-3。FlanT5系列是早期LLM,用于BLIP-2和InstructBLIP等工作中。LLaMA系列和Vicuna家族是具有代表性的开源LLM,吸引了学术界的关注。由于这两个LLM主要在英语语料库上预训练,因此在多语言支持方面有限,如中文。相比之下,Qwen是一个支持中文和英语的双语LLM。

        增加LLM的参数规模可以带来额外的收益,类似于提高输入分辨率的效果。例如,从7B到13B的参数规模提升在各种基准测试中带来了全面的改进。使用34B的LLM时,模型展示了零样本的中文能力,尽管训练数据中只有英语的多模态数据。Lu等人通过将LLM从13B扩展到35B和65B/70B也观察到了类似的现象,较大的模型在针对多语言LLM设计的基准测试中带来了持续的提升。同时,也有一些工作使用较小的LLM来促进在移动设备上的部署,例如MobileVLM系列使用缩放后的LLaMA(1.4B/2.7B)模型,使其能够在移动处理器上高效地进行推理

        最近,对于LLM中混合专家(MoE)架构的研究引起了越来越多的关注。与密集模型相比,稀疏架构通过选择性地激活参数,可以在不增加计算成本的情况下扩大总参数规模。实验上,MM1和MoE-LLaVA发现,MoE的实现几乎在所有基准测试中都比密集模型有更好的性能。

3.3 Modality interface

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1937835.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue3前端开发-小兔鲜项目-人气推荐栏目的前端渲染

vue3前端开发-小兔鲜项目-人气推荐栏目的前端渲染!今天和大家分享一下,人气推荐栏目的前端页面如何渲染内容。 经历过上一次的,新鲜好物的栏目渲染之后,我们已经熟练了,vue3的接口调用,数据渲染到页面中的整…

Zabbix监控介绍与部署

目 录 一、zabbix介绍和架构 1.1 zabbix介绍 1.2 为什么需要监控 1.3 需要监控什么 二、zabbix使用场景与系统概述 2.1 zabbix的功能 2.2 zabbix架构 2.3 Zabbix术语 三、编译安装zabbix 3.1 安装依赖环境 3.2 建立管理用户 3.3 准备源码包,解压包 3.…

数据结构初阶-单链表

链表的结构非常多样,以下情况组合起来就有8种(2 x 2 x 2)链表结构: 而我们主要要熟悉的单链表与双向链表的全称分别为:不带头单向不循环链表,带头双向循环链表,当我们对这两种链表熟悉后&#x…

基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用

目录 专题一、深度学习发展与机器学习 专题二、深度卷积网络基本原理 专题三、TensorFlow与Keras介绍与入门 专题四、PyTorch介绍与入门 专题五、卷积神经网络实践与遥感图像场景分类 专题六、深度学习与遥感图像检测 专题七、遥感图像检测案例 专题八、深度学习与遥感…

【教学类-68-01】20240720裙子涂色(女孩篇)

背景需求: 通义万相下载了简笔画裙子,制作成涂色卡给幼儿涂色、剪纸用。 代码展示 裙子简笔画图 6张 星火讯飞、通义万相、阿夏 2024年7月20日import os,time import shutil from docx import Document from docx.shared import Cm from PIL import Ima…

ApolloAndroid 使用笔记

由于业务需求的变化,需要使用 Graphql 作为客户端与服务端的交互查询框架,特此记录使用。 测试代码下载链接 一、导入引用以及规则示例 1、首先需要在我们需要使用的模块下面创建对应的src/main/graphql文件夹 2、将后台对应的服务生成的 xxx.graphql…

1个Xpath定位可以在Web页面查找到多个元素Selenium

1个Xpath定位可以在Web页面查找到多个元素Selenium//input[id\"transactionId\"] 打开Web页面, 点击F12可以看到压面 点击Ctrl F 可以点图如下图的输入框,输入xpath,看右侧可以找到3个对应的元素 点击Ctrl F 点击Ctrl F 点…

【C语言】逗号运算符详解 - 《不起眼的 “逗号”》

目录 C语言逗号运算符详解1. 逗号运算符的定义1.1 基本语法1.2 执行顺序 2. 逗号运算符的用法2.1 用于循环2.1.1 示例 2.2 用于表达式组合2.2.1 示例 3. 逗号运算符的应用场景3.1 宏定义3.1.1 示例 3.2 条件运算符中的应用3.2.1 示例 4. 总结5. 参考文献6. 结束语 C语言逗号运算…

通信网络机房服务器搬迁流程方案

数据中心机房搬迁是一项负责高难度的工程。整个搬迁过程充满挑战,伴随着各种风险。如何顺利的完成服务器的迁移,需要专业的数据中心服务商全程提供保障。友力科技(广州)有限公司,作为华南地区主流的数据中心服务商&…

Python代码,强化学习,深度学习

python代码编写,Python算法设计,强化学习优化,改进模型,训练模型,测试模型,可视化绘制,代编运行结果,交互多模型改进,预测模型,算法修改,Python包…

docker: No space left on device处理与迁移目录

简介:工作中当遇到Docker容器内部的磁盘空间已满。可能的原因包括日志文件过大、临时文件过多或者是Docker容器的存储卷已满,需要我们及时清理相关文件,并对docker的路径进行迁移。 历史攻略: centos:清理磁盘空间 …

三国杀十周年电脑版PC端模拟器游玩教程

三国杀十周年电脑版PC端模拟器游玩教程 《三国杀十周年》是一款以三国时代丰富的历史背景和独特的玩法手机策略游戏,在游戏中可自由选择扮演一位三国时期著名的人物,吸引了大量的历史爱好者和卡牌游戏玩家。如果大家想要轻松享受端游操作体验&#xff0…

【一刷《剑指Offer》】面试题 32:从 1 到 n 整数中 1 出现的次数

力扣对应题目链接:233. 数字 1 的个数 - 力扣(LeetCode) 牛客对应题目链接:整数中1出现的次数(从1到n整数中1出现的次数)_牛客题霸_牛客网 (nowcoder.com) 一、《剑指Offer》对应内容 二、分析题目 先随便…

Go语言之内存分配

文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ Go 语言程序所管理的虚拟内存空间会被分为两部分:堆内…

牛客TOP101:单链表的排序

文章目录 1. 题目描述2. 解题思路3. 代码实现 1. 题目描述 2. 解题思路 按我们以往的排序算法来看,针对链表来说都是太不合适,因为很多都会出现指针前移后移,后移还好说,前移对于链表来说就太难了,而且大部分都是某一个…

HiDiff: 用于医学图像分割的混合扩散框架| 文献速递-基于深度学习的多模态数据分析与生存分析

Title 题目 HiDiff: Hybrid Diffusion Framework for Medical Image Segmentation HiDiff: 用于医学图像分割的混合扩散框架 01 文献速递介绍 医学图像分割是将医学图像数据转化为有意义的、空间结构化的信息,如器官和肿瘤。随着深度学习(DL&#x…

primeflex教学笔记20240720, FastAPI+Vue3+PrimeVue前后端分离开发

练习 先实现基本的页面结构&#xff1a; 代码如下&#xff1a; <template><div class"flex p-3 bg-gray-100 gap-3"><div class"w-20rem h-12rem bg-indigo-200 flex justify-content-center align-items-center text-white text-5xl">…

RESTful API设计指南:构建高效、可扩展和易用的API

文章目录 引言一、RESTful API概述1.1 什么是RESTful API1.2 RESTful API的重要性 二、RESTful API的基本原则2.1 资源导向设计2.2 HTTP方法的正确使用 三、URL设计3.1 使用名词而非动词3.2 使用复数形式表示资源集合 四、请求和响应设计4.1 HTTP状态码4.2 响应格式4.2.1 响应实…

新能源汽车空调系统的四个工作过程

汽车空调制冷系统组成 1.汽车空调制冷系统组成 以R134a为制冷剂的汽车空调制冷系统主要包括压缩机、电磁离合器、冷凝器、 散热风扇、储液于燥器、膨胀阀、蒸发器、鼓风机、制冷连接管路、高低压检测 连接接头、调节与控制装置等组成。 汽车空调的四个过程 1压缩过程 传统车…

nginx的access.log日志输出请求总数、QPS和平均带宽

适用格式 #log_format main $remote_addr - $remote_user [$time_local] "$request" # $status $body_bytes_sent "$http_referer" # "$http_user_agent" "$http_x_forwarded_for"; 形如&#…