多模态大模型综述整理

news2025/1/12 23:12:49

论文:MM-LLMs: Recent Advances in MultiModal Large Language Models

论文地址: https://arxiv.org/pdf/2401.13601.pdf

表1:26种主流多模态大型语言模型(MM-LLMs)概要

输入到输出模态(I→O)
  • I:图像
  • V:视频
  • A:音频
  • 3D:点云
  • T:文本
模态编码器
  • -L 代表大型
  • -G 代表超大型
  • /14 表示14的补丁大小
  • @224 表示图像分辨率为224×224
数据集规模
  • #.PT 表示多模态预训练(MM PT)期间的数据集规模
  • #.IT 表示多模态微调(MM IT)期间的数据集规模
其他信息
  •  包括不对外公开的内部数据。

表2:在18个视觉语言基准上主流多模态-大型语言模型(MM-LLMs)的比较

红色表示最高结果,蓝色表示第二高的结果。‡ 表示ShareGPT4V(Chen et al., 2023e)的重新实施测试结果,这些结果在基准测试或原始论文中遗漏。∗表示数据集的训练图像在训练期间被观察到。

(1)Flamingo(Alayrac等人,2022年)代表了一系列视觉语言(VL)模型,这些模型被设计用于处理交错的视觉数据和文本,并生成自由形式的文本作为输出。

(2)BLIP-2(Li等人,2023c)引入了一个更加资源高效的框架,包括轻量级的Q-Former来弥合模态差距,以及利用固定的大型语言模型(LLMs)。通过利用LLMs,BLIP-2可以被引导进行零样本图像到文本的生成,使用自然语言提示。

(3)LLaVA(Liu等人,2023e)率先将图像转换(IT)技术转移到多模态(MM)领域。为了解决数据稀缺问题,LLaVA引入了一个使用ChatGPT/GPT-4创建的新颖的开源多模态指令遵循数据集,以及多模态指令遵循基准LLaVA-Bench。

(4)MiniGPT-4(Zhu等人,2023a)提出了一种简化的方法,其中只训练一个线性层即可将预训练的视觉编码器与LLM对齐。这种高效的方法使得复制GPT-4所展示的能力成为可能。

(5)mPLUG-Owl(Ye等人,2023)提出了一个新颖的多模态大型语言模型(MM-LLMs)的模块化训练框架,融入了视觉上下文。为了评估不同模型在多模态任务中的性能,该框架包括了一个名为OwlEval的指令评估数据集。

(6)X-LLM(Chen等人,2023b)扩展到了包括音频在内的各种模态,并展示了强大的可扩展性。利用Q-Former的语言转移能力,X-LLM在汉藏语系中文的背景下成功应用。

(7)VideoChat(Li等人,2023d)率先提出了一个高效的以聊天为中心的多模态大型语言模型(MM-LLM),用于视频理解对话,为该领域的未来研究树立了标准,并为学术界和工业界提供了协议。

(8)InstructBLIP(Dai等人,2023)基于预训练的BLIP-2模型进行训练,在多模态微调(MM IT)期间只更新Q-Former。通过引入指令感知的视觉特征提取和相应的指令,该模型能够提取灵活多样的特征。

(9)PandaGPT(Su等人,2023)是一个先驱性的通用模型,具有理解和执行6种不同模态指令的能力:文本、图像/视频、音频、热感、深度和惯性测量单元。

(10)PaLIX(Chen等人,2023g)通过混合视觉语言目标和单模态目标(包括前缀完成和遮蔽标记完成)进行训练。这种方法对于下游任务结果和在微调设置中达到帕累托最前沿被证明是有效的。

(11)Video-LLaMA(Zhang等人,2023e)引入了一个多分支的跨模态预训练(PT)框架,使得大型语言模型(LLMs)能够同时处理给定视频的视觉和音频内容,同时与人类进行对话。该框架将视觉与语言以及音频与语言对齐。

(12)Video-ChatGPT(Maaz等人,2023)是一个专为视频对话设计的模型,能够通过整合时空视觉表示来生成关于视频的讨论。

(13) Shikra (Chen et al., 2023d)介绍了一个简单且统一的预训练多模态-大型语言模型(MM-LLM),专为参考对话任务设计,该任务涉及讨论图片中的区域和对象。这个模型展现了值得称赞的泛化能力,有效地处理未见过的设置。

(14) DLP (Jian et al., 2023)提出了P-Former来预测理想的提示符,它在单模态句子的数据集上进行训练。这展示了单模态训练提升多模态学习的可行性。

(15) BuboGPT (Zhao et al., 2023d)是一个通过学习共享的语义空间来构建的模型,用于全面理解多模态内容。它探索了图像、文本和音频等不同模态之间的细粒度关系。

(16) ChatSpot (Zhao et al., 2023b)介绍了一种简单而有效的方法,用于精细调整多模态-大型语言模型(MM-LLM)的精确指引指令,促进细粒度互动。精确指引指令的加入,包括图像和区域级别的指令,增强了多粒度视觉语言(VL)任务描述的整合。

(17) Qwen-VL (Bai et al., 2023b)是一个支持英语和中文的多语言多模态-大型语言模型(MM-LLM)。Qwen-VL在训练阶段还允许输入多个图像,提高了对视觉上下文的理解能力。

(18) NExT-GPT (Wu et al., 2023d)是一个端到端的、通用的任意到任意多模态-大型语言模型(MM-LLM),支持图像、视频、音频和文本的自由输入和输出。它采用了轻量级的对齐策略,在编码阶段利用大型语言模型中心的对齐,在解码阶段利用遵循指令的对齐。

(19) MiniGPT-5 (Zheng et al., 2023b)是一个与生成性vokens的反转集成,并且与稳定扩散集成的多模态-大型语言模型(MM-LLM)。它擅长执行交错的视觉语言(VL)输出,用于多模态生成。在训练阶段加入无分类器指导,提高了生成的质量。

现有多模态-大型语言模型(MM-LLMs)的趋势

(1) 从专注于多模态理解到生成特定模态的演进

并进一步发展成任意到任意模态转换(例如,MiniGPT-4 → MiniGPT-5 → NExT-GPT);

(2) 从多模态预训练(MM PT)到特定任务微调(SFT)再到强化学习人类反馈(RLHF)

训练流程持续精细化,努力更好地与人类意图对齐,并增强模型的对话交互能力(例如,BLIP-2 → InstructBLIP → DRESS);

(3) 拥抱多样化的模态扩展

(例如,BLIP-2 → X-LLM 和 InstructBLIP → X-InstructBLIP);

(4) 吸纳更高质量的训练数据集

(例如,LLaVA → LLaVA1.5);

(5) 采用更高效的模型架构

从BLIP-2和DLP中复杂的Q-和P-Former输入投影模块过渡到VILA中简单而有效的线性投影器。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1423033.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Sentinel 知识总结

Sentinel 知识总结 Sentinel 是阿里巴巴开源的一个轻量级流量控制框架,主要用于保护系统稳定性和流畅性。它提供了多种流量控制策略,包括QPS限流、并发数限流、线程池限流等,并且支持集群限流。此外,Sentinel还提供了熔断降级、系…

机器学习 | 掌握线性回归的实战技巧

目录 初识线性回归 损失和优化 欠拟合与过拟合 正则化线性模型 模型的保存与加载 初识线性回归 线性回归(Linearregression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点是:有一个自变量的情况称为单…

Linux实验记录:使用firewalld

前言: 本文是一篇关于Linux系统初学者的实验记录。 参考书籍:《Linux就该这么学》 实验环境: VmwareWorkStation 17——虚拟机软件 RedHatEnterpriseLinux[RHEL]8——红帽操作系统 备注: RHEL8系统中集成了多款防火墙管理工具&#xf…

【百度Apollo】循迹自动驾驶:探索基于视觉感知的路径规划与控制技术

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《linux深造日志》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! ⛳️ 推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下…

牛啊!能透视大模型内部结构的可视化工具!

哈喽,大家好。 今天给大家分享一个非常牛逼的可视化工具,可以清晰了解 GPT 大模型内部的结构。 哦,对了!给大家准备了国内用的 ChatGPT key,见评论区。 这个工具可以支持查看 GPT2 和 GPT3 的网络架构。 但能进行交互…

区间时间检索

参数形式 sql <if test"params.beginOrderDate ! null and params.beginOrderDate ! "><!-- 开始时间检索 -->AND DATEDIFF(day,#{params.beginOrderDate},b.order_date) > 0</if><if test"params.endOrderDate ! null and params.endO…

ov通配符ssl证书申请时间长吗

通配符SSL证书是SSL数字证书的一种&#xff0c;可以同时保护主域名以及同一个域名下的所有子域名。用户在申请通配符SSL证书时需要CA认证机构对提交的信息进行审核&#xff0c;审核时间根据证书的品牌、类型而变化。今天就随SSL盾小编了解OV通配符SSL证书申请时间。 1.通配符S…

蓝桥杯 第 2 场 小白入门赛

目录 1.蓝桥小课堂-平方和 2.房顶漏水啦 3.质数王国 4.取余 5.数学尖子生 6.魔术师 比赛链接 1.蓝桥小课堂-平方和 简单签到直接按照题目处理即可注意开long long void solve(){LL x; cin>>x;LL ans x*(x1)*(2*x1)/6;cout<<ans<<endl; } 2.房顶漏水…

STM32——DMA

STM32——DMA 1.DMA介绍 什么是DMA&#xff1f; DMA(Direct Memory Access&#xff0c;直接存储器访问) 提供在外设与内存、存储器和存储器、外设与外设之间的高速数据传输使用。它允许不同速度的硬件装置来沟通&#xff0c;而不需要依赖于CPU&#xff0c;在这个时间中&…

C语言应用实例——贪吃蛇

&#xff08;图片由AI生成&#xff09; 0.贪吃蛇游戏背景 贪吃蛇游戏&#xff0c;最早可以追溯到1976年的“Blockade”游戏&#xff0c;是电子游戏历史上的一个经典。在这款游戏中&#xff0c;玩家操作一个不断增长的蛇&#xff0c;目标是吃掉出现在屏幕上的食物&#xff0c…

shell - 免交互

一.Here Document 免交互 1. 交互的概念 交互&#xff1a;当计算机播放某多媒体程序的时候&#xff0c;编程人员可以发出指令控制该程序的运行&#xff0c;而不是程序单方面执行下去&#xff0c;程序在接受到编程人员相应的指令后而相应地做出反应。 对于Linux操作系统中&…

【RT-DETR有效改进】Bi-FPN高效的双向特征金字塔网络(附yaml文件+完整代码)

👑欢迎大家订阅本专栏,一起学习RT-DETR👑 一、本文介绍 本文给大家带来的改进机制是BiFPN双向特征金字塔网络,其是一种特征融合层的结构,也就是我们本文改进RT-DETR模型中的Neck部分,它的主要思想是通过多层级的特征金字塔和双向信息传递来提高精度。本文给大家带…

零基础爬什么值得买的榜单——爬虫练习题目一(答一)

完蛋 蚌埠住了 引言日常吐槽言归正传 步骤一分析网页分析网络加载详细说说网络面板实际操作 测试代码测试结果知识点JS和Fetch/XHR是什么&#xff1f;有什么关联&#xff1f;网页数据的中文为什么是16进制数&#xff0c;以及如何判断&#xff1f; 结尾 引言 日常吐槽 今天剪辑…

力扣题目训练(5)

2024年1月29日力扣题目训练 2024年1月29日力扣题目训练345. 反转字符串中的元音字母349. 两个数组的交集350. 两个数组的交集 II96. 不同的二叉搜索树97. 交错字符串44. 通配符匹配 2024年1月29日力扣题目训练 2024年1月29日第五天编程训练&#xff0c;今天主要是进行一些题训…

回归预测 | Matlab基于OOA-LSSVM鱼鹰算法优化最小支持向量机的数据多输入单输出回归预测

回归预测 | Matlab基于OOA-LSSVM鱼鹰算法优化最小支持向量机的数据多输入单输出回归预测 目录 回归预测 | Matlab基于OOA-LSSVM鱼鹰算法优化最小支持向量机的数据多输入单输出回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 Matlab基于OOA-LSSVM鱼鹰算法优化最小…

Windows断开映射磁盘提示“此网络连接不存在”,并且该磁盘直在资源管理器中

1、打开注册表编辑器 快捷键winR 打开“运行”&#xff0c; 输入 regedit 2、 删除下列注册表中和无法移除的磁盘相关的选项 \HKEY_CURRENT_USER\SOFTWARE\Microsoft\Windows\CurrentVersion\Explorer\MountPoints2\ 3、打开“任务管理器”&#xff0c;重新启动“Windows资源…

C++指针比较

内存中各个数据的存放方式。 数组str1、str2、str3、str4都是在栈中分配的&#xff0c;内存中的内容都为“abc”加一个“\0”&#xff0c;但是他们的位置是不同的&#xff0c;因此代码第15行和第16行输出的都是0. 指针str5、str6、str7、str8也是在栈中分配的&#xff0c;他们…

Shell中的awk

一、awk 1.1.awk工作原理 逐行读取文本&#xff0c;默认以空格或tab键为分隔符进行分隔&#xff0c;将分隔所得的各个字段保存到内建变量中&#xff0c;并按模式或者条件执行编辑命令。 awk倾向于将一行分成多个"字段"然后再进行处理。 awk信息的读入也是逐行读取…

Apple Vision Pro 评测:这款顶尖头显仅是对未来的初步探索

原文&#xff1a;Apple Vision Pro Review: The Best Headset Yet Is Just a Glimpse of the Future 作者&#xff1a;Joanna Stern 戴上 Apple Vision Pro 混合现实头显整整近 24 小时后&#xff0c;有几件事让我颇感意外&#xff1a; 我居然没感到恶心。我竟然高效完成了大…

springboot---四大核心

四大核心 Starter简介总结 Autoconfigure简介示例原理自定义starter打包实践 总结 CLIActuator Starter 简介 springboot项目中几乎项目依赖中基本上全是各种各样的starter, 那么到底什么是starter? starter是一组方便的依赖描述符&#xff0c;当我们使用它时&#xff0c;可…