【论文系列解读】MiniGPT-4: 增强视觉语言理解与先进的大型语言模型

news2025/1/8 16:46:41

Minigpt4

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

MiniGPT-4: 增强视觉语言理解与先进的大型语言模型

(0) 总结&实测

minigpt是先提出来的,将视觉编码器和LLM对齐,blip2和它还是有蛮大区别的。minigpt4主要核心在于训练Linear的时候采用了2个阶段。第一个阶段使用low-level的数据集(500万对)进行训练,第二个阶段针对low-level的数据集进行了手动筛选(使用GPT生成每个图片的文字标题-5000对,并且手动筛选出生成出来比较符合图片内容的图像文本对-3500对),然后再用这些高质量的数据集去微调模型。此外,训练过程额外有个不同之处在于,第一阶段会根据生成的句子长度(80个token)决定是否加入,这样可以使得文字生成更详细。但是第二阶段,直接从指令库中随机挑选加入。因此,可以达到作者所说:MiniGPT-4现在能够产生更自然、更可靠的反应。此外,我们观察到模型的微调过程非常高效,只需要400个训练步骤,批量大小为12,使用单个A100 GPU只需7分钟即可完成。

但是miniGPT目前的缺陷也比较明显,因为高质量的图像文本对不够,继承了LLM的局限性,如不可靠的推理能力和幻觉不存在的知识。此外,冻结后的视觉大模型也存在一些缺点,就是对于图像的空间感知能力还不够。如作者所说,使用的冻结Q-former可能会失去一些基本特征,如视觉空间接地。用一个更强的视觉感知模型来取代它,这可能会得到改善。3)只训练一个投影层可能无法提供足够的能力来学习广泛的视觉-文本对齐

72122c9ed620fa4319c4bb875bf2661

(1) 摘要

最近的GPT-4展示了非凡的多模式能力,例如直接从手写文本生成网站识别图像中的幽默元素。这些特征在以前的视觉语言模型中很少观察到。我们认为GPT-4先进的多模态生成能力的主要原因在于使用了更先进的大型语言模型(LLM)。为了研究这一现象,我们提出了MiniGPT-4,它使用一个投影层将冻结的视觉编码器与冻结的LLM, Vicuna对齐。我们的研究结果表明,MiniGPT-4具有许多类似于GPT-4所展示的功能,如详细的图像描述生成和从手写草稿创建网站。此外,我们还观察到MiniGPT-4中的其他新兴功能,包括根据给定图像编写故事和诗歌,为图像中显示的问题提供解决方案,根据食物照片教用户如何烹饪等。在我们的实验中,我们发现只有对原始图像-文本对进行预训练才能产生缺乏连贯性的非自然语言输出,包括重复和句子碎片。为了解决这个问题,我们在第二阶段策划了一个高质量的、对齐良好的数据集,使用会话模板来微调我们的模型。这一步对于增强模型的生成可靠性和整体可用性至关重要。值得注意的是,我们的模型具有很高的计算效率,因为我们只使用大约500万对齐的图像-文本对来训练一个投影层。我们的代码、预训练模型和收集的数据集可在https://minigpt-4.github.io/上获得。

(2) 相关工作

大语言模型。由于训练数据的扩大和参数数量的增加,大型语言模型取得了巨大的成功。早期的BERT[11]、GPT-2[22]、T5[23]等模型为这一进展奠定了基础。随后,大规模的1750亿个参数的GPT-3[4]被引入,在众多语言基准上取得了重大突破。这一发展启发了其他各种大型语言模型的创建,包括Megatron-Turing NLG[28]、Chinchilla[14]、PaLM[9]、OPT[38]、BLOOM[25]和LLaMA[32]等。Wei等人[34]进一步发现了几种只出现在大型模型中的涌现能力。这些能力的出现强调了在大型语言模型的开发中扩展的重要性。此外,通过将预训练的大型语言模型GPT-3与人类意图、指令和人类反馈相结合,InstructGPT[21]和ChatGPT[18]实现了与人类的对话交互,并可以回答各种各样的复杂问题。最近,有几个开源模型,比如Alpaca [30] and Vicuna [8] 都是在LLaMA[32]的基础上发展起来的,也表现出类似的性能。

**在视觉语言任务中利用预训练的LLMs。**近年来,在视觉语言任务中使用自回归语言模型作为解码器的趋势得到了极大的关注[6,15,36,31,2,16,17,12]。这种方法利用了跨模态迁移的优势,允许知识在语言和多模态域之间共享。VisualGPT[6]和Frozen[33]等开创性研究已经证明了使用预训练的语言模型作为视觉语言模型解码器的好处。然后开发了Flamingo[2],使用门控交叉注意来对齐预训练的视觉编码器和语言模型,并在数十亿图像-文本对上进行了训练,展示了令人印象深刻的上下文少镜头学习能力。随后,引入了BLIP-2[16],使用带有Q-Former的Flan-T5[10]有效地将视觉特征与语言模型对齐。最近,具有5620亿个参数的PaLM-E[12]已被开发用于将现实世界的连续传感器模态集成到LLM中,从而建立了现实世界感知与人类语言之间的联系。GPT-4[19]最近也发布了,在对大量对齐的图像-文本数据进行预训练后,显示出更强大的视觉理解和推理能力

llm,例如ChatGPT,已经被证明是通过与其他专业模型协作来增强视觉语言任务性能的强大工具。例如,Visual ChatGPT[35]和MM-REACT[37]展示了ChatGPT如何充当协调器,与不同的可视化基础模型集成,并促进它们的协作,以应对更复杂的挑战。ChatCaptioner[39]将ChatGPT视为提问者,提出各种问题供BLIP-2回答。ChatGPT通过多轮对话,从BLIP-2中提取视觉信息,有效总结图像内容。Video ChatCaptioner[7]扩展了这种方法,将其应用于视频时空理解。ViperGPT[29]展示了将LLM与不同视觉模型结合起来以编程方式解决复杂视觉查询的潜力。相比之下,MiniGPT4直接将视觉信息与语言模型对齐,在不使用外部视觉模型的情况下完成各种视觉语言任务。

(3) 模型

MiniGPT-4旨在将来自预训练视觉编码器的视觉信息与先进的大型语言模型(LLM)对齐。具体来说,我们使用骆马[8]作为我们的语言解码器,它是在骆马[32]的基础上构建的,可以执行广泛的复杂语言任务。对于视觉感知,我们使用与BLIP-2[16]相同的视觉编码器,ViT主干[13]与预训练的Q-Former相结合。语言和视觉模型都是开源的。我们的目标是使用线性投影层弥合视觉编码器和LLM之间的差距,我们的模型概述如图1所示。为了实现有效的MiniGPT-4,我们提出了一个两阶段的训练方法。初始阶段包括在大量对齐的图像-文本对上对模型进行预训练,以获得视觉语言知识。在第二阶段,我们使用更小但高质量的图像文本数据集和设计的会话模板对预训练模型进行微调,以提高模型的生成可靠性和可用性。

image-20230617104434386

图1 MiniGPT-4的架构。它由一个带有预训练ViT和Q-Former的视觉编码器、一个单一的线性投影层和一个先进的Vicuna大型语言模型组成。MiniGPT-4只需要训练线性投影层,使视觉特征与Vicuna对齐。

(3-1) 第一阶段预训练

在初始预训练阶段,该模型旨在从大量对齐的图像-文本对中获取视觉语言知识。我们将注入投影层的输出视为LLM的软提示,提示其生成相应的ground-truth文本。

在整个预训练过程中,预训练的视觉编码器LLM都处于冻结状态,只对线性投影层进行预训练。我们使用Conceptual Caption[5,27]、SBU[20]和LAION[26]的组合数据集来训练我们的模型。我们的模型经历了2万个训练步骤,批处理大小为256,覆盖了大约500万图像-文本对。整个过程大约需要10个小时,使用4个A100 (80GB) gpu。

第一个预训练阶段的问题。在第一个预训练阶段之后,我们的MiniGPT-4展示了拥有丰富知识并对人类查询提供合理响应的能力。然而,我们已经观察到,它在产生连贯的语言输出方面遇到了困难,比如产生重复的单词或句子、碎片化的句子或不相关的内容。这些问题阻碍了MiniGPT-4与人类进行流畅的视觉对话的能力。

我们也注意到GPT-3也面临着类似的问题。尽管在广泛的语言数据集上进行了预训练,但GPT-3不能直接生成符合用户意图的语言输出。通过从人类反馈中进行指令微调和强化学习的过程,GPT-3进化为GPT-3.5[21,18],并能够产生更人性化的输出。这种现象与MiniGPT-4在其初始预训练阶段之后的当前状态相似。因此,在这个阶段,我们的模型可能难以生成流畅和自然的人类语言输出也就不足为奇了

(3-2) 为视觉语言领域策划一个高质量的对齐数据集

为了在生成的语言中实现更大的自然性并增强模型的可用性,第二阶段的对齐过程是必不可少的。虽然在NLP领域,指令微调数据集[30]和对话[1]很容易访问,但在视觉语言领域没有相应的数据集。为了解决这个不足,我们精心策划了一个高质量的图像-文本数据集,专门为对齐目的量身定制。该数据集随后用于在第二阶段对准过程中微调我们的MiniGPT-4。

初始对齐图像文本生成在初始阶段,我们使用从第一个预训练阶段导出的模型来生成给定图像的全面描述。为了使我们的模型能够产生更详细的图像描述,我们设计了一个遵循Vicuna[8]语言模型会话格式的提示符,如下所示:

image-20230617104934402

为了识别不完整的句子,我们检查生成的句子是否超过80个标记。如果没有,我们将加入一个额外的提示符,###Human: Continue ###Assistant:,提示我们的MiniGPT-4扩展生成。通过连接这两个步骤的输出,我们可以创建一个更全面的图像描述。这种方法使我们能够生成更多具有详细和信息丰富的图像描述的图像-文本对。我们从Conceptual Caption数据集中随机选择5000张图像[5,27],并使用这种方法为每张图像生成相应的语言描述

数据后处理生成的图像描述仍然存在较多的噪声和错误,如单词或句子的重复,以及不连贯陈述的存在。为了缓解这些问题,我们使用ChatGPT通过使用下面的提示来改进描述:

image-20230617105037562

在完成后处理阶段后,我们手动验证每张图像描述的正确性,以保证其高质量。具体来说,我们检查每个生成的图像描述是否遵循我们期望的格式,并通过消除ChatGPT无法检测到的冗余单词或句子来手动改进生成的标题。最后,5000对图像-文本对中只有大约3500对满足我们的要求,这些对随后被用于第二阶段的对齐过程

(3-3) 第二阶段微调

在第二阶段,我们用精心策划的高质量图像-文本对我们的预训练模型进行微调。在调优期间,我们在以下模板中使用预定义的提示符:

image-20230617105210508

在这个提示符中,表示从我们预定义的指令集中随机抽样的指令,其中包含各种形式的指令,例如“详细描述此图像”或“您可以为我描述此图像的内容”。需要注意的是,我们没有计算这个特定文本-图像提示的回归损失

因此,MiniGPT-4现在能够产生更自然、更可靠的反应。此外,我们观察到模型的微调过程非常高效,只需要400个训练步骤,批量大小为12,使用单个A100 GPU只需7分钟即可完成。

(4) 实验评价

我们的MiniGPT-4展示了许多与GPT-4类似的功能。这些包括生成详细的图像描述(图2),识别图像中的有趣方面(图3),以及发现不寻常的内容(图4)。此外,该模型可以从手写文本生成网站(图5)。我们还发现,我们的MiniGPT-4还具有其他能力,例如识别图像中的问题并提供解决方案(图6),受图像启发创作诗歌或说唱歌曲(图7),为图像写故事(图8),在图像中为产品做广告(图9),识别个体(图10),提供有见地的图像评论(图11),检索与图像相关的事实(图12),教用户使用给定的照片烹饪食物(图12)。(13)。这些不同的示例展示了我们的MiniGPT-4的强大功能。

(4-1) Limitation

尽管MiniGPT-4处理了许多先进的视觉语言功能,正如我们在演示中所展示的,但它目前仍然面临一些限制。

语言的幻觉。由于minipt -4是建立在LLM的基础上的,它继承了LLM的局限性,如不可靠的推理能力和幻觉不存在的知识。这个问题可以通过使用更多高质量、对齐的图像-文本对来训练模型,或者在将来与更高级的llm对齐来缓解。

感知能力不足。MiniGPT-4的视觉感知仍然有限。它可能很难从图像中识别详细的文本信息,并区分空间定位。这种限制可能源于以下几个因素:1)缺乏足够的对齐图像-文本数据,其中包含足够的信息,如空间定位和光学字符注释。这个问题可以通过在更一致和更丰富的数据上进行训练来缓解。2)视觉编码器中使用的冻结Q-former可能会失去一些基本特征,如视觉空间接地。用一个更强的视觉感知模型来取代它,这可能会得到改善。3)只训练一个投影层可能无法提供足够的能力来学习广泛的视觉-文本对齐

image-20230617105620250

图2 详细的图像描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/656093.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python中对基本文件操作

1.文件的作用 保存数据放在磁盘中 2.打开文件 fopen(‘文件’,‘w’)或者fopen(‘文件’,‘r’) 3.文件操作 3.1 写数据(write) 如果文件不存在那么创建,如果存在那么就先清空,然后写入数据 对象open(“文件”,w) 对象.write(“写入数…

论文浅尝 | 用于推荐的知识自适应对比学习

笔记整理:俞洪涛,浙江大学硕士,研究方向为知识图谱表示学习 链接:https://dl.acm.org/doi/10.1145/3539597.3570483 动机 在基于知识图谱的推荐系统中,用户和项目的交互信息通常会在模型中占主导地位,而KG中…

OPA Gatekeeper对Kubernetes资源操作限制

OPA介绍 Open Policy Agent(OPA,发音为“oh-pa”)是一个开源的通用策略引擎,它统一了堆栈中的策略执行。OPA 提供了一种高级声明性语言,可让您将策略指定为代码和简单的 API,以从您的软件中卸载策略决策制…

第七十六天学习记录:计算机硬件技术基础:Intel系列微处理器

Intel系列微处理器概述 8086/8088微处理器 8086/8088微处理器是英特尔公司于1978年推出的16位处理器,在80年代是个非常流行的芯片,被广泛用于个人电脑和工作站。它是x86家族处理器的一员,被视为现代PC体系结构的基础。 8086/8088微处理器的…

对耳朵伤害最小的耳机类型,列举几款不入耳的骨传导耳机

骨传导耳机是最近几年火爆起来的耳机,它是将声音转化为不同频率的机械振动,通过人的颅骨、骨迷路、内耳淋巴液、螺旋器、听神经、听觉中枢来传递声波。与普通耳机相比最大的区别是声音不经过外耳道,避免了耳道长时间堵塞导致的中耳炎疾病发生…

基于机器学习算法:朴素贝叶斯和SVM 分类-垃圾邮件识别分类系统(含Python工程全源码)

目录 前言总体设计系统整体结构图系统流程图 运行环境Python 环境安装pytesseract注册百度云账号 模块实现1. 数据模块2. 模型构建3. 附加功能 系统测试1. 文字邮件测试准确率2. 网页测试结果 工程源代码下载其它资料下载 前言 本项目采用朴素贝叶斯和支持向量机(S…

石化园区宽带自组网应急通信方案

痛点需求 传统的通信手段在可靠性、即时性、安全性、可视化等方面的能力相对较弱,无法从根本上满足石化园区的应急通信需求。结合某大型石化园区实际需求,现亟需建设一套高可靠、高安全、广覆盖、机动灵活且支持多媒体通信的应急通信系统,以…

阿里云建站主机之虚拟主机、轻量或云服务器ECS

阿里云搭建网站主机可以选择云服务器ECS、云虚拟主机或轻量应用服务器,轻量应用服务器2核2G3M带宽一年108元,2核4G4M带宽轻量服务器一年297.98元12个月,云服务器ECS可以选择通用算力型u1,云虚拟主机共享型119元一年起,…

大数据Doris(四十三):kafka 简单json格式数据导入到Doris

文章目录 kafka 简单json格式数据导入到Doris 一、创建 Doris 表 二、创建 Kafka topic 三、创建 Ro

AI实战营:生成模型+底层视觉+AIGC多模态 算法库MMagic

目录 环境安装 黑白照片上色 文生图-Stable Diffusion 文生图-Dreambooth 图生图-ControlNet-Canny 图生图-ControlNet-Pose 图生图-ControlNet Animation 训练自己的ControlNet 环境安装 mim install mmagicpip install opencv-python pillow matplotlib seaborn tqdm …

阿里二面:使用 Nacos 做注册中心怎么做优雅发布?

大家好,我是君哥。 今天来聊一聊使用 Nacos 做注册中心怎么做优雅发布。 跟其他的注册中心一样,Nacos 作为注册中心的使用如下图: Service Provider 启动后注册到 Nacos Server,Service Consumer 则从 Nacos Server 拉取服务列表…

Unsafe类的使用

目录 一、Unsafe是什么?二、Unsafe对象的获取三、CAS1、相关方法2、demo 四、数组操作五、内存分配六、线程调度 参考于:https://blog.csdn.net/Wisimer/article/details/115220750 一、Unsafe是什么? Unsafe是jdk提供的一个直接访问操作系…

k8s 集群部署尝试

K8S 部署方式有很多,有的方式不太友好,需要注意很多关键点,有的方式对小白比较友好,部署简单方便且高效 二进制源码包的部署方式 使用 二进制源码包的方式部署会比较麻烦,大概分为如下几步: 获取源码包部…

基于abaqus的Huang晶体塑性UMAT改VUMAT

黄永刚院士编写的单晶晶体塑性UMAT,主要用于在Abaqus有限元仿真中进行单晶及多晶晶体塑性变形的计算,是许多科研工作者学习晶体塑性模拟的教学资源。可以在其基础上对硬化模型进行修改,甚至引入损伤。 UMAT主要应用于隐式分析,而…

力扣动态规划专题(二)01背包 416. 分割等和子集 1049.最后一块石头的重量II 494. 目标和 474. 一和零 步骤及C++实现

文章目录 01背包二维dp数组一维dp数组 滚动数组 416. 分割等和子集1049.最后一块石头的重量II494. 目标和474. 一和零 01背包 完全背包的物品数量是无限的,01背包的物品数量只有一个。 有n件物品和一个最多能背重量为w 的背包。第i件物品的重量是weight[i]&#xf…

基于ArcGIS的nc(NETCDF)转tif格式

软件版本:ArcMap10.4.1 nc(NETCDF)是一组独立于机器的软件库支持创建、访问和共享面向阵列的数据格式科学数据,它也是共享科学数据的社区标准。(摘自Unidata官网),被广泛应用于大气、海洋、水文等领域,是我…

stm32读取BH1750光照传感器

stm32读取BH1750光照传感器 一.序言二.BH1750指令三.IIC协议四.代码实例4.1 bh1750.c源文件4.2 bh1750.h头文件 一.序言 BH1750是用IIC协议进行数据传输的。有SCL,SDA,VCC,GND四根线。下图是原理图 二.BH1750指令 我们先看芯片手册的操作指令(下图&a…

直播 RTM 推流在抖音的应用与优化

动手点关注 干货不迷路 背景 随着互联网技术以及网络基建的快速发展和普及,视频直播已经成为了一种越来越普遍的娱乐和社交方式。无论是个人还是企业,都可以通过视频直播平台进行直播活动,向观众展示自己的生活、工作或者产品。同时&#xff…

有什么办法恢复格式后的u盘数据?5个方法,赶紧收藏起来

随着科技的不断进步,U盘已经成为了我们重要的移动存储设备之一,但是在使用过程中,很多人都可能会不小心将U盘格式化导致数据丢失。那么有什么办法恢复格式后的U盘数据?本文将会为您介绍恢复U盘格式化后数据的5种方法,如…

MT6761/MT6762/MT6765核心板模块 demo串口调试

串口调试 如果正在进行lk(little kernel ) 或内核开发,USB 串口适配器( USB 转串口 TTL 适配器的简称)对于检查系统启动日志非常有用,特别是在没有图形桌面显示的情况下。 1. 选购适配器 常用的许多 USB 转串口的适配器&#x…