GPT-4平替版：MiniGPT-4，支持图像理解和对话，现已开源

GPT-4平替版：MiniGPT-4，支持图像理解和对话，现已开源

news2026/2/11 5:44:57

项目地址：https://minigpt-4.github.io/
论文链接：https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
代码：https://github.com/Vision-CAIR/MiniGPT-4
视频：https://youtu.be/__tftoxpBAw
数据集：https://drive.google.com/file/d/1nJXhoEcy3KTExr17I7BXqY5Y9Lx_-n-9/view
Demo地址：https://6b89c70eb5e14dca33.gradio.live/
Demo备选地址1：https://b2517615b965687635.gradio.live/
Demo备选地址2：https://c8de8ff74b6a6c6a9b.gradio.live/
Demo备选地址3：https://0a111504e072685259.gradio.live/
Demo备选地址4：https://90bc0bac96e6457e8f.gradio.live/

Demo界面如下：

MiniGPT-4介绍

阿卜杜拉国王科技大学的研究团队，提出了一个具有类似 GPT-4 图像理解与对话能力的 AI 大模型——MiniGPT-4，并将其开源

MiniGPT-4 由一个带有预训练的 ViT（与BLIP-2一样）和 Q-Former 的视觉编码器、一个单一的线性投影层和一个 Vicuna 大语言模型组成，只训练线性投影层，视觉编码器和Vicuna的参数冻结。模型结构如下图所示：

实验发现，MiniGPT-4 具有出色的多模态能力，如从手写草稿创建网站、生成详细的图像描述、根据图像创作故事和诗歌、为图像中描述的问题提供解决方案，以及根据食物照片教对话对象如何烹饪一道美味的菜品等

MiniGPT-4两阶段fine-tuning

作者采用两阶段fine-tuningMiniGPT-4，第一阶段是在公开数据上微调，第二阶段是构建高质量的对话数据再微调。

First pretraining stage

MiniGPT-4使用一个线性投影层来对齐Vicuna语言编码器和视觉特征。刚开始，使用4个A100GPU以batch大小为256训练了20k个step（训练了10小时），训练数据是LAION，Conceptual Captions和SBU（总共5M数据），数据格式如下所示：

<ImageFeature> 表示是线性投影层得到的视觉特征。

如果生成的句子不够80个tokens，那么就在后面pad ###Human: Continue ###Assistant:

构建第二阶段微调所需要的数据

从Conceptual Caption数据集中随机选择5000个样本，这些样本可能会有噪声或者有错误，使用ChatGPT进行修复这些错误，Prompt如下：

最终人工进行检查，最后整理符合要求的样本有3500个，这些样本将用于第二阶段微调。

Second pretraining stage

第二阶段微调的Prompt数据格式如下：

<Instruction> 是从预定义好的instruction集中随机采样的，比如“Describe this image in detail”或“Could you describe the contents of this image for me”

Note：在计算回归损失函数的时候不计算<Instruction> 这个特殊的Prompt。

这个阶段使用一个A100GPU在batch大小为12的时候，训练400个step，仅仅训练了7分钟。

MiniGPT-4示例

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/563036.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

el-dialog 关闭再打开后窗口内容不刷新问题

el-dialog 关闭再打开后窗口内容不刷新问题

页面中有增加和编辑两个功能,由于弹窗样式都是一样的,于是将它拆分成一个子组件,父组件把状态传给子组件,子组件根据这个状态判断是做编辑操作还是新增操作. 编辑添加问题一:但是这样遇到了一个问题,在编辑时，只有第一次点编辑时，回显的数据才能正确显…

阅读更多...

大学生就业工资低，想转行IT？0基础培训班学习半年云计算出来可以就业吗？挑战高薪职业！

大学生就业工资低，想转行IT？0基础培训班学习半年云计算出来可以就业吗？挑战高薪职业！

大学生就业工资低，想转行IT？0基础学习云计算可以就业吗？ 大学生就业工资低，想转行IT？0基础培训班学习半年云计算出来可以就业吗？这是一个很常见的问题，也是很多大学毕业生关心的话题。根据我了解…

阅读更多...

探索2023年海外网红营销合作方式：提升品牌曝光度的创新策略

探索2023年海外网红营销合作方式：提升品牌曝光度的创新策略

随着社交媒体的崛起和用户对网红的追捧，海外网红营销已经成为品牌推广的不可忽视的一部分。在2023年，有7种最火爆的海外网红营销合作方式备受瞩目。本文Nox聚星将和大家一起来详细了解这7种方式，为品牌提供更多营销灵感和策略。 1、跨平台合作…

阅读更多...

Codeforces Round 834 (Div. 3)

Codeforces Round 834 (Div. 3)

题集链接 Codeforces Round 834 A. Yes-Yes?B. Lost PermutationC. Thermostat A. Yes-Yes? Example input 12 YES esYes codeforces es se YesY esYesYesYesYesYesYe seY Yess sY o Yesoutput NO YES NO YES NO YES YES NO NO YES NO YES题意&题解： 其实就…

阅读更多...

Windows环境下安装及部署Nginx教程（含多个站点部署）

Windows环境下安装及部署Nginx教程（含多个站点部署）

目录一、下载安装Nginx 二、部署Nginx 三、多站点部署的情况 1、nginx域名解析，虚拟主机： 四、带https的站点如何部署，与http的有何不同点？ 一、下载安装Nginx 1、官网下载地址：https://nginx.org/en/download.h…

阅读更多...

$2022 年第四届河南省 CCPC 大学生程序设计竞赛vp补题$

2022 年第四届河南省 CCPC 大学生程序设计竞赛vp补题

Dashboard - 2022 CCPC Henan Provincial Collegiate Programming Contest - Codeforces Problem B. Hash 思路： 发现31的次幂取模的答案，所以如果一段太长肯定不如拆成2段。首先如果一段长度为7,那么无论他的开头是a,eh,n的谁,都有val>31^6887503…

阅读更多...

0基础学习VR全景平台篇第29章：场景功能-音乐解说

0基础学习VR全景平台篇第29章：场景功能-音乐解说

本期为大家带来蛙色VR平台，场景管理模块-音乐功能！ 功能位置示意一、本功能将用在哪里？ 优秀VR全景作品不仅注重视觉的体验，接入契合场景的背景音乐与解说； 可将音乐与解说进行全局播放或进行分场景播放&#xff0…

阅读更多...

前端学习--Vue(4) 生命周期

前端学习--Vue(4) 生命周期

一、组件的生命周期一个组件从创建-运行-销毁的真个阶段，强调的是一个时间段 1.1 生命周期函数 1.1.1 创建 （只执行一次） created() 阶段任务：最早可以使用methods中的方法发起ajax请求获取数据，并将数据挂载到d…

阅读更多...

论文阅读笔记（三）——有监督解耦+信息瓶颈

论文阅读笔记（三）——有监督解耦+信息瓶颈

论文信息《Disentangled Information Bottleneck》论文地址：https://ojs.aaai.org/index.php/AAAI/article/view/17120 代码地址：GitHub - PanZiqiAI/disentangled-information-bottleneck inproceedings{pan2021disentangled, title{Disentangled in…

阅读更多...

vue3与vue2共存环境搭建

vue3与vue2共存环境搭建

1、全局安装vue2 npm install vue-cli -g2、自行在任意位置创建一个文件夹，局部安装vue3 npm初始化 npm initnpm初始化提示： 初始化后出现文件package.json 如果没有初始化会报错，且文件夹中不会新增内容 3、局部安装vue3 npm install …

阅读更多...

一名优秀的黑客，具备的有哪些特质

一名优秀的黑客，具备的有哪些特质

想要成为网络hacker黑客？十个必会的特质一、基本的计算机知识把它列为第一条，相信很多人肯定会觉得不以为然，其实掌握必要的计算机知识对黑客入门非常重要。这些包括：计算机硬件的组成、操作系统的安装、Windows批处理命令、命…

阅读更多...

LeetCode_DFS_困难_1377.T 秒后青蛙的位置

LeetCode_DFS_困难_1377.T 秒后青蛙的位置

目录 1.题目2.思路3.代码实现（Java） 1.题目给你一棵由 n 个顶点组成的无向树，顶点编号从 1 到 n。青蛙从顶点 1 开始起跳。规则如下： 在一秒内，青蛙从它所在的当前顶点跳到另一个未访问过的顶点（如果它…

阅读更多...

apt remove purge的区别删除包的同时删除配置文件

apt remove purge的区别删除包的同时删除配置文件

1、apt remove purge的区别查看 man apt apt remove：删除软件包，不删除配置文件。这么做的目的是将来再次安装这个包时原来的配置文件会自动加载供使用。也可以避免误删除包，配置文件还在的话，重新安装一次软件包就可以恢复到…

阅读更多...

亚马逊云科技出海日6月9日盛夏盛启

亚马逊云科技出海日6月9日盛夏盛启

向全球价值链上游奋进中国企业增强国际竞争力的关键，是努力朝全球价值链上游奋进，发力技术出海。中国的出海新机遇，背后曾是疫情在全球按下数字互联和数字化升级的快进键，跨境电商、在线社交、移动支付、数字服务等数字经济迎来…

阅读更多...

Spring 学习总结（37）—— 了解什么是单体的模块化，Spring Modulith 入门实践

Spring 学习总结（37）—— 了解什么是单体的模块化，Spring Modulith 入门实践

1、介绍模块化单体是一种架构风格，代码是根据模块的概念构成的。对于许多组织而言，模块化单体可能是一个很好的选择。它有助于保持一定程度的独立性，这有助于我们在需要的时候轻松过渡到微服务架构。Spring Modulith 是 Spring 的一个实验项目，可用于构建模块化单体应用…

阅读更多...

《消息队列高手课》课程笔记（一）

《消息队列高手课》课程笔记（一）

消息生态系统全景图为什么需要消息队列？ 异步处理大多数程序员在面试中，应该都问过或被问过一个经典却没有标准答案的问题：如何设计一个秒杀系统？ 这个问题可以有一百个版本的合理答案，但大多数答案中都离不开消息…

阅读更多...

马蹄集oj赛（第五次）

马蹄集oj赛（第五次）

目录围栏木桩某农场有一个由按编号排列的根木桩构成的首尾不相连的围栏。现要在这个围栏中选取一些木桩，按照原有的编号次序排列之后，这些木桩高度成一个升序序列。大厨小码哥附庸的附庸最长子段和旅费纸带暧昧团上楼梯上楼梯2 采蜜围栏…

阅读更多...

Spring 学习总结（36）—— Spring 状态机优雅实践

Spring 学习总结（36）—— Spring 状态机优雅实践

1、什么是状态机 1.1 什么是状态先来解释什么是“状态”（ State ）。现实事物是有不同状态的，例如一个自动门，就有 open 和 closed 两种状态。我们通常所说的状态机是有限状态机，也就是被描述的事物的状态的数量是有限个，例如自动门的状态就是两个 open 和 closed 。状…

阅读更多...

Mybatisplus真实高效批量插入附容错机制

Mybatisplus真实高效批量插入附容错机制

文章目录概要优化技术细节小结概要提示：mybatisplus自带真实批量插入在mybatisplus已知常用批量插入为继承Iservice里的saveBatch方法和saveOrUpdateBatch方法， 进入源码可知，此两种方法的插入均为单条插入,如图: 其中可看出&#xff0…

阅读更多...

果汁脱色树脂，制糖行业脱色，医药行业脱色

果汁脱色树脂，制糖行业脱色，医药行业脱色

具有控制孔径的大孔强碱性Ⅰ型阴特种脱色用离子交换树脂 Tulsimer A-722是一款具有便于颜色和有机物去除的控制孔径的，专门开发的大孔强碱性Ⅰ型阴离子交换树脂。 Tulsimer A-722 （氯型）专门应用于糖浆脱色。 Tulsimer A-722由于其本身…

阅读更多...

推荐文章

最新文章