MiniGPT-4，开源了！

news2026/2/9 1:28:52

上个月GPT-4发布时，我曾写过一篇文章分享过有关GPT-4的几个关键信息。

当时的分享就提到了GPT-4的一个重要特性，那就是多模态能力。

比如发布会上演示的，输入一幅图（手套掉下去会怎么样？）。

GPT-4可以理解并输出给到：它会掉到木板上，并且球会被弹飞。

再比如给GPT-4一张长相奇怪的充电器图片，问为什么这很可笑？

GPT-4回答道，VGA 线充 iPhone。

用户甚至还可以直接画一个网站草图拍照丢给GPT-4，它就可以立马帮助生成代码。

但是时间过去了这么久，GPT-4像这样的识图功能也迟迟没有开放。

就在大家都在等待这个功能开放的时候，一个名为MiniGPT-4的开源项目悄悄做了这件事情。

https://github.com/Vision-CAIR/MiniGPT-4

没错，就是为了增强视觉语言理解。

MiniGPT-4背后团队来自KAUST（沙特阿卜杜拉国王科技大学），是几位博士开发的。

项目除了是开源的之外，而且还提供了网页版的demo，用户可以直接进去体验。

MiniGPT-4也是基于一些开源大模型来训练得到的。

团队把图像编码器与开源语言模型Vicuna（小羊驼）整合起来，并且冻结了两者的大部分参数，只需要训练很少一部分。

训练分为两个阶段。

传统预训练阶段，在4张A100上使用500万图文对，10个小时内就可以完成，此时训练出来的Vicuna已能够理解图像，但生成能力有限。

然后在第二个调优阶段再用一些小的高质量数据集进行训练。这时候的计算效率很高，单卡A100只需要7分钟。

并且团队正在准备一个更轻量级的版本，部署起来只需要23GB显存，这也就意味着未来可以在一些消费级的显卡中或许就可以进行本地训练了。

这里也给大家看几个例子。

比如丢一张食物的照片进去来获得菜谱。

或者给出一张商品的照片来让其帮忙写一篇文案。

当然也可以像之前GPT-4发布会上演示的那样，画出一个网页，让其帮忙生成代码。

可以说，GPT-4发布会上演示过的功能，MiniGPT-4基本也都有。

这一点可以说非常amazing了！

可能由于目前使用的人比较多，在MiniGPT-4网页demo上试用时会遇到排队的情况，需要在队列中等待。

但是用户也可以自行本地部署服务，过程并不复杂。

首先是下载项目&准备环境：

git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4

然后下载预训练模型：

最后在本地启动Demo：

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml

通过这个项目我们也再一次看出大模型在视觉领域的可行性，未来在图像、音频、视频等方面的应用前景应该也是非常不错的，我们可以期待一下。

好了，今天的分享就到这里了，感谢大家的收看，我们下期见。

注：本文在GitHub开源仓库「编程之路」 https://github.com/rd2coding/Road2Coding 中已经收录，里面有我整理的6大编程方向(岗位)的自学路线+知识点大梳理、面试考点、我的简历、几本硬核pdf笔记，以及程序员生活和感悟，欢迎star。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/463237.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

MiniGPT-4，开源了！

相关文章

基于51单片机的差分双路电压检测（基于ADC0832)

二战失利，剩下的路？

如何使用chatGPT生成小红书种草文案

小米青春版路由器刷openwrt

JAVA的BIO、NIO、AIO模式精解（一）

[江西专升本/信息技术]计算机网络基础

effective c++ item30-34

【车道线算法】GANet-车道线检测环境配置一文通关

ArcGIS Pro工程

子元素选择器

【MySQL高级】——用户与权限管理

序列检测和序列发生器——verilog代码实现

HTML基础标签

学系统集成项目管理工程师（中项）系列12_干系人管理

如何解决宝塔面板nginx占用80端口的问题

windows中python安装保姆教程

ChatGLM-6B的P-Tuning微调详细步骤及结果验证

＜＜c和指针＞＞温故及问题研讨(第三章)

数据库基础篇《18.MySQL8其它新特性》

GPT详细安装教程-GPT软件国内也能使用