MiniGPT-4原理解读——大模型论文阅读笔记三

MiniGPT-4原理解读——大模型论文阅读笔记三

news2026/2/11 23:22:39

论文：https://arxiv.org/pdf/2304.10592v1.pdf
代码：https://github.com/vision-cair/minigpt-4

一. 作者动机

GPT-4展示了非凡的多模态能力，比如直接从手写文本生成网站，以及识别图像中的幽默元素。这些特性在以前的视觉语言模型中很少见。我们认为GPT-4具有先进的多模态生成能力的主要原因在于利用了更先进的大型语言模型（LLM）。然而，大语言模型和视觉模型训练起来比较消耗资源，作者提出了MiniGPT-4，它将一个冻结的视觉编码器与一个冻结的LLM（Vicuna）对齐，仅训练一个投影层，达到类似GPT-4的效果。

二. 算法架构

在这里插入图片描述
图1 大型语言模型的结构示意图：MiniGPT-4由一个具有预训练ViT和Q-Former的视觉编码器、一个线性投影层和一个高级Vicuna大型语言模型组成。MiniGPT-4只需要训练线性投影层，将视觉特征与Vicuna对齐。

三. 训练细节

预训练阶段
在初始的预训练阶段，模型旨在从大量对齐的图像文本对中获取视觉语言知识。我们将从注入的投影层输出的结果视为LLM的软提示，促使其生成相应的真实文本。
微调阶段
使用筛选出的高质量图像文本对对预训练模型进行微调。在微调过程中，我们使用以下模板中预定义的提示语：

在这个提示语中，表示从我们预定义的指令集中随机抽取的指令，包括“详细描述这张图片”或“能否为我描述一下这张图片的内容”等不同形式的指令。需要注意的是，我们不会针对这个特定的文本-图像提示计算回归损失。

四. 论文点评

训练大模型很耗资源，而作者整个训练过程需要约10小时，利用4个A100（80GB）GPU完成。这样给普通人或者研究者提供了方向，降低了训练门槛。

阅读推荐：https://zhuanlan.zhihu.com/p/626206324

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/688997.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Scrum敏捷看板工具在项目管理中的作用

Scrum敏捷看板工具在项目管理中的作用

Scrum是迭代式增量软件开发过程，是敏捷方法论中的重要框架之一，通常用于敏捷软件开发。当开发团队在用 Scrum 这种开发方法开发项目时，可以利用敏捷看板，可视化透明且灵活的高效的完成工作。使用敏捷看板可以使： …

阅读更多...

ChatGPT批量生成文章软件：创意无限，助力高效创作

ChatGPT批量生成文章软件：创意无限，助力高效创作

随着人工智能技术的不断发展，ChatGPT批量生成文章软件成为了一种强大的创作工具。这款软件以其无限创意和高效助力，极大地提升了文章创作的效率。在本文中，我们将从多个方面详细阐述ChatGPT软件的特点和优势。一、智能创作能力 ChatGPT软件…

阅读更多...

2023年5月青少年机器人技术等级考试理论综合试卷（一级）

2023年5月青少年机器人技术等级考试理论综合试卷（一级）

青少年机器人技术等级考试理论综合试卷（一级）2023.6 分数： 100 题数： 45 一、单选题(共 30 题， 共 60 分) 1.机器人的电源相当于人类的？ （ ） A.大脑 B.皮肤 C.血管 D.心脏标准答案…

阅读更多...

赛效：如何将PDF文件转成图片

赛效：如何将PDF文件转成图片

1：打开PDF文件，登录账号之后，点击“文档转换”里的“PDF转图片”。 2：在转换页面，点击“上传文件”，将电脑本地的PDF文件添加到页面上去。 3：在右侧图片分辨率下拉菜单里，选择自己需…

阅读更多...

Vue3学习(三)前后端数据交互

Vue3学习(三)前后端数据交互

一、前后端分离 IDEA软件、JDK1.8、Mysql5.7、Navicat、SpringBoot2.x pom配置阿里云仓库 <repositories><repository><id>nexus-aliyun</id><name>nexus-aliyun</name><url>http://maven.aliyun.com/nexus/content/groups/public/…

阅读更多...

JavaWeb网络安全-弱口令自查

JavaWeb网络安全-弱口令自查

1.背景项目中，创建用户没有校验密码强度，弱口令会导致一系列安全问题。然而用户表数据加密加盐，我们无法直接知道哪些用户使用了弱口令。网络安全的首要步骤是检查系统中的弱口令。一旦网络攻击者获取了我们的弱口令并成功登录系统&#x…

阅读更多...

利用MAP函数计算一系类数字的平方

利用MAP函数计算一系类数字的平方

1 问题如何使用map函数计算一系列数字平方。 2 方法通过使用定义函数（add），创建一个list，包含这一系列数字，再使用map函数。通过实验、实践等证明提出的方法是有效的，是能够解决开头提出的问题。代码清…

阅读更多...

linux更改 docker 为非 root 用户运行

linux更改 docker 为非 root 用户运行

首先创建docker用户组，如果docker用户组存在可以忽略 sudo groupadd docker把用户添加进docker组中 sudo gpasswd -a ${user} docker使用普通账户重启docker sudo service docker restart使用root用户修改/var/run/docker.sock权限 sudo chmod arw /var/run/doc…

阅读更多...

【Flink】Flink 中的时间和窗口之水位线(Watermark)

【Flink】Flink 中的时间和窗口之水位线(Watermark)

1. 时间语义这里先介绍一下什么是时间语义，时间语义在Flink中是一种很重要的概念，下面介绍的水位线就是基于时间语义来讲的。在Flink中我们提到的时间语义一般指的是事件时间和处理时间： 处理时间(Processing Time)，一般指执…

阅读更多...

git介绍和安装/git,github，gitee，gitlab区别/git使用流程/ git常用命令/git忽略文件

git介绍和安装/git,github，gitee，gitlab区别/git使用流程/ git常用命令/git忽略文件

git介绍和安装 # 版本管理软件-1 对代码版本进行管理---》首页功能完成---》课程功能完成---》可以回退到某个版本-2 协同开发--》多人开发--》合并代码---》可能会有冲突，解决冲突# 版本管理软件：主流就两个-git：现在用的最多（学…

阅读更多...

100天精通Golang（基础入门篇）——第10天：Go语言中的数组

100天精通Golang（基础入门篇）——第10天：Go语言中的数组

🌷 博主 libin9iOak带您 Go to Golang Language.✨ 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》文章图文并茂🦕生动形象🦖简单易学！欢迎大家来踩踩~🌺 🌊 《I…

阅读更多...

python与adb无缝衔接控制手机(手机截屏实例)

python与adb无缝衔接控制手机(手机截屏实例)

目录连接常用操作截图到PC端使用pure-python-adb库可以实现python控制手机，支持input输入，支持shell命令，支持pull/push上传下载文件等。安装库：pip install pure-python-adb 电脑端需要安装adb程序，在命令行…

阅读更多...

技术管理第二板斧建团队-建机制

技术管理第二板斧建团队-建机制

1.机制作用？ 站在团队的角度，建机制尤为重要，你要通过机制让团队有统一的行为与规则，让组织像人一样，言行举止有规律可循。听起来很容易，可要设计一个有效、持续发挥作用的机制并不简单。你不但清晰地认识…

阅读更多...

10 Debug功能及方法简述

10 Debug功能及方法简述

常见的Debug方法原文链接：MDK5 Debug调试方法总结_keil5debug调试_小z不会累～的博客-CSDN博客连接好硬件DAP之后，需要进行一些设置开始仿真调试 Debug调试按钮分别对应的功能按钮1->reset复位按钮按钮2->run按钮，程序运…

阅读更多...

Keil V5版本开发STM32缺少PACKDFP解决办法（Error Flash Downloadfailed-“Cortex-M7）

Keil V5版本开发STM32缺少PACKDFP解决办法（Error Flash Downloadfailed-“Cortex-M7）

Keil V5版本开发STM32缺少PACKDFP解决办法 Error Flash Downloadfailed-“Cortex-M7 这个网址里有各个固件包的最新版，下载速度快，滋溜一下就下好啦固件包

阅读更多...

CISP-PTE-考前综合题记录

CISP-PTE-考前综合题记录

CISP-PTE-考前综合题记录 http://10.1.10.71/（文件上传传不上去） 获取key6 端口扫描只扫到80端口开放输入用户名密码，抓包对Authorization Basic的值进行base64解码，为爆破做准备猜测用户名为admin,所有留下admin:这一段…

阅读更多...

设计模式第15讲——模板模式（Template）

设计模式第15讲——模板模式（Template）

目录一、什么是模板模式二、角色组成三、优缺点四、应用场景 4.1 生活场景 4.2 java场景五、代码实现 5.0 代码结构 5.1 OrderFood——抽象类（Abstract） 5.2 具体类（Concrete Class） 5.3 testTemplate 六、总结…

阅读更多...

JMeter工具使用

JMeter工具使用

1. Jmeter设置语言为简体中文 2. Jmeter添加线程组 3. Jmeter添加http请求 4. Jmeter添加数据统计结果 5. JMeterAddress Already in use 错误解决 windows本身提供的端口访问机制的问题。 Windows提供给 TCP/IP链接的端口为1024-5000，并且要四分钟来循环回收他们。…

阅读更多...

PostgreSQL

PostgreSQL

一. PostgreSQL 简介 1 资料来源： 中文手册：http://www.postgres.cn/docs/14/index.html 知乎链接：https://www.zhihu.com/column/c_1452567507496689664 视频链接：https://www.bilibili.com/video/BV1uW4y1m7pD/?spm_id_frompa…

阅读更多...

win下docker安装和使用

win下docker安装和使用

安装下载安装包：https://docs.docker.com/desktop/install/windows-install/ 下载 Linux 内核更新包适用于 x64 计算机的 WSL2 Linux 内核更新包解决docker下载镜像速度慢问题阿里云镜像加速器：https://阿里ID.mirror.aliyuncs.com 复制上面镜像…

阅读更多...

推荐文章

最新文章