多模态GPT：国内发布一款可以在线使用的多模态聊天机器人！快来把玩~

多模态GPT：国内发布一款可以在线使用的多模态聊天机器人！快来把玩~

news2026/3/10 1:17:46

论文: MultiModal-GPT: A Vision and Language Model for Dialogue with Humans
代码: https://github.com/open-mmlab/Multimodal-GPT （包含代码、数据、demo）
作者：OpenMMLab

深度学习自然语言处理原创
作者: 林哲乐

使用视觉和语言指令训练一个多模态聊天机器人！

基于开源多模态模型 OpenFlamingo，作者使用公开数据集创建了各种视觉指令数据，包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话。此外，还使用仅包含语言指令数据的语言模型组件进行了训练。

视觉和语言指令的联合训练有效提高了模型的性能！

具体细节就跟随小编继续往下看看吧~

总结

本文提出一种多模态GPT（视觉、语言），与人类进行多轮对话，同时设计了统一化多模态的指令数据模板

能够遵循的指令类型：生成详细的标题、计算特定的对象、处理一般的询问

基准模型：OpenFlamingo（用LoRA方式训练）

联合训练的数据：1.纯文本数据 2.图像-文本数据

其他的一些多模态GPT模型：GPT-4^[1]、Mini-GPT^[2]、LLaVA^[3]

提到的其他LLM：Vicuna^[4]、LLaMA^[5]

提到的其他数据集：VQA v2.0、Ok-vqa、GQA、CLEVR、NLVR

1.引言

人类交流/理解世界的方式：视觉、语言等
AI智能助手的作用：根据多种模态的指令，理解人类意图，完成各种任务
之前的方法：将视觉表示与LLM的输入空间对齐，随后利用LLM中的原始自我注意来处理视觉信息
本文的方法：微调Flamingo（开源）
- 视觉编码器
- 门限交叉注意力机制
- 预训练使用“图文对”数据
- 统一多模态的指令模板
- 语言数据、语言-视觉数据，进行联合训练
本文目标：在多模态对话任务上，接近人的性能表现

2.统一指令模板

主要是提出了一个统一的训练数据模板，把以下两种数据整合起来，提高模型理解能力

2.1 仅语言的指令模板

仅包含语言的指令提示模板

{instruction}, {input}为输入文本，{response} ，<EOS> 用于计算损失

使用数据：

Dolly 15k数据集
Alpaca GPT4数据集

2.2 视觉-语言的指令模板

包含视觉-语言的指令提示模板

其中，{question} 是原始文本，<image_token>是表示图像存在的token，{response}、<EOS> 用于计算损失

使用数据集：

LLaVA
Mini-GPT4
A-OKVQA
COCO caption （不直接作为训练集，而是用GPT-4转化，再加入训练集）
OCR VQA

上述合成指令使得训练集较为丰富，则模型能够更健壮

图像描述的指令，举例如下：

本文方法

模型结构图

基线模型：open-flamingo模型

组成：

视觉编码器：CLIP
感知重采样
语言解码器：LLaMA （自注意力、交叉注意力、FFW中加入LoRA，便于微调）

训练数据：用2.1和2.2两种数据，进行联合训练

训练过程：通过预测文本的下一个标记进行训练，只有{responce}和标记参与损失计算

4.实验

实验设置：

实验参数	取值
GPU	A100 * 8
epoch	1
batch_size	1
LoRA参数更新	每16轮
learning rate	1e-5

Demos展示：

给出一个烤千层面的食谱，并告诉用户在哪里吃到它
能够识别埃隆·马斯克的形象，并回答关于埃隆·马斯克的问题
我知道照片上有4个女人，也知道她们在做什么
认得出电影，也知道电影是由哪个电影公司制作的
能识别图像中的人物，并认识该书的作者
可以回答关于用户旅行的一般问题
可以为图像生成详细的描述，并有能力推理得到在图像中的季节

在线网站

感兴趣可以去官方网站^[6]去尝试下，真的很棒！点击阅读原文也可直达！

缺点是好像只支持英文~

后台回复：入群，加入NLP交流大群~

参考资料

[1]

OpenAI. Gpt-4 technical report. 2023: https://cdn.openai.com/papers/gpt-4.pdf

[2]

Minigpt-4: Enhancing vision-language understanding with advanced large language models: https://arxiv.org/pdf/2304.10592.pdf

[3]

Visual Instruction Tuning: https://arxiv.org/pdf/2304.08485.pdf

[4]

Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality: https://lmsys.org/blog/2023-03-30-vicuna/

[5]

Llama: Openand efficient foundation language models: https://arxiv.org/pdf/2302.13971.pdf

[6]

官方网站: https://mmgpt.openmmlab.org.cn/

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/516333.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Linux基础学习---3、时间日期类、用户管理命令、用户组管理命令

Linux基础学习---3、时间日期类、用户管理命令、用户组管理命令

1、时间日期类 1、基本语法date [Option] ...[Format]2、选项说明选项功能-d<时间字符串>显示指定的“时间字符串”表示的时间，而非当前时间-s<日期时间>设置日期时间 3、参数说明参数功能<日期时间格式>指定显示时使用的日期时间格式 1.1…

阅读更多...

一、数据库设计

一、数据库设计

整个项目的设计包括5个数据库： glkt_activity:优惠券的相关设计 glkt_order:订单的相关设计 glkt_user:得到微信授权的账号信息的相关设计 glkt_vod:课程信息的相关设计 glkt_wechat:微信公众号的相关设计 glkt_activity： coupon_info:优惠券的信息 cou…

阅读更多...

java+iClient Openlayers实现土壤墒情旱情灾害模拟预报预警分析

java+iClient Openlayers实现土壤墒情旱情灾害模拟预报预警分析

应用及软件实现效果图： 一、应用背景作为一个农村长大的人，我非常关注自然灾害和气候变化对土地旱情墒情影响。近年来，干旱和洪涝灾害在很多地方频繁发生，给人们的生命财产安全带来了极大的威胁。因此，旱情和墒情模拟…

阅读更多...

在计算语义相似度中，我看网上说要加range，我不知道往哪里加？

在计算语义相似度中，我看网上说要加range，我不知道往哪里加？

点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤行宫见月伤心色，夜雨闻铃肠断声。大家好，我是皮皮。一、前言前几天在Python白银交流群【王王雪饼】问了一个Python处理语义相…

阅读更多...

Python学习历程-元组的基本操作回顾

Python学习历程-元组的基本操作回顾

在学习元组之前，我们先再回过头看看之前写过的文章，看看列表的一些基本操作： Python中的列表介绍记录我的Python学习历程-列表的基本操作， 接下来再快速回顾一下元组的一些重点： 列表属于可变序列，元组、字…

阅读更多...

Powerlink协议使用极简入门教程

Powerlink协议使用极简入门教程

网上关于powerlink协议的知识太少，而且都太分散太零碎，容易让人一头扎进去摸不着头绪。新手看到demo源码可能都不知道有什么用途，怎么能联动的跑起来看到效果，有种无从下手的感觉。其实Powerlink协议的使用挺简单，特别…

阅读更多...

STM32F4_光敏传感器

STM32F4_光敏传感器

目录 1. 什么是光敏传感器、光敏电阻 2. 硬件分析 3. 实验程序 3.1 main.c 3.2 ADC3.c 3.3 ADC3.h 3.4 Lightsensor.c 3.5 Lightsensor.h 1. 什么是光敏传感器、光敏电阻光敏传感器也称为光电传感器。是利用光电器件把光信号转换成电信号的一种传感器。它的敏感波长在…

阅读更多...

opencv实践项目-多张图片拼接之stitcher

opencv实践项目-多张图片拼接之stitcher

目录 1.简介2. 拼接算法流程3. 代码演示 1.简介 OpenCV从2.4.x版本之后多出来一个新的模型图像拼接，该模块通过简单的高级API设置，可以获得比较好的图像拼接效果，OpenCV官方提供了一个高度集成的API函数 Stitcher，只要两行代码就…

阅读更多...

SRE/DevOps不得不懂的：Prometheus的配置工程化！

SRE/DevOps不得不懂的：Prometheus的配置工程化！

原创不易，还请关注和转发～谢谢背景 Prometheus有两个最基本的组件：一个是Prometheus程序，一个是Alertmanager程序。它们的职责分工很明确： • Prometheus程序负责：定时拉取监控指标数据、存储指标数据、根…

阅读更多...

谈谈IOC容器和AOP编程

谈谈IOC容器和AOP编程

Java发展的路途中，由刚开始的使用new创建对象，到使用抽象类，接口进行解耦，又到了提问时刻，什么是耦合度？ 对于这个对象的关联和依赖关系，例如： 当一个对象要使用，但是&…

阅读更多...

4.6k Star，SpringBoot+Vue+App+硬件实现的智能家居系统，一套带走

4.6k Star，SpringBoot+Vue+App+硬件实现的智能家居系统，一套带走

今天，推荐一个智能家居系统项目。这是我目前见过的最好的智能家居系统项目，功能完整，代码结构清晰。值得推荐。 4.6k Star，SpringBootVueApp硬件实现的智能家居系统，一套带走简介 FastBee是一个简单易用的物联网平…

阅读更多...

Cocos Shader实现HSL和RGB颜色模型

Cocos Shader实现HSL和RGB颜色模型

HSL和RGB是两种常见的颜色模型，被广泛应用于计算机图形学、数字图像处理、Web设计等领域。在进行颜色处理时，经常需要将HSL和RGB相互转换，本demo演示如何通过Cocos Creator 3.7游戏引擎，用HSL模型来调节图片颜色，并详细…

阅读更多...

徐培：以数据智能技术助力制造型企业降本增效

徐培：以数据智能技术助力制造型企业降本增效

导语 2023年4月7日，由中国DBA联盟（ACDU）和墨天轮社区联合主办的第十二届『数据技术嘉年华』(DTC 2023) 在北京新云南皇冠假日酒店盛大开启。次日，云和恩墨数据智能产品部总经理徐培博士在“智胜未来：数据技术创新应用”…

阅读更多...

二、讲师管理接口开发总结

二、讲师管理接口开发总结

首先本项目将实体类单独放在model包中，方便后期集体的调用： 整个项目的建包结构都是在java包中建立com.lxl.ggkt包，方便后期包路径的扫描。上述有三个包： enums包规定了一些状态规定，比如优惠券是否使用&#xff0c…

阅读更多...

CVE-2017-7921漏洞复现

CVE-2017-7921漏洞复现

文章目录漏洞描述漏洞描述 0x01 CVE-2017-7921漏洞复现许多HikvisionIP摄像机包含一个后门，允许未经身份验证的模拟任何配置的用户帐户。 0x02 漏洞复现： 利用工具发现漏洞（CVE-2017-7921）： 利用路径&#xff…

阅读更多...

“数字裂变”宇宙，华为云与和伙伴组成“银河护卫队”

“数字裂变”宇宙，华为云与和伙伴组成“银河护卫队”

最近，《银河护卫队3》正在上映，取得了豆瓣高分和全网好评。很多朋友走出电影院都感叹，真想有像银河护卫队一样的朋友和伙伴。 “伙伴”这个词，不仅是超级英雄电影的内核，更是云计算产业的“新贵”。关注云产业的朋友可…

阅读更多...

Go项目组织：在单一repo中管理多个Go module指南

Go项目组织：在单一repo中管理多个Go module指南

0. 单repo单module管理回顾众所周知，Go在1.11版本中引入了go module[1]，随着近几年Go module机制的逐渐成熟，它已经被Go团队确定为Go标准的依赖管理与构建方案，原先的GOPATH mode已经被彻底废弃。在Go module模式下，…

阅读更多...

C++——类和对象（5）

C++——类和对象（5）

作者：几冬雪来时间：2023年5月8日内容：C类和对象内容讲解目录前言： 1.操作符重载（续）： 前置和后置： 日期减日期： <<操作符： 结尾&#xff…

阅读更多...

智能里既有技术也有艺术

智能里既有技术也有艺术

智能不仅仅是技术方面的创新和应用，也是一种艺术的体现。智能技术需要融合多个学科和领域的知识，包括计算机科学、数学、心理学、哲学、人文艺术、宗教民俗等等，从而形成一个完整的系统。这个系统的设计和实现，需要技术人员具备深…

阅读更多...

跟着我学 AI丨“Hey，Siri”的前生今世

跟着我学 AI丨“Hey，Siri”的前生今世

Siri 是由苹果公司开发的一款智能语音助手，它可以通过语音识别和自然语言处理来回答用户的问题、执行任务、提供建议等等。Siri 可以在 iOS 和 macOS 设备上使用，它的出现极大地改变了人机交互的方式，让我们用语音成为了交互的媒介。 Siri 的…

阅读更多...

推荐文章

最新文章