多模态GPT:国内发布一款可以在线使用的多模态聊天机器人!快来把玩~

news2024/12/23 5:46:01

37e900fbe5f04eb4d1dc1f488b414938.png论文: MultiModal-GPT: A Vision and Language Model for Dialogue with Humans
代码: https://github.com/open-mmlab/Multimodal-GPT (包含代码、数据、demo)
作者:OpenMMLab

深度学习自然语言处理 原创
作者: 林哲乐

使用视觉和语言指令训练一个多模态聊天机器人

基于开源多模态模型 OpenFlamingo,作者使用公开数据集创建了各种视觉指令数据,包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话。此外,还使用仅包含语言指令数据的语言模型组件进行了训练。

视觉和语言指令的联合训练有效提高了模型的性能!

具体细节就跟随小编继续往下看看吧~

总结

本文提出一种多模态GPT(视觉、语言),与人类进行多轮对话,同时设计了统一化多模态的指令数据模板

能够遵循的指令类型:生成详细的标题、计算特定的对象、处理一般的询问

基准模型:OpenFlamingo(用LoRA方式训练)

联合训练的数据:1.纯文本数据  2.图像-文本数据

其他的一些多模态GPT模型:GPT-4[1]、Mini-GPT[2]、LLaVA[3]

提到的其他LLM:Vicuna[4]、LLaMA[5]

提到的其他数据集:VQA v2.0、Ok-vqa、GQA、CLEVR、NLVR

1.引言

  • 人类交流/理解世界的方式:视觉、语言等

  • AI智能助手的作用:根据多种模态的指令,理解人类意图,完成各种任务

  • 之前的方法:将视觉表示与LLM的输入空间对齐,随后利用LLM中的原始自我注意来处理视觉信息

  • 本文的方法:微调Flamingo(开源)

    • 视觉编码器

    • 门限交叉注意力机制

    • 预训练使用“图文对”数据

    • 统一多模态的指令模板

    • 语言数据、语言-视觉数据,进行联合训练

  • 本文目标:在多模态对话任务上,接近人的性能表现

2.统一指令模板

主要是提出了一个统一的训练数据模板,把以下两种数据整合起来,提高模型理解能力

2.1 仅语言的指令模板

9f9a0b403a511a7cb3cb24f7a56f5c9f.png
仅包含语言的指令提示模板

{instruction}, {input}为输入文本,{response} ,<EOS> 用于计算损失

使用数据

  • Dolly 15k数据集

  • Alpaca GPT4数据集

2.2 视觉-语言的指令模板

7b044cda79fac7a501048a6994fbb04e.png
包含视觉-语言的指令提示模板

其中,{question} 是原始文本,<image_token>是表示图像存在的token,{response}、<EOS> 用于计算损失

使用数据集

  • LLaVA

  • Mini-GPT4

  • A-OKVQA

  • COCO caption (不直接作为训练集,而是用GPT-4转化,再加入训练集)

  • OCR VQA

上述合成指令使得训练集较为丰富,则模型能够更健壮

图像描述的指令,举例如下:a92215a6591512173b85b99184e50f02.png

本文方法

c1b47041183d7d868320f31ca63386f7.png
模型结构图

基线模型:open-flamingo模型

组成

  • 视觉编码器:CLIP

  • 感知重采样

  • 语言解码器:LLaMA (自注意力、交叉注意力、FFW中加入LoRA,便于微调)

训练数据:用2.1和2.2两种数据,进行联合训练

训练过程:通过预测文本的下一个标记进行训练,只有{responce}和标记参与损失计算

4.实验

实验设置

实验参数取值
GPUA100 * 8
epoch1
batch_size1
LoRA参数更新每16轮
learning rate1e-5

Demos展示:

  • 给出一个烤千层面的食谱,并告诉用户在哪里吃到它cabbf668e03d4bfee672b1e0bf47e6a0.png

  • 能够识别埃隆·马斯克的形象,并回答关于埃隆·马斯克的问题e254694c6de303028c16110bc28cbc8d.png

  • 我知道照片上有4个女人,也知道她们在做什么1eb3e69029ec1a15b448d136fd83c17f.png

  • 认得出电影,也知道电影是由哪个电影公司制作的4123a41d9f1f1004b0b7bd1eb3b16a30.png

  • 能识别图像中的人物,并认识该书的作者31bf5ff62e591cd9159cb84654f5063e.png

  • 可以回答关于用户旅行的一般问题98784747c9453ce335a89e5f02ef5231.png

  • 可以为图像生成详细的描述,并有能力推理得到在图像中的季节28662b872acf87b606ddb754d8ca7fc2.png

在线网站

感兴趣可以去官方网站[6]去尝试下,真的很棒!点击阅读原文也可直达!

855cee5ae9592ff8267a0b33c63df057.png
缺点是好像只支持英文~

后台回复:入群,加入NLP交流大群~

参考资料

[1]

OpenAI. Gpt-4 technical report. 2023: https://cdn.openai.com/papers/gpt-4.pdf

[2]

Minigpt-4: Enhancing vision-language understanding with advanced large language models: https://arxiv.org/pdf/2304.10592.pdf

[3]

Visual Instruction Tuning: https://arxiv.org/pdf/2304.08485.pdf

[4]

Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality: https://lmsys.org/blog/2023-03-30-vicuna/

[5]

Llama: Openand efficient foundation language models: https://arxiv.org/pdf/2302.13971.pdf

[6]

官方网站: https://mmgpt.openmmlab.org.cn/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/516333.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux基础学习---3、时间日期类、用户管理命令、用户组管理命令

1、时间日期类 1、基本语法date [Option] ...[Format]2、选项说明 选项功能-d<时间字符串>显示指定的“时间字符串”表示的时间&#xff0c;而非当前时间-s<日期时间>设置日期时间 3、参数说明 参数功能<日期时间格式>指定显示时使用的日期时间格式 1.1…

一、数据库设计

整个项目的设计包括5个数据库&#xff1a; glkt_activity:优惠券的相关设计 glkt_order:订单的相关设计 glkt_user:得到微信授权的账号信息的相关设计 glkt_vod:课程信息的相关设计 glkt_wechat:微信公众号的相关设计 glkt_activity&#xff1a; coupon_info:优惠券的信息 cou…

java+iClient Openlayers实现土壤墒情旱情灾害模拟预报预警分析

应用及软件实现效果图&#xff1a; 一、应用背景 作为一个农村长大的人&#xff0c;我非常关注自然灾害和气候变化对土地旱情墒情影响。近年来&#xff0c;干旱和洪涝灾害在很多地方频繁发生&#xff0c;给人们的生命财产安全带来了极大的威胁。因此&#xff0c;旱情和墒情模拟…

在计算语义相似度中,我看网上说要加range,我不知道往哪里加?

点击上方“Python爬虫与数据挖掘”&#xff0c;进行关注 回复“书籍”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 行宫见月伤心色&#xff0c;夜雨闻铃肠断声。 大家好&#xff0c;我是皮皮。 一、前言 前几天在Python白银交流群【王王雪饼】问了一个Python处理语义相…

Python学习历程-元组的基本操作回顾

在学习元组之前&#xff0c;我们先再回过头看看之前写过的文章&#xff0c;看看列表的一些基本操作&#xff1a; Python中的列表介绍 记录我的Python学习历程-列表的基本操作&#xff0c; 接下来再快速回顾一下元组的一些重点&#xff1a; 列表属于可变序列&#xff0c;元组、字…

Powerlink协议使用极简入门教程

网上关于powerlink协议的知识太少&#xff0c;而且都太分散太零碎&#xff0c;容易让人一头扎进去摸不着头绪。新手看到demo源码可能都不知道有什么用途&#xff0c;怎么能联动的跑起来看到效果&#xff0c;有种无从下手的感觉。其实Powerlink协议的使用挺简单&#xff0c;特别…

STM32F4_光敏传感器

目录 1. 什么是光敏传感器、光敏电阻 2. 硬件分析 3. 实验程序 3.1 main.c 3.2 ADC3.c 3.3 ADC3.h 3.4 Lightsensor.c 3.5 Lightsensor.h 1. 什么是光敏传感器、光敏电阻 光敏传感器也称为光电传感器。是利用光电器件把光信号转换成电信号的一种传感器。它的敏感波长在…

opencv实践项目-多张图片拼接之stitcher

目录 1.简介2. 拼接算法流程3. 代码演示 1.简介 OpenCV从2.4.x版本之后多出来一个新的模型 图像拼接&#xff0c;该模块通过简单的高级API设置&#xff0c;可以获得比较好的图像拼接效果&#xff0c;OpenCV官方提供了一个高度集成的API函数 Stitcher&#xff0c;只要两行代码就…

SRE/DevOps不得不懂的:Prometheus的配置工程化!

原创不易&#xff0c;还请关注和转发&#xff5e;谢谢 背景 Prometheus有两个最基本的组件&#xff1a;一个是Prometheus程序&#xff0c;一个是Alertmanager程序。 它们的职责分工很明确&#xff1a; • Prometheus程序负责&#xff1a;定时拉取监控指标数据、存储指标数据、根…

谈谈IOC容器和AOP编程

Java发展的路途中&#xff0c;由刚开始的使用new创建对象&#xff0c;到使用抽象类&#xff0c;接口进行解耦&#xff0c;又到了提问时刻&#xff0c;什么是耦合度&#xff1f; 对于这个对象的关联和依赖关系&#xff0c;例如&#xff1a; 当一个对象要使用&#xff0c;但是&…

4.6k Star,SpringBoot+Vue+App+硬件实现的智能家居系统,一套带走

今天&#xff0c;推荐一个智能家居系统项目。这是我目前见过的最好的智能家居系统项目&#xff0c;功能完整&#xff0c;代码结构清晰。值得推荐。 4.6k Star&#xff0c;SpringBootVueApp硬件实现的智能家居系统&#xff0c;一套带走 简介 FastBee是一个简单易用的物联网平…

Cocos Shader实现HSL和RGB颜色模型

HSL和RGB是两种常见的颜色模型&#xff0c;被广泛应用于计算机图形学、数字图像处理、Web设计等领域。在进行颜色处理时&#xff0c;经常需要将HSL和RGB相互转换&#xff0c;本demo演示如何通过Cocos Creator 3.7游戏引擎&#xff0c;用HSL模型来调节图片颜色&#xff0c;并详细…

徐培:以数据智能技术助力制造型企业降本增效

导语 2023年4月7日&#xff0c;由中国DBA联盟&#xff08;ACDU&#xff09;和墨天轮社区联合主办的第十二届『数据技术嘉年华』(DTC 2023) 在北京新云南皇冠假日酒店盛大开启。次日&#xff0c;云和恩墨数据智能产品部总经理徐培博士在“智胜未来&#xff1a;数据技术创新应用”…

二、讲师管理接口开发总结

首先本项目将实体类单独放在model包中&#xff0c;方便后期集体的调用&#xff1a; 整个项目的建包结构都是在java包中建立com.lxl.ggkt包&#xff0c;方便后期包路径的扫描。 上述有三个包&#xff1a; enums包规定了一些状态规定&#xff0c;比如优惠券是否使用&#xff0c…

CVE-2017-7921漏洞复现

文章目录 漏洞描述 漏洞描述 0x01 CVE-2017-7921漏洞复现 许多HikvisionIP摄像机包含一个后门&#xff0c;允许未经身份验证的模拟任何配置的用户帐户。 0x02 漏洞复现&#xff1a; 利用工具发现漏洞&#xff08;CVE-2017-7921&#xff09;&#xff1a; 利用路径&#xff…

“数字裂变”宇宙,华为云与和伙伴组成“银河护卫队”

最近&#xff0c;《银河护卫队3》正在上映&#xff0c;取得了豆瓣高分和全网好评。很多朋友走出电影院都感叹&#xff0c;真想有像银河护卫队一样的朋友和伙伴。 “伙伴”这个词&#xff0c;不仅是超级英雄电影的内核&#xff0c;更是云计算产业的“新贵”。关注云产业的朋友可…

Go项目组织:在单一repo中管理多个Go module指南

0. 单repo单module管理回顾 众所周知&#xff0c;Go在1.11版本中引入了go module[1]&#xff0c;随着近几年Go module机制的逐渐成熟&#xff0c;它已经被Go团队确定为Go标准的依赖管理与构建方案&#xff0c;原先的GOPATH mode已经被彻底废弃。 在Go module模式下&#xff0c;…

C++——类和对象(5)

作者&#xff1a;几冬雪来 时间&#xff1a;2023年5月8日 内容&#xff1a;C类和对象内容讲解 目录 前言&#xff1a; 1.操作符重载&#xff08;续&#xff09;&#xff1a; 前置和后置&#xff1a; 日期减日期&#xff1a; <<操作符&#xff1a; 结尾&#xff…

智能里既有技术也有艺术

智能不仅仅是技术方面的创新和应用&#xff0c;也是一种艺术的体现。智能技术需要融合多个学科和领域的知识&#xff0c;包括计算机科学、数学、心理学、哲学、人文艺术、宗教民俗等等&#xff0c;从而形成一个完整的系统。这个系统的设计和实现&#xff0c;需要技术人员具备深…

跟着我学 AI丨“Hey,Siri”的前生今世

Siri 是由苹果公司开发的一款智能语音助手&#xff0c;它可以通过语音识别和自然语言处理来回答用户的问题、执行任务、提供建议等等。Siri 可以在 iOS 和 macOS 设备上使用&#xff0c;它的出现极大地改变了人机交互的方式&#xff0c;让我们用语音成为了交互的媒介。 Siri 的…