Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

news2024/9/30 4:28:53

85f0e78d188637c4961a62393a6a84b7.gif

©Paperweekly 原创 · 作者 | Chunyuan Li

使用 GPT-4 进行视觉指令学习!Visual Instruction Tuning with GPT-4!

ebd2fcdb8d616b50c8c7199d3387c42b.jpeg

▲ Generated by GLIGEN (https://gligen.github.io/): A cute lava llama and glasses

我们分享了 LLaVA (Language-and-Vision Assistant),一款展示了某些近似多模态 GPT-4 水平能力的语言和视觉助手:

  • 视觉聊天 (Visual Chat):相对得分达到了 GPT-4 的 85%

  • 多模态推理任务的科学问答 (Science QA):达到了新的 SoTA 92.53%,超过了之前的最先进的方法:多模态思维链技术 (multimodal chain-of-thoughts)

c5285aae30741d53c0c44808e00edfdf.png

▲ 构建一个包含30张未见图像的评估数据集,其中每个图像都关联着三种类型的指令:对话、详细描述和复杂推理。这样总共有90个新的语言-图像指令,我们进行了LLaVA和GPT-4的评测,并使用GPT-4将它们的结果从1到10进行评分。每种类型的总分和相对分数都被报告。LLaVA相对于GPT-4达到了85.1%的相对分数

b8ec994fe7c907fafc41ec78fe6ef756.png

项目主页 Project Page:

https://llava-vl.github.io/

论文 Paper:

https://arxiv.org/abs/2304.08485

代码 GitHub:

https://github.com/haotian-liu/LLaVA

演示 Demo:

https://llava.hliu.cc/

数据 Data (158K unique language-image instruction-following samples):

https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K

模型 Model (LLaVA-13B):

https://huggingface.co/liuhaotian/LLaVA-13b-delta-v0

ee2da94544c8c61f9636aa0d93ecb19f.png

学习总结

我总结目前为止的项目主要体验:

1. 多模态指令跟踪数据(Multimodal Instruction-following Data) 

毫无疑问,数据质量是这个项目的关键。我们大部分时间都在迭代新的指令数据。在这个数据为中心(Data-Centric)的项目中,需要考虑以下因素:图像的符号化表示(包括 Caption & Boxes)、ChatGPT vs GPT-4、提示工程(Prompt Engineering)等。 

看到学术圈一直以来没有这类数据,我们开源了我们最新一个版本的数据,希望能启发更多人沿着这个道路去探索。

2. 视觉对话(Visual Chat)

LLaVA 在涉及面向用户应用的聊天过程中表现出非常强的泛化能力,尽管只是在不到 1M CC/COCO 数据的训练下进行的。 

(a) 强大的多模态推理能力:GPT-4技术报告中的两个基于图像的推理示例,一度以为难以企及,利用LLaVA现在可以轻松复现。

c10cf9a755675e7bd8a65906ee349ff7.png

360e23b0ebfdb25e92b1a6cc3cadc6ba.png

(b) 强大的 OCR 文字识别能力:请看我刚刚制作的一些示例。它能识别 CVPR、我们的举办的 Computer Vision in the Wild (CVinW) Workshop 的标志的图片,和 LLaVA 本身相关的照片。

CVinW Workshop:

https://github.com/Computer-Vision-in-the-Wild

2781ed6162df63c794cb04daffe10240.png

a7551e5d402fd17589734fb3bb5888e5.png

7a2470936e2850812f3afff9d6354b81.png

3. 科学问答(Science QA)

单独使用 LLaVA 实现了 90.92% 的准确率。我们使用仅文本的 GPT-4 作为评判者,根据其自身先前的答案和 LLaVA 的答案预测最终答案。这种“GPT-4 作为评判者”的方案产生了新的 SOTA 92.53%。令人惊讶的是,GPT-4 可以作为一种有效的模型集成方法!这些结果希望启发大家以后刷榜的时候,可以利用 GPT-4 这个神奇来集成不同方法。

df98d2257e482ea0a817b812e84dc50f.png

总的来说,LLaVA 展示了一种非常有前途的方法,启发大家复现且超越 GPT-4 的多模态能力。

更多阅读

ed7c3bd7fb88492514eb05fbad24cc8d.png

4daa040579cb58f8e3396f1131d353dd.png

492074845d605afe084a85bb68d9c99f.png

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

a63155a435ee027c0060e725c8b61fc3.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/438015.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

linux工具gcc/g++/gdb/git的使用

目录 gcc/g 基本概念 指令集 函数库 (重要) gdb使用 基本概念 指令集 项目自动化构建工具make/makefile 进度条小程序 ​编辑 git三板斧 创建仓库 git add git commit git push git status git log gcc/g 基本概念 gcc/g称为编译器…

集合详解之(五)Map集合

文章目录 🐒个人主页🏅JavaSE系列专栏📖前言:🎀Map集合的介绍🪅如何保证键的不重复性?(equals()与hashCode()方法的联用)🎀HashMap集合及常用方法&#x1f38…

电能计量自动化系统在用电管理上的应用

【摘要】:电能计量自动化系统在用电管理上的应用,不仅能够实现远程自动抄表,减少企业在人力资源成本上的投入,切实地维护企业的核心利益,创造出更多的经济效益。还能够通过装置在线监测与配网防窥电功能实现对电能计量…

D. Tokitsukaze, CSL and Stone Game(博弈)

Problem - D - Codeforces 时津风和CSL正在玩一个石头的小游戏。 一开始,有n个石子堆,其中第ii堆有aiai石子。两位玩家轮流走棋。时津风先走。每一回合,棋手选择一个非空的棋堆,并从该棋堆中准确地取出一块石头。如果在轮到他之前…

2 路 500MSPS/1GSPS/1.25GSPS 14 位直流耦合 AD 采集 FMC 子卡模块

板卡概述 FMC155 是一款基于 VITA57.1 标准的,实现 2 路 14-bit、 500MSPS/1GSPS/1.25GSPS 直流耦合 ADC 同步采集 FMC 子卡模 块。该模块遵循 VITA57.1 规范,可直接与 FPGA 载卡配合使用,板 卡 ADC 器件采用 ADI 的 AD9680 芯片&#xf…

Python每日一练(20230420)

目录 1. 数组逐位判断 🌟 2. 交错字符串 🌟🌟 3. 二进制求和 🌟 4. 四舍六入五成双规则 🌟 🌟 每日一练刷题专栏 🌟 Golang每日一练 专栏 Python每日一练 专栏 C/C每日一练 专栏 J…

12、HOOK原理下

一、去符号和恢复符号 1.1 Stip和 Strip Type解释 strip在iOS中的作用是 剥掉目标文件中一些符号信息和调试信息,使文件变小。dead code strip : 死代码剥离、然后再去链接。那么strip在哪些地方不能起作用呢? 动态库 不能strip全局符号、因…

Windows下使用SSH密钥实现免密登陆Linux服务器

工具: win10、WinSCP 生成ssh密钥: 打开终端,使账号密码登录,输入命令 ssh-keygen -t rsa 会提示密钥存放路径,一般存放在默认路径,直接回车即可,中间会提示输入密码,这里需要注…

工作流自动化和RPA自动化,哪个更适合你?

2018年,一款名为《Overcooked!2》(又名“胡闹厨房”、“分手厨房”)的多人合作模拟类游戏风靡全球,在游戏中,玩家扮演厨师在充满各种障碍和危险的厨房里准备食材、烹饪、上菜和清理,需要在尽可能短的时间内…

window11开启wsl2

前言 以前玩linux,总是习惯装双系统,其实双系统特别麻烦。wsl现在的功能其实挺强大的,完全可以代替双系统,去完成一些在linux上的环境搭建。这篇文章记录下window11如何开启wsl2功能,并且安装ubuntu系统。 开启wsl2功…

2023自助洗车店系统解决方案共享洗车无人洗车风口

2021年中国汽车保有量预计超6.3亿辆,洗车市场需求巨大,传统洗车投资大、费用贵、成本高耗水大、占地面积大,而自助洗车机占据传统洗车耗水量1/4 ,占地面积1/70 ;节能环保得到政府的大力支持,且结合信息物联技术,实现智能化管理,高效能运营,灵活便捷服务,符合智慧城市发展原则,成…

开放式耳机有什么好处,列举几款性能高的开放式蓝牙耳机

骨传导耳机也称为“不入耳式”耳机,是一种通过颅骨、骨迷路、内耳淋巴液和听神经之间的信号传导,来达到听力保护目的的一种技术。由于它可以开放双耳,所以在跑步、骑行等运动时使用十分安全,可以避免外界的干扰。这种耳机在佩戴时…

AAAI 2023 | 基于Conductance的高效率和高质量的图聚类算法

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! ╱ 作者简介╱ 林隆龙 博士、副教授 目前任职于西南大学计算机与信息科学学院 软件学院。2022年6月于华中科技大学计算机科学与技术学院获博士学位。目前主要研究兴趣包括(时序)社区挖掘、局部聚类、Personaliz…

Altium Designer 20 导出 Gerber 制造文件流程及注意事项

一、导出 Gerber 流程 设置原点:在Edit菜单中选择Origin-Set (快捷键E-O-S)定好原点,一般放在左下角附近即可。 放置分孔图表:在Place菜单中选择String放置“.Legend”(快捷键P-S)…

C++多线程编程(一) thread类初窥

多线程编程使我们的程序能够同时执行多项任务。 在C11以前,C没有标准的多线程库,只能使用C语言中的pthread,在C11之后,C标准库中增加了thread类用于多线程编程。thread类其实是对pthread的封装,不过更加好用&#xff…

ThreadLocal的相关面试题

ThreadLocal的特点:实现线程间的资源隔离,实现线程内的资源共享 2.原理是,每个线程都有一个ThreadLocalMap类型的成员变量,用来储存资源对象 1.调用set方法,就是以ThreadLocal自己作为key,资源对象作为val…

《花雕学AI》比尔・盖茨:AI 和 ChatGPT 可以改善人类生活,但也要防止滥用和危害

3月21号,微软创始人比尔盖茨,发表最新AI文章《人工智能时代已经开始——人工智能与手机、互联网一样具有革命性》,文章中表示:「自1980年首次看到图形用户界面(graphical user interface)以来,O…

通过logstash实现mysql与es的双向数据同步

参考题目 一种基于MySQL和Elasticsearch的数据同步方法及系统基于MySQL和Elasticsearch的数据同步方法一种基于MySQL和Elasticsearch的数据同步系统基于MySQL和Elasticsearch的数据同步技术 目录 1【理论调研】 方案1:使用Logstash实现数据同步 方案2&#xff1a…

Spring MVC基本认识与操作

SpringMVC是隶属于Spring框架的一部分,主要是用来进行Web开发,是对Servlet进行了封装。 先来介绍三个概念: SpringMVC是处于Web层的框架,所以其主要的作用就是用来接收前端发过来的请求和数据然后经过处理并将处理的结果响应给前…

SpringCloud 微服务系列——【基础与服务注册中心详解】

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…