微软出品,166页深度解读,多模态GPT-4V

news2024/12/27 10:54:40

多模态王炸大模型GPT-4V,166页“说明书”重磅发布!而且还是微软团队出品。

什么样的论文,能写出166页?

不仅详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示;

还传授了一整套多模态大模型提示词使用技巧——

手把手教你从0到1学会写提示词,回答专业程度一看就懂,属实是把GPT-4V的使用门槛打到不存在了。

在这里插入图片描述

值得一提的是,这篇论文的作者也是“全华班”,7名作者全部是华人,领衔的是一位在微软工作了17年的女性首席研究经理。

在166页报告发布前,他们还参与了OpenAI最新DALL·E 3的研究,对这个领域了解颇深。

相比OpenAI的18页GPT-4V论文,这篇166页“食用指南”一发布,立刻被奉为GPT-4V用户必读之物:

在这里插入图片描述


有网友感慨:这哪里是论文,这简直快成一本166页的小书了。

在这里插入图片描述

还有网友看完已经感到慌了:

不要只看GPT-4V的回答细节,我真的对AI展现出来的潜在能力感到害怕。

在这里插入图片描述

所以,微软这篇“论文”究竟讲了啥,又展现出了GPT-4V的哪些“潜力”?

微软166页报告讲了啥?
这篇论文钻研GPT-4V的方法,核心就靠一个字——“试”。

微软研究员们设计了涵盖多个领域的一系列输入,将它们喂给GPT-4V,并观察和记录GPT-4V的输出。

随后,他们对GPT-4V完成各类任务的能力进行评估,还给出了使用GPT-4V的新提示词技巧,具体包括4大方面:

1、GPT-4V的用法:

5种使用方式:输入图像(images)、子图像(sub-images)、文本(texts)、场景文本(scene texts)和视觉指针(visual pointers)。

3种支持的能力:指令遵循(instruction following)、思维链(chain-of-thoughts)、上下文少样本学习(in-context few-shot learning)。

例如这是基于思维链变更提问方式后,GPT-4V展现出的指令遵循能力:

在这里插入图片描述


2、GPT-4V在10大任务中的表现:

开放世界视觉理解(open-world visual understanding)、视觉描述(visual description)、多模态知识(multimodal knowledge)、常识(commonsense)、场景文本理解(scene text understandin)、文档推理(document reasoning)、写代码(coding)、时间推理(temporal reasonin)、抽象推理(abstract reasoning)、情感理解(emotion understanding)

其中就包括这种,需要一些智商才能做出来的“图像推理题”:

在这里插入图片描述


3、类GPT-4V多模态大模型的提示词技巧:

提出了一种新的多模态提示词技巧“视觉参考提示”(visual referring prompting),可以通过直接编辑输入图像来指示感兴趣的任务,并结合其他提示词技巧使用。

在这里插入图片描述


4、多模态大模型的研究&落地潜力:

预测了多模态学习研究人员应该关注的2类领域,包括落地(潜在应用场景)和研究方向。

例如这是研究人员发现的GPT-4V可用场景之一——故障检测:

在这里插入图片描述


但无论是新的提示词技巧、还是GPT-4V的应用场景,大伙儿最关注的还是GPT-4V的真正实力。

在这里插入图片描述


所以,这份“说明书”随后用了150多页来展示各种demo,详细剧透了GPT-4V在面对不同回答时展现出的能力。

一起来看看GPT-4V如今的多模态能力进化到哪一步了。

精通专业领域图像,还能现学知识
图像识别
最基础的识别自然是不在话下,比如科技、体育界以及娱乐圈的各路名人:

在这里插入图片描述


而且不仅能看出这些人是谁,还能解读他们正在做什么,比如下图中老黄正在介绍英伟达新推出的显卡产品。

在这里插入图片描述


除了人物,地标建筑对于GPT-4V来说同样是小菜一碟,不仅能判断名称和所在地,还能给出详细的介绍。

在这里插入图片描述

​△左:纽约时代广场,右:京都金阁寺
不过越是有名的人和地点,判断起来也就越容易,所以要难度更大的图才能展现GPT-4V的能力。

比如医学影像,针对下面这张肺部CT,GPT-4V给出了这样的结论:

双肺多个区域存在实变和磨玻璃混浊,肺部可能存在感染或炎症。右肺上叶也可能有肿块或结节。

在这里插入图片描述

甚至不告诉GPT-4V影像的种类和位置,它自己也能判断。

这张图中,GPT-4V成功识别出了这是一张脑部的核磁共振(MRI)影像。

同时,GPT-4V还发现存在大量积液,认为很可能是高级别脑胶质瘤。

经过专业人士判断,GPT-4V给出的结论完全正确。


除了这些“正经”的内容之外,当代人类社会的“非物质文化遗产”表情包也被GPT-4V给拿捏了。


△机器翻译,仅供参考
不仅是解读表情包中的梗,真实世界中人类的表情所表达的情感也能被GPT-4看穿。

在这里插入图片描述


除了这些真·图像之外,文本识别也是机器视觉中的一项重要任务。

这方面,GPT-4V除了可以识别拉丁文字拼写的语言之外,中文、日文、希腊文等其他文字也都认识。

在这里插入图片描述


甚至是手写的数学公式:

在这里插入图片描述


图像推理
前面展示的DEMO,无论多么专业或多么难懂,都还停留在识别的范畴,但这只是GPT-4V技能的冰山一角。

除了看懂图片中的内容,GPT-4V还具有一定的推理能力。

简单一些的,GPT-4V可以发现两张图中的不同(虽然还有些错误)。

下面的一组图中,王冠和蝴蝶结的区别都被GPT-4V发现了。

在这里插入图片描述


如果加大难度,GPT-4V还能解决IQ测试当中的图形问题。

在这里插入图片描述
在这里插入图片描述


上面的这三道题中的特征或逻辑关系都还比较简单,但接下来就要上难度了:

当然难度不是在于图形本身,注意图中的第4条文字说明,原题目中图形的排列方式不是图中展示的样子。
在这里插入图片描述


图片标注
除了用文本回答各种问题,GPT-4V还可以在图片中执行一系列操作。

比如我们手里有一张四位AI巨头的合影,要GPT-4V框出其中的人物并标注他们的姓名和简介。

在这里插入图片描述


GPT-4V先是用文本回答了这些问题,紧接着便给出了处理之后的图片:

在这里插入图片描述


动态内容分析
除了这些静态内容,GPT-4V还能做动态分析,不过不是直接喂给模型一段视频。

下面的五张图是从一段制作寿司的教程视频中截取的,GPT-4V的任务是(在理解内容的基础上)推测这些图片出现的顺序。

在这里插入图片描述


而针对同一系列的图片,可能会有不同的理解方式,这是GPT-4V会结合文本提示进行判断。

比如下面的一组图中,人的动作究竟是开门还是关门,会导致排序结果截然相反。

在这里插入图片描述


当然,通过多张图片中人物状态的变化,还可以推测出他们正在做的事情。
在这里插入图片描述


甚至是预测接下来会发生什么:

在这里插入图片描述


“现场学习”
GPT-4V不仅视觉本领强,关键是还能现学现卖。

还是举个例子,让GPT-4V读汽车仪表盘,一开始得出的答案是错误的:

在这里插入图片描述


紧接着把方法用文字交给GPT-4V,但这是的答案依然不对:

在这里插入图片描述


然后又把例子展示给GPT-4V,答案倒是有样学样,可惜数字是胡编乱造出来的。
在这里插入图片描述


只有一个例子的确是有点少,不过随着样本数量的提高(其实只多了一个),终于功夫不负有心人,GPT-4V给出了正确答案。

在这里插入图片描述


GPT-4V的效果就展示这么多,当然它还支持更多的领域和任务,这里无法一一展示,感兴趣的话可以阅读原始报告。

那么,GPT-4V这些神器的效果背后,是怎样的一个团队呢?

清华校友领衔
这篇论文的作者一共有7位,均为华人,其中6位是核心作者。
在这里插入图片描述


项目领衔作者Lijuan Wang,是微软云计算与AI首席研究经理。

在这里插入图片描述


她本科毕业于华中科技大学,在中国清华大学获得博士学位,于2006年加入微软亚洲研究院,并于2016年加入位于雷德蒙德的微软研究院。

她的研究领域是基于多模态感知智能的深度学习和机器学习,具体又包括视觉语言模型预训练、图像字幕生成、目标检测等AI技术。

原文地址:
https://arxiv.org/abs/2309.17421

本文来源量子位,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1073637.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++ 学习 ㉖】- 布隆过滤器详解(哈希扩展)

目录 一、布隆过滤器的简介 二、布隆过滤器的实现 2.1 - BloomFilter.h 2.2 - test.cpp 一、布隆过滤器的简介 布隆过滤器(Bloom Filter)是由 Burton Howard Bloom 在 1970 年提出的一种紧凑型的、比较巧妙的概率型数据结构(probabilist…

阿里云服务器全方位介绍——看这一篇就够了

阿里云服务器ECS英文全程Elastic Compute Service,云服务器ECS是一种安全可靠、弹性可伸缩的云计算服务,阿里云提供多种云服务器ECS实例规格,如经济型e实例、通用算力型u1、ECS计算型c7、通用型g7、GPU实例等,阿小云axiaoyun.com分…

模拟pdf运行js脚本触发xss攻击及防攻击

一、引入pdfbox依赖 <dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>3.0.0</version> </dependency> 二、生成一个带js脚本的pdf文件 //Creating PDF document object PDDocum…

OpenAI更新不会代码也可进行模型微调

OpenAI已经更新了他们的微调功能&#xff0c;提供了一个直观的用户界面&#xff0c;使用户能够在不编写任何代码的情况下进行模型的微调。 01 通过微调截图可以看到 1. Fine-tuning&#xff1a;这是微调功能的主页面。您可以看到选项卡&#xff0c;如"All", &quo…

java.lang.OutOfMemoryError: GC overhead limit exceeded

Bug信息 Executor task launch worker for task XXXXXX ERROR Executor: Exception in task XX.X in stage X.X (TID XXXXXX) java.lang.OutOfMemoryError: GC overhead limit exceededBug本质原因 Executor内存不足 Executor内存管理 堆内和堆外内存规划 作为一个 JVM 进…

NPM- 滚动进度可视化插件

目录 progress-scroll 滚动进度插件&#x1f4e6; 体验&#x1f30d; 安装&#x1f6f9; 注入&#x1f389; 配置 &#x1f916; 使用方法&#x1f4dd; 使用示例 Demo.vue &#x1f48c; 原理 progress-scroll 滚动进度插件 &#x1f916;&#x1f389;&#x1f389; 您的 进度…

零售业的技术演变:远程支持软件的作用

如果你在零售业工作了一段时间&#xff0c;那么你可能已经亲眼目睹了科技给该行业带来的巨大变化。从在笨重的收银机上统计销售额到保留手写的库存清单&#xff0c;一切都是手动操作的日子已经一去不复返了。今天&#xff0c;这是一个全新的世界。零售技术以惊人的速度发展&…

宝塔面板二次元透明主题美化模板

看惯了宝塔面板默认风格模板&#xff0c;我们可以试试自己美化修改&#xff0c;我的站长站知道一款非常漂亮的宝塔面板二次元透明主题美化模板&#xff0c;美不美大家看下图&#xff0c;分享给大家。 下载&#xff1a;飞猫盘&#xff5c;文件加速传输工具&#xff5c;云盘&…

【java学习】特殊流程控制语句(8)

文章目录 1. break语句2. continue语句3. return语句4. 特殊流程语句控制说明 1. break语句 break语句用于终止某个语句块的执行&#xff0c;终止当前所在循环。 语法结构&#xff1a; {  ......     break;     ...... } 例子如下&#xff1a; &#xff08;1&…

(部署服务器系列二)服务器上安装springboot运行环境,发布并运行项目

上篇文章已经安装CentOS&#xff0c;并且通过桥接连接上内网和外网&#xff0c;接下来我们先安装springboot项目运行环境&#xff0c;用XShell远程连接CentOS 1、下载安装JDK 下载的JDK版本要和开发的项目一致&#xff0c;下载后用xftp工具传输到 /usr/local/src 目录下 镜像…

[Linux] Linux文件编程 1.1 文件打开及创建

该内容较多&#xff0c;包含了文件系统原理及访问机制、文件在内核中的管理机制、文件信息节点inode、文件共享、文件权限…… 按照实际的应用场景&#xff1a;账单、游戏进度、配置文件…… Windows手动编写文档&#xff1a;打开/创建文档编辑文档保存文档关闭文档 Linux系统…

Linux系统中实现便捷运维管理和远程访问的1Panel部署方法

文章目录 前言1. Linux 安装1Panel2. 安装cpolar内网穿透3. 配置1Panel公网访问地址4. 公网远程访问1Panel管理界面5. 固定1Panel公网地址 前言 1Panel 是一个现代化、开源的 Linux 服务器运维管理面板。高效管理,通过 Web 端轻松管理 Linux 服务器&#xff0c;包括主机监控、…

SpringCloud学习二

基本介绍&#xff1a; Eureka Server&#xff08;Eureka 服务端&#xff09;是Netflix开源的一款用于构建分布式系统中的服务发现和注册中心的组件。它在微服务架构中扮演着关键的角色&#xff0c;允许不同的微服务应用程序注册自己&#xff0c;并查询其他服务的位置信息&…

Transformer模型 | Python实现基于LSTM与Transfomer的股票预测模型(pytorch)

文章目录 效果一览文章概述LSTM模型原理时间序列模型从RNN到LSTMLSTM预测股票模型实现结语程序设计参考资料效果一览 文章概述 基于LSTM与Transfomer的股票预测模型 股票行情是引导交易市场变化的一大重要因素,若能够掌握股票行情的走势,则对于个人和企业的投资都有巨大的帮…

Bootstrap对溢出内容的两种处理:滚动条和隐藏两种方式

Bootstrap中定义了以下两个类来处理内容溢出的情况&#xff1a; 类overflow-auto&#xff1a;在固定宽度和高度的元素上&#xff0c;如果内容溢出了元素&#xff0c;将生成一个垂直滚动条&#xff0c;通过滚动条可以查看溢出的内容。 类overflow-hidden:在固定宽度和高度的元素…

Android 源码解析: SharedPreferences的解析

Android源码解析&#xff1a;SharedPreferences的解析 导言 SharedPreferences是Android中的一种轻量的数据持久化手段&#xff0c;可能也是我们在学习Android时接触到的第一种特殊的本地数据持久化手段&#xff0c;本篇文章就将从源码角度分析SharedPreferences的原理。 源…

2023年中国烹饪机器人市场发展概况分析:整体规模较小,市场仍处于培育期[图]

烹饪机器人仍属于家用电器范畴&#xff0c;是烹饪小家电的进一步细分&#xff0c;它是烹饪小家电、人工智能和服务机器在厨房领域的融合。烹饪机器人是一种智能化厨房设备&#xff0c;可以根据预设的程序实现自动翻炒和烹饪&#xff0c;是多功能料理机和炒菜机结合的产物。 烹…

【轻松玩转MacOS】更新升级篇

引言 我们都知道&#xff0c;一个运行良好的操作系统就像是一台高速运转的机器。而操作系统的更新和升级&#xff0c;就像是给这台机器进行定期的维护和检查。通过更新和升级&#xff0c;我们可以获得新的功能&#xff0c;修复已知的问题&#xff0c;甚至提高系统的性能和稳定…

vc课堂发票

在这个页面 在控制台中执行&#xff1a; // 获取需要存储的元素值 var 销货单位名称 document.querySelector("body > section > div.table_middle > table > tbody > tr:nth-child(5) >td:nth-child(2) > ul > li:nth-child(1) > span"…

监控搭建-Prometheus

监控搭建-Prometheus 1、背景2、目标3、选型4、Prometheus4.1、介绍4.2、架构4.3、构件4.4、运行机制4.5、环境介绍4.6、数据准备4.7、网络策略4.7.1、主机端口放行4.7.2、设备端口放行 4.8、部署4.9、验证4.10、配置 1、背景 随着项目信息化进程的推进&#xff0c;操作系统、…