试过GPT-4V后,微软写了个166页的测评报告,业内人士:高级用户必读

news2024/12/23 0:43:38

一周之前,ChatGPT迎来重大更新,不管是 GPT-4 还是 GPT-3.5 模型,都可以基于图像进行分析和对话。与之对应的,多模态版GPT-4V模型相关文档也一并放出。当时 OpenAI 放出的文档只有18页,很多内容都无从得知,对于想要更深入了解GPT-4V应用的人来说,难度还是相当大的。

短短几天时间,当大家还在死磕OpenAI 放出的18页文档时,微软就公布了一份长达166页的报告,定性地探讨了GPT-4V的功能和使用情况。

在这里插入图片描述
报告地址:https://arxiv.org/pdf/2309.17421.pdf

MedARC(医疗人工智能研究中心)联合创始人兼CEO Tanishq Mathew Abraham表示,「这篇报告将是GPT-4V高级用户的必读之作。」

在这里插入图片描述
该报告共分为11个章节,重点是对最新模型 GPT-4V(ision)进行分析,以加深大众对 LMM(大型多模态模型) 的理解。文章用很大篇幅介绍了GPT-4V可以执行的任务,包括用测试样本来探索GPT-4V的质量和通用性,现阶段GPT-4V能够支持的输入和工作模式,以及提示模型的有效方法。

在探索 GPT-4V 的过程中,该研究还精心策划组织了涵盖各个领域和任务的一系列定性样本。对这些样本的观察表明,GPT-4V 在处理任意交错的多模态输入方面具有前所未有的能力,并且其功能的通用性使 GPT-4V 成为强大的多模态通用系统。

此外,GPT-4V 对图像独特的理解能力可以催生新的人机交互方法,例如视觉参考提示(visual referring prompting)。报告最后深入讨论了基于 GPT-4V 的系统的新兴应用场景和未来研究方向。该研究希望这一初步探索能够激发未来对下一代多模态任务制定的研究,开发和增强 LMM 解决现实问题的新方法,并更好地理解多模态基础模型。

下面我们逐一介绍每个章节的具体内容。

论文概览

论文第一章介绍了整个研究的基本情况。作者表示,他们对GPT-V4的探讨主要在以下几个问题的指导下进行:

1、GPT-4V 支持哪些输入和工作模式?多模态模型的通用性必然要求系统能够处理不同输入模态的任意组合。GPT-4V 在理解和处理任意混合的输入图像、子图像、文本、场景文本和视觉指针方面表现出了前所未有的能力。他们还证明,GPT-4V 能够很好地支持在 LLM 中观察到的test-time技术,包括指令跟随、思维链、上下文少样本学习等。

2、GPT-4V 在不同领域和任务中表现出的质量和通用性如何?为了了解 GPT-4V 的能力,作者对涵盖广泛领域和任务的查询进行了采样,包括开放世界视觉理解、视觉描述、多模态知识、常识、场景文本理解、文档推理、编码、时间推理、抽象推理、情感理解等。GPT-4V 在许多实验领域都表现出了令人印象深刻的人类水平的能力。

3、使用和提示 GPT-4V 的有效方法是什么?GPT-4V 能够很好地理解像素空间编辑,例如在输入图像上绘制的视觉指针和场景文本。受这种能力的启发,研究者讨论了「视觉参考提示」,它可以直接编辑输入图像以指示感兴趣的任务。视觉参考提示可与其他图像和文本提示无缝结合使用,为教学和示例演示提供了一个细致入微的界面。

4、未来的发展方向是什么?鉴于 GPT-4V 在跨领域和跨任务方面的强大能力,我们不禁要问,多模态学习乃至更广泛的人工智能的下一步是什么?作者将思考和探索分为两个方面,即需要关注的新出现的应用场景,以及基于 GPT-4V 系统的未来研究方向。他们介绍了他们的初步探索结果,以启发未来的研究。

GPT-4V的输入模式

论文第二章总结了GPT-4V支持的输入,分为纯文本、单个图像-文本对、交错图像-文本输入(如图1)三种情况。

在这里插入图片描述

GPT-4V的工作模式和提示技术

论文第三章总结了GPT-4V的工作模式和提示技术,包括:

1、遵循文字说明:

在这里插入图片描述
2、视觉指向和视觉参考提示:

在这里插入图片描述
在这里插入图片描述
3、视觉+文本提示:

在这里插入图片描述
4、上下文少样本学习:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

视觉-语言能力

论文第四章研究了如何利用 GPT-4V 来理解和解释视觉世界。

首先4.1节探讨了GPT-4V对不同域图像的识别能力,包括识别不同的名人,并能详细描述名人的职业、行为、背景、事件等信息。

在这里插入图片描述
除了识别名人外,GPT-4V能准确识别测试图像中的地标,还能产生生动而详细的叙述,从而捕捉地标的特性。

在这里插入图片描述
GPT-4V还可以识别各种菜肴,并给出菜肴中的特定成分,装饰物或烹饪技术。
在这里插入图片描述
除此以外,GPT-4V还可以识别常见的疾病,例如其能根据肺部的CT扫描指出潜在的问题,又或者对给定的x光片中的牙齿和颌骨,解释下颌左下方和右侧部分出现的智齿可能需要切除;GPT-4V能正确识别徽标,并提供详细的描述,包括其设计,颜色,形状和符号;如果提示中出现的问题与照片不符,GPT-4V也能进行反事实推理。
在这里插入图片描述
4.2节探讨了GPT-4V对目标的定位、计数和密集字幕生成。

下图表明GPT-4V能够理解图像中人与物体之间的空间关系,例如识别飞盘和人之间的空间关系。

在这里插入图片描述
GPT-4V能够确定图像中指定物体的数量,下图表明GPT-4V成功地计算出图像中出现的物体的数量,如苹果、橘子和人。

在这里插入图片描述

GPT-4V成功地定位和识别图像中的个体,然后为每个个体提供简洁的描述。

在这里插入图片描述

4.3节介绍了GPT-4V能够进行多模态理解以及对常识的掌握能力。下图展示了GPT-4V能够解释笑话和梗图:

在这里插入图片描述
GPT-4V能够回答科学问题:

在这里插入图片描述
GPT-4V还能进行多模态常识推理:

在这里插入图片描述
4.4节介绍了GPT-4V对场景文本、表格、图表和文档的推理能力。

GPT-4V可以进行数学推理:

在这里插入图片描述
理解流程图:

在这里插入图片描述
理解表格细节:

在这里插入图片描述
GPT-4V还能阅读一份多页的技术报告,理解每个部分的内容,并对该技术报告进行总结:

在这里插入图片描述
4.5节介绍了GPT-4V对多语言多模态的理解。

GPT-4V能够生成不同语言的图像描述:

在这里插入图片描述
GPT-4V对多语言文本识别、翻译和描述的结果:

在这里插入图片描述
4.6节介绍了GPT-4V的编码能力。

基于手写数学方程生成LaTeX代码的能力:

在这里插入图片描述
GPT-4V生成Markdown/LaTex代码以重建图像中表的能力:

在这里插入图片描述
GPT-4V编写代码以复制输入图形的能力:

在这里插入图片描述

与人类的互动:视觉参考提示

在与多模态系统的人机交互中,指向特定空间位置是一项基本能力,例如进行基于视觉的对话。第 5.1 节显示,GPT-4V 可以很好地理解直接画在图像上的视觉指针。基于这一观察结果,研究者提出了一种名为「视觉参考提示(visual referring prompting)」的新型模型交互方法。如图 50 所示,其核心思想是直接编辑图像像素空间,绘制视觉指针或场景文本,作为人类的参照指示。作者在第 5.2 节详细介绍了这种方法的用途和优势。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
最后,他们在第 5.3 节探讨了如何让 GPT-4V 生成视觉指针输出,以便与人类互动。这些视觉指针对于人类和机器来说都能直观地生成和理解,是人机交互的良好渠道。

在这里插入图片描述

时间和视频理解

在第六章,作者讨论了GPT4V 的时间和视频理解能力。尽管 GPT4V 主要以图像作为输入,但评估其对时间序列和视频内容的理解能力仍然是对其整体评估的一个重要方面。这是因为现实世界中的事件会随着时间的推移而展开,而人工智能系统理解这些动态过程的能力在现实世界的应用中至关重要。时序预测、时序排序、时序定位、时序推理和基础时序理解等能力有助于衡量模型在一系列静态图像中理解事件顺序、预测未来事件发生和分析随时间变化的活动的能力。

尽管 GPT-4V 以图像为中心,但它能够以类似人类理解的方式理解视频和时间序列。为了提高像 GPT-4V 这样复杂的人工智能模型的通用性和适用性,这方面的测试对其发展和完善至关重要。

在这一章的实验中,研究者使用了多个选定的视频帧作为输入,以测试模型在理解时间序列和视频内容方面的能力。

多图像序列

在这里插入图片描述

视频理解

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基于时间理解的视觉参考提示

在这里插入图片描述

视觉推理与智商测试

对抽象视觉刺激和符号的理解和推理是人类智能的一项基本能力。论文第七章测试了GPT-4V是否可以从视觉信号中抽象语义,并可以执行不同类型的人类智商(IQ)测试。

抽象视觉刺激

在这里插入图片描述

部件和物体的发现与关联

在这里插入图片描述

韦氏成人智力量表

在这里插入图片描述

瑞文推理测验

在这里插入图片描述
在这里插入图片描述

情商测验

在与人类互动时,GPT-4V 必须具备同理心和情商(EQ),以理解和分享人类的情感。受人类情商测试定义的启发,作者研究了 GPT-4V 在以下方面的能力:从人的面部表情中识别和解读人的情绪;理解不同的视觉内容如何激发情绪;根据所需的情绪和情感生成适当的文本输出。

从面部表情中读出情感

在这里插入图片描述

理解视觉内容如何激发情感

在这里插入图片描述
在这里插入图片描述

情绪条件输出

在这里插入图片描述

新兴应用亮点

这一章展示了 GPT-4V 的卓越功能可能带来的无数高价值应用场景和新用例。诚然,其中一些应用场景可以通过精心策划用于微调现有视觉和语言(VL)模型的训练数据来实现,但作者想强调的是,GPT-4V 的真正威力在于它能够毫不费力地实现开箱即用。此外,他们还介绍了 GPT-4V 如何与外部工具和插件无缝集成,从而进一步拓展其潜力,实现更多创新和协作应用。

找不同

在这里插入图片描述
在这里插入图片描述

工业

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

医药

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

汽车保险

在这里插入图片描述
在这里插入图片描述

编写照片说明

在这里插入图片描述
在这里插入图片描述

图像理解与生成

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

具身智能体

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

图形用户界面(GUI)交互

在这里插入图片描述
在这里插入图片描述

基于LLM的智能体

论文第十章讨论了 GPT-4V 未来可能的研究方向,重点是 LLM 中的有趣用法如何扩展到多模态场景。

基于ReAct的GPT-4V多模态链扩展:

在这里插入图片描述
使用自我反思来改进文本到图像模型SDXL生成的文本提示的示例:

在这里插入图片描述
自洽性:

在这里插入图片描述
检索增强LMM,图74显示了一个检索增强的LMM帮助杂货店结帐的示例。

在这里插入图片描述
关于GPT-4V的更多场景应用细节,请查看原论文。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1083605.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

作战仿真试验理论体系研究

源自:装甲兵工程学院学报 作者:徐享忠,杨建东,郭齐胜 “人工智能技术与咨询” 发布 摘要 建立了作战仿真试验的概念框架,以预测论、作战仿真理论和试验理论为基础理论,以仿真试验目标、仿真试验模式、…

Java基于SpringBoot+Vue的汽车租赁系统

1 简介 致远汽车租赁管理方面的任务繁琐,以至于公司每年都在致远汽车租赁管理这方面投入较多的精力却效果甚微,致远汽车租赁系统的目标就是为了能够缓解致远汽车租赁管理工作方面面临的压力,让致远汽车租赁管理方面的工作变得更加高效准确。 文章首发地址 2 技术栈 开发语言…

Kubernetes核心组件Services

1. Kubernetes Service概念 Service是kubernetes最核心的概念,通过创建Service,可以为一组具有相同功能的POD(容器)应用提供统一的访问入口,并且将请求进行负载分发到后端的各个容器应用上。 在Kubernetes中&#xf…

vue项目打包后使用reverse-sourcemap反编译到源码(详解版)

首先得说一下,vue项目中productionSourceMap这个属性。该属性对应的值为true|false。 当productionSourceMap: true,时:   1、打包后能看到xxxx.js.map文件,map文件够通过反编译看到源码;   2、打包后会导致文件变大(因为多了很多map文件导致的)&…

智慧政务大屏建设方案

智慧政务大屏建设方案是为政府部门提供信息化展示和决策支持的重要工具。下面将提供一个详细的智慧政务大屏建设方案,包括硬件设备、软件平台和功能模块等。 **一、硬件设备** 智慧政务大屏的硬件设备需要满足以下基本要求: 1. 显示屏:选择…

网页游戏的开发流程

网页游戏的开发流程可以根据项目的规模和复杂性而有所不同,但通常包括以下一般步骤,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合作。 1.需求分析: 确定游戏的概念、目标受众和核…

关于信息安全软考的记录5

1、防火墙的概念 为了应对网络威胁,联网的机构或公司将自己的网络与公共的不可信任的网络进行隔离。 网络的安全信息程度和需要保护的对象,人为地划分若干安全区域,这些安全区域有: 公共外部网络,如Intrenet内联网&…

华为云云耀云服务器L实例评测|华为云耀云服务器L实例评测包管理工具安装软件(六)

七、华为云耀云服务器L实例评测包管理工具安装软件: 根据企业级项目架构图所示,本章主要是安装公司企业项目的基本环境LNMP,相关的包管理器Composer、Node、Npm、Yarn安装,评测一下包管理工具安装软件是否存在问题,如果…

【Tomcat】Apache发布两个新版本Tomcat修复多个Bug

Apache 官网发布了两个最新的 Tomcat 版本包,分别是:8.5.94、9.0.81 这两个最新版本修复了多个漏洞,统计信息如下表所示。有关漏洞的详细信息,请查阅官方相关文档(见:参考)。 严重等级漏洞说明…

Premiere Elements 2024(PR简化版)直装版

Adobe Premiere Elements 2024 是一款由Adobe Systems推出的视频编辑软件,它结合了易用性和专业级的功能,帮助用户对视频进行剪辑、特效、色彩校正等处理。 主要功能和特点: 导入和组织视频:Premiere Elements 2024允许用户快速导…

安装CentOS7.9操作系统

下面是安装CentOS7.9操作系统的步骤: 下载CentOS7.9镜像文件,可以到CentOS官网或者其他镜像站点下载。 创建一个可用的安装媒介,可以使用USB或者DVD。 插入安装媒介,启动计算机,进入BIOS设置,选择从外部设…

数据仓库Hive(林子雨课程慕课)

文章目录 9.数据仓库Hive9.1 数据仓库的概念9.2 Hive简介9.3 SQL语句转换为MapReduce作业的基本原理9.4 Impla9.4.1 Impala简介9.4.2 Impala系统架构9.4.3 Impala查询执行过程9.4.4 Impala与Hive的比较 9.5 Hive的安装和基本操作9.5.1 Hive安装9.5.2 Hive基本操作 9.数据仓库Hi…

STM32F407ZGT6移植AD7606

昨天调试的时候在STM32F103VCT6程序一切正常。但是将代码移植到STM32F407ZGT6时出现问题。 不能正常读取结果,会出现4996的错误信号而且经常出现,正确信号的值也不对乘2才能对上。 总结原因。 将AD7606_read_data里的延时参数修改为3、4、4问题解决。

PanoFlow:学习360°用于周围时间理解的光流

1.摘要: 光流估计是自动驾驶和机器人系统中的一项基本任务,它能够在时间上解释交通场景。自动驾驶汽车显然受益于360提供的超宽视野(FoV)◦ 全景传感器。 然而,由于全景相机独特的成像过程,为针孔图像设计…

SpringBoot+Vue前后端文件传输问题总结

SpringBootVue前后端文件传输问题总结 一、文件上传功能前端:文件上传1.File2.FormData(常用)3.Blob4.ArrayBuffer5.Base64 后端:文件接收1.MultipartFile 二、文件下载功能后端:文件传输前端:文件接收1.设…

动捕设备在动画影视制作中的应用

随着科技的发展,动画影视作品中的CG角色越来越逼真、生动形象,而这些CG角色大多背后是通过真人穿戴动捕设备,从而捕捉真人演员的肢体动作而创建的,如《遮天》作为国内首部全流程虚幻引擎5动画,结合动捕设备实现真人化动…

三相空气开关

一、三相空开的作用 三相空气开关对任意一相出现过载或短路,均起到保护作用。 二、三相空气开关原理图: 1、短路时,电磁脱钩器工作 2、过载时,发热元件引起双金属片弯曲,使脱钩器工作 3、测试按钮闭合时&#xff0c…

<图像处理> Fast角点检测

Fast角点检测 基本原理是使用圆周长为N个像素的圆来判定其圆心像素P是否为角点,如下图所示为圆周长为16个像素的圆(半径为3);OpenCV还提供圆周长为12和8个像素的圆来检测角点。 相对中心像素的位置信息 //圆周长为16 static c…

uni-app : 生成三位随机数、自定义全局变量、自定义全局函数、传参、多参数返回值

核心代码 function generateRandomNumber() {const min 100;const max 999;// 生成 min 到 max 之间的随机整数// Math.random() 函数返回一个大于等于 0 且小于 1 的随机浮点数。通过将其乘以 (max - min 1),我们得到一个大于等于 0 且小于等于 (max - min 1…