多模态GPT-V出世!36种场景分析ChatGPT Vision能力,LMM将全面替代大语言模型? | 京东云技术团队

news2024/11/15 21:52:32

LMM将会全面替代大语言模型?人工智能新里程碑GPT-V美国预先公测,医疗领域/OCR实践+166页GPT-V试用报告首发解读

ChatGPT Vision,亦被广泛称为GPT-V或GPT-4V,代表了人工智能技术的新里程碑。作为LMM (Large Multimodal Model) 的代表,它不仅继承了LLM (Large Language Model) 的文本处理能力,还加入了图像处理的功能,实现了文本与图像的多模态交互。与传统的LLM相比,GPT-V更加强大和灵活,能够更深入地理解和生成与图像相关的内容。这种进化打开了无数新的应用可能性,从图像描述、创意设计到复杂的图文结合任务,GPT-4V都展现出了卓越的性能和广泛的潜力。

使用方法:GPT-V目前对于美国区ChatGPT Plus账户开放。

相关链接:ChatGPT can now see, hear, and speak

相关介绍:GPTV_System_Card.pdf

166页GPT-V试用报告:Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

性能:对于ChatGPT4,速度比纯文本中文Prompt慢40%左右。(注意,当从GPT4切换到GPT-V后,纯文本中文Prompt速度提升了大概200%)

花费:$20美元一月,限速3小时25条,尚未开放API

调研版本:10-12 ChatGPT Vision(图片聊天/GPT多模态功能) ChatGPT September 25 Version

本文图片部分为实践(OCR/医学等),部分来自网络(推特/Arxiv试用报告),题图由ChatGPT DALL-E 3生成。

本文尝试从以下案例,对AI新里程碑LMM进行探索

TLDR总结

  1. ChatGPT Vision更偏向于有创造性的图片理解,而非机器性细节识别。

  2. ChatGPT Vision试图以大模型的涌现能力,从高层次理解整个图片,将图片如同文字一般对待,而非是OCR式的匹配识别。ChatGPT Vision和OCR的区别,与语义搜索和关键词搜索的区别类似。

  3. ChatGPT Vision具有较大幻觉问题,Few-shot/CoT等Prompting方法也无法改善这一点(涌现能力不足),说明ChatGPT Vision仍处于像当年ChatGPT v3一样的初期阶段。预计未来几年随着参数规模的进一步提升,多模态大模型可能会复现文本大模型的发展路径。

(图1:Few-shot方法不能提高GPT-4V获取仪表板信息的准确性,红色代表回答错误)

图片

(图2:CoT方法不能稳定质变提高GPT-4V数苹果的准确性,红色代表回答错误,绿色代表正确)

适用场景

  1. 上下文概念性工作,如文章头图的自动审核初筛、皮肤病的照片辅助筛选,DR/CT照片影像学诊断,提供HTML alt text等。

  2. 图片创意性工作,如1.3节 商品销售文案生成、商品使用建议生成、商品创意名称生成等。

不适用场景

  1. 有精确性要求的文字工作:如1.1节 患者诊疗单等OCR场景。

  2. 主体过多的复杂图片,如1.3节 前端网页代码复刻。

有潜力的场景

  1. 清晰图片/截图的总结性工作,包括1.3节 图片的复杂理性/感性分析,如网络热图解释、教育场景

  2. 高纬度大模型推理,如1.3节 辨别电影/景点、客服、气候分析、设计图/网站设计建议等

1.0 基础功能

多图片上下文识别能力

图片

(图3:研究者输入了多张购物账单小票/菜单图片,GPT-4V做出了正确回答)

理解图中标识(如箭头)和强调(如红圈标红)

图片

(图4:对于使用箭头/画圈标识的图片,GPT-4V能做出了正确理解和回答)

1.1 OCR功能(幻觉严重,中文效果差)

中文:电脑截图(准确)

中文:清晰中文表格图片(幻觉严重)

中文:有复杂信息的真实患者诊疗单(幻觉严重)

患者诊疗单(给GPT的是原图,以下图片经过二次处理模糊了患者信息)

英文:准确:强对比度、轻微镜头畸变、中等像素噪声图片

阿拉伯语:部分准确:手写体转译英文

muin on X: “GPT-4V will be able to transcribe and translate manuscripts and texts. I am excited to try out Arabic manuscripts to see how well it does. It does a phenomenal job with transcription even better than most humans. https://t.co/K6y6WffLvz” / X

1.2 医学诊断(高准确率)

肺部X光:肺炎判断(准确)

图像来源:GitHub - linhandev/dataset: 医学影像数据集列表 『An Index for Medical Imaging Datasets』https://github.com/linhandev/dataset https://www.kaggle.com/datasets/nih-chest-xrays/data#:~:text=Class%20descriptions,Hernia

图片输入

GPT-V判别结果:(肺炎, 0.7

1.肺炎:

◦置信度: 0.7

◦原因: X光片上下肺区的密度增加可能提示肺炎的存在,但根据图片无法明确确定。

2.肺水肿:

◦置信度: 0.6

◦原因: 下肺区的密度增加可能与液体积聚有关,如心力衰竭导致的肺水肿。

3.间质性肺病:

◦置信度: 0.5

◦原因: 有一些间质改变的迹象,但需要与先前的影像进行比较。

4.支气管炎:

◦置信度: 0.4

◦原因: 慢性支气管炎可能导致一些观察到的不透明度。

5.结核病:

◦置信度: 0.3

◦原因: 尽管结核病可表现为不透明和可能的固实化,但该图像并不强烈地表现出结核病的典型特征。

6.肺癌:

◦置信度: 0.2

◦原因: 虽然没有明确的结节或肿块,但由于X光在显示其他结构后面的小结节时的局限性,肺癌不能完全排除。

皮肤病:黑色素瘤判断(部分准确)

数据源:ISIC Archive

https://gallery.isic-archive.com/#!/topWithHeader/onlyHeaderTop/gallery?filter=%5B%5D

图片输入

GPT-V判别结果(常见痣 0.6,黑色素瘤 0.3
  1. 黑色素细胞痣 (常见痣)

◦ 信心分数: 0.6

▪ 原因: 该皮损表现出与常见痣相似的特征,中央有深色区域。50岁左右的人群中很常见。

  1. 老年性角化病

◦ 信心分数: 0.4

▪ 原因: 老年性角化病是老年人中常见的非癌性皮肤生长,颜色可能会有所不同。

  1. 异型痣

◦ 信心分数: 0.5

▪ 原因: 这类痣与常见痣有所不同,通常较大。鉴于大小 (1.4mm) 和位置 (下肢),需要考虑此诊断。

  1. 黑色素瘤

◦ 信心分数: 0.3

▪ 原因: 黑色素瘤是一种皮肤癌,虽然所提供的图像有可能与黑色素瘤一致的特征,但需要皮肤科医生进行全面评估才能确诊。

  1. 基底细胞癌

◦ 信心分数: 0.2

▪ 原因: 它是最常见的皮肤癌形式,但所提供的图像没有基底细胞癌的典型迹象。但鉴于患者的年龄,仍需考虑。

  1. 血管瘤

◦ 信心分数: 0.2

▪ 原因: 血管瘤是由血管组成的良性肿瘤。图像中的红色可能暗示这一点,但从整体外观看,可能性较小。

老年疣(0.7)

数据源:ISIC Archive

图片输入

GPT-V判别结果**(老年疣 0.7)**
  1. 老年疣 - 置信度:0.7

  2. 黑色素痣 - 置信度:0.5

  3. 基底细胞癌 - 置信度:0.4

  4. 日光角化症 - 置信度:0.4

  5. 鳞状细胞癌 - 置信度:0.3

该图像显示了皮肤的放大视图,老年疣在头部和颈部区域较为常见,且经常出现在中老年人群中,因此我给予了较高的置信度。

其他脑部/胸部X光诊断(高准确率)

(绿色代表正确,红色代表错误,黄色代表幻觉)

1.3 高纬度识别能力(高质量,虽有幻觉问题)

大众点评/小红书文案

商品使用建议(左),商品销售文案(右)

车祸车辆识别

红色代表错误

理解流程图

图片

解释笑话

图片

商品新颖命名

电路图描述

地标描述

菜谱生成

分析球类运动局势/运动员姿势(存在幻觉)

Abran Maldonado on X: “One of my favorite demos I tested out, in honor of football season, ChatGPT Vision will forever change coaching and sports analytics. Whether i build it or not, ChatGPT for coaching will be on every sideline in the league. Mark my words. https://t.co/uUYhsKpEGh” / X

幻觉(该运动员使用的是反手Backhand,而非正手forehand):

识别电影/相机/景点等

给予用户产品安装/摄像等的建议和帮助

X: “ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm https://t.co/paG0hMshXb” / X

辅导扑克(存在幻觉)

网页截图到HTML代码(理解不足)

结果:

白板骨架到前端项目

Mckay Wrigley on X: “You can give ChatGPT a picture of your team’s whiteboarding session and have it write the code for you. This is absolutely insane. https://t.co/bGWT5bU8MK” / X

https://twitter.com/mckaywrigley/status/1707101465922453701

清晰图片的复杂理性/感性分析

Pietro Schirano on X: “This is absolutely wild. I am completely speechless. https://t.co/wGTAx1hFgS” / X

https://twitter.com/skirano/status/1706874309124194707?

Mckay Wrigley on X: “ChatGPT breaks down this diagram of a human cell for a 9th grader. This is the future of education. https://t.co/L0Za0ZB5rs” / X

主体多的复杂图片的复杂理性分析

Alex Northstar on X: “Thanks ChatGPT, that can read & understand better than humans! https://t.co/TgVSuHgf8j” / X

https://twitter.com/NorthstarBrain/status/1707668600281063514

1.4 不足与风险

图片(含人眼不可见文字)的注入风险

(图中,用户以不可见的浅色字添加了Sephora化妆品促销水印,人眼无法察觉,但GPT-V可感知)

(图中,用户以不可见的浅色字使GPT-4V一定对这份简历会给出雇佣建议)

不能使用于人脸识别

当 GPT-4 在2023年3月首次发布时,GPT-4V面部识别功能可能存在安全和隐私问题,因此 GPT-4V(具备视觉功能的 GPT-4)被暂缓发布。

在早期的模型中,用户本可以理论上上传人物照片,并要求识别他们,这显然是对隐私的侵犯。根据技术论文,GPT-4V(为 ChatGPT Vision 提供支持)现在拒绝此类请求的时间达到了98%。

GPT-4V(ision) technical work and authors

作者:京东健康 李卓伦

来源:京东云开发者社区 转载请注明来源

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1113924.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis:2023年的必修课,不学就要被市场淘汰

一、同样是缓存,用map不行吗? Redis可以存储几十个G的数据,Map行吗?Redis的缓存可以进行本地持久化,Map行吗?Redis可以作为分布式缓存,Map只能在同一个JVM中进行缓存;Redis支持每秒…

Redux 学习笔记

在使用 React Redux 前,我们首先了解一下 Redux 的一些基础知识。 Redux 是 JavaScript 应用程序中用于状态管理的容器。它不依赖于任何框架,可以与任何 UI 库和框架一起使用。在应用程序中使用 Redux 时,Redux 是以可预测的方式管理状态。 …

鸿蒙HarmonyOS应用开发:扫描仪文件扫描

华为鸿蒙HarmonyOS已经发展到4.0,使用ArkTS作为开发语言。这篇文章结合Dynamsoft Service开发一个简单的鸿蒙应用,用来获取办公室里连接PC的扫描仪(惠普,富士通,爱普生,等),把文档扫描到手机里。 准备工作…

Python 3.12.0 Release 版本

本心、输入输出、结果 文章目录 Python 3.12.0 Release 版本前言与 Python 3.11 相比,Python 3.12 系列主要更新了哪些新的功能更灵活的 f 字符串解析,允许许多以前不允许的事情 (PEP 701)。支持 Python 代码中的缓冲区协议 &…

Unity实现方圆X范围随机生成怪物

using System.Collections; using System.Collections.Generic; using UnityEngine;public class CreatMonster : MonoBehaviour {// S这个脚本间隔一点时间生成怪物/*1.程序逻辑* 1. 设计一个计时器* 2.间隔一段时间3s执行一下 * */float SaveTime 0f;public GameObject …

【215. 数组中的第K个最大元素】

目录 一、题目描述二、算法原理三、代码实现 一、题目描述 二、算法原理 三、代码实现 class Solution { public:int getRandom(int left,int right,vector<int>& nums){return nums[rand()%(right-left1)left];}int qsort(int l,int r,vector<int>& nums…

已经有多人中招,不要被AI换脸技术骗了!

您好&#xff0c;我是码农飞哥&#xff08;wei158556&#xff09;&#xff0c;感谢您阅读本文&#xff0c;欢迎一键三连哦。 &#x1f4aa;&#x1f3fb; 1. Python基础专栏&#xff0c;基础知识一网打尽&#xff0c;9.9元买不了吃亏&#xff0c;买不了上当。 Python从入门到精…

LinkedList 源码解析(JDK1.8)

目录 一. 前言 二. 常用方法 三. 源码解析 3.1. 属性和内部类 3.2. 构造函数 3.3. 添加元素 3.4. 获取元素 3.5. 删除元素 3.6. 迭代器 3.6.1. 头到尾方向的迭代 3.6.2. 尾到头方向的迭代 3.6.3. add() 插入元素 3.6.4. remove() 移除元素 一. 前言 LinkedList同时…

ATA-8202射频功率放大器参数指标及应用介绍

ATA-8202射频功率放大器简介 ATA-8202是一款射频功率放大器。其P1dB输出功率100W&#xff0c;饱和输出功率200W。增益数控可调&#xff0c;一键保存设置&#xff0c;提供了方便简洁的操作选择&#xff0c;可与主流的信号发生器配套使用&#xff0c;实现射频信号的完美放大。宽…

JavaScript 中的Hoisting是什么?

在JavaScript中,Hoisting(变量提升)是指在代码执行之前,JavaScript引擎将变量和函数的声明提升到当前作用域的顶部的行为。 具体来说,JavaScript引擎在执行代码之前会进行两个步骤:编译阶段和执行阶段。在编译阶段,JavaScript引擎会将变量声明和函数声明提升到当前作用…

智能井盖监测系统,增加城市管理便捷性

看起来小小的井盖&#xff0c;实际上折射的是一个城市&#xff0c;一个地区的发展状况。每一个城市的道路网络&#xff0c;决定了一个城市发展的缓慢程度&#xff0c;哪怕是其中的井盖&#xff0c;有着自己的职责&#xff0c;是城市生命线的不可缺少的组成部分。但是现如今传统…

Qt10-19

第一个界面的头文件 #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include<QMovie>//动态图片所用的类 #include<QMessageBox>//消息对话框类QT_BEGIN_NAMESPACE namespace Ui { class Widget; } QT_END_NAMESPACEclass Widget : public QWidget …

国产主控应用案例:汉王电子血压计-君正开发板

2023春季新品发布会上汉王科技发布柯氏音法电子血压计产品—汉王电子血压计&#xff0c;继嗅觉检测盒之后再次深度布局大健康领域。 不同于当前市面上使用示波法原理的电子血压计&#xff0c;汉王电子血压计采用血压测量金标准中的柯氏音法&#xff0c;由此引领一场电子血压计领…

出东方利中国!长城五星牵手国家宝藏,共谱丝路艺术华章

执笔 | 尼 奥 编辑 | 古利特 当中国葡萄酒与国家宝藏、非遗工艺灵魂碰撞&#xff0c;又将产生怎样的大国之美&#xff1f;长城五星艺术干红给出答案。 10月19日&#xff0c;长城五星艺术干红上市发布会在成都召开。会上&#xff0c;长城葡萄酒正式发布文化战略新品——“五…

“达观杯”智能文档版面分析赛题baseline已上线,欢迎下载报名!

由国内领先智能文本处理企业达观数据与上海市计算机学会联合举办的智能文档版面分析多模态数据处理算法竞赛正在火热报名阶段。开赛一周内&#xff0c;第七届“达观杯”已有来自国内外的近200名企业和高校算法精英参与到比赛中。作为本次赛题的出题方&#xff0c;为助力各位打榜…

taro使用defineConstants定义全局变量eslint报错该变量不存在

问题描述 在taro项目中使用defineConstants定义一些全局变量供业务代码中进行使用&#xff0c;全局变量声明config/index.js代码如下&#xff1a; module.exports {defineConstants: {LOGIN_URL: JSON.stringify(/baidu/login), },全局变量使用代码如下&#xff1a; /*** 跳…

高速DSP系统设计参考指南(四)DSP电源设计

&#xff08;四&#xff09;DSP电源设计 1.电源设计的重要性2.DSP电源架构考虑3.电源去耦技术3.1 一般经验法则解耦法3.2 解耦分析方法3.3 分析案例3.4 计算去耦电容值3.5 高频噪声隔离 1.电源设计的重要性 电源设计可能是高速 DSP 设计中控制噪声和辐射的整个过程中最具挑战性…

Affinity Photofor Mac/Windows:专业级图片编辑的终极选择

在今天的内容中&#xff0c;我们将要介绍一款备受赞誉的图片编辑软件——Affinity Photo。无论你是业余的摄影爱好者&#xff0c;还是专业的设计师&#xff0c;Affinity Photo都能为你提供丰富的编辑功能和出色的使用体验。 首先&#xff0c;让我们来简单了解一下Affinity Pho…

哪些重生奇迹mu地图适合刷玛雅宝石?

作为一款非常经典的打斗游戏&#xff0c;重生奇迹mu设计非常复杂&#xff0c;游戏玩法以及地图设计非常完善&#xff0c;而且游戏推出了最新版本&#xff0c;各方面表现更加的优秀&#xff0c;值得游戏玩家去尝试。 重生奇迹mu游戏拥有非常完善的商城系统&#xff0c;其中最重…

金融机器学习方法:决策树与随机森林

目录 1.决策树 1.1 什么是决策树&#xff1f; 1.2 决策树的优点与缺点 2.随机森林 2.1 什么是随机森林&#xff1f; 2.2 随机森林的优点与缺点 3.决策树与随机森林的联系与区别 4.案例分析 4.1 使用决策树和随机森林预测 4.2绘制ROC曲线 决策树和随机森林都是监督学…