ChatGPT Vision初体验

news2024/10/5 14:27:33

本周,OpenAI为其广受欢迎的 ChatGPT 平台发布了一项突破性的补充。除了处理文本之外,ChatGPT 现在还可以处理图像并聊天。

很难夸大这件事的重要性。目前多达70% 的内容是视觉内容而不是书面内容。人们每年会生成数千张照片,而当今许多最大的平台(YouTube、TikTok、Instagram)很大程度上都是视觉化的。

人们越来越多地选择以视觉方式与机器交互。通过最新升级,ChatGPT 现在可以参与该过程。

Visual ChatGPT 将在接下来的几周内向部分 ChatGPT Plus 用户推出。我是第一批获得访问权限的用户之一。以下是这个非凡的新型生成人工智能功能的初步介绍,以及它可以做的一些事情。

与 ChatGPT 进行视觉交互

与 ChatGPT 的视觉交互非常简单。获得访问权限的用户现在可以在 ChatGPT 界面中的“发送消息”字段旁边看到一个小图像图标。

除了输入文本提示之外,您现在还可以随文本一起上传图像。这允许您提出有关图像的问题,或者让 ChatGPT 分析图像的视觉内容并与您讨论它。

编写替代文本

我使用 ChatGPT Vision 测试的第一个任务(新功能没有正式名称,所以我这么称呼它)是为图像编写替代文本。

对于使用屏幕阅读器浏览互联网的视障人士来说,替代文本至关重要。替代文本附加到博客或网站上的图像。文字描述了图像的视觉内容,以便看不到图像的人仍然可以理解其含义。

编写好的替代文本既困难又昂贵。很多网站站长懒得去做,或者做得不好。这使得视障用户更难访问互联网。它还会对网站的搜索引擎优化产生负面影响。

我决定看看 ChatGPT Vision 如何为图像编写替代文本。我上传了这张图片并要求它“为此图片编写高质量的替代文本”

这就是它给我的:

标有“SIGNET”的壁挂式分配系统具有三个装有清洁溶液的半透明容器。从左到右,容器上贴有红色标签:“硬表面消毒剂”,蓝色“玻璃和多表面清洁剂”,以及绿色“重型无氯洗手间消毒剂”。分配器上方有说明贴纸,上面有指示正确使用方法的图表。每个容器的侧面都有一个测量刻度,并连接到用于分配的管道系统。

这太妙了!替代文本不仅仅描述了图像的基本信息(“墙上的管道和清洁溶液”)。

相反,它提供了足够详细的图像视觉细节(每种清洁溶液的颜色、它们从左到右的相对位置以及每个图像上的文本),以便视障人士可以轻松理解图像显示的内容。

ChatGPT Vision 在大约 10 秒内生成了替代文本,速度也非常快。我可以看到新系统对于网络可访问性来说是一个巨大的福音。出版商可以使用 ChatGPT 视觉为自己的图像编写更好的替代文本,视障用户可以使用它为缺乏实时替代文本的图像编写替代文本。

分析我的香料架

对于我的下一个实验,我上传了一张香料架的照片。我要求 ChatGPT Vision 列出我拥有的香料。我还问它哪些香料快用完了。

令人惊讶的是,ChatGPT Vision 不仅列出了香料,还认可了它们的品牌名称:

芝麻(数量看起来不错)

莫顿海盐(无法从图像中确定数量)

365 姜末(数量看起来不错)

365 肉桂 (数量看起来不错)

味好美辣椒粉(数量看起来不错)

麦考密克粗黑胡椒粉(无法从图像中确定数量)

365 辣椒粉(数量看起来不错)

味考密克完美捏意大利(无法从图像中确定数量)

姜黄粉(无法从图像中确定数量)

365 白胡椒粉(数量看起来不错)

孜然粉(无法从图像中确定数量)

它无法确定我拥有的数量。但作为后续,它能够推荐一些我可以用这些烹饪的食谱!

这是 ChatGPT 视觉能力强大功能的一个很好的例子。因为它仍然是一个聊天机器人,所以它不仅仅是查看图像、提供输出并继续前进。您可以就图像进行对话,提出具体的后续问题以进行更深入的挖掘并超越系统的初始响应。

分析图表

ChatGPT Vision 不仅限于处理照片。它还可以处理图表、信息图表等。

例如,我向它提供了我的一个网站的流量 Google Seach 控制台图表。

从图像中,它正确地提取了我的关键统计数据,并分析了我网站的流量趋势。

它甚至根据所看到的内容提供了如何改进 SEO 的建议。

分析图形和其他视觉效果的能力对于想要更好地理解数据、验证科学研究结果、甚至只是更好地理解图形或聊天内容的用户非常有帮助。

确定拍摄照片所用的胶片

我是一名摄影师,在工作中经常使用模拟胶片。我也经常处理历史照片,但照片所用的胶片是未知的。

我上传了一张我自己的照片,并询问 ChatGPT Vision 这是用什么类型的电影拍摄的。

这是结果。

我喜欢其分析的深度。也是对的!这是在 Kodak Tri-X 上以 400 速度拍摄的,这是它在列表中提到的第一部影片。

确定狗的品种

我有一只比熊犬,名叫兰斯,但我打断了他。大多数人误认为他是一个不同的品种。

我上传了兰斯的照片,并询问 ChatGPT Vision 他是什么品种。

它的回应是:

“根据提供的图像,你的狗似乎具有卷毛品种的身体特征,可能是比雄犬、贵宾犬或这些品种的混合体。”

系统仍然模棱两可地使用“P”这个词(这是比熊人的一大禁忌),但它的第一个猜测确实是比熊犬。

这凸显了 ChatGPT Vision 超越了单纯的物体识别。该系统在详细说明其反应时表示,“卷曲的白色皮毛和面部特征让人想起这类狗。”

令人印象深刻的是,ChatGPT Vision 正在观察诸如面部特征之类的东西,而不仅仅是看到一只白色、毛茸茸的狗并自动说“贵宾犬”。

ChatGPT Vision 的局限性

ChatGPT 愿景是一个强大的平台。我刚刚开始测试它,我已经可以看到其工具的大量实际用例。

也就是说,系统设计时没有做一些事情。其一,它不会处理或讨论人物图像。这很聪明。视觉人工智能系统存在偏见。最好完全避免分析以人为中心的图像,而不是冒着对人的视觉分析产生偏见的风险。

该系统也不会提供医疗建议。我试图向它询问与图像相关的医学话题,它断然拒绝回答。再说一遍,目前来说这是一件好事。该系统是新的,其输出可能不准确。

不过,我可以看到 ChatGPT Vision 的专业版本被训练来执行诸如解释 X 射线结果或分析其他医学测试之类的事情。但就目前而言,我们需要围绕这种应对措施采取防护措施。

多模态人工智能就在这里

ChatGPT 标志着生成人工智能领域迈出了一大步。这是第一次将真正的多模式人工智能交到日常用户手中。

Google Bard 确实有一些视觉功能。但这些似乎更严重地依赖谷歌现有的谷歌镜头系统。另一方面,ChatGPT Vision 似乎真正理解图像的视觉内容和意义。

这使得它能够深入研究图像视觉内容的更深层意义,而不仅仅是执行一些很酷但有限的技巧,例如翻译图像中的文本或识别产品或地点

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1069571.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设计模式 - 结构型模式考点篇:代理模式(静态代理、JDK 动态代理、CGLIB 动态代理)

目录 一、代理模式 一句话概括 1.1、代理模式概述 1.2、静态代理 1.3、JDK 动态代理 1.4、CGLIB 动态代理 1.5、对比三种代理 1.5.1、jdk 代理 VS CGLIB 代理 1.5.2、动态代理 VS 静态代理 1.6、优缺点 1.7、使用场景 一、代理模式 一句话概括 教你将类和对象结合再…

Mac mov转mp4,详细转换步骤

Mac mov转mp4怎么转?视频文件格式为.mov是由Apple公司所开发的特殊格式。因其只能在苹果设备上播放,与他人分享时就会变得困难。为此,我们通常会选择使用MP4这种最受欢迎的视频格式。在日常使用中,MP4成为了大家首选的视频格式。而…

【Docker】 docker中apt-get update过慢,这样配置瞬间提速!

docker中apt-get update过慢,这样配置瞬间提速! 源官网全球镜像站 源 今天办公地点的网络出奇的差,看电影看小说打游戏完全没影响,只要更新就蜗速前进,只能从网上翻下,看看有没有网速快的下载源。 碰巧看到…

模范思路,单基因泛癌+实验轻松拿捏sci8+。

今天给同学们分享一篇单基因泛癌单细胞实验的生信文章“Pan-cancer analysis of Krppel-like factor 3 and its carcinogenesis in pancreatic cancer”,这篇文章于2023年8月3日发表在Front Immunol期刊上,影响因子为8.786。 Krppel-like factor 3&#…

vue.js处理数组对象中某个字段是否变为两个字段

一、场景: 产品要求做一个时间步骤条,使用目前后端已返回的数据进行操作实现。时间步骤条要求日期和时间分开显示且相同日期只显示第一个日期。 图左边为实现效果,右边为后台返回的接口。接口中current字段表示当前到达第几步,从…

2023年软件测试工具总结 —— 接口测试工具

接口测试的全称是应用程序编程接口(API)测试,从原理上来说,接口测试是模拟客户端向服务器端发送请求,然后检查能否获得正确的返回信息。接口测试用于测试RESTful API、SOAP Web服务,这些服务可以通过HTTP、…

Java基础知识总结(2023版)

目录 一、Java基础1、Java 基础2、Java 进阶3、Java8新特性4、Java集合5、Java高并发6、Java代码实例 二、MySQL数据库三、Spring Boot框架(35天)四、Redis中间件五、MongoDB数据库六、Netty网络编程七、23种设计模式八、微服务九、JavaScript零基础入门…

Aurora中的策略模式和模板模式

Aurora中的策略模式和模板模式 在aurora中为了方便以后的扩展使用了策略模式和模板模式实现图片上传和搜索功能,能够在配置类中设置使用Oss或者minio上传图片,es或者mysql文章搜索。后续有新的上传方式或者搜索方式只需要编写对应的实现类即可&#xff…

批量对比文件夹下文件

软件 产品 | Beyond Compare 中文官方网站 软解破解 Beyond Compare 4密钥过期,解决办法,超实用 批量文件对比 最后显示红色的文件,即为文件两者内容不同的

面了10家却收不到1个offer,自我介绍你踩雷了吗?

每一次离职,都是为了重新开始;每一次寻找新的工作,都面临着巨大的竞争。找工作就像找对象,除了需要一定的缘分外,也需要掌握一定的技巧。 有的人爱恋TA的人排到长城,有的人却一直母胎单身;有的人…

Spring源码解析(十一):spring事务配置类源码

Spring源码系列文章 Spring源码解析(一):环境搭建 Spring源码解析(二):bean容器的创建、默认后置处理器、扫描包路径bean Spring源码解析(三):bean容器的刷新 Spring源码解析(四):单例bean的创建流程 Spring源码解析(五)&…

vue3使用echarts实现地图撒点、飞线等功能

echarts地图配置参考链接 链接2 vue3使用echarts map.vue <template><div class"echart-demo" id"demo"></div> </template><script setup lang"ts"> //引入echart和json数据 import * as echarts from echarts…

ffmpeg ts 关于av_seek_frame

1 ffmpeg命令行 一般对视频文件的裁剪 我们通过一行 ffmpeg命令行即可实现&#xff0c;比如 ffmpeg -ss 0.5 - t 3 - i a.mp4 vcodec copy b.mp4 其中 -ss 放置较前 开启精准seek定位 对于mp4而言 seek将从moov中相关索引表查找 0.5s时刻附近最近的关键帧 &#xff08;此描述…

systemd服务日志重定向到文件

方式一&#xff08;centos7&#xff09; [Service] ExecStart"/usr/bin/sh test.sh >> info.log 2>&1"方式二&#xff08;centos8&#xff09; StandardOutput 和 StandardError&#xff0c;用于重定向标准输出和标准错误输出 [Service] StandardOut…

k8s containerd查看镜像

直接查看crictl image会报错&#xff1a; 1) crictl config runtime-endpoint unix:///run/containerd/containerd.sock 2) vi /etc/crictl.yaml 3) systemctl daemon-reload 此时&#xff0c;再查看image:

Kettle连接数据库[MySQL]报错

在连接数据库页面填写完成后点击“测试” 报错信息&#xff1a; 错误连接数据库 [ETLqiangzi] : org.pentaho.di.core.exception.KettleDatabaseException: Error occurred while trying to connect to the databaseDriver class org.gjt.mm.mysql.Driver could not be found…

nssm nginx window 部署和开机启动服务

部署 去到Nginx官网&#xff1a;nginx news &#xff0c;然后点击“download” 在nginx的配置文件是conf目录下的nginx.conf nginx.exe http://localhost 在cmd命令窗口里面输入nginx命令(快速停止nginx) &#xff1a; nginx -s stop 或者使用(完整有序的停止nginx)命…

elasticsearch深度分页问题

一、深度分页方式from size es 默认采用的分页方式是 from size 的形式&#xff0c;在深度分页的情况下&#xff0c;这种使用方式效率是非常低的&#xff0c;比如我们执行如下查询 1 GET /student/student/_search 2 { 3 "query":{ 4 "match_all":…

航拍飞行器经营商城小程序的作用是什么

航拍人群越来越越多&#xff0c;一款靠谱的装备往往能达到预期效果&#xff0c;随着互联网信息传播度加深&#xff0c;也吸引了大批同样的爱好者加入航拍序列。 对航拍飞行器企业/经营商来说&#xff0c;市场增幅下也带来了不少商机&#xff0c;然在实际销售及客户赋能方面还是…

必备的常见芯片封装

-网友&#xff1a;这什么破封装&#xff0c;这么难焊&#xff01; -工程师&#xff1a;你才焊过几种芯片封装呀&#xff0c;SOT封装都觉得难&#xff1f; 我们常见的芯片封装&#xff1a; 第一种&#xff0c;DIP封装&#xff0c;DIP即双列直插式封装&#xff0c;引脚从芯片两…