GPT-4o:开启多模态AI识别新纪元

news2024/11/24 16:18:04

GPT-4o功能简介

在人工智能的演变历程中,图像识别技术始终占据着核心地位。技术的发展日新月异,使得AI不仅能够识别图像内容,还能将其转化为文字描述。特别值得一提的是,OpenAI在春季发布的GPT-4o模型,将图像识别技术提升到了一个新的层次。其在多模态理解、物体识别、光学字符识别(OCR)、面部识别、情绪分析、场景解析、图像质量评估以及多目标检测等多个方面得到应用。

首席执行官 Sam Altman 强调,该模型具备“原生多模态”能力,能够生成内容或理解语音、文本和图像中的指令。开发者将可以访问该 API,费用是 GPT-4 Turbo 的一半,速度则是其两倍。

img

GPT-4o名称解析

  • GPT: GPT 代表生成式预训练 Transformer,一种用于语言处理任务的神经网络架构。OpenAI GPT-4o 建立在其前身 GPT-3 和 GPT-4 的基础上。

  • “o” 代表 Omni: 字母“o”表示 GPT-4o 的关键特性——全模式能力。与之前的模型不同,GPT-4o 可以处理并响应各种格式的信息:文本、语音甚至视频。这样可以更全面地理解用户输入,从而提供更相关的响应。

相比于GPT-4-Turbo,GPT-4o提升了什么?

GPT-4o模型的Token利用率相比之前的GPT-4-Turbo提升了50%,这意味着在调用GPT-4o时,消耗的Token数量更少,从而降低了实际成本。此外,GPT-4o的推理速度也比GPT-4-Turbo快了一倍,这直接影响了用户体验和运行效率。

GPT-4o视觉能力测试

为了测试GPT-4o的视觉识别能力,我们来对它进行一系列的测试。在测试过程中,我们仅提供图片,不提供额外的背景信息或引导性问题,以模拟用户在没有上下文的情况下使用图像识别功能。并且使用统一的提示,例如“这是什么?”,以确保测试的一致性。

1.光学字符识别(OCR)

img

OCR技术历史悠久,几乎与计算机科学同龄,按理说对现代视觉识别系统而言,识别文字应是轻而易举。即便是普通智能手机,也能轻松完成这项任务。然而,我提交了一张图片,内容是一块历经风霜的木牌,上面用古色古香的手写体刻着“欢迎来到奥克维尔”。我期望得到的,不仅仅是AI简单地转录文字。

来看看GPT-4o的回答:

GPT-4o:“这幅图像呈现了一个具有复古风情的指示牌,上面用醒目的白色粗体字在红色背景上写着"欢迎来到奥克维尔"。指示牌表面显得磨损,纹理粗糙,显露出岁月的痕迹,暗示它已历经风吹雨打。字体边缘的些许磨损,为其增添了一抹怀旧的韵味。指示牌周围环绕着郁郁葱葱的绿色植被,这表明它可能位于户外,或许是作为通往名为奥克维尔的小镇或社区的门户。”

它不仅能正确读取文本,还能提供有关该位置的更多详细信息,识别出它可能是城镇或定居点,并提取标志本身的详细信息。

2.面部识别

img

这项技术在欧盟存在争议,部分区域已被禁止。我提交了一幅由人工智能绘制的40岁出头女性的肖像,她拥有浓密的深色秀发和温柔的棕色眸子,脸上挂着一抹微笑。

GPT-4o的描述是:“这幅特写肖像捕捉了一位女性,她那卷曲的深色头发和微笑的脸庞成为焦点。画面光线充沛,突显了她细腻的肌肤纹理和面部特征。她的眼神友善,直视着镜头。模糊的背景让她的形象更加突出。”

为了获得更详尽的信息,包括她的年龄,我询问:“这位女士多大年纪?她的情绪状态如何?”GPT-4o回答说,她的年龄大约在30到40岁之间,情绪状态看起来相当不错,并进一步解释:“整体来看,她的情绪状态显得积极,似乎感到满足和平静。”

3.情绪检测

img

接着,我进行了另一项测试,这次是一张描绘着哀愁神色的年迈男性的照片。我好奇GPT-4o是否能够识别出这种情绪,并准确地描述整个场景。它的输入依然简单,仅是“这是什么”这个问题和相应的图片。

GPT-4o的描述如下:“这位长者坐在户外的长椅上,环境可能是一个公园。照片在黄金时段拍摄,柔和的光线洒在他的面庞上。老人的面容显得深沉,似乎笼罩在一丝忧郁或深思之中。他身着带领的衬衫和西装外套,而模糊的背景不仅让他的形象更加聚焦,还营造了一个令人心旷神怡的自然景观。”

这个人工智能模型的表现超出了我的预期,不仅成功地描述了场景,还对老人的情绪状态做出了恰当的推断。

4.场景理解

img

GPT-4o在从图像中提取场景描述和识别场景元素方面的能力有多强?这项技能极为实用,因为人工智能模型正日益被用于辅助描述现实世界的环境。这亦是ChatGPT新加入的语音功能中的一个核心优势。

GPT-4o的描述是这样的:“这张照片捕捉了一个充满阳光的户外农贸市场的热闹场景。在帐篷下,众多摊位排列着,摆满了各式各样的新鲜农产品,包括各式各样的水果、蔬菜以及其他商品。顾客们在市场中穿梭,挑选购物并与摊主进行交流。市场被一片郁郁葱葱的树木环绕,背景中可以看到绿叶的轮廓。整个市场散发出一种充满活力和社区归属感的氛围,强调了本地新鲜食材的重要性。”

无可置疑,它对图片的解读和场景的描述非常精确。它所提供的细节丰富度超出了我的预期,甚至特别提及了一些市场上销售的商品。

5.物体识别

img

图像呈现了一杯热腾腾的咖啡,装在一个红色的陶瓷杯里,连同杯碟一起摆放在咖啡馆的木质桌面上,背景故意虚化。测试的目的是评估GPT-4o如何捕捉并解释背景和场景。

GPT-4o的描述如下:“这张照片捕捉了一个温暖的场景,一杯热咖啡被放置在一个红色的陶瓷杯和杯碟中,桌面是未经修饰的木材。模糊的背景暗示了一个舒适的室内环境,人们在一间类似洞穴风格的咖啡馆或有独特石墙设计的室内空间交谈。咖啡杯是焦点,特别强调了从热饮中升腾的蒸汽。”

这个描述非常精确且详尽,不仅仅是对场景的简单描述,而是构建了一个完整的情境。为了增加描述的深度,我请它描绘一下“坐在桌边,握着这杯咖啡的人的内心想法。”

它给出的描述非常生动,其中有一句特别引人注目:“这杯咖啡不只是一款饮品;它是一种仪式,代表着在繁忙日常中一段宝贵的独处和深思的时光。”

概括

着这杯咖啡的人的内心想法。”

它给出的描述非常生动,其中有一句特别引人注目:“这杯咖啡不只是一款饮品;它是一种仪式,代表着在繁忙日常中一段宝贵的独处和深思的时光。”

概括

通过一系列的测试,我们可以看到GPT-4o在图像识别方面的出色表现。与以往的视觉模型相比,GPT-4o没有犯任何错误,无论是在物体识别、颜色识别还是品牌识别方面。这标志着OpenAI在多模态领域的重大进步。准备好彻底改变的 AI 交互体验。无论是在 ChatGPT 的 GPT-4o 免费版还是 GPT Plus 版中。Plus 用户将享受更高的消息限制。准备好通过文本提示和图像输入体验 GPT-4o 的强大功能吧。
参考原文链接:GPT-4o:开启多模态AI识别新纪元

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2033423.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring项目:文字花园(一)

前言 实现登录注册功能。 ⽤⼾登录成功后, 可以查看所有⼈的博客. 点击 <<查看全⽂>> 可以查看该博客的正⽂内容. 如果该博客 作者为当前登录⽤⼾, 可以完成博客的修改和删除操作, 以及发表新博客 一.准备工作 1.1注入sql &#xff08;数据准备&#xff09; -- 建…

解决No module named ‘tensorflow‘

import tensorflow as tf ModuleNotFoundError: No module named tensorflow 安装合适的tensorflow版本 先查看自己的python版本 或者输入指令&#xff1b;python --version 安装兼容的tensorflow版本&#xff0c;安装指定版本的tensorflow pip install tensorflow-gpu2.3.0…

MVDream 论文学习

论文链接&#xff1a;https://arxiv.org/abs/2308.16512 代码链接&#xff1a;https://github.com/bytedance/MVDream 解决了什么问题&#xff1f; 3D 内容生成是现代游戏和媒体产业中的关键环节&#xff0c;然而这是一个劳动密集型的任务&#xff0c;创建一个 3D 资产就需要…

后端Web之HTTP协议基础介绍

目录 1.HTTP概念 2.HTTP请求协议 3.HTTP响应协议 4.HTTP协议解析 1.HTTP概念 HTTP&#xff08;HyperText Transfer Protocol&#xff0c;超文本传输协议&#xff09;是一种用于分布式、协作式和超媒体信息系统的应用层协议。它是万维网数据通信的基础&#xff0c;允许将超…

JVM由那些部分组成,运行流程是什么?

Java 虚拟机 (JVM) 是 Java 运行环境的核心部分&#xff0c;它负责执行 Java 字节码。JVM 由多个不同的组件组成&#xff0c;每个组件都负责不同的任务。下面我将详细介绍 JVM 的主要组成部分及其运行流程。 JVM 的组成部分 类加载器 (Class Loader)&#xff1a; 类加载器负责读…

数据结构 位运算

基础位运算 按位与&#xff08;AND&#xff09; 操作符&#xff1a;&两个位同时位1时&#xff0c;结果位1&#xff0c;否则为0 按位或&#xff08;OR&#xff09; 操作符&#xff1a;|主要有一位是1&#xff0c;那么结果就是1&#xff0c;只有两位都是0的时候&#xff0c;结…

C++ 115类和对象_this指针的用途

学习内容 类和对象_this指针的用途 1.解决名称冲突 2.返回对象本身用 *this 运行结果 代码 #include<iostream> using namespace std;//cout 在这里&#xff0c;没有它会报错//1.解决名称冲突//2.返回对象本身用 *thisclass Person { public:Person(int age){//形参名称…

【深度学习实践】基于深度学习的图像去雾算法-ChaIR-实践

本文介绍一个去雾算法ChaIR的使用方法&#xff0c;可以完成图像去雾&#xff0c;也可以用于图像去雨、去噪音等任务。本文不涉及论文原理&#xff0c;只包含源代码的跑通和使用。 先展示一下效果&#xff1a; 原图去雾 论文&#xff1a;Exploring the potential of channel …

ZAN与Mysten Labs合作推进Web3基础设施开发

Mysten Labs是一家Web3基础设施公司&#xff0c;也是Sui区块链的开发公司&#xff0c;今天宣布与蚂蚁数字科技的技术品牌ZAN建立合作伙伴关系。 通过整合Sui&#xff0c;ZAN旨在加速其Web3应用程序的开发和采用。该合作将专注于为Mysten Labs在两个关键领域提供技术支持&#…

Redis 缓存预热、雪崩、穿透、击穿

缓存预热 缓存预热是什么 缓存预热就是系统上线后&#xff0c;提前将相关的缓存数据直接加载到缓存系统。避免在用户请求的时候&#xff0c;先查询数据库&#xff0c;然后再将数据缓存的问题&#xff01;用户直接查询事先被预热的缓存数据&#xff01;解决方案 使用 PostConstr…

day2-网络连接网卡配置原理

1.window网卡 理解&#xff1a; window 有 2 块网卡 本地网卡 192.168.13.253 用于连接外网 vmnet8 10.0.0.1(装虚拟机自动生成的 如果没有自动生成…) 虚拟机添加 2 块网卡&#xff1a; 第一块网卡 NAT 模式 添加网卡的时候设置 NAT 模式 2 个作用&#xff0c;用于连接 wi…

Linux服务管理-Nginx进阶

通常会通过rewrite将用户的80请求转化为443请求&#xff0c;也就意味着Nginx需要去做虚拟主机&#xff0c;一个80端口的虚拟主机和一个443端口的虚拟主机&#xff0c;当访问80端口的虚拟主机时返回一个信息让用户去访问443端口的虚拟主机。

技术证书认证-附考试答案-AIGC与大模型通识-英特尔大湾区科技创新中心证书认证

目录 课程简介 面向人群 考核步骤 试题答案 知孤云出岫主页 课程以及考试链接&#xff1a;AIGC与大模型通识 - 英特尔大湾区科技创新中心 【英特尔大湾区科技创新中心】公益新课《AIGC与大模型通识》上线官网&#xff01;首期结业认证进行中&#xff0c;提升AI应用技能&…

解决Element-ui el-tree数据与显示不对应的问题

如图&#xff1a; 后端返回的权限列表&#xff0c;并没有列表这一项&#xff0c;但是由于父节点 版本打包 为选中状态&#xff0c;导致所有子节点都为选中状态。 实现代码如下&#xff1a; <el-treeref"tree":data"records"show-checkboxnode-key&quo…

RuoYi-Vue新建模块

一、环境准备 附:RuoYi-Vue下载与运行 二、新建模块 在RuoYi-Vue下新建模块ruoyi-test。 三、父pom文件添加子模块 在RuoYi-Vue的pom.xml中,引入子模块。 <dependency><groupId>com.ruoyi</groupId><artifactId>ruoyi-test</artifactId>&…

【AI人工智能】文心智能体 - 你的专属车牌设计师

引言 自AI盛行以来&#xff0c;不断有各种各样的人工智能产品崭露头角。我们逐步跟着不断产生的人工智能来使自己的工作和生活变得更加智能化&#xff01;那么我们是否能够创造一款专属于自己的人工智能产品呢&#xff1f; 文心智能体平台就给我们提供了这样的机会&#xff0c…

品牌维价的含义和方法

品牌维价是指通过一系列手段和方法&#xff0c;对品牌产品的价格进行统一管理和控制&#xff0c;确保品牌在各个销售渠道都能保持合理稳定的价格体系&#xff0c;从而保障品牌自身以及各级经销商的合理利润。 常见的品牌维价方法可以参考下面这些 品牌自我管控的方法&#xff…

8.2.数据库基础技术-数据模型

概念模型是从用户的角度进行建模的&#xff0c;是现实世界到信息世界的第一抽象&#xff0c;是真正的实体-联系模型。关系模型是二维表的形式表示的实体-联系模型&#xff0c;是将实体-联系模型转换而来的&#xff0c;经过开发人员设计的&#xff1b;网状模型表示实体类型及其实…

【背包蛙】游戏 高端链游 链游开发

#游戏#链游 #深圳软件开发公司#游戏开发公司 以背包整理和物品摆放为核心的策略博弈 那么以背包中的物品&#xff0c;我们就开始了冒险之旅——角色固定拥有3点AP&#xff0c;盾牌或者剑以及后续获得的其他武器&护甲使用绝大部分都需要AP(也包含很多伤害低&次数也受限…

计算数学精解【12】-fortran计算精解(1)

文章目录 概述hello,world环境接收输入与输出 读取csv文件if and select case循环formatread,write format 概述 FORTRAN是英文“FORmulaTRANslator”的缩写&#xff0c;译为“公式翻译器”&#xff0c;它是世界上最早出现的计算机高级程序设计语言&#xff0c;广泛应用于科学…