OpenAI 最近发布的 GPT-4o 模型,作为其自然语言处理技术的最新突破,标志着人工智能领域的一个新纪元。

news2025/1/23 7:07:32

 2024年5月14日,OpenAI推出了其最新的旗舰模型——**GPT-4o**。不同于传统的AI搜索引擎或预期中的GPT-5,GPT-4o在功能上取得了重大突破,将文本、视觉和音频理解融合在一个模型中。让我们深入了解这一革命性的AI。

“o”代表什么?

GPT-4o中的“o”代表“omni”,象征其全能的能力。与以往的模型相比,GPT-4o在视觉和音频理解方面表现尤为突出。它可以实时处理文本、音频和视觉输入,接受这些模态的任意组合,并生成相应的输出。令人惊叹的是,它的响应时间仅为232毫秒,接近人类的对话速度。

从Voice Mode到GPT-4o

在GPT-4o之前,用户可以使用Voice Mode与ChatGPT进行交互,但平均延迟为2.8秒(对于GPT-3.5)和5.4秒(对于GPT-4)。这个过程包括将音频转录为文本,由GPT-3.5或GPT-4处理文本,然后再将输出转换回音频。然而,这种方法会丢失关键信息,如音调、多个说话者、背景噪音以及细微的表情,比如笑声或歌唱。

GPT-4o:端到端解决方案

GPT-4o是一个端到端的解决方案,将文本、视觉和音频处理无缝集成在一起。现在,所有输入和输出都通过一个神经网络处理。这是一个重要的里程碑——首个结合这些模态的模型。OpenAI继续探索模型的功能和局限性。

发布会要点

新款 GPT-4o 模型:实现了任何文本、音频和图像输入的无缝对接,可直接生成相应的输出,无需中间转换。
GPT-4o 的语音延迟显著降低,能在 232 毫秒内回应音频输入,平均响应时间为 320 毫秒,这与人类对话的响应时间相似。
GPT-4 向所有用户免费开放。
GPT-4o API,比 GPT-4 Turbo 快 2 倍,价格低 50%。
惊艳的实时语音助手演示:对话更加拟人化、能实时翻译,识别表情,并能通过摄像头识别画面、编写代码、分析图表。
ChatGPT 新 UI,更加简洁。
新的 ChatGPT 桌面应用程序,适用于 macOS,Windows 版本将在今年晚些时候推出。
这些功能在预热阶段已被 Altman 形容为“感觉像魔法”。既然全球的 AI 模型都在“赶超 GPT-4”,OpenAI 也要展示其真正的实力。

免费的 GPT-4o 来了,但这不是其最大的亮点
实际上在发布会前一天,我们发现 OpenAI 已经悄悄地将 GPT-4 的描述从“最先进的模型”修改为“先进的”。

这是为了迎接 GPT-4o 的到来。GPT-4o 的强大之处在于它可以接受任何文本、音频和图像的组合输入,并直接生成这些媒介的输出。

这意味着人机交互将更接近于自然的人与人之间的交流。

GPT-4o 可以在 232 毫秒内回应音频输入,平均响应时间为 320 毫秒,这接近于人类对话的反应时间。此前,使用语音模式与 ChatGPT 交流的平均延迟为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。

在英文和代码文本上,GPT-4o 的性能与 GPT-4 Turbo 相当,而在非英语语言文本上有显著改进,同时其 API 更加快速且价格便宜 50%。

而与现有模型相比,GPT-4o 在视觉和音频理解方面表现尤为出色。

你在对话时可以随时打断
它能够根据场景生成多种音调,带有类似人类的情绪和情感
可以通过与 AI 进行视频通话,直接在线解答各种问题
从测试参数来看,GPT-4o 的主要能力基本与目前最强的 OpenAI 模型 GPT-4 Turbo 相当

过去,我们使用 Siri 或其他语音助手的体验并不理想,主要原因是语音助手对话要经历三个阶段:

语音识别或“ASR”:将音频转换为文本,类似于 Whisper;
大型语言模型(LLM)规划下一步要说什么:将文本 1 转换为文本 2;
语音合成或“TTS”:将文本 2 转换为音频,可以想象成 ElevenLabs 或 VALL-E。

然而,我们日常的自然对话却是这样的:

在听和说的同时,考虑下一步要说什么;
在适当的时刻插入“是的,嗯,嗯”;
预测对方讲话结束的时间,并立即接话;
自然地决定打断对方的谈话,而不会引起反感;
优雅地处理并打断对方的谈话。

之前的 AI 语言助手无法很好地处理这些问题。在对话的三个阶段中,每一步都有较大延迟,因此体验不佳。同时,在这个过程中会丢失很多信息,比如无法直接观察语调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

当音频能够直接生成音频、图像、文字、视频时,整个体验将会有质的飞跃。

GPT-4o 是 OpenAI 专门为此训练的全新模型,实现了文本、视频和音频之间的直接转换,这要求所有的输入和输出都由同一个神经网络处理。

更令人惊喜的是,ChatGPT 免费用户现在可以体验以下功能:

- GPT-4 级别的智能
- 从模型和网络获取响应
- 数据分析和图表创建
- 与上传的照片进行交流
- 上传文件以获取摘要、写作或分析帮助
- 使用 GPTs 和 GPT Store
- 通过 Memory 构建更加有帮助的体验

当您观看了 GPT-4o 下面这些演示后,您的感受可能会更加复杂:

- ChatGPT 版「贾维斯」,人人都有
- ChatGPT 不仅能说、能听、还能看,这已经不是什么新鲜事了,但「全新版本」的 ChatGPT 仍然令我感到惊艳。

- **睡觉搭子**:以一个具体的生活场景为例,让 ChatGPT 讲述一个关于机器人和爱的睡前故事,它几乎不用太多思考,就能够口若悬河地说出一个带有情感和戏剧性的睡前故事。甚至它还能以唱歌的形式来讲述故事,简直可以充当用户的睡眠搭子。

- **做题高手**:ChatGPT 不仅仅是一个聊天机器人,它还可以成为您的学习助手。

或者,在发布会现场,通过演示解决线性方程 3X+1=4 的求解过程,GPT-4o 能够一步步耐心地引导用户,最终给出正确的答案。

当然,这些还只是一些基本功能,“小儿科”而已。真正的挑战是现场的编程难题。但即使面对这些复杂问题,GPT-4o 也能在短时间内轻松找到解决方案。

借助 ChatGPT 的「视觉」功能,它能够查看电脑屏幕上的所有内容,例如与代码库交互并查看代码生成的图表。咦,这样一来,我们的隐私岂不是也会被看得一清二楚了?

在实时翻译方面,ChatGPT 在现场演示中表现出色。无论是从英语翻译到意大利语,还是从意大利语翻译回英语,这款 AI 语音助手都应对自如,让观众印象深刻。看来,未来可能不需要花重金购买翻译机,因为 ChatGPT 可能会成为比现有实时翻译机还更可靠的选择。

▲ 实时翻译(官网案例)

此外,感知语言情绪只是起步阶段,ChatGPT 还能解读人类的面部情绪。

在发布会现场,当面对摄像头拍摄的人脸时,ChatGPT 一开始将其“误认为”是桌子,这让在场的观众误以为程序将要出错。原因是最初开启的前置摄像头正好对准了桌子。

然而,随后它正确地描述了自拍面部的情绪,并准确识别出了脸上的“灿烂”笑容。

有趣的是,在发布会结束时,发言人也特别提到了英伟达及其创始人老黄的“鼎力支持”,显示出对人情世故的理解。

对话语言界面的概念展现了令人难以置信的前瞻性。

Altman 在之前的采访中表达了希望最终开发出一种类似于电影《Her》中的 AI 助理,而今天 OpenAI 发布的语音助手似乎确实在向这个方向迈进。

OpenAI 的首席运营官 Brad Lightcap 不久前曾预测,未来我们将与 AI 聊天机器人进行对话,就像与人类交谈一样,并将其视为团队的一部分。

这一预测不仅为今天的发布会铺平了道路,同时也为我们未来十年的生活注入了活力。

苹果在 AI 语音助手领域花费了长达十三年的时间,仍未走出困境,而 OpenAI 则迅速找到了解决方案。可以预见,不久的将来,钢铁侠的“贾维斯”将不再是幻想。

目前GoMaxAI系统已正式接入GPT-40大模型,效果相当不错,欢迎体验!!!

OpenAI联合创始人兼首席执行官山姆·奥特曼表示,他在5月15日的说明中提到,虽然GPT-4o的文本模式已经发布,但语音模式还未发布。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1681497.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

案例实践 | 招商局集团基于长安链的双循环航运贸易应用

案例名称-招商局双循环航运贸易联盟链 ■ 建设单位 招商局集团 ■ 用户群体 货主企业、物流企业、基础设施运营商等各参与主体 ■ 应用成效 已赋能产业链上下游超1.2万家中小微企业,累计提供普惠金融超830亿元 案例背景 作为全球贸易大国,我国约…

使用numpy或pytorch校验两个张量是否相等

文章目录 1、numpy2、pytorch 做算法过程中,如果涉及到模型落地,那必然会将原始的深度学习的框架训练好的模型转换成目标硬件模型的格式,如onnx,tensorrt,openvino,tflite;那么就有对比不同格式模型输出的一致性,从而判断模型转换…

【LeetCode:23. 合并 K 个升序链表 + 链表 + 归并 + 递归】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

Linux上编译安装和卸载软件

在maven官网下载maven时候,看到maven-3.9.5这个版本有2份安装包,一个是binaries,一个是source binaries是已编译好的文件,可以直接使用的版本;source是源代码版本,需要自己编译 源码的安装一般由这三个步…

齐护K210系列教程(二十七)_语音识别

语音识别 1.烧录固件和模型2.语音识别程序2.1训练并识别2.2使用本地文件语音识别 3.课程资源联系我们 1.烧录固件和模型 注:本应用只适用于有麦克风功能的型号:AIstart_pro、AIstart_掌机、AIstart_Mini, 其它型号不支持! 机器码生成以及模…

集成了Gemini的Android Studio,如虎添翼

今天将Android Studio升级到最新版(Jellyfish)。发现在new features中有一条: Code suggestions with Gemini in Android Studio 打开路径为: View > Tool Windows > Gemini 支持多国语言,英文、中文都能正确理解…

网络安全人士必知的人工智能对抗模型MITRE ATLAS

图片由通义万相绘制 MITRE ATLAS™(人工智能系统的对抗威胁格局)是一个关于机器学习 (ML) 系统的对手战术、技术和案例研究的知识库,基于现实世界的观察、ML红队和安全小组的演示,以及学术研究的可能性状态。ATLAS 是仿照MITRE A…

ssm132医院住院综合服务管理系统设计与开发+vue

医院住院综合服务管理系统的设计与实现 摘 要 互联网发展至今,无论是其理论还是技术都已经成熟,而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播,搭配信息管理工具可以很好地为人们提供服务。针对医院住院信息管理混乱&…

【御控物联】物联网协议

文章目录 一、前言二、协议清单三、技术资料 一、前言 如果一个人想要和全球各个国家贸易,那这个人就得懂各个国家的语言或者全球通用语言,同样,在物联网的世界里,各家设备也都拥有自己的语言(协议)&#…

Edwards爱德华PHM3000培训PPT课件内容可见图片详情

Edwards爱德华PHM3000培训PPT课件内容可见图片详情

Spring初学入门(跟学笔记)

一、Spring概述 Spring是一款主流的Java EE轻量级开源框架。 Spring的核心模块:IoC(控制反转,指把创建对象过程交给Spring管理 )、AOP(面向切面编程,在不修改源代码的基础上增强代码功能) 二、…

JavaWeb--18 tlias-web-management 登录认证

登录认证 1 登录功能功能开发 2 登录校验2.1 问题分析2.2 会话技术CookieSession令牌技术 2.3 JWT令牌介绍生成和校验登录下发令牌 2.4 过滤器Filter拦截路径过滤器链 登录校验-Filter 2.5 拦截器InterceptorInterceptor详解执行流程 登录校验- Interceptor 3 异常处理3.1 当前…

网页封装App技术详解与小猪APP分发解决方案

移动互联网的浪潮中,网页封装App(又称Hybrid App)以其快速部署、成本效益高的特点,成为众多企业和开发者的选择。这种技术允许开发者将网页内容封装进原生App外壳,从而在不牺牲用户体验的前提下,实现跨平台…

常用五款文件加密软件|好用加密软件工具分享

随着信息化时代的到来,数据安全问题日益凸显,加密软件应运而生,成为了保护数据安全的重要手段。在市场上,众多加密软件层出不穷,各有千秋。本文将介绍几款常用的加密软件,分析它们的优缺点,以帮…

rocketmq的顺序消息开发注意事项

1. 参考消息重试,要对 MaxReconsumeTimes进行设置。之前就是因为没有进行设置,导致了队头阻塞问题。 rokcetmq和kafka一样,当顺序消息写入的多个队列中后,如果是顺序消息,当前的队列的队头一直消费失败的时候&#x…

Hive的窗口函数

定义: 聚合函数是针对定义的行集(组)执行聚集,每组只返回一个值.如sum()、avg()、max() 窗口函数也是针对定义的行集(组)执行聚集,可为每组返回多个值.如既要显示聚集前的数据,又要显示聚集后的数据.步骤: 1.将记录分割成多个分区. 2.在各个分区上调用窗…

使用Pixi.js 图片切换特效(图片分段下滑以及复原)

1.效果: 2.实现原理: 将图片按宽高切分为x*y(具体可以自己调整)个矩形区域,对每个顶点分配一个随机值noiseValue(-1到1之间),在顶点着色器中根据这个随机值而做出不同的y轴位移效果从而实现出分段的下滑或者复原的效果。 3.代码实现: 首先是顶点着色器的代码,其中…

java优先级队列

1. 优先级队列 1.1 概念 前面介绍过队列,队列是一种先进先出(FIFO)的数据结构,但有些情况下,操作的数据可能带有优先级,一般出队 列时,可能需要优先级高的元素先出队列,该中场景下,使用队列显然…

OpenSearch LLM智能问答版全新升级

阿里云OpenSearch LLM智能问答版是OpenSearch推出的一站式开箱即用的检索增强生成(RAG)云产品,帮助开发者快速构建多模态对话式搜索服务。 自2023年6月上线以来,OpenSearch LLM智能问答版已累计支持了数百家云上客户搭建RAG系统&…

人工智能|深度学习——YOLOV8结构图

YoloV8相对于YoloV5的改进点: Replace the C3 module with the C2f module.Replace the first 6x6 Conv with 3x3 Conv in the Backbone.Delete two Convs (No.10 and No.14 in the YOLOv5 config).Replace the first 1x1 Conv with 3x3 Conv in the Bottleneck.Use…