类人速度超快语音响应!OpenAI推出新旗舰模型GPT-4o,图文音频手机AI搞定

news2024/12/26 23:23:32

内容概述

虽然没有带来备受期待的人工智能(AI)搜索引擎,但OpenAI在主打产品AI模型上花了更多心思,拓展多模态功能,让用户可以免费玩转文字、图片和语音输入。

美东时间5月13日周一,OpenAI首席技术官Mira Murati在直播演示中宣布,推出新的OpenAI旗舰AI模型,名为GPT-4o,称它面向所有人,包括免费用户,为“我们的免费用户带来GPT-4级的智能”。OpenAI还推出了台式机版本的ChatGPT以及新的用户界面(UI)。

Murati说:“这是我们第一次在便于使用方面真正迈出一大步。” 她评价,GPT-4o的“速度快得多”,提升了GPT-4在文本、视频和音频方面的功能,“GPT-4o 通过语音、文本和视觉进行推理”。 

Murati在演示中称,相比GPT-4 Turbo,GPT-4o的速度快了两倍,成本降低了50%,API速率限制、即用户可发出的请求数量提高了五倍。有网友在社交媒体X上对此感到开心,称API终于改进了。

实时求解方程、做口译、分析图表、读取用户情绪

GPT-4之前已经可以分析图像和文本,完成从图像中提取文本、以文本描述图像内容这类任务。GPT-4o则是增加了语音功能。Murati 强调了GPT-4o在实时语音和音频功能方面必要的安全性,称OpenAI将继续部署迭代,带来所有的功能。

在演示中,OpenAI 研究主管 Mark Chen掏出手机打开ChatGPT,用语音模式Voice Mode现场演示,向GPT-4o支持的ChatGPT征询建议。GPT的声音听起来像一位美国女性,当它听到Chen过度呼气时,它似乎从中察觉到了他的紧张。 然后说“Mark,你不是吸尘器”,告诉Chen要放松呼吸。如果有些大变化,用户可以中断GPT, GPT-4o的延迟通常应该不会超过两三秒。

另一项演示中,OpenAI的后训练团队负责人Barret Zoph在白板上写了一个方程式3x+1=4,ChatGPT给他提示,引导他完成每一步解答,识别他的书写结果,帮助他解出了X的值。这个过程中,GPT充当了实时的数学老师。GPT能够识别数学符号,甚至是一个心形。

应社交媒体X的用户请求,Murati现场对ChatGPT说起了意大利语。GPT则将她的话翻译成英语,转告Zoph和Chen。听完Murati说的意大利语,GPT翻译为英文告诉Chen:“Mark,她(Murati)想知道鲸鱼会不会说话,它们会告诉我们什么?” 

OpenAI 称,GPT-4o还可以检测人的情绪。在演示中,Zoph将手机举到自己面前正对着脸,要求ChatGPT告诉他自己长什么样子。最初,GPT参考了他之前分享的一张照片,将他识别为“木质表面”。经过第二次尝试,GPT给出了更好的答案。

GPT注意到了Zoph脸上的微笑,对他说:“看起来你感觉非常快乐,喜笑颜开。”

有评论称,这个演示显示,ChatGPT可以读取人类的情绪,但读取还有一点困难。

OpenAI的高管表示,GPT-4o可以与代码库交互,并展示了它根据一些数据分析图表,根据看到的内容对一张全球气温图得出一些结论。

OpenAI称,基于GPT-4o的ChatGPT文本和图像输入功能将于本周一上线,语音和视频选项将在未来几周内推出。

X平台的网友注意到了OpenAI展示的新功能。有网友指出,GPT-4o不仅可以将语音转换为文本,还可以理解和标记音频的其他特征,例如呼吸和情感,不确定这在模型响应中是如何表达的。

有网友指出,根据演示,ChatGPT的语音能帮助实时求解方程,像人类一样说话,而且几乎是即时响应,全部都在手机上运行。

最快232毫秒响应音频输入 平均响应时间和人类相似

OpenAI官网介绍,GPT-4o中的o代表意为全能的前缀omni,称它向更自然的人机交互迈进了一步,因为它接受文本、音频和图像的任意组合作为输入内容,并生成文本、音频和图像的任意组合输出内容。

除了API的速度更快、成本大幅下降,OpenAI还提到,GPT-4o可以在最快232毫秒的时间内响应音频输入,平均响应时间为320毫秒,这与人类在对话中的响应时间相似。它在英语文本和代码方面的性能与GPT-4 Turbo 的性能一致,并且在非英语文本方面的性能有了显著提高。

OpenAI介绍,与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。以前GPT-3.5和GPT-4用户以语音模式Voice Mode与ChatGPT 对话的平均延迟时间为2.8 秒和 5.4 秒,因为OpenAI用了三个独立的模型实现这类对话:一个模型将音频转录为文本,一个模型接收并输出文本,再有一个模型将该文本转换回音频。这个过程意味着,GPT丢失了大量信息,它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

而GPT-4o的语音对话是OpenAI跨文本、视觉和音频端到端训练一个新模型的产物,这意味着所有输入和输出都由同一神经网络处理。OpenAI称,GPT-4o 是其第一个结合所有这些模式的模型,因此仍然只是浅尝辄止地探索该模型的功能及其局限性。

上周曾有消息称,OpenAI将发布基于AI的搜索产品,但上周五OpenAI的CEO Sam Altman否认了该消息,称本周一演示的既不是GPT-5,也不是搜索引擎。这意味着OpenAI再一次没有像市场爆料的时间线那样推出AI搜索。此后有媒体称,OpenAI的新产品可能是一个具备视觉和听觉功能的全新多模态AI模型,且具有比目前聊天机器人更好的逻辑推理能力。

本周一的演示的确展示了OpenAI在语音方面的努力。对于OpenAI推出的新模型和UI更新,有网友称,感觉到目前为止OpenAI没有那么开创性。

也有网友觉得OpenAI进一步拉开了和苹果的差距,还发了一张人满头大汗的动图,称现在苹果的语音助手Siri应该是这个样子。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1677037.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

绝地求生:一穿四教学,绿色玩家也能轻松一穿四

PUBG一穿四速成班开课啦!我这里只做PUBG干货分享,不搬运!不搬运!!不搬运!!! 有很多朋友是否在排位里kd不高,开局不是扎堆roll点就是一直搜东西然后一波就没?这…

《灵摆疗法》PDF完整版阅读

译者序 神奇丶快速又有效的灵摆疗法 2008年当我开始走上自己的灵性道路时就与灵摆结下了不解之缘当时我非常热衷于水晶疗愈所以疯狂地搜集各种不同的矿石学习如何将矿石 和水晶灵摆连结起来做能量疗愈后来在我开设马雅心能量课程时也会教大家如何使用水晶灵摆 …然而这两年来不…

09.Hadoop的安装

Hadoop的安装 1.拖拽安装包上传到/opt/software 2.解压文件到/opt/module [itwisenode2 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/3查看文件 drwxr-xr-x. 2 itwise itwise 4096 9月 12 2019 bin drwxr-xr-x. 3 itwise itwise 4096 9月 12 2019 etc …

企业计算机服务器中了rmallox勒索病毒怎么解密,rmallox勒索病毒解密工具流程

在当今数字化时代,越来越多的企业依赖计算机服务器进行办公开展业务,计算机服务器犹如企业的心脏,能够为企业存储许多重要的核心信息,帮助企业有效的开展各项工作业务,提高企业的生产效果,但网络是一把双刃…

守护长者安全,平安养老险携手福海街道开展防灾减灾活动

在构建和谐社会、倡导人文关怀的当下,平安养老险以高度的社会责任感和深厚的人文情怀,持续关注老年人的健康与安全。在今年“5.12防灾减灾日”来临之际,平安养老险深圳分公司积极响应倡议,于5月10日携手福海街道举办了在福海街道举…

java项目之企业资产管理系统(springboot+vue+mysql)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的企业资产管理系统。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: 管理员功能有个人中心&…

Flutter 3.22 发布,快来看看有什么更新吧?

Flutter 3.22 发布,快来看看有什么更新吧? 本次 Flutter 跟随 Google I/O 发布的版本是 3.22 ,该版本主要还是带来了 Vulkan backend 和 Wasm Native 的落地,另外还有一个重点就是 Dart macros ,但是它更多只是一个预…

Warning logs 2024-05-15

mysql数据库中文模糊查询时出现异常 Error querying database. Cause: java.sql.SQLException: Illegal mix of collations for operation like Select("select f.* from fundDetails f" " where (case when #{keyword} is not null then f.operateTime like c…

AXI GPIO IP核配置详解

AXI GPIO(AXI General-Purpose Input/Output)设计提供了一个通用的输入/输出接口,该接口连接到一个AXI4-Lite接口。AXI GPIO可以被配置为单通道或双通道设备,每个通道的位宽可以独立配置。 端口(即GPIO引脚&#xff0…

鸿蒙ArkUI开发:常用布局【相对布局】

相对布局(RelativeContainer) 相对布局可以让子元素指定兄弟元素或父容器作为锚点,基于锚点做位置布局必须为RelativeContainer及其子元素设置ID,用于指定锚点信息。未设置ID的子元素不会显示RelativeContainer ID为“__containe…

【转载】【亲测可用】Ubuntu18.04安装VTK-8.2.0

这篇文章转载大部分都参考自下面的链接,注意cmake的版本,如果版本不对是编译失败的 https://blog.csdn.net/qq_42257666/article/details/124574029?ops_request_misc%257B%2522request%255Fid%2522%253A%2522171566768016800182751339%2522%252C%2522…

嵌入式单片机笔试题

DC-DC 和 LDO两者有何区别? DC-DC转换器(直流-直流转换器)和LDO(低压差线性稳压器)都是用于电源管理的设备,但它们在原理和特性上有一些显著的区别: 原理: DC-DC转换器通过改变输…

python怎么读取xml

引入XML组件&#xff1a;import xml.dom.minidom。 创建一个xml文件&#xff0c;<?xml version"1.0" encoding"utf-8"?>。 加载读取XML文件&#xff0c;xml.dom.minidom.parse(abc.xml)&#xff0c;这是xml文件的对象。 获取XML文档对象&#xff0…

Windows应急响应

Windows应急响应 1.请提交攻击者攻击成功的第⼀时间2&#xff0c;请提交攻击者的浏览器版本3&#xff0c;请提交攻击者⽬录扫描所使⽤的⼯具名称4&#xff0c;找到攻击者写⼊的恶意后⻔⽂件&#xff0c;提交⽂件名&#xff08;完整路径&#xff09;5&#xff0c;找到攻击者隐藏…

开源的全自动生成视频文案、视频素材、视频字幕、视频背景音乐的AI项目

网址 https://github.com/harry0703/MoneyPrinterTurbo 只需提供一个视频 主题 或 关键词 &#xff0c;就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐&#xff0c;然后合成一个高清的短视频。 如果用来做视频&#xff0c;可以先收藏一下&#xff0c;值得本地…

未授权访问:ZooKeeper 未授权访问漏洞

目录 1、漏洞原理 2、环境搭建 3、未授权访问 防御手段 今天继续学习各种未授权访问的知识和相关的实操实验&#xff0c;一共有好多篇&#xff0c;内容主要是参考先知社区的一位大佬的关于未授权访问的好文章&#xff0c;还有其他大佬总结好的文章&#xff1a; 这里附上大…

51 单片机[2-2]:LED闪烁

摘要&#xff1a; 本文使用STC89C52RC单片机实现单个LED闪烁 新建一个项目&#xff0c;具体步骤见[2-1] 分析&#xff1a; 要使 LED 闪烁&#xff08;以D1为例&#xff09;&#xff0c;就要先让 P2 0xfe; 再让 P2 0xff; 先在keil5中把程序写成这样&#xff1a; #include &…

12.snmp协议监控

snmp协议监控 安装snmp服务器端 yum install net-snmp -y服务器端&#xff1a;配置&#xff08;centos&#xff09; vim /etc/snmp/snmpd.conf com2sec notConfigUser default public view systemview included .1服务器端&#xff1a;配置&#xff0c;瑞数防护系统botgate&…

【保姆级介绍自动化的讲解】

&#x1f308;个人主页: 程序员不想敲代码啊 &#x1f3c6;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f44d;点赞⭐评论⭐收藏 &#x1f91d;希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出指正&#xff0c;让我们共…

JavaEE 初阶篇-深入了解网络原理 TCP/IP 协议

&#x1f525;博客主页&#xff1a; 【小扳_-CSDN博客】 ❤感谢大家点赞&#x1f44d;收藏⭐评论✍ 文章目录 1.0 TCP 协议概述 1.1 TCP 协议格式 2.0 TCP 协议的特性 2.1 确认应答 2.2 超时重传 2.2.1 超时的时间如何确定&#xff1f; 2.3 连接管理 2.3.1 三次握手 2.3.2 四次…