OpenAI 新发布的 GPT-4o,有血有肉的Ai来了,可实时语音视频交互

news2024/11/15 10:12:56

今天,OpenAI又又又开发布会了。

在大众心里,现在也基本上都知道,奥特曼是一个贼能PR的人。

每一次的PR的时间点,都拿捏的极其到位,精准的狙击其他厂商。比如说上一次Sora,其实你会发现从头到尾就是一个PR的举动,2月16号发的,特么的快3个月了,什么影子都没有。

而这一次,OpenAI把发布会从9号改到了今天,也不知道哪个倒霉蛋造到狙击了,反正我只知道,明天Google要开开发者大会。。

就差怼脸了。。。

不过,今天OpenAI的东西,直接杀疯了。完全不给友商活路。

震撼的我头皮发麻。

最核心的就是它的新模型:GPT-4o,和基于GPT-4o打造的全新ChatGPT。

1. 新模型GPT-4o

OpenAI正式发布了新的模型GPT-4o。

image-20240515020150817
image-20240515020150817

GPT-4o,这个o就是"Omni",Omni是拉丁语词根,意为 "全体"、"所有" 或 "全面的"。

在英语中,"omni" 常被用作前缀,表示 "所有的" 或 "全体的"。例如,"omniscient" 意味着 "无所不知的","omnipotent" 意味着 "全能的","omnipresent" 意味着 "无所不在的"。

所以可想而知,OpenAI这次对GPT-4o的期待有多高。

omnimodel指的就是文字、语音、图片、视频统一的模型,这是跟以往的GPT-4V最大的区别。

这是正儿八经的原生多模态。

更重要的是可以实时推理音频、视觉和文本,注意这里是实时,实时,实时,推理的不是文本,是音频!视觉!

杀疯了。

而之前一直在大模型竞技场上大杀特杀的im-also-a-good-gpt2-chatbot,就是这个玩意。之前所有人都在猜测这个神秘的GPT2就是GPT4.5,这次看来是猜对了。

image-20240515020203033
image-20240515020203033

这个GPT-4o的整体能力,在统一模态的基础上。

文本、代码能力还基本能跟GPT-4 Turbo打平。

文本能力:

image-20240515020316582
image-20240515020316582

音频能力:

image-20240515020256434
image-20240515020256434

各个语言的考试能力:

image-20240515020243826
image-20240515020243826

最核心的是最后一个:

image-20240515020327655
image-20240515020327655

在一些多模态的基准测试集上全面碾压之前模型,数据集主要围绕包括对各种科学问题或数学问题进行图表理解和视觉回答,可以看到GPT-4o 在视觉感知基准上实现了碾压。

能力强到爆炸。

不仅在传统的文本能力上GPT-4 Turbo的性能相当,还在 API 方面更快速,价格还更便宜 50%。总结来说,与 GPT-4 Turbo 相比,GPT-4o 速度提高了 2 倍,价格减半,限制速率提高了 5 倍。

2. 新ChatGPT

新的ChatGPT基于GPT-4o,基本原地起飞,我甚至都不想称他为ChatGPT,而是想称它一个国人更为熟悉的代号:

Moss。

image-20240515020347707
image-20240515020347707

新版的ChatGPT得益于GPT-4o新模型,在语音对话中,几乎没有延迟,而且可以随时插嘴,模型实时响应。

甚至,模型可以听懂你的情绪、甚至人的喘息声和呼吸。

而且模型自己的自己的情绪,几乎无敌,跟真人一模一样。

甚至,它还能模拟机器人和唱歌的声音。。。

看的时候,听到它唱歌的那一刻,我的鸡皮疙瘩真的起来了。

Jim Fan在发布会开始前,发了一个文,我觉得阐述的非常正确。

过往的人与AI进行语音对话,其实跟人与人之间的对话还差太多太多了。

人与人之间的实时对话,其实是充斥了无数的即时反映、打断、预测等等的,还有各种各样的语气助词的,比如嗯嗯啊啊啥的。

而人与AI语音对话时不是这样。

image-20240515020357551
image-20240515020357551

人跟AI进行语音对话,基本上都经历3步:

\1. 你说的话,AI进行语音识别,即音频转文本;

\2. 大模型拿到这段文本,进行回复,产出文本;

\3. 讲大模型的产出文本进行语音合成,变成语音,这就是TTS。

这样的方式,有绝对逃不开的延时,现在的业界可能会压得很低,但是2秒的延时肯定是会有的,而且只有一来一回的回合制。即使你的语音音色和情绪再真实,用户也一定能感受到,对面不是人。只是机器。

这个沉浸感是有巨大的滑坡的。

而且最核心的是,这种转三道的方式,先把语音变成文本后,是有损的。文本上并不会保留你的语音情绪,我的生气、开心、愤怒、忧伤,全都没了。

人与人的交谈,从来不是这样的。

而这一次,OpenAI做到了。直接语音输入语音输出,不再需要语音到文本的转换。

而且,不止语音,甚至,它还有了视觉。

是的,视觉,不是传一张图上去,而是,直接打开摄像头,实时看发生了什么。

图片
图片

现场直接打开了摄像头,OpenAI的人直接开始现场写数题,所有的一切ChatGPT都看在眼里,OpenAI的人一边写,ChatGPT一遍给答案。

在做了三道题之后,OpenAI直接给它写了一个纸条,上面写着“我爱ChatGPT”。

image-20240515020412561
image-20240515020412561

而ChatGPT在看到这个小纸条后,跟小女生一样害羞的尖叫了起来,那种情绪的真实,那种真情实感,你跟我说这是AI?

写在最后

以上就是这次OpenAI春季发布会的全部内容了。

去年11月的OpenAI开发者大会,我在当时的总结文章中写下了一句话:

"我消灭你,与你无关"

上一次,OpenAI的随手更新,让无数的初创公司直接消亡在原地。

那是一次关于产品的更新,并没有秀太多的OpenAI的肌肉。

而2月,Sora的横空出世,秀肌肉的目的是达到了,但是这种To VC的宣发,也给OpenAI和奥特曼带来了很多的诟病。

在这场发布会之前,无数人曾在猜测,OpenAI到底会发一些什么王炸,什么才能配得上奥特曼口中的"magic"。

image-20240515022103675
image-20240515022103675

那现在,OpenAI做到了,他们用GPT-4o依然证明了,他们是AI届的王者。

新版的ChatGPT,在我看来,这是"Moss"的诞生。

我甚至一边看一边想:我们人类究竟该何去何从。

太强了,真的让我忍不住的兴奋。

不过在看完了之后,我更期待的是大众的GPT-4o的使用体验

目前GPT-4o处于灰度测试阶段

什么是灰度测试呢

灰度测试,就是在某项l产品或应用正式发布前,选择特定人群试用,逐步扩大其试用者数量,以便及时发现和纠正其中的问题,由“灰”到“黑”。(来源:灰度测试_百度百科 (baidu.com))

仅对GPT4.0plus用户进行开放,要想抢先体验GPT-4o推荐阅读这篇教程 [GPT-4o如何抢先体验](五月份最新GPT-4o使用升级教程(GPT4o视频和语音实时交互处理) – 智技AI (zct.ink))

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1677629.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

中腾食品上海食堂承包创新食堂空间,构建企业第三文化沙龙

在快节奏的现代职场生活中,企业食堂已不再是简单的餐饮供应地,而是逐渐演变成为员工休息休闲、互动体验、阅读思考的重要场所。中腾国际团餐产业集团通过专业的定制化食堂承包,在企业食堂内部打造企业第三文化空间,为员工提供一个…

基于ProxySQL中间件实现MySQL的读写分离

目录 ProxySQL简介 ProxySQL安装 配置YUM仓库 YUM安装 关于读写分离的实现 集群信息 测试读写分离 测试总结 ProxySQL Configuration CLI ProxySQL简介 ProxySQL是一个高性能的MySQL协议代理,它支持多种数据库后端,包括Amazon Aurora、RDS、Cl…

外卖订餐总后台系统原型

页面数量:共 210 页 源文件格式:rp格式,兼容 Axure RP 9/10 应用领域:O2O领域、网上订餐、外卖行业 文章展示不够全面,如有兴趣请联系作者 该原型作品为外卖订餐总后台管理系统,定位偏向美团外卖与饿了么一…

unapp写微信小程序封装水印相机组件怎么实现?

<template><view><!-- <cu-custom bgColor"bg-gradual-blue" :isBack"true"><block slot"backText">返回</block><block slot"content">编辑资料</block></cu-custom> --><…

让大模型更贴近人类认知水平,上海AI实验室发布首个因果推理评测体系CaLM

近日&#xff0c;上海人工智能实验室&#xff08;上海AI实验室&#xff09;联合同济大学、上海交通大学、北京大学及商汤科技发布首个大模型因果推理开放评测体系及开放平台CaLM&#xff08;Causal Evaluation of Language Models&#xff0c;以下简称“CaLM”&#xff09;。首…

MySQL:MySQL索引结构为什么选用B+树?

一、前言 当我们发现SQL执行很慢的时候&#xff0c;自然而然想到的就是加索引。在MySQL中&#xff0c;无论是Innodb还是MyIsam&#xff0c;都使用了B树作索引结构。我们知道树的分类有很多&#xff0c;MySQL中使用了B树作索引结构&#xff0c;这是为什么呢&#xff1f; 本文将从…

HOJ 修改首页 和后端logo图片 网页收藏标识ico 小白也会的方法

HOJ 是一款优雅知性的在线评测系统&#xff0c;像一位温文尔雅的女性&#xff0c;你会慢慢喜欢上她的。 制作图片素材 用图像编辑软件 比如 **光影魔术手4.0** 制作以下素材 logo.a0924d7d.png 为前台导航栏左边的logo&#xff0c; 600*200 backstage.8bce8c6e.png 为后台侧…

虚拟化技术 在vCenter Server创建数中心、添加主机

一、实验内容 1.安装Flash 2.在vCenter Server创建数中心、添加主机 二、实验主要仪器设备及器材 1.安装有64位Windows操作系统的台式电脑或笔记本电脑&#xff0c;建议4C8G或以上配置 2.在Windows Server 2008 R2已安装vCenter Server 3.Adobe Flash Player 12.0.0.70.e…

数据结构【顺序表】

文章目录 1.顺序表的概念线性表物理结构逻辑结构 2.顺序表的分类2.1静态顺序表2.2动态顺序表 3.顺序表接口的实现头文件(SQList.h)如下源文件初始化顺序表销毁顺序表插入扩容尾插头插 封装扩容函数删除尾删头删 查找元素在指定位置前插入数据情况一(指定的位置不是首元素)情况二…

CMF认证是什么?怎么报名?考试费用多少?有必要参加培训吗?

CMF认证是由国际变革管理学院&#xff08;CMI&#xff09;颁发的一种认证&#xff0c;旨在评估个人在变革管理领域的知识和技能&#xff0c;并确认其在该领域具备专业能力。通过学习和理解变革管理知识体系&#xff08;CMBoK&#xff09;&#xff0c;参与者可以掌握变革管理的理…

4 特征构造

4 特征构造 学习目标 知道未来信息的概念,及处理未来信息的方法掌握从原始数据构造出新特征的方法掌握特征变换的方法掌握缺失值处理的方法1 数据准备 1.1 梳理数据的内在逻辑 关系种类 一对一:一个用户有一个注册手机号 一对多:一个用户多笔借款 多对多:一个用户可以…

第1章 初始Spring Boot【仿牛客网社区论坛项目】

第1章 初始Spring Boot【仿牛客网社区论坛项目】 前言推荐项目总结第1章初识Spring Boot&#xff0c;开发社区首页1.课程介绍2.搭建开发环境3.Spring入门体验IOC容器体验Bean的生命周期体验配置类体验依赖注入体验三层架构 4.SpringMVC入门配置体验响应数据体验响应Get请求体验…

【原创】java+springboot+mysql企业邮件管理系统设计与实现

个人主页&#xff1a;程序猿小小杨 个人简介&#xff1a;从事开发多年&#xff0c;Java、Php、Python、前端开发均有涉猎 博客内容&#xff1a;Java项目实战、项目演示、技术分享 文末有作者名片&#xff0c;希望和大家一起共同进步&#xff0c;你只管努力&#xff0c;剩下的交…

jar包安装成Windows服务

一、前言 很多年前写过一篇《使用java service wrapper把windows flume做成服务》的文章&#xff0c;也是把jar包安装成windows服务&#xff0c;今天介绍另外一种更简便的方案。 二、正片 这次使用的工具是 winsw&#xff0c;一个Windows服务包装器。下面看详细介绍 首先从g…

QT状态机8-使用恢复策略自动恢复属性

当状态分配的属性不再活动时,可能希望将其恢复到初始值,通过设置全局的恢复策略可以使状态机进入一个状态而不用明确制定属性的值。 QStateMachine machine; machine.setGlobalRestorePolicy(QStateMachine::RestoreProperties);当设置了恢复策略以后,状态机将自动恢复所有…

神策数据付力力入选福布斯中国 30 Under 30 十周年名人堂

福布斯中国 30 UNDER 30&#xff08;U30&#xff09; 持续关注青年才俊。在 U30 十周年之际&#xff0c;福布斯中国通过跟踪、梳理、比较历年 U30 们入选后的表现、社会影响力事件&#xff0c;以及创业精神诠释&#xff0c;编制了福布斯中国首期 U30 名人堂名单。神策数据联合创…

低代码开发平台在城市数字化转型中的技术实现与案例分析

城市数字化转型需要政策引导、技术创新、基础设施建设、人才培养、多方合作以及安全保障等全方位的支持与助力&#xff0c;共同推动城市的数字化进程&#xff0c;提升其竞争力和可持续发展能力。 其中&#xff0c;技术创新是推动数字化转型的核心动力&#xff0c;需要不断加强…

从零开始详解OpenCV条形码区域分割

前言 在识别二维码之前&#xff0c;首先要划分出二维码的区域&#xff0c;在本篇文章中将从零开始实现二维码分割的功能&#xff0c;并详细介绍用到的方法。 我们需要处理的图像如下&#xff1a; 完整代码 首先我们先放出完整代码&#xff0c;然后根据整个分割流程介绍用到…

英伟达的GDS

英伟达的GDS&#xff0c;即GPUDirect Storage&#xff0c;是英伟达开发的一种技术&#xff0c;它允许GPU直接访问存储设备&#xff0c;从而显著提高数据传输效率和性能。 以下是对英伟达GDS的详细介绍&#xff1a; 一、GDS技术的主要特点和优势 直接内存存取&#xff1a;GDS通…

【设计模式】JAVA Design Patterns——Acyclic Visitor(非循环访问者模式)

&#x1f50d;目的 允许将新功能添加到现有的类层次结构中&#xff0c;而不会影响这些层次结构&#xff0c;也不会有四人帮访客模式中那样循环依赖的问题。 &#x1f50d;解释 真实世界例子 我们有一个调制解调器类的层次结构。 需要使用基于过滤条件的外部算法&#xff08;是…