26 分钟惊讶世界,GPT-4o 引领未来人机交互

news2024/11/15 9:56:41

前言

原文链接:OpenAI最新模型——GPT-4o,实时语音视频交互,未来人机交互近在眼前 - Kaiho小站

北京时间 5 月 14 日凌晨,OpenAI 发布新一代模型——GPT-4o,仅在 ChatGPT 面世 17 个月后,OpenAI 再次通过新模型震惊世界,推出了科幻电影般的超级 AI,并且完全免费供大众使用。

划时代的发布会

5月14日凌晨,OpenAI 在首届“春季新品发布会”上隆重推出了新一代旗舰生成模型 GPT-4o、桌面应用程序,并展示了一系列令人惊叹的新功能。连 OpenAI CEO 山姆·奥特曼都不禁感叹:这简直像电影中的情节。

此次发布会由 OpenAI 首席技术官 Mira Murati 主持,她指出 OpenAI 的三大重要理念:

  1. 免费优先:OpenAI 致力于让更多人能够使用其产品。
  2. 桌面应用程序和更新 UI:新版本的桌面应用程序更加简便和自然。
  3. 全新大模型 GPT-4o:GPT-4o 以极其自然的交互方式为每个人提供 GPT-4 级别的智能,包括免费用户。

此次更新后,ChatGPT 可以接收文本、音频和图像的任意组合输入,并实时生成相应的输出。这种全新的交互方式将引领未来主流的交互模式。

如今,ChatGPT 不仅无需注册即可使用,更是推出了桌面程序。OpenAI 的目标是让人们能够随时随地无感使用 ChatGPT,将其无缝集成到工作流程中,真正提升生产力​。

GPT-4o 是一款面向未来的全新大模型,具有文本、语音、图像三种模态的理解力,反应迅速且情感丰富。在发布会上,OpenAI 工程师们展示了 GPT-4o 的主要功能,包括实时语音对话、视觉能力和代码解析能力。

在现场,OpenAI 的工程师Mark Chen 说:「我第一次来直播的发布会,有点紧张。」

ChatGPT 说:「要不你深呼吸一下。」
「好的,我试着深呼吸」

ChatGPT 立即回答说「你这不行,喘得也太大了。」
如果之前有用过 Siri 之类的语音助手的经历,你就会发现极大的区别。

首先,你可以随时打断 AI 的话,不用等它说完就可以继续下一轮对话。其次,你不用等待,模型反应极快,比人类的回应还快。第三,模型能够充分理解人类的情感,自己也能表现出各种感情。

在视觉能力方面,另一个工程师直接在纸上写下一个方程式,并且让 ChatGPT 不需要直接给答案,而是让它解释要一步步怎么做。看得出来,它在教人做题方面很有潜力,在 AI 教育产业上看来会有很大的冲击。

此外,在发布会上还展示了 GPT-4o 的实时翻译和表情识别能力。这些功能将使用户能够更加自然地与 ChatGPT 互动,真正达到了实时的视频理解。

新一代模型——GPT-4o

GPT-4o,o 即代表 Omnimodel(全能模型)

GPT-4o 是 OpenAI 在集成多模态模型方面的重大突破。该模型在文本、视觉和音频方面的性能大幅提升,响应速度极快,接近人类水平。OpenAI 通过端到端训练,将所有输入和输出统一处理,实现了跨模态的实时推理​。

GPT-4o 在英文文本和代码方面的性能与 GPT-4 Turbo 相当,但在非英文文本方面表现显著提升。同时,它的 API 速度也有所增加,使成本降低了 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤为出色。

它可以在 232 毫秒内快速响应音频输入,平均响应时间为 320 毫秒,与人类相似。在 GPT-4o 发布之前,使用 ChatGPT 的语音对话功能的用户注意到平均延迟分别为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

这种快速的语音响应是由三个独立模型组成的流程实现的:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 处理文本并生成文本输出,第三个简单模型将文本转换回音频。然而,OpenAI 发现这种方法导致 GPT-4 丢失了大量信息,例如模型无法直接观察到音调、多个说话者、背景噪音,也无法输出笑声、歌唱或情感表达。

相比之下,在 GPT-4o 上,OpenAI 跨文本、视觉和音频领域进行了端到端的训练,意味着所有输入和输出都由同一神经网络处理。这消除了信息丢失,并使模型能够更加细致、丰富地理解上下文,并提供更加多样化和丰富的响应。

此外,GPT-4o 在理解和生成图像方面的能力也远胜于之前,此前很多不可能的任务都变得「易如反掌」。

比如,一首诗可以用手写样式来进行排版:

或者更复杂,具有艺术性的排版:

并且 GPT-4o 还拥有 3D 视觉内容生成的能力:

每周都有超过一亿人在使用 ChatGPT,OpenAI 表示 GPT-4o 的文本和图像功能从 5 月 14 日开始免费在 ChatGPT 中推出,使用限制为 3 小时 16 条,Plus 用户提供高达 5 倍的消息上限

如今,部分账户登录即可看到 GPT-4o 已经可以使用


此外,免费用户还拥有以下几个功能

  • 数据分析并创建图表
  • 图片、文件上传
  • 发现并使用 GPTs 和 GPTs 应用商店

在未来几周内,OpenAI 将在 ChatGPT Plus 中推出 GPT-4o alpha 的新版本语音模式,并通过 API 向一小部分可信赖的合作伙伴提供更多新的音频和视频功能。

尽管经过多次模型测试和迭代,GPT-4o 在所有模态下仍存在一些局限性,但 OpenAI 表示正在努力改进 GPT-4o。

当然,GPT-4o 音频模式的开放肯定会带来各种新的挑战。在安全性方面,OpenAI 已经通过过滤训练数据和对训练后模型行为进行细化等技术来内置跨模态设计的安全性。此外,OpenAI 还创建了新的安全系统,以确保语音输出的安全。

全新桌面应用程序(Mac)

OpenAI 推出了适用于 macOS 的新 ChatGPT 桌面应用程序,面向所有的免费和付费用户。通过简单的键盘快捷键「Option + Space」,用户可以立即向 ChatGPT 提出问题。此外,应用程序还支持用户直接截取屏幕截图,基于截图和 ChatGPT 沟通。

虽然说是 Plus 用户可以使用,不过我自己测试过来 Plus 用户也会报如下错误,应当还是在内测中

畅谈 GPT-4o 的愿景

在发布会结束后,OpenAI CEO 山姆·奥特曼久违地在博客上分享了关于 GPT-4o 工作的一些心路历程:

“在今天的发布会上,我想强调两件事。首先,我们的使命之一是将强大的人工智能工具免费或以优惠的价格提供给大众。我非常自豪地宣布,我们在 ChatGPT 中免费提供世界上最好的模型,没有广告或类似的东西。

当我们创立 OpenAI 时,我们的初衷是创造出人工智能并利用它为世界创造各种利益。现在情况有所变化,似乎我们创造了人工智能,其他人将使用它来创造各种令人惊叹的事物,我们所有人都会从中受益。

当然,作为一家企业,我们也会开发很多收费的服务,这将帮助我们向数十亿人提供免费、优秀的人工智能服务(希望如此)。

其次,新的语音和视频模式是我用过的最好的计算交互界面。感觉就像电影里的人工智能一样,我仍然有点惊讶于它竟然是真的。事实证明,达到人类水平的响应时间和表达能力是一个巨大的飞跃。

最初的 ChatGPT 展示了语言界面的可能性,而这个新事物(GPT-4o 版本)给人的感觉有本质上的不同——它快速、智能、有趣、自然且能给人带来帮助。

对我来说,与电脑交互从来都不是很自然的事情,事实如此。而当我们添加(可选)个性化、访问个人信息、让 AI 代替人采取行动等功能时,我确实可以看到一个令人兴奋的未来,我们能够使用计算机做比以往更多的事情。

最后,我要非常感谢团队为实现这一目标所付出的巨大努力!”

奥特曼还提到,虽然实现全民基本收入(Universal Basic Income)困难重重,但我们可以实现“全民免费计算”(Universal Basic Compute)。未来,每个人都可以免费获得 GPT 的计算资源,可以使用、转售或捐赠。

他解释道:“随着 AI 变得更加先进,并嵌入到我们生活的方方面面,拥有像 GPT-7 这样的大语言模型单元可能比金钱更有价值,你拥有了部分生产力。”

GPT-4o 的发布,或许就是 OpenAI 朝着这个目标迈出的第一步。

“是的,这还只是个开始。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1680259.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

985大学电子信息专硕,考C语言+数据结构!中央民族大学25计算机考研考情分析!

中央民族大学(Minzu University of China)坐落于北京市学府林立的海淀区,南邻国家图书馆,北依中关村科技园,校园环境典雅,古朴幽美,人文氛围浓郁,具有鲜明的民族特色。由北京市、国家…

ubuntu下不生成core dumped

1、先用ulimit -c,如果看到0,说明没有开core dump。 所以我们输入ulimit -c unlimited,打开core dump。 再次用ulimit -c,看到unlimited了,说明core dump打开了。 注意这句ulimit -c unlimited只对当前会话有效。要永…

通俗易懂讲乐观锁与悲观锁

浅谈乐观锁与悲观锁 乐观锁和悲观锁是Java并发编程中的两个概念。使用乐观锁和悲观锁可以解决并发编程中数据不一致性、死锁、性能差等问题,乐观锁与悲观锁的实行方式不同,所以其特性也不近相同,下文将详细介绍两者的特性与适用场景。 《熊…

STM32-09-IWDG

文章目录 STM32 IWDG1. IWDG2. IWDG框图3. IWDG寄存器4. IWDG寄存器操作步骤5. IWDG溢出时间计算6. IWDG配置步骤7. 代码实现 STM32 IWDG 1. IWDG IWDG Independent watchdog,即独立看门狗,本质上是一个定时器,这个定时器有一个输出端&#…

ZYNQ之嵌入式驱动开发——字符设备驱动

文章目录 Linux驱动程序分类Linux应用程序和驱动程序的关系简单的测试驱动程序在petalinux中添加LED驱动新字符设备驱动 Linux驱动程序分类 驱动程序分为字符设备驱动、块设备驱动和网络设备驱动。 字符设备是按字节访问的设备,比如以一个字节收发数据的串口&#…

谷歌全力反击 OpenAI:Google I/O 2024 揭晓 AI 新篇章,一场激动人心的技术盛宴

🚀 谷歌全力反击 OpenAI:Google I/O 2024 揭晓 AI 新篇章,一场激动人心的技术盛宴! 在这个人工智能的全新时代,只有谷歌能让你眼前一亮!来自全球瞩目的 Google I/O 2024 开发者大会,谷歌用一场…

项目组GIT操作规范

分支规范 在开发过程中,一般会存在以下几种分支: main分支(master) master为主分支,也是用于部署生产环境的分支,一般由 dev 以及 fixbug分支合并,任何时间都不能直接修改代码。dev分支 develop 为开发分支&#xff…

Altium Designer封装库和元器件符号库下载与导入教程(SnapEDA 、Ultra Librarian、Alldatasheetcn)

1.AD封装库和元器件符号库下载网址 以下是一些全球热门的Altium Designer封装库和元器件符号库下载网址推荐: Altium Content Vault (现称为Altium Manufacturer Part Search):这是Altium官方提供的元器件库,可以直接在Altium Designer中使用…

Java码农的福音:再也不怕乱码了

即便是Java这样成熟的语言,开发者们也常常会遇到一个恼人的问题——乱码。 本文将深入探讨乱码的根本原因,并针对Java开发中的乱码场景提出有效的解决方案,辅以实战代码,让Java程序员从此告别乱码困扰。 一,字符集的…

文件存储解决方案-阿里云OSS

文章目录 1.菜单分级显示问题1.问题引出1.苹果灯,放到节能灯下面也就是id大于1272.查看菜单,并没有出现苹果灯3.放到灯具下面id42,就可以显示 2.问题分析和解决1.判断可能出现问题的位置2.找到递归返回树形菜单数据的位置3.这里出现问题的原因…

什么是最大路径?什么是极大路径?

最近学习中,在这两个概念上出现了混淆,导致了一些误解,在此厘清。 最大路径 在一个简单图G中,u、v之间的距离 d ( u , v ) min ⁡ { u 到 v 的最短路的长度 } d(u,v) \min \{ u到v的最短路的长度 \} d(u,v)min{u到v的最短路的…

音乐的力量

常听音乐的好处可以让人消除工作紧张、减轻生活压力、避免各类慢性疾病等等,其实这些都是有医学根据的。‍ 在医学研究中发现,经常的接触音乐节 奏、旋律会对人体的脑波、心跳、肠胃蠕动、神经感应等等,产生某些作用,进而促进身心…

Postman基础功能-接口返回值获取

大家好,之前给大家分享关于Postman的接口关联,我们平时在做接口测试时,请求接口返回的数据都是很复杂的 JSON 数据,有着多层嵌套,这样的数据层级在 Postman 中要怎么获取呢? 接下来给大家展示几个获取 JSO…

容联云零代码平台容犀desk:重新定义坐席工作台

在数智化浪潮的推动下,企业亟待灵活适应市场变化、快速响应客户需求,同时还要控制成本并提升效率,传统的软件开发模式因开发周期长、成本高、更新迭代慢等问题,逐渐难以满足企业灵活多变的业务需求。 容犀Desk,观察到…

(1)双指针算法介绍与练习:移动零

目录 双指针算法介绍 练习:移动零 双指针算法介绍 双指针算法常见于数组和双向链表的题型 在数组中,双指针中的指针代表数组元素的下标,而不是真正的指针类型变量 在双向链表中,双指针中的指针即为真正意义上的指针&#xff…

Windows安装Django

1、下载Python程序包 Python程序包官网下载地址Download Python | Python.org,若下载最新版本,有最新版本则下载"Windows installer (64-bit)" 若是下载其他版本,可在下图位置找到相应的版本,然后点击Download.如下图所示: 打开后查看注意事项…

开源连锁收银系统哪个好

针对开源连锁收银系统的选择,商淘云是一个备受关注的候选。商淘云以其功能丰富、易于定制和稳定性等优势,吸引了众多企业和开发者的关注。下面将从四个方面探讨商淘云开源连锁收银系统的优势: 首先,商淘云提供了丰富的功能模块。作…

Retrying,一个神奇优雅的 Python 库

大家好!我是爱摸鱼的小鸿,关注我,收看每期的编程干货。 一个简单的库,也许能够开启我们的智慧之门, 一个普通的方法,也许能在危急时刻挽救我们于水深火热, 一个新颖的思维方式,也许能…

Docker安装Mosquitto

在物联网项目中,我们经常用到MQTT协议,用MQTT协议做交互就需要部署一个MQTT服务,而mosquitto是一个常用的MQTT应用服务, Mosquitto是一个实现了消息推送协议MQTT v3.1的开源消息代理软件。MQTT(Message Queuing Teleme…

AI大模型日报#0515:Google I/O大会、 Ilya官宣离职、腾讯混元文生图大模型开源

导读:欢迎阅读《AI大模型日报》,内容基于Python爬虫和LLM自动生成。目前采用“文心一言”(ERNIE 4.0)、“零一万物”(Yi-34B)生成了今日要点以及每条资讯的摘要。 《AI大模型日报》今日要点:谷歌…