OpenAI发布最新的人工智能模型GPT-4o:可实时语言、图像交互

news2025/1/19 20:38:04

GPT-4o

OpenAI 在周一宣布了一款新的旗舰生成式 AI 模型,他们将其称为 GPT-4o — 这里的 “o” 意指 “全方位”,指的是该模型处理文本、语音和视频的能力。GPT-4o 将会在接下来的几周逐步在公司的开发者和消费者产品中推出。

OpenAI 首席技术官米拉·穆拉蒂表示,GPT-4o 提供了 “GPT-4 级别” 的智能,但在多种形式和媒体上改进了 GPT-4 的能力。

“GPT-4o 可以跨语音、文本和视觉进行推理。” 穆拉蒂在周一在旧金山 OpenAI 办公室举行的直播中说道。“这非常重要,因为我们正在探索我们与机器之间的互动的未来。”

OpenAI 之前的 “领先的”、“最先进的” 模型 GPT-4 Turbo 是在图像和文本的组合上进行训练的,能够分析图像和文本以完成任务,比如从图像中提取文本,甚至描述这些图像的内容。但 GPT-4o 则加入了语音。

这带来了什么?多种可能性。
GPT-Vision

GPT-4o 极大地改善了 OpenAI AI 驱动的聊天机器人 ChatGPT 的体验。该平台长期以来一直提供着一种语音模式,可以使用文本转语音模型转录聊天机器人的回复,但 GPT-4o 则将其超级加速,使用户可以更像与助手交互一样与 ChatGPT 进行交互。

例如,用户可以向 GPT-4o 动力的 ChatGPT 提问,并在 ChatGPT 回答时打断。OpenAI 表示,该模型提供了 “实时” 的响应能力,甚至可以捕捉到用户语音中的细微差异,以 “一系列不同情绪风格的” 声音回应(包括唱歌)。

GPT-4o 还提升了 ChatGPT 的视觉能力。给定一张照片 — 或者是桌面屏幕 — ChatGPT 现在可以快速回答相关问题,从 “这段软件代码发生了什么?” 到 “这个人穿的是什么牌子的衬衫?” 各种主题都能应对。
GPT-Code

穆拉蒂表示,这些功能将在未来进一步发展。虽然今天 GPT-4o 可以查看一张菜单的图片并翻译它,但在未来,该模型可能允许 ChatGPT “观看” 一场现场体育比赛并向你解释规则。

“我们知道这些模型变得越来越复杂,但我们希望交互体验实际上变得更加自然、简单,让你完全不用关注 UI,只需专注于与 ChatGPT 的合作。” 穆拉蒂说道。“在过去的几年里,我们一直在专注于提高这些模型的智能……但这是我们第一次在易用性方面迈出了巨大的一步。”

OpenAI 声称,GPT-4o 在多语言方面也更加多样化,性能提升了约 50 种语言。在 OpenAI 的 API 和微软的 Azure OpenAI 服务中,GPT-4o 的速度是 GPT-4 Turbo 的两倍,价格是其一半,限制率也更高。

目前,语音并不是 GPT-4o API 的一部分,供所有客户使用。OpenAI 提到,由于滥用的风险,他们计划首先向 “一小部分受信任的合作伙伴” 推出对 GPT-4o 新音频功能的支持,这将在未来几周内实现。

从今天开始,GPT-4o 可以在 ChatGPT 的免费版中使用,也可供 OpenAI 的高级 ChatGPT Plus 和 Team 订阅计划用户使用,这些计划有 “5 倍更高”的消息限制。(OpenAI 指出,当用户达到速率限制时,ChatGPT 将自动切换到 GPT-3.5,这是一个更旧、能力更低的模型。)基于 GPT-4o 的改进 ChatGPT 语音体验将在接下来的一个月左右向 Plus 用户推出 alpha 版本,与此同时,还将推出面向企业的选项。

此外,OpenAI 还宣布,他们正在网页上发布一个更新的 ChatGPT 用户界面,带有一个新的 “更加对话式”的主页和消息布局,并为 macOS 推出了 ChatGPT 的桌面版,允许用户通过键盘快捷方式提问或拍摄并讨论屏幕截图。ChatGPT Plus 用户将首先获得对该应用的访问权限,从今天开始,而 Windows 版本将在今年晚些时候推出。

另外,OpenAI 的 ChatGPT 应用商店,这是 OpenAI 基于其 AI 模型构建的第三方聊天机器人的库和创作工具,现在可供 ChatGPT 免费版用户使用。免费用户可以利用以前需要付费的 ChatGPT 功能,比如 “记忆功能”,允许 ChatGPT “记住” 未来交互的偏好,上传文件和照片,并搜索网络以回答及时问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1674232.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Allegro如何输出各层PCB视图的PDF文件

如何输出各层PCB视图的PDF文件 1、说明 用Allegro设计好PCB后,有时需要出各层的PDF文档出来进行汇报和展示,这时就需要将各层的平面视图全部以PDF的形式加载出来,具体方法如下。 2、PDF文件的输出方法(以四层板为例) …

微信小程序的设计与实现

微信小程序的设计与实现 目录 1.系统简述: 2.开发工具及相关技术: 2.1 HTML、WXSS、JAVASCRIPT技术 2.2 Vanilla框架 2.3 uni-app框架 2.4 MYSQL数据库 3.工程结构及其说明: 4.主要功能展示 4.1登录 4.2 注册 4.3 首页…

腾讯宣布混元文生图大模型开源: Sora 同架构,可免费商用

5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。 这是业内首个中文原生的DiT架构文生图开…

排序1——直接插入排序,希尔排序,选择排序,堆排序

1.排序的概念及其运用 1.1排序的概念 排序:所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作。 稳定性:假定在待排序的记录序列中,存在多个具有相同的关键字的记录…

组合商标申请如何风控提高通过率!

最近一个老客户找到普推知产老杨,说要申请注册一个新的商标,是一个组合商标,有图形,两行文字,一行文字的拼音,还有三个字母的简称,组合商标在申请时会进行拆分审查,图形、文字、拼音…

C++干货--引用

前言: C的引用,是学习C的重点之一,它与指针的作用有重叠的部分,但是它绝不是完全取代指针(后面我们也会简单的分析)。 引用的概念: 引用 不是新定义一个变量 ,而 是给已存在变量取了一个别名 &#xf…

Rust学习笔记(中)

前言 笔记的内容主要参考与《Rust 程序设计语言》,一些也参考了《通过例子学 Rust》和《Rust语言圣经》。 Rust学习笔记分为上中下,其它两个地址在Rust学习笔记(上)和Rust学习笔记(下)。 错误处理 pani…

中北大学软件学院javaweb实验三JSP+JDBC综合实训(一)__数据库记录的增加、查询

目录 1.实验名称2.实验目的3.实验内容4.实验原理或流程图5.实验过程或源代码(一)编程实现用户的登录与注册功能【步骤1】建立数据库db_news2024和用户表(笔者使用的数据库软件是navicat)【步骤2】实现用户注册登录功能(与上一实验报告不同的是&#xff0…

LeetCode2215找出两数组的不同

题目描述 给你两个下标从 0 开始的整数数组 nums1 和 nums2 ,请你返回一个长度为 2 的列表 answer ,其中:answer[0] 是 nums1 中所有 不 存在于 nums2 中的 不同 整数组成的列表。answer[1] 是 nums2 中所有 不 存在于 nums1 中的 不同 整数组…

Kafka基础架构详解

Kafka基础架构 Kafka概述 1. Producer(生产者): 生产者是向 Kafka broker 发送消息的客户端。它负责将消息发布到指定的主题(Topic),并可以选择将消息发送到特定的分区(Partition&#xff09…

vwmare虚拟机迁移磁盘方法

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文整理 虚拟机迁移磁盘的方法 简单方便快上手 当前目标 当前迁移文件: 当前位置: 目的地: e盘虚拟机文件夹 迁移到当前目录。 实际操作 先打开虚拟机的设置,找到这个虚拟机当前的位置…

手机微信备份:防止数据丢失的明智之举

我们通过微信聊天、支付、购物等方式与他人进行交流和互动,而这些聊天记录和文件也成为了我们重要的数据资源。为了防止数据丢失给我们带来的不便和损失,手机微信备份成为了一项非常重要的任务。本文将为您介绍如何有效地备份手机微信数据,确…

windows和 Linux 下通过 QProcess 打开ssh 和vnc

文章目录 SSHSSH验证启动SSH一、口令登录二、公钥登录通过Qprocess 启动ssh VNC Viewer简介通过QProcess启动vncViewer SSH Secure Shell(SSH) 是由 IETF(The Internet Engineering Task Force) 制定的建立在应用层基础上的**安全网络协议**。它是专为远程登录会话(**甚至可以…

centos7安装zabbix-server

zabbixan-server安装 环境安装zabbix安装zabbix配置apachezabbix-UI前端配置修改zabbix为中文语言 环境 准备: centos7系统、mysql数据库/MariaDB数据库 mysql数据库可参照:https://blog.csdn.net/weixin_61367575/article/details/138774428?spm1001.…

网站设计模板简单又好看

在互联网时代,每个企业都需要拥有一个好看又具有吸引力的网站。一个简单却又好看的网站设计模板可以为企业带来许多好处。本文将探讨一些如何设计一个简单又好看的网站模板的技巧。 首先,一个好的网站设计模板应该具备简洁明了的布局。简单的布局能够使用…

有哪些值得买的开放式耳机推荐?2024年开放式运动耳机选购指南

开放式耳机因其独特设计,能在一定程度上保护听力。相较于传统封闭式耳机,开放式设计允许周围环境声音自然流入耳内,降低了耳内共振和声压,减少了耳道的不适感,从而减轻了对听力的潜在损害。对于追求音质与听力保护并重…

项目经理之路:裁员与内卷下的生存策略

作为一名项目经理,身处这个充满挑战与机遇的行业中,今年所面临的裁员潮和内卷化趋势无疑给我的工作带来了前所未有的压力。然而,正是这些压力和挑战,让我们更加深刻地思考了在这个快速变化的时代中,我们项目经理应该如…

【SolidWorks】在零件表面写字、改大小、旋转字的方法

博主在使用SolidWorks建模过程中需要在零件表面写字,并且改变字的大小,必要的时候还要旋转字体,这里就将写字、改字大小、旋转字的方法分享给大家。 1、准备工作。选择要写字的面,并新建草图,在草图模式下编辑。 2、写…

以大开放促进大开发 | 陕西粮农集团携手开源网安引领新时代西部大开发

​5月13日,开源网安与陕西粮农集团成功签署战略合作协议。双方将在网络安全保障体系建设及人才培养领域展开深度合作,共同筑牢陕西省数字经济建设安全屏障。陕西省粮农信息技术有限公司总经理解玮峰、陕西省粮农信息技术有限公司安全事业部负责人马德君、…

银河麒麟V10桌面版分区分析

前言:本文只讨论gpt分区uefi引导形式 ,了解分区方案的目的是方便恢复,还原,扩容等,普通用户使用无需了解这些细节。 先回顾分析windows和ubuntu默认分区用做对比 1、windows11默认分区 win11分区,如上图&am…