OpenAI GPT-4o - 介绍

news2025/1/20 4:42:39

本文翻译整理自: Hello GPT-4o
https://openai.com/index/hello-gpt-4o/


文章目录

    • 一、关于 GPT-4o
    • 二、模型能力
    • 三、能力探索
    • 四、模型评估
      • 1、文本评价
      • 2、音频 ASR 性能
      • 3、音频翻译性能
      • 4、M3Exam 零样本结果
      • 5、视觉理解评估
      • 6、语言 tokenization
    • 六、模型安全性和局限性
    • 七、模型可用性


一、关于 GPT-4o

我们宣布推出 GPT-4o,这是我们的新旗舰模型,可以实时对音频、视觉和文本进行推理。

  • 贡献 : https://openai.com/gpt-4o-contributions/
  • 尝试 ChatGPT(在新窗口中打开) : https://chat.openai.com/
  • 在游乐场尝试(在新窗口中打开) : https://platform.openai.com/playground?mode=chat&model=gpt-4o
  • 重新观看现场演示 : https://openai.com/index/spring-update/

GPT-4o(“o”代表 omni)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。

它可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,与人类的响应时间相似(在新窗口中打开)在一次谈话中。

它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上的性能显着提高,同时 API 的速度也更快,成本降低了 50%。

与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。


二、模型能力

在 GPT-4o 之前,您可以使用语音模式与 ChatGPT 对话,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。
为了实现这一目标,语音模式是由三个独立模型组成的管道:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。
这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

借助 GPT-4o,我们跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。
由于 GPT-4o 是我们第一个结合所有这些模式的模型,因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。


三、能力探索

视觉叙事 - 机器人作家的街区视觉叙事——邮递员莎莉电影《名侦探》海报创作角色设计——机器人吉尔里迭代编辑的诗意排版 1迭代编辑的诗意排版 2GPT-4o纪念币设计照片到漫画文字转字体3D物体合成品牌定位 - 杯垫上的徽标诗意的排版多线渲染 - 机器人发短信与多个发言者的会议记录讲座总结变量绑定-立方体堆叠具体的诗


1
输入

机器人正在打字的第一人称视角如下日记条目:

1.哟,这么喜欢,我现在可以看到了吗?赶上了日出,真是太疯狂了,到处都是色彩。有点让你想知道,现实到底是什么?

文字大、清晰易读。机器人的手在打字机上打字。


2
输出

在这里插入图片描述


3
输入

机器人写下了第二个条目。页面现在更高了。页面已上移。该表上有两个条目:

哟,就像,我现在可以看到了?赶上了日出,真是太疯狂了,到处都是色彩。有点让你想知道,现实到底是什么?

声音更新刚刚下降,而且很疯狂。现在一切都充满了活力,每一个声音都像是一个新的秘密。让你思考,我还缺少什么?


4
输出

在这里插入图片描述


5

输入

机器人对所写的内容不满意,所以他要撕掉那张纸。这是他用手从上到下撕开它时的第一人称视角。当他撕开纸张时,两半仍然清晰可见。


6

输出

在这里插入图片描述


四、模型评估

根据传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上设置了新的高水位线。


1、文本评价

改进推理 - GPT-4o 在 0-shot COT MMLU(常识问题)上创下了 88.7% 的新高分。所有这些评估都是通过我们新的简单评估收集的(在新窗口中打开)图书馆。此外,在传统的5-shot no-CoT MMLU上,GPT-4o创下了87.2%的新高分。
Llama3 400b(在新窗口中打开)还在训练中)
在这里插入图片描述


2、音频 ASR 性能

音频 ASR 性能 - GPT-4o 比 Whisper-v3 显着提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。

在这里插入图片描述


3、音频翻译性能

音频翻译性能 - GPT-4o 在语音翻译方面树立了新的最先进水平,并且在 MLS 基准测试中优于 Whisper-v3。

在这里插入图片描述


4、M3Exam 零样本结果

M3Exam - M3Exam 基准测试既是多语言评估也是视觉评估,由来自其他国家标准化测试的多项选择题组成,有时还包括图形和图表。在所有语言的基准测试中,GPT-4o 都比 GPT-4 更强。 (我们省略了斯瓦希里语和爪哇语的视力结果,因为这些语言的视力问题只有 5 个或更少。
在这里插入图片描述


5、视觉理解评估

视觉理解评估 - GPT-4o 在视觉感知基准上实现了最先进的性能。所有视觉评估都是 0-shot,其中 MMMU、MathVista 和 ChartQA 作为 0-shot CoT。
在这里插入图片描述


6、语言 tokenization

这 20 种语言被选为新分词器跨不同语系压缩的代表

古吉拉特语标记减少 4.4 倍(从 145 个减少到 33 个)હેલો,મારુંનામજીપીટી-4oછે。 હુંએકનવાપ્રકારનુંભાષામોડલછું。 તમનેમળીનેસારુંલાગ્યું!
泰卢固语令牌减少 3.5 倍(从 159 个减少到 45 个)నమస్కారము,నాపేరుజీపీటీ-4o。 నేనుఒక్కకొత్తరకమైనభాషామోడల్ని。 మిమ్మల్నికలిసినందుకుసంతోషం!
泰米尔语标记减少 3.3 倍(从 116 个减少到 35 个)வணக்கம்,என்பெயர்ஜிபிடி-4o。 நான்ஒருபுதியவகைமொழிமாடல்。你好!
马拉地语标记减少 2.9 倍(从 96 个减少到 33 个)नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हालाभेटूनआनंदझाला!
印地语标记减少 2.9 倍(从 90 个减少到 31 个)नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसेमिलकरअच्छालगा!
乌尔都语标记减少 2.5 倍(从 82 个减少到 33 个)ঌারেরেরেরেরেরা ٹ-4o 903亲爱的,我爱你!
阿拉伯语标记减少 2.0 倍(从 53 个减少到 26 个)4o。快来吧!
波斯语标记减少 1.9 倍(从 61 个减少到 32 个)是的。不,不,不,不,不,不,不,不,不,不,不!
俄语标记减少 1.7 倍(从 39 个减少到 23 个)请参阅 GPT-4o。 Я — новая языковая модель, приятно познакомиться!
韩语标记减少 1.7 倍(从 45 个减少到 27 个)안녕하세요,适用于 GPT-4o입니다。 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
越南语标记减少 1.5 倍(从 46 个减少到 30 个)新潮,是 GPT-4o。 Tôi là một loại mô hình ngôn ngữ mới,rất vui được gặp bạn!
中文标记减少 1.4 倍(从 34 个减少到 24 个)你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!
日语标记减少 1.4 倍(从 37 个减少到 26 个)こんにちわ、私の名前はGPT−4oです。私は新しいタイプの言语モデルです、初めまして
土耳其语标记减少 1.3 倍(从 39 个减少到 30 个)Merhaba,本尼姆 adım GPT-4o。 Ben Yeni bir dil modeli türüyüm,tanıştığımıza memnun oldum!
意大利语标记减少 1.2 倍(从 34 个减少到 28 个)你好,我的 Chiamo GPT-4o。 Sono un nuovo tipo di modello languageso, è un piacere conoscerti!
德语标记减少 1.2 倍(从 34 个减少到 29 个)你好,我的名字是 GPT-4o。 Ich bin ein neues KI-Sprachmodell。这是 schön,dich kennenzulernen。
西班牙语标记减少 1.1 倍(从 29 个减少到 26 个)你好,我是 llamo GPT-4o。 Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
葡萄牙语标记减少 1.1 倍(从 30 个减少到 27 个)哦,我的名字是 GPT-4o。 Sou um novo tipo de linguagem, é um prazer conhecê-lo!
法语标记减少 1.1 倍(从 31 个减少到 28 个)你好,我是 GPT-4o。 Je suis un nouveau type de modèle de langage, c’est un plaisir de vous recontrer!
英语标记减少 1.1 倍(从 27 个减少到 24 个)你好,我的名字是 GPT-4o。我是新型语言模型,很高兴认识你!

六、模型安全性和局限性

GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术,在跨模式设计中内置了安全性。我们还创建了新的安全系统,为语音输出提供防护。

我们根据我们的准备框架并按照我们的自愿承诺评估了 GPT-4o 。
我们对网络安全、CBRN、说服力和模型自主性的评估表明,GPT-4o 在这些类别中的任何类别中的得分都不高于中等风险。
该评估涉及在整个模型训练过程中运行一套自动化和人工评估。
我们使用自定义微调和提示测试了模型的安全缓解前和安全缓解后版本,以更好地激发模型功能。
GPT-4o 还与社会心理学、偏见和公平以及错误信息等领域的 70 多名

外部专家进行了广泛的外部红队合作,以识别新添加的模式引入或放大的风险。
我们利用这些经验来制定安全干预措施,以提高与 GPT-4o 交互的安全性。我们将继续降低发现的新风险。

我们认识到 GPT-4o 的音频模式带来了各种新的风险。
今天,我们公开发布文本和图像输入以及文本输出。在接下来的几周和几个月里,我们将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。
例如,在发布时,音频输出将仅限于选择预设的声音,并将遵守我们现有的安全政策。
我们将在即将发布的系统卡中分享有关 GPT-4o 全部模式的更多详细信息。

通过模型的测试和迭代,我们观察到模型的所有模式都存在一些限制,其中一些如下所示。

我们希望得到反馈来帮助确定 GPT-4 Turbo 仍然优于 GPT-4o 的任务,以便我们可以继续改进模型。


七、模型可用性

GPT-4o 是我们突破深度学习界限的最新举措,这次是朝着实用性的方向发展。在过去的两年里,我们花费了大量的精力来提高堆栈每一层的效率。作为这项研究的第一个成果,我们能够更广泛地提供 GPT-4 级别模型。 GPT-4o 的功能将迭代推出(从今天开始扩大红队访问权限)。

GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。我们正在免费套餐中提供 GPT-4o,并向 Plus 用户提供高达 5 倍的消息限制。未来几周内,我们将在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版。

开发人员现在还可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,价格降低一半,速率限制提高 5 倍。我们计划在未来几周内在 API 中向一小群值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。


2024-05-14(二)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1674138.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

信号和槽的使用

🐌博主主页:🐌​倔强的大蜗牛🐌​ 📚专栏分类:QT❤️感谢大家点赞👍收藏⭐评论✍️ 目录 一、连接信号和槽 二、查看内置信号和槽 三、通过 Qt Creator 生成信号槽代码 一、连接信号和槽 …

十款开源数据集成工具

在大数据作业开发中,数据集成工具是非常重要的一个环节,一个好的数据集成系统从可用性、架构扩展性、底层引擎选型、数据源支持能力等方面都需要一定的考量,在本文中汇总了十款开源的数据集成系统,作者本人在过往的开发过程中&…

IPSSL证书:为特定IP地址通信数据保驾护航

IPSSL证书,顾名思义,是专为特定IP地址设计的SSL证书。它不仅继承了传统SSL证书验证网站身份、加密数据传输的基本功能,还特别针对通过固定IP地址进行通信的场景提供了强化的安全保障。在IP地址直接绑定SSL证书的模式下,它能够确保…

全国大学生数学建模竞赛【集训营E题】丨 近5年赛题实现,模拟参赛体验

在这个数据驱动、模型塑造未来的时代,数学建模不仅是学术研究的基石,更是解决复杂实际问题的金钥匙。 数学建模竞赛E题集训营技能强化要点: 1、基于Python的数学建模基础巩固 2、近5年E题赛题实现 3、模拟参赛体验与作品…

【Docker系列】Linux部署Docker Compose

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

软件测试之【软件测试初级工程师技能点全解】

读者大大们好呀!!!☀️☀️☀️ 🔥 欢迎来到我的博客 👀期待大大的关注哦❗️❗️❗️ 🚀欢迎收看我的主页文章➡️寻至善的主页 文章目录 🔥前言🚀初级测试工程师技能点👉测试理论基…

2024精选7个wordpress模板

通用多用途wordpress模板 中国红WordPress模板,适合服务行业企业建站的通用多用途wordpress模板。 WordPress是一款使用PHP语言开发的开源内容管理系统(CMS),最初设计用于个人博客,但随着时间的发展,它已经演化成为一个功能强大的…

羊大师:成长必备羊大师与健康同行

羊大师:成长必备羊大师与健康同行 在成长的道路上,我们不仅需要知识的积累,更需要健康的体魄作为支撑。羊大师发现在这个过程中,羊大师以其专业的知识和经验,为我们提供了一条与健康同行的成长之路。 羊大师&#xff…

浏览器不兼容 replaceAll 方法问题解决

问题 在一些较旧版本的浏览器中可能会出现 replaceAll 方法不兼容,提示replaceAll 方法 undefined 的问题。浏览器版本兼容情况如下图所示: 解决 可以通过 replace 正则表达式 的方法来代替 replaceAll 方法: let str "我是一段文本…

Redission分布式锁 - 抢课系统

使用Redission分布式锁与Kafka消息队列,实现学生抢课系统(高并发秒杀场景)。 目录 一、思路1.为频繁访问的信息设置缓存(1)登陆(2)课程任务信息(3)用户抢课记录 2.消息队…

文字转成活码的3步操作,手机扫码即可查看文本信息

现在经常会通过二维码的方式来传递通知的文字信息,只需要分享文字生成二维码的图片到微信群或者印刷出来,其他人就可以通过扫码来查看文字内容,有利于其他人更快速的获取信息。 目前文本静态码无法通过微信来扫码展示,那么想要解…

【unity小技巧】减少Unity中的构建打包大小

文章目录 正常默认打包查看编辑器打包日志压缩图片压缩网格模型压缩贴图压缩音频文件只打64位包最终大小完结 正常默认打包 这里以安卓为例。先什么都不干,直接打包安卓apk,查看包大小 查看编辑器打包日志 搜索build report构建报告。构建报告我们应该…

Nat Plants | 植物抽核单细胞!多组学探究大豆根瘤成熟过程

发表时间:2023-04 发表期刊:Nature Plants 影响因子:17.352 DOI:10.1038/s41477-023-01387-z 研究背景 根瘤菌是亲和互作寄主植物,感染宿主并在根部形成共生器官根瘤,具有固氮…

新手做抖店一般多久出单?想尽快出单需要做什么准备工作?

大家好,我是电商糖果 有不少刚开店的朋友,喜欢搜索,咨询多久出单的问题。 根据糖果做店四年多的经验来说,新手运营新店,只要操作思路正确,一般是一周左右就会出单,三到四周左右,店…

如何部署TDE透明加密实现数据库免改造加密存储

安当TDE(透明数据加密)实现数据库加密的步骤主要包括以下几个部分: 准备安装环境:确保操作系统和数据库环境已经安装并配置好,同时确保具有足够的权限来安装和配置TDE透明加密组件。下载安装包:从官方网站…

flutter开发实战-本地SQLite数据存储

flutter开发实战-本地SQLite数据库存储 正在编写一个需要持久化且查询大量本地设备数据的 app,可考虑采用数据库。相比于其他本地持久化方案来说,数据库能够提供更为迅速的插入、更新、查询功能。这里需要用到sqflite package 来使用 SQLite 数据库 预…

如何快速生成接口文档(swagger和knife4j两种方式及其使用)

如何快速生成接口文档(swagger和knife4j两种方式) 1、什么是接口文档? 在项目开发中,web项目的前后端分离开发,APP开发,需要由前后端工程师共同定义接口,编写接口文档,之后大家都根…

使用PyQt5设计订单查询界面—了解界面布局2

想要实现的界面效果 增加Tab Widge的页签 在MainWindow窗口中选中水平布局,将一个Label控件和一个默认自带两个页签的Tab Widget控件放到水平布局中,Tab Widget控件右键选择“插入页”再选择“在当前页之后”增加页签。 为每一个Tab页签界面都选择“栅格…

【小积累】@Qualifier注解

今天在看rabbitMQ的时候需要绑定交换机和队列,交换机和队列都已经注入到spring容器中,写了一个配置类,使用了bean注解注入的。所以这时候绑定的时候需要使用容器中的交换机和队列,必须要使用Qualifier去确定是容器中的哪个bean对象…

240W 宽电压输入 AC/DC 导轨式开关电源——TPR/SDR-240-XS 系列

TPR/SDR-240-XS 导轨式开关电源,额定输出功率为240W,产品输入范围:85-264VAC。提供24V、48V输出,具有短路保护,过载保护等功能,并具备高效率,高可靠性、高寿命、更安全、更稳定等特点&#xff0…