ChatGPT实时语音将于本周向免费用户推出:OpenAI DevDay 2024详细解读

news2024/11/18 13:51:52

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

北美时间2024年10月1日,2024年度的OpenAI开发者大会(OpenAI DevDay 2024)如期而至。

1. ChatGPT实时语音将于本周向免费用户推出

在OpenAI DevDay 2024的最新更新中,OpenAI宣布从本周开始,实时语音功能Advanced Voice Mode)将面向全球所有ChatGPT Enterprise、Edu和Team用户推出。此外,免费用户也将能够抢先体验到这一功能。

虽然OpenAI如是说,但不出意外,ChatGPT免费用户应该是只能够短暂体验实时语音功能Advanced Voice Mode)这一新功能。毕竟对于ChatGPT Plus用户,实时语音功能也是有着聊天时长限制的,超过规定的聊天时长后,语音模式将会自动切换为标准语音模式(标准语音模式)。

目前OpenAI并没有给出明确的聊天时长限制,只是表示聊天时长的限制可能会随着计算资源而动态调整。聊天时长达到上限前15分钟,ChatGPT会发出通知提醒。

2. Realtime API

对于开发者,OpenAI推出了Realtime API,允许开发者在其应用中构建快速的语音聊天体验,类似于上面提到的ChatGPT实时语音模式(Advanced Voice Mode),但适用于开发者自己的应用。此API以低延迟提供自然的语音对话,现已面向付费开发者以公测形式推出。除了Realtime API,OpenAI还在其Chat Completions API中增加了音频输入和输出功能,开发者无需再将多个模型组合使用,单次API调用即可实现自然的语音对话体验。

主要特点:

  1. 低延迟的多模态体验:开发者可利用Realtime API实现快速的语音到语音转换,并支持在对话中插入功能调用,使语音助手可以执行操作或拉取上下文。

  2. 典型应用场景:可用于客户服务、语言学习、健康和健身教练等场景,提供自然流畅的语音交互。

  3. 音频定价Realtime API支持文本和音频输入输出,按token分别计费,价格为每百万个输入音频tokens 100美元,每百万个输出音频tokens 200美元。

  4. 安全与隐私Realtime API具备多层安全防护,防止滥用,并对用户输入输出进行监控。

3. 在Playground中自动生成Prompt

在OpenAI DevDay的更新中,OpenAI在Playground推出了自动生成Prompt提示词的功能。此功能可以帮助开发者更快地将想法转化为原型。开发者只需简单描述其使用模型的目的,Playground就会自动生成提示、有效的函数架构和结构化输出格式,让开发者更轻松地进行原型设计。

用过Claude控制台的小伙伴应该可以联想到,OpenAI新推出的这个功能对标的就是Claude几个月前在控制台添加的自动生成提示词的功能。详情可以看我这篇文章:《Claude更新王炸功能:一键生成、评估、优化提示词!》。

4. Prompt Caching(提示缓存)

此外,OpenAI推出了Prompt Caching(提示缓存)功能,让开发者能够降低使用成本并加快提示词处理速度。此功能可自动对模型最近处理过的输入令牌进行缓存,开发者可以以50%的折扣价格重复使用这些令牌,并且不会影响延迟。

主要特点:

  1. 折扣与定价:对于已经缓存的输入令牌,开发者可以获得50%的折扣。例如,GPT-4o模型的未缓存输入令牌费用为每百万tokens 2.50美元,而缓存令牌的费用为1.25美元。

  2. 自动应用:Prompt Caching将自动应用于最新版本的GPT-4oGPT-4o minio1-previewo1-mini模型,以及它们的微调版本。提示内容超过1024个令牌时,API会自动缓存,开发者无需修改API集成。

  3. 缓存清除:缓存通常在5到10分钟不活跃后清除,并在最后一次使用后一小时内完全移除。

  4. 企业隐私承诺:缓存不会在组织之间共享,且遵循OpenAI的企业隐私协议。

最后提一句,OpenAI这次推出的Prompt Caching(提示缓存)功能对标的也是Claude在今年8月推出的同名称的功能。

5. Model Distillation(模型蒸馏)

OpenAI在本次更新中推出了Model Distillation(模型蒸馏)功能,这是一个用于微调较小、成本效益更高模型的工作流程,利用大型模型(如GPT-4oo1-preview)的输出来提升性能。

模型蒸馏的主要功能:

  1. 存储完成(Stored Completions):开发者可以通过API捕捉并存储模型生成的输入输出对,生成用于微调的数据集。这使得使用生产数据构建数据集变得更加简单,以便评估和微调较小的模型。

  2. 评估(Evals,测试版):开发者可以在OpenAI平台上创建和运行自定义评估,以衡量模型在特定任务上的性能。Evals与微调流程完全集成,也可以独立使用来评估模型性能。

  3. 微调集成:存储完成和评估工具与现有的微调功能相结合,开发者可以使用存储的完成数据集进行微调,并使用Evals测试微调后的模型性能。

模型蒸馏工作流程:

  1. 通过Evals创建一个评估,以测试目标模型(如GPT-4o mini)的性能。

  2. 使用Stored Completions生成真实世界任务的数据集,将大型模型(如GPT-4o)的输出作为微调的基准数据。

  3. 使用生成的数据集微调较小的模型(如GPT-4o mini),并通过Evals不断测试其性能。

模型蒸馏定价与可用性:

Model Distillation(模型蒸馏)功能现已向所有开发者开放,支持所有OpenAI模型。开发者每天可以获得2百万个免费训练令牌用于GPT-4o mini,直到10月31日。此外,存储完成是免费的,而Evals在2024年底之前,每周最多可运行7次免费的评估,条件是开发者选择将其评估共享给OpenAI以改进未来的模型。

6. Vision Fine-tuning(视觉微调)

OpenAI宣布在其微调API中添加了对视觉微调的支持,开发者现在可以使用图像和文本微调GPT-4o。这一功能为图像理解任务提供了更强大的定制能力,适用于增强视觉搜索、改进自动驾驶的物体检测、或更精确的医学图像分析等应用。

主要特点:

  1. 图像和文本结合微调:开发者可以通过上传图像数据集来增强GPT-4o的视觉处理能力,并且只需100张图像即可实现显著性能提升。随着图像和文本数据量的增加,性能将进一步提升。

  2. 真实世界应用:通过与合作伙伴的测试,GPT-4o在改进道路图像检测、自动化企业流程以及优化网站设计等领域表现出色。例如,Grab 使用视觉微调改进了道路标志定位准确性,Automat 提高了桌面机器人在识别UI元素时的成功率,Coframe 则通过视觉微调提升了网站设计的一致性。

视觉微调定价与可用性:

视觉微调现已向所有付费开发者开放,并支持最新的GPT-4o模型(gpt-4o-2024-08-06)。OpenAI提供了免费的视觉微调训练令牌,2024年10月31日前每天最多100万免费令牌。之后,微调训练将按每百万tokens 25美元收费,推理过程则按每百万输入tokens 3.75美元、输出tokens 15美元计费。

7. 扩大o1模型API的使用权限

OpenAI宣布扩大o1模型API的使用权限,允许账号使用级别第3层(usage tier 3)的开发者访问,并提升了调用速率限制,使其与GPT-4o的速率限制相同,以满足生产级别的应用开发。

  • 第 5 层o1-preview每分钟10,000个请求,o1-mini每分钟30,000个请求。

  • 第 4 层o1-previewo1-mini均为每分钟10,000个请求。

  • 第 3 层o1-previewo1-mini均为每分钟5,000个请求。


精选推荐


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2184198.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

激活函数ReLU,Sigmoid,tanh,softmax性质讲解及使用matplotlib绘制

Sigmoid及tanh sigmoid及tanh的函数图像较为相似,它们的公式如下 Sigmoid公式 tanh公式 Sigmoid及tanh性质解析 Sigmoid和tanh作为激活函数都可以有效完成非线性映射的功效,其中Sigmoid经常作为2分类的神经网络的输出层的激活函数,由于其非线性映射会将输出值转换到0-1的区间…

心觉:潜意识开发为何失败?99%的人卡在理性与感性学习的误区

Hi,我是心觉,与你一起玩转潜意识、脑波音乐和吸引力法则,轻松掌控自己的人生! 挑战每日一省写作187/1000天 小时候看武侠剧的时候,经常看到剧中有武林高手把绝世武功传给某个涉世未深的铁憨憨主角,比如《天…

四、Drf认证组件

四、Drf认证组件 4.1 快速使用 from django.shortcuts import render,HttpResponse from rest_framework.response import Response from rest_framework.views import APIView from rest_framework.authentication import BaseAuthentication from rest_framework.exception…

win11 升级报 0x80073713 错误

安装错误 - 0x80073713 通常是由于系统文件损坏或 Windows Update 组件异常引起的。‌ 这个问题可能阻止您的系统正常接收和安装更新,影响系统的稳定性和安全性。 可以尝试如下如下方法: 首先,您可以尝试使用命令提示符运行系统文件检查器…

资源《Arduino 扩展板2-矩阵按钮 》说明。

资源链接: Arduino 扩展板2-矩阵按钮 1.文件明细 2.文件内容说明 包含:AD工程、原理图、PCB。 3.内容展示 4.简述 该文件为PCB工程,采用AD做的。 该文件打板后配合Arduino使用,属于Arduino的扩展板。 该文件主要有16个按钮…

wgan的实现的伪代码,和原理,dcgan,模型坍塌 em距离 js kl散

原文地址 https://blog.csdn.net/Keep_Trying_Go/article/details/130471766 伪代码详细看这个, 特别注意点:gan(xnosize) 生成器 是 输入噪声 ,而不是全部噪声生成的 特别注意点:gan(xnosize) 生成器 是 输入噪声 &#…

vue3使用Teleport 控制台报警告:Invalid Teleport target on mount: null (object)

Failed to locate Teleport target with selector “.demon”. Note the target element must exist before the component is mounted - i.e. the target cannot be rendered by the component itself, and ideally should be outside of the entire Vue component tree main.…

基于SSM+小程序的选课管理系统2(源码+sql脚本+视频导入教程+文档)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 ​ 教师的账号和密码可以注册,管理员的账号和密码可由系统开发者在数据库中设置,学生的账号和密码可以由注册获得。 1、管理员的主要功能为学生资料、教师资料的添…

如何升级OCAT

如何升级OCAT 一. 从官网下载OCAT 官网下载地址链接:https://github.com/ic005k/OCAuxiliaryTools/releases 目前下载下来版本为0.8.8,但RapidEFI显示最新版本已经为1.0.1。 为了防止OC版本过低导致进不了系统,需要对OCAT进行升级。![在这里…

.NET 一款支持冰蝎的免杀WebShell

01阅读须知 此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等(包括但不限于)进行检测或维护参考,未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失&#xf…

探索 PixiJS:强大的 2D 图形渲染库

探索 PixiJS:强大的 2D 图形渲染库 演示地址 演示地址 源码地址 源码地址 获取更多 获取更多 随着 Web 技术的发展,越来越多的开发者希望在网页中实现丰富的视觉效果和动画。PixiJS 作为一个高性能的 2D 渲染库,凭借其强大的功能和易用性…

《NoSQL》非关系型数据库MongoDB 学习笔记!

Mongo基础: 使用数据库: 使用use 命令 后面跟着要使用的数据库名字即可, 例如:use cities, 值得注意的是, mongo中不像mysql, 还需要先创建数据库,后访问, mongo中,你无…

媒介坊:在数字化时代,企业如何在竞争激烈的市场中脱颖而出

在当今的数字化时代,企业如何在竞争激烈的市场中脱颖而出,成为消费者关注的焦点?软文投放作为一种高效的营销手段,正受到越来越多企业的青睐。而媒介坊,作为一站式软文投放平台,正是帮助企业实现这一目标的…

Android Camera2 与 Camera API技术探究和RAW数据采集

Android Camera2 Android Camera2 是 Android 系统中用于相机操作的一套高级应用程序接口(API),它取代了之前的 Camera API。以下是关于 Android Camera2 的一些主要信息: 主要特点: 强大的控制能力:提供…

JavaWeb——Vue组件库Element(4/6):案例:基本页面布局(基本框架、页面布局、CSS样式、完善布局、效果展示,含完整代码)

目录 步骤 基本页面布局 基本框架 页面布局 CSS样式 完善布局 效果展示 完整代码 Element 的基本使用方式以及常见的组件已经了解完了,接下来要完成一个案例,通过这个案例让大家知道如何基于 Element 中的各个组件制作一个完整的页面。 案例&am…

Labview helper

IMAQ Advanced Setup Learn Geometric Pattern 2 VI 参数说明Curve Extraction Mode (0)指定VI如何识别图像中的曲线。如果您希望VI不对图像中对象的均匀性或图像背景做出任何假设,请将此选项设置为正常。如果您希望VI假定图像中的对象或图像背景由均匀的像素值组成…

PCL 最远点采样(FPS)

目录 一、概述 1.1原理 1.2实现步骤 1.3应用场景 二、代码实现 2.1关键函数 2.1.1 可视化函数 2.1.2 最远点采样 2.2完整代码 三、实现效果 PCL点云算法汇总及实战案例汇总的目录地址链接: PCL点云算法与项目实战案例汇总(长期更新&#xff0…

事务原理,以及MVCC如何实现RC,RR隔离级别的

事务原理 redo log 保持持久性: 首先原来的情况是我们做一组操作的时候,先去操作bufferpool缓冲区,如果没有,那么后台线程将数据页换入换出到缓冲区,然后我们对这个buffer pool进行修改,为脏页&#xff0c…

Redis篇(Redis原理 - 数据结构)(持续更新迭代)

目录 一、动态字符串 二、intset 三、Dict 1. 简介 2. Dict的扩容 3. Dict的rehash 4. 知识小结 四、ZipList 1. 简介 2. ZipListEntry 3. Encoding编码 五、ZipList的连锁更新问题 六、QuickList 七、SkipList 八、RedisObject 1. 什么是 redisObject 2. Redi…

开放式耳机哪个品牌好?2024年蓝牙耳机排行榜

开放式蓝牙耳机以其独树一帜的佩戴方式,正逐渐成为音乐爱好者和运动达人的新宠。时尚而又实用。如果你对传统耳机的佩戴方式感到厌倦,或者在寻找一款既能提供高品质音乐体验又能兼顾佩戴舒适性的耳机,那么开放式蓝牙耳机可能会是你的理想选择…