OpenAI 开发者大会!实时语音功能有API了,GPT-4o支持多模态微调,上下文cache功能上线

news2024/10/4 4:10:34

家人们!十一假期第1天, OpenAI一年一度的开发者大会又来了惹!今年的开发者大会分成三部分分别在美国、英国、新加坡三个地点举办,刚刚结束的是第一场。

去年的OpenAI开发者大会公布了GPT-4 Turbo和GPTs,今年没有大更新,但主打实用。

发布了给开发者的一些福利,包括API的功能更新以及降价。下面一起盘一下吧!

视觉微调(Vision Fine-Tuning)

OpenAI今年在GPT-4o上引入了微调的功能,开发者们已经开始利用文本对模型进行微调以适应下游任务。

而此次开发者大会之际,OpenAI宣布将引入GPT-4o的视觉微调功能,允许开发者结合图像和文本来定制模型的视觉理解能力。

视觉微调的过程与文本微调相似,开发者需要按照指定的格式准备数据集并上传。开放视觉微调功能使得开发者能够增强模型在视觉搜索、生成和检测等核心能力方面的功能。

例如,东南亚的运输公司Grab通过仅使用100个样本对GPT-4o进行视觉微调,显著提高了其特定任务的图像理解能力。在车道计数的准确性上Grab实现了20%的提升,在限速标志的定位上提高了13%,这些成绩均超过了原始的GPT-4o模型。

所有付费用户均可使用视觉微调功能,而且从今天至本月31日,OpenAI将为每位开发者每天提供100万个免费训练token,用于对GPT-4o模型进行视觉微调

真大方啊!OpenAI!

等到本月31号之后,视觉微调GPT-4o不再Free,定价是每 100 万个 token 25 美元,推理的费用是每100万个token 3.75 美元,每 100 万个输出 token 15 美元

Sam Altman 也在X上发推文和大家得瑟他们把成本降低了:

实时 API(Realtime API)

在开发者大会上,OpenAI还宣布了要开放实时API的公测版,允许所有开发者在自己的应用程序中实现使用GPT的实时、低延时、多模态的功能。

实时API的公测版本支持开发者使用API目前支持的6种预设进行语音交互。

价格也挺美丽的,每分钟的音频输入每 100 万个 5 美元,每分钟音频输出 token 每 100 万个 20 美元

而且,OpenAI还推出了聊天完成 API(Chat Completions API)功能,用于支持开发者不需要实时API的场景需求。

模型蒸馏(Model Distillation)

OpenAI还提出了一种用前沿、高级的模型的输出微调GPT-4o mini的模式,例如用o1-preview 和 GPT-4o 等高级模型的输出,微调GPT-4o mini这类的小模型,从而实现更高效模型的性能。

OpenAI提出的蒸馏套件包括三个部分:

存储完成

开发者可以通过自动捕获、存储API生成的输入、输出对,为蒸馏生成数据集。

自定义评估(beta)

开发者可以创建和运行自定义评估,使用存储完成的数据或上传现有数据集评测模型的表现。

完成后微调

存储完成、自定义评估结合在微调的服务中,开发者可以在微调中使用存储完成创建的数据集,并使用评估在微调模型上运行评测。

提示缓存(Prompt Caching)

OpenAI注意到许多开发者在构建AI应用程序时,常常会在多个API调用中重复使用相同的上下文,例如在编辑代码库或与聊天机器人进行长时间、多轮次的对话。

为了降低开发者的成本并减少在一些重复任务上的时间延迟,OpenAI推出了“提示缓存”(Prompt Caching)功能。该功能能够自动识别并缓存模型最近处理过的输入tokens,从而提高效率并减少不必要的重复处理,有效地为开发者节省时间和资源。

简单直接地说就是,系统会自动对模型最近见过的输入tokens统统打5折!

但是实际上!

类似的功能已经在Gemini、Claude以及Kimi等平台上线了~而OpenAI的区别在于它将这一过程自动化。

这意味着开发者无需手动配置或管理缓存,OpenAI的系统会智能地处理输入tokens的缓存和重用,从而提供更为便捷和高效的体验。

小结

奶茶看了开发者大会公布的更新内容,虽然没有像去年那样推出新产品,但更新内容也还算是令人眼前一亮,颇具实用性!

氮素!Sam Altman竟然宣称这次开发者大会使得通向AGI(通用人工智能)的道路前所未有的清晰:

嘿,咋回事,怎么又提到AGI了?这怎么就AGI了?

奶茶并没有感受到这一点,不知道大家怎么看呢?

后面还有两场开发者大会,大家如果感兴趣的话,可以在评论区告诉我们,奶茶可以蹲守第一时间给大家汇报~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2187328.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【硬件模块】SG90舵机模块

SG90舵机模块实物图 180度舵机:可以控制旋转角度、有角度定位。上电后舵机自动复位到0度,通过一定参数的脉冲信号控制它的角度。 360舵机:不可控制角度,只能控制顺时针旋转、逆时针旋转、停止和调节转速。 如图所示为:…

仅用pygame+python实现植物大战僵尸-----完成比完美更重要

前言 其实这个项目再我上半年就想着做一下的,但是一直拖到现在,我现在深刻的理解到,不要想那么多,先做,因为永远不可能准备好,都是边做边学便准备的,完成比完美更重要;使用python&a…

【YOLO学习】YOLOv2详解

文章目录 1. 概述2. Better2.1 Batch Normalization(批归一化)2.2 High Resolution Classifier(高分辨率分类器)2.3 Convolutional With Anchor Boxes(带有Anchor Boxes的卷积)2.4 Dimension Clusters&…

每日一题|1928. 规定时间内到达终点的最小花费|动态规划、最小路径

本题需要使用动态规划进行解决。 分析: 求解最小值而且每一次的状态是由上一次的状态推导出来的,用动态规划。 难点:dp数组的定义和更新。 1、dp数组的定义 在时刻t,位置i处,此时的花费可以表示为如下的形式&#…

CNN卷积神经网络算法原理

全连接神经网络概述 输入层在左点自外,相应的输出层在右点之外, 这就像一个函数,yf(x),x即输入,f即隐藏层,y即输出,或者是ymodel(x) 全连接神经网络的结构单元 主要是从单元到整体&#xff0c…

杀疯啦!yolov11+strongsort的目标跟踪实现

目录 yolov11介绍——实时端到端物体检测 概述 主要特征 支持的任务和模式 性能指标 总结 strongsort介绍 指标图 系统定位 效果展示 训练与预测 UI设计 界面其他功能展示 完整代码实现UI界面 yolov11介绍——实时端到端物体检测 概述 YOLO11 是 Ultralytics Y…

基于yolov5 无人机检测包含:数据集➕训练好的代码模型训练了300轮 效果看下图 map97%以上

基于yolov5 无人机检测包含:数据集➕训练好的代码模型训练了300轮 效果看下图 map97%以上 基于YOLOv5的无人机检测项目 项目名称 基于YOLOv5的无人机检测 (Drone Detection with YOLOv5) 项目概述 该项目使用YOLOv5模型进行无人机目标检测。数据集包含大量带有标注的无人机…

wsl中安装ubuntu,vscode访问这个ubuntu

WSL1升级为WSL2 wsl --set-default-version 2 wsl --set-version Ubuntu-22.04 2在windows商店中也可以安装ubuntu,在这个ubuntu中windows的c盘在/mnt/c中

国庆刷题(day2)

C语言刷题: C刷题:

数据结构与算法——Java实现 27.双端队列

很多人觉得做一件事付出了10分的努力,却只得到5分的汇报。 其实剩下的五分,是在填补你过往的懒惰。 只有将过往的懒惰填满, 努力才会有正向结果 —— 24.10.3 一、概述 双端队列、队列、栈对比: 队列 一端删除(头&am…

计算机毕业设计 基于Python的个性化旅游线路推荐系统的设计与实现 Python+Django+Vue 前后端分离 附源码 讲解 文档

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点…

C++基础补充(02)C++其他控制语句break continue goto等

文章目录 1. break2. continue 语句3. goto 语句goto的存在 4. 跳出多重循环4.1 goto 直接跳转4.2 C11及其后版本的 return 语句4.3 使用标志变量 在C中,控制语句用于管理程序的执行流程。常见有 break、continue 和 goto。 1. break break语句主要用于在循环或者s…

【GEE学习第一期】GEE介绍、注册及基本使用

【GEE学习第一期】GEE介绍、注册及基本使用 GEE基本介绍GEE架构编辑语言:JavaScript GEE注册GEE平台界面GEE编辑器API区详解 GEE环境配置本地Python环境配置在线Python环境配置 参考 GEE基本介绍 地球引擎代码编辑器(Google Earth Engine, GEE&#xff…

oauth2授权码模式单点登录

文章目录 前言一、单点登录是什么?二、oauth2授权码模式单点登录流程1.流程图2. 代码相关2. 验证流程 总结 前言 oauth2 有四种模式,常用的为密码和授权码,剩下两种几乎不用 密码模式,很好理解,就是根据输入的用户名/密码进行登录认证的,最终返回一个合法token授权…

Coze:如何使用主页对话框?

你好,我是三桥君 我们今天要介绍的功能模块是“主页对话框”。 目录 访问官网 登录首页 基本功能 主页对话框 第一个功能:如何与自己收藏的机器人进行对话? 第二个功能:如何请求主页对话框的机器人帮助创建一个新的机器人&#x…

C++11 异步操作 std::future类

阅读导航 引言一、异步的概念二、应用场景1. 异步任务处理2. 并发控制3. 结果获取 三、使用示例1. 使用std::async关联异步任务💻示例代码说明 2. 使用std::packaged_task和std::future配合(1)定义std::packaged_task(2&#xff0…

游戏修改器Cheat Engine CE v7.5修改版下载安装详细方法

Cheat Engine是一个专注于游戏的修改器。它可以用来扫描游戏中的内存,并允许修改它们。它还附带了调试器、反汇编器、汇编器、变速器、作弊器生成、Direct3D操作工具、系统检查工具等。 具体安装方法如下: 地址:Cheat Engine 7.5.zip 解压文件…

Prompt 初级版:构建高效对话的基础指南

Prompt 初级版:构建高效对话的基础指南 文章目录 Prompt 初级版:构建高效对话的基础指南一 “标准”提示二 角色提示三 多范例提示四 组合提示五 规范化提示 本文介绍了提示词的基础概念与不同类型,帮助用户更好地理解如何在对话中构建有效的…

Java 计算器项目

更多有趣请关注公众号 计算器项目 代码仓库:https://gitee.com/wengxiulin/vs_code 项目图片 项目简介 这是一个用 Java 编写的简单计算器应用程序,具有基本的数学运算功能。该计算器支持加、减、乘、除等运算,并提供用户友好的图形界面…

CSP-J模拟赛三补题报告

前言 挂了110pts( ⇑ \Uparrow ⇑ \hspace{14em} 有史以来最大傻逼 T1: 100 p t s \color{green}100pts 100pts T2: 100 p t s → 80 p t s \color{green}100pts\color{yellow}\rightarrow\color{red}80pts 100pts→80pts T3: 100 p t s → 10 p t s \color{gre…