2024年OpenAI DevDay发布实时 API、提示缓存等新功能

news2026/2/17 3:27:22

就在几天前，一些重要人物如前 CTO Mira Murati 离开了 OpenAI。因此，看到 Sam Altman 在 DevDay 上登台，讨论开发者的新产品，感觉有点奇怪。

随着公司内部的这些变化，你不禁会想：我们还应该信任他吗？

但这不是重点。让我们先把这些戏剧性事件放在一边，看看 Dev Day 的真正主题——OpenAI 刚刚为开发者宣布的新工具。

尽管领导层的变动令人担忧，但显然公司仍在向前推进。事实上，这次活动中有许多值得细细探讨的进展。

如果你错过了去年的 DevDay 2023，这里是自那时以来的一些最新进展：

从 GPT-4 到 4o mini，每个 token 的成本下降了 98%
系统中的 token 处理量增加了 50 倍
显著的模型智能进展

实时 API（Realtime API）

DevDay 2024 的亮点无疑是实时 API。

这个 API 使开发者能够在其应用程序中构建低延迟、多模态的对话功能，支持文本、音频以及函数调用。

以下是一个调用 API 的 javascript 示例代码。

const event = {
  type: 'conversation.item.create',
  item: {
    type: 'message',
    role: 'user',
    content: [
      {
        type: 'input_text',
        text: 'Hey, how are you doing?'
      }
    ]
  }
};
ws.send(JSON.stringify(event));
ws.send(JSON.stringify({type: 'response.create'}));

那么，为什么开发者应该关心这个呢？

原生语音到语音： 不经过文本中介，意味着低延迟和更细腻的输出。
自然且可引导的语音： 模型具有自然的语调，能表现出笑声、低语等，并能遵循语气指引。
同时输出多模态： 文本对内容审核有用，而比实时更快的音频确保了稳定的播放。

现在，数千名开发者可以将这一功能集成到他们的应用中，开启了语音驱动应用的新潮流。

看看一些有机会提前体验实时 API 的开发者分享的产品示例：
在这里插入图片描述

“结果是，我们的学习者体验更加个性化和有帮助！今天，我们宣布推出 Live Roleplays，这是一种结合实时 API 和我们的学习引擎的新 Speak 体验，能够在各种角色扮演场景中提供沉浸式的口语练习。” —Andrew Hsu

以下是实时 API 的定价信息：

文本输入：每 100 万个 token 5 美元
文本输出：每 100 万个 token 20 美元
音频输入：每 100 万个 token 100 美元（约每分钟 0.06 美元）
音频输出：每 100 万个 token 200 美元（约每分钟 0.24 美元）

提示缓存（Prompt Caching）

接下来介绍的是提示缓存，这项功能显著减少了处理重复提示所需的成本和时间。

OpenAI 现在将把 API 请求路由到最近处理过相同或相似提示的服务器，这意味着你可以跳过重复的计算。对于处理长提示或复杂提示且经常重复使用的开发者来说，这项功能特别有用。

此功能可将长提示的延迟减少多达 80%，成本降低 50%。

提示缓存并不是一个全新的概念。事实上，Anthropic不久前推出了一个类似功能，允许开发者缓存经常使用的上下文，最多可减少 90% 的成本。

OpenAI 的提示缓存适用于以下模型：

gpt-4o
gpt-4o-mini
o1-preview
o1-mini

当你发出 API 请求时，流程如下：
在这里插入图片描述

缓存查找：系统检查你的提示的初始部分（前缀）是否已被缓存。
缓存命中：如果找到了匹配的前缀，系统将使用缓存结果。这显著减少了延迟并降低了成本。
缓存未命中：如果没有匹配的前缀，系统将处理你的完整提示。处理完成后，提示的前缀会被缓存以备将来使用。

这些缓存的前缀最多可以存储 10 分钟。但在非高峰期，缓存可能会持续长达一小时。

提示缓存的定价如下：

在这里插入图片描述

视觉微调（Vision Fine-Tuning）

DevDay 上另一个重要的新功能是视觉微调。

此功能允许用户在 JSONL 文件中使用图像和文本来微调模型。这为不仅依赖文本输入，还可以利用视觉数据训练模型提供了可能性。

以下是 JSONL 文件中一行图像消息的示例。为了方便阅读，JSON 对象已展开，但通常情况下该 JSON 会出现在数据文件的单行中：

{
  "messages": [
    { "role": "system", "content": "You are an assistant that identifies uncommon cheeses." },
    { "role": "user", "content": "What is this cheese?" },
    { "role": "user", "content": [
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/3/36/Danbo_Cheese.jpg"
          }
        }
      ] 
    },
    { "role": "assistant", "content": "Danbo" }
  ]
}

那么，这有什么用呢？
OpenAI 与Grab等领先科技公司合作，展示了视觉微调在现实应用中的强大功能。Grab 是一家主要的食品配送和网约车服务公司，使用此功能提升了其GrabMaps平台的性能。该平台依赖于从司机收集的街道级图像来支持东南亚的运营。

通过使用 100 个样例微调GPT-4o，Grab 提升了识别交通标志和车道分隔线的能力。
在这里插入图片描述