LLM（三）| GPT-4 Turbo：OpenAI开发者大会重磅发布

2023年11月7日，OpenAI开发者大会带来一些列功能更新以及更低的API价格：

GPT-4升级了 GPT-4 Turbo，性能更强，价格更低，重磅支持128K上下文；
新的Assistants API使开发人员更容易构建自己的辅助人工智能应用程序，这些应用程序具有目标并可以调用模型和工具；
平台新增了多模态功能，包括视觉、图像创建（DALL·E 3）和文本到语音（TTS）

更多可以参考：https://openai.com/blog/introducing-gpts

支持128K上下文的GPT-4 Turbo

OpenAI在今年3月份发布了GPT-4的第一个版本，并在7月份向所有开发人员提供了GPT-4。今天又将推出下一代GPT-4 Turbo的预览版（https://platform.openai.com/docs/models/gpt-4-and-gpt-4-turbo）。

GPT-4 Turbo支持128K的上下文窗口，因此在一个提示中可以容纳相当于300多页文本的内容，并且预训练数据已经更新到2023年4月。价格也便宜了不少，输入便宜了3倍，输出便宜了2倍。

所有付费开发人员通过调用GPT-4-1106-preview API来调用GPT-4 Turbo，OpenAI在未来几周内会发布稳定适合生产环境模型。

函数调用更新

OpenAI发布了多项函数调用功能更新，包括在一条消息中调用多个功能的能力，用户可以发送一条消息请求多个操作，例如“打开车窗并关闭空调”，这在以前需要与模型进行多次往返，还在提高函数调用的准确性，GPT-4 Turbo更有可能返回正确的函数参数。

指令跟随和JSON模式更新

GPT-4 Turbo在需要仔细遵循指令的任务上比以前的型号表现得更好，例如生成特定格式（例如，“始终以XML输出”），还支持我们新的JSON模式（https://platform.openai.com/docs/guides/text-generation/json-mode），该模式确保模型将响应有效的JSON。新的API参数response_format使模型能够约束其输出，以生成语法正确的JSON对象。JSON模式对于开发人员在函数调用之外的Chat Complexions API中生成JSON非常有用。

输出可复现和对数概率

新的seed参数可以让模型在大多数时间返回一致的完成，实现可重复的输出，该功能对于程序debugging、单元测试以及对模型更高程度控制非常有用。据OpenAI爆料，他们内部也在使用该功能进行单元测试，发现非常好用，更多可以参考：https://platform.openai.com/docs/guides/text-generation/reproducible-outputs

在未来几周后，OpenAI计划推出一项功能，该功能会返回GPT-4 Turbo和GPT-3.5 Turbo输出最可能生成tokens的对数概率，该功能将有助于构建搜索体验中的自动完成等功能。

GPT-3.5 Turbo更新

此次发布会除了GPT-4 Turbo，还发布了GPT-3.5 Turbo的新版本，默认情况下支持16K上下文窗口。新的3.5 Turbo支持改进的指令跟随、JSON模式和并行函数调用。OpenAI内部评估显示，在格式跟踪任务（如生成JSON、XML和YAML）上有38%的改进。开发者可以在API中调用gpt-3.5-turbo-1106来使用该新模型，之前使用gpt-3.5-turbo名称的应用程序将于12月11日自动升级为该新模型。在2024年6月13日之前，老模型可以通过gpt-3.5-turbo-0613继续调用使用（更多可以参考：https://platform.openai.com/docs/models/gpt-3-5）。

Assistants API, 检索和代码解释器

OpenAI发布的Assistants API（https://platform.openai.com/docs/assistants/overview）将帮助开发人员在自己的应用程序中构建AI助手（比如agent），包括指令，可以利用额外的知识，调用模型和工具来执行用户响应。新的Assistants API又新增了代码解释器和检索以及函数调用等功能，可以帮助处理大量重复的工作。

Assistants API支持包括基于自然语言的数据分析应用程序、编码助手、人工智能度假计划器、语音控制DJ、智能视觉canvas等功能。Assistants API还引入了一个关键变化是持久和无限长的线程，这允许开发人员将线程状态管理交给OpenAI，并围绕上下文窗口约束进行工作。使用Assistants API，只需将每个新消息添加到现有线程中。

下面介绍一下Assistants API的新工具，包括：

代码解释器：在沙盒执行环境中可以编写和运行Python代码，可以生成图形和图表，也可以处理不同数据和格式的文件。代码解释器允许助手迭代运行代码，这可以解决具有挑战性的代码和数学问题；

检索：具有RAG功能，可以利用大模型之外的知识，比如专有领域数据、产品信息或用户提供的文档，以增强助手的能力。但是，与传统RAG不同，Assistants API既不需要为文档计算和存储嵌入，也不需要实现分块和搜索算法，Assistants API根据ChatGPT中构建知识检索的经验，优化了要使用的检索技术；

函数调用：使Assistants API能够调用用户自定义函数，并将函数响应结果加入到在其消息中。

PS：OpenAI承诺开发者传递到OpenAI API的数据和文件永远不会用于训练模型，用户可以随时随地删除数据（具体可以参考：https://openai.com/enterprise-privacy）。

Assistants API可以在Assistants playground中尝试，参考视频如下：https://cdn.openai.com/new-models-and-developer-products-announced-at-devday/assistants-playground.mp4

带视觉功能的GPT-4 Turbo

GPT-4 Turbo可以接受图像作为聊天完成API中的输入，从而实现生成字幕、详细分析真实世界图像以及阅读带数字的文档等用例。例如，BeMyEyes使用这项技术帮助盲人或视力低下的人完成日常任务，如识别产品或浏览商店。开发人员可以在API中尝试使用gpt-4-vision-preview模型来访问此功能。OpenAI计划在GPT-4 Turbo正式发布时，将视觉功能集成到里面，定价取决于输入图像的大小，例如，将1080×1080像素的图像传递给GPT-4 Turbo需要0.00765美元（具体可以参考：https://platform.openai.com/docs/guides/vision）。

DALL·E 3

开发人员可以通过API将文本生成图像模型DALL·E 3 直接集成到应用程序和产品中，价格从每张图像0.04美元起。与DALL·E的前一版本类似，API内置了审核功能，以帮助开发人员保护其应用程序免受滥用。Snap、可口可乐和Shutterstock等公司已使用DALL·E 3以编程方式为其客户和活动生成图像和设计。（DALL·E 3介绍可以参考：https://platform.openai.com/docs/guides/images）

文本到语音（TTS）

开发人员现在可以通过文本到语音 API生成高质量的语音。OpenAI最新的TTS模型提供了六种预设语音可供选择，以及两种模型变体TTS-1和TTS-1-hd。tts在实时方面进行了优化，tts-1-hd针对质量进行了优化。价格从每输入1000个字符0.015美元起。（具体可以参考：https://platform.openai.com/docs/guides/text-to-speech）

模型定制化

微调GPT-4

现在，GPT-4 微调正在实验访问阶段。OpenAI 正在创建一个用于 GPT-4 微调的实验性访问程序。不过与 GPT-3.5 微调获得的实质收益相比，GPT-4 微调需要更多工作才能对基础模型实现有意义的改进。

未来，随着 GPT-4 微调在质量和安全性方面得到提升，GPT-3.5 微调的活跃使用者可以选择在他们的微调控制中心应用 GPT-4 程序。（具体可以参考：https://platform.openai.com/finetune）

自定义模型

在微调之外，对于那些需要更多定制化功能的组织机构（特别适用于拥有超大专有数据集的领域——至少有数十亿个tokens），OpenAI 启动了自定义模型（Custom Models）计划，允许组织机构与 OpenAI 研究人员一起针对特定领域来训练定制化 GPT-4。这包括修改模型训练过程的每一步，从额外的领域特定预训练到运行针对特定领域的定制化 RL 训练后（post-training）过程。组织机构对其定制化模型拥有独家访问权。OpenAI 不会提供给其他客户或与其他客户共享，也不会用于训练其他模型。此外提供给 OpenAI 以训练定制化模型的专有数据不会在其他上下文中重复使用。不过，OpenAI 表示，目前自定义模型的功能有限且成本高昂。（需要定制化的用户可以参考：https://openai.com/form/custom-models）

更低的价格

OpenAI在整个平台上降低了几个价格，以将节省的费用转嫁给开发商（以下所有价格均以每1000个代币表示）：

GPT-4 Turbo输入tokens比GPT-4便宜3倍，售价0.01美元，输出tokens便宜2倍，售价0.03美元。
GPT-3.5 Turbo输入tokens比之前的16K模型便宜3倍，售价0.001美元，输出tokens便宜2倍，售价0.002美元。以前使用GPT-3.5 Turbo 4K的开发者可以从0.001美元的输入tokens上获得33%的折扣。这些较低的价格仅适用于今天推出的新款GPT-3.5 Turbo。
微调后的GPT-3.5 Turbo 4K模型输入tokens在0.003美元时减少了4倍，输出tokens在0.006美元时便宜了2.7倍。微调还支持16K上下文，价格与新GPT-3.5 Turbo模型的4K相同。这些新价格也适用于微调的gpt-3.5-turbo-0613模型。