1. 综述
OpenAI API开发了具有各种能力的模型。可以根据不同的需求选择不同的模型并进行精调。
模型 | 描述 |
---|---|
GPT-4、GPT-4 Turbo | 一组从GPT-3.5升级后的模型,能够生成自然语言和代码 |
GPT-3.5 Turbo | 一组从GPT-3.5升级后的模型,能够生成自然语言和代码 |
DALL.E | 能够根据自然语言提示词生成和编辑图片的模型 |
TTS | 一组可以将文本转换成自然语音语言的模型 |
Whisper | 可以将语音转换成文本的模型 |
Embeddings | 一组可以将文件转换成数字形式的模型 |
Moderation | 检测文本是否敏感或安全的审核模型 |
GPT base | 一组没有指令的情况下也能生成自然语言和代码的模型 |
其它开源模型:Point_E, Whisper, Jukebox, CLIP
gpt-3.5-turbo, gpt-4, gpt-4-turbo-preview是目前最新版本。可以通过调用API,响应中可获得版本信息。
2. GPT-4 GPT-4-Turbo
GPT-4是1个多模态的大语言模型(可以接受文本或图片,然后输出文本),对于解决相对较困难的问题超过之前所有的模型。并对聊天进行了优化。
模型 | 描述 | 上下文令牌 |
---|---|---|
gpt-4-0125-preview | 最新的GPT-4模型旨在减少模型 无法完成任务的“偷懒”情况,返回最大4096令牌 | 128,000 tokens |
gpt-4-turbo-preview | 当前指向gpt-4-0125-preview | 128,000 tokens |
gpt-4-1106-preview | GPT-4 Turbo模型的主要特征:改进指令跟随,JSON模式, 重复输出,并行函数调用等功能。返回最多4,096个输出令牌。 这个预览模型不适合应用于生产。 | 128,000 tokens |
gpt-4-vision-preview | 除了具有GPT-4 Turbo功能外,GPT-4还具有理解图像的能力。 返回最多4,096个输出令牌。 这个预览模型不适合应用于生产。 | 128,000 tokens |
gpt-4 | 当前指向gpt-4-0613 | 8192tokens |
gpt-4-0613 | gpt-4从2023年6月13日起的快照,改进了函数调用支持 | 8192tokens |
对于基本的任务,GPT-4和GPT-3.5模型没有显著的区别。然而,在更复杂的推理情况下,GPT-4超过以往的模型
多语言能力:
GPT-4比之前的大语言模型和到2023年为止最优秀的系统都要强(通常有特定的基准训练或手工工程)。在MMLU(Multi-Modal Large-scale Language Understanding)基准测试中,GPT-4不仅在英文方面大大优于现有的模型,而且在其他语言方面也表现出色。MMLU是一套涵盖57个科目的英文多选题
3. GPT-3.5-Turbo
GPT-3.5 Turbo模型可以理解和生成自然语言或代码,并且使用”聊天补全“API对聊天进行了优化,但也能很好地应用于非聊天任务。
模型 | 描述 | 上下文令牌 |
---|---|---|
gpt-3.5-turbo-0125 | 最新的GPT-3.5 Turbo模型在响应请求格式时具有更高的准确性,并修复了导致非英语语言函数调用的文本编码问题的错误。返回最多4,096个输出令牌 | 16,385 tokens |
gpt-3.5-turbo | 目前指向gpt-3.5-turbo-0613。gpt-3.5-turbo模型别名将于2月16日自动从gpt-3.5-turbo-0613升级为gpt-3.5-turbo-0125 | 4096 tokens |
gpt-3.5-turbo-1106 | GPT-3.5 Turbo模型特点:改进指令跟随,JSON模式,可重复输出,并行函数调用等。返回最多4,096个输出令牌。 | 16,385 tokens |
gpt-3.5-turbo-instruct | 类似于GPT-3时代模型的功能。兼容旧的补全端点,但不是聊天补全 | 4096 tokens |
4. DALL·E
DALL·E是一个AI系统,可以通过自然语言的描述创造逼真的图像和艺术。目前提供3个功能:通过提示词生成指定大小的图片;编辑现有图片;生成同用户提供图片的关联图片
DALL·e3可通过图像API与DALL·e2一起使用
模型 | 描述 |
---|---|
dall-e-3 | 最新的DALL·E型号于2023年11月发布 |
dall-e-2 | 上一款DALL·E车型于2022年11月发布。DALL·E的第二次迭代, 具有比原始模型更真实,更准确,分辨率提高4倍的图像。 |
TTS(Text to Speech)
TTS是一种基于AI模型的技术,能够将文本转换成自然流畅的口语音频。我们提供两种不同的模型:ts-1针对实时文本到语音场景进行了优化,ts-1-hd则专注于提升语音质量。这些模型可以与Speech端点在Audio API中配合使用。
模型 | 描述 |
---|---|
tts-1 | 最新的文本转语音模型,对速度进行了优化 |
tts-1-hd | 最新的文本转语音模型,对质量进行了优化 |
Whisper
Whisper是一个通用的语音识别模型。它由一个包含多种音频的大数据集训练而成,也是一种多任务模型,能够进行多语言语音识别、语音翻译和语言识别。Whisper v2大型模型目前可通过我们的API使用Whisper -1模型。
当前,开源的Whisper版本和通过API调用的版本没有区别。但调用进行了推理优化的、开放的API,比其它调用方式会更快。
Embeddings
Embedding是文本用数字表示,可用于衡量两段文本之间的相关性。Embedding对于搜索、聚类、推荐、异常检测和分类任务非常有用。
模型 | 描述 |
---|---|
text-embedding-3-large | 最强大的英语和非英语任务嵌入模型 |
text-embedding-3-small | 在第二代ada嵌入模型的基础上提高了性能 |
text-embedding-ada-002 | 最强大的第二代嵌入模型,取代16个第一代模型 |
Moderation
内容审核模型(Moderation models)旨在检查内容是否符合OpenAI的使用政策。这些模型提供分类功能,用于查找以下类别的内容:仇恨、仇恨/威胁、自残、色情、色情/未成年人、暴力和暴力/血腥。
内容审核模型可以接受任意大小的输入,该输入会自动被切分为大小为4,096个token的块。当输入超过32,768个token时,会使用截断技术,这可能会罕见地导致一小部分token在审核检查中被省略。
向内容审核端点发送的每个请求的最终结果,显示为每个类别的最大值。例如,如果一个4K token的块在某个类别的得分为0.9901,而另一个块的得分为0.1901,那么API响应中将显示0.9901,因为它更高。
模型 | 描述 | 最大tokens |
---|---|---|
text-moderation-latest | 当前指向 text-moderation-007. | 32,768 |
text-moderation-stable | text-moderation-007. | 32,768 |
text-moderation-007 | 所有类别中最强大的审核模型。 | 32,768 |
GPT base
GPT基座模型可以理解并生成自然语言或代码,但不需要按照指令进行训练。这些模型可以替代原有的GPT-3基座模型,并使用传统的补全API。大多数客户应该使用GPT-3.5或GPT-4。
模型 | 描述 | 最大tokens |
---|---|---|
babbage-002 | 替换GPT-3 ada和babbage基础模型 | 16,384 |
davinci-002 | 替换GPT-3居里和达芬奇基础模型 | 16,384 |
模型数据使用
你的数据就是你的数据。
截至2023年3月1日,发送到OpenAI API的数据将不会用于训练或改进OpenAI模型(除非您明确选择加入)。选择加入的一个好处是,随着时间的推移,模型可能会在您的用例中变得更好。
为了帮助识别滥用,API数据可能会保留最多30天,之后将被删除(除非法律另有要求)。对于具有敏感应用程序的受信任客户,可以使用零数据保留。在零数据保留的情况下,请求和响应体不会被持久化到任何日志机制中,只按顺序存在于内存中。
请注意,此数据策略不适用于OpenAI的非api消费者服务,如ChatGPT或DALL·E 实验室。