- 发布预期:GPT-5预计将于11月发布,可能与ChatGPT发布两周年同期。
- 竞争态势:谷歌的Gemini与GPT-4 turbo已展开竞争。
- 逐步发布:GPT-5可能通过模型训练过程中的中间检查点逐步发布。
- 训练与安全测试:实际训练可能需3个月,加上6个月的安全测试。
- GPT-4技术规格:
- 模型规模:约1.8万亿参数,120层。
- 混合专家系统(MoE):包含16个专家,每个专家111B MLP参数。
- 数据集:基于13T tokens的文本和代码数据训练。
- 数据集混合:CommonCrawl和RefinedWeb,推测包括社交媒体和教科书数据。
- 训练成本:约6300万美元。
- 推理成本:比175B参数的Davinci模型高3倍。
- 推理架构:在128个GPU集群上运行,使用8路张量并行和16路流水线并行。
- 视觉多模态:加入视觉编码器,支持图像和视频编码。
- GPT-5预期特性:
- 参数规模:可能是GPT-4的10倍。
- 推理能力:增强推理步骤的列举和检查,改善代码生成和数学运算。
- 数据使用:更多元的训练数据,包括文本、图像、音频和视频等。
- 多模态和推理:预计将加强多模态能力和逻辑推理性能,提升LLM的代理性。