OpenAI 4日表示,他们正在为fine-tuning API引入新的改进功能,以帮助开发者更好地控制fine-tuning的过程,并且宣布了利用OpenAI构建自定义模型的新途径。
为了减少延迟、提高准确性和降低成本,开发者可以使用各种技术来提高模型性能。无论是通过检索增强生成(RAG)扩展模型知识、通过微调定制模型行为,还是利用新的领域特定知识构建自定义训练模型,他们已经开发了一系列选项来支持客户的AI实现。今天,他们推出了新功能,以便开发者更好地控制API中的微调,并介绍更多与他们的AI专家团队和研究人员合作构建自定义模型的方法。
新的微调API功能
他们在2023年8月推出了GPT-3.5的自助微调API。自那时起,成千上万的组织已经使用他们的API训练了数十万个模型。微调可以帮助模型深度理解内容,并增强模型对特定任务的现有知识和能力。他们的微调API还支持比单个提示中可以容纳的更多示例,以实现更高质量的结果,同时降低成本和延迟。微调的一些常见用例包括训练模型以在特定编程语言中生成更好的代码,以特定格式总结文本,或者根据用户行为制作个性化内容。
例如,全球招聘和匹配平台Indeed希望简化招聘流程。作为其中一部分,Indeed推出了一个功能,向求职者发送个性化推荐,根据他们的技能、经验和偏好突出显示相关职位。他们对GPT-3.5 Turbo进行了微调,以生成更高质量和更准确的解释。结果,Indeed能够通过减少提示中的令牌数量80%来改善成本和延迟。这使他们的规模从每月不到一百万条消息扩展到大约2000万条。
今天,他们推出了新功能,以便开发者更好地控制他们的微调作业,包括:
1.基于Epoch的检查点创建:在每个训练时期自动产生一个完整的微调模型检查点,从而减少后续重新训练的需求,特别是在过度拟合的情况下。
2.对比游乐场:一个新的并排游乐场用户界面,用于比较模型质量和性能,允许人类评估多个模型或微调快照对单个提示的输出。
3.第三方集成:支持与第三方平台的集成(本周开始与Weights and Biases),以让开发者将详细的微调数据分享到其余的堆栈中。
4.全面的验证指标:能够在整个验证数据集上计算像损失和准确性这样的指标,而不仅仅是一个样本批次,提供更好的模型质量洞察。
5.超参数配置:能够从仪表板中配置可用的超参数(而不仅仅是通过API或SDK)。
6.微调仪表板改进:包括配置超参数的能力,查看更详细的训练指标,并从先前的配置重新运行作业。
扩展他们的定制模型计划
辅助微调
在去年十一月的DevDay上,他们宣布了一个定制模型计划,旨在与一组专门的OpenAI研究人员合作,为特定领域训练和优化模型。自那时以来,他们与数十个客户会面,评估他们的定制模型需求,并将他们的计划进化到进一步最大化性能的程度。
今天,他们正式宣布他们的辅助微调服务作为定制模型计划的一部分。辅助微调是与他们的技术团队共同努力,利用超出微调API的技术,例如更多的超参数和更多规模的各种参数高效微调(PEFT)方法。对于需要支持设置高效训练数据管道、评估系统以及定制参数和方法以最大化模型性能的组织来说,这将特别有帮助。例如,为了定制一个专家级的电信领域模型,初始重点是客户服务,韩国服务超过3000万订户的电信运营商SK Telecom与OpenAI合作微调了GPT-4,以提高其在韩语电信相关对话中的性能。在几个星期的过程中,SKT和OpenAI在电信客户服务任务中取得了有意义的性能改进——对话摘要质量提高了35%,意图识别准确性提高了33%,将微调模型与GPT-4进行比较,满意度得分从3.6提高到4.5(满分5分)。
定制训练模型
在某些情况下,组织需要从头开始训练一个定制的、理解他们业务、行业或领域的专用模型。完全定制训练的模型通过使用新的中间训练和后训练技术修改模型训练过程的关键步骤,从而从特定领域获得新知识。成功使用完全定制训练模型的组织通常拥有大量专有数据,即数百万个示例或数十亿个令牌,他们希望使用这些数据来教模型新的知识或复杂、独特的行为,以满足高度具体的用例需求。
例如,一家为律师提供的AI原生法律工具Harvey与OpenAI合作,为案例法创建了一个定制的大型语言模型。虽然基础模型在推理方面表现出色,但它们缺乏法律案例历史和其他法律工作所需的广泛知识。在测试了提示工程、RAG和微调之后,Harvey与他们的团队合作,为模型添加了所需的上下文深度,相当于价值100亿个令牌的数据。他们的团队修改了模型训练过程的每一个步骤,从领域特定的中间训练到定制后训练过程,并结合专家律师的反馈。结果模型在事实性回答方面实现了83%的增长,律师们在97%的情况下更喜欢定制模型的输出,而不是GPT-4。模型定制的未来展望
他们相信,未来绝大多数组织都将开发定制化模型,以满足其所在行业、业务或特定用例的需求。通过各种可用的技术构建定制模型,各种规模的组织都可以开发个性化模型,从而实现更有意义、更具体的AI实施影响。关键在于清晰地界定用例范围,设计和实施评估系统,选择正确的技术,并准备好随着时间的推移进行迭代,使模型达到最佳性能。
在OpenAI,大多数组织可以通过自助微调API快速看到有意义的结果。对于任何需要更深入微调其模型或为模型注入新的领域特定知识的组织,他们的定制模型计划可以提供帮助。