据最新消息。
我们正在引入OpenAI o 1,这是一种新的大型语言模型,经过强化学习训练,可以执行复杂的推理。O 1在回答之前思考--它可以在对用户做出响应之前产生一个很长的内部思考链。
OpenAI o 1在竞争性编程问题(Codeforces)中排名第89百分位,在美国数学奥林匹克(AIME)资格赛中跻身美国前500名学生之列,并在物理,生物和化学问题(GPQA)的基准测试中超过人类博士水平的准确性。虽然使这个新模型像当前模型一样易于使用所需的工作仍在进行中,但我们正在发布这个模型的早期版本OpenAI o 1-preview,以便立即在ChatGPT中使用并提供给API用户。
我们的大规模强化学习算法教导模型如何在高度数据效率的训练过程中使用其思维链进行有效思考。我们发现,o1的性能随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算)而不断提高。扩展这种方法的限制与LLM预训练的限制有很大不同,我们正在继续研究它们。
。
o1 performance smoothly improves with both train-time and test-time compute
o1性能随着训练时间和测试时间计算而平滑地提高
为了突出GPT-4 o的推理改进,我们在一组不同的人类考试和ML基准上测试了我们的模型。我们发现,o 1显着优于GPT-4 o的绝大多数这些推理繁重的任务。除非另有说明,否则我们在最大测试时间计算设置上评估o 1。
o1 greatly improves over GPT-4o on challenging reasoning benchmarks. Solid bars show pass@1 accuracy and the shaded region shows the performance of majority vote (consensus) with 64 samples.
o 1在具有挑战性的推理基准测试中大大优于GPT-4 o。实心条显示通过@1的准确性,阴影区域显示64个样本的多数投票(一致性)的性能。
o1 improves over GPT-4o on a wide range of benchmarks, including 54/57 MMLU subcategories. Seven are shown for illustration.
o 1在广泛的基准测试中优于GPT-4 o,包括54/57 MMLU子类别。为了说明起见,示出了七个。
在许多推理繁重的基准测试中,o 1的表现与人类专家不相上下。最近的前沿模型1在MATH 2和GSM 8 K上做得很好,这些基准不再有效区分模型。我们在AIME上评估了数学成绩,这是一项旨在挑战美国最聪明的高中数学学生的考试。在2024年的AIME考试中,GPT-4 o平均只解决了12%(1.8/15)的问题。o 1平均为74%(11.1/15),每个问题一个样本,83%(12.5/15),64个样本之间的共识,93%(13.9/15)时,重新排序1000个样本与学习的评分功能。13.9分的成绩使其跻身全国前500名学生之列,并超过了美国数学奥林匹克竞赛的截止线。
我们还对o 1进行了GPQA钻石测试,这是一个很难的智力基准,测试化学,物理和生物方面的专业知识。为了将模型与人类进行比较,我们招募了具有博士学位的专家来回答GPQA钻石问题。我们发现,o 1的表现超过了那些人类专家,成为第一个在这个基准测试中做到这一点的模型。这些结果并不意味着o 1在所有方面都比博士更有能力-只是该模型在解决博士应该解决的一些问题方面更精通。在其他几个机器学习基准测试中,o 1比最先进的机器学习模型有了改进。由于启用了视觉感知功能,o 1在MMMU上的得分为78.2%,使其成为第一个与人类专家竞争的模型。它在57个MMLU子类别中的54个上也优于GPT-4 o。
Chain of Thought 思维链
就像人类在回答一个困难的问题之前可能会思考很长时间一样,o 1在试图解决一个问题时也会使用一系列的思维。通过强化学习,o 1学会了磨练自己的思维链,完善自己使用的策略。它学会了认识和纠正自己的错误。它学会了把复杂的步骤分解成简单的步骤。当当前的方法不起作用时,它学会了尝试另一种方法。这个过程极大地提高了模型的推理能力。为了说明这一飞跃,我们展示了从o 1-preview到下面几个难题的思路链。