大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。
昨天刚在《ChatGPT Pro都来了,ChatGPT Pro Max还会远吗?》一文中介绍过OpenAI即将推出一款具备推理能力的新模型,今天它就来了!
北美时间9月12日下午,OpenAI官方正式宣布了新模型o1-preview
(o1预览版)的发布。和我在昨天的文章中分析的一致,o1-preview
作为新一代模型,擅长通过推理解决复杂的任务,尤其在科学、代码和数学方面有着显著提升。
短短2个小时,OpenAI的帖子阅读量就已突破百万。
本次发布的新模型共有2个,除了上面提到的o1-preview
,另一个是o1-mini
,即o1-preview
的弟弟版本,更加注重经济高效。可以简单理解为GPT-4o
和GPT-4o mini
的关系。
o1
模型发布后,OpenAI的CEO Sam Altman也是随即在社交媒体发表多个帖子表示这将会是目前最强大、最对齐的模型。虽然该模型还不完美,但它将惊人感到惊艳。
o1
工作原理
o1
模型的工作原理可以简单概括为,OpenAI通过让模型在回复前花更多时间思考,从而提升其解决复杂问题的能力。与传统的AI模型不同,o1
更加注重推理过程,类似于人类在面对难题时,先花时间分析、思考,再做出回应。
在训练过程中,模型能够逐步优化思维方式,尝试不同的策略,并能够自我识别和纠错。通过这种反复训练,o1
逐渐掌握了精细化的推理能力,能够在解决问题时更加准确和灵活。
从测试结果来看,本次更新的o1
模型在物理、化学和生物学等复杂学科的高难度基准任务上,表现几乎与博士生相当。在数学和编码领域,该模型的表现更加出色。在国际数学奥林匹克(IMO)资格考试中,GPT-4o
只能正确解决13%的问题,而该推理模型o1
的正确率达到了惊人的83%。同时,在Codeforces编程竞赛中,o1
的表现达到了第89百分位(即表现超过了89%的评估对象,排名前11%),展现出其在编码任务中的强大能力。
作为一款早期模型,o1
模型目前还没有浏览网页、上传文件和图像等ChatGPT的一些常用功能,但在复杂的推理任务中,o1
的表现已经显著超越了之前的模型,包括GPT-4o
,这一表现无疑代表着AI模型的新高度。
OpenAI对此模型寄予厚望,认为它能够大幅提升科学、数学和编程等领域的工作效率。也正因此,OpenAI决定将版本编号从头开始,并将这个系列模型重新命名为o1
。
新模型的安全性能
安全性一直是AI模型开发中的核心问题,尤其是在模型推理能力不断提升的背景下。针对o1
系列模型,OpenAI表示采用了全新的安全训练方法,通过引入模型的推理能力,使其能够更好地遵循安全和对齐指南。与传统的规则式限制不同,o1
模型能够根据上下文进行推理,从而更有效地应用这些安全规则。
OpenAI采取了更严格的安全评估机制,以确保新模型在面对复杂场景时依然能够遵守安全规则。例如,在用户试图绕过安全限制(即“越狱”)的情况下,OpenAI对模型进行了专门的测试。根据测试结果,上一代的GPT-4o在越狱测试中的得分仅为22(满分100分),而o1-preview
模型则取得了84的高分。
为了进一步增强这些模型的安全保障,OpenAI还强化了内部治理体系,并加强了与政府的合作。这包括使用准备框架进行的全面测试、顶级的红队测试,以及由安全与安保委员会主持的董事会级别的审查流程。
o1
适用人群
o1
系列模型所具备的增强推理能力,特别适合那些需要处理复杂问题的专业领域,无论是科学研究、代码开发,还是数学运算等相关领域。这一新一代模型能够通过其强大的推理能力解决此前难以处理的复杂任务。
举例来说,o1
可以帮助医疗研究人员标注细胞测序数据,这在生命科学领域中的基因研究、药物研发等方面尤为重要。对于物理学家来说,o1
能够生成量子光学所需的复杂数学公式,大幅提升研究过程中的计算效率和准确性。同时,o1
还可以支持各类开发者,帮助他们构建和执行多步骤的工作流程,自动化和优化工作任务。无论是处理大规模数据集,还是编写复杂算法,o1
都能够以其卓越的推理能力为开发者提供支持。
这也意味着,在这些需要精确计算和严密推理的领域,o1
将能够显著提升生产力,减少人为错误,并大幅加快科研进程和开发速度。不仅如此,随着o1
模型的持续改进和功能拓展,它未来将有望在更多领域中发挥作用,帮助从事各类复杂任务的专业人员提升工作效率和成果质量。
o1-mini
:更经济高效的选择
o1
系列模型在复杂代码生成和调试方面表现出色,为了给开发者提供更高效的解决方案,OpenAI还推出了o1-mini
。相比于o1-preview
,o1-mini
速度更快,且成本更低,特别适合那些需要推理但不需要广泛世界知识的应用场景。作为一个较小的模型,o1-mini
的价格比o1-preview
便宜80%,因此在需要强大推理能力的同时,又考虑成本的应用中,o1-mini
可能是一个更好的选择。
如何使用o1
模型
从今天(9月12日)起,ChatGPT Plus和Team用户可以在ChatGPT中手动选择o1
系列模型,包括o1-preview
还是o1-mini
。在当前阶段,o1-preview
消息限额为每周30条,o1-mini
则为每周50条。是的,你没有看错,30条和50条是每周的限额。
从下周开始,ChatGPT Enterprise和Edu用户也将获得访问这两个模型的权限。
对于API用户,符合使用等级5(usage tier 5)的开发者今天就可以开始使用这两个模型,初期API速率限制为每分钟20次请求。目前API版本不支持函数调用、流式传输和系统消息等功能,但这些功能的增加和限制的提升正在进行测试,OpenAI也将在后续扩展更多功能。
值得一提的是,OpenAI还计划将o1-mini
开放给所有ChatGPT免费用户,让更多用户能够享受到这个新推理模型。
未来展望
目前,o1
系列模型仍处于早期预览阶段,用户可以通过ChatGPT和API体验其推理能力。随着模型的持续改进,OpenAI计划为o1
系列增加更多实用功能,如网页浏览、文件上传、图片处理等,进一步提升模型的实用性。
与此同时,OpenAI表示,除了o1
系列,OpenAI并未停止对GPT
系列的开发。未来,GPT
系列模型也将继续更新和发布,与o1
系列共同发展。
精选推荐
-
ChatGPT Pro都来了,ChatGPT Pro Max还会远吗?
-
OpenAI提出从AI到AGI通用人工智能的五级分类系统!
都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。