OpenAI GPT o1技术报告阅读(5)-安全性对齐以及思维链等的综合评估与思考

news2025/1/16 16:59:54

 ✨继续阅读报告:使用大模型来学习推理(Reason)

原文链接:https://openai.com/index/learning-to-reason-with-llms/

编码

我们训练了一个模型,在2024年国际信息学奥林匹克竞赛(IOI)中得分213分,排名在第49百分位,通过从o1初始化并进一步训练以提高编程技能。这个模型在2024年IOI中与人类参赛者在相同条件下竞争。它有十个小时的时间来解决六个具有挑战性的算法问题,并允许每个问题提交50次。

对于每个问题,我们的系统采样了许多候选提交,并基于测试时的选拔策略提交了其中的50个。提交是基于在IOI公开测试用例、模型生成的测试用例以及学习到的评分函数上的表现来选择的。如果我们随机提交,平均得分将只有156分,这表明在竞赛限制下,这种策略值得近60分。

在放宽提交限制的情况下,我们发现模型性能显著提高。当允许每个问题提交10,000次时,模型得分为362.14分——超过了金牌阈值——甚至没有使用任何测试时的选拔策略。

最后,我们模拟了由Codeforces主办的竞技编程比赛,以展示这个模型的编码技能。我们的评估与比赛规则紧密匹配,并允许10次提交。GPT-4o获得了808的Elo评分,这在人类参赛者中排在11百分位。这个模型远远超过了GPT-4o和o1——它获得了1807的Elo评分,表现优于93%的参赛者。
 

 在编程竞赛上的进一步微调,提高了o1的性能。改进后的模型在2024年国际信息学奥林匹克竞赛中,在竞赛规则下排名在第49百分位。

人类偏好评估


除了考试和学术基准测试,我们还评估了在广泛的领域中,对于具有挑战性的开放式提示,人类对o1预览版和GPT-4o的偏好。在这次评估中,人类训练师被展示了来自o1预览版和GPT-4o的匿名回应,并投票选择他们更喜欢的回应。在数据分析、编码和数学等需要大量推理的类别中,o1预览版以较大的优势被偏好于GPT-4o。然而,在一些自然语言任务上,o1预览版并不被偏好,这表明它并不适用于所有用例。

安全性


思维链推理为对齐(小梦备注:与人类意志对齐)和安全性提供了新的机会。

我们发现,将我们的模型行为政策整合到推理模型的思维链中,是一种有效的方法,可以稳健地教授人类价值观和原则。通过教授模型我们的安全规则以及如何在上下文中推理它们,我们发现推理能力直接有益于模型的鲁棒性:o1预览版在关键的越狱评估和我们评估模型安全拒绝边界的最困难的内部基准测试上取得了显著提高的性能。(小梦备注:这一点也可以参考OpenAI GPT o1技术报告阅读(2)- 关于模型安全性的测试案例_openai o1大模型中文技术报告-CSDN博客)

我们相信,使用思维链推理为安全性和对齐提供了重大进步,因为:

(1)它使我们能够以可读的方式观察模型的思考;

(2)模型对安全规则的推理更能抵御各种外部干扰场景的鲁棒性挑战;

为了对我们的改进进行压力测试,我们在部署前进行了一系列的安全测试和红队攻击,这符合我们的准备框架。

我们发现,思维链推理有助于我们评估中的能力提升。特别值得注意的是,我们观察到了一些有趣的奖励黑客行为实例。这些评估的详细结果可以在随附的系统卡片中找到。

相关内容:

【https://cdn.openai.com/o1-system-card.pdf#page=16】

【https://openai.com/index/openai-o1-system-card/】

贴一张微信截图自动翻译的评估内容,大概感受下...(翻译的有点烂,不过不影响理解)

隐藏思维链


我们认为,隐藏的思维链为监控模型提供了一个独特的机会。

假设它是忠实和清晰的,隐藏的思维链允许我们“读懂”模型的思维并理解其思考过程。

例如,在未来我们可能希望监控思维链,以寻找操纵用户的征兆。然而,为了使这行之有效,模型必须有自由以未修改的形式表达其思想,因此我们不能将任何政策合规性或用户偏好训练到思维链上。我们也不想让用户直接看到未对齐的思维链。

因此,在权衡了包括用户体验、竞争优势和追求思维链监控的选项在内的多个因素之后,我们决定不向用户展示原始的思维链。我们承认这个决定有其缺点。我们努力通过教授模型在答案中复制思维链中的任何有用想法来部分弥补这一点。对于o1模型系列,我们展示了模型生成的思维链摘要。


【小梦备注:哈,或许官方公布的这几个例子是唯一有完整思维链展示的,所以如果想要理解这个模型,还是满建议大家详细读读前边翻译的这几个案例的。当然,官网对于代码、化学和数学的案例也可以看看。】

结论


o1在人工智能推理方面显著推进了现有技术。

我们计划在我们继续迭代的过程中发布这个模型的改进版本。我们预计这些新的推理能力将提高我们使模型与人类价值观和原则对齐的能力。我们相信o1及其后续版本将为科学、编码、数学和相关领域的人工智能解锁许多新的用例。我们对用户和API开发者发现它如何改善他们的日常工作感到兴奋。
 

✨写在最后

如果对comfyui还不熟悉的话,最近面向ComfyUI的新手,写了一门系统性入门图文课程,现在已经更新完成了,内容主要包括如何下载软件、如何搭建自己的工作流、关键基础节点讲解、遇到报错怎么解决等等,如果大家在学习过程中遇到什么问题,也可以直接对应的文章下留言,会持续更新相关答疑内容哈。欢迎订阅哦~

https://blog.csdn.net/jumengxiaoketang/category_12683612.html

​​​​

感谢大家的支持~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2154521.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Arthas sysenv(查看JVM的环境变量)

文章目录 二、命令列表2.1 jvm相关命令2.1.5 sysenv(查看JVM的环境变量)举例1:sysenv 查看所有环境变量举例2:sysenv java.version 查看单个属性,支持通过tab补全 二、命令列表 2.1 jvm相关命令 2.1.5 sysenv&#x…

saas收银系统源码

1. 线下门店多样化收银 ①门店有社区小店、也会有大店,甚至还会有夫妻店,同时还要有Windows版和安卓版,需满足不同门店的收银需求。 ②支持Windows收银、安卓收银、无人自助收银、聚合码收银等,支持ai智能称重、收银称重一体机等…

Unity3D入门(二) :Unity3D实现视角的丝滑过渡切换

1. 前言 上篇文章,我们已经初步了解了Unity3D,并新建并运行起来了一个项目,使相机视角自动围绕着立方体旋转。 这篇文章,我们来讲一下Unity3D怎么过渡地切换视角。 我们继续是我上篇文章中的项目,但是需要向把Camera…

Qt Debugging帮助文档

Qt中给断点添加条件: 示例1: 当i10时,程序中断 但不知道为什么,46行的条件没有生效,47行的条件生效了 给断点添加忽略次数: 在程序停止之前忽略该断点200次。 Breakpoints (Debugging with GDB)

AI 时代的网络危机沟通计划

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

Go-知识recover

Go-知识recover 1. 介绍2. 工作机制2.1 recover 定义2.2 工作流程2.3 总结 3. 原理3.1 recover函数的真正逻辑3.2 恢复逻辑3.3 生效条件 4. 总结4.1 recover的返回值是什么?4.2 执行recover之后程序将从哪里继续运行?4.3 recover为什么一定要在defer中使…

2024年信息学奥赛CSP-J1入门组初赛真题试卷

2024年信息学奥赛CSP-J1入门组初赛真题试卷 题目总数:20 总分数:100 选择题 第 1 题 单选题 32位int类型的存储范围是( ) A. -2147483647 ~ 2147483647 B. -2147483647 ~ 2147483648 C. -2147483648 ~ 2147483647…

如何使用 React、TypeScript、TailwindCSS 和 Vite 创建 Chrome 插件

创建一个 Chrome 插件是一个有趣的项目,特别是当结合使用强大的工具如 React、TypeScript、TailwindCSS 和 Vite 时 在这篇文章中,我们将逐步引导完成整个过程,了解如何在 2024 年构建自己的 Chrome 插件。无论是经验丰富的开发者还是刚刚起…

C++ | Leetcode C++题解之第423题从英文中重建数字

题目&#xff1a; 题解&#xff1a; class Solution { public:string originalDigits(string s) {unordered_map<char, int> c;for (char ch: s) {c[ch];}vector<int> cnt(10);cnt[0] c[z];cnt[2] c[w];cnt[4] c[u];cnt[6] c[x];cnt[8] c[g];cnt[3] c[h] - …

JavaScript使用leaflet库显示信息窗口

前言 我们可千万不能忘记我们之前花的流程图哦&#xff0c;我们所有的计划都按照我们的流程图来去构建&#xff1b; 我们已经完成了&#xff0c;页面的加载&#xff0c;也已经完成获取用户当前的位置坐标&#xff0c;并且我们通过地图的API将当前的位置在地图中渲染出来&…

【每日刷题】Day128

【每日刷题】Day128 &#x1f955;个人主页&#xff1a;开敲&#x1f349; &#x1f525;所属专栏&#xff1a;每日刷题&#x1f34d; &#x1f33c;文章目录&#x1f33c; 1. 606. 根据二叉树创建字符串 - 力扣&#xff08;LeetCode&#xff09; 2. LCR 194. 二叉树的最近公…

TryHackMe 第3天 | Pre Security (中)

该学习路径讲解了网络安全入门的必备技术知识&#xff0c;比如计算机网络、网络协议、Linux命令、Windows设置等内容。上一篇中简短介绍了计算机网络相关的知识&#xff0c;本篇博客将记录 网络协议 部分。 How the web works? DNS in detail DNS (Domain name system&…

【数据结构】排序算法系列——快速排序(附源码+图解)

快速排序 接下来我们将要介绍的是排序中最为重要的算法之一——快速排序。 快速排序&#xff08;英语&#xff1a;Quicksort&#xff09;&#xff0c;又称分区交换排序&#xff08;partition-exchange sort&#xff09;&#xff0c;最早由东尼霍尔提出。快速排序通常明显比其…

XXL-JOB环境搭建

2.快速入门 2.1 下载源码 a.源码下载地址: github地址 gitee地址 2.2.环境搭建&#xff1a; a.初始化调度数据库: 1.请下载项目源码并解压&#xff0c;获取 “调度数据库初始化SQL脚本” 并执行即可 b.编译源码: 1.解压源码,按照maven格式将源码导入IDE, 使用maven进行…

【Python】使用国内镜像安装conda并创建python环境

conda介绍&#xff1a; Conda 是一个开源的包管理系统和环境管理系统&#xff0c;由 Continuum Analytics 开发。它的主要作用是简化科学计算中软件包和依赖的安装和升级&#xff0c;并允许用户轻松地在不同的环境中切换。Conda 的设计初衷是为了简化 Python 环境的搭建和管理&…

海洋大地测量基准与水下导航系列之二国外海底大地测量基准和海底观测网络发展现状(上)

海底大地控制网建设构想最先由美国斯克里普斯海洋研究所(Scripps Institution of Oceanography,SIO)提出&#xff0c;目前仅有少数发达国家具备相应技术条件。美国、日本、俄罗斯和欧盟等发达国家通过布测先进的海底大地控制网&#xff0c;不断完善海洋大地测量基准基础设施&am…

go 运行报错missing go.sum entry for module providing package

运行&#xff1a; #清理go.mod中不再需要的模块&#xff0c;并且会添加缺失的模块条目到go.sum中 go mod tidy

【全网最全】2024华为杯数学建模C题高质量成品查看论文!【附带全套代码+数据】

题 目&#xff1a; ___基于数据驱动下磁性元件的磁芯损耗建模 完整版获取&#xff1a; 点击链接加入群聊【2024华为杯数学建模助攻资料】&#xff1a;http://qm.qq.com/cgi-bin/qm/qr?_wv1027&kxtS4vwn3gcv8oCYYyrqd0BvFc7tNfhV7&authKeyedQFZne%2BzvEfLEVg2v8FOm%…

线段树优化dp,CF 413E - Maze 2D

目录 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 二、解题报告 1、思路分析 2、复杂度 3、代码详解 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 413E - Maze 2D 二、解题报告 1、思路分析 对于(li, l) -> (ri, r) …

nginx upstream转发连接错误情况研究

本次测试用到3台服务器&#xff1a; 192.168.10.115&#xff1a;转发服务器A 192.168.10.209&#xff1a;upstream下服务器1 192.168.10.210&#xff1a;upstream下服务器2 1台客户端&#xff1a;192.168.10.112 服务器A中nginx主要配置如下&#xff1a; log_format main…