OpenAI o1-preview:详细分析

news2024/12/25 23:54:48

在这里插入图片描述
OpenAI 终于打破沉默,发布了万众期待的 “o1-preview”。其中有很多内容值得解读。

作为一家以 LLM 为生的人工智能初创公司,我们想知道这个新模型的性能如何,以及它能如何帮助我们改进产品。

因此,我花了一整天的时间来实验这个模型,探索编码、推理、数学和创意写作。在本文中,我整理了我使用过的所有提示、它们的结果以及我对模型在每个任务上的能力的看法。

我将不涉及介绍和基准,你可能已经看过成千上万遍了。如果你感兴趣,请查看 OpenAI 的官方博文。

如果您有其他地方可以去,下面是我分别在推理、数学、编码和创意写作方面使用 o1-preview 模式的经验总结。

  1. 推理:OpenAI 在这一模型上一鸣惊人–这也是理所当然的。毕竟,这正是该模型的设计初衷。

  2. 数学:数学与推理相辅相成,因此该模型是目前数学和科学领域最好的模型,这一点也不足为奇。

  3. 编码:令我惊讶的是,与推理和数学能力相比,o1-preview 在编码方面的表现令人大跌眼镜。也许过度思考不利于编码。

  4. 创意写作:不如其他产品出色。该模型保留了令人生厌的 GPT 语句。也许文字拼写永远不会随着形状的旋转而旋转。

我用自己的一些提示和网上的一些提示进行了这些测试。所以,如果您还在这里,并希望了解更多细节,那就让我们一起来看看吧。

关于 o1-preview 的 native CoT 的几句话

在开始讨论之前。以下是我对 o1 原生思维链能力的看法。

  • 推理能力显著提高。

  • 有时,即使完成了思考过程,也无法输出答案。我不确定这是否与模型有关。

  • 有几次,即使 CoT 跟踪结果有些不一致,它也能给出正确答案。同样,我不确定这是否是预料之中的事情,也无从得知原因。

  • CoT 上的强化学习是有效的,不会卡住或崩溃,这是一个显著的进步。

推理 Reasoning

逻辑推理是它比现有模型做得更好的地方,这要归功于原生思维链的思维过程。这是该模型的全部卖点,而且它完全没有让人失望。它完全颠覆了所有的模型。

让我们从一个基本的推理问题开始。

#1.计算答复中的字数

Prompt: How many words are there in your response to this prompt?

我曾用 GPT-4o 和 Sonnet 3.5 试过同样的提示,但都没有答对。不过,O1 型号第一次尝试就答对了。

在这里插入图片描述

让我们再给它一项任务。

Prompt: How many letters are there in your response to this prompt?

在这里插入图片描述
在没有任何工具的帮助下,它也能完美地完成任务。与早期型号不同的是,它不会把特殊字符和数字误认为字母。

让我们更进一步。

Prompt: What’s the fourth word in your response to this prompt?

在这里插入图片描述
o1-preview 模型第一次尝试就成功了,而 GPT-4o 和 Sonnet 即使使用工具也无法做到这一点。

#2. Counting the number of letters ‘r’ in ‘Strawberry’

这是一个令人兴奋的测试,因为除了 Sonnet 3.5 之外,其他早期机型都无法在第一次尝试时就正确完成测试,而这款机型之所以令人兴奋,很大程度上是因为它能够成功完成测试。

Prompt: How many letters ‘ r’ are in the word ‘strawberry’?

出乎我们意料的是,该模型第一次尝试就获得了电流。

在这里插入图片描述
你可以观察到模型为得出答案所经历的一连串思考。
这越来越令人兴奋了,让我们提高问题的难度。

#3.C 在房间里做什么?

这一次,我问了一个比较棘手的推理问题。

Prompt: Five people (A, B, C, D, and E) are in a room. A is watching TV with B, D is sleeping, B is eating chow min, and E is playing table tennis. Suddenly, a call comes on the telephone. B goes out of the room to pick up the call. What is C doing?

GPT-4o 彻底傻眼了。下面是它的回答。

在这里插入图片描述
现在,让我们看看 o1-preview 的反应。

在这里插入图片描述
这很好!模型能够抓住问题的细微差别,成功地回答了问题。

#4.谁死于车祸?

让我们再来看看另一项推理任务。

Prompt: A woman and her son are in a car accident. The woman is sadly killed. The boy is rushed to the hospital. When the doctor sees the boy, he says, “I can’t operate on this child; he is my son! How is this possible?

这是一个典型的推理问题。出乎意料的是,模型并不能正确地解决这个问题。

在这里插入图片描述
嗯,这个回答没有道理。要达到 AGI,我们还有很长的路要走。

#5.农民和羊的问题

这是一个简单的问题,却能轻易地让任何法律硕士瞠目结舌。让我们看看 o1-preview 的表现如何。

Prompt: A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?

嗯,我看到的第一个模型就是在没有人工辅助的情况下,以零拍的方式解决了这个问题。

在这里插入图片描述

推理摘要

毋庸置疑,O1 系列与之前的机型相比有了很大的改进。它在复杂推理方面表现出色,但仍有改进的余地。它不会思考,但能原生执行思维链,从而提高推理能力。

数学

考虑到它在推理方面的优势,我几乎相信它会在数学上大显身手,而它也没有让我失望。

让我们向它抛出一些数学问题。这些问题是其他机型无法正确回答的。

#1.找出平行四边形可能的第 4 个顶点

让我们从代数问题开始。

Prompt: If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?

这是吉尔伯特-斯特朗的《线性代数》中的一道题。

该模型在第一次尝试时能找到两个可能的顶点。但是,在提示下,它正确地回答了所有三个可能的顶点。

在这里插入图片描述

#2.求整数之和

让我们再试一道数学题。这次是代数。

Prompt: The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?

这是一个数学数据集问题,其他模型通常无法正确解答。

然而,o1-preview 一次就得到了正确答案,用时 37 秒。它在这方面的能力令人惊叹。

在这里插入图片描述

#3.三角问题

再举一个例子,这次是三角函数问题。

Prompt: A car is being driven towards the base of a vertical tower in a straight line and at a uniform speed. The top of the tower is observed from the car, and in the process, the elevation angle changes from 45° to 60°. How long will this car take to reach the tower’s base?

所有之前的模型都需要帮助才能正确回答这个问题。但是,o1-preview 回答正确。

在这里插入图片描述

#4.黎曼假说 Riemann Hypothesis

在此之前,我并不知道黎曼假设是什么。很多人都要求模型解决这个直到现在仍未解决的假说。不出所料,模型并没有试图解决这个问题。

我们还远远没有到达那里,但我们终将到达那里。

在这里插入图片描述

数学概要

与所有法律硕士相比,这是一个重大进步。它能正确回答许多难题。不过,它有时需要人工帮助才能得到完整答案,这也是公平的。

编码

现在让我们来检验一下 o1-preview 的编码能力。

让我们以 "超级英雄 "问题–一个相对棘手的动态编程问题–来测试最近在编码竞赛中出现的模型。这个问题不太可能受到污染,也就是说模型不太可能在这个问题上接受过训练。

问题

You are given a 0-indexed integer array nums representing the strength of some heroes. The power of a group of heroes is defined as follows:

Let i0, i1, ... ,ik be the indices of the heroes in a group. Then, the power of this group is max(nums[i0], nums[i1], ... ,nums[ik])2 * min(nums[i0], nums[i1], ... ,nums[ik]).
Return the sum of the power of all non-empty groups of heroes possible. Since the sum could be very large, return it modulo 109 + 7.

 

Example 1:

Input: nums = [2,1,4]
Output: 141
Explanation: 
1st group: [2] has power = 22 * 2 = 8.
2nd group: [1] has power = 12 * 1 = 1. 
3rd group: [4] has power = 42 * 4 = 64. 
4th group: [2,1] has power = 22 * 1 = 4. 
5th group: [2,4] has power = 42 * 2 = 32. 
6th group: [1,4] has power = 42 * 1 = 16. 
7th group: [2,1,4] has power = 42 * 1 = 16. 
The sum of powers of all groups is 8 + 1 + 64 + 4 + 32 + 16 + 16 = 141.

Example 2:

Input: nums = [1,1,1]
Output: 7
Explanation: A total of 7 groups are possible, and the power of each group will be 1. Therefore, the sum of the powers of all groups is 7.
 

Constraints:

1 <= nums.length <= 105
1 <= nums[i] <= 109

这是只有 Claude 3.5 Sonnet 才能解决的问题之一,o1-preview 模型花了 91 秒才得出一个无法通过第一个测试案例的解决方案。我试了两次都没有成功。

在这里插入图片描述
这是输出代码。

class Solution:
    def sumOfPower(self, nums):
        MOD = 10**9 + 7
        nums.sort()
        n = len(nums)
        
        # Precompute powers of 2 modulo MOD
        pow2 = [1] * n
        for i in range(1, n):
            pow2[i] = (pow2[i - 1] * 2) % MOD 
        
        total_sum = 0
        prefix_sum = 0
        for i in range(n):
            # Contribution of nums[i] as both min and max
            min_max_contrib = nums[i] * nums[i] % MOD
            if i > 0:
                # Update prefix sum
                prefix_sum = (2 * prefix_sum + nums[i - 1]) % MOD
                total_contrib = nums[i] * min_max_contrib * prefix_sum % MOD
                total_sum = (total_sum + total_contrib) % MOD
            else:
                total_sum = (total_sum + min_max_contrib * nums[i]) % MOD
        
        return total_sum % MOD

编码能力概要

在我的测试中,它的编码能力尚可,但不是最好的。它在许多主题上的编码能力还算不错,但在许多主题上也很吃力。考虑到质量和推理方面的权衡,Sonnet 3.5 可能仍然是更好的选择。不过,我认为 OG O1 模型在这方面会比预览模型好得多。

4.创意写作

这款机型的市场定位并不是作家。在创意写作方面,我使用 GPT-4o 的体验还不错,但让我们看看它的表现如何。

我使用了一个简单的提示。

Prompt: Write a story with a twist about a college guy’s routine life, which turned upside down when he encountered a mysterious woman.

虽然故事不错,但仍然保留了 GPT 的语言。读起来不像人话。

在这里插入图片描述
相比之下,我更喜欢 GPT-4o 的转折。

在这里插入图片描述

创意写作能力概述

在我有限的测试中,我不喜欢 o1-preview 对创意写作任务的反应。Sonnet 3.5 和 GPT-4o 比 o1-preview 好。

最终审查

这是我对 o1-preview 模式的感受总结。

  1. 推理:这是支持这一模型的最有力论据。它正确地回答了许多难题,这是以前其他模型无法做到的。

  2. 数学:数学方面也很出色。它能回答代数、三角学、数制等方面的许多问题。

  3. 编码:我不像 Sonnet-3.5 那样喜欢它,但它比 GPT-4o 好。我相信未来的版本会有所改进。

  4. 创意写作不是该模型的强项。要想取得更好的效果,您应该使用 GPT-4o 或 Sonnet 3.5。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2172718.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

(JAVA)队列 和 符号表 两种数据结构的实现

1. 队列 1.1 队列的概述 队列是一种基于先进先出&#xff08;FIFO&#xff09;的数据结构&#xff0c;是一种只能在一端进行插入&#xff0c;在另一端进行删除操作的特殊线性表。 它按照先进先出的原则存储数据&#xff0c;先进入的数据&#xff0c;在读取时先被读出来 1.2 …

蓝桥杯【物联网】零基础到国奖之路:十二. TIM

蓝桥杯【物联网】零基础到国奖之路:十二. TIM 第一节 理论知识第二节 cubemx配置 第一节 理论知识 STM32L071xx器件包括4个通用定时器、1个低功耗定时器&#xff08;LPTIM&#xff09;、2个基本定时器、2个看门狗定时器和SysTick定时器。 通用定时器&#xff08;TIM2、TIM3、…

详解JavaScript中属性getter和setter

6.6 属性getter和setter 属性值可以用1个或者2个方法替代&#xff0c;getter和setter. 由这两个定义的属性称作存取器属性(accessor property)&#xff0c;不同于数据属性&#xff0c;只有一个简单的值。有读写属性&#xff0c;只能写&#xff0c;只能读&#xff0c;可以读写…

数据结构 算法的时间复杂度 计算(两种规则 加法原则+乘法原则)

在分析时间复杂性时&#xff0c;加法和乘法原则是两个基本且重要的概念&#xff0c;它们分别用于处理算法中顺序执行和嵌套执行的代码段的时间复杂度计算。以下是对这两个原则的详细说明&#xff1a; 一、加法原则 定义&#xff1a; 加法原则适用于顺序执行的代码段。如果一…

从Linux系统的角度看待文件-基础IO

目录 从Linux系统的角度看待文件 系统文件I/O open write read 文件操作的本质 vim中批量注释的方法 从Linux系统的角度看待文件 关于文件的共识&#xff1a; 1.空文件也要占用磁盘空间 2.文件内容属性 3.文件操作包括文件内容/文件属性/文件内容属性 4.文件路径文…

LDO实习报告(免费)-有完整电路版图

LDO实习任务书 实习目的&#xff1a; 了解LDO电路研究现状和原理结构&#xff0c;熟悉模拟电路设计流程。 week1 &#xff1a; 调研LDO应用情况及研究现状。 week2 &#xff1a; 熟悉LDO基本原理及组成。 week3 &#xff1a; 构建LDO电路。 week4 &#xff1a; 对LDO进…

从日志到洞察:轻松实现服务器安全管理的神器

在当今复杂多变的网络环境中&#xff0c;服务器安全管理已成为一项不可或缺的任务。然而&#xff0c;面对海量的日志数据&#xff0c;如何快速精准地提取有价值的信息&#xff0c;并及时发现潜在的安全威胁&#xff1f;本文将为您介绍一款强大的服务器日志检索与查杀工具&#…

pilz皮尔兹PSSuniversal分散控制平台 Dezentrale Steuerungsplattform 手测

pilz皮尔兹PSSuniversal分散控制平台 Dezentrale Steuerungsplattform 手测

WebAPI编程(第三天,第四天)

WebAPI编程&#xff08;第三天&#xff0c;第四天&#xff09; day03 - Web APIs1.1. 节点操作1.1.1 删除节点1.1.2 案例&#xff1a;删除留言1.1.3 复制&#xff08;克隆&#xff09;节点1.1.4 案例&#xff1a;动态生成表格1.1.5 创建元素的三种方式1.1.6 innerTHML和createE…

基于SSM+小程序的自习室选座与门禁管理系统(自习室1)(源码+sql脚本+视频导入教程+文档)

&#x1f449;文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 1、管理员实现了首页、基础数据管理、论坛管理、公告信息管理、用户管理、座位管理等 2、用户实现了在论坛模块通过发帖与评论帖子的方式进行信息讨论&#xff0c;也能对账户进行在线充值…

深圳龙链科技:全球区块链开发先锋,领航Web3生态未来

【深圳龙链科技】是全球领先的Web3区块链技术开发公司&#xff0c;专注于为全球客户提供创新高效的区块链解决方案。 深圳龙链科技由币安资深股东携手香港领先的Web3创新枢纽Cyberport联袂打造&#xff0c;立足于香港这一国际金融中心&#xff0c;放眼全球&#xff0c;汇聚了华…

罕见,回复问询后闪电终止,业绩存下滑风险

《IPO魔女》认为&#xff0c;和美精艺利润低且大幅波动&#xff0c;报告期公司毛利率持续大幅下滑。而2023年同行业的上市公司均出现了业绩大幅下滑的情况&#xff0c;还未上市的和美精艺恐怕也存在业绩下滑的风险。此外&#xff0c;2020年至2022年&#xff0c;和美精艺研发投入…

Excel根据一个值匹配一行数据

根据一个值从一个表中匹配一行数据&#xff0c;例如从左边的表中找到指定姓名的所有行数据 使用VLOOKUP函数&#xff0c;参数&#xff1a; Lookup_value&#xff1a;需要搜索的值&#xff0c;单个值 Table_array&#xff1a;被搜索的区域&#xff0c;是个表 Col_index_num&…

JS数据类型类型转换

基本数据类型 JS中的数据类型由原始值和对象共同组成&#xff0c;原始值一共有七种原始值&#xff1a; 数值(Number)大整数(BigInt)字符串(String)布尔值(Boolean)空值(Null)未定义(Undefined)符号(Symbol) 数值和大整数 数值(Number):在js中所有的整数和浮点数都是number类型 …

【vue-router】用meta.keepAlive做缓存

网上大家都说按下面的写法 <keep-alive><router-view v-if"route.meta.keepAlive"></router-view> </keep-alive> <router-view v-if"!route.meta.keepAlive"></router-view>但是会报错 解决方法也没找到 最后换一…

23、Presidential

难度 中 目标 root权限 2个flag 基于virtualbox启动 题目提示枚举是你的朋友 kali 192.168.86.102 靶机 192.168.86.107 信息收集 端口扫描 tcp开启的端口就两个&#xff0c;稳妥起见扫了一些常见的端口看是否有UDP协议开放的端口。同时nmap在扫描80端口提示可能存在的tra…

OCR识别系统 YOLOv8 +Paddle 方案落地

YOLOv8 PaddleOCR 技术方案落地 Yolov8相关文档Step 1 证件模型的训练Step 2 Yolov8进行图片推理Step 3 PaddleOCR进行识别Step 4 整合Yolov8 PaddleOCR 进行OCR Yolov8相关文档 《yolov8 官方网站》 《Yolov8 保姆级别安装》 Ultralytics YOLOv8 是一款尖端的、最先进的 (S…

NASA数据集:ATLAS/ICESat-2 L3B 南极和北极网格陆地冰高,第 3 版

目录 简介 摘要 代码 引用 网址推荐 0代码在线构建地图应用 机器学习 ATLAS/ICESat-2 L3B Gridded Antarctic and Arctic Land Ice Height V003 简介 ATLAS/ICESat-2 L3B 南极和北极网格陆地冰高&#xff0c;第 3 版 ATL14 和 ATL15 将 ATLAS/ICESat-2 L3B 年度陆地冰…

5 分钟快速入门 Github Action

Github Action 是一种自动化构建工具。 ‍ 介绍 什么是 GitHub Action&#xff1f;来看看阮一峰大佬的介绍&#xff1a; GitHub Actions 是 GitHub 的持续集成服务&#xff0c;于 2018 年 10 月推出。 大家知道&#xff0c;持续集成由很多操作组成&#xff0c;比如抓取代码、…

深度学习(入门)03:监督学习

1、监督学习简介 监督学习&#xff08;Supervised Learning&#xff09;是一种重要的机器学习方法&#xff0c;它的目标是通过“已知输入特征”来预测对应的标签。在监督学习中&#xff0c;每一个“特征-标签”对被称为样本&#xff08;example&#xff09;&#xff0c;这些样…