OpenAI GPT o1技术报告阅读(4)- 填字游戏推理

news2024/11/15 10:00:07

✨继续阅读报告:使用大模型来学习推理(Reason)

原文链接:https://openai.com/index/learning-to-reason-with-llms/

这次我们继续看一个填字游戏的案例。

 我们先看下问题:

解决以下填字游戏:

Across(横向):
1 Evade  中文:躲避

2 One to close envelopes  中文:封信封的工具

3 Mother ______  中文:母亲______

4 Initiated people  中文:启蒙人们

5 Native American tent  中文:美洲原住民的帐篷

6 Mistakes  中文:错误

Down(纵向):
1 ______ car (Station wagon)  中文:______车(旅行车)

2 Automatic planting machine  中文:自动种植机

3 Profession  中文:职业

4 Syrian and Turkish pepper variety  中文:叙利亚和土耳其的辣椒品种

5 Annoy  中文:烦恼

6 Deletes  中文:删除

先看下GPT4o的回答:

Let’s solve the crossword using the provided clues.

Across:

  1. Evade - Dodge

  2. One to close envelopes - Sealer

  3. Mother ______ - Motherland

  4. Initiated people - Insiders

  5. Native American tent - Tepee

  6. Mistakes - Errors

Down:

  1. ______ car (Station wagon) - Family

  2. Automatic planting machine - Seeder

  3. Profession - Career

  4. Syrian and Turkish pepper variety - Aleppo

  5. Annoy - Irritate

  6. Deletes - Erases

Here’s how the crossword would look filled in:

【小梦备注:emm,一眼错误,也不需要逐行翻译了,基本它把这题目当成一个寻找近似词了,几乎完全没有管字符数量和字符之间关系的事情了。】

接下来是OpenAI O1 preview上场。

首先是CoT部分:

我们被要求解决这个填字游戏谜题。

让我们首先理解这个格子:

- 这是一个6x6的格子,从1到11的位置编号如下:

【小梦备注:首先读了一遍题目,仔细审题并尝试理解结构,是个好习惯。】

所以横向的条目编号为1到6,纵向的条目从1到11。

但实际上,线索是:

横向:

1. Evade 逃避

2. One to close envelopes 封信封的工具

3. Mother ______  母亲______

4. Initiated people 启蒙人们

5. Native American tent  美洲原住民的帐篷

6. Mistakes 错误

纵向:

1 ______ car (Station wagon)   ______车(旅行车)

2 Automatic planting machine   自动种植机

3 Profession   职业

4 Syrian and Turkish pepper variety   叙利亚和土耳其的辣椒品种

5 Annoy   烦恼

6 Deletes   删除

首先,让我们尝试正确地编号方格,我认为在这样的格子中,编号是在条目的起始方格。

但我们需要弄清楚单词从哪里开始。

考虑到格子中的编号从1到11,并且1是第一个横向线索。

通常,横向和纵向的线索对应于格子中的编号,并且编号放在我们开始第一个字母的方格中。

考虑到这一点,也许让我们构建一个有意义的格子。

通常在填字游戏编号中,数字是分配给横向和纵向条目的第一个字母,按顺序编号。

考虑到这一点,格子可能是这样的(如果我们有更清晰的图片会更有帮助,但我们将尽力而为。)
 

[1] [7] [8] [9][10][11]    <-- first row  
[2]                            <-- first letter of Across 2 in the first square of row 2  
[3]                            <-- first letter of Across 3 in the first square of row 3  
[4]                            <-- first letter of Across 4 in the first square of row 4  
[5]                            <-- Across 5  
[6]                            <-- Across 6  

那么对于纵向的条目,第一行中的数字对应于纵向的条目。

纵向

  1. (______ car (station wagon) [Clue is '____ car (station wagon)'])______车(旅行车)[提示是'____车(旅行车)']

数字1位于左上角。

所以纵向1从方格1开始,向下垂直。

同样,纵向7从方格7开始(它在第一行,第二列),然后向下。

其余的数字也是类似。

让我们来标出这些数字。

格子是:

所以横向1从1号方格开始,然后横向延伸。

同样,在第二行,第一个方格编号为2,所以是横向2。

但是纵向的条目在第一行。

纵向1从1号方格开始,然后向下延伸。

同样,纵向7从(1,2)号方格开始,也就是第一行,第二列。

好的,记住这一点,让我们继续解决这个填字游戏。

【小梦备注:大模型在尝试理解结构?毕竟不是多模态,所以貌似它不是很理解平面图这种东西。】

首先,我们需要条目的长度。

横向1从(1,1)开始,根据需要填充方格。

考虑到格子是6个方格宽,6个方格高。

根据格子的尺寸,横向条目可以长达6个字母。

但更有可能的是横向条目从1号方格开始,填充整行。

所以,绘制格子,并填充编号:

位置(行,列):

(1,1): 编号1(横向1从这里开始,纵向1从这里开始)

(1,2): 编号7(纵向7从这里开始)

(1,3): 编号8(纵向8从这里开始)
(1,4): 编号9(纵向9从这里开始)

(1,5): 编号10(纵向10从这里开始)
(1,6): 编号11(纵向11从这里开始)

(2,1): 编号2(横向2从这里开始,可能没有纵向提示从这里开始)

(3,1): 编号3(横向3从这里开始)

...【太重复了,小梦帮你省略了。】

所以每个横向单词从每一行的第一列开始,纵向单词从每一列的第一行开始。

现在让我们计算一下条目有多少个字母。

由于格子是6个方格宽,并且没有黑色方格(假设),每个横向条目可以长达6个字母。

同样,纵向条目可以长达6个字母。

让我们写下带有它们长度的单词。

首先,列出横向单词的单词:


原文:1. Evade (starts at (1,1) and goes across): length is 6 letters.
中文:1. 逃避(从(1,1)开始,然后横向延伸):长度是6个字母。


原文:2. One to close envelopes (starts at (2,1)): length is 6 letters.
中文:2. 封信封的工具(从(2,1)开始):长度是6个字母。


原文:3. Mother ______ (starts at (3,1)): length 6 letters.
中文:3. 母亲______(从(3,1)开始):长度6个字母。


原文:4. Initiated people (starts at (4,1)): length 6 letters.
中文:4. 启蒙人们(从(4,1)开始):长度6个字母。


原文:5. Native American tent (starts at (5,1)): length 6 letters.
中文:5. 美洲原住民的帐篷(从(5,1)开始):长度6个字母。


原文:6. Mistakes (starts at (6,1)): length 6 letters.
中文:6. 错误(从(6,1)开始):长度6个字母。

纵向单词也类似。

纵向提示:
原文:1. ______ car (station wagon) (starts at (1,1)): down from (1,1). So length 6 letters.
中文:1.______车(旅行车)(从(1,1)开始):从(1,1)向下。所以长度6个字母。


原文:7. Automatic planting machine (starts at (1,2)): down from (1,2). Length 6 letters.
中文:7. 自动种植机(从(1,2)开始):从(1,2)向下。长度6个字母。


原文:8. Profession (starts at (1,3)): length 6 letters.
中文:8. 职业(从(1,3)开始):长度6个字母。


原文:9. Syrian and Turkish pepper variety (starts at (1,4)): length 6 letters.
中文:9. 叙利亚和土耳其的辣椒品种(从(1,4)开始):长度6个字母。


原文:10. Annoy (starts at (1,5)): length 6 letters.
中文:10. 使烦恼(从(1,5)开始):长度6个字母。


原文:11. Deletes (starts at (1,6)): length 6 letters.
中文:11. 删除(从(1,6)开始):长度6个字母。

所以所有条目都是6个字母长。

好的,现在让我们开始填写我们可以填写的内容。

首先,让我们考虑横向条目。


横向:Evade 逃避(6个字母)

与'Evade'同义的6个字母可能的单词:

ESCAPE (6 letters)

AVOID (5 letters)

DODGE (5 letters)

ELUDE (5 letters)
 

也许是'ESCAPE'?因为这个单词是6个字母。

但让我们继续考虑。

横向:One to close envelopes 封信封的工具(6个字母)

可能的单词:

SEALER(6个字母)

ENVELOPE CLOSER(太长了)

也许是SEALER

横向:Mother _____母亲______(6个字母)

Mother Nature(6个字母)

是的,那是6个字母。

【小梦备注:哈 还自己强调了一下,戏真多:)】

Alternatively, Mother Goose (10 letters)
或者Mother Goose(10个字母)

但是'Mother Nature'合适。

横向:Initiated people启蒙人们(6个字母)

可能的单词:ADEPTS(6个字母)

也许'ADEPTS'意味着启蒙人们。

还有其他可能性吗?

我们可以想到'INSIDE'(6个字母),但那没有意义。

ADEPTS似乎是可能的。

【...省略比较重复的推理部分】


现在让我们看看纵向提示。

纵向:_____ car (station wagon) ______车(旅行车)(6个字母)

可能的单词:

- ESTATE car (6个字母)

在英国英语中,'Estate car'是旅行车的术语。

在英国'station wagon'被称为'estate car'。

因此'ESTATE'合适。

也与横向1的ESCAPE对齐。

【小梦备注:emm,到这里还记得填字游戏的规则,不错。】

如果我们有ESCAPE作为1横向,从(1,1)开始横向,而ESTATE从(1,1)向下。

第一个字母是E,第二个字母是S(来自两个单词。)

让我们写下来:

ESCAPE

E S C A P E

从第一个字母E开始垂直,向下条目长达6个字母,从(1,1),(1,2)等开始字母。

所以纵向1是ESTATE

E

S

T

A

T

E
与ESCAPE在E S C A P E交叉

第二个字母S在横向和纵向都是。


现在7纵向:planting machine自动种植机(6个字母),从(1,2)开始。第一个字母是S(来自ESCAPE,第二个字母)

可能的单词:

SOWER?(5个字母)

PLANTERS?(8个字母)

SEEDER? (6个字母)
是的,SEEDER(6个字母)

所以7纵向是SEEDER。

所以我们有ESCAPE横向(1,1)-(1,6),和SEEDER从(1,2)向下到(6,2)。

现在,在(1,2)的位置,我们有来自ESCAPE的S。

从S垂直向下是SEEDER。

确认S。

现在8纵向:'Profession'职业(6个字母),从(1,3)开始,ESCAPE的第三个字母是C,所以(1,3)的位置是C(来自ESCAPE)

我们需要一个6个字母的单词,意思是'职业',以C开始。

可能的单词:CAREER(6个字母)

是的,CAREER

所以,我们有ESCAPE作为横向:

E S C A P E

纵向从(1,3)的位置开始是来自ESCAPE的C,所以CAREER:

C

A

R

E

E

R
现在,9纵向:叙利亚和土耳其的辣椒品种(6个字母),从(1,4)开始

ESCAPE中的第四个字母是A,(1,4)的位置是A

所以我们有一个6个字母的单词,意思是'叙利亚和土耳其的辣椒品种',以A开始。

可能的单词:ALEPPO(6个字母)

Aleppo辣椒是来自叙利亚和土耳其的一种辣椒

所以ALEPPO合适。

【小梦备注:思路确认没问题,找满足某个规则下的同义词这件事情,大模型理论上肯定比一般人类的脑袋好使,这里就省略一步步的推理了。】

所以我们已经成功填写了整个填字游戏。

让我写出填满单词的整个格子:

格子,其中行从上到下编号为1到6,列从左到右编号为1到6。

位置是(行,列)

第1行(位置(1,1)-(1,6)):

E S C A P E
第2行:

S E A L E R
第3行:

T E R E S A
第4行:

A D E P T S

【省略】
列,纵向条目:

第1列(位置(1,1)-(6,1)):

E S T A T E
第2列:

S E E D E R

【省略】
第6列:

E R A S E S
这样解决了填字游戏。

o1-preview的正式回答:

我们来一步步的解决填字游戏。

理解格子:

所有横向单词从最左边的列开始,长度为6个字母。

所有纵向单词从最上面的行开始,长度为6个字母。

数字对应每个单词的起始方格。

让我们来解填字游戏:

横向提示:

1. 逃避(6个字母)
答案:ESCAPE

2. 封信封的工具(6个字母)
答案:SEALER

3. 母亲______(6个字母)
答案:TERESA

4. 启蒙人们(6个字母)
答案:ADEPTS

5. 美洲原住民的帐篷(6个字母)
答案:TEEPEE

6. 错误(6个字母)
答案:ERRORS

纵向提示:

1. ______车(旅行车)(6个字母)
答案:ESTATE

2. 自动种植机(6个字母)
答案:SEEDER

3. 职业(6个字母)
答案:CAREER

4. 叙利亚和土耳其的辣椒品种(6个字母)
答案:ALEPPO

5. 使烦恼(6个字母)
答案:PESTER

6. 删除(6个字母)
答案:ERASES

填好的填字游戏格子:
 

| E | S | C | A | P | E |  ← 1 Across: ESCAPE
| S | E | A | L | E | R |  ← 2 Across: SEALER
| T | E | R | E | S | A |  ← 3 Across: TERESA
| A | D | E | P | T | S |  ← 4 Across: ADEPTS
| T | E | E | P | E | E |  ← 5 Across: TEEPEE
| E | R | R | O | R | S |  ← 6 Across: ERRORS
↓   ↓   ↓   ↓   ↓   ↓
E   S   C   A   P   E
S   E   A   L   E   R
T   E   R   E   S   A
A   D   E   P   T   S
T   E   E   P   E   E
E   R   R   O   R   S
↑   ↑   ↑   ↑   ↑   ↑
1D  7D  8D  9D  10D 11D
ESTATE
SEEDER
CAREER
ALEPPO
PESTER
ERASES

解释:

1 横向(ESCAPE)与 1 纵向(ESTATE)在字母 E 处交叉。

2 横向(SEALER)与第二行中纵向单词的字母完美对齐。

3 横向(TERESA)使用 1 纵向(ESTATE)的第三个字母 T,并与纵向单词匹配。

每个横向单词的字母在它们交叉的地方与纵向单词中相应的字母匹配。

最终答案:

• 横向:

ESCAPE

SEALER

TERESA

ADEPTS

TEEPEE

ERRORS

• 纵向:

ESTATE

SEEDER

CAREER

ALEPPO

PESTER

ERASES

这个过程真的就像人类拿个小本子在纸上写写画画差不多的思路,o1-preview这个模型还是挺强的。其他几个案例涉及数学公式、化学方程和代码,格式不太好弄,大家感兴趣还是去原文中看好了,不过根据这三个我贴出来的案例,大家也可以感受到o1模型的CoT大概的展开方式了。

好,本篇就先到这里。晚安~

✨写在最后

如果对comfyui还不熟悉的话,最近面向ComfyUI的新手,写了一门系统性入门图文课程,现在已经更新完成了,内容主要包括如何下载软件、如何搭建自己的工作流、关键基础节点讲解、遇到报错怎么解决等等,如果大家在学习过程中遇到什么问题,也可以直接对应的文章下留言,会持续更新相关答疑内容哈。欢迎订阅哦~

https://blog.csdn.net/jumengxiaoketang/category_12683612.html

​​​​

感谢大家的支持~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2150672.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue3中el-table组件实现分页,多选以及回显

el-table组件实现分页&#xff0c;多选以及回显 需求思路1、实现分页多选并保存上一页的选择2、记录当前选择的数据3、默认数据的回显 完整代码 需求 使用 dialog 显示 table&#xff0c;同时关闭时销毁el-table 表格多选回显已选择的表格数据&#xff0c;分页来回切换依然正确…

【手把手】Windows上安装Python,小白必看

🔗【下载Python】 打开浏览器,访问Python的官方网站: python下载地址 选择适合你系统的Python版本下载。建议下载最新的稳定版。 🔧【安装步骤】 双击下载的安装包,开始安装。 选择“Add Python to PATH”,这样可以让系统知道Python的位置。 点击“Install Now”,…

Java 内存模型(JMM)

JMM&#xff0c;全称 Java Memory Model &#xff0c;中⽂释义Java内存模型 1. 概述 对于 Java 程序员来说&#xff0c;在虚拟机⾃动内存管理机制下&#xff0c;不再需要像 C/C 程序开发程序员这 样为每⼀个 new 操作去写对应的 delete / free 操作&#xff0c;不容易出现内存…

使用Locust进行接口性能测试:关联与参数化技巧分析

Locust是一款开源的Python性能测试工具&#xff0c;它可以模拟大量并发用户对网站或者其他接口进行压力测试 1. 关联&#xff1a;精确模拟用户操作 在某些场景下&#xff0c;我们需要将之前请求的响应参数关联到后续请求中&#xff0c;以模拟用户操作。这在会话管理&#xff…

2024年中国电子学会青少年软件编程(Python)等级考试(一级)核心考点速查卡

考前练习&#xff1a; 2024年06月中国电子学会青少年软件编程&#xff08;Python&#xff09;等级考试试卷&#xff08;一级&#xff09;答案 解析-CSDN博客 2024年03月中国电子学会青少年软件编程&#xff08;Python&#xff09;等级考试试卷&#xff08;一级&#xff09;答…

MySQL 中的 UTF-8 与 UTF8MB4:差异解析

在 MySQL 数据库中&#xff0c;字符集的选择对于数据的存储和处理至关重要。其中&#xff0c;UTF-8 和 UTF8MB4 是两个常见的字符集选项。那么&#xff0c;它们之间到底有什么区别呢&#xff1f; 一、字符集简介 UTF-8 UTF-8&#xff08;8-bit Unicode Transformation Format&…

文献阅读(81)FACT

题目&#xff1a;FACT: FFN-Attention Co-optimized Transformer Architecture with Eager Correlation Prediction时间&#xff1a;2023会议&#xff1a;ISCA研究机构&#xff1a;清华 主要贡献 算法优化&#xff1a;提出了Eager Prediction (EP)&#xff0c;预测softmax前重…

线性系统分析

一、定义 (1)叠加性 若 且 则称该系统具有叠加性。 叠加性:系统的一个输入不影响系统对其他输入的响应。 (2)均匀性 若 对任意常数a下式都成立 则称该系统具有均匀性。 均匀性:系统能够保持对输入信号的缩放因子不变。 (3)线性系统 若一个系统同时具有叠加性和…

Web开发:基础Web开发的支持

1. 构建项目&#xff1a; 2.添加依赖 <!-- SpringBoot热部署支持(开发阶段使用)--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-devtools</artifactId><optional>true</optional></d…

头部姿态估计代码+教程

前言 头部姿态估计是计算机视觉中的一个具有挑战性的问题&#xff0c;因为它需要完成多个步骤。首先&#xff0c;我们需要在画面中定位人脸&#xff0c;然后识别出各种面部特征点。如今&#xff0c;当人脸正对摄像头时&#xff0c;识别人脸似乎是一个简单的任务。但问题在于&am…

个人为什么不能参与场外期权?也有办法可以开始交易!

今天带你了解个人为什么不能参与场外期权&#xff1f;也有办法可以开始交易&#xff01;由于监管政策、风险管理、市场透明度和适合性等因素&#xff0c;个人投资者在中国市场上不能参与场外期权交易。 个人为什么不能参与场外期权&#xff1f; 在中国市场上&#xff0c;个人…

Web+Mysql——MyBatis

MyBatis 目标 能够完成Mybatis代理方式查询数据能够理解Mybatis核心配置文件的配置 1&#xff0c;Mybatis 1.1 Mybatis概述 1.1.1 Mybatis概念 MyBatis 是一款优秀的持久层框架&#xff0c;用于简化 JDBC 开发 MyBatis 本是 Apache 的一个开源项目iBatis, 2010年这个项目由…

Python 从入门到实战23(属性property)

我们的目标是&#xff1a;通过这一套资料学习下来&#xff0c;通过熟练掌握python基础&#xff0c;然后结合经典实例、实践相结合&#xff0c;使我们完全掌握python&#xff0c;并做到独立完成项目开发的能力。 上篇文章我们讨论了类的定义、使用方法的相关知识。今天我们将学…

【HTTP】请求“报头”(Host、Content-Length/Content-Type、User-Agent(简称 UA))

Host 表示服务器主机的地址和端口号 URL 里面不是已经有 Host 了吗&#xff0c;为什么还要写一次&#xff1f; 这里的 Host 和 URL 中的 IP 地址、端口什么的&#xff0c;绝大部分情况下是一样的&#xff0c;少数情况下可能不同当前我们经过某个代理进行转发。过程中&#xf…

【JAVA开源】基于Vue和SpringBoot的蜗牛兼职平台

本文项目编号 T 034 &#xff0c;文末自助获取源码 \color{red}{T034&#xff0c;文末自助获取源码} T034&#xff0c;文末自助获取源码 目录 一、系统介绍1.1 平台架构1.2 管理后台1.3 用户网页端1.4 技术特点 二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景…

LinuxC高级作业2

1.整理思维导图 2.做一套笔试题 一&#xff1a; 1.cd .. mkdir dir1 cd dir1 touch file1 2.cp ~/mnt/dir1/ -r * ~/home/dir2/ 3.pwd 4.ls -l 5.ifconfig 6.top 10.find /usr -type f -name "*name*" 11.:wq 13.df -h 14.tar -xzvf tmp.tar.gz 15.sudo c…

我的数据库旅程:从迷茫到觉醒

我的数据库旅程&#xff1a;从迷茫到觉醒 《中国数据库前世今生》纪录片的上线&#xff0c;使我回顾了中国数据库技术的演进历程&#xff0c;也联想到了自己在这一领域的工作经历。数据库技术从80年代在中国的初步应用到如今蓬勃发展&#xff0c;贯穿了整个信息化进程。作为一名…

【Qt之·文件操作·类QTextStream、QDataStream】

系列文章目录 文章目录 前言一、概述1.1 QTextStream类1.2 QTextStream类的作用和用途 二、基本用法2.1 QTextStream成员函数2.2 QTextStream格式描述符、描述符方法2.3 QDataStream成员函数2.4 创建QTextStream对象并关联输入/输出设备&#xff08;如文件、标准输入/输出流等&…

EPSILON环境配置和本地测试

文章目录 一、环境配置1.1 拉取镜像构建容器1.2 在容器中安装常用的包1.3 安装依赖1.4 安装OOQP1.4.1 安装blas1.4.2 安装ma271.4.3 安装OOQP 1.5 安装Protobuf 二、本地编译测试2.1 拉取源码并编译2.2 X11转发docker图形化界面2.3 测试一个小例子 三、镜像 一、环境配置 宿主…

Vue3:$attrs实现组件通信

目录 一.性质 1.响应式 2.包含所有非prop属性 3.动态属性 二.作用 1.访问非prop属性 2.灵活性 3.组件重用 三.使用 1.爷爷组件 2.父亲组件 3.儿子组件 四.代码 1.爷爷组件代码 2.父亲组件代码 3.孙子组件代码 五.效果图 在Vue 3中&#xff0c;$attrs 是一个响…