o1-preview 在 IMO 2024 第一题的实测表现

o1-preview 在 IMO 2024 第一题的实测表现

news2026/2/14 13:16:39

相关博客：Learning to Reason with LLMs 以及 Introducing OpenAI o1-preview

测试了 IMO 2024 的第一题，OpenAI-o1-preview 的解题过程包括两部分：思考和推理。

20240914151453

正确答案是全体偶数，o1-preview 的 **思考方向正确，推理结果也正确。但证明错误，仅证明了“显然成立”的一侧，而“仅偶数成立”的这侧，重复试了几次都没证对。**即使指出关键步骤，仍然无法纠正得出正确证明。

这是道送分题，大部分选手都拿了满分：

20240914151550

o1-preview 具体的回答：

20240914151659

o1-mini 的回答和 preview 类似，在关键步骤胡说八道，试图蒙混过关：
20240914151715

此外，测了几次 DeepSeek 和 GPT-4o，都得到了 α 取全体整数的错误回答。

虽然 o1 最终答案对了，但证明不完整。实际上，大部分中学生都能猜出答案，难点在证明。现阶段，幻觉问题仍然是阻碍模型落地的关键难点。相比之下，今年的 IMO 竞赛 AlphaProof 成功解决了第 1、2、6 题的证明，这一点更加出色。不过，AlphaProof 需要先给答案，再推导证明，或许二者可以结合一下。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2193676.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

计算机网络——email

计算机网络——email

pop3拉出来超出ASCII码范围就不让传了这样就可以传更大的文件

阅读更多...

Linux命令大全及小例子

Linux命令大全及小例子

撰写一份关于Linux命令大全的详尽报道和分析是一项重要的任务，旨在让读者全面了解Linux命令的用途和应用场景。Linux系统因其强大的命令行工具而闻名，无论是系统管理、文件操作还是网络配置，Linux命令行都提供了灵活且强大的解决方案。以下是…

阅读更多...

【模板进阶】std::void_t

【模板进阶】std::void_t

一、 s t d : : v o i d _ t std::void\_t std::void_t的源码分析和常规范例 1. s t d : : v o i d _ t 1.std::void\_t 1.std::void_t的源码分析 C 17 C17 C17引入了 s t d : : v o i d _ t std::void\_t std::void_t，它其实是一个别名模板，源码非常简…

阅读更多...

如何为树莓派安装操作系统，以及远程操控树莓派的两种方法，无线操控和插网线操控

如何为树莓派安装操作系统，以及远程操控树莓派的两种方法，无线操控和插网线操控

文章目录一、下载树莓派的系统二、将文件下载到SD卡中1.使用官方软件2.其他选择三、远程连接电脑安装vnc-viewer1.无线操作（配置树莓派，开启VNC）电脑远程配置2.有线连接（需要一根网线） 总结一、下载树莓派的系统下…

阅读更多...

github学生认证（Github Copilot）

github学生认证（Github Copilot）

今天想配置一下Github Copilot，认证学生可以免费使用一年，认证过程中因为各种原因折腾了好久，记录一下解决方法供大家参考。 p.s.本文章只针对Github学生认证部分遇到的问题及解决方法，不包括配置copilot的全部流程~ 1、准备工作…

阅读更多...

【python实操】python小程序之定义类

【python实操】python小程序之定义类

引言 python小程序之定义类文章目录引言一、定义类1.1 题目1.2 代码1.3 代码解释二、思考2.1 面向对象编程（OOP）原则2.2 self 参数2.3 内存地址2.4 代码的可读性和可维护性一、定义类 1.1 题目小猫爱吃鱼，小猫要喝水，定义不…

阅读更多...

Vue （快速上手）

Vue （快速上手）

Vue 初识Vue 在Vscode中创建html文件，然后打开该文件，输入英文!即可显示出提示框，选定第一个即可出现默认的html模板。案例一：值的传递使用大括号{{}}声明一个将要被Vue所控制的 DOM 区域，其值可以在<script&…

阅读更多...

构建数字化生态平台，开启企业新未来

构建数字化生态平台，开启企业新未来

随着数字化时代的到来，构建数字化生态平台已成为企业获取竞争优势、实现可持续发展的重要途径。数字化生态平台是指利用数字技术构建的，能够整合多方资源，为用户提供一站式服务和价值的开放平台。数字化生态平台的特点 1.开放性&#xff1a…

阅读更多...

Vue/组件的生命周期

Vue/组件的生命周期

这篇文章借鉴了coderwhy大佬的Vue生命周期在Vue实例化或者创建组件的过程中内部涉及到一系列复杂的阶段每一个阶段的前后时机都可能对应一个钩子函数以下是我根据coderwhy大佬文章对于每一个阶段的一些看法 1.过程一首先实例化Vue或者组件在实例化之前会对应一个钩子函…

阅读更多...

Android 组件化利器：WMRouter 与 DRouter 的选择与实践

Android 组件化利器：WMRouter 与 DRouter 的选择与实践

在移动端开发中，组件化和模块化是常见的开发策略。随着项目的规模增大，不同功能之间的依赖、耦合度会变得越来越复杂，模块间的解耦成为不可避免的需求。路由框架正是在这种需求背景下应运而生。本文我们将讨论两款在Android开发中比较流行…

阅读更多...

PyEcharts教程（002）：上手PyEcharts

PyEcharts教程（002）：上手PyEcharts

2、上手PyEcharts（以jupyter notebook编译） 2.1 如何查看pyecharts版本 import pyecharts print(pyecharts.__version__)2.2 上手Pyecharts 首先绘制第一个图表 from pyecharts.charts import Bar # 创建柱形图对象 bar Bar() # 添加x轴 bar.add_xa…

阅读更多...

51单片机的红外感应洗手器【proteus仿真+程序+报告+原理图+演示视频】

51单片机的红外感应洗手器【proteus仿真+程序+报告+原理图+演示视频】

1、主要功能该系统由AT89C51/STC89C52单片机红外感应传感器继电器LED等模块构成。适用于智能红外感应自动洗手器等相似项目。可实现功能: 1、红外感应传感器实时检测是否有人体接近（距离小于20cm） 2、如果有人靠近，继电器自动闭合&#…

阅读更多...

ZJYYC2360. 圆球的最大得分

ZJYYC2360. 圆球的最大得分

思路：这是一道区间dp的题目。最大的数放在最远处会更优，所以每个小孩可以放在 l 处或 r 处，即这段区间的最左边或最右边。这题可以用记忆化搜索来写，用dp[l][r]来记录 i ~ j 之间调整位置后的最大得分。 #include <bits/stdc.…

阅读更多...

学校周赛（3）

学校周赛（3）

A: 题目： 解题： 本道题木只需要找到一个*的位置，并且查看这个*是否满足四种情况即可，对与判断的体哦见是四周不出现任何的*,由于每次搜索我们首先搜索到的的最左上角的*,因此我们以左上角的为中心进行讨论…

阅读更多...

在VSCode中使用Excalidraw

在VSCode中使用Excalidraw

概述 Excalidraw是一款非常不错的示意图绘制软件，没想到在VSCode中有其扩展，可以在VScode中直接使用。安装扩展使用需要创建.excalidraw.svg、.excalidraw或.excalidraw.png等名称的文件。搭配手写版使用自由画笔工具可以配合手写板&#xff0c…

阅读更多...

【算法】DFS 系列之穷举/暴搜/深搜/回溯/剪枝（下篇）

【算法】DFS 系列之穷举/暴搜/深搜/回溯/剪枝（下篇）

【ps】本篇有 8 道 leetcode OJ。目录一、算法简介二、相关例题 1）字母大小写全排列 .1- 题目解析 .2- 代码编写 2）优美的排列 .1- 题目解析 .2- 代码编写 3）N 皇后 .1- 题目解析 .2- 代码编写 4）有效的数独 .1-…

阅读更多...

教育领域的技术突破：SpringBoot系统实现

教育领域的技术突破：SpringBoot系统实现

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。是基于SQL的客户/服务器模式的关系数据库管理系统，它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等，非常…

阅读更多...

Excel中的屠龙大招

Excel中的屠龙大招

indirect的地位部分动摇，神坛下已初生大力骑士——“”。 (笔记模板由python脚本于2024年10月06日 18:57:11创建，本篇笔记适合同时喜欢python和Excel的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网：https://www.python.org/ Free&…

阅读更多...

C++——模拟实现list

C++——模拟实现list

1.初步实现结点和链表 namespace jxy {template<class T>struct list_node{T _data;list_node<T>* _prev;list_node<T>* _next;list_node(const T& x T()):_data(x),_prev(nullptr),_next(nullptr){}};template<class T>class list//list的框架本…

阅读更多...

C# 雷赛运动控制器 SMC304 新建工程

C# 雷赛运动控制器 SMC304 新建工程

雷赛SMC304资料下载地址 https://www.leisai.com/cn/cpzx/info_36_itemid_3389_lcids_140_cid_3340.html 在官网下载需要的资料新建文件在官网下载的资料中找出需要三个文件把文件添加到现有的项目中编译选择x64 将连接雷赛电脑的网口IP号改为：如下图所示

阅读更多...

推荐文章

最新文章