让AI做2024新高考1卷数学最后一题:AI智商横向对比!

news2024/12/26 11:56:13

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

一些结论

即使是当下最先进的AI模型,在面对高难度数学推理题时,仍有很大的提升空间。

模型名称题目理解解答过程总体评价
GPT-4o完全正确输出大量内容,但大部分不正确,仅成功给出一组答案题目理解强,但解答过程不准确
GPT-4 turbo理解与题目要求不符解答与题目无关,推理和计算不准确题目理解和解答均存在较大问题
Kimi Chat理解较为准确解答中出现AI幻觉,第一小问解答不正确题目理解较好,但解答过程出现错误
通义千问初步理解正确,但未详细解释题目思路正确,但详细解答过程中出现错误初步理解正确,详细解答不够准确

牵动着无数家长和学子们的一年一度的高考刚刚落下帷幕,那么,今年的高考数学难吗?有考生吐槽:一出考场就哭了。

之前我曾经用高考语文作文横向对比过部分AI模型/工具的创意写作能力,并且做了后续的AI互评,让AI来评价AI写的文章。感兴趣的小伙伴可以翻看这里:

  1. 让AI写高考作文:GPT-4、Kimi、通义千问“创意写作”能力横向测评!

  2. AI文章互评:得分最高的竟然不是GPT-4!

今天,让我们继续。今天我将以2024年新高考数学一卷的最后一题为基准,来测试各大AI模型/工具的表现。

2024年新高考数学一卷最后一题

这道题目是一道数列大题,对于AI来说应该算是很难的级别了,因为这并不是考察AI的知识积累,而是单纯的考察AI的推理能力,包括对题目的理解,知识点的定位,以及解答方法的分析推理。

其次,由于是数学题目,包括很多数学公式,所以我只能以图片的方式来发送给AI模型,这对于AI的多模态支持也是一个挑战,能够看出AI对图片的解析是否正确。

提示词:中文详细解释这道题目,然后写出详细完整的解答计算过程。

题目

答案

下面测评开始。

GPT-4o模型

回答速度极快,大概几秒钟就开始响应我的问题。题目理解完全正确,但后面的解答过程中,虽然洋洋洒洒输出了一大堆,但基本都不正确,即使是第一小问。第一小问中,答案应该是三组:(1,2),(1,6),(5,6),GPT-4o成功给出了一组。

GPT-4 turbo模型

GPT-4o不同,GPT-4 turbo模型在题目的理解上就出现了很大的问题,基本上牛头不对马嘴,更不用提后续的解答过程了。

这样的测试结果和OpenAI官方发布的GPT-4oGPT-4 turbo的对比测评结果是相符的。

Kimi Chat

Kimi的表现可圈可点,可以说对题目的理解方面,是明显强于GPT-4 turbo模型的。虽然这可能与提示词/题目都是中文的有关系,Kimi这种中文大模型会天然有一定的优势,但足以说明,Kimi在图片内容识别和题目的理解上是不错的。

但同样的,在后续的问题解析部分,Kimi也出现了AI幻觉,从第1问开始就不是很正确。我后续又追问了几个问题,让Kimi来写出具体的第1小问的解答,均未得到正确的结果。

通义千问

通义千问并没有遵循我在提示词里说的先详细解释题目,而是简单地写了一段初步理解。但从通义千问的简述来看,它对这道题目的理解是基本正确的。但同样在后续的解答中出现了幻觉,只能说是有思路,但没有做对。

结语

让AI做高考数学题目,离回答正确还有不小的距离。


精选推荐

  1. 使用GPT-4o模型的5种方法,总有一种适合你!

  2. 关于最新模型GPT-4o的14条总结,都在这里!

  3. 免费的GPT4终于要来了!OpenAI直播发布会详细解读!

  4. 春日暖阳,何不来看一场OpenAI的发布会


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1807705.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2013年 阿拉斯加巴罗活动层厚度和土壤含水量

Pre-ABoVE: Active Layer Thickness and Soil Water Content, Barrow, Alaska, 2013 ABoVE前:阿拉斯加巴罗活动层厚度和土壤含水量,2013年 简介 文件修订日期:2018-01-10 数据集版本:1 摘要 该数据集提供了 2013 年 8 月在…

泛微开发修炼之旅--13关于在Ecology中实现webservice接口对接异构系统时,出现无法调用接口的方案及源码

文章链接:泛微开发修炼之旅--13关于在Ecology中实现webservice接口对接异构系统时,出现无法调用接口的方案及源码

【数据结构】排序(上)

个人主页~ 堆排序看这篇~ 还有这篇~ 排序 一、排序的概念及应用1、概念2、常见的排序算法 二、常见排序的实现1、直接插入排序(1)基本思想(2)代码实现(3)时间复杂度(4)空间复杂度 2…

Java日期类Date、SimpleDateFormat 日期格式类、Calendar详细介绍

目录 一、Date类1.1 Date类简单介绍1.2 Date类的构造方法代码演示 二、SimpleDateFormat 日期格式化类2.1 SimpleDateFormat 日期格式化类简单介绍2.2 构造方法代码演示 日期格式化模板常用方法代码演示注意 三、Calendar类3.1 简单介绍3.2 创建对象代码演示 3.3 静态常量3.4 常…

Idea-Linux远程开发部署

第一步:File->Remote Development 第二步: 第三步: 第四步:在Host位置填写Linux虚拟机的IP地址,在Username、Password填写对应的账号密码后点击Test Connection测试连接。 第五步: 第六步:在…

iCloud完全指南:释放Apple云服务的终极潜力

iCloud是苹果公司提供的云服务,它允许用户存储和同步照片、文档、音乐、应用数据以及更多类型的文件。通过有效利用iCloud,用户可以在不同设备间无缝地访问和编辑内容。本文旨在全面介绍如何高效使用iCloud,确保您能够最大化这一服务的价值。…

【玩转C语言】第四讲--->操作符与循环语句

🔥博客主页🔥:【 坊钰_CSDN博客 】 欢迎各位点赞👍评论✍收藏⭐ 引言: 大家好,我是坊钰,为了让大家深入了解C语言,我开创了【玩转C语言系列】,将为大家介绍C语言相关知识…

C语言 | Leetcode C语言题解之第142题环形链表II

题目: 题解: struct ListNode* detectCycle(struct ListNode* head) {struct ListNode *slow head, *fast head;while (fast ! NULL) {slow slow->next;if (fast->next NULL) {return NULL;}fast fast->next->next;if (fast slow) {s…

vue2的form利用插槽修改错误提示UI

1. 需求 很多时候我们使用el-form想修改下错误提示的UI,比如table中使用form校验这类场景下错误提示的UI调整就非常重要。 2. 了解文档 Form-Item Scoped Slot name说明error自定义表单校验信息的显示方式,参数为 { error } 3.实际使用 html里使用…

【List,ArrayList与顺序表】

目录 1,什么是List 2,List的使用 3,线性表 4,顺序表 4.1 接口的实现 5, ArrayList简介 6,ArrayList的使用 6.1 ArrayList的构造方法 6.2 ArrayList的常见操作 6.3 ArrayList的遍历 7,…

Layui实现下拉多选功能

1、问题概述? 提供源码下载 在项目中有很多地方需要使用到下拉框,并且实现选择多个信息,下面是展示。 支持如下功能: 1、分页 2、主题自定义 3、国际化 4、下拉方向 5、Tips修改等 6、Style自定义样式 7、取值 8、赋值 2、资源准备及测试? 2.1、资源下载

使用Puppeteer生成echarts图片

Puppeteer简介 Puppeteer 是一个用于控制 Headless Chrome 或 Chromium 浏览器的 Node.js 库。它提供了一个高层次的 API,能够让你以编程方式操作浏览器,从而实现自动化任务,比如生成页面截图和 PDF、抓取网页内容、自动化表单提交、UI 测试…

C++ 贪心算法——跳跃游戏、划分字母区间

一:跳跃游戏 55. 跳跃游戏 题目描述:给你一个非负整数数组 nums ,你最初位于数组的 第一个下标 。数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到达最后一个下标,如果可以,返回 true &#xff1…

【服务实现读写分离】

文章目录 什么是读写分离基于Spring实现实现读写分离项目中常用的数据源切换依赖包 什么是读写分离 服务读写分离(Service Read-Write Splitting)是一种常见的数据库架构设计模式,旨在提高系统的性能和可扩展性。通过将读操作和写操作分离到…

借助ChatGPT快速仿写一篇优质论文,无痛仿写、完美创作

大家好,感谢关注。我是七哥,一个在高校里不务正业,折腾学术科研AI实操的学术人。可以添加我(yida985)交流学术写作或ChatGPT等AI领域相关问题,多多交流,相互成就,共同进步 在学术写…

探索智慧景区票务系统的架构与应用

随着旅游业的迅速发展,智慧景区票务系统已经成为提升景区管理效率、优化游客体验的重要工具。智慧景区票务系统的架构设计与应用,将现代信息技术与景区管理相结合,为景区的门票销售、入园管理和游客服务提供了全新的解决方案。本文将深入探讨…

形参和实参的区别

形参:函数定义时声明的参数。 实参:调用函数时传递的参数。

数字孪生智慧水利:精准管理与智能决策的新时代

图扑数字孪生技术在智慧水利中的应用,通过虚拟模型与真实水利系统的无缝连接,实现对水资源和水利工程的全面监控和精细管理。实时数据采集与动态模拟提升了水利系统的预测和响应能力,从洪水预警到水质监测,数字孪生助力各项决策更…

一款开源文件加速下载利器

前言 大文件的下载,浏览器支持不是很好,今天下载了一个20个G的文件,连续失败了好多次。 然后寻找到了一个开源的下载工具gospeed,可以完美的解决这个问题。而且下载速度快。 简介 Gopeed(全称 Go Speed)&am…

k8s面试题大全,保姆级的攻略哦(三)

目录 1、简述ETCD及其特点? 2、简述ETCD适应的场景? 3、简述什么是Kubernetes? 4、简述Kubernetes和Docker的关系? 5、简述Kubernetes中什么是Minikube、Kubectl、Kubelet? 6、简述Kubernetes常见的部署方式? 7、简述Kubernetes如何实现集群管理? 8、简述Kubern…