上海AI lab发布MathBench,GPT-4o的数学能力有多强?

news2024/9/8 8:31:32

大模型数学能力哪家强?

最近,上海AI lab构建了一个全面的多语言数学基准——MathBench。与现有的基准不同的是,MathBench涵盖从小学、初中、高中、大学不同难度,从基础算术题到高阶微积分、统计学、概率论等丰富类别的数学题目,跨度大,难度设置呈阶梯状,可以多维度评估模型的数学能力。

图片

本文测试了20+个开源或闭源不同规模的大模型,包括新秀GPT-4o、常胜将军GPT-4,还有开源模型里的扛把子通义千问和llama-3。

一起来看看各家大模型的数学真实水平到底如何吧~

 3.5研究测试:
hujiaoai.cn
4研究测试:
askmanyai.cn
Claude-3研究测试:
hiclaude3.com

论文标题:
MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark

论文链接
https://arxiv.org/pdf/2405.12209

Github连接
https://github.com/open-compass/MathBench

方法

1. 预定义知识框架

在MathBench中,作者首先将数学内容分为四个主要的教育阶段和一个基础算术阶段。四个阶段对应于基础教育阶段:小学、初中、高中和大学。“算术”阶段评估四种基本数学运算的能力:加、减、乘、除。每个阶段进一步细分为学科领域(如代数、几何、三角学、微积分、统计学、概率论等)和具体主题(如代数中的线性方程、二次方程、多项式和函数),如下图所示:

图片

这种分类确保了广泛数学问题的覆盖,使数据集能够深入揭示模型在各数学领域的理解和熟练程度。每个问题都带有详细标签,包括所属阶段、学科领域和主题,便于分析模型性能并识别其数学理解上的优势与不足。算术阶段的强调也凸显了基础运算在数学学习中的核心地位。

2. 数据收集与统计

在预定义的知识框架下,作者主要收集两类问题:一是理论知识问题,旨在检验模型对基本公式、理论及其推论的理解;二是实际应用问题,考察将理论知识应用于实践的能力。

问题格式定义:由于在开放性问题上难以评估模型的的表现,作者将可能产生复杂答案的理论知识和实践应用问题重新设计为四选一的选择题形式,确保答案的唯一性和干扰项的高混淆度。

对于理论知识问题,从数学教科书和互联网中按主题搜集相关定义和推论,并转化为高质量的多选题。在选择实践应用问题时,遵循以下标准:匹配教育阶段、全面覆盖知识分类体系、问题表述清晰,主要关注如中考、高考、AMC和SAT等教育考试或竞赛的题目,并引入开源问题以丰富多样性。MathBench问题的来源在下表中列出。

图片

通过使用GPT-4半自动化过滤过程,最终MathBench共包含3709个问题,涵盖五个阶段和三个知识层级的中英文内容。数据集分为MathBench-T(含2,209个理论问题)和MathBench-A(含1,500个实践应用问题)两部分。

实验与分析

本文主要使用CircularEval (CE) 和 perplexity (PPL) 评估Chat模型和Base模型。CE通过系统性地评估包含N个选项的多选问题,每次改变选项顺序来进行评估。为确保评估一致性,统一设置最大输出长度为2048个Token,并采用贪心解码策略对所有LLMs进行评估。评估框架采用OpenCompass。评估模型涵盖了超20中开源与闭源模型,还有几个专门针对数学能力进行微调后的数学LLMs。

chat模型评估效果

下表展示了实验结果,分为面向应用的部分(MathBench-A), 以及理论构成的部分(MathBench-T)。

图片

在MathBench-A中,GPT-4o(GPT-4o-2024-05-13)总体表现最佳,尤其在初中、高中和大学阶段数学试题测试中显著领先。开源模型中,Qwen1.5-110B-Chat表现最优,而DeepSeek-Math-7B-RL虽小但数学能力也很突出。

在开源的chat模型中,不同参数规模的模型表现出不同的能力:

约7B模型:InternLM2-Chat-7B和Llama-3-8B-Instruct在7亿规模模型中脱颖而出。Llama-3-8B-Instruct与ChatGLM3-6B相比,性能差距随难度递增,分别高出43.95%-723.53%。这表明高阶数学问题对模型的理解和推理能力提出更高要求,小型LLMs在解决复杂问题上仍面临挑战。

约20B模型:InternLM2-Chat-20B表现出色,其次是Qwen-14B-Chat。尽管Yi-34B-Chat参数量更大,但其性能却不及其他20B模型。这些模型在解决高中和大学复杂数学问题时也面临挑战。

约70B模型: Qwen1.5-110B-Chat在解决数学应用问题上尤为出色,不仅超越了其他开源聊天模型,还超越了多个专用数学模型,性能接近闭源模型GPT-4-0125-Preview。

专注数学任务模型: DeepSeek-Math-7B-RL在处理小学至大学数学应用问题时均表现优异,不仅超越了同类模型,还以仅十分之一的模型大小,在参数量大10倍的DeepSeek-67B-Chat上取得了24.8%的性能优势,这彰显了其在数学问题求解方面的高效性和针对性。

在MathBench-T中,GPT-4o同样在各阶段均表现出色,平均理论得分87.0,位居所有模型之首。结合其MathBench-A的应用得分70.9,GPT-4o在理论与应用层面均展现卓越性能。

Qwen系列模型紧随其后,其中Qwen1.5-110B-Chat在初级阶段领先,并在“Primary”阶段以93.4的CE分数居首。但在高级教育阶段,GPT-4o优势明显,如大学级理论知识阶段高出Deepseek-Math-7B-RL达16.9分。

InternLM2-Chat-7B在70亿参数模型中表现稳健,其理论阶段表现优于Qwen-7B-Chat达31.3%。Deepseek-Math-7B-RL在数学领域持续领先,成绩超越Llama-3-70B-Instruct。

MathBench测试显示,模型在理论与应用能力上排名相近,理论强的模型应用亦佳,反之亦然。

Base模型评估结果

下表展示了Base模型的结果,可以看出Base模型与其Chat模型性能一致。

图片

在7B参数范围里,InternLM2-7B的表现是最好的。Qwen-14B和Qwen-72B在MathBench基准测试中,各自在其所属的参数类别中表现得非常出色。

在处理数学任务时,Deepseek-Math-7B-Base与Chat模型的表现结果非常接近,这说明基础模型(Base模型)和聊天模型(Chat模型)在性能上有很高的相似性。

ChatGLM3-6B-Base在7B类别中排在第二位,它超过了Qwen-7B和Mistral-7B-v0.1。但是,它的聊天版本ChatGLM3-6B在MathBench-A测试中,性能比Qwen-7B-Chat差95.2%,在MathBench-T测试中,差距更是高达104.7%。这种性能上的差异很可能是因为在后续优化阶段,它们采用了不同的调整方法。

细粒度分析

模型在应用问题上的得分随着问题难度的提升而显著变化。

如下图所示,大多数模型在算术和基础数学问题上的表现很出色。然而,当问题难度达到中等或更高时,它们的性能会大幅下降。这说明当前模型在解决可以通过直接计算、模式识别或记忆基本概念的任务时表现良好,但在面对更复杂的数学问题时则显得力不从心。

图片

模型的理论理解与应用能力之间存在差距吗?

模型的理论理解与应用能力之间确实存在差距,尤其是在处理不同阶段的数学问题时。如下图所示,LLM在不同阶段的理论和应用得分趋势揭示了这一点。

图片

在基础阶段,大多数LLM的理论和应用得分高度相关,显示出它们在解决简单任务时,理论理解和应用能力能够较好地结合。然而,也有少数例外。例如,Qwen-72B-Chat在理论能力上表现出色,而Claude-3-Opus在应用能力上更胜一筹。

随着问题难度的增加,即进入中等及以上阶段,模型需要更强的计算和推理能力来取得良好的应用得分。在这一阶段,理论与应用之间的差距开始显现。GPT-4在所有阶段的应用表现都领先,尤其是在更高级阶段,这种差距更加明显。

因此,虽然理论是解决大多数应用问题的基础,但在面对更高难度的任务时,模型的理论理解与应用能力之间会存在一定的差距。为了提高模型的整体性能,我们需要在加强模型理论理解的同时,注重提升其在实际应用中的表现。

模型在不同子主题下表现如何?

如下图所示,模型在涉及基础数学技能的主题上表现优异,如“单位转换”、“四则运算”和“方程的基本概念”,这些主题的平均得分较高。

然而,面对需要抽象推理和复杂计算的主题,如“双重积分”、“数学逻辑”和“集合论”,模型表现欠佳,平均得分较低。

图片

这提示我们,针对这些较难的数学问题,需要对模型进行专门的分析和优化,找出推理能力不足或基础理论概念掌握不稳定的根源,以提高模型的整体性能。

在双语场景下,哪种模型表现更佳?

下图展示了各种LLM在MathBench上的双语能力,强调了处理需要理解不同语言和数学概念细微差别数学任务时语言灵活性的重要性。

图片

在所有LLM中,GPT-4以67.1的最高双语分数领先,它在中文(65.2)和英语(69.0)方面的表现均衡,这显示出其卓越的双语处理能力。其他模型如Qwen-72B-Chat和DeepSeek Math-7B-RL也展现出了显著的双语能力。但值得注意的是,大多数评估的LLM在中文和英语之间的性能差距相比GPT-4要大得多。

错误分析

本文还对每个阶段随机抽取的80个理论问题和100个应用问题进行了全面的错误分析,如下图所示:

图片

错误主要由以下问题引起:

  • 知识匮乏:在理论性问题中,高达78%的模型错误源于对数学概念的误解,这一比例在所有错误中占据49.5%。这表明大多数模型在掌握基础知识和术语上还存在明显的不足。

  • 推理能力欠缺:模型在逻辑推理方面存在明显短板,33.4%的错误源于逻辑上虽连贯但存在缺陷的推理过程。此外,还有9.6%的错误是因为模型偏离了用户的查询意图,这反映出模型在理解用户意图和给出恰当回答方面的局限性。随着任务难度的增加,这类与推理相关的错误也会增多。

  • 长度限制:尽管在统计上不是主要的错误类型(仅占4.0%),但模型在处理复杂任务时受限于输出长度,这暴露了模型在有限空间内处理复杂指令和任务的挑战。

  • 其他不足:有时,模型会给出缺乏明确推理过程的回答,这使得审查变得困难。然而,那些具备更强推理能力的模型在面对选择时,能够展现出批判性思维,提供超出预设选项的解答。

结语

MathBench根据问题难度和阶段对数学题进行分类,全面评估了LLMs的数学能力。它覆盖了教育各阶段的广泛学科和主题,为数学学习和评估领域的研究者及教育工作者提供了宝贵的资源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1703169.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于51单片机的函数发生器设计

一.硬件方案 此函数信号发生器是基于单片机AT89C51设计而成的,能够产生频率范围在0Hz—535Hz的锯齿波、正弦波、三角波、矩形波四种波形,并且能够通过液晶屏1602显示各自的波形类型以及频率数值。电路主要由51单片机最小系统DA0832模数转换模块运放模块…

Star CCM+绘图显示设置

前言 如前文介绍,根据报告创建监视器与绘图后,在绘图中会出现报告绘图。此处可以自定义绘图的格式,如网格显示、字体大小、曲线的粗细等。同时也可以根据需要创建右坐标,分别监测不同类型的函数数值。为此方便后期输出仿真报告。…

nginx文件解析漏洞测试

环境条件:ubuntu14,已安装docker,docker pull ubuntu:14.04.5 一、Nginx配置 1、使用docker启动容器: docker run -itd --name ubuntu -p 8088:80 ubuntu:14.04.5 2、进入容器: docker exec -it ubuntu /bin/bash 3、然后使用以下语句安装相关环境…

超详细的前后端实战项目(Spring系列加上vue3)前后端篇(四)(一步步实现+源码)

兄弟们,继昨天的代码之后,继续完成最后的用户模块开发, 昨天已经完成了关于用户的信息编辑页面这些,今天再完善一下, 从后端这边开始吧,做一个拦截器,对用户做身份校验, 拦截器 这…

无线蓝牙耳机品牌推荐:倍思M2s Pro,让旅途更添乐趣

随着端午节的临近,许多人开始规划起出游计划。出游除了要做好行程安排,还需准备一些实用的物品来提升旅途的舒适度。特别是在高铁等长途旅行中,一款优质的降噪蓝牙耳机无疑是消磨时光、享受音乐的绝佳选择。那么,在众多的无线蓝牙耳机品牌中,有哪些值得推荐的呢?今天,我们就来…

javascript 防抖 节流

在前端开发中,性能优化是提升用户体验的关键环节。防抖(Debounce)和节流(Throttle)作为两种常见的优化技术,能够有效管理和控制频繁触发的事件,减少不必要的计算和资源消耗。无论是在处理用户输…

Samtec技术漫谈 | 电动自行车中的传感器和信号传输技术

【摘要/前言】 电动自行车,大家熟悉吗? 今天的话题似乎是可以唤起大家心底骑车的美好回忆,我们也曾骑车探索过大自然和社区,自行车也是我们曾经不可或缺的便捷交通工具。 怀旧思潮的影响,加持科技的进步&#xff0c…

spring boot3整合邮件服务实现邮件发送功能

⛰️个人主页: 蒾酒 🔥系列专栏:《spring boot实战》 目录 内容概要 开通服务 依赖引入 配置属性 创建邮件发送工具类 测试 最近发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家…

一维数组基础(题目+答案)

第1题 反向输出 时限:1s 空间:256m 输入n个数,要求程序按输入时的逆序把这n个数打印出来,已知整数不超过100个。也就是说,按输入相反顺序打印这n个数。 输入格式 第一行:一个整数n,代表…

《QT实用小工具·六十六》基于QT开发的界面收缩栏

1、概述 源码放在文章末尾 该项目实现了一个界面收缩栏的效果,该收缩栏包含如下功能: 1、可以在收缩栏中添加若干个界面 2、鼠标点击收缩栏可以展开或收起界面 3、鼠标拖动收缩栏可以和其他界面互换位置 项目demo演示如下所示: 使用方式&…

时隔1年,我终于弄懂了Java 中的 AOP操作

1. AOP概述 2. AOP快速入门 依赖&#xff1a; <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-aop</artifactId><version>${spring-boot.version}</version></dependency> 示例:记…

【爬虫软件】2024最新短视频评论区抓取工具

一、背景说明 1.0 采集目标 采集DOU音评论数据对引流截流和获客有很多好处。首先&#xff0c;通过分析DOU音评论数据&#xff0c;我们可以更好地了解用户对于产品或内容的喜好和需求&#xff0c;从而调整营销策略&#xff0c;吸引更多用户关注和点击。其次&#xff0c;评论数据…

C++学习/复习6---内存管理(数据的位置/大小)/new、delete/内存相关面试题(malloc与new/内存泄漏)

一、内存中区域 1.不同数据的存储位置 2.数据占用内存大小 二、动态内存函数 三、new与delete 1.操作内置类型 2.操作自定义类型 四、operator new与operator delete 1.底层源码&#xff08;malloc/free&#xff09; 2.内置/自定义与构造和析构 3.举例 五、定位new表达式 1.举…

【C++】多态:编程中的“一人千面”艺术

目录 一、多态的概念二、多态的定义及实现1.多态的构成条件2.虚函数的重写2.1 什么是虚函数&#xff1f;2.2 虚函数的重写是什么&#xff1f;2.3 虚函数重写的两个例外2.4 C11 override 和 final2.5 重载、覆盖(重写)、隐藏(重定义)的对比 三、抽象类3.1 概念3.2 接口继承和实现…

H3CNE-8-ARP工作原理

ARP&#xff1a;Address Resolution Protocol 通过目的IP地址请求对方的MAC地址的过程。 数据链路层在进行数据封装时&#xff0c;需要目的MAC地址。 arp -a 查看 arp -d * 清空 主机A发送一个数据包给主机C之前&#xff0c;首先要获取C的MAC地址 数据封装

前后端项目部署和解决跨域

文章目录 一.前端项目部署1.1 上传前端文件1.2 项目部署1.3 解决跨域1.3.1 什么是跨域1.3.2 配置文件 二.后端项目部署2.1 上传后端文件2.2 项目部署2.3 解决跨域 一.前端项目部署 1.1 上传前端文件 站点创建好了&#xff0c;进入到站点的目录。 然后把它默认的文件删掉。 你…

心电信号降噪方法(滤波器/移动平均/小波等,MATLAB环境)

对于一个正常的、完整的心动周期&#xff0c;对应的心电图波形如下图所示&#xff0c;各个波形都对应着心脏兴奋活动的生理过程&#xff0c;包含P波&#xff0c;PR段&#xff0c;QRS波群&#xff0c;ST段&#xff0c;T波&#xff0c;U波。 &#xff08;1&#xff09;P波心电图中…

PG实践|PostgreSQL的安装和配置

&#x1f4eb; 作者简介&#xff1a;「六月暴雪飞梨花」&#xff0c;专注于研究Java&#xff0c;就职于科技型公司后端工程师 &#x1f3c6; 近期荣誉&#xff1a;华为云云享专家、阿里云专家博主、腾讯云优秀创作者、ACDU成员 &#x1f525; 三连支持&#xff1a;欢迎 ❤️关注…

【Java面试】五、MySQL篇(下)

文章目录 1、事务的特性2、并发事务问题3、事务的隔离级别4、undo log 和 redo log4.1 底层结构4.2 redo log4.3 undo log 5、MVCC5.1 隐式字段5.2 undo log 版本链5.3 ReadView5.4 ReadView的匹配规则实现事务隔离 6、MySQL的主从同步原理7、分库分表7.1 垂直分库7.2 垂直分表…