大模型高考数学测评结果,国内AI大模型成绩超GPT-4o!

news2024/11/17 1:32:40

每年高考都是备受全社会关注的一件大事,而今年略有不同,因为除了鱼跃龙门的高三学子们,还多了许多陪他们一同参加考试的 AI 大模型。

在所有的考试科目中,数学显然一直都是最难的那一门,不论是对考生还是对大模型。因为数学最考验逻辑思维和计算能力,而大模型是从自然语言训练,即便是公认最强的 ChatGPT 也被诟病不懂数学。

去年高考,国产大模型还远不像今天这样生机勃勃。今年就不一样了,一年多的百模大战让国产大模型也能凑满一整个考场。考试刚结束网上就有很多 AI 大战高考的文章。

不过其中一些测试显然太过简单粗暴,比如直接上传数学试卷的截图,然后就下结论说国产 AI 不如 GPT-4o,因为这就不是在比数学能力了,而是在比 OCR 能力,能做出这种测试的自媒体我想大概连 LaTeX 是什么都不知道…

而复旦大学NLP实验室的测试就更加严谨准确了,以高考数学真题单选、多选、填空的客观题为测评集,采取文本转义或 LaTeX 格式对国内外主流大模型进行了考试。先看一下考试结果吧(LaTeX版):

新课标I卷:新课标II卷:从结果可以看出:

1、少数大模型已经能在高考数学题目中拿到70%以上正确率;且模型之间拉开了较为显著的差距,一些主攻文本的模型显然数学能力不足;

2、在两张试卷的测试中,GPT-4o、Gemini-1.5都没能打赢国产大模型;

3、如果把GPT-4o、Gemini-1.5作为两个大模型数学能力的基准划分为优、中、差三等,能稳定优于GPT-4o则为优,介于GPT-4o和Gemini-1.5之间则为中,否则为差。以此可以将国产大模型划分为三档,优档中则只有Qwen2-72B和讯飞星火两个模型。

这个结果说实话挺出乎意料的:

一来是因为大模型之间明显拉开了差距。我上次拿公务员行测考试的题目测试国产大模型,而行测中语文和常识题比较多,区分度不够,大家上下也不过相差几分,看来数学能力依然很多大模型的短板弱项;

二来是像Qwen-72B这样的开源模型在两次考试中分别位居一二,要知道这可不是1+1=2那样的简单计算,也不是鸡兔同笼那种被训烂了的二元一次方程组,而是实实在在涵盖了集合、虚数、向量、根式、函数、曲线等高难度题目的高考真题啊。

Qwen2-72B作为一个开源模型,怎么就能拿到这么好的成绩?强的有点不真实了…莫非选择题是蒙对的?所以我们还是得自己动手测几道题吧。

第一题:第二题:第三题:前三道简单题显然没什么问题,过程也是对的。时间关系我直接从后面再测两道题。第12题:一顿操作还是算错了。第13题:能解出正确答案 a=ln⁡(2)a = {\ln(2)}a = {\ln(2)} 可以看出,测评结果跟复旦NLP的结果基本一致。压轴的选择题可能存在蒙的成分,但中等、简单题目是可以给出比较准确的解答思路和计算结果的。

最后,再聊聊大模型测评吧。现在市面上的大模型越来越多,随之而来的是大家对大模型能力比较的需要。我们可以看到,不论哪个模型,在发布时都会贴出一大堆测评分数,来佐证自己的能力。

但是问题在于:

就像高考真题和模拟试卷的关系一样,测评数据集难免会发生泄漏,也难免会有人针对性地进行刷榜。现在的大模型都是通用对话型,不再像过去是针对某个非常具体的分类任务设计,所以需要综合地评价模型在不同方面的能力。现在的模型相比于过去,能力还是有长足增长的。

所以一些比较老的测试集就会出现区分度不够的问题,就好比一张考试试卷,大家都能考到85分以上,这样的测试结果意义其实也不太大。

所以为什么 Lmsys ChatBot Arena 火起来了,就是因为它引入了排位赛 Elo 分数的机制,通过让海量的真实对话去打分决出胜负,来评测模型排名。

针对测评区分度的问题,前段时间 Lmsys ChatBot Arena 还专门发了一篇文章,提供了一个 Arena-Hard 测试集,相比于 MT Bench,Arena Hard Auto v0.1 提供了更强的区分度:在排行榜中也专门提供了 Hard Prompts 分类,Qwen2-72B 和 Llama3-70B 一起上榜前10,和GPT-4-0314 并列:

所以从测评的角度,高考数学真题真的是非常难得的测试题目,因为高考真题严格保密,绝不存在泄题或者刷榜的因素,同时数学和推理能力完全可以作为 Hard 题目,来区分模型的能力排名。

总之,我觉得今年国产大模型的高考表现是超出预期的,特别是通义千问 Qwen2 这样的开源模型能做到第一、第二的成绩,真的非常优秀了。我也很期待国产大模型们明年高考的表现,一定会有更大的变化和进步。

可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好,希望能够真正帮助到大家。

👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1818113.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设备管理系统——设备台账管理

设备管理系统中的设备台账管理是一项关键的功能,它涵盖了设备从购入、使用、维护到报废的全生命周期管理。以下是设备台账管理在设备管理系统中的详细功能和重要性: 一、设备台账管理的基本功能 设备信息录入: 录入设备的基本信息&#xff0…

B端系统的颜值问题:成也框架,败也框架!

B端UI框架和前端框架的出现,让系统的搭建就像堆积木一样,十分的容易了。这也一下子把程序员的设计和审美水平拔高到了UI框架能够达到的高度。伴随而来的则是系统的堆砌、同质化、糟糕的体验,以及各种违和的组件被生搬硬套的绑定在一块&#x…

传统工厂该如何做数字化转型?

传统工厂实现数字化转型需多方面着手,包括树立战略意识、明确目标规划,加强信息化建设、提升数据能力,培养引进人才、推动技术创新,优化业务流程、提高生产效率与质量管控,加强协同合作、实现产业链整合,建…

男士内裤买便宜还是贵的?2024年高性价比男士内裤汇总分享

男生内裤,作为贴身衣物,承载着男性的私密与舒适。然而,许多男士的内裤状况却让人大跌眼镜:穿到变形、腰部松垮无弹性,屁股后面甚至出现破洞,这样的景象已然屡见不鲜。更有些男士的内裤,中间一个…

lnmp的介绍与源码部署以及 |什么是正向、反向、透明代理 | 常见的集群有哪些

lnmp 文章目录 lnmp1.LNMP是什么2. lnmp简介3.系统特点4.优点5.lnmp部署5.1 nginx安装5.2 mysql安装5.3 php安装5.4配置nginx服务处理php 6.扩展知识点1.什么是集群2.常见的集群有哪些集群的分类1、高可用集群2、负载均衡集群3、分布式计算集群4、高性能集群(High Performance …

你为什么不相信 LLM 模型评测:深入评测 LLM 接口

我相信你已经看过很多机构发布的 LLM(大语言模型) 的模型效果质量的评测文章了。 其实呢,大家看了很多自称权威,或者不怎么权威的评测文章,基本上也就看看就完了,很少有人真的相信这些测试结果。 为什么你…

基于Simufact Welding定向沉积增材仿真的几何变形补偿

在DED(Directed energy deposition定向能量沉积,下述简称DED)增材工艺过程中,由于零部件的重复加热,极易产生部件的变形问题。借助专业的金属定向能量沉积仿真软件Simufact Welding,能够对目标件进行瞬态数…

线稳源极跟随 线性电源前端降压

功率MOSFET线性电源涉及跟随.ms14 根本原理是Vgs对Id的控制,Vgs越大,Id越大,反之亦然。 观察转移特性曲线,结合接线图可知,电路稳定后,如果负载电阻增大,则Vsgnd增大,由于Vggnd有稳…

负压式水帘风机和一体式水帘风机的特点

负压式水帘风机和一体式水帘风机各有其独特的特点,以下是它们的特点归纳: 负压式水帘风机特点: 高效节能: 通过水帘与负压风机的配合,模拟自然界的蒸发降温过程,耗电量仅为传统空调的十分之一&#xff0c…

Liinux:进程程序替换

替换原理 用fork创建子进程后执行的是和父进程相同的程序(但有可能执行不同的代码分支),子进程往往要调用一种exec函数以执行另一个程序。当进程调用一种exec函数时,该进程的用户空间代码和数据完全被新程序替换,从新程序的启动例程开始执行。调用exec并不创建新进程,所以调用e…

Java常用的设计模式,如单例模式、工厂模式、观察者模式等

设计模式是软件工程中的一种解决方案,用于应对常见的设计问题和挑战。它们提供了一种标准化的方式来解决设计难题,使代码更加灵活、可扩展和易于维护。 单例模式(Singleton Pattern) 概述 单例模式确保一个类只有一个实例&…

Lua解释器裁剪

本文目录 1、引言2、文件功能3、选择需要初始化的库4、结论 文章对应视频教程: 已更新。见下方 点击图片或链接访问我的B站主页~~~ Lua解释器裁剪,很简单~ 1、引言 在嵌入式中使用lua解释器,很多时候会面临资源紧张的情况。 同时&#xff0c…

木头姐预测:2029年特斯拉股价将达2600美元,市值8.2万亿美元

ARK预计特斯拉将在未来两年内推出robotaxi服务,并估计到2029年特斯拉近90%的市值和盈利将归功于robotaxi业务。此外研究表明,FSD模式下的特斯拉比人类驾驶的特斯拉安全约5倍,比道路上的普通汽车安全约16倍。 北京时间12日晚,木头姐…

如何识别和管理软件测试风险?

TestComplete 是一款自动化UI测试工具,这款工具目前在全球范围内被广泛应用于进行桌面、移动和Web应用的自动化测试。 TestComplete 集成了一种精心设计的自动化引擎,可以自动记录和回放用户的操作,方便用户进行UI(用户界面&…

通用大模型和垂直大模型,如何选择?

通用大模型和垂直大模型在多个方面存在显著的区别。就像生活中的全才能手和行业里的高精专家,各有千秋,各有魅力。从专业角度分析,他们有以下这些区别: 1.定义与特点: 通用大模型: 是一…

跨界合作机会:通过淘宝数据挖掘潜在的合作伙伴与市场拓展方向

淘宝平台汇聚了众多商家和消费者,生成了大量的交易数据,这些数据为商家提供了挖掘跨界合作机会和市场拓展方向的丰富线索。以下是如何利用淘宝数据来寻找潜在的合作伙伴和探索新的市场机会的一些策略: 消费者行为分析:通过跟踪消费…

1.Element的table表高度自适应vue3+js写法

解决方法 在页面table上添加id,动态计算每页table的最大高度 ,将高度保存在store中,每次切换路由时进行计算。 文章目录 解决方法前言一、页面table使用二、store状态库1.引入库 效果 前言 提示:状态管理使用的是pinia,用法参考…

湿气难除?可能是方法用错了!看完这篇,精准祛湿!

立夏过后,你是不是也经常有这样的感觉: 早上睡不醒,越睡越累 脑袋变得沉沉甸甸 手脚像灌了铅,抬不起胳膊,迈不开步子 面对一桌美味也没有胃口 脸上还容易冒油、长痘,浑身有湿漉漉、黏糊糊的感觉&a…

Pikachu上的CSRF以及NSSCTF上的[NISACTF 2022]bingdundun~、 [SWPUCTF 2022 新生赛]xff

目录 一、CSRF CSRF(get) login CSRF(post) CSRF Token 二、CSRF的相关知识点 (1)什么是CSRF? (2)工作原理 (3)CSRF漏洞形成的条件 1、用户要在登录状态(即浏览器保存了该…

【python】else与循环的搭配使用

看代码时发现的一种写法,学习一下。 1.for1)break2)no break 2.while1)break2)no break 几乎所有语言中,else的常用搭配就是if,而在python中else还可以和循环搭配使用,让代码更加pyt…