首个AI高考全卷评测结果出分,大模型“考生”表现如何?

news2024/11/26 6:02:17

内容提要

大部分大模型“考生”语文、英语科目表现良好,但在数学方面还有待加强。阅卷老师点评,在语文科目上,对于语言中的一些“潜台词”,大模型尚无法完全理解。在数学科目上,大模型的主观题回答相对凌乱,且过程具有迷惑性。

正文

6月19日,首个大模型高考全卷评测结果公布。2024年全国高考结束后,大模型开源开放评测体系——司南评测体系(OpenCompass)选取了6个开源模型包括GPT-4o,针对高考全国新课标I卷“语数外”三门课程展开全卷能力测试。

评测结果显示,阿里巴巴开源的Qwen2系列MoE对话模型(Qwen2-72B)、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,在语、数、英三门课程中得分均超过70分。大部分模型“考生”语文、英语科目表现良好,但在数学方面还有很大的提升空间。其中,书生·浦语2.0文曲星(InternLM2-20B-WQX)取得了数学单科的最高分,超越包括GPT-4o在内的所有模型。

司南评测体系OpenCompass是由上海人工智能实验室在去年7月的世界人工智能大会上推出,目前升级为OpenCompass2.0,构造了一套中英文双语评测基准,涵盖语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等方面。

大模型语言能力表现良好,但数学有待提高

司南评测体系团队选取了GPT-4o及在2024年高考前开源的6个模型参与本次“大模型高考”评测。评测采用全国新课标I卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 “闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。

评测模型包括:法国AI创业公司Mistral于2024年4月17日开源的对话模型(Mixtral 8x22B)、零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型(Yi-1.5-34B)、智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本(GLM-4-9B)、上海人工智能实验室于2024年6月4日开源的书生·浦语2.0系列文曲星大语言模型(InternLM2-20B-WQX)、阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型(Qwen2-57B)、阿里巴巴于2024年6月6日开源的72B稠密模型(Qwen2-72B)。

上述模型的高考“语数外”三科成绩结果如下表所示:

测评的大模型语数外得分情况 来源:上海市人工智能实验室

总分前三名阿里巴巴开源的Qwen2系列MoE对话模型(Qwen2-72B)、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)对应得分率分别为72.1%、70.5%和70.4%。大部分模型在“语言”本质上的表现良好,语文平均得分为67分,英语更是达到了81分。

而数学则是所有大模型的短板,平均得分率仅为36%。得益于研究团队在数学推理上的投入,书生·浦语2.0文曲星(InternLM2-20B-WQX)取得了75分的最高分,超过所有受测模型。然而仍未达到及格水平,这表明大模型的数学能力存在较大提升空间。

阅卷老师点评:大模型数学主观题回答凌乱

参与评测的所有开源模型,权重均在2024年6月7日高考题目公布前开源,避免了“数据污染”和“刷题”风险,与真实高考严格的“闭卷考试”一致,不存在“作弊”可能。

为贴近高考评卷模式,联合团队邀请多位具有阅卷经验的高中教师对模型主观题答案评分,每份考卷至少由3位教师分别打分。本次在完成所有大模型答卷的评卷工作后,研究人员同时邀请了各科教师对大模型表现进行了整体分析,为模型能力提升策略提供参考。

阅卷教师认为,在语文科目上,模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。

在数学科目上,阅卷教师表示,大模型的主观题回答相对凌乱,而且过程具有迷惑性,甚至出现了过程错误但得到正确答案的情况。此外,大模型的公式记忆能力较强,但无法在解题过程中灵活引用。

相较于语文和数学,阅卷教师认为,在英语科目上大模型整体表现良好,但部分模型由于不适应题型,在七选五、完形填空题等题型得分率较低。大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。

联合团队认为,如同高考阅卷也存在细微差异,由于主观题类型的引入,本次评测也无法做到绝对的公平。

司南评测体系OpenCompass于2023年7月由上海人工智能实验室在世界人工智能大会上推出,目前升级为OpenCompass2.0,构造了一套中英文双语评测基准,涵盖语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等方面。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1849196.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

关于运用人工智能帮助自己实现英语能力的有效提升?

# 实验报告 ## 实验目的 - 描述实验的目标:自己可以知道,自己的ai学习方法是否可以有效帮助自己实现自己的学习提升。 预期结果:在自己利用科技对于自己进行学习的过程中,自己的成长速度应该是一个幂指数的增长 ## 文献回顾 根据…

LabVIEW开发电机故障监测系统

开发了一套基于LabVIEW的智能电机故障监测系统,通过实时监测和分析电机运行参数,实现故障预测和诊断。系统集成了振动传感器、温度传感器、数据采集模块和分析模块,利用RS-485通信总线和Modbus协议确保数据的高精度实时传输,故障预…

Bootloader -- U-Boot 介绍

Bootloader -- U-Boot 介绍 1 介绍1.1 概述1.2 知名 BootloaderLILO (Linux Loader)GRUB (GNU GRand Unified Bootloader)LoadlinROLO (Rockbox Loader)EtherbootLinuxBIOS (现在叫 coreboot)BLOBU-BootRedBoot 1.3 BootLoader 和 Monitor 区别1.4 U-Boot 的源码结构1.5 U-Boot…

Keil MDK生成LIB库以及使用LIB库

一.keil下lib静态库的使用具有以下优点: 1.封装源代码,对外不开放,提高保密性。 2.将标准功能函数封装成库,提高代码的复用性。 3.使用库开发,简化开发流程,提高开发效率。 4.系统调用库函数&#xff0…

无人直播不封号美女舞团3.0 多重防非操作(教程+素材+工具)

在这个数字化的时代,直播已经成为了一种新的商业模式。然而,如何打造一个24小时自动循环播放的直播间,并通过此获得收益,却是许多人面临的挑战。本文将介绍如何通过使用OBS和咩播软件,创建一个能够吸引人们进入直播间并…

VMware vSphere Bitfusion 4.5.4 - 面向 AI 和 ML 应用提供弹性基础架构

VMware vSphere Bitfusion 4.5.4 - 面向 AI 和 ML 应用提供弹性基础架构 请访问原文链接:VMware vSphere Bitfusion 4.5.4 - 面向 AI 和 ML 应用提供弹性基础架构,查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org VM…

VBA学习(18):VBA制作任意工作表均可使用的聚光灯

在需要制作聚光的工作簿&#xff0c;按<ALTF11>组合键&#xff0c;打开VBE编辑器。在右侧[工程资源管理器窗格]选中ThisWorkbook模块&#xff0c;将以下代码复制粘贴到该模块的代码窗口。 Private Sub Workbook_SheetSelectionChange(ByVal Sh As Object, ByVal Target …

软件缺陷及JIRA工具

一、软件缺陷及跟踪流程 1&#xff0c;软件缺陷信息 案例 &#xff08;1&#xff09;缺陷报告的基本内容 缺陷的标题 预置条件 重现步骤 期望结果 实际结果 &#xff08;2&#xff09;软件缺陷的状态 新建 打开 修复 关闭 &#xff08;3&#xff09;软件缺陷的严重程度 …

NeRF从入门到放弃3: EmerNeRF

https://github.com/NVlabs/EmerNeRF 该方法是Nvidia提出的&#xff0c;其亮点是不需要额外的2D、3Dbox先验&#xff0c;可以自动解耦动静field。 核心思想&#xff1a; 1. 动、静filed都用hash grid编码&#xff0c;动态filed比静态多了时间t&#xff0c;静态的hash编码输入是…

Python文件与面向对象知识点

目录 文件的基本概念 文件的读取 文件的追加 文件的写入 with语句 知识总结 面向对象的基本概念 类和实例 对象的属性和方法 类属性与方法 面向对象的三大特性 知识总结 文件的基本概念 文件的读取 文件的追加 文件的写入 with语句 知识总结 面向对象的基本概念 …

windows如何查看硬盘类型(查看磁盘类型)(查看是固态硬盘ssd还是机械硬盘hdd)(Windows优化驱动器——媒体类型)

文章目录 方法&#xff1a;使用Windows优化驱动器1、在任务栏搜索框中输入“优化驱动器”并打开它。2、在优化驱动器的窗口中&#xff0c;查看每个驱动器旁边的“媒体类型”。3、如果列出的是“固态驱动器”&#xff0c;那么它是SSD&#xff1b;如果是“硬盘驱动器”&#xff0…

新手充电-boost升压电路解析

1.boost升压电路解析 本篇文章从充放电两个方面来对Boost电路的原理进行了讲解。并在最后补充了一些书本上没有的知识,整体属于较为新手向的文章,希望大家在阅读过本篇文章之后,能对Boost电路的基本原理有进一步了解。 Boost电路是一种开关直流升压电路,它能够使输出电压高…

FuTalk设计周刊-Vol.031

&#x1f525;AI漫谈 热点捕手 1、如何用自然语言 5 分钟构建个人知识库应用&#xff1f;我的 GPTs builder 尝试 开发者的想象力闸门一旦打开&#xff0c;迎接我们的必然是目不暇接的 AI 应用浪潮冲击。 链接https://sspai.com/post/84325 2、GPT-4 Turbo、功能融合&#x…

基于java+springboot+vue实现的电商应用系统(文末源码+Lw)241

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本电商应用系统就是在这样的大环境下诞生&#xff0c;其可以帮助管理者在短时间内处理完毕庞大的数据信息&a…

轨道地铁智能录音无线通信解决方案

一、行业背景 随着社会经济和通信行业的迅速发展&#xff0c;电话已成为企业运作中必不可少的联络手段。但电话作为即时沟通手段&#xff0c;往往无法进行事后追溯和复盘&#xff0c;容易造成不必要的麻烦。尤其在交通轨交行业领域&#xff0c;对语音工作的发生过程更需要有个…

功率电源中器件的温升与极限工作温度

功率电源中器件的温升与极限工作温度 熟悉电子电路设计的朋友一定都知道,在电源整体设计中存在一些发热非常严重的器件,如整流桥、MOS管、快恢复二极管这些器件。而在功率电源中,电感和高频变压器则成为了发热现象的重灾区。那么在功率电源中,它们的合理温升应该是多少,在…

Python一文轻松搞定正则匹配

一、前言 日常工作中&#xff0c;不可避免需要进行文件及内容的查找&#xff0c;替换操作&#xff0c;python的正则匹配无疑是专门针对改场景而出现的&#xff0c;灵活地运用可以极大地提高效率&#xff0c;下图是本文内容概览。 ​ 二、正则表达式符号 对于所有的正则匹配表达…

C#实现卷积平滑(图像处理)

在C#中使用卷积滤波器来实现图像平滑处理&#xff0c;我们可以使用 System.Drawing 库来操作图像。下面是一个具体的示例&#xff0c;演示如何加载图像、应用卷积平滑滤波器&#xff0c;并保存处理后的图像。 1. 安装 System.Drawing.Common 首先&#xff0c;确保你已经安装了…

虚拟机没关机,电脑直接关机导致虚拟机无法使用

虚拟机没关机&#xff0c;电脑直接关机导致虚拟机无法使用 虚拟机未正常关机 无法打开虚拟机&#xff0c;移除 删除虚拟机目录下的该文件夹CentOSXX.vmx.lck&#xff08;或者重新命名&#xff09; 虚拟机正常打开

手写docker:你先玩转namespace再来吧

哈喽&#xff0c;我是子牙老师。今天咱们聊聊Linux namespace 瓦特&#xff1f;你没听过namespace&#xff1f;那有必要科普一下了&#xff1a;namespace是Linux内核提供的一种软件性质的资源隔离机制。容器化技术&#xff0c;比如docker&#xff0c;就是基于这样的机制实现的…