当ChatGPT参加中国高考，把全国A卷B卷喂给它后，竟严重偏科

当ChatGPT参加中国高考，把全国A卷B卷喂给它后，竟严重偏科

news2026/2/12 15:01:38

作者 |Python

ChatGPT作为一个智能人机对话应用，在推出后迅速风靡全球。仅仅一个月的时间，其用户数量已经突破了一亿大关。人们也用ChatGPT测试了很多考试项目，例如SAT、AP、GRE等。然而，如果让ChatGPT来参加我们中国的高考，会是怎样的一番光景呢？他会不会偏科呢？我们这些普通人又能否考得过ChatGPT呢？且看复旦大学和华东师大的同学们给大家带来的评测。

论文题目:
Evaluating the Performance of Large Language Models on GAOKAO Benchmark

如何让ChatGPT解答高考题？

该论文采用零监督prompt的方式，将试题转化为ChatGPT的输入，如下图所示。对于不同的学科和题型，设计了不同的询问方式。对于数学题，则将公式转化为latex输入。

alt

高考数据集

本文测试采用2010~2022年，一共13年间的全国A卷和全国B卷，每套试卷包含10门学科，即语数英物化生史地政，其中数学分为理科数学与文科数学。

数据集一共包含2811道试题。具体题型这里就不展开，相信读者们对高考题还是十分了解的。

alt

在评估时，聘请上海市曹杨第二中学的高中老师批阅主观题。

实验与分析

历年高考，ChatGPT取得的分数如下图所示。由于在计算分数时，将每科都归一化到100分，所以这个成绩无法和你我的高考成绩直接比较。但也可以看出，这个分数并不理想，估计无论是复旦还是华东师大都是考不上的。这是为什么呢？

alt

alt

上图展示了ChatGPT在各个学科、以及主客观题上的表现。蓝色为客观题，黄色为主观题。分析发现，ChatGPT对客观题的成绩较好，尤其是英语阅读理解、单选、完形填空，分别取得了88.3%，78.1%，73.8%的准确率。但即使是客观题，理科数学的准确率还不到40%。数学是真的难呀~

主观题上，ChatGPT的表现较差，物理、化学、生物和数学科目中，主观题的表现明显不如客观题。结合理科客观题分数也较差，或许ChatGPT偏向文科？根据阅卷人的评语，ChatGPT主要欠缺在：1.数学问题中的复杂方程难以正确解决，在解题过程中使用了错误的公式。2.阅读较长材料时理解和概括能力不足。

总结

ChatGPT在训练过程中可能没有使用中国高考题数据，因此其表现不受数据泄露的影响，具有较高的可信度。

观察结果显示，与国外考试相比，ChatGPT在中国高考题方面的表现稍逊一筹。因此，国内的学生暂时无需过分担心无法考过ChatGPT。然而，文章中提到的长文本概括能力等在GPT4-32K中有显著改进，国产大模型也在中文数据上做了进一步的优化。因此，我们可以期待未来大模型高考题上取得更瞩目的表现。

此外，用ChatGPT解高考题这个思路，或许可以回答网友们对哪个省的考题更难的争论？

本文由 mdnice 多平台发布

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/576570.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Jetson Orin Nano 快速安装 ROS2 Foxy详解

Jetson Orin Nano 快速安装 ROS2 Foxy详解

大家好，我是虎哥，入手一块Jeston Orin nano 8G模块，这个模块因为是英伟达未来5年左右主推的模块，所以我逐步会将之前所有的应用都在这个模块环境上做适配，本章内容，我将主要围绕安装ROS2 Foxy版本为主展开。…

阅读更多...

探索Java面向对象编程的奇妙世界(四)

探索Java面向对象编程的奇妙世界(四)

⭐ 变量的分类和作用域⭐ 包机制(package、import)⭐ 面向对象三大特征——继承⭐ 继承的作用⭐ 继承的实现⭐ instanceof 运算符⭐ 继承使用要点⭐ 方法重写 override⭐ final 关键字⭐ 继承和组合 ⭐ 变量的分类和作用域变量有三种类型：局部变量、成员变量(也称为…

阅读更多...

Diffusion Model 深入剖析

Diffusion Model 深入剖析

Diffusion Model 深入剖析最近AI生成艺术领域非常火热，从 Midjourney 到 Stable Diffusion，不管你是绘画高手还是艺术小白，只要输入想要绘制内容的描述或者基础图像，就可以生成富有艺术感的画作！ 这些风格各异、以假…

阅读更多...

CodeForces..构建美丽数组.[简单].[情况判断].[特殊条件下的最小值奇偶问题]

CodeForces..构建美丽数组.[简单].[情况判断].[特殊条件下的最小值奇偶问题]

题目描述： 题目解读： 给定数组a[n]，ai>0，问能否得到一个数组b[n]，数组b中的元素都大于0且全奇or全偶。数组b中的元素biai or ai-aj（1<j<n）。解题思路： 数组b中的元素都…

阅读更多...

IDEA代码替换

IDEA代码替换

IDEA代码替换快捷键当前文件内容 C t r l R CtrlR CtrlR 全局替换 C t r l S h i f t R CtrlShiftR CtrlShiftR 使用第一行输入栏：输入被替换内容第二行输入栏：输入替换内容详细使用第一行输入栏后第一个图标：换行第一行输…

阅读更多...

$数论专题（3）逆元$

数论专题（3）逆元

目录初步认识逆元定义应用费马小定理好久没有更新我们的数论专题板块了，今天，我们就来探究一下新知——逆元。初步认识在数据非常大的情景下，我们通常会对数据先进行取模运算，来计算在一定的范围内进行处理。而运算…

阅读更多...

SpringBoot启动扩展应用：干预优化+加快启动时间

SpringBoot启动扩展应用：干预优化+加快启动时间

目录一、SpringBoot启动配置原理简述二、SpringBoot启动过程干预 （一）ApplicationContextInitializer扩展修改Spring Boot默认的environment属性添加自定义的PropertySource 注册自定义bean （二）SpringApplicationRunL…

阅读更多...

【计算思维题】少儿编程蓝桥杯青少组计算思维真题及详细解析第6套

【计算思维题】少儿编程蓝桥杯青少组计算思维真题及详细解析第6套

少儿编程蓝桥杯青少组计算思维真题及详细解析第6套 1、兰兰有一些数字卡片，从 1 到 100 的数字都有，她拿出几张数字卡片按照一定顺序摆放。想一想，第 5 张卡片应该是 A、11 B、12 C、13 D、14 答案：C 考点分析：主要考查小朋友们的观察能力和数学推理能力，从给定的图…

阅读更多...

[Nacos] Nacos Server处理心跳请求 (八)

[Nacos] Nacos Server处理心跳请求 (八)

文章目录 1.InstanceController#beat()1.1 serviceManager.registerInstance()1.2 serviceManager.getService()1.3 处理本次心跳 1.InstanceController#beat() CanDistroPutMapping("/beat")Secured(parser NamingResourceParser.class, action ActionTypes.WRITE…

阅读更多...

面了个字节出来的00后，我见识到了什么叫“自动化测试+性能测试”

面了个字节出来的00后，我见识到了什么叫“自动化测试+性能测试”

前两天看到字节一个老哥写的帖子，提到高阶测试工程师必须掌握的技能，其中他明确提出了“精通性能测试”。为啥性能测试对测试工程师如此重要？ 性能测试是指在特定的负载情况下，测试目标系统的响应时间、吞吐量、并发用户数、资源…

阅读更多...

Eclipse 教程Ⅳ

Eclipse 教程Ⅳ

Eclipse 工作空间(Workspace) eclipse 工作空间包含以下资源： 项目文件文件夹项目启动时一般可以设置工作空间，你可以将其设置为默认工作空间，下次启动后无需再配置： 工作空间(Workspace)有明显的层次结构。项目在最顶级&…

阅读更多...

HTML 教程1

HTML 教程1

HTML文档的后缀名 .html.htm 以上两种后缀名没有区别，都可以使用。 HTML 实例 <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>菜鸟教程(runoob.com)</title> </head> <body><h1&g…

阅读更多...

QTableWidget加载大文件数据

QTableWidget加载大文件数据

由于最近在项目中需要加载几GB的文件，并且需要在QTableWidget中进行显示；粗略估计可能得有几千万行，如果使用常规的方法，直接在QTableWidget中进行全部显示，会比较卡。所以查找相关资料，最终想到了一个比较…

阅读更多...

$算法基础学习笔记——⑧堆\哈希表$

算法基础学习笔记——⑧堆\哈希表

✨博主：命运之光 ✨专栏：算法基础学习目录 ✨堆 🍓堆模板： ✨哈希表 🍓一般哈希模板： 🍓字符串哈希模板： 前言：算法学习笔记记录日常分享，需要的看哈O(…

阅读更多...

【是C++，不是C艹】类与对象 | 认识面向对象 | 访问限定符 | 封装 | this指针

【是C++，不是C艹】类与对象 | 认识面向对象 | 访问限定符 | 封装 | this指针

💞💞欢迎来到 Claffic 的博客💞💞 👉 专栏：《是C，不是C艹》👈 前言： 在C入门之后，就要进入C的第一个核心：类与对象，这期带大家认识认识…

阅读更多...

Multichain跨链无法到账，DApp真去中心化or伪去中心化？

Multichain跨链无法到账，DApp真去中心化or伪去中心化？

团队出问题，DApp就用不了，multichain被不少人质疑伪去中心化，甚至更有人开始质疑web3，那么这到底是怎么回事呢？ 跨链桥问题让DApp的去中心化引发质疑事情是这样的，5月24下午0xscope发推称与multichain有关…

阅读更多...

leetcode 11.盛最多水的容器

leetcode 11.盛最多水的容器

题目描述跳转到leetocde题目给定一个长度为 n 的整数数组 height 。有 n 条垂线，第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。找出其中的两条线，使得它们与 x 轴共同构成的容器可以容纳最多的水。返回容器可以储存的最大水量。说明&#xff…

阅读更多...

RabbitMQ手动ACK与死信队列

RabbitMQ手动ACK与死信队列

为了保证消息从队列可靠的达到消费者，RabbitMQ 提供了消息确认机制（Message Acknowledgement）。默认情况下RabbitMQ在消息发出后就立即将这条消息删除,而不管消费端是否接收到,是否处理完,导致消费端消息丢失时RabbitMQ自己又没有这条消息了…

阅读更多...

spring-Bean管理-springboot原理-Maven高级

spring-Bean管理-springboot原理-Maven高级

spring-Bean管理-springboot原理-Maven高级配置优先级Bean管理1.获取bean2.bean作用域3.第三方bean SpringBoot原理Maven高级1.分模块设计与开发2.继承与聚合3.私服1.介绍2.资源上传与下载配置优先级优先级(低→高) application.yaml（忽略) application.yml appl…

阅读更多...

利用Servlet编写第一个“hello world“(续)

利用Servlet编写第一个“hello world“(续)

利用Servlet编写第一个“hello world“ 🔎通过插件 Smart Tomcat 简化打包代码与部署操作下载Smart Tomcat配置Smart Tomcat 🔎Servlet 中的常见错误404(Not Found)🍭请求路径出错🍭war 包未被正确加载 405(Method Not Allowe…

阅读更多...

推荐文章

最新文章