CJEval:一个基于中国初中考试的多样化考试问题数据集

news2024/9/27 20:36:59

2024-09-26,由腾讯YouTu Lab和北京大学联合发布的CJEval,是一个基于中国初中生考试数据的评估基准,用于测试和分析大型语言模型(LLMs)在教育任务中的表现,从而提高在线教育平台的智能化水平。

一、背景:

在线教育平台 已经显著改变了教育资源的传播,通过提供动态的数字化基础设施。随着这种变革的进一步增强,大型语言模型(LLMs)的出现,如ChatGPT和Llama,标志着人工智能领域的一个巨大飞跃,展现了对人类语言的卓越掌握。然而,现有的学术基准对于现实世界工业场景的指导有限,因为教育应用需要的不仅仅是回答测试问题。

目前遇到的困难和挑战:

1. 教育应用的挑战:

  • 教育应用需要理解学生遇到的具体问题,并应用专门的教学知识来提供有效的解决方案。

  • 需要在语言理解和领域专业知识之间进行复杂的交互,以确保教育干预既准确又符合教学要求。

2. 现有基准的局限性:

  • 现有的数据集主要关注模型在回答考试问题上的准确性。

  • 这些基准主要关注单一类型的问题:多项选择题,这可能无法全面反映模型在教育评估中的综合能力。

二、让我们一起看一下CJEval

CJEval(中国初中生考试评估的基准)是一个新提出的任务,目的是通过使用真实的中国初中考试问题来评估大型语言模型。

数据集,包括26,136个样本,涵盖十个学科的四个应用级教育任务。

数据集的构建:

1、样本收集:收集26,136个样本,覆盖十个学科的考试问题。

2、详细注释:每个样本包括问题和答案,以及详细的注释,如问题类型、难度级别、知识概念和答案解释。

3、任务设计:设计了四个核心任务:知识概念标注、问题难度预测、问题回答和问题生成。

4、数据集分割:训练集:20820个问题,验证集:2106个问题、测试集:3210个问题。总计26136个问题。

数据集特点:

1、多任务:同时提供四个核心任务,覆盖不同类型的教育评估。

2、高质量:通过人工筛选和评估,确保样本的质量和相关性。

3、多学科:覆盖十个不同的学科,包括数学、物理、化学、生物、地理、历史、科学、IT等。

No.S: 表示每种问题类型下涵盖的科目数量。

No.Q: 表示每种问题类型的总问题数量。

Avg.Q Tokens: 表示每种问题类型的平均问题长度(以词元为单位)。

Avg.A Tokens: 表示每种问题类型的平均答案长度(以词元为单位)。

Avg.AE Tokens: 表示每种问题类型的平均答案解释长度(以词元为单位)。

Avg.No.KC: 表示每种问题类型平均每题涉及的知识概念数量。

三、让我们一起展望CJEval应用

应用场景:在线教育平台

比如,我是一个在线教育平台的开发者。

我的工作中需要确保平台的教学内容既准确又符合教学要求。但这个任务非常复杂,需要理解学生的具体问题,并提供有效的解决方案。

当我使用了 CJEval , 它可真是帮了我的大忙!

我告诉它:“嘿,给我评估一下这个数学问题,要确保它符合初中教学大纲,并且难度适中。” 没过多久,它就给了我一个详细的评估报告。我一看,它不仅评估了问题的知识概念,还预测了难度级别,并且给出了答案解释。

我指着报告说:“你看,这个问题涉及到线性方程的知识概念,难度级别是容易的。”

然后,我又指向另一个问题:“这里呢,是一个中等难度的物理问题,涉及到力学的知识概念。”

最后,我给它一个开放式问题:“给我生成一个关于中国历史的分析问题,要求难度较高。” 它生成了一个关于历史事件影响的问题,需要学生进行深入分析和讨论。

不得不说,CJEval可真是个宝贝,它让教育内容的评估变得简单明了,让我的工作轻松多了。而且啊,看到学生因为理解了问题而变得更加自信,我这个做教育的也感到特别自豪和满足。

让我们一起打开数据集地址:CJEval|教育评估数据集|大型语言模型数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2170978.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

(done) 声音信号处理基础知识(11) (Complex Numbers for Audio Signal Processing)

参考:https://www.youtube.com/watch?vDgF4m0AWCgA&t1047s 似乎是因为信号处理需要使用复数,作者花了一节课介绍复数 据油管主所说,声学信号处理中引入复数的原因是:快速完成部分计算 这里的例子是,当我们做傅里…

Python库matplotlib之一

Python库matplotlib之一 plot函数使用列表或数组画线绘图的格式 matplotlib.pyplot 是使 matplotlib 像 MATLAB 一样工作的函数集合。每个 pyplot 函数都会对图形进行一些更改:例如, 创建图形在图形中创建绘图区域在绘图区域中绘制一些线条用标签装饰绘…

Redis --- 第一讲 --- 分布式简单介绍

一、认识Redis 定义变量,不就是在内存中存储数据吗?Redis是在分布式系统中,才能发挥威力的。如果只是单机程序。直接通过变量存储数据的方式势必使用Redis更优的选择。由于进程的的隔离性。进程之间通过网络通信,就能共享数据。Re…

keepalived+nginx实现高可用的案例详解(主主模式)

文章目录 前言keepalived主备模式和主主模式有什么区别1. 主备模式(Master-Backup Mode)2. 主主模式(Active-Active Mode 或 Dual Master Mode)主备模式 vs 主主模式 的区别总结: 环境案例实现具体步骤ngx1ngx2验证 前…

【教学类-56-05】数感训练——数字05(指定数字出现次数,速度快)

背景需求: 昨天有客户订购“阿拉伯数字的数感训练” 我查看文件夹,发现前期没有生成过0-50的数字(只研究了学号数感训练的学具) 赶紧用之前写过的代码生成了一份 【教学类-56-01】数感训练——数字01(同样的数字涂色…

猫头虎分享已解决Bug:npm warn old lockfile Could not fetch metadata for yallist@3.1.1

🐯猫头虎分享已解决Bug:npm warn old lockfile Could not fetch metadata for yallist3.1.1 今天有粉丝问猫哥:“🐯猫头虎,我在使用 npm 安装依赖时遇到了一个错误提示 Could not fetch metadata for yallist3.1.1&am…

凿岩机械液压比例多路阀控制器

工程机械应用的BEUEC比例放大器控制比例多路阀主要应用于以下几大类设备中: 1. 挖掘机械:包括挖掘机、挖掘装载机、挖掘船等,主要用于挖掘土壤、煤和矿石等物料。 2. 铲土运输机械:如推土机、铲运机、装载机等,主要用…

亚马逊测评,容易掉评是什么原因,怎么解决

大家好,今天来深入探讨如何有效提升亚马逊测评中的留评率,并解析那些导致评论掉落或难以留下的常见原因,以便采取针对性的策略来优化这一过程。作为卖家,提升留评率无疑是提升产品曝光度和销量的关键一环。 亚马逊测评掉评与留评…

【机器学习】目标分类算法概述

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 目标分类算法概述传统机器学习方法支持向量机(SVM)决策树和随机森林特征提取 基…

docker_阿里云镜像仓库

1.创建个人实例 登录阿里云——控制台——容器镜像服务——创建个人版实例 2.设置密码 设置后可在终端复制上图2测试 [rootserver ~]# sudo docker login --usernameyou_aliyun_name crpi-8y14tvgewmc6tisz.cn-hangzhou.personal.cr.aliyuncs.com Password: WARNING! Your …

Linux环境下安装python

Linux 环境下安装python 以下是在Linux环境下安装Python - 3.9.4.tgz的详细步骤:1. 下载Python - 3.9.4.tgz(如果未下载)2.解压文件3.安装依赖项(如果需要)4.配置和编译5.安装6.创建一个别名(alias&#xf…

中国车主,撑起天猫又一个万亿赛道

"今年双十一,预计会有超过1亿消费者来淘宝天猫汽车类目消费。3~5年之后,天猫汽车有望冲刺为阿里继大服饰、大快消、家装家电等之后又一个GMV(商品成交总额)破万亿的品类。" 淘天集团汽车事业部总经理、天猫养车总裁无封…

UART配置流程

S3C2440A 的通用异步收发器(UART)配有3 个独立异步串行I/O(SIO)端口,每个都可以是基于中断或基于DMA 模式的操作。换句话说,UART 可以通过产生中断或DMA 请求来进行CPU 和UART 之间的数据传输。UART 通过使…

网络安全 DVWA通关指南 DVWA Weak Session IDs(弱会话)

DVWA Weak Session IDs(弱会话) 文章目录 DVWA Weak Session IDs(弱会话)Low LevelMedium LevelHigh LevelImpossible Level 参考文献 WEB 安全靶场通关指南 相关阅读 Brute Force (爆破) Command Injection(命令注入…

Kafka学习笔记(一)Kafka基准测试、幂等性和事务、Java编程操作Kafka

文章目录 前言4 Kafka基准测试4.1 基于1个分区1个副本的基准测试4.2 基于3个分区1个副本的基准测试4.3 基于1个分区3个副本的基准测试5 Java编程操作Kafka5.1 引入依赖5.2 向Kafka发送消息5.3 从Kafka消费消息5.4 异步使用带有回调函数的生产消息6 幂等性6.1 幂等性介绍6.2 Kaf…

【linux】linux中如何通过Logstash处理、结合logrotate分割日志

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全…

盘点:App 移动自动化测试工具

App移动端测试工具非常多,首先 区分 Android 和 iOS,以及 harmonyos 平台,每个平台下都有自己的自动化测试工具。自动化工具又区分 调试工具、monkey 工具、UI自动化工具。 本文就来盘点以下,当下主流的app自动化测试工具。 Andr…

文档信息提取系统源码分享

文档信息提取检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vis…

客户服务升级指南:如何以细节赢得客户忠诚

在当今这个竞争激烈的市场环境中,客户忠诚度已成为企业生存与发展的关键所在。而要想赢得并维持客户的忠诚,仅凭优质的产品或服务已远远不够,更需要企业在客户服务上下足功夫,从每一个细节入手,打造超越客户期待的服务…

C++简单缓冲区类设计

目录 1.引言 2.静态缓冲区 3.动态缓冲区 4.数据引用类 5.自动数据引用类 6.几种缓冲区的类关系图 7.注意事项 8.完整代码 1.引言 在C中,设计静态和动态缓冲区类时,需要考虑的主要差异在于内存管理的方式。静态缓冲区类通常使用固定大小的内存区域…