2024-09-26,由腾讯YouTu Lab和北京大学联合发布的CJEval,是一个基于中国初中生考试数据的评估基准,用于测试和分析大型语言模型(LLMs)在教育任务中的表现,从而提高在线教育平台的智能化水平。
一、背景:
在线教育平台 已经显著改变了教育资源的传播,通过提供动态的数字化基础设施。随着这种变革的进一步增强,大型语言模型(LLMs)的出现,如ChatGPT和Llama,标志着人工智能领域的一个巨大飞跃,展现了对人类语言的卓越掌握。然而,现有的学术基准对于现实世界工业场景的指导有限,因为教育应用需要的不仅仅是回答测试问题。
目前遇到的困难和挑战:
1. 教育应用的挑战:
-
教育应用需要理解学生遇到的具体问题,并应用专门的教学知识来提供有效的解决方案。
-
需要在语言理解和领域专业知识之间进行复杂的交互,以确保教育干预既准确又符合教学要求。
2. 现有基准的局限性:
-
现有的数据集主要关注模型在回答考试问题上的准确性。
-
这些基准主要关注单一类型的问题:多项选择题,这可能无法全面反映模型在教育评估中的综合能力。
二、让我们一起看一下CJEval
CJEval(中国初中生考试评估的基准)是一个新提出的任务,目的是通过使用真实的中国初中考试问题来评估大型语言模型。
数据集,包括26,136个样本,涵盖十个学科的四个应用级教育任务。
数据集的构建:
1、样本收集:收集26,136个样本,覆盖十个学科的考试问题。
2、详细注释:每个样本包括问题和答案,以及详细的注释,如问题类型、难度级别、知识概念和答案解释。
3、任务设计:设计了四个核心任务:知识概念标注、问题难度预测、问题回答和问题生成。
4、数据集分割:训练集:20820个问题,验证集:2106个问题、测试集:3210个问题。总计26136个问题。
数据集特点:
1、多任务:同时提供四个核心任务,覆盖不同类型的教育评估。
2、高质量:通过人工筛选和评估,确保样本的质量和相关性。
3、多学科:覆盖十个不同的学科,包括数学、物理、化学、生物、地理、历史、科学、IT等。
No.S: 表示每种问题类型下涵盖的科目数量。
No.Q: 表示每种问题类型的总问题数量。
Avg.Q Tokens: 表示每种问题类型的平均问题长度(以词元为单位)。
Avg.A Tokens: 表示每种问题类型的平均答案长度(以词元为单位)。
Avg.AE Tokens: 表示每种问题类型的平均答案解释长度(以词元为单位)。
Avg.No.KC: 表示每种问题类型平均每题涉及的知识概念数量。
三、让我们一起展望CJEval应用
应用场景:在线教育平台
比如,我是一个在线教育平台的开发者。
我的工作中需要确保平台的教学内容既准确又符合教学要求。但这个任务非常复杂,需要理解学生的具体问题,并提供有效的解决方案。
当我使用了 CJEval , 它可真是帮了我的大忙!
我告诉它:“嘿,给我评估一下这个数学问题,要确保它符合初中教学大纲,并且难度适中。” 没过多久,它就给了我一个详细的评估报告。我一看,它不仅评估了问题的知识概念,还预测了难度级别,并且给出了答案解释。
我指着报告说:“你看,这个问题涉及到线性方程的知识概念,难度级别是容易的。”
然后,我又指向另一个问题:“这里呢,是一个中等难度的物理问题,涉及到力学的知识概念。”
最后,我给它一个开放式问题:“给我生成一个关于中国历史的分析问题,要求难度较高。” 它生成了一个关于历史事件影响的问题,需要学生进行深入分析和讨论。
不得不说,CJEval可真是个宝贝,它让教育内容的评估变得简单明了,让我的工作轻松多了。而且啊,看到学生因为理解了问题而变得更加自信,我这个做教育的也感到特别自豪和满足。