文章目录
- 题目
- 摘要
- 简介
- 相关工作
- 问题表述
- 实验
- 用户研究
- 结论
题目
具有难度级别控制的自动教育问题生成
论文地址:https://link.springer.com/chapter/10.1007/978-3-031-36272-9_39
摘要
我们考虑自动生成各种难度的数学应用题 (MWP),以满足教师在相应教育阶段教学和测试学生的需求。现有方法无法生成高质量的问题,同时允许教师控制问题难度级别。在这项工作中,我们引入了一个可控的 MWP 生成管道,该管道从具有各种专家模型组件的能量语言模型中采样以实现目标属性。我们通过对方程式、词汇和主题施加约束,从数学和语言方面控制生成的 MWP 的难度。我们还使用其他控制属性,包括流畅度和与条件序列的距离,来管理语言质量和创造力。实验和评估结果表明,我们的方法在生成可解、格式良好且具有受控难度级别的多样化 MWP 方面有所改进。最后,我们征求了各种数学教育者的反馈,他们认可我们的系统对他们的 MWP 设计过程的有效性。他们认为我们的输出符合问题设计者的期望,表明在现实生活中的教育场景中使用此类问题生成器的可能性。我们的代码和数据可根据要求提供。
关键词:数学应用题生成·自动教育问题生成·可控文本生成
简介
数学应用题 (MWP) 是一种重要的教学工具,它通过现实世界的情况和故事向学生传授算术和情境推理技能 [11,18]。由于 MWP 广泛应用于教育 [9,17] 和学生不同学习阶段的公共标准化测试,这些不同难度级别的问题需求量很大。然而,MWP 通常由人类专家创建,手动构建和更新具有不同难度的题库成本高昂 [11]。这导致人们越来越关注自动生成具有可控难度的 MWP [8,20]。
先前基于模板的研究已经探索了在 MWP 生成中施加难度控制 [8,20]。然而,由于依赖固定模板和领域知识,它们的结果在质量和多样性方面受到限制。最近的研究 [21,24] 越来越依赖于通用的基于神经网络的文本生成模型。虽然这些模型产生的输出具有高语言质量和有效的数学关系,但它们对问题难度的控制有限;因此它们往往只输出简单的问题。此外,由于缺乏可控性,很难将新的用户约束纳入这些方法中,导致这些方法在教育领域的采用率很低。
在这项工作中,我们提出了一个 MWP 生成框架,允许生成具有预定难度级别的可解、格式良好和创新的问题。我们没有将“难度”视为黑匣子,而是遵循 [4,18] 从学习科学领域出发,将这个概念分解为数学和语言难度。我们允许对解方程施加约束来管理数学难度,并允许对主题和词汇施加约束来控制语言难度。
我们的系统采用混合搭配语言模型 (M&M LM) [16],该模型使用 Gibbs-Metropolis-Hastings 采样器 [6] 从能量 LM 中采样。我们的能量值由专家模型的分数组成,包括主题鉴别器、方程生成器、用于评估流畅度的大型预训练 Masked LM (MLM),以及用于测量与条件问题距离的 Hamming 距离和 BertScore [23]。与之前基于神经网络的方法相比,这种基于能量的模型可以轻松集成各种约束并修改现有约束。
我们使用自动和人工评估来评估结果的质量和难度可控性。与以前的方法相比,自动评估显示困惑度、连贯性和与条件问题的距离都有所改善。然后,我们请几位人工评估员评估生成问题的 5 个方面:格式正确性、可解性、创造性、主题匹配和难度匹配。评估结果表明,我们的系统在语言质量、可解性、创新性以及主题和难度的可控性方面都有所改进。我们通过对真实数学老师的用户研究进一步检验了系统的可用性。本研究中的老师认为,我们的结果与数据集中人类编写的结果几乎没有区别。我们发现这非常令人鼓舞,因为它使自动问题生成方法更接近于在真实教育环境中的部署。
相关工作
MWP 生成:早期对 MWP 生成的探索使用基于模板的方法 [8,17,20]。他们基于手工制作的模板的生成结果多样性有限,这可能导致死记硬背。Wang 等人 [20] 对方程复杂性和冗余量施加了难度控制。他们的结果范围有限,语言质量也有限。Khodeir 等人 [8] 探索了用修辞方案描述的问题的难度可控生成。
图 1. 说明 M&M 采样程序的一个步骤的示意图。
最近的大部分研究都是基于神经网络的生成模型 [13,21,24]。Koncel-Kedziorski 等人 [9] 提出了一种基于替换的方法。他们通过替换内容词来改变种子问题的主题,同时保持句法和语义属性。上述工作不允许难度控制。大多数生成的问题都是初级水平的。
可控文本生成:我们的任务与新兴的生成满足某些控制属性和约束的文本的研究密切相关 [5,12,25]。在这项工作中,我们采用 M&M LM [16],它将可控生成视为从基于能量的模型中采样。它允许将我们的约束编码为能量分量并方便地混合它们。
问题表述
我们的目标是生成满足某些约束的 MWP。图 1 显示了我们框架的概述。我们假设为所需问题提供了一组目标属性,即问题难度级别 d、主题 t 和方程 e。我们系统的目标是输出一个新颖的、结构良好的问题 q,其主题为 t,解方程为 e。q 还应满足难度为 d 的词汇约束,即它不应使用比所需难度级别 d 更复杂的单词。我们通过两个任务设置生成 q:主题迁移和文本重写。主题迁移从难度为 d、主题为 t 和解为 e 的种子问题 q 开始,其中 t 和 t 不相同。目标是生成具有相同特征但不同主题的问题。对于文本重写,t 等于 t。这里的目标是产生具有目标难度和数学概念的多样化问题,帮助学生练习并避免死记硬背。
我们的工作使用通用的可控文本生成模型 Mix and Match (M&M) LM [16] 作为主干。通过这种方法,我们通过从基于能量的模型 中采样来生成 q = (¯q1…q¯m),其中 Q 表示可能的问题候选空间,而由 θ 参数化的 E(q; θ) 指的是 q 的能量。我们在第 4.1 和 4.2 节中描述了为可控难度 MWP 生成设计的词汇约束和能量函数的细节。
我们将目标难度施加的词汇约束直接纳入抽样过程中。具体来说,我们通过习得年龄 (AoA) [10] 来约束生成的样本。AoA(¯qn) 指的是孩子通常习得新单词的年龄。 我们要求抽样问题仅包含 AoA 低于某个难度阈值 Thresd 的单词。此约束可确保输出问题 q 中的单词在目标学生的知识范围内。在马尔可夫链蒙特卡洛 (MCMC) 步骤 i 中,当前问题 qi 的随机位置 n 被屏蔽,并提出新问题 qi+1。从数学上讲,我们接受 qi+1 的概率为
这里,如果条件 c 为 True,则 1© = 1,否则为 0。pmlm 表示第 n 个位置的 MLM 条件 softmax。
我们使用多种方式对新问题 q 的能量 E(q|q , t, e; θ) 进行建模,以实现生成问题中的所需属性。我们定义:
能量函数的各个组成部分如下: – Eeq(q|e):方程能量测量 q 的解方程与目标方程 e 之间的 Levenshtein 距离。这有利于生成接近目标方程的解的问题,从而控制生成的问题的可解性和数学难度。我们从预训练模型 EqGen(第 5.3 节)中获得预测解,然后定义 Eeq(q|e) = Levenshtein(EqGen(q), e)。
- Etopic(q|t): 该能量分量定义为给定问题 q 时,主题分类模型 (第 5.3 节) 对目标主题 t 的 logit。
- Efluency(q): 该分量对 q 的流畅性进行建模。具体来说,我们使用 MLM (第 5.3 节) 来判断问题的良好格式 [23]。对于长度为 N 的问题 q,Efluency(q) = − N n=1 f qn, h q\n /N,其中 qn 是第 n 个标记,h s\n 是 MLM 学习到的表示,包含 qn 周围两个方向的上下文。f qn, h q\n 是位置 n 处的原始 logit。它是通过 MLM 的前向传递计算得出的,同时屏蔽了第 n 个位置 [6]。
- Edist hamm(q|q ) 和 Edist bert(q|q ): 给定一个种子问题 q ,这两个量定义为 q 和 q 之间的汉明距离(由 q 的长度归一化)和 BertScore [23]。它们可用于鼓励在 token 和语义层面上进行更改,并产生创造性的输出。
实验
我们从 ASDiv [15] 和 GSM8K [3] 构建了一个基本种子集,从 MathQA [1] 构建了一个高级种子集。基本种子集包含 7K 个针对小学生的问题,可以使用运算符 +、-、* 和 / 在 4 步内(一个运算符算一步)解答。高级种子集中的 6.7K 个 GRE/GMAT 问题需要使用相同的四个运算符进行 5 到 10 个求解步骤。使用更复杂的运算符解决的问题留待将来探索。两个种子集的问题和方程式都经过预处理,用特殊标记 num1、num2 等替换问题中的数字。方程式中的子结果用 sub1、sub2 等替换,最终答案用标记 unk 表示。对于问题主题,我们使用 TF-IDF 向量执行 K 均值聚类,并为每个聚类分配一个主题标签。我们有 6 个主题类别:基础日常、金钱、物理和高级日常、金钱、物理。从表 1 中的统计数据和表 2 中的示例种子问题可以看出,大多数基础问题都贴近小学生的日常生活,而高级问题则涉及利润和速度等更抽象的概念。
表 2. 生成的 MWP 示例。BTT、BTR 和 ATR 分别指基础级主题转移、基础级和高级级文本重写。D、M 和 P 表示主题日常、金钱和物理。下标 B 和 A 代表基础级和高级级。
任务:BTT;目标主题:MB;种子主题:DB 种子:希尔特太太在蜂巢里看到了 num1 只蜜蜂。第二天,她看到了 num2 倍的蜜蜂。第二天她看到了多少只蜜蜂?输出:希尔特太太花了 num1 美元买了一个蛋糕,第二天她花了 num2 倍的金额。第二天她到底花了多少钱?
任务:BTR;目标主题:PB;种子主题:PB 种子:希尔特太太测量了她的书柜。它长 num1 英寸。书柜长多少英尺?输出:福斯特太太把她的书柜扩大到 num1 英寸宽。
她的书柜宽多少英尺?
任务:ATR;目标主题:PA;种子主题:PA 种子:一名骑自行车的人以平均速度 num2 公里/小时骑行 num1 公里,然后以平均速度 num4 公里/小时再次骑行 num3 公里。 整个行程的平均速度是多少? 输出:一名学生以平均速度 num2 公里/小时开始他的行程 num1 公里。他以另一个平均速度 num4 公里/小时继续骑行 num3 公里。他整个行程的平均速度是多少?
我们的实验包括:(1) 将 15 个随机抽样的基本日常问题转换为基本货币和基本物理输出,记为 OursBTT;(2) 从基本主题和高级主题中各重写 10 个随机抽样的种子,记为 OursBTR 和 OursATR。表 2 展示了生成结果的示例。主题转移任务仅针对基本问题生成执行,因为在高级水平上的初步测试产生的结果不太令人满意。原因可能是高级问题针对每个主题都有更专门的故事情节,转移到另一个主题需要更多的 token 替换,因此更具挑战性。对于 OursBTT,我们在等式中设置超参数 α、β、δ 和 φ。 1 为 7000、1000、0 和 0。γ 在 10、20、30、50、100 和 200 之间调整。对于 OursBTR 和 OursATR,α、β、γ 设置为 1000、1000、100。δ 和 φ 被赋予相同的值,并在 500、1000 和 2000 之间调整。我们的系统为 10 个并行输出中的每一个运行一个单独的 MCMC 链 300 个 epoch。一个 epoch 是指以随机顺序对所有位置进行一个掩蔽循环。
我们在种子集上(第 5.1 节)对 Eeq 和 Etopic 使用经过微调的 T5-large 和 BertForSequenceClassification。bert-base-uncased 和 bert-large-uncased 在种子集上微调用作 MLM,用于计算效率并在采样过程中提供提案分布。我们在基础级问题生成中应用 bert-base-uncased,因为它的多样化提案有利于主题迁移和创新问题生成。在高级实验中使用 bert-large-uncased,它可以产生具有更高一致性的复杂故事情节。以上所有模型均来自 Huggingface [22]。T5-large、BertForSequenceClassification、bert-base-uncased 和 bert-large-uncased 针对 8、5、5 和 5 个 epoch 进行了微调,批大小分别为 8、32、16 和 16。我们使用 AdamW 优化器 [14],学习率分别为 1 × 10−4、2 × 10−5、5 × 10−5 和 5 × 10−5。
我们将结果与以下基线进行比较: – GPT2 [19] 是基于原始 GPT2 的 MWP 生成模型。其输入是难度级别、主题、方程式和数学问题的串联。具有基础级和高级级输入的 GPT2 表示为 GPT2B 和 GPT2A。
- MAGNET [24] 是一个基于(双向)门循环单元 (GRU) [2] 的 seq2seq 模型,它融合了来自主题和方程式的信息,并利用实体强制损失来增强与给定方程的相关性。我们使用 MAGNETB 和 MAGNETA 来表示以基础和高级级别的主题和方程式为输入的模型。
- 主题重写器 [9] 是一种针对文本连贯性度量进行优化的重写基础方法。它改变了种子问题的主题,同时保持了它们的故事情节。我们的模型和主题重写器上的实验共享相同的任务设置和种子问题。使用主题重写器进行的基础级主题迁移、基础级文本改写和高级级文本改写任务分别表示为 TRBTT、TRBTR 和 TRATR。
GPT2 基线使用 Huggingface [22] 中的 GPT2-small 初始化。它在我们的种子集(第 5.1 节)上使用 AdamW 优化器 [14] 进行了 7 个时期的微调,学习率为 5 × 10−5,批大小为 16。我们使用其余两个基线的已发布代码进行实验。
评估和观察我们对 OursBTT、OursBTR、OursATR、TRBTT、TRBTR 和 TRATR 中的 30 个 top1 结果以及 MAGNETB、MAGNETA、GPT2A 和 GPT2B 中的 30 个随机抽样输出进行了评估。自动评估指标用于评估生成的 MWP 的语言质量和创造力。我们使用 GPT2-large [22] 计算的困惑度 (PPL) 值来表示我们的结果。facebook/bart-large [22] 按照 CTRLEval [7] 的方法用于连贯性评估。对于创造力,报告了输出 MWP 与其种子问题之间的汉明距离和 BertScore [23] 来衡量词汇和语义差异。
自动评估结果列于表 3 中。对于基本级别,我们可以看到 OursBTT 和 OursBTR 在连贯性和 BertScore 方面优于其他。虽然 GPT2、MAGNET 和 OursBTR 显示出相当的 PPL 分数,但我们模型的更好连贯性分数表明我们的结果更合乎逻辑,句子之间更一致,这对于格式良好且可解的 MWP 是必要的。此外,汉明距离和 BertScore 表明,与它们的种子相比,我们的模型导致语义上更加多样化的输出,同时词汇变化更少。 OursBTT 和 OursBTR 的表现体现了语言质量和创造力之间的折衷,OursBTT 以牺牲流畅度为代价提供了创新的结果,而 OursBTR 则相反。对于高级水平,OursATR 在所有指标上的表现都优于基线。
人工评估。我们邀请了 10 名计算机科学、机械工程和经济学专业的研究生作为评估员。他们每个人都回答了一份多项选择题 (MC) 的评估问卷,内容涉及以下问题质量方面:– 格式正确性:这检查问题的语义正确性。注释量表为是、可接受和不可接受。我们的结果表明,尽管存在一些语法错误,但生成的问题的含义仍然在很大程度上是可以推断的。
- –可解性:这检查问题在数学上是否可以解决。注释量表为是或否。
- 主题匹配:这评估问题是否属于目标主题。注释量表为是和否。我们为每个主题类别为评估员提供了 3 个示例种子问题供他们参考。
- 创造力:这检查生成的问题与其种子问题相比是否具有创新性。注释量表为是、可接受和不可接受。当仅更改背景信息(与计算无关)但生成的问题与种子不太接近时,选择后者,从而实现死记硬背。通过与种子问题进行比较,可以评估基于重写的方法(我们的模型和主题重写器)。
从表 4 中的人工评估结果来看,我们的方法在两个难度级别上的所有维度上都提供了更好的性能。OursBTT 的主题匹配率表明,借助主题鉴别器,我们的模型在大多数情况下可以成功地将基本日常问题转移到其他基本主题的问题上。相比之下,TRBTT 未能进行迁移,因为 tf-idf 分数导致三个基本主题的主题相关内容词相似。主题重写器方法需要应用于更多5.6 难度可控性分析
对于5.5节中提到的MWP,10位研究生还从题目整体、题目内容、方程三个维度评估了题目难度是否与目标匹配。题目难度匹配标记为是或否。方程和整体难度匹配的标注量表为是、否和不确定。如5.1节所述,基础水平的方程求解步骤不超过4步,而高级水平的方程求解步骤为5到10步。如果问题无解,则方程难度不确定。如果主题难度匹配,但方程难度不确定,则整体难度不确定。根据表 5 的结果,我们的系统可以成功控制大多数输出的所有三个维度的难度级别。虽然主题重写器方法的主题难度匹配率高于其他基线,甚至与我们的方法相当,但其生成的问题中很大一部分是无解的,这使得无法确定它们的方程难度和整体难度。
图 2. 来自人类专家的用户研究结果。左图:被识别为人为生成或计算机生成的 MWP 的百分比。右图:MWP 在现实教育活动中的实用性百分比。
用户研究
为了验证我们可控制难度的 MWP 生成系统在不同年级的真实课堂中的可用性,我们邀请了 Upwork2 的三位数学教育工作者来评估我们生成的问题的质量和难度。教师小学和大学的数学教学和数学内容开发经验各不相同。
我们向教师展示了两组数学问题。一组包含来自 OursBTT 的 30 个 top1 输出、来自 OursBTR 的 30 个 top1 输出和从基础种子集 (GoldBasic) 中随机抽取的 10 个问题。另一组由来自 OursATR 的 30 个 top1 结果和从高级种子集 (GoldAdanced) 中随机抽取的 10 个问题组成。对于这两组中的每个问题,教师被要求 1) 检查它是否适合小学生;2) 区分它是由人类数学专家还是计算机制作的;3) 评估它是否可以在他们的现实生活中的课程、作业和考试中使用。
图 2. 来自人类专家的用户研究结果。左图:被识别为人为生成或计算机生成的 MWP 的百分比。右图:MWP 在现实教育活动中的实用性百分比。
图 2 中数学老师的反馈显示,我们生成的两个难度的大多数问题都被识别为人类编写的。我们在基础和高级难度级别的结果中,90% 以上可以直接用于中小学教育活动,或者只需进行微小修改即可消除学生可能产生的困惑。他们可以接受的微小修改意味着最多更改三个单词或重新排列一个句子的词序。其余结果可以作为参考,帮助教师比从头开始更快地提出新问题。教师们建议我们的框架可以有效地帮助他们创建 MWP,并减少他们编写小说情节的努力。总的来说,老师们鼓励我们开发自动教育问题生成系统。他们对我们框架的未来更新很感兴趣,该框架可以为每个年级生成 MWP,因为每个老师通常负责一个年级。
结论
我们提出了一个基于能量的可控 MWP 生成框架,它允许我们用数学和语言因素(如方程式、词汇和主题)来限制输出问题的难度。我们表明我们的输出与所需的问题难度相匹配。它们的可解性、主题、语言质量和创造力也满足了人类的期望。最后,我们与数学教育者进行的用户研究验证了我们的框架在教学和测试不同阶段学生方面的实用性。我们未来的工作包括构建所需的资源,以及构建具有更精细难度控制和更多样化数学内容的系统。