Towards Enriched Controllability for Educational Question Generation

news2024/11/15 11:01:41

文章目录

    • 题目
    • 摘要
    • 引言
    • 生成显式和隐式问题
    • 实验设置
    • 结果基线
    • 结论

题目

迈向教育问题生成的丰富可控性

在这里插入图片描述

论文地址:https://arxiv.org/abs/2306.14917

摘要

    问题生成 (QG) 是自然语言处理 (NLP) 中的一项任务,涉及根据输入自动生成问题,输入通常由文本和目标答案组成。QG 的最新研究旨在控制生成问题的类型,以满足教育需求。教育 QG 中可控性的一个显著例子是生成基于某些叙事元素的问题,例如因果关系、结果解决或预测。本研究旨在通过引入一种新的指导属性来丰富 QG 中的可控性:问题明确性。我们建议控制儿童友好故事中显性和隐性 (wh) 问题的生成。我们展示了通过问题明确性单独控制 QG 的初步证据,并同时使用另一个目标属性:问题的叙事元素。代码可在 github.com/bernardoleite/question-generation-control 上公开获取。

关键词:自然语言处理´问题生成´可控性´问题明确性。

引言

    在教育背景下,问题生成 (QG) 可以自动化并协助教师完成一项耗时费力的任务。通过自学和参与计算机生成的练习题,QG 还可以帮助学习者进行形成性评估。然而,自动 QG 工具在课堂上并没有得到广泛使用 [2,8],这是因为生成的问题通常类型和难度级别有限 [2]。正如 Wang 等人 [8] 所指出的,用户强烈希望控制,即人类为 QG 系统提供输入并决定何时使用他们的输出。受这种需求的启发,本研究提出了一个 QG 框架来控制显性和隐性问题的生成,在生成过程中使用问题的显性作为指导属性。一般来说,显性问题以特定的故事事实为中心,而隐性问题则依赖于总结和得出推论来自文本中的隐性信息。
    正如 Xu 等人 [9] 所述,显性和隐性问题的正式定义如下: – 显性问题要求在故事中直接找到答案。 换句话说,答案的来源是文本范围。 – 隐性问题要求在文本中无法直接找到答案。 回答问题需要重新表述语言或进行推断。换句话说,答案来源是“自由形式”,这意味着答案可以是任何自由文本,并且答案的来源没有限制。
值得注意的是,先前的研究 [6,11,9] 表明,显性和隐性问题的组合有助于评估中更加平衡的难度。

    为了实现我们的目标,我们使用了一个名为 FairytaleQA [9] 的最新数据集,其中包含来自儿童友好故事的问答 (QA) 对。 每个问题都由专家注释者归类为“显式”或“隐式”。 之前的一些研究已经解决了教育问答系统中的可控性问题。例如,Ghanem 等人 [1] 控制问题所需的阅读理解技能,例如,描述性语言和总结。同样,Zhao 等人 [10] 控制生成问题背后的叙述元素,例如因果关系、结果解决或预测。他们使用与本研究相同的数据集 FairytaleQA,其中每个问题除了显式性之外,还根据所引用的叙述元素进行分类。

生成显式和隐式问题

    在本研究中,我们使用可控机制对 T5 预训练模型 [5] 进行微调,以生成显式和隐式问题。T5 是一个文本到文本的生成模型,在包括问答和总结在内的多个自然语言生成基准上取得了最佳效果。我们训练模型来为特定的故事文本生成问题和答案。为了控制所生成问题的明确性,我们在输入的开头(故事文本之前)添加一个特殊标记 ,后跟explicit 或 implicit属性。此属性指导系统生成所需类型的问题。其他特殊标记(

、 和 )用于分隔模型的输入和输出信息。

    该技术基于最近的一项研究 [10],旨在控制以另一个目标属性为条件的 QG:问题的叙述元素。我们还研究同时控制问题的明确性和目标属性。为此,除了 之外,我们还在前面添加 ,后跟叙述属性名称。

实验设置

    数据:我们使用 FairytaleQA [9],其中教育专家从 278 个儿童友好故事中手动创建了 10,580 个 QA 对。每个问题都标注有明确性标签,可以是“明确”或“隐含”。此外,每个问题都标有以下叙述元素之一:人物、背景、动作、感觉、因果关系、结果解决或预测。从统计上讲,每个故事大约有15个部分,每个部分(由多个句子组成)大约有3个问题。显式问题约占所有问题的75%。我们使用由8,548/1,025/1,007个QA对组成的原始训练/验证/测试分割。

    模型:从原始数据集中,我们训练了不同的模型5:(A)问题部分:答案;(B)答案部分:问题;(C)部分:问题-答案;(D)前部分:问题-答案; (E) nar-section:question-answer;和 (F) nar-exsection:question-answer。模型 A 和 B 将作为与 FairytaleQA 论文中的 QA 和 QG 模型的基线比较。模型 C 仅包含部分文本作为输入,因此其目的是作为与包含控制属性的模型 D-F 进行比较的基线。模型 D 在输入中包含问题的明确性属性。模型 E 在输入中包含叙述属性。模型 F 包含两个控制属性。图 1 显示了具有可控性提示的模型的说明性示例。

    受控测试集:为了评估模型 D-F 可控性的有效性,我们从原始测试集准备了一个重组版本,我们称之为受控测试:每个示例包括一个部分和关于该部分的所有真实 QA 对,这些 QA 对属于一种明确性类型(显式或隐式)和叙述元素。此外,为了便于 C 模型和 D-F 模型之间的比较,每个部分仅出现一次。实施细节:我们使用 t5-base6 模型版本。我们分别将最大 token 输入和输出设置为 512 和 128。我们训练模型的最大周期为 10 个,耐心值为 2 的提前停止,批处理大小为 32。对于推理,我们使用波束宽度为 5 的波束搜索。
在这里插入图片描述

结果基线

    FairytaleQA 作者报告称,测试集上的 n-gram 相似度 ROUGELF1 [3] 值为 0.536(QA)和 0.527(QG)。使用我们的基线模型(A 和 B),我们分别获得了 0.559(QA)和 0.529(QG)。这表明我们的基线模型在定量上与之前获得的结果一致。按问题明确性划分的 QA 结果:更多关于 QA 基线模型 A,我们对明确和隐性问题的 ROUGEL-F1 QA 结果分别为 0.681 和 0.194。徐等人 [9] 也观察到了这种显著差异。根据作者的说法,这种情况是可以预料到的,因为明确问题的答案可以直接在文本中找到。相比之下,隐性问题需要深入的推理和总结。我们利用这一原理来评估问题明确性的可控性。我们假设,在设置 A 中获得的 QA 模型在由模型 D 和 F 生成的显性问题上的表现将明显优于隐性问题。

    可控性:我们通过采用 QA 和 QG 任务来寻找问题可控性的证据。对于 QA,我们使用 ROUGEL-F1 指标和 EXACT MATCH,这是两个字符串之间严格的全有或全无分数。对于 QG,我们使用 n-gram 相似度 ROUGEL-F1 和 BLEU-4 [4]。此外,我们使用 BLEURT [7],这是一个较新的文本生成性能指标。

    表 1 引用了 QA 结果,如下所示。我们使用 QA 模型(在设置 A 中获得)来回答由模型 D 和 F 生成的问题。然后,将从 QA 模型获得的答案与从模型 D 和 F 生成的答案进行比较,得出报告的结果。对于这两个评估指标,QA 模型在显式生成问题上的表现明显优于隐式生成问题(证实了我们的假设)。因此,我们得出结论,这些分数表明,使用所提出的可控机制可以控制问题的显性。

    表 2 列出了获得的 QG 结果。这里采用了 QG 中的传统评估程序,即直接将生成的问题与基本事实进行比较 7。我们发现模型 D 获得的 QG 分数与模型 C 获得的 QG 分数没有显著差异,这可以解释如下:控制问题的显性对回答生成问题所需的答案类型的影响大于对生成问题的语法的影响。

    因此,我们认为模型 C 和 D 在 QG 结果中没有显著差异是可以预料的。相比之下,与模型 C 相比,模型 E 和 F(接收叙事可控性提示)的改进更为显著。这可以解释如下:控制问题的叙事元素会强烈影响所生成问题的语法。例如,我们通过经验观察到,当要求模型生成有关“因果关系”元素的问题时,它会生成(在许多情况下)问题从“为什么……?”开始。对于“结果解决”,该模型生成“发生了什么……?”问题。对于“预测”,该模型生成“将如何……?”问题。最后,值得注意的是,模型 F(接收显性和叙述可控性提示)被证明可以有效地同时控制问题的显性和叙述元素。

结论

    在本研究中,我们致力于丰富教育 QG 的可控性。通过自动评估,结果显示初步证据表明,可以 (1) 控制问题的明确性和 (2) 同时控制问题的明确性和问题的叙述元素。我们认为,教育 QG 的下一步发展应该涉及通过多种指导和教育相关属性来丰富(甚至更多)可控性过程。寻找其他有效的控制机制也是一条有趣的途径。对于未来的工作,我们打算在实际教育环境中进行大规模的人工评估,重点关注 QG 的可控性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2071717.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在进行网站链接时,‌加上http或https的重要性不言而喻

这一简单的操作背后,‌蕴含着对搜索引擎优化(‌SEO)‌的深刻理解,‌以及对网站权重提升的精准把握。‌以下,‌我们将深入探讨这一话题,‌以期为您的网站优化提供有价值的参考。‌优化(‌SEO&…

即时通讯IM软件推荐:五款适合企业内部使用的IM即时通讯软件

随着企业的不断发展,内部沟通和协作变得尤为重要。为了提高沟通效率、加强团队协作以及促进信息共享,企业需要选择适合自身需求的即时通讯IM软件。本文将为大家推荐五款适合企业内部使用的IM即时通讯软件,其中包括了备受赞誉的WorkPlus。 Wor…

SPSS和MATLAB实现【典型相关分析】

典型相关分析(Canonical Correlation analysis ),是用于研究 两组 变量(每组变量中都可能有多个指标) 之间相关关系的一种多元统计方法。它能够揭示出两组变量之间的内在联系。 我们之前总结的相关性分析,也…

libtorch学习历程(二):张量

libtorch(pytorch c)的大多数api和pytorch保持一致。 使用之前要导入torch #include <torch/torch.h> #include <torch/script.h> 1. 张量初始化 1.1 固定的值与尺寸 在C中&#xff0c;使用{}来表示尺寸 zeros() zeros()产生值全为0的张量。 // 得到一个三维…

Java数据结构篇

Map体系 1.HashMap 哈希冲突&#xff1a;开放定址法、再哈希法、链地址法插入元素先检查是否到达阈值&#xff0c;是则先数组扩容&#xff0c;然后再插入链表&#xff0c;链表长度超过8则转红黑树1.7之前由于扩容导致的头插法尾插法混合导致指针错误&#xff0c;出现死循环问…

[底层原理] C/C++获取时间(将时间戳转换为年月日)?

前言 大家都知道&#xff0c;计算机中存储的时间是一个整数&#xff0c;在现在的编程语言中&#xff0c;可以很方便地将时间戳&#xff08;整数&#xff09;转换为字符串&#xff0c;但是如果没有这些我们该如何自己计算出呢&#xff1f; 刚好以前研究过Nginx的源代码&#xff…

docker系列12:Dockerfile实战

传送门 docker系列1&#xff1a;docker安装 docker系列2&#xff1a;阿里云镜像加速器 docker系列3&#xff1a;docker镜像基本命令 docker系列4&#xff1a;docker容器基本命令 docker系列5&#xff1a;docker安装nginx docker系列6&#xff1a;docker安装redis docker系…

红黑树、B+Tree、B—Tree

红黑树 B-Tree 这三个通常都是把内存全部加载到内存里&#xff0c;然后再内存中进行处理的&#xff0c;数据量通常不会很大。 内存一般容量都在GB级别&#xff0c;比如说现在常见的4G、8G或者16G。 如果要处理的数据规模非常大&#xff0c;大到内存根本存不下的时候。这个时候…

基于微信小程序靓丽内蒙古APP(源码+定制+辅导)

博主介绍&#xff1a; ✌我是阿龙&#xff0c;一名专注于Java技术领域的程序员&#xff0c;全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师&#xff0c;我在计算机毕业设计开发方面积累了丰富的经验。同时&#xff0c;我也是掘金、华为云、阿里云、InfoQ等平台…

验证码功能的思路和做法

验证码登录的思路和流程 步骤 1.导入依赖 <dependency><groupId>com.github.axet</groupId><artifactId>kaptcha</artifactId><version>0.0.9</version> </dependency> 2.写一个验证码的配置类 package com.lzy.config;im…

IM即时通讯软件,企业即时通讯系统就选WorkPlus

在现代企业中&#xff0c;高效的沟通和协作是推动业务发展的关键。随着科技的不断进步&#xff0c;团队成员和企业之间的沟通已经超越了传统的邮件和电话方式&#xff0c;转向了更实时、更便捷的方式&#xff0c;即即时通讯软件。在众多即时通讯软件中&#xff0c;WorkPlus作为…

滑动窗口解决子串问题

问题解析&#xff1a; 以这道题为例子&#xff1a;. - 力扣&#xff08;LeetCode&#xff09;找长度最小的子数组&#xff0c;子数组和必须大于条件中的target 暴力解法&#xff1a;左右指针列举出每一种子数组的可能&#xff0c;每种可能去求子数组的和&#xff0c;找到最小的…

17 深入理解 C 语言 main 函数:返回值意义、命令行参数接收、跨环境差异及CMD乱码解决

目录 1 main 主函数 2 main 函数的返回值 2.1 返回值的意义 2.2 默认返回值 2.3 返回值类型 3 main 函数的参数 3.1 参数内容 3.2 案例&#xff1a;循环遍历主函数的参数 3.3 不传递参数 3.4 powershell 环境下传参 3.5 cmd 环境下传参 3.6 解决 cmd 输出乱码问题 …

pytorch深度学习基础 7 (简单的线性拟合+检验模型在验证集上的效果)

我们之前做的目的都是评估训练的损失&#xff0c;训练的损失Loss告诉我们&#xff0c;我们的模型是否能够完全拟合训练集&#xff0c;也就是说我们的模型是否有足够的能力处理数据中的相关信息。但是我们之前都是评价训练的好坏&#xff0c;并没有引入验证集。接下来我们就需要…

Java基础——自学习使用(多态)

一、多态的定义 父类的引用指向子类的对象。 B继承A&#xff0c;A abnew B();——父类引用指向子类的对象。 二、创建对象了解多态的内部结构 &#xff08;1&#xff09;父类即A类对象的内存结构图 &#xff08;2&#xff09;子类即B类对象的内存结构图 由于B中重写了父类A中…

EazyDraw for Mac 矢量图绘制设计软件

Mac分享吧 文章目录 效果一、下载软件二、开始安装1、双击运行软件&#xff0c;将其从左侧拖入右侧文件夹中&#xff0c;等待安装完毕2、应用程序显示软件图标&#xff0c;表示安装成功 三、运行测试安装完成&#xff01;&#xff01;&#xff01; 效果 一、下载软件 下载软件…

SSRF和CSRF实战复现

文章目录 SSRFWeb-Hacking-Lab-master1、Centos未授权访问2、Ubuntu未授权访问3、Ubuntu传入公钥访问4、ssrf_redis_lab_pickle_redis_lab CSRF:windphp SSRF SSRF(Server-Side Request Forgery:服务器端请求伪造) 是一种由攻击者构造形成由服务端发起请求的一个安全漏洞。 f…

第三课《排序》

前言 排序是将一组数据&#xff0c;按照指定的顺序或要求来进行排列的过程。是数据结构相关课程和内容较为重要和核心的内容之一&#xff0c;常常作为考试题和面试题目来考察学生和面试者&#xff0c;因此熟练掌握经典的排序算法原理和代码实现是非常重要的 本文介绍了几大较为…

AJAX(5)——Promise

Promise Promise对象用于表示一个异步操作的最终完成或失败及其结果值 语法&#xff1a; //创建Promise对象const p new Promise((resolve, reject) > {//执行异步代码setTimeout(() > {// resolve(成功结果)reject(new Error(失败结果))}, 2000)})//获取结果p.then(r…

坚鹏讲人才第13期:个人数字化转型——个人与时代的共赢之选

坚鹏讲人才第13期&#xff1a;个人数字化转型——个人与时代的共赢之选 在这个日新月异的时代&#xff0c;数字化转型已经成为当今时代的必然趋势&#xff0c;它不仅改变了我们的生活方式&#xff0c;也正在改变着各行各业的运营模式。数字化时代&#xff0c;不仅需要数字化企…