基于众包标注的语文教材句子难易度评估研究论文精读

信息
摘要
0 引言
1 相关研究
2 众包标注方法
3 语料库构建
3.1 数据收集
3.1 基于五点量表的专家标注
3.3 基于成对比较的众包标注
4 特征及模型
- 4.1 特征抽取
- 4.2 模型与实验设计
- - 4.2.1 任务一:单句绝对难度评估
  - 4.2.2 任务二:句对相对难度评估
5 实验结果与分析
- 5.1 任务一
- 5.2 任务二
6 总结
自结[^1]

信息

标题： 基于众包标注的语文教材句子难易度评估研究
时间： 2020/2/15
会议： 中文信息学报信息科技计算机软件及计算机应用
作者： 于东^１，吴思远^１,２，耿朝阳^１，唐玉玲^１
单位：（１．北京语言大学信息科学学院，北京１０００８３；２．北京语言大学汉语国际教育研究院，北京１０００８３）
链接： https://kns.cnki.net/kcms2/article/abstract?v=3uoqIhG8C44YLTlOAiTRKibYlV5Vjs7i8oRR1PAr7RxjuAJk4dHXohTl3Ytpz4iO8nWfCwFgVq4mVFDH_115BySqYu1owXIW&uniplatform=NZKPT

摘要

摘要：该文提出了一种基于成对比较的众包标注方法，该方法可以通过非专业人士的简单判断获取标准统一的句子难度标注结果。基于该方法，构建了基于语文教材的由１８４１１个句子组成的汉语句子难度语料库。面向单句绝对难度评估和句对相对难度评估两项基本的句子难易度评估任务，使用机器学习方法训练汉语句子难度评估模型，并进一步探讨了不同层面语言特征对模型性能的影响。实验结果显示，基于机器学习的分类模型可以有效预测句子的绝对难度和相对难度，最高准确率分别为６３．３７％和６７．９５％。语言特征可以帮助提升模型的性能，相比于词汇和句法层面的特征，加入汉字层面特征的模型在两项任务上的准确率最高。

关键词：句子难易度评估；可读性研究；众包标注；语文教材语料库

0 引言

阅读是人类获取信息，认识世界和发展思维的重要活动，也是语言学习的重要内容。难度合适的阅读文本可以促进阅读过程的顺利进行，难度不合适则会阻碍阅读的进行，甚至损害读者的阅读兴趣。 因此，评估阅读材料的难度并根据语言水平进行针对性，个性化的阅读逐渐成为社会各界的共识。其中，评估阅读文本的难易程度，即文本可读性研究扮演着关键而基础的角色[1]。

文本可读性的自动评估是文本可读性研究的核心，也是语言学，心理学与自然语言处理领域共同探讨的课题之一。自动评估文本可读性，就是将影响阅读难度的，可以量化的文本因素综合起来，构建一个自动评估模型，通过模型评估文本的可读性[2]。 由于文本的可读性可以用连续的难度值或者离散的难度级别(如年级)表示，所以可读性自动评估任务通常被转化为回归或分类问题。基于多层面语言特征的机器学习方法是可读性自动评估的主流方法，其核心是从字，词，句和篇章等层面分析和筛选可以预测文本难度的有效语言特征[3-4]。语言特征的选择与文本的语言属性有关，其他语言研究中的有效特征对汉语特征选择具有启发意义，但不能直接应用于汉语可读性评估[1-2]。

按照文本粒度的不同，可读性自动评估任务主要分为文档级的可读性评估和句子级的可读性评估[5]。现有研究多以文档级为主，但文档级的评估模型在短文本上表现不佳，也无法满足特定任务的需求[6]。句子级的难易度评估拥有更加切实的应用场景。例如，根据句子难易度评估结果，教师和图书出版商可以有针对性地修改困难句子[6]。作为一项语言评价技术，句子难易度评估在试题研制，翻译质量评估上也有广泛的需求[7]。同时，句子难度评估方法的研究可以为文档级的可读性研究奠定基础。

目前的汉语可读性研究集中在文档级的可读性评估上[8-10]。一些句子难易度评估研究对影响句子难度的语言特征进行了探讨，但缺乏具体的量化方式和实验证据，在语言特征的选择上也存在不足[11-13]。没有发现使用机器学习方法进行汉语句子难易度评估的研究。因此，汉语句子难易度自动评估有很大的研究空间。

本文首先提出了一种基于众包标注的成对比较方法来标注句子的难度级别。基于该方法，我们构建了基于语文教材的汉语句子难易度语料库，把句子难易度评估转化成分类问题，探究了机器学习方法在两种句子难度评估任务(句对相对难度评估和单句绝对难度评估)上的表现，本文还对比分析了汉字，词汇和句法特征对句子难度评估的作用。实验结果表明，机器学习方法可以有效地评估汉语句子的难度。在预测单句难易度的五分类任务上，模型的准确率达到了63.37%。在句对相对难度评估任务上，最高准确率为67.95%。

本研究的主要贡献包括以下4个方面：
(1)提出了基于众包标注的句子难度标注方法，这种方法通过非专家的简单判断任务就可以获取标准统一的难度标注结果，适用于大规模的句子难度标注语料库的构建。
(2)构建了基于语文教材的汉语句子难度标注语料库。该语料库包含18 411个具有五个难度级别标注的汉语句子，为汉语可读性研究提供了数据支持。
(3)使用机器学习方法进行单句绝对难度评估和句对相对难度评估两项任务，验证了机器学习模型在汉语句子难易度自动评估上的有效性。
(4)选取并分析了多层面语言特征，并对语言特征在难度评估上的预测作用进行了验证。

1 相关研究

评估文本的难易程度一直是教育学，语言学和自然语言处理领域所关心的问题。从20世纪20年代以来，各个语言的研究者根据自身语言特点，通过量化不同层面，不同维度的语言特征，构建线性或者非线性的模型进行自动评估[1,3]。传统的可读性研究通过量化文本的表层特征(如词长，词频等)，构建多元线性回归公式来评估文本的阅读难度。最具代表性的可读性公式有**Flesch-Kincaid可读性公式[14]和smog公式[15]**等。随着计算机和自然语言处理技术的发展，越来越多的复杂模型被构建出来应用于文本可读性评估工作[16-18]。可读性自动评估拥有广泛的应用场景，不仅可以帮助教师选择合适的阅读材料，为教材编写，阅读测试提供参考，而且也可以应用于一些自然语言处理任务，如智能改编，中国雄雄[19]。

有监督的机器学习方法是自动评估文本可读性的主流方法。相关研究包括构建统计语言模型评估网页文本的阅读难度[16]，或者把可读性评估任务视为分类任务，构建分类模型预测文本的可读性级别[3,8]。这些基于特征工程的方法发现，语言特征的选择对于可读性评估起着重要的作用[20]。但有效特征的预测能力与语言特点有关[20-21]。这些研究中预测能力高的语言特征是否适用于汉语，还有待进一步探究。

句子是语言学习中常用的语言单位，也是多项自然语言处理任务的基本处理单元，句子级的可读性研究受到越来越多的关注。按照任务的不同，可以把句子级可读性评估分为单句绝对难度评估和句对相对难度评估两项。

Pilán等[5]从第二语言学习角度探讨了影响瑞典语句子难易度的语言因素。该研究将句子可读性评估抽象为二分类问题，支持向量机分类器在该任务上达到了71%的准确率。DellOrletta等[22]对比了表层特征，词汇特征，形态句法特征和句法特征在意大利语文本可读性评估中的作用。他们的研究17表明，无论是句子级还是文档级的可读性评估，句法特征都是预测意大利语文本可读性最重要的预测指标。Brunato等[23]发现，在表层特征，形态句法特征和句法特征中，与句子结构相关的句法特征与英语文本的阅读难度高度相关。

Inui和Yamamoto[24]首次提出了句对相对难度评估的任务，通过收集原句与手工简化句之间的相对难度判断，该研究使用基于支持向量机的比较器评估了听力障碍人士对句子难度的感知。Vajjala和Meurers[25]提出基于配对排序的句子可读性评估方法。该任务是对句对的相对难度进行判断，具体来说，给定包含一个简化句-原句的句子对，判断哪个句子更难。舒马赫等[26]评估了一组句子在有上下文和无上下文条件下的相对阅读难度。该研究使用众包标注的方法收集了人类对句对相对难度的判断，然后使用词法和句法特征训练了逻辑回归模型预测句子对的相对难度。研究发现，词汇相关特征可以帮助预测句对相对难度，句子在文本中的上下文信息会影响人类对句子难度的判断。

国内句子难易度自动评估的研究仍处于起步阶段。 江少敏[11]采用调查问卷和对比分析的方法，从字，词和句法层面收集了被试对语言特征预测能力的主观评价，并建立了句子难易度测量公式。庞成[13]把影响句子难度的因素分为内部结构，外部结构和意义形式三个范畴。郭望皓[12]对字层面和词层面的特征进行了量化，并使用批评家加权赋值法计算了各指标在预测句子难度上的权重，构建了线性公式。上述研究在影响句子难度因素的选择上缺乏系统性和结构性，还没有学者使用机器学习的方法进行汉语句子难易度评估工作，也没有对语言特征的预测作用进行系统的考察。汉语句子的难易度自动评估的难点在于缺乏一定规模的难度标注句子语料库。

2 众包标注方法

基于机器学习的文本难易度自动评估方法需要一定规模的标注数据。然而作为一种缺乏形式标记的信息，文本难度标注的困难之处在于难度无法界定、标注标准无法统一。

主观量表法与成对比较法是主要句子难度标注方法。 主观量表是一种包含若干有序级别的量表，用以测量个人对文本的主观难度评价，按照级别可分为5点量表，7点量表，9点量表等，教师[27]。主观量表法可以有效地确定文本的阅读难度[28]，但数据规模较小。标注者面对大量的待标注数据时，很难保证统一的标注标准。 成对比较法需要标注者比较给定的两个句子并判定哪个句子更难[24-25]。成对比较法是一种相对简单的标注任务，具有正常语言能力的标注者都可以进行句子相对难度的判断。但该方法只能得到句子的相对难度，无法给出精确的难度级别或难度值[17]。现有的两种难度标注方法只能标注小规模的数据，面对大规模数据无法给出标准统一且具有具体难度值的标注结果。

本文提出了一种基于成对比较的众包标注方法，该方法首先通过主观量表标注小规模句子的难度。量表的使用不仅为量化难易度提供统一的坐标，量表中的量点还可以把连续的难度划分成若干个难度区间。然后通过基于成对比较的众包方法把未标注句归类到某个难度区间上，达到标注句子难度的目的。 这种方法把难度标注转化为简单的难易判断任务，便于非专业人士使用统一的标注标准对句子难度进行标注。 该标注方法的原理如图1所示。
在这里插入图片描述
具体来说，该方法主要包括两个步骤：
(1)在小规模数据上使用主观量表量化句子的难易程度。根据主观量表的评定结果，在量表的每个点上选择部分句子作为锚点，如5个点量表，则选择可以代表5个个难度点的句子作为锚点，5个“中国雄安”(“雄安”)。
(2)使用众包标注的方法，通过成对比较任务判断锚点句和未标注句的相对难度，根据判断结果把未标注句划分到特定的难度区间中，该难度区间即为该句子的难度级别。主要流程如图2所示。
在这里插入图片描述

3 语料库构建

3.1 数据收集

语料库中的汉语句子来源于汉语语文教材中的课文文本。语文教材中的课文属于权威典范的文本，体裁丰富，来源广泛。我们收集了人教版，苏教版和北师大版三个版本1~12年级的语文课文，剔除了特殊体裁和特殊栏目的课文文本，如文言文，诗歌，剧本，识字文本。对句子进行去重后，1 392篇课文共产生51 298个句子，句子的平均长度为24.6(md =16.19)。

3.1 基于五点量表的专家标注

我们从原始句子集中随机选择250个句子。3名小学教师和2名教育领域研究生被要求认真阅读这些句子，并在5点量表上对句子的难度进行评分，1表示非常简单，5表示非常难包含250个句子的5点量表问卷需要大约20分钟完成。最终收集了1 250个标注数据。5位专家之间的肯德尔一致性系数(肯德尔s和谐系数)为0.712(P<0.001)，说明5位专家的标注一致性较高。

对于每一句话，我们使用多数投票原则确定句子的最终难度。为了保证作为锚点的句子难易度一致，计算了每个句子被标注为最终难度的概率，具体来说，如果5位专家都把句子标注为，则被标注5的概率为1.0，如果有4位专家把句子标注为5,1位专家标注为4，则被标注为最终难度5的概率为0.8。我们选择概率大于等于0.8的句子作为锚点句。

最终，62个句子被选择为锚点句，四组句子代表4个难度锚点(没有难度为5的句子)。为了保证四组锚点句之间在难度上具有较高的差异，对四组锚点句的难度差异进行了测量。单因素方差分析结果显示，四组句子的难度差异显著(f =469, p < 0.01)。更多信息和示例如表1所示。
在这里插入图片描述

3.3 基于成对比较的众包标注

我们使用成对比较的标注任务，通过众包标注确定大规模句子的难度级别。本研究的标注过程如下：

标注平台为了发布众包任务，我们在微信开放平台上开发了众包标注的微信小程序。

标注人员共有110名标注人员参与了众包任务。在参与标注之前，他们被要求报告自己的年龄，性别，教育程度等个人信息。标注者年龄在19至27岁之间，男女比例为1∶5，大多数人接受大学教育。

标注流程登录标注平台后，屏幕上会显示一条标注指导语和一对句子，一个是锚点句，一个是待标注的句子，如图3所示标注者被要求认真阅读这两条句子并选择相对简单的那条。每个待标注句会随机与特定锚点中的句子进行匹配。为了减少标注工作量，我们在匹配过程中使用了折半插入策略。例如，一个待标注句首先与锚点2的某个句子进行匹配，根据标注结果，该句子与锚点的某个句子进行配对重复这个过程直至确定一个句子的难度级别。每个句子由至少3个标注者进行标注，即每个句子至少被标注3次。平均说来，每个待标注句需要经过两次成对比较得到最终的难度标签，每个句子平均需要30s的时间进行判断。

在这里插入图片描述
数据处理 4周的标注共收集了378 183个成对判断。对于每个句子、我们删除了标注时间小于15秒(1%)和标注次数小于3次(28%)的句子我们使用多数投票原则决定单个句子的难度级别。

数据集构建最终我们构建了一个基于汉语语文教材的句子难度语料库。该语料库共包含18 411个汉语句子，每个句子被标注为1到5共5个难度级别，，级别１表示很简单，级别5级表示很难。表2给出了每个难度级别上的示例句子。语料库中5个难度级别的统计信息如表3所示。表中除了包含每个级别中句子的数量信息，还包括了每个级别上句子的平均长度(以字为单位)和句子的平均难度值。句子的难度值的计算方式来自于江少敏[11]，值越大则难度越高。
在这里插入图片描述
在单句绝对难度评估任务上，我们使用基于语文教材的句子难度标注语料库作为实验数据。

在句对相对难度评估任务上，基于句子难度标注语料库，我们使用随机配对的方法构建了句对数据集。具体来说，对于句子Si，从语料库中随机选择句子Sj组成<Si,Sj>句对。为了保证数据不重复出现在训练集或者测试集中，句对数据集中的每个句子在整个数据集中仅出现一次，因此，在随机匹配的过程中，每个句子Si只能匹配或被匹配一次。最终，18 411个句子共组成9 205个句对。我们把相对难度定义为两个句子难度级别的关系。例如，如果句对中两个句子的难度级别相等，则这两句话的相对难度标签为0。每类难度关系在句对数据集上的分布如表4所示。
在这里插入图片描述

4 特征及模型

本文在基于语文教材的汉语句子难度语料库基础上进行两项句子难易度评估任务，分别是单句绝对难度评估和句对相对难度评估。我们把这两项任务抽象为有监督的机器学习任务，通过构建模型评估句子的绝对难易度和相对难易度。为了提高模型的准确率，并探讨不同层面语言特征在汉语句子难易度评估任务上的作用，我们加入了汉字、词汇和句法层面的语言特征。

本节将对所用语言特征、模型和实验设置进行介绍。

4.1 特征抽取

特征体系的设计参考了吴思远等[29]的特征框架，该研究从汉字，词汇，句法和篇章四个层面构建了汉语文本可读性特征体系来进行文档级的汉语可读性评估。本文从汉字，词汇和句法三个层面实现句子语言特征的量化计算。下面是三个层面语言特征的简要说明。

汉字层面汉字是汉语的书写符号，汉字的识别难度影响句子的阅读难度。汉字层面的语言特征可以从字形复杂度、汉字熟悉度和汉字多样性三个角度进行量化。

汉字字形复杂度的量化主要考虑了汉字笔画数，汉字对称性，共计6个指标。考虑到笔画数效应的大小与汉字频率有关，相比于低频字，笔画数效应在高频字上作用更小[30]。因此在量化笔画数时，对笔画数进行了频率加权，加权方式参考了吴建国等[31]的研究。汉字熟悉度表现为汉字的使用频率，以及未登录汉字在句子中的占比信息，共计4个指标。汉字字频信息来源于国家语委现代话语语料库提供的“现代汉语语料库字频表”。汉字多样性的量化主要使用类符-形符比(TTR)，即文本中出现的不重复汉字数和汉字总数的比值，以及单次汉字信息，共计5个指标。

词汇层面词是语言中最基本的造句单位，词汇复杂性在句子理解中起着关键作用。影响词汇难度的特征主要包括词汇复杂度、词汇熟悉度、词汇多样性和词汇语义难度四个维度。

词长是预测可读性的主要指标，该维度主要量化了8个指标，考虑到词长与词频的协同作用，对词长进行了频率加权。词汇熟悉度的量化主要计算词频和单次词，共4个指标。词频的信息来自于国家语委现代汉语语料库的"现代汉语语料库词频表"和"汉语字幕词频表"。词汇多样性上计算了句子的总词数，句子中不重复的词数，单次词和成语使用数，共计7个指标。词汇语义难度是汉语可读性研究中由于技术限制没有纳入的维度，但词义的理解是句子理解的重要内容。词性层面包括句子中的5种词性(名词，动词，形容词，副词，中国雄雄)的使用情。本文关注句中5类具有特殊语义作用的词的使用情况，包括实词，虚词，否定词，命名实体。此外，词汇语义难度还包括词在词典中的义项数。共有9个指标来量化句子的词汇语义难度。

句子结构层面句子结构层面包括:句子表层的复杂度，词性复杂度，句法结构复杂度，共计28个指标。

表层复杂度包括句子的长度信息和单句复句信息。句长是影响句子难度判断的重要标准之一，同时长句会倾向于包含更复杂的句法结构，因此句长可以反映句法的结构复杂性。句法结构复杂度分别量化自基于短语结构的句法分析结果和基于依存结构的句法分析结果，计算了句子中名词短语，动词短语，形容词短语，副词短语和介词短语的使用情况，统计了句法树的树高作为句法复杂性的指标。主要动词和依存距离[32]被认为可以反映句子加工的难度，因此，句法结构复杂度还对主要动词前的词数和依存距离进行了计算。句法结构复杂度维度共计8个指标。

特征计算首先，我们对文本进行了一系列的分析，使用哈尔滨工业大学研发的语言技术平台(语言技术平台，LTP)对文本进行分词，词性标注，“中国雄雄”(斯坦福解析器)构建了短[34]。在文本分析的基础上，我们通过Python编程计算得到了汉字，词汇和句法层面的特征指标。

4.2 模型与实验设计

4.2.1 任务一:单句绝对难度评估

任务单句绝对难度评估任务是句子可读性研究中的典型任务，其目标是，给定任意一个句子，评估该句的难度水平。我们把单句绝对难度评估任务定义为五分类问题。

模型我们对比了支持向量机(Support Vector Machine,SVM)和逻辑回归(Logistic regression,LogR)两种模型的表现。

我们把基于tf-idf的词袋向量作为输入构建了基线模型，词袋向量的维度是200维;然后把不同层面的语言特征作为句子的向量表示，构建了特征模型。在训练过程中采用了5折交叉验证。我们在Python中使用scikit-learn实现了模型。

评估标准任务一使用准确率(准确性)作为分类模型的评估指标。在句子难度分类任务中，难度级别之间并不是相互独立的，而是有序的。难度为1的句子比难度为2的句子简单，如果模型把难度为2的句子判定为中国雄雄。因此，任务一还使用邻近准确率(±accuracy)和皮尔逊相关系数(Pearson)作为模型的评估指标。

准确率(精度，Acc):被预测正确的句子占所有句子的比例;

邻近准确率(±准确度，±Acc):句子的预测级别与标注级别的误差在1个级别内的句子占所有句子的比例;

皮尔逊相关系数(皮尔逊):句子预测级别与实际级别的相关程度。

4.2.2 任务二:句对相对难度评估

任务句对相对难度评估任务的内容是评估两个给定句子之间的相对难度关系[16-17]。具体来说，给定一个随机句对<Si,Sj>，句对的相对难度关系为[-1,0,1]，其中-1表示比容易，0表示比难度相等，，１表示比难，这种关系可以以形式化地表示为：
在这里插入图片描述
其中，D(Si)为句子Si的难度，相对为句对<Si,Sj>之间的难度关系。我们把句对相对难度评估任务抽象为三分类问题。

模型本任务使用了SVM和LogR两个经典的分类模型。我们把两个句子的tf-idf向量拼接起来，组成400维的向量作为句对表示，构建了基线模型;把两个句子的特征向量拼接起来作为句对表示，中国雄雄。在训练过程中，采用了5折交叉验证。

评估指标任务二采用准确率(准确性)作为模型的评估指标。

5 实验结果与分析

5.1 任务一

单句绝对难度评估的实验结果如表5所示，该表展示了仅使用词袋特征的基线模型和加入不同层面语言特征的模型在准确率，邻近准确率和皮尔逊相关系数上的表现。我们对比了SVM和LogR两种不同的分类模型在该任务上的表现。可以看出，LogR的准确率高于SVM。

由表5可知，基于tf-idf的词袋模型在该任务上可以达到43%~46%的准确率，说明词的使用可以在一定程度上评估单句的难度。基于语言特征的模型高于仅基于词袋的模型，说明tf-idf可以提升模型的准确率，帮助预测句子的难易度。

Svm模型中，基于所有语言特征模型的准确率和相关系数最高，但基于汉字特征的模型，其相关系数与基于所有语言特征的模型相当。LogR中，基于汉字层面特征的模型达到最高的准确率和邻近准确率，皮尔逊相关系数比基于所有语言特征模型下降了0.01。基于汉字，词汇和句法三个层面特征的模型准确率都高于基线模型，说明加入语言特征有助于提升句子难度预测模型的性能。
在这里插入图片描述
在汉字，词汇和句法三个层面的语言特征中，基于汉字层面特征的模型准确率较高，基于词汇层面特征的模型次之，基于句法层面特征的模型准确率最低，说明汉字特征对于单句难易度评估的预测能力更强。该结果和江少敏[11]的结论不一致，江少敏把句子的难度分为句法，短语和字词三个层面，调查问卷的结果发现，对于小学生和留学生来说，中国雄雄。本研究把影响句子难易程度的因素分为汉字，词汇和句法三个层面，发现相比于词汇和句法层面的特征，汉字层面特征拥有最好的预测能力。这可能是由于，江少敏的目标群体为小学生和留学生，而本研究的标注人员为汉语水平较高的大学生，大学生的句法知识已经较为丰富，句法因素在判断句子难易程度的时候影响较小

图4显示了基于汉字层面特征的LogR模型的混淆矩阵。可以看到，大部分被错误分类的句子都被分到了邻近的难度级别。这说明，句子的难易程度实际上是连续的，分类模型可以把句子分为某几个难度级别，但是各等级之间的边界较为模糊。即使我们使用两两比较的方法，通过锚点句把句子按难度级别划分开来，但标注者在识别具有微小难度误差的句子时仍比较困难。同时，由于我们的标注者的教育水平为大学以上，语言水平较高，在区分低难度级别的句子时不敏感。

在这里插入图片描述
模型在难度级别为5的句子上分类效果不佳，仅有约42%的句子被正确地分类。通过分析混淆实例，我们发现，被标注为难度级别为5的句子不仅包括现代白话文的句子，还包括语境依赖度较高的对话，非白话文的句子等。这些句子由于使用了特殊的文体或表达方式，理解时需要依靠上下文信息或者背景知识，因此标注者把这些句子认定为难度较高的句子。我们的模型只依靠句子的语言特征区分难易，不能考虑文体和语境依赖程度的影响，所以在这些句子上模型的判断与人工标注的结果产生了偏差。这也说明，语境和文体是影响篇章中句子理解难度的重要因素。

5.2 任务二

我们把词袋模型作为基线模型，表6对比了基线模型与加入不同语言特征的模型在预测句对相对难度任务上的实验结果。SVM与LogR的对比显示，SVM的预测准确率略高于LogR。词袋模型的准确率只能达到36%左右，基于语言特征的模型比词袋模型准确率高30%左右，说明语言特征可以提升句对相对难度预测模型的性能。从整体上看，基于汉字特征的模型准确率最高，分别为67。95%和66。87%，基于句法特征的模型准确率最低，分别为64.69%和65。67%，比最高的基于汉字特征的模型降低了2%，左右。说明汉字特征在句对相对难度评估中的预测作用最强。
在这里插入图片描述
图5显示了句子相对难度预测的混淆矩阵。从图中可以看出，标签1和标签-1之间的混淆最小，模型在原标签为0的实例上没有达到较好的分类结果。标签为0的实例是难度级别一致的句子，我们的难度级别只分为5个级别，但语言难度是一个连续体，即使在一个级别内部，中国雄雄。在数据集构建过程中，我们把两句话的难度相等定义为两个句子的难度级别相等，这种做法忽略了级别内部的句子难度差异。句对相对难度的预测任务实际上是在学习句子之间的难度关系，也说明相比于五分类任务，句对相对难度评估任务可以关注到更小的难度差距。
在这里插入图片描述
由于标签为0的句对，其平均长度差小于标签为1和标签为-1的句对，这可能是导致标签为0中国雄雄。因此，我们绘制了模型准确率在不同长度差的句对上的分布，见图6。从图6可以看出，在两个句子的长度差小于30时，句子长度差与模型的准确率成正比关系，长度差越大，中国雄雄。当句对的长度差大于50字时，模型可以达到100%的准确率。这说明当句对中两个句子的长度差大于一定的阈值时，句子的长度差可以准确预测两个句子的相对难度。在成对比较的标注过程中，我们同样发现了句子长度差对句对相对难易度的影响。当呈现两个句子，标注者被要求判断两个句子的相对难易度时，句子长度是标注者考虑的首要因素，只有在句子长度相近或者字义和词义的理解难度过大，标注者才会考虑从其他因素评估句子难度。
在这里插入图片描述

6 总结

本研究提出基于成对比较的众包标注方法来标注大规模句子的难度级别，并使用该方法构建了基于语文教材的汉语句子难度语料库，该语料库中包含18 411个被标注为5个难度级别的句子。基于该语料库，本研究探讨了有监督的机器学习方法在单句绝对难度评估和句对相对难度评估两项句子难易度评估任务上的表现。为了提升模型的性能，本研究量化并提取了汉字，词汇和句法层面的句子特征，并对比了这些特征对汉语句子难易度评估的作用。

实验结果显示，加入语言特征可以提升模型的预测准确率，尤其是，相比于词汇和句法特征，基于汉字层面特征模型的预测准确率最高，说明汉字特征对句子难易度的预测作用最强。实验结果还显示，在单句绝对难度评估中，句子的语境依赖程度和表达方式影响句子的理解难度，在句对相对难度评估中，句对中两个句子的长度差影响模型的预测性能。

未来的研究会考虑扩大句子语料的规模，以期实现更复杂的模型。同时，本研究仅使用语言水平较高的大学生作为标注人员，未来的标注会面向年龄跨度更大，教育背景更丰富的广泛群体。

自结¹

本文构建了基于语文教材的汉语句子难度语料库，使用众包标注和单句绝对难度和句对相对难度评估句子难度。先从语文课本中收集数据，再找３名小学教师和２名教育领域研究生对句子进行５点量表评分，使用多数投票原则确定锚点句，在微信小程序上发布任务找110名标注人员（大多受过大学教育）进行句对标注（两个句子当中选择更简单的那个句子），采用折半插入策略，每个句子至少被标注三次，最后再使用多数投票原则确定最终的句子难度。然后建立机器学习模型SVM和Logist以tf-idf为基线并加入字、词、句法层面的语言特征对构造的数据集的句子难度进行评估，详细结果可以看文中图片。