【自然语言处理】:实验5，司法阅读理解

news2026/2/14 12:15:03

清华大学驭风计划课程链接

学堂在线 - 精品在线课程学习平台 (xuetangx.com)

代码和报告均为本人自己实现（实验满分），只展示主要任务实验结果，如果需要详细的实验报告或者代码可以私聊博主

有任何疑问或者问题，也欢迎私信博主，大家可以相互讨论交流哟~~

任务说明

裁判文书中包含了丰富的案件信息，比如时间、地点、人物关系等等，通过机器智能化地阅读理解裁判文书，可以更快速、便捷地辅助法官、律师以及普通大众获取所需信息。本次任务覆盖多种法律文书类型，包括民事、刑事、行政，问题类型为多步推理，即对于给定问题，只通过单句文本很难得出正确回答，模型需要结合多句话通过推理得出答案。

数据说明

本任务数据集包括约5100个问答对，其中民事、刑事、行政各约1700个问答对，均为需要多步推理的问题类型。为了进行评测，按照9:1的划分，数据集分为了训练集和测试集。注意该数据仅用于本课程的学习，请勿进行传播。

发放的文件为train.json和dev.json，为字典列表，字典包含字段为：

_id：案例的唯一标识符。
context：案例内容，抽取自裁判文书的事实描述部分。数据格式与HotpotQA数据格式一致，不过只包含一个篇章，篇章包括标题（第一句话）和切割后的句子列表。
question：针对案例提出的问题，每个案例只标注一个问题。
answer：问题的回答，包括片段、YES/NO、据答几种类型，对于拒答类，答案应该是"unknown"。
supporting_facts：回答问题的依据，是个列表，每个元素包括标题（第一句话）和句子编号（从0开始）。

同学们需根据案例描述和问题，给出答案及答案依据，最终会综合两部分的效果并作为评判依据，评价方法与HotpotQA一致。

我们提供基础的模型代码在baseline目录下

评分要求

分数由两部分组成。首先，读懂已有代码并添加适量注释。使用已有代码在训练数据上进行训练，并且完成开发集评测，这部分占60%，评分依据为模型的开发集性能和报告，报告主要包括对于模型基本原理的介绍，需要同学阅读代码进行学习。第二部分，进行进一步的探索和尝试，我们将在下一小节介绍可能的尝试，并在报告中汇报尝试的方法以及结果，这部分占40%。同学需要提交代码和报告，在报告中对于两部分的实验都进行介绍。

探索和尝试

使用2019年的阅读理解数据集（CJRC）作为辅助数据集，帮助模型提高阅读理解能力
使用别的预训练语言模型完成该实验，例如THUNLP提供的司法BERT
对于新的模型架构进行探索，例如加入图神经网络（GNN）来加强模型的推理能力

参考资料

CAIL2020——阅读理解

实验结果

基本模型训练+别的预训练模型训练

这一部分我使用了 5 个模型进行训练，分别是 chinese-bert-wwm-ext, chinese_roberta_wwm_ext_pytorch, ms_BERT, xs_BERT, baidubaike_BERT 。训练完后需要

进行结果预测，通过查找资料找到了 hotpot_evaluate_v1.py ，运行这个文件就可以得出验证集的结果，下面是我汇总的结果

除了 chinese_roberta_wwm_ext_pytorch 训练时候学习率为 4e-5,其他四个模型训练都用的 1e-5(因为 roberta 模型用 1e-5 学习率训练时候结果太差，通过查询参考资料看到这个模型最佳学习率是 4e-5,所以试了发现效果不错)其他超参数都相同

通过汇总结果图表看出在 12 项评价指标中 chinese-bert-wwm-ext 模型的 8 项指标为最好，所以后面加辅助数据集进行训练的时候也是选择这个模型，其次比较好的是 chinese_bert_wwm_ext, 四项指标优于 chinese_roberta_wwm_ext ，而其他三个模型训练出的

结果普遍不好，与前两个模型得出的结果有相当大的差距，个人认为造成这样的原因是那三个模型都是对于单个领域的专用模型，因为数据集是对于民事、刑事、行政这三种法律文书类型，所以即使对于单个领域预测好，但是平均三个领域下来结果就会被平均降低。