NLP论文阅读记录 - 2022 | WOS 用于摘要法律文本的有效深度学习方法

文章目录

前言
0、论文摘要
一、Introduction
- 1.1目标问题
二.相关工作
三.本文方法
四实验效果
- 4.1数据集
- 4.2 对比模型
- 4.3实施细节
- 4.4评估指标
- 4.5 实验结果
- - 4.6 细粒度分析
五总结

前言

在这里插入图片描述

Effective deep learning approaches for summarization of legal texts（22）

0、论文摘要

数字形式的法律判决文件的可用性为信息提取和应用提供了众多机会。由于这些法律文本的结构不寻常且复杂性高，自动摘要是一项至关重要且具有挑战性的任务。以前在这个方向上的方法依赖于巨大的标记数据集，使用手工设计的特征，利用领域知识并将注意力集中在狭窄的子领域以提高效率。在本文中，我们提出了使用神经网络的简单通用技术来完成印度法律判决文件的摘要任务。
我们为此任务探索了两种神经网络架构，利用单词和句子嵌入来捕获语义。所提出的方法的主要优点是它们不依赖于手工制作的特征或特定于领域的知识，它们的应用也不限于特定的子域，因此使它们也适合扩展到其他域。我们通过根据训练集中的句子与人类生成的参考摘要的匹配为句子分配类别/分数来解决任务的标记数据不可用的问题。实验评估确定了我们提出的方法与其他基线相比的有效性。

一、Introduction

1.1目标问题

网络上大量文本数据的可用性和访问的便捷性既带来了机遇，也带来了挑战。数据可访问性的增加导致了信息过载问题。为了促进此类在线文本的自动处理，人们投入了大量的研究工作。自然语言理解领域的一项重要任务是文档摘要，即将文本内容压缩为简洁的形式，仅捕获文档中的基本概念。法律领域的自动摘要可以有很多应用，从简化律师翻阅大量法律文档的工作到有效检索与查询相关的判决。
文档摘要方法通常基于两种方法 - 抽象（Chen 和 Bansal，2018）和提取（Saravanan 等人，2008；Polsley 等人，2016）抽象摘要技术模仿人类生成涵盖文档中表达的基本思想的摘要生成原始文档中不存在的内容，可能由不同的语言结构组成。另一方面，提取摘要技术从文档中识别并提取重要部分，然后将其逐字复制到摘要中。抽象摘要技术通常比提取摘要技术更具挑战性，并且在资源和算法复杂性方面要求更高。
文档摘要领域的研究已经持续了几十年。一些方法基于主题建模和潜在语义分析、LSA，它们完全基于文档中的文本（Allahyari 等人，2017）。之前的一些工作已经探索了通过利用领域知识来改进摘要结果来获取丰富的数据集（Saravanan 等人，2008）。这些方法基本上是无监督的。使用指示符方法的文本摘要也得到了有效的使用。这些方法通过每个句子的特征来表示它。基于图的方法和 TFIDF 权重方案用于从句子中提取特征。经典机器学习算法然后使用它们来确定各个句子的重要性。
法律信息科学家对自动摘要进行了广泛的研究，并且提出的方法基于广泛的方法。这些方法大多数侧重于利用标记数据进行文档分割以生成摘要或从文本中提取特征以包含在摘要中。法律文本摘要方法大多是提取性的，并且可以在存在足够标记数据的情况下作为监督学习方法呈现。在法律领域，此类标记数据不可用且生成成本昂贵，因此研究人员提出了从可用的未标记数据生成标记训练数据的方法。 (Wagh 和 Anand，2020) 中提出了通过利用领域知识自动生成用于法律文本分割的标记训练数据。在拟议的工作中，我们演示了完全数据驱动的标记数据集生成。我们通过利用一些判决文件中存在的人工生成的注释来缓解标记数据不可用的问题。考虑到基于深度学习的文本摘要方案的巨大成功（Allahyari et al., 2017; Sinha et al., 2018），我们探索了各种深度学习方法来完成不依赖于领域知识的提取式法律判决摘要任务或标记数据创建的领域专家。我们专门在 1947 年至 1993 年印度最高法院的判决中测试了我们的方法。我们发现，这些简单的提议技术除了优于基线之外，还产生了相当连贯的摘要。

二.相关工作

人工智能和机器学习算法的进步使人类能够利用这些技术来简化许多任务。随着互联网产生的文本内容量呈指数级增长，使用这些技术来提取与用户信息需求最相关的内容已变得势在必行。自动文本摘要旨在为文档生成简洁的文本，可以适当地用于将我们的注意力集中到相关的内容上。自动文本摘要技术已经存在多年，最早被应用于生成科学研究文档摘要（Allahyari 等人，2017）。
产生自动摘要的两种基本技术是提取和抽象。虽然提取性摘要（Kim 等人，2012；Kavila 等人，2013；Sinha 等人，2018）的任务是选择要包含在摘要中的文档的重要部分，但抽象摘要技术（Chen 和 Bansal，2018））考虑整个文档并以更简单的方式重新表述摘要，可能使用与原文不同的单词和短语。最早的方法是提取性的，并使用简单的基于单词和短语的特征，例如句子中是否存在提示词来选择句子（Allahyari 等人，2017）。在计算句子的重要性时也考虑了其他特征，例如文档与文档标题的匹配程度以及句子在文档中的相对位置（Kanapala et al., 2019）。还提出了更先进的技术，例如基于频率、主题建模、潜在语义分析和贝叶斯模型的技术（Allahyari 等人，2017）。
随着深度学习技术的日益普及，抽象概括技术的研究近年来不断加速。这些技术利用基于规则的方法，通过识别包含重要事件的片段并将该信息包含在摘要中。基于树的方法和基于本体的方法用于抽象概括（Kasture et al., 2014）。
法律文本的自动摘要面临着多样化的写作风格和文本中讨论的法律问题的多个维度的挑战。作者在（Kanapala et al., 2019）中对法律文本摘要中使用的方法进行了详细回顾。非对称加权图（Kim et al., 2012）用于法律文本摘要，其中句子表示为图中的节点。选择具有高节点值的句子作为摘要的一部分。文档被表示为连接图的集合，其中属于连接组件的句子是相关的。这种方法有助于实现多样性，从而确保凝聚力。 (Kavila et al., 2013) 中的作者采用了两种技术的混合，即关键字/关键短语匹配以及基于案例的技术。 (Oufaida et al., 2014) 中提出了使用判别分析对阿拉伯文本的多文档摘要捕获信息多样性。 (Venkatesh, 2013) 提出了一种基于从分层潜在狄利克雷分配 (hLDA) 获得的主题来聚类法律判决的方法。主题和文档之间的相似性度量用于执行 hLDA 并使用相同主题查找每个文档的摘要。 (Seth et al., 2016) 中提出了一种更简单的方法，其中对每个句子中单词的 TF-IDF 分数进行求和，并通过句子长度进行归一化以找到重要性分数。对类似于章节标题的实体名称、日期和段给予特殊处理。 (Saravanan et al., 2008) 采用了一种不同的方法，作者将摘要任务分为两个阶段——使用条件随机场通过修辞角色识别来分割文档，并从如此识别的片段中生成摘要。在（Yamada et al., 2017）中提出了在判断中对不同粒度的文本单元进行注释以识别重要文本的类似方法。这些方法基于语义相似文本片段的识别并利用法律文本的结构。但这些方法完全依赖标记数据进行分割和注释。
近年来，深度学习方法已应用于文本摘要任务并取得了很高的成功率。提出了用于文本摘要的模型，范围从简单的多层网络（Sinha 等人，2018）到复杂的神经网络架构（Young 等人，2018）。但据我们所知，深度学习技术很少用于法律文件摘要生成。在本文中，我们提出了一种使用自动句子标记方法的基于深度学习的法律文本摘要方法。

三.本文方法

四实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析

五总结

在本文中，我们提出了一种数据驱动的半监督方法，使用各种神经网络架构来提取法律文档摘要。我们的贡献是双重的——我们提出了一种使用参考摘要生成数据集的新技术，消除了对如此复杂领域专家的需求；其次，我们提出了一种无需特征制作或领域知识即可生成法律文档摘要的简单方法。根据 Rouge 分数衡量，所提出的技术表现良好，并产生连贯的摘要。我们的方法分为两个主要阶段：生成用于句子重要性分类/预测任务的标记数据集，以及在训练数据上使用各种深度学习模型将文档的基本组成部分压缩为摘要。我们提出了四种生成标记数据的方法，并进一步证明使用句子嵌入优于其他三种方法。对于分类/预测任务，基于 LSTM 的神经网络架构在大多数情况下优于其他方法。将来，我们打算对人类专家生成的法律文本摘要进行所提出的方法的评估。法院判决书使用特定术语和独特的写作风格撰写，因此往往包含非常冗长和复杂的句子。我们打算探索由此获得的摘要的句子简化方法，以增强复杂和长句子的可解释性。