NLP论文阅读记录 - 2022 | WOS 用于摘要法律文本的有效深度学习方法

news2025/1/11 6:52:06

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
  • 二.相关工作
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结


前言

在这里插入图片描述

Effective deep learning approaches for summarization of legal texts(22)

0、论文摘要

数字形式的法律判决文件的可用性为信息提取和应用提供了众多机会。由于这些法律文本的结构不寻常且复杂性高,自动摘要是一项至关重要且具有挑战性的任务。以前在这个方向上的方法依赖于巨大的标记数据集,使用手工设计的特征,利用领域知识并将注意力集中在狭窄的子领域以提高效率。在本文中,我们提出了使用神经网络的简单通用技术来完成印度法律判决文件的摘要任务。
我们为此任务探索了两种神经网络架构,利用单词和句子嵌入来捕获语义。所提出的方法的主要优点是它们不依赖于手工制作的特征或特定于领域的知识,它们的应用也不限于特定的子域,因此使它们也适合扩展到其他域。我们通过根据训练集中的句子与人类生成的参考摘要的匹配为句子分配类别/分数来解决任务的标记数据不可用的问题。实验评估确定了我们提出的方法与其他基线相比的有效性。

一、Introduction

1.1目标问题

网络上大量文本数据的可用性和访问的便捷性既带来了机遇,也带来了挑战。数据可访问性的增加导致了信息过载问题。为了促进此类在线文本的自动处理,人们投入了大量的研究工作。自然语言理解领域的一项重要任务是文档摘要,即将文本内容压缩为简洁的形式,仅捕获文档中的基本概念。法律领域的自动摘要可以有很多应用,从简化律师翻阅大量法律文档的工作到有效检索与查询相关的判决。
文档摘要方法通常基于两种方法 - 抽象(Chen 和 Bansal,2018)和提取(Saravanan 等人,2008;Polsley 等人,2016)抽象摘要技术模仿人类生成涵盖文档中表达的基本思想的摘要生成原始文档中不存在的内容,可能由不同的语言结构组成。另一方面,提取摘要技术从文档中识别并提取重要部分,然后将其逐字复制到摘要中。抽象摘要技术通常比提取摘要技术更具挑战性,并且在资源和算法复杂性方面要求更高。
文档摘要领域的研究已经持续了几十年。一些方法基于主题建模和潜在语义分析、LSA,它们完全基于文档中的文本(Allahyari 等人,2017)。之前的一些工作已经探索了通过利用领域知识来改进摘要结果来获取丰富的数据集(Saravanan 等人,2008)。这些方法基本上是无监督的。使用指示符方法的文本摘要也得到了有效的使用。这些方法通过每个句子的特征来表示它。基于图的方法和 TFIDF 权重方案用于从句子中提取特征。经典机器学习算法然后使用它们来确定各个句子的重要性。
法律信息科学家对自动摘要进行了广泛的研究,并且提出的方法基于广泛的方法。这些方法大多数侧重于利用标记数据进行文档分割以生成摘要或从文本中提取特征以包含在摘要中。法律文本摘要方法大多是提取性的,并且可以在存在足够标记数据的情况下作为监督学习方法呈现。在法律领域,此类标记数据不可用且生成成本昂贵,因此研究人员提出了从可用的未标记数据生成标记训练数据的方法。 (Wagh 和 Anand,2020) 中提出了通过利用领域知识自动生成用于法律文本分割的标记训练数据。在拟议的工作中,我们演示了完全数据驱动的标记数据集生成。我们通过利用一些判决文件中存在的人工生成的注释来缓解标记数据不可用的问题。考虑到基于深度学习的文本摘要方案的巨大成功(Allahyari et al., 2017; Sinha et al., 2018),我们探索了各种深度学习方法来完成不依赖于领域知识的提取式法律判决摘要任务或标记数据创建的领域专家。我们专门在 1947 年至 1993 年印度最高法院的判决中测试了我们的方法。我们发现,这些简单的提议技术除了优于基线之外,还产生了相当连贯的摘要。

二.相关工作

人工智能和机器学习算法的进步使人类能够利用这些技术来简化许多任务。随着互联网产生的文本内容量呈指数级增长,使用这些技术来提取与用户信息需求最相关的内容已变得势在必行。自动文本摘要旨在为文档生成简洁的文本,可以适当地用于将我们的注意力集中到相关的内容上。自动文本摘要技术已经存在多年,最早被应用于生成科学研究文档摘要(Allahyari 等人,2017)。
产生自动摘要的两种基本技术是提取和抽象。虽然提取性摘要(Kim 等人,2012;Kavila 等人,2013;Sinha 等人,2018)的任务是选择要包含在摘要中的文档的重要部分,但抽象摘要技术(Chen 和 Bansal,2018) )考虑整个文档并以更简单的方式重新表述摘要,可能使用与原文不同的单词和短语。最早的方法是提取性的,并使用简单的基于单词和短语的特征,例如句子中是否存在提示词来选择句子(Allahyari 等人,2017)。在计算句子的重要性时也考虑了其他特征,例如文档与文档标题的匹配程度以及句子在文档中的相对位置(Kanapala et al., 2019)。还提出了更先进的技术,例如基于频率、主题建模、潜在语义分析和贝叶斯模型的技术(Allahyari 等人,2017)。
随着深度学习技术的日益普及,抽象概括技术的研究近年来不断加速。这些技术利用基于规则的方法,通过识别包含重要事件的片段并将该信息包含在摘要中。基于树的方法和基于本体的方法用于抽象概括(Kasture et al., 2014)。
法律文本的自动摘要面临着多样化的写作风格和文本中讨论的法律问题的多个维度的挑战。作者在(Kanapala et al., 2019)中对法律文本摘要中使用的方法进行了详细回顾。非对称加权图(Kim et al., 2012)用于法律文本摘要,其中句子表示为图中的节点。选择具有高节点值的句子作为摘要的一部分。文档被表示为连接图的集合,其中属于连接组件的句子是相关的。这种方法有助于实现多样性,从而确保凝聚力。 (Kavila et al., 2013) 中的作者采用了两种技术的混合,即关键字/关键短语匹配以及基于案例的技术。 (Oufaida et al., 2014) 中提出了使用判别分析对阿拉伯文本的多文档摘要捕获信息多样性。 (Venkatesh, 2013) 提出了一种基于从分层潜在狄利克雷分配 (hLDA) 获得的主题来聚类法律判决的方法。主题和文档之间的相似性度量用于执行 hLDA 并使用相同主题查找每个文档的摘要。 (Seth et al., 2016) 中提出了一种更简单的方法,其中对每个句子中单词的 TF-IDF 分数进行求和,并通过句子长度进行归一化以找到重要性分数。对类似于章节标题的实体名称、日期和段给予特殊处理。 (Saravanan et al., 2008) 采用了一种不同的方法,作者将摘要任务分为两个阶段——使用条件随机场通过修辞角色识别来分割文档,并从如此识别的片段中生成摘要。在(Yamada et al., 2017)中提出了在判断中对不同粒度的文本单元进行注释以识别重要文本的类似方法。这些方法基于语义相似文本片段的识别并利用法律文本的结构。但这些方法完全依赖标记数据进行分割和注释。
近年来,深度学习方法已应用于文本摘要任务并取得了很高的成功率。提出了用于文本摘要的模型,范围从简单的多层网络(Sinha 等人,2018)到复杂的神经网络架构(Young 等人,2018)。但据我们所知,深度学习技术很少用于法律文件摘要生成。在本文中,我们提出了一种使用自动句子标记方法的基于深度学习的法律文本摘要方法。

三.本文方法

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

在本文中,我们提出了一种数据驱动的半监督方法,使用各种神经网络架构来提取法律文档摘要。我们的贡献是双重的——我们提出了一种使用参考摘要生成数据集的新技术,消除了对如此复杂领域专家的需求;其次,我们提出了一种无需特征制作或领域知识即可生成法律文档摘要的简单方法。根据 Rouge 分数衡量,所提出的技术表现良好,并产生连贯的摘要。我们的方法分为两个主要阶段:生成用于句子重要性分类/预测任务的标记数据集,以及在训练数据上使用各种深度学习模型将文档的基本组成部分压缩为摘要。我们提出了四种生成标记数据的方法,并进一步证明使用句子嵌入优于其他三种方法。对于分类/预测任务,基于 LSTM 的神经网络架构在大多数情况下优于其他方法。将来,我们打算对人类专家生成的法律文本摘要进行所提出的方法的评估。法院判决书使用特定术语和独特的写作风格撰写,因此往往包含非常冗长和复杂的句子。我们打算探索由此获得的摘要的句子简化方法,以增强复杂和长句子的可解释性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1386327.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第一个Python程序_获取网页 HTML 信息[Python爬虫学习笔记]

使用 Python 内置的 urllib 库获取网页的 html 信息。注意,urllib 库属于 Python 的标准库模块,无须单独安装,它是 Python 爬虫的常用模块。 获取网页 HTML 信息 1) 获取响应对象 向百度(http://www.baidu.com/)发起…

计算3种颜色粉刷立方体的所有可能方法

“(伯恩赛德引理)设G是一个作用在有限集合X上的有限群,令N为轨道的个数,则 其中Fix(x)是被τ固定的x∈X的个数.“ *高等近世代数 Joseph J. Rotman P78 “设G是一个有限群,作用在集合X上。对每个g属于G令X^g表示X中在g…

电力能源监测管理系统,在医院中有哪些作用?

随着经济全球化的发展,节能减排成为当前社会发展必须关注的问题。电力能源监测管理系统,可以分析电力管理能源的现状,并根据现状提出对应的策略,为快速高效建成绿色智能化医院提供有力支撑和技术保障。 医院能源管理现状 1、人力…

linux 网络文件共享服务

存储类型 DAS 直连式存储 SAN 存储区域网络 NAS 网络附近存储 FTP文件传输协议 文件传输协议 FTP 早期的三个应用级协议之一,基于c/s架构 数据传输格式:二进制(默认)和文本 tcp 21端口(权限,…

uniapp 如何使用echarts 以及解决tooltip自定义不生效问题

使用的是echarts-for-wx插件&#xff1b; 正常写法案例&#xff1a;给tooltip数值加个% <template><view><uni-ec-canvas class"uni-ec-canvas"id"uni-ec-canvas"ref"canvas"canvas-id"uni-ec-canvas":ec"ec&quo…

Android-网络基础

http 与 https 的区别&#xff1f;https 是如何工作的&#xff1f; http 是超文本传输协议&#xff0c;而 https 可以简单理解为安全的 http 协议。https 通过在 http 协议下添加了一层 ssl 协议对数据进行加密从而保证了安全。https 的作用主要有两点&#xff1a;建立安全的信…

使用WAF防御网络上的隐蔽威胁之CSRF攻击

在网络安全领域&#xff0c;除了常见的XSS&#xff08;跨站脚本&#xff09;攻击外&#xff0c;CSRF&#xff08;跨站请求伪造&#xff09;攻击也是一种常见且危险的威胁。这种攻击利用用户已经验证的身份在没有用户知情的情况下&#xff0c;执行非授权的操作。了解CSRF攻击的机…

WPF实现右键选定TreeViewItem

在WPF中&#xff0c;TreeView默认情况是不支持右键选定的&#xff0c;也就是说&#xff0c;当右键点击某节点时&#xff0c;是无法选中该节点的。当我们想在TreeViewItem中实现右键菜单时&#xff0c;往往希望在弹出菜单的同时选中该节点&#xff0c;以使得菜单针对选中的节点生…

PD虚拟机启动系统提示”网络初始化失败”的解决方法

问题原因&#xff1a;缺少一个系统权限造成的。 解决方法 先关闭所有PD虚拟机进程&#xff0c;打开【访达】右键–前往文件夹–复制下方路径 /Library/Preferences/Parallels 找到这个文件network.desktop.xml &#xff0c;拖到桌面上用记事本打开。 保存时会提示输入密码&am…

C# .net core WebApi Swagger配置

一. 支持注释 1.首先进行项目的创建&#xff0c;我这边以.net 7 为例来进行解说&#xff0c;因为.net 7中没有startup.cs文件&#xff0c;startup.cs文件已与program.cs文件进行了合并&#xff0c;我们来配置program.cs文件来让Swagger文档支持控制器的注释以及操作方法的注释…

TabLayout去除点击时的波纹效果

需求&#xff1a;去除com.google.android.material.tabs.TabLayout手指点击时产生的波纹效果 解决办法&#xff1a; xml中增加 app:tabBackground"null" app:tabRippleColor"null" 注意&#xff1a;Java/kotlin代码中不要设置这两个属性了。

IOS自动化测试元素定位

一、元素属性介绍 1、元素属性 2、查看各定位方式执行效率 二、iOS常用定位方法 1、accessibility_id 2、class_name 3、Xpath 4、ios_class_chain(类型链) 5、ios_predicate(谓词) 一个页面最基本组成单元是元素&#xff0c;想要定位一个元素&#xff0c;我们需…

线性表 | 双向链表

双向链表 双向循环链表

定制聚四氟乙烯反应容器可配套温度计套管和冷凝管

是谁遇到氟化氢就头疼&#xff0c;是谁看着玻璃装置被强碱性试剂折腾的惨不忍睹。 特氟龙塑料材质可以帮您解决问题&#xff0c;聚四氟乙烯材质是其中的一种材质&#xff0c;耐温250℃&#xff0c;耐受强酸强碱和各种有机溶剂&#xff0c;加工灵活&#xff0c;来样或者图纸或者…

使用WAF防御网络上的隐蔽威胁之SSRF攻击

服务器端请求伪造&#xff08;SSRF&#xff09;攻击是一种常见的网络安全威胁&#xff0c;它允许攻击者诱使服务器执行恶意请求。与跨站请求伪造&#xff08;CSRF&#xff09;相比&#xff0c;SSRF攻击针对的是服务器而不是用户。了解SSRF攻击的工作原理、如何防御它&#xff0…

数据结构之str类

str类 str 是字符串类。str 大概是 Python 中除了int 之外最基本、最常用的数据类型&#xff0c;在Java与其他语言里基本叫做String&#xff0c;其用途广泛&#xff0c;随处可见&#xff0c;但是要记住一点&#xff0c;字符串是不允许修改的。不过&#xff0c;我们仍然可以对其…

org.springframework.web.servlet.HandlerInterceptor

过期 1 配置黑名单 2 启动注册拦截 3 浏览器访问拦截

Linux CentOS 7.6安装nginx详细保姆级教程

一、通过wget下载nginx压缩包 1、进入home文件并创建nginx文件夹用来存放nginx压缩包 cd /home //进入home文件夹 mkdir nginx //创建nginx文件夹 cd nginx //进入nginx文件夹2、下载nginx,我这里下载的是Nginx 1.24.0版本&#xff0c;如果要下载新版本可以去官网进行下载:…

【Dart】=> [06] Dart初体验-类Class-构造函数-继承-mixin-异步编程-链式调用-泛型-异常

目录 能够定义并使用Dart的类类的定义构造函数私有属性和方法继承mixin异步编程FutureFuture链式调用async - awaitdynamic类型泛型异常 能够定义并使用Dart的类 Dart是一门面向对象的编程语言&#xff0c;所有的对象都是类的实例 通过类我们可以对数据和方法进行封装复用 学习…