NLP论文阅读记录 - 2023 | EXABSUM:一种新的文本摘要方法,用于生成提取和抽象摘要

news2024/9/25 21:29:36

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.相关工作
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

EXABSUM: a new text summarization approach for generating extractive and abstractive summaries(23)

0、论文摘要

由于在线信息呈指数级增长,无需大量阅读即可有效提取信息最丰富的内容并定位特定信息的能力对于读者来说变得越来越有价值。
在本文中,我们提出了“EXABSUM”,这是一种自动文本摘要(ATS)的新方法,能够生成两种主要类型的摘要:抽取式摘要和抽象摘要。
我们提出了两种不同的方法:
(1)提取技术(EXABSUMExtractive),它集成了统计和语义评分方法,从文本单元中选择和提取相关的、非重复的句子;
(2)抽象技术(EXABSUMAbstractive),它采用词图方法(包括压缩和融合阶段)和基于关键词的重新排名,以使用源文档作为输入生成抽象摘要。在对多领域基准进行的评估中,EXABSUM 优于提取摘要方法,并表现出与抽象基线的竞争力。

一、Introduction

1.1目标问题

如果没有摘要,人类对不断增长的在线信息的访问将会受到阻碍。鉴于文本内容的广泛性,相关信息可能会无意中逃避读者的注意力。因此,将关键信息浓缩成摘要具有重要价值。自 20 世纪 50 年代以来,研究人员一直致力于增强文本摘要算法,目标是达到与人类能力相当的摘要水平。文本摘要仍然是 NLP 领域中一个艰巨但充满希望的挑战。
在文本摘要中,出现了两个关键问题:(i)识别文档中相关内容的过程,以及(ii)简洁地传达所选材料同时最大限度地减少冗余的艺术[1-3]。 ATS 方法的前景可分为三个主要类别:抽取式、抽象式和目前,重点是混合摘要——提取和抽象技术的融合[4-6]。
尽管信息技术取得了显着的进步,但概括领域仍然需要取得重大进展。在文本摘要领域,仍然存在一些关键挑战,可概括如下:
• 最初,出现了文本相关性检测的挑战。传统方法假设文本中单词的重要性与其出现频率相关,每个单词代表一个不同的概念。然而,由于同义词和共指表达的存在有助于文本衔接,量化概念的出现会带来复杂性。文档中的信息流表现出波动,表明特定部分比其他部分更重要。因此,有效识别最相关的细节并在静态和语义上从源文档中区分相关术语的任务被证明是一个普遍的挑战(例如,根据相关关键字或关键短语进行选择)。
• 随后,缺乏连贯性和冗余的问题。提取式摘要在生成的摘要中面临着衔接和连贯性的障碍,这些障碍源于冗余(具有可比含义的短语)、脱节的句子连接和未解决的共指关系。
• 第三个挑战涉及抽象和混合摘要。对抽象或混合自动文本摘要 (ATS) 技术的需求变得显而易见。这种技术类型仍然是一个不断发展和复杂的领域。迄今为止,事实证明,制作有效的抽象摘要具有挑战性。必须制定总体指导方针和可行的策略,从提取摘要过渡到抽象摘要,从而利用这两种 ATS 方法所提供的优势。

1.2相关的尝试

1.3本文贡献

在本文中,我们介绍了 EXABSUM,这是一种 ATS 系统,可以生成两个不同的摘要类别。首先,摘录(EXABSUMExtractive)是通过严格的提取方法形成的,而摘要(EXABSUMAbstractive)是通过抽象方法制作的。所概述的方法有效地解决了提取和抽象摘要技术固有的局限性

总之,我们的贡献如下:
• 与某些仅依赖统计评分机制从源文档逐字提取短语的现有提取系统不同,我们的方法引入了一种独特的无监督提取策略,旨在应对文本相关性检测的挑战。这种创新方法结合了统计和语义评分技术的优势来识别关键信息,同时提出一种新颖的信息。
• 与某些现有的提取系统不同,我们的方法引入了语义冗余缓解的元素——ATS 中的一个关键问题。避免在最终结果中包含语义和上下文冗余信息摘要,我们主张采用文本蕴涵。这种方法用于减轻现有方法固有的可读性挑战,从而减轻通常与生成的文本相关的缺点。
• 我们通过提出基于图形的摘要模型来应对生成摘要摘要的挑战,该模型旨在生成有弹性的摘要摘要。该模型建立并扩展了开创性的多句子压缩和融合方法,并得到基于密钥提取的重新排序方法的支持。值得注意的是,这种方法的功能独立于训练数据或获取文档结构或领域知识的任何需要。

二.相关工作

自动摘要领域的最初工作集中在提取方法,其目的是直接从源文本中选择相关的现有单词、短语或句子以捕获其最关键的内容。提取式自动文本摘要(ATS)方法通常分三个步骤进行[5]:(1)构建原始文本的中间表示(通常涉及预处理并将文本分割为段落、短语和标记); (2) 句子评分(分数应衡量句子对全面理解文本的重要性),将分数分配给最相关的单词,然后评估句子特征,例如在文档中的位置、句子长度、标题对齐和其他因素。先前的提取摘要研究主要集中在(1)基于句子聚类、(2)统计、(3)基于图和(4)基于优化的技术。在第一种方法的上下文中,文档包含 n 个句子,每个句子共享一组相同的术语。因此,文档中的术语集对应于每个短语中的术语集。对应句子之间的距离可以用来说明语言模式的相似性[7-10]。
句子聚类算法将相关的文本单元(段落、句子)组织成多个聚类,以发现信息的共同主题,随后从这些聚类中选择文本单元作为最终摘要。值得注意的提取摘要技术之一是基于质心的方法[11]。 MEAD 系统 [12] 是采用句子聚类算法的自动文本摘要 (ATS) 系统的一个实例,它是一个双语(英语和中文)摘要系统,
提供提取的单文档和多文档通用或以查询为中心的摘要。 MEAD 系统利用 tf-idf 类型数据计算单个文档或提供的集群的质心主题特征。它通过权衡句子得分与质心、文本位置值和 tf-idf 标题/导语重叠来评估候选摘要句子。摘要长度阈值控制句子选择,而针对先前短语的余弦相似性分析则抑制冗余的新短语。
QCS 系统 [13] 将摘要技术纳入综合检索和分组过程中,为每个集群生成单个提取摘要。这是通过结合句子“修剪”和隐马尔可夫模型,然后进行旋转 QR 分解的方法来实现的。该模型识别出最有可能包含在摘要中的句子。
统计方法 [14] 依赖于 TF-IDF 分数和单词共现等基本指标 [1,15,16]。 Ko 和 Seo [17] 引入了一种熟练的文本摘要方法,该方法利用上下文洞察和统计方法来提取相关句子。
基于图的方法 [7] 将文本描述为短语网络,并通过基于图的评分机制设计摘要。 Baralis 等人提出了一种创新且多功能的摘要器 GRAPHSUM,它植根于图模型。 [18]。它通过揭示关联规则来捕获各种元素之间的相互关系。 Parveen 和 Strube [19] 提出了一种基于提取图的无监督技术,用于总结单个文档,该技术考虑了三个关键的总结属性:重要性、非冗余性和局部一致性。基于优化的方法[20]采用整数线性规划[21]、约束优化[22]和稀疏优化[23]等优化技术。
其他 ATS 系统,如 SummGraph [24],采用基于图形的算法和知识数据库来识别相关文本的实质内容。值得注意的是,这个特定系统已在新闻、生物医学研究和旅游等领域展现出有效性。摘要还融入了自然语言生成 (NLG),以引入新的术语和语言结构。 Belz [25] 提出了一种基于“NLG”的文本摘要技术,可自动生成天气预报报告。穆罕默德等人。 [26]阐明了一种自动创建基于引文的技术调查的系统。最近,埃雷拉等人。 [27] 介绍了 IBM Science Summarizer,这是一种针对计算机科学论文的创新方法。这种方法根据用户提供的信息需求来制作摘要,无论是自然语言查询、科学任务(例如“机器翻译”)、数据集还是学术场所。
尽管提取方法可以熟练地识别重要信息,但它们可能缺乏人类生成的摘要所固有的流动性和精确性。因此,抽象 ATS 方法致力于通过减少冗余、阐明句子上下文以及可能在摘要中引入补充短语来增强句子连贯性。为了合成最终摘要,抽象技术通常利用句子压缩、融合或修改机制。 Barzilay 和 McKeown [28] 开创了一个系统,其中依赖树代表输入短语,并且选择的单词被对齐以将这些树集成到网格结构中。随后通过树遍历对格进行线性化以生成融合句子。
Filippova 和 Strube [29] 引入了一种创新的句子融合方法,将融合任务视为优化问题。这种无监督技术利用了依存结构对齐、语义和句法信息短语聚合以及修剪策略。后来,Filippova 深入研究了将相互关联的句子集合压缩为简洁的单个句子的挑战,称为多句子压缩,并提出了一种基于词图中最短路径的基础技术 [30]。她的方法产生了语法合理且信息丰富的摘要,随后在多种当代摘要系统中得到应用 [4, 31]。 Boudin [32] 通过将多句子压缩(MSC)作为从一组互连句子生成简洁的单句子摘要的任务来扩展 Filippova 的方法。他引入了一种基于文档中关键短语的频率和相关性的 N 最佳重新排名算法,从而产生信息更丰富的摘要。班纳吉等人。 [33]使用单词图和整数线性规划(ILP)设计了多文档抽象摘要。他们将关键文档中的相似句子聚集在一起,并使用词图来识别最短路径。 ILP模型有利于识别具有最大信息量和可读性的句子,有效减少冗余。纳伊姆等人。 [34]制定了一个无监督的抽象摘要系统。他们的创新是释义句子融合模型,通过skip-gram词嵌入模型将句子融合与句子级别的释义结合起来。该模型扩大了信息覆盖范围并增强了生成短语的抽象性质。尚等人。 [35]引入了一种完全无监督的基于图的架构,专为会议演讲的抽象总结而定制。他们的统一框架融合了三种不同任务(关键词提取、多句子压缩和摘要)中六种流行方法的优势,有效解决了各自的局限性。他们的抽象概括方法经历了四个关键过程:预处理、社区识别、多句子压缩和子模最大化。
最近,NLP 研究界越来越多地将注意力转向混合 ATS 技术。在混合方法中,利用提取方法来识别被认为对于包含在摘要中至关重要的内容术语和句子,同时指导摘要的开发[36]。此类方法融合了提取和抽象 ATS 技术的优势。迪法布里奇奥等人。 [37]引入了一种混合方法,通过将自然语言生成与显着句子选择技术相结合来制作产品和服务评论的摘要。他们的“STARLET-H”系统作为混合抽象/提取摘要器运行。它采用提取摘要技术来识别输入评论中的重要引述,将其合并到自动生成的抽象摘要中,以提供赞成和/或反对观点的验证、披露或理由。然而,该算法需要大量的训练数据来理解方面顺序。 LLORET 和 ROM-FERRI [38] 提出了 COMPENDIUM ATS 系统,用于生成生物医学领域的研究出版物摘要。该系统生成两种不同类型的通用摘要:提取式摘要和抽象导向摘要,并附有各自的 COMPENDIUM 变体:COMENDIUM-E 和 COMPENDIUM-A。提取方法有选择地挑选和提取最相关的句子,而面向抽象的方法则混合了提取和抽象技术,结合信息压缩和融合阶段。巴特等人。在[39]中介绍了“SumItUp”,一个单文档混合TS系统。该混合系统由两个阶段组成:(1)提取句子选择,使用统计特征(句子长度、句子位置、TF-IDF、名词短语、动词短语、专有名词、聚合余弦相似度和提示短语)生成摘要,以及语义特征(文本中描述的情感)。在提取摘要中,利用余弦相似度来消除冗余句子。对于抽象摘要生成,提取的句子经过语言生成器(Wordnet、词性标注器和 Lesk 算法的融合)的处理,将提取摘要转换为抽象再现。

三.本文方法

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1380094.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PLC控制脉冲轴绝对位置往复运动(三菱FX系列简单状态机编程)

有关状态机的具体介绍,专栏有很多文章,大家可以通过下面的链接查看: https://rxxw-control.blog.csdn.net/article/details/125488089https://rxxw-control.blog.csdn.net/article/details/125488089三菱FX系列回原功能块介绍 https://rxxw-control.blog.csdn.net/article…

springboot注解@PropertySource作用

简介 PropertySource 是 Spring 框架中的一个注解,用于指定一个或多个属性文件(通常是.properties文件)这些文件包含了应用程序需要的配置信息。当你在 Spring 的配置类中使用此注解时,Spring 容器会加载这些属性文件&#xff0c…

中科星图——Landsat9_C2_SR大气校正后的地表反射率数据

数据名称: Landsat9_C2_SR 数据来源: USGS 时空范围: 2022年1月-2023年3月 空间范围: 全国 数据简介: Landsat9_C2_SR数据集是经大气校正后的地表反射率数据,属于Collection2的二级数据产品&#…

深入理解 Flink(二)Flink StateBackend 和 Checkpoint 容错深入分析

Flink State 设计详解 State 简单说,就是 Flink Job 的 Task 在运行过程中,产生的一些状态数据。这些状态数据,会辅助 Task 执行某些有状态计算,同时也涉及到 Flink Job 的重启状态恢复。所以,保存和管理每个 Task 的状…

如何制作网址链接活码?网址二维码生成器的使用方法

将网址转二维码图片来使用,是现在很常用的一种二维码类型,一般网址可以根据自己的用途来制作静态码或者活码两种形式。其中静态码只是单纯将网址链接转换成二维码,无法统计与修改,而生成网址活码可以在二维码图片不变情况下替换其…

114.QTimer类和QWidget类

目录 一、QTimer类 定时器使用举例: 二、QWidget类 2.1设置父对象 2.2窗口位置 2.3窗口尺寸 2.4窗口标题和图标 2.5信号 2.6槽函数 示例代码: 一、QTimer类 QTimer 是 Qt 中用于实现定时器的类。它可以在一定的时间间隔内发射信号,…

【小程序开发需要多少钱?】

哈喽,大家好,这里是智创开发。 我们今天聊聊开发一个小程序需要多少钱。 由于自己组建团队来开发小程序成本过高,大品牌的企业一般都不会这么搞,所以我们今天只谈假如我有需求,找服务商来全程搞定的费用大致是多少。和…

Flutter之运行错误:this and base files have different roots

运行时报错: this and base files have different roots: E:\Demolpro\waqu\build\flutter-plugin-_android_lifecycle and C:\Users\78535\AppData\Local\Pub\Cache\hosted\pub.dev\flutter_pulgin_android_lifecycle-2.0.17\android 如图: 这种情况…

半导体抛光用PFA容量瓶耐强酸碱定容瓶

PFA容量瓶又称可溶性聚四氟乙烯容量瓶、特氟龙容量瓶容量瓶,我司新推出螺纹和插口两种可供选择,目前有10ml、25ml、50ml、100ml、250ml、500ml、1000ml的规格可提供,产品质量有保障。 Teflon系列PFA容量瓶是一个透明的长颈瓶,瓶体…

水果音乐编曲软件 FL Studio v21.2.2.3914 中文免费版(附中文设置教程)

FL studio21中文别名水果编曲软件,是一款全能的音乐制作软件,包括编曲、录音、剪辑和混音等诸多功能,让你的电脑编程一个全能的录音室,它为您提供了一个集成的开发环境,使用起来非常简单有效,您的工作会变得…

公司运营数据分析大屏:引领企业决策,驱动业务增长

在数字化时代,数据已经成为企业决策的关键。为了更好地洞察市场趋势、优化业务流程、提升运营效率,越来越多的企业开始引入数据分析大屏以分析公司运营状况。这一创新举措不仅改变了传统的管理模式,更引领企业迈向智能化决策的新篇章。 公司运…

Spring之AOP源码(二)

书接上文 文章目录 一、简介1. 前文回顾2. 知识点补充 二、ProxyFactory源码分析1. ProxyFactory2. JdkDynamicAopProxy3. ObjenesisCglibAopProxy 三、 Spring AOP源码分析 一、简介 1. 前文回顾 前面我们已经介绍了AOP的基本使用方法以及基本原理,但是还没有涉…

在Linux下配置Apache HTTP服务器

在Linux的世界里,如果说有什么比解决各种“神秘”的故障更让人头疼,那一定就是配置Apache HTTP服务器了。这不是因为Apache有什么问题,而是因为配置它简直就像解谜游戏,一不留神就会让你陷入无尽的纠结。 首先,你需要…

Maya参考图的导入和层的应用

参考视频:08.参考图的导入和层的应用_哔哩哔哩_bilibili 前视图/右视图模式下导入图形 创建图层 锁定后可以避免图片位置的移动 前视图和右视图要根据参照物对齐 与模型保持一定距离,同时把该参照图添加到图层中 模型可以添加到图层2中

瑞吉外卖笔记系列(2) —— 完善员工的后台系统登录功能,实现员工信息管理

本文档主要 完善员工的后台系统登录功能,新增员工,员工信息分页查询,启用/禁用员工账号,编辑员工信息 一、完善后台系统登录功能 1.1 问题分析 目前存在的问题是:理论上,用户必须在 http://localhost:808…

LeetCode 590. N 叉树的后序遍历

590. N 叉树的后序遍历 给定一个 n 叉树的根节点 root ,返回 其节点值的 后序遍历 。 n 叉树 在输入中按层序遍历进行序列化表示,每组子节点由空值 null 分隔(请参见示例)。 示例 1: 输入:root [1,null,…

数据结构与算法:插入排序希尔排序

数据结构与算法:插入排序&希尔排序 插入排序希尔排序 插入排序 假设现在你有一个有序的数组,你要把一个数据插入到数组中,保证插入后依然有序,要怎么做? 对于人来说,这个问题就像是在整理扑克牌&…

优化 - 重构一次Mysql导致服务器的OOM

概述 优化了一次前后端处理不当导致的CPU的一次爆机行为,当然,这和服务器的配置低也有着密不可分的关系,简单的逻辑学告诉我们,要找到真正的问题,进行解决,CPU爆机的关键点在于前后端两个方面,…

在CentOS中,对静态HTTP服务的性能监控

在CentOS中,对静态HTTP服务的性能监控和日志管理是确保系统稳定运行和及时发现潜在问题的关键。以下是对这一主题的详细探讨。 性能监控 使用工具监控:top、htop、vmstat、iostat等工具可以用来监控CPU、内存、磁盘I/O等关键性能指标。这些工具可以实时…

Linux中常使用的命令之ls、cd、pwd、mkdir、rmdir

ls: 列出目录 cd:切换目录 pwd:显示目前的目录 mkdir:创建一个新的目录 -m :配置文件的权限-p :帮助你直接将所需要的目录(包含上一级目录)递归创建起来! rmdir:删除一个空的目录 注意这…