文章目录
- 前言
- 0、论文摘要
- 一、Introduction
- 1.1目标问题
- 1.2相关的尝试
- 1.3本文贡献
- 二.相关工作
- 2.1 提取方法
- 2.2 抽象方法
- 2.3 数据集
- 三.本文方法
- 四 实验效果
- 4.1数据集
- 4.2 对比模型
- 4.3实施细节
- 4.4评估指标
- 4.5 实验结果
- 4.6 细粒度分析
- 五 总结
- 思考
前言
Abstractive vs. Extractive Summarization: An Experimental Review(2306)
0、论文摘要
文本摘要是自然语言处理的一项子任务,是指自动创建简洁流畅的摘要,从一个或多个文档中捕获主要思想和主题。早期的文献调查侧重于提取方法,对输入文档中前 n 个最重要的句子进行排名,然后将它们组合起来形成摘要。正如文献中所述,这些方法的摘要不具有与人类手动生成的摘要相同的词汇流或连贯性。较新的调查详细阐述了抽象方法,该方法会生成一个摘要,其中包含与输入文档相比可能出现的新短语和句子。一般来说,与提取方法相反,抽象方法创建的摘要更类似于人类生成的摘要。然而,这些方法仍然缺乏形成流畅摘要所需的上下文表示。深度学习和预训练语言模型的最新进展导致了许多自然语言处理任务的改进,包括抽象摘要。
总体而言,这些调查并未提出评估上述方法的综合评估框架。
考虑到上述因素,本次调查的贡献有四个方面:
(i)我们对文本摘要中最先进的方法进行了全面的调查;
(ii) 我们使用相关文献中的知名数据集以及流行的评估分数(例如 ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-LSUM、BLEU-1)对这些方法进行比较评估BLEU-2 和 SACREBLEU; (iii) 我们报告对文本摘要过程各个方面的见解,包括现有方法、数据集和评估方法,并概述了一系列未解决的问题和未来的研究方向;
(iv)我们将实验中使用的数据集和代码上传到公共存储库中,旨在提高这项工作的可重复性并促进该领域的未来研究。
一、Introduction
1.1目标问题
由于互联网上存在的文本语料库规模巨大且不断增长,重要信息可能会被忽视或丢失。与此同时,人类专家总结这些资源的任务是繁琐且耗时的[1]。这需要任务的自动化。自然语言处理(NLP)是一个多学科研究领域,融合了计算机科学、人工智能和语言学的方面和方法;它涉及从语义上有效地分析大量文本数据的流程的开发。
文本摘要(TS)是 NLP 的一项基本子任务,被定义为自动创建简洁流畅的摘要的过程,该摘要捕获一个或多个文档的主要思想和主题 [2]。在文献中查找相关出版物时,我们注意到术语 TS 的普遍用法是指单文档摘要,这属于本工作的范围;无论如何,多文档 TS 方法也是存在的 [3,4]。
多种 TS 应用已经存在,包括:(i) 文献摘要,旨在处理长文档,例如书籍、科学文章或类似的文献资源 [5,6]; (ii) 新闻媒体摘要,旨在总结来自一个或多个新闻媒体门户的信息[7,8]; (iii) 电子邮件摘要[9,10]; (iv) 法律文件摘要,重点是从冗长的法律文件中提取重要方面[11-13]; (v) 社交媒体摘要,对多个用户的社交媒体帖子进行汇总,以衡量某个主题的社会影响(该应用与意见挖掘领域高度相关)[14,15]; (vi) 论点总结,作为在数字民主平台上有意义地聚合公众意见的手段[16]。
1.2相关的尝试
最近发表的作品概述了一系列关于不同 TS 特征的见解。例如,参考文献。 [17]评估了提取摘要方法使用的各种技术以及相关的评估指标;参考号[18] 概述了 TS 数据集、方法和评估模式;参考号[4]根据TS方法的底层技术,详细阐述了TS方法的综合分类模式,并通过使用各种指标对其性能进行了比较评估;参考号[19] 重点关注抽取式 TS 方法、评估指标及其局限性;参考号[3] 对 TS 和关键词提取进行了全面的调查,后者是 TS 的兄弟任务。此外,参考文献。 [2,20]是对 TS 应用、方法、数据集和评估技术的两项全面调查,还报告了相关的局限性和挑战。与早期的作品相反,参考文献。 [21] 报告了一项综合调查,仅关注抽象 TS 方法,考虑到最近的深度学习方法,同时还使用各种版本的 ROUGE 指标进行比较评估 [22]。
然而,上述工作有一系列局限性:(i)只有少数[4,20,21]通过通用评估框架(例如 ROUGE 指标)评估了所考虑的方法; (ii) 只有少数人讨论了深度学习方法 [2,20,21]; (iii) 他们没有使用替代的评估指标,这会产生有趣的结果,例如 BLEU [23],如[22-24]中讨论的; (iv) 他们没有提供其实验设置和数据集的代码存储库的链接。
几项工作报告了制定综合评估框架的重要性[2,3,18,21]。具体来说,参考文献。 [2]强调需要提出关于TS方法自动评估的新解决方案,而[18]指出TS方法的自动评估仍然是一个非常有前途的研究领域,有许多悬而未决的问题。其中一些问题包括:(i) 缺乏考虑到人工分配的摘要与机器生成的摘要之间同义术语不匹配的指标,(ii) 缺乏具有质量摘要的数据集,以及 (iii) 缺乏数据集用于评估多语言方法。
考虑到上述评论并克服相关限制,本文旨在扩大和更新我们对 TS 任务的了解。这项工作的总体贡献有四个方面:(i)我们彻底分析了最先进的 TS 方法,这些方法建立在深度学习和语言模型的最新进展之上,并比较了它们的基本技术; (ii) 我们使用流行的评估分数(例如 ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-LSUM、BLEU1、BLEU-2 和 SACREBLEU)来评估这些方法的性能,同时将它们与性能最佳的提取方法进行比较方法(作为基线); (iii) 我们提供了一系列关于当前 TS 方法的见解,并概述了一系列悬而未决的问题和未来的研究方向; (iv) 我们制作用于实验设置的代码 (https://github.com/cmastrokostas/Automatic_Text_Summarization (2023 年 6 月 19 日访问)) 和数据集 (https://drive.google.com/drive/folders/1UJ_ L5ZYYm52CQuURixc7DHs2h6Yz50F0?usp=sharing(2023 年 6 月 19 日访问))公开,旨在提高我们工作的可重复性并促进未来的研究工作。
出于本次综述的需要,我们使用了搜索词“文本摘要”以及以下术语:“提取”、“抽象”、“方法”、“方法”、“评论”、“调查”和“研究”。我们的搜索是在 Google Scholar、Elsevier Scopus 和 ACM 中进行的数字图书馆。我们通过仅考虑被引用次数超过 10 次的论文或来自影响因子大于 2.0 的期刊的论文来缩小搜索结果的范围。附录 A 列出了满足这些限制并在本工作中进行分析的 61 种出版物的来源(期刊、会议、研讨会、知识库)的详细列表
本文的其余部分安排如下。第 2 节全面回顾了有关提取和抽象 TS 方法的背景概念和相关工作。第 3 节介绍了这些方法的评估以及所使用的数据集和指标。最后,结论性意见、未决问题和未来研究第 4 节概述了方向。
1.3本文贡献
总之,我们的贡献如下:
二.相关工作
现有的工作已经提出了迄今为止提出的 TS 方法的各种分类模式 [2-4,20]。其中最突出的是基于创建输出摘要的技术 [2]。根据它,这些方法可以分为两大类,即提取方法和抽象方法。本节分析所选的 TS 方法,分为抽取式(第 2.1 节)和抽象式(第 2.2 节)。 TS 文献中使用的评估数据集和指标分别在 2.3 和 2.4 节中讨论。
2.1 提取方法
提取方法的目标是提取所考虑的文档中最重要的句子。这些内容被汇总成一个简洁的摘要,捕捉了原文最重要的方面。已经提出了用于提取摘要的各种算法,每种算法都利用不同的技术进行句子排序和提取步骤,包括:(i)统计算法,利用诸如单词或句子频率之类的统计度量; (ii) 基于图的,将文档建模为句子图,然后利用图论概念(例如,中心性、社区检测措施等),以及 (iii) 基于语义的,将句子建模并将它们的术语放入共现矩阵中,然后使用分布语义进行分析[25]。在此背景下,本小节讨论了提取摘要中一些最重要的方法,即 Luhn、LSA、TextRank、LexRank、PositionRank 和 TopicRank。
Luhn [26] 是提取摘要中最早的方法之一。它利用统计分析根据最重要单词的频率及其在该句子中的相对位置对给定文本的每个句子进行排名。提取得分最高的句子以形成最终摘要。然而,这种方法有一个局限性,因为它只关注单个单词,没有考虑单词或句子之间的关系。
潜在语义分析(LSA)是最早用于尝试对单词之间的语义关系进行建模并捕获文档中的关键概念的技术之一[27]。对于TS任务,[28]的工作提出了LSA技术,它将文档建模为术语-句子矩阵,表示文档每个句子中每个单词的频率。然后,它应用奇异值分解(SVD)来提取文档最重要的语义特征,以便排序和提取最重要的句子。然而,这种方法的一些缺点涉及维度和句子的选择。为了解决这些问题,参考文献。 [29] 使用 LSA 构建了一种基于语义的方法,该方法还使用了更先进的算法。尽管有这些改进,但由于使用了 SVD [30],基于 LSA 的摘要方法的计算成本可能很高,尤其是对于较大的文本。
使用基于图的算法是另一种提取摘要方法,它解决了早期方法的一些局限性,因为它执行快速且可扩展的摘要。 TextRank [31] 是最早且最著名的基于图的排名方法之一。这种方法的第一步是将文档表示为句子的加权图。文档的句子表示为节点,它们之间的关系作为边。两个句子之间的连接表明它们之间存在相似性,这是根据其重叠内容来衡量的。创建图表后,应用 PageRank 中心性算法 [32] 根据每个句子与其他句子的连接对每个句子进行排名。最后,选择排名靠前的句子来形成输入文档的摘要。提取的句子的数量可以设置为用户定义的参数,用于算法的终止。
LexRank [33] 是另一种依赖于 PageRank 的基于图的算法。它的主要区别在于,每个句子都表示为其所包含单词的 TF-IDF(词频 - 逆文档频率)分数的向量,而这些句子向量之间的关系是使用余弦相似度来衡量的。创建相似度矩阵,每个句子表示为行和列,矩阵的元素计算为句子向量之间的余弦相似度得分。仅包含高于给定阈值的相似性。为了对句子进行排名,应用了 PageRank。所选句子的数量可以与 TextRank 类似地设置。其他基于 TextRank 构建的基于图的方法是 TopicRank [34] 和 PositionRank [35]。 TopicRank 使用主题建模技术,将具有相似主题的句子进行聚类,并提取每个聚类中最重要的句子。 PositionRank 考虑文本中术语位置的分布和有偏差的 PageRank 中的术语频率,对句子进行排名。
自从引入开创性的 Word2Vec 模型 [36] 以来,已经开发了许多词嵌入模型。他们的目标是捕获文本术语的语义信息,从而提高各种 NLP 任务的准确性。这些嵌入是针对每个术语计算的,它们的平均向量表示是文档嵌入。深度学习的最新进展允许从预训练的语言模型推断句子嵌入[37],同时实现比早期模型更好的准确性。在这项工作中,我们在已经提出的 LexRank 实现中利用这些句子嵌入(https://www.sbert.net/examples/applications/text-summarization/README.html(于 2023 年 6 月 19 日访问))。我们的目的是评估在使用第 3 节中提出的评估框架进行测量时,在 LexRank 基于图的方法的相似性步骤中引入句子嵌入是否可以提高基本方法的概括准确性。提取方法基于文献中出现的许多作品[38-40]。
2.2 抽象方法
对抽象方法的需求源于提取方法的一个主要缺点,即生成的文本缺乏可读性和连贯性,因为提取方法利用简单的启发式方法来提取和连接最相关的句子,而不考虑语法或句法规则。 18]。为了生成流畅且连贯的摘要,需要更多有关输入文本标记的上下文信息,因此需要一系列模型,以与人类读者的释义过程类似的方式生成新短语[2,4]。文献中已经提出了许多抽象概括模型。正如最近的一项调查[2]所示,这些方法包括基于图的[41]、基于规则的[42]和语义建模[43]方法。然而,这些早期模型并没有利用深度学习的最新进展,而深度学习可以改善许多 NLP 任务。较新的抽象摘要方法建立在深度学习模型的基础上,包括:(i)卷积神经网络(CNN)和循环神经网络(RNN); (ii) LSTM 和 GRU,它们改进了原始 RNN,并在[44]中进行了讨论。其他不基于 CNN 和 RNN 的神经架构包括 GAN(生成对抗网络)。某些作品使用这些来构建抽象方法,如[45,46]中所述。然而,与最近的深度学习模型相比,这些模型产生的评估分数(即 ROUGE)较低,后者依赖于下一段中解释的模型,如[21]中所验证的。
Transformer [47] 是一种深度学习模型,由一系列编码器和解码器层组成,利用注意力机制对序列数据的全局依赖关系进行建模[48]。具体来说,自注意力机制分配不同的权重输入的不同部分,根据其上下文意义。当生成输出序列时,它们被编码在隐藏状态层中。此外,Transformer 模型使用多头注意力,这意味着并行应用注意力来捕获输入数据的不同模式和关系。 Transformer 使用编码器解码器模型,将信息编码到隐藏层中,然后解码以生成输出。这些模型是半监督的,因为它们在大型数据集上进行无监督预训练,然后进行监督微调。基于该模型构建的方法在各种文本生成任务(包括抽象摘要)上实现了最先进的性能。最近的调查 [20,21] 讨论并评估了早期抽象方法之间的差异,包括那些利用 Transformer 架构引入之前提出的深度学习模型的方法。这里要强调的是,本文介绍的工作重点是著名的预训练语言模型方法,这些方法依赖于 Transformer 模型,并将在下面讨论。
T5 [49] 代表文本到文本传输转换器,是一种紧密遵循 Transformer 架构的方法。它提供了一个通用框架,可将多个 NLP 任务转换为连续的文本到文本任务。为了解决每个任务,它在输入中的给定序列之前使用特定于任务的前缀。预训练过程包括有监督训练和无监督训练。该方法的无监督目标包括使用独特的哨兵标记来掩盖标记的随机范围。 “损坏的”句子被传递给编码器,而解码器则学习预测输出层上丢失的标记。后续方法,即 mT5 [50],建立在 T5 的基础上,提供多语言预训练基线模型,可以进一步微调以解决多种自然语言的不同下游任务。
BART [51]代表双向自回归变压器,是一种多任务深度学习方法,其中包含抽象概括。 BART 利用“去噪”自动编码器,通过各种文本转换来学习文档与其“损坏”形式之间的关联。这些包括随机标记屏蔽或删除、文本填充、句子排列和文档轮换。该自动编码器被实现为具有双向编码器和从左到右自回归解码器的序列到序列模型。对于预训练,它优化了重建损失(交叉熵)函数,其中解码器以更高的概率生成在原始文档中找到的标记。
PEGASUS [9],代表用提取的间隙句子进行抽象概括的预训练,是一种专门针对抽象概括的下游任务进行预训练的深度学习方法。它为基于 Transformer 的模型引入了一种新颖的预训练目标,称为间隙句子生成 (GSG)。该目标是专门为抽象文本摘要任务而设计的,因为它涉及整个句子的屏蔽,而不是先前尝试中使用的较小文本范围。通过这样做,它在输入文档中创建了一个“间隙”,然后通过考虑其余句子来训练模型来完成该“间隙”。这种方法的另一个关键优点是通过利用一种根据句子在文档中的重要性而不是像早期方法中建议的那样随机排列句子的技术来选择屏蔽句子。
考虑到大型预训练模型的尺寸和计算复杂性迅速增加,如[52]中所述,研究人员被提示探索将它们压缩成较小版本的方法,以在执行时间方面保持高精度和更快的推理。一个这样的例子是[53]的工作,它提出了各种理解技术,包括:(i)直接知识蒸馏(KD),它允许将大型模型(称为“教师”模型)之间的知识转移到较小的模型中。和“蒸馏”模型,称为“学生”模型; (ii)伪标签,将学生模型的真实目标文档替换为教师的真实目标文档,以及(iii)收缩和微调(SFT),通过复制层的子集和将教师模型缩小到学生大小然后再次微调学生模型。他们还提供由 BART 和 PEGASUS 方法生成的大型预训练模型的各种“精炼”预训练模型版本。
2.3 数据集
本小节报告了所选的评估数据集及其特征(表 1 中给出了它们的概述)。我们选择了多个数据集,旨在测试这些方法对不同数据的泛化程度。
三.本文方法
四 实验效果
4.1数据集
4.2 对比模型
4.3实施细节
4.4评估指标
4.5 实验结果
4.6 细粒度分析
五 总结
本文对异构数据集上的一组突出的提取和抽象摘要方法进行了全面评估,旨在对它们进行比较并指出它们的优缺点。我们的实验揭示了以下一组结论:
对与测试数据类似的数据进行微调的抽象模型会产生明显更好的结果。其余的抽象模型根据与测试数据不同的数据进行微调,在大多数情况下,其性能与提取模型相似甚至更好。 BART、PEGASUS 和 DistilBART 方法之间没有明显的赢家,因为它们在不同的数据集上都没有优于其他方法。然而,值得注意的是,在某些情况下,DistilBART 学生模型的表现优于 BART 教师模型。
• 对于提取方法,它们的评估分数彼此相对接近,因此没有一种方法脱颖而出。在这两个 TextRank 变体中,sumy 的实现在我们仅提取一句话摘要的数据集(XSum、XLSum 和 Reddit TIFU)上表现更好,而 pyTextRank 的版本在其余所选数据集上表现更好。我们还测试了基于嵌入的提取方法 e-LexRank,该方法在大多数数据集中并没有比经典提取方法产生更好的结果。
• 关于我们的评估指标,我们注意到应用BLEU 产生的分数与ROUGE 产生的分数类似。这导致我们推荐使用 BLEU 指标来评估摘要方法,即使它最初的用途涉及机器翻译领域。
• 人们可能会发现,除了 CNN/Daily Mail 数据集的情况外,所有数据集中 RL 的分数都与 RLSum 的分数相匹配。对于具有单句摘要的数据集,RLSum(摘要级别)分数相当于 RL(句子级别)分数。对于可能包含多句子摘要的其他数据集,发生这种情况是因为我们使用的 RLSum 实现使用换行符分隔符 (\n) 来分割句子。
• 上述实验结果的含义是,所有抽象模型的性能并不相同,正如[21]中所报告的那样。因此,研究人员不断需要发现更好的预训练语言模型架构,这些模型架构更容易泛化并生成更接近人类写作风格的摘要。我们的工作还揭示了 TS 中的一系列未决问题,需要进一步关注;其中包括:
• 每次引入不同语言或不同领域的文档时,都需要分别重新训练或细化抽象模型。这可以通过创建更多不同领域的非英语数据集,然后训练和微调不同版本的模型来解决。
• 可能会出现通用类型的抽象模型,而不是高度准确但专门的抽象模型。这些可以在庞大的多语言语料库上进行训练和微调,从而实现当前模型中不存在的一定程度的泛化。
• 当前的抽象方法需要大量的训练数据[9,55] 和训练时间,即使使用专门的硬件也是如此。这可以通过大型语言模型(LLM)的半监督性质来解决,例如 GPT-3 [52],由于其训练量和参数数量(十亿级)非常大,可以针对特定的目标进行微调。通过利用有限数量的示例来了解语言或领域。
• 如2.4 节所述,BLEU 可以用作TS 任务的评估指标。如第 3.2.2 节所示,该指标对方法产生的排名与 ROUGE 产生的排名类似。据我们所知,大多数评估摘要方法的研究工作仅使用 ROUGE 度量。基于上述讨论和评论,
我们提出以下未来工作方向:
• 评估法学硕士的 TS 任务,考虑到其零/少样本学习能力,这使它们能够针对不同语言或领域进行微调,并具有显着的效果。示例数量较少。
• 微调其他语言和/或领域的现有抽象方法。
• 利用不同的评估指标,这些指标不会惩罚使用同义术语生成抽象摘要的方法(例如,BERTscore [64]、BLEURT [65] 等)。