NLP论文阅读记录 - 2021 | WOS 使用预训练的序列到序列模型进行土耳其语抽象文本摘要

news2024/11/23 20:14:59

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.相关工作
    • 2.1 预训练的序列到序列模型
    • 2.2 抽象文本摘要
  • 三.本文方法
    • 3.1 总结为两阶段学习
      • 3.1.1 基础系统
    • 3.2 重构文本摘要
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

Turkish abstractive text summarization using pretrained sequence-to-sequence models(2110)

0、论文摘要

网络上可用文档数量的巨大增加使得查找相关信息变成了一项具有挑战性、乏味且耗时的活动。因此,自动文本摘要已成为一个重要的研究领域,受到了研究人员的极大关注。最近,随着深度学习的进步,使用序列到序列(Seq2Seq)模型的神经抽象文本摘要越来越受欢迎。这些模型有许多改进,例如使用预训练的语言模型(例如 GPT、BERT 和 XLM)和预训练的 Seq2Seq 模型(例如 BART 和 T5)。这些改进解决了神经摘要中的某些缺点,并改进了显着性、流畅性和语义等挑战,从而能够生成更高质量的摘要。不幸的是,这些研究尝试大多局限于英语。最近发布了单语言 BERT 模型和多语言预训练 Seq2Seq 模型,为在土耳其语等资源匮乏的语言中利用此类最先进的模型提供了机会。在本研究中,我们利用预训练的 Seq2Seq 模型,在两个大型土耳其数据集 TR-News 和 MLSum 上获得了最先进的结果,用于文本摘要任务。然后,我们利用数据集中的标题信息,并为两个数据集上的标题生成任务建立硬基线。我们表明,模型的输入对于此类任务的成功非常重要。此外,我们还提供了对模型的广泛分析,包括跨数据集评估、各种文本生成选项以及土耳其语 ROUGE 评估中预处理的效果。结果表明,单语言 BERT 模型在所有数据集的所有任务上都优于多语言 BERT 模型。最后,提供了对生成的摘要和模型标题的定性评估。

一、Introduction

1.1目标问题

随着网络的出现,通过网站、新闻、博客、书籍、科学论文和社交媒体等来源在线提供的文档数量呈指数级增长。与此同时,由于内容重复且不相关,用户越来越难以找到自己感兴趣的信息。此外,理解所有这些来源所需的时间和精力是巨大的。由于人类通过手动理解如此大量的信息是不切实际的,因此需要自动消化和提取所有这些信息的本质。在这方面,文本摘要已成为过去几十年的必然必然和非常热门的研究领域。
文本摘要旨在从长文档中自动生成简洁的文本,能够以流畅且显着的方式描述最重要的信息(Luhn 1958;Edmundson 1969)。自动文本摘要有两种主要方法:抽取式文本摘要(Mihalcea and Tarau 2004;Nallapati, Zhai, and Zhou 2017)和抽象文本摘要(Rush, Chopra, and Weston 2015;See,Liu,and Manning 2017;Zhanget al) .2020)。提取文本摘要通过从输入文本中选择最相关的句子或短语来生成摘要,而不反映任何更改。另一方面,抽象文本摘要是一项更具挑战性的任务,其目的是通过利用复杂的自然语言理解和生成能力来生成类似人类的摘要。
随着深度学习的进步,抽象文本摘要变得更加流行。最近,具有编码器-解码器架构的序列到序列(Seq2Seq)模型占据了该领域的主导地位。编码器-解码器网络的底层组件已从基于 LSTM(Hochreiter 和 Schmidhuber 1997)的模型转变为基于 Transformer(Vaswani 等人,2017)的模型。语言模型预训练(Radford 等人,2018 年;Devlin 等人,2019 年)在众多自然语言处理 (NLP) 任务中取得了最先进的成果,特别是在自然语言理解方面。这些预训练的语言模型也被用于抽象文本摘要(Liu and Lapata 2019)。后来,研究利用 Seq2Seq 模型的预训练(Dong et al. 2019;Song et al. 2019;Rothe, Narayan, and Severyn 2020;Lewis et al. 2020;Raffel et al. 2020)来进一步改进语言生成任务。因此,预训练 Seq2Seq 模型,尤其是在大规模数据集上的预训练,表现得非常好,在神经抽象摘要方面达到了最先进的结果(Zhang et al. 2020;Qiet al. 2020)。
不幸的是,所有这些研究尝试大多仅限于英语。此外,预训练此类模型需要大量数据和计算能力,这些都是限制研究的因素。然而,BERT(Devlin et al. 2019)模型的多语言版本和两个多语言预训练的 Seq2Seq 模型(mT5 Xu et al. 2021 和 mBART Liu et al. 2020)最近已经发布。这为资源匮乏语言的各个研究领域带来了许多可能性。此外,社区已经对许多不同语言的单语 BERT 模型进行了预训练,其中包括 BERTurk (Schweter 2020),一个单语土耳其语 BERT 模型。
土耳其语文本摘要研究主要基于提取方法。很少有研究试图解决土耳其语的抽象概括任务(Scialom et al. 2020;Baykara and Güngör 2022)。这些作品都没有使用预训练的 Seq2Seq 模型,而这些模型已被证明可以达到最先进的英语结果。此外,标题生成也被认为是文本摘要任务,因为主要目标是以标题的形式输出简洁的摘要(Rush et al. 2015)。然而,土耳其语标题生成研究的数量非常有限(Karakoç 和 Yılmaz 2019)。目前有两个大型数据集 TR-News (Baykara and Güngör 2022) 和 MLSum (Scialom et al. 2020) 适合土耳其语抽象文本摘要。在本研究中,我们的目标是利用这些预训练模型在 TR-News 和 MLSum 数据集上执行抽象文本摘要和标题生成任务,并对所获得的结果进行详细分析。

1.2相关的尝试

1.3本文贡献

• RQ1:预训练的序列到序列模型如何执行土耳其语抽象文本摘要和标题生成任务?
• RQ2:在BERT2BERT模型架构上,单语BERT模型是否比多语BERT模型获得更好的结果?
• RQ3:组合具有相似特征的数据集是否可以提高抽象文本摘要和标题生成中的模型性能?
• RQ4:在一个数据集上训练的模型在具有相似特征的其他数据集上表现如何?
• RQ5:标题生成模型的输入对模型性能的影响有多大?

总之,我们的贡献如下:
我们证明,预训练的序列到序列模型在 TRNews 和 MLSum 数据集上达到了最先进的水平,可用于摘要生成和标题生成任务。 • 我们进行了第一项利用两个数据集标题的研究,并为标题生成任务提供全面且强大的基线。 • 我们证明单语言 BERT 模型在 BERT2BERT 架构上优于多语言 BERT 模型。 • 我们观察到,结合两个数据集可以为文本摘要和标题生成任务产生更好的模型。 • 我们对这两项任务进行了跨数据集评估,结果表明,与在 MLSum 上训练的模型相比,在 TR-News 上训练的模型更加稳健。 • 我们测量了为标题生成任务的Seq2Seq 模型提供不同输入(引导句子与摘要)的效率,并证明与引导句子相比,摘要被证明是更好的选择。 • 我们展示了预处理对 ROUGE 计算的影响程度,这对于土耳其语等粘着语言尤其重要。

二.相关工作

2.1 预训练的序列到序列模型

近年来,NLP 中的迁移学习已被证明非常有效,并在多种任务中取得了最先进的结果。预训练语言模型的概念能够通过各种预训练目标学习与任务无关的知识,然后将这些知识转移到下游任务,这种概念在自然语言理解方面特别成功(Radford 等人,2018 年;Devlin 等人,2019 年;Yanget)等2019)。然而,需要自然语言理解和自然语言生成的任务(例如机器翻译和文本摘要)无法从这些预训练的编码器模型中受益,从而导致预训练的序列到序列模型。
Song 等人(2019)提出了 MASS,一种屏蔽的 Seq2Seq 生成模型,当提供剩余部分时,它能够重现句子的部分内容。 UniLM(Dong et al. 2019)对三种类型的语言建模目标进行同步训练:单向、双向和序列到序列。在 BART 中,Lewis 等人(2020)遵循各种去噪目标,首先破坏输入文本,然后使用自动编码器重建它。 T5(Raffel et al. 2020)引入了一种通用的文本到文本框架,能够仅使用文本作为输入和输出来处理各种 NLP 任务,并且在各种监督下进行了预训练以及无监督目标,包括总结。最后,发布了 T5 和 BART 的多语言版本,分别为 mT5 (Xue et al. 2021) 和 mBART (Liu et al. 2020)。

2.2 抽象文本摘要

抽象文本摘要主要被视为序列到序列问题,并且编码器-解码器网络经常用于解决该问题。 Rush 等人(2015)是最早将使用神经网络语言模型(NNLM)的编码器-解码器架构应用于标题生成任务(作为抽象摘要问题的一部分)的研究之一。然后,Chopra、Auli 和 Rush(2016)用循环神经网络(RNN)取代了 NNLM。 Nallapati 等人(2016)介绍了几种新颖的模型,包括具有注意力机制的基于双向 LSTM 的编码器-解码器、具有丰富特征的编码器的模型、切换指针生成器模型以及能够捕获文档结构。此外,将 CNN/每日邮报数据集(Hermann 等人,2015)转换为文本摘要格式也是他们的贡献之一。指针生成器模型得到了增强,允许它从源文档复制单词,并添加了覆盖机制来解决单词重复问题(参见 et al. 2017)。后来,各种强化学习模型被应用于神经抽象概括(Çelikyılmaz et al. 2018;Paulus, Xiong, and Socher 2018)。卷积神经网络 (CNN) 与 XSum 数据集上的主题感知嵌入结合使用,以更好地捕捉文档的主题(Narayan、Cohen 和 Lapata 2018a)。采用预训练语言模型 BERT 作为编码器组件,以提高语言理解能力(Liu 和 Lapata 2019)。
最近,预训练的 Seq2Seq 模型在神经抽象概括方面表现出非常好的性能(Lewis et al. 2020;Raffelet al. 2020)。 PEGASUS(Zhang et al. 2020)专门针对抽象文本摘要任务进行了预训练,并利用从文档中屏蔽整个句子并生成这些间隙句子作为预训练目标。 ProphetNet (Qi et al. 2020) 引入了一种新颖的自我监督目标,称为未来 n-gram 预测和 n-stream 自注意力机制。与优化提前一步预测的传统 Seq2Seq 模型不同,它会提前优化 n 步,在每个时间步根据先前的上下文标记同时预测下一个 n 个标记。

三.本文方法

3.1 总结为两阶段学习

3.1.1 基础系统

3.2 重构文本摘要

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

在本文中,我们详细分析了预训练的序列到序列模型在文本摘要和标题生成这两个任务上的性能。 mT5 模型在 TR-News 和 MLSum (TR) 数据集上的两项任务的 ROUGE 分数均达到了最佳结果。单语言 BERTurk 模型也表现出接近 mT5 模型的性能,并产生了更多新颖的摘要。我们为摘要生成任务和土耳其语标题生成任务的数据集建立了强大的基线。对标题生成任务的进一步分析表明,模型的输入对任务的结果影响很大。与提供引导句子作为输入相比,提供新闻文章摘要作为模型的输入显示出更好的 ROUGE 分数。此外,我们通过组合 TR-News 和 MLSum (TR) 创建了一个更大的数据集 (Combined-TR),因为两者具有相似的特性统计数据和内容方面的特点。在组合 TR 上训练的模型在文本摘要和标题生成任务上都显示出性能提升。最后,单语言 BERT 模型在这两项任务上均优于 BERT2BERT 模型架构中的多语言 BERT 模型。在未来的工作中,我们计划使用不同语言(特别是粘着语言)的摘要数据集来扩展这项研究。如果有足够的计算资源,未来可能会从头开始为资源匮乏的语言预训练单语言 Seq2Seq 模型,并将结果与​​多语言预训练的 Seq2Seq 模型进行比较。此外,可以改变预训练目标以考虑此类语言的粘合性质。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1400826.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STM32 Hal库FreeRtos查看所有任务的内存栈信息使用情况剩余空间 仅需一个函数搞定 超简单

STM32F103 基于Hal库跑FreeRtos,查看所有任务的栈的信息,包括任务名,任务状态,任务优先级,空闲栈,任务号。 运行结果如下 只需要使用一个函数vTaskList :获得任务的统计信息,形式为…

【leetcode】移除元素

大家好,我是苏貝,本篇博客带大家刷题,如果你觉得我写的还不错的话,可以给我一个赞👍吗,感谢❤️ 目录 一.暴力求解法二.使用额外数组三.原地修改数组 点击查看题目 一.暴力求解法 若我们不考虑时间复杂度…

AI视频智能识别技术在智慧农业大棚升级改造管理场景中的应用方案

一、需求分析 随着科技的进步和农业现代化的推进,智能化技术逐渐成为现代农业发展的重要支撑。农业大棚作为现代农业的重要组成部分,其智能化改造对于提高农业生产效率、降低成本、增加收益具有重要意义。利用先进的信息化手段来对农业大棚进行管理&…

复合材料压缩过程中引入屈曲变形前后的对比

振动模态: 压缩过程(不考虑屈曲引入) 在45KN出现拐点,在30步。 30步,压缩时的面外位移,与一阶模态类似;31步已经不正常。在快破坏前几步与一阶模态很相似。 30步树脂拉伸只是零星出现 …

CSS之高度塌陷和外边距塌陷

目录 1.高度塌陷(原因,如何解决) 【概念介绍】 【解决办法】 【概念介绍-BFC】 【拓展-BFC的触发条件】 2.外边距塌陷 (原因,如何解决) 【概念介绍】 【两种情况】 1.相邻块元素 2.嵌套块元素 【…

【arthas诊断线上java应用】

背景: 想起来之前的面试,有一次问到:假如线上出现cpu飙升,和内存问题,如何排查?当时我只用过jprofiler,现在想想这个玩意是要占用一个端口的,而且会影响服务器的性能,适…

解决ssh登录Permission denied, please try again

现象截图如下: 确定root的密码是正确的,最后的原因找到了,是远程的服务器,禁用了root账户可以被远程访问的权限。开启操作如下: 1.编辑配置文件 vi /etc/ssh/sshd_config 2.文件中找到PermitRootLogin #PermitRoo…

计算机网络基础概念解释

​ 1. 什么是网络 随着时代的发展,越来越需要计算机之间互相通信,共享软件和数据,即以多个计算机协同⼯作来完成业务,于是有了网络互连。 网络互连:将多台计算机连接在⼀起,完成数据共享。 数据共享本质是…

Rockchip linux USB 驱动开发

Linux USB 驱动架构 Linux USB 协议栈是一个分层的架构,如下图 5-1 所示,左边是 USB Device 驱动,右边是 USB Host 驱动,最底层是 Rockchip 系列芯片不同 USB 控制器和 PHY 的驱动。 Linux USB 驱动架构 USB PHY 驱动开发 USB 2…

新买电脑配置不低却卡顿?

目录 前言: 电脑卡顿的原因 Windows 10必做的系统优化 禁用 IP Helper 关闭系统通知 机械硬盘开启优化驱动器功能 开启存储感知 前言: 新买的电脑配置不低,但却卡顿甚至程序不反应,这是怎么回事儿? 其实并不…

139基于matlab多旅行商MTSP问题

基于matlab多旅行商MTSP问题,利用遗传算法求解多旅行商问题的算法设计,输出MTSP路径。相互独立路径,同一起点路径。程序已调通,可直接运行。 139 matlab多旅行熵M-TSP (xiaohongshu.com)https://www.xiaohongshu.com/explore/65ab…

【蓝桥杯日记】复盘第一篇——顺序结构

🚀前言 本期是一篇关于顺序结构的题目的复盘,通过复盘基础知识,进而把基础知识学习牢固!通过例题而进行复习基础知识。 🚩目录 前言 1.字符三角形 分析: 知识点: 代码如下 2. 字母转换 题目分析: 知…

最通俗易懂的JVM内存管理与对象创建原理

前言 对于Java程序员来说,在虚拟机自动内存管理机制的帮助下,不再需要像 C/C程序为每一个new操作去写配对 的delete/free代码,不容易出现内存泄漏和内存溢出问题。也正是因为Java程序员把控制内存的权力交给了Java虚拟机,一旦出现…

链表|数据结构|C语言深入学习

什么是链表 离散,就是“分离的、散开的” 链表是什么样子的: 有限个节点离散分配 彼此间通过指针相连 除了首尾节点,每个节点都只有一个前驱节点和一个后继节点 首节点没有前驱结点,尾节点没有后继节点 基本概念术语&#xf…

【Docker】未来已来 | Docker技术在云计算、边缘计算领域的应用前景

欢迎来到英杰社区: https://bbs.csdn.net/topics/617804998 欢迎来到阿Q社区: https://bbs.csdn.net/topics/617897397 📕作者简介:热爱跑步的恒川,致力于C/C、Java、Python等多编程语言,热爱跑步&#xff…

【网络安全】-入门版

secure 一、基本工具1、metasploit framework ps.本着兴趣爱好,加强电脑的安全防护能力,并严格遵守法律和道德规范。一、基本工具 1、metasploit framework msf(metasploit framework)是一个开源的渗透测试框架,用于…

AI 的未来是开源的

想象一下,在未来,人工智能不会被锁在公司的金库里,而是由全球创新者社区一砖一瓦地在开放中构建的。协作,而不是竞争,推动进步,道德考虑与原始绩效同等重要。这不是科幻小说,而是人工智能发展核…

竞赛保研 机器视觉人体跌倒检测系统 - opencv python

0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 机器视觉人体跌倒检测系统 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数&…

如何在Servlet中获取请求参数的值

看看这个大佬做的动图吧! 在Servlet中,你可以使用HttpServletRequest对象来获取请求参数的值。HttpServletRequest对象提供了一些方法,允许你访问从客户端发送的请求信息。以下是一些获取请求参数的常用方法: getParameter(String…

伊恩·斯图尔特《改变世界的17个方程》傅里叶变换笔记

主要是课堂的补充(yysy,我觉得课堂的教育模式真有够无聊的,PPT、写作业、考试,感受不到知识的魅力。 它告诉我们什么? 空间和时间中的任何模式都可以被看作不同频率的正弦模式的叠加。 为什么重要? 频率分量…