NLP论文阅读记录 - 2021 | WOS 基于多头自注意力机制和指针网络的文本摘要

news2024/11/27 10:35:37

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.问题定义和解决问题的假设
    • 问题定义
    • 解决问题的假设
  • 三.本文方法
    • 3.1 总结为两阶段学习
      • 3.1.1 基础系统
    • 3.2 重构文本摘要
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

Text summarization based on multi-head self-attention mechanism and pointer network(21)

0、论文摘要

现有的文本摘要方法主要依靠人工标记的标准摘要与原始文本之间的映射来进行特征提取,往往忽略了原始文档的内部结构和语义特征信息。因此,现有模型提取的文本摘要存在语法结构错误、语义偏离原文的问题。本文试图增强模型对源文本固有特征信息的关注,使模型能够更准确地识别文档的语法结构和语义信息。
因此,本文提出了一种基于多头自注意力机制和软注意力机制的模型。通过在模型编码阶段引入改进的多头自注意力机制,训练模型使正确的摘要语法和语义信息获得更高的权重,从而使生成的摘要更加连贯和准确。同时采用指针网络模型,改进覆盖机制,解决生成摘要时的词汇外和重复问题。本文使用CNN/DailyMail数据集来验证本文提出的模型,并使用ROUGE指标来评估模型。
实验结果表明,与其他模型相比,本文的模型提高了生成摘要的质量。

一、Introduction

1.1目标问题

当前,互联网时刻产生大量文本数据,文本信息过载问题日益严重。需要对各类文本进行降维,因此自动文本摘要的任务应运而生。自动文本摘要[1]是自然语言处理的一个重要研究领域。自动文本摘要从原文中提取一段内容或生成一段新内容来总结原文的主要信息。也就是说,对原始数据进行压缩和提炼最终文本为用户提供了简洁的内容描述。它帮助用户节省了大量的时间,用户可以从摘要中获取文本的所有关键信息点,而无需阅读整个文档。近年来,文本摘要已被应用于生活的许多方面,例如生成报告摘要和自动生成新闻标题[2-5]。目前,自动文本摘要的研究方向可分为抽取式文本摘要[6,7]和抽象式文本摘要[8]。提取文本摘要从原始文本中提取关键句子和关键词以生成摘要。这种方法可能会产生不连贯的摘要并且对字数的控制不佳。效果完全取决于原文的类型。抽象文本摘要是通过重写原始文本内容来生成的,使得生成的摘要能够包含新的词典或短语,更加灵活。因此,本文重点关注抽象文本摘要。
最近,有研究人员使用seq2seq(sequence-tosequence)模型进行抽象文本摘要研究[9-11],模拟人们阅读文档的思维过程,首先提取原文信息全局化,然后总结原文的主要思想。曹等人。 [12] 和 Sutskever 等人。 [13]提出了一种由编码器和解码器组成的序列到序列模型来解决机器翻译问题。巴达瑙等人。 [14]逐渐将序列到序列模型应用于抽象文本摘要。拉什等人。 [15]提出在DUC-2004[16]和Gigaword上使用序列到序列模型和注意力机制生成抽象文本摘要,并使用CNN对原始文本进行编码。该模型具有提取文本信息并生成文本摘要的能力。然而,生成的摘要有一些偏离原文的主要信息并且超出了词汇范围。然后,乔普拉等人。 [17]使用相同的编码器对原始文档进行编码,但他们使用循环神经网络作为解码器,该模型极大地提高了摘要生成的效果。纳拉帕蒂等人。 [18]提出使用关键词和注意力机制来提取原文并对原文进行编码。周等人。文献[19]提出采用选择性编码对原文进行编码,从而增强了原文的信息提取。
在使用序列到序列模型的过程中,研究人员发现该模型可以从原始文本中提取信息,但该模型生成的文本摘要存在词汇外和单词重复问题。为了解决生成摘要中的词汇外问题,Gu 等人。 [20]使用复制机制直接复制原文中的重要单词而不是词汇外的单词来生成摘要。参见等人。 [21]利用覆盖机制和指针生成网络模型为词汇外和单词重复提供了解决方案。覆盖机制可以避免在生成摘要时在同一位置给予多个高注意力权重值,并且可以有效减少摘要生成中的重复单词问题。指针生成网络在序列到序列模型的基础上引入了指针网络[22]。在指针生成网络中,生成摘要时会生成两个概率。即当前单词从词汇表中生成的概率以及在指针处被复制的概率。该网络用于学习两个概率之间的权重。指针生成网络可以有效地适应提取器和抽象网络[23],并已被用于许多抽象生成任务[24,25]。周等人。 [26]继续提出SeqCopyNet来增强生成摘要的可读性,并将完整的输入句子序列复制到摘要中。 [27]使用词义歧义来改进基于查询的文本摘要。王等人。 [28] 和梁等人。 [29]使用强化学习引入文本摘要。 [30]使用包括主编码器和辅助编码器的双编码模型。
一些研究者利用传统的软注意力机制提取原文的关键信息[31],但无法提取原文内部的各种语义和语法信息,导致语法结构错误和语义偏离原文的问题文本。瓦斯瓦尼等人。 [32]提出了一种变压器模型,其中使用新的自注意力机制模型来提取输入文本的信息。实验表明,自注意力机制可以快速提取稀疏数据的重要特征。它已广泛应用于自然语言处理任务中[33-35]。自注意力机制是注意力机制的改进,减少了对外部信息的依赖,更好地捕捉数据或特征的内部相关性。自注意力机制利用注意力机制来计算每个单词与所有其他单词之间的关联,以便模型能够学习不同表示子空间中的相关信息。文本摘要经历了如何提取原始文本信息,如何生成摘要,同时缓解生成摘要过程中出现的未登录词和重复问题。然而,在提取原文信息的过程中,学习原文本身的语义、语法结构和确定关键信息仍然需要研究。并进一步考虑降低单词重复率。因此,这是一个不完善的 Seq2Seq 模型的研究空白[36]。在该模型中,解决了序列到序列模型中出现的问题,并解决了研究的不足。表 1 详细阐述了先前作者的贡献。
本文的其余部分组织如下。第二部分介绍自动文本摘要的问题定义和假设。第三部分详细描述了文中提出的方法。第四部分介绍了本文的基线、数据集、实验和结果分析。最后,文章在第五部分结束。

1.2相关的尝试

1.3本文贡献

总之,我们的贡献如下:

二.问题定义和解决问题的假设

问题定义

随着近年来深度学习的快速发展,序列到序列模型被广泛应用于机器翻译、问答、文本摘要等序列问题。然而,序列到序列模型存在许多问题,例如词汇外问题,这会产生重复问题[15]。为了解决这些问题,See 等人。 [21]提出了指针生成网络,增加了指针网络以及基于注意力机制的对seq2seq模型的覆盖机制,以缓解使用seq2seq带来的问题。指针生成网络采用传统的软注意力机制,无法提取原文内部的各种语义和语法信息,导致生成的摘要中存在语法结构错误和与原文语义偏差的问题。因此,本文认为有必要学习原文的语义和语法结构,确定关键信息。由于长文本摘要的特殊性和多样性,输入的文章通常是具有多个子空间的多个句子。如果模型只关注一个空间,一些信息将会丢失。同时,人们注意到自注意力机制在提取原始文本的关键特征方面还不够。在重现指针生成网络时,发现随着预测摘要长度的增加,覆盖机制的效果逐渐减弱。因此,本研究试图增强原始文本的提取和编码。另外,进一步减少单词的重复率。

解决问题的假设

三.本文方法

3.1 总结为两阶段学习

3.1.1 基础系统

3.2 重构文本摘要

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

本文提出了两种基于注意力机制的模型,即MSAPN和MDAPN。两种模型都使用改进的多头自注意力机制来获取原始文本内部的语义和语法信息,从而使生成的摘要文本摘要与文本的语义和语法信息具有相似的含义。此外,这两个模型都使用指针网络和改进的覆盖机制来减少重复内容和词外问题。
实验结果表明,MSAPN模型在ROUGE Recall分数上优于传统的指针生成网络,但在ROUGE Precision分数上效果不佳。为此,提出的MDAPN模型结合门控机制,使得模型的ROUGE指标优于指针生成网络,能够有效包含更多的原始文本信息,生成的摘要更加完整。
然而,MDAPN模型的F1得分值低于现有模型。因此,未来可以通过考虑预训练[43]模型和强化学习[29]来扩展模型,从而提高模型的F1分数。
该模型引入预训练模型来提高文本信息的提取,并通过强化学习减少训练和预测中的暴露偏差,进一步提高摘要的生成。此外,希望未来提出的模型能够应用于不同领域[44]。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1399607.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

面试官:什么是泛型擦除、泛型上界、泛型下界、PECS原则?

尼恩说在前面 在40岁老架构师 尼恩的读者交流群(50)中,最近有小伙伴拿到了一线互联网企业如阿里、滴滴、极兔、有赞、希音、百度、网易、美团的面试资格,遇到很多很重要的面试题: 问题1:什么是PECS原则? 说说具体怎么…

回溯法:回溯法通用模版以及模版应用

从一个问题开始 给定两个整数 n 和 k,返回 1 ... n 中所有可能的 k 个数的组合。 示例: 输入: n 4, k 2 输出: [ [2,4], [3,4], [2,3], [1,2], [1,3], [1,4] ] 很容易想到 用两个for循环就可以解决。 如果n为100,k为50呢,那就50层for循…

文字的baseLine算法

使用canvas的drawText方法时候,除了要传入画笔和text还需要传入一个x坐标和y坐标。这边的x和y坐标是Baseline的坐标。 public void drawText(NonNull String text, float x, float y, NonNull Paint paint) {super.drawText(text, x, y, paint);} top:是 baseLine到…

微信小程序之WXML 模板语法之数据绑定、事件绑定、wx:if和列表渲染

学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您: 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持,想组团高效学习… 想写博客但无从下手,急需…

消息中间件之Kafka(二)

1.Kafka线上常见问题 1.1 为什么要对topic下数据进行分区存储? 1.commit log文件会受到所在机器的文件系统大小的限制,分区之后可以将不同的分区放在不同的机器上, 相当于对数据做了分布式存储,理论上一个topic可以处理任意数量的数据2.提…

OpenHarmony 应用开发入门 (二、应用程序包结构理解及Ability的跳转,与Android的对比)

在进行应用开发前,对程序的目录及包结构的理解是有必要的。如果之前有过android开发经验的,会发现OpenHarmony的应用开发也很简单,有很多概念是相似的。下面对比android分析总结下鸿蒙的应用程序包结构,以及鸿蒙对比android的诸多…

【报错】Arco新建工程时 Error: spawnSync pnpm.cmd ENOENT

文章目录 安装环境开始安装选择技术栈选择pro项目遇到的问题 安装步骤:https://arco.design/vue/docs/pro/start 安装环境 npm i -g arco-cli开始安装 arco init hello-arco-pro选择技术栈 ? 请选择你希望使用的技术栈React❯ Vue选择pro项目 ? 请选择一个分类业…

智谱AI发布新一代国产文本生成模型:GLM-4,“宣称”性能逼近GPT-4 (怎么又是GPT )

希望别又是一个只顾着跑分数不注重性能的东西。。。 智谱AI GLM-4介绍体验网址链接:智谱AI开放平台 更多消息:AI人工智能行业动态,aigc应用领域资讯 智谱AI是一家专注于人工智能技术研发和应用的公司,致力于打造全球领先的大模型…

2024年美赛数学建模思路 - 案例:感知机原理剖析及实现

文章目录 1 感知机的直观理解2 感知机的数学角度3 代码实现 4 建模资料 # 0 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 1 感知机的直观理解 感知机应该属于机器学习算法中最简单的一种算法,其…

第二课:BERT

文章目录 第二课:BERT1、学习总结:为什么要学习BERT?预训练模型的发展历程BERT结构BERT 输入BERT EmbeddingBERT 模型构建BERT self-attention 层BERT self-attention 输出层BERT feed-forward 层BERT 最后的Add&NormBERT EncoderBERT 输…

深入剖析 Git 对象底层原理

一、引言 在我们日常使用 Git 时,通常的操作是: 在写完一段代码后,执行 git add命令,将这段代码添加到暂存区中然后再执行 git commit和 git push 命令,将 本地 Git 版本库中的提交同步到服务器中的版本库中 Git 在…

phpStorm 设置终端为git bash

环境: windows , PhpStorm 2022 为自己的终端配置git样式的使用, 默认终端样式 一、打开设置,选择git bin 二、重新打开终端 不加--login -i 的终端 加了--login -i 的终端 最重要的一点是什么,他可以像mac一样支持 ctrlv 复…

【学习记录】Ouster雷达运行fastlio提示 Failed to find match for field ‘ring‘ 的解决办法

本文仅用于个人记录。 在使用ouster雷达运行fastlio代码时,提示 Failed to find match for field ‘ring’ 但ouster雷达确实是发布了ring信息,可以从启动的rviz里面看到包括ring。 进一步检查,发现ouster对ring的定义是 uint_16t&#xf…

Redis: Redis介绍

文章目录 一、redis介绍二、通用的命令三、数据结构1、字符串类型(String)(1)介绍(2)常用命令(3)数据结构 2、列表(List)(1)介绍&…

【Linux的权限命令详解】

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 shell命令以及运行原理 Linux权限的概念 Linux权限管理 一、什么是权限? 二、权限的本质 三、Linux中的用户 四、linux中文件的权限 4.1、文件访问…

Minio文件分片上传实现

资源准备 MacM1Pro 安装Parallels19.1.0请参考 https://blog.csdn.net/qq_41594280/article/details/135420241 MacM1Pro Parallels安装CentOS7.9请参考 https://blog.csdn.net/qq_41594280/article/details/135420461 部署Minio和整合SpringBoot请参考 https://blog.csdn.net/…

BlueBunny:基于低功耗蓝牙的Bash bunny命令控制C2框架

关于BlueBunny BlueBunny是一款功能强大的命令控制框架,该工具基于低功耗蓝牙实现数据通信,可以帮助广大研究人员直接通过蓝牙将控制指令发送给Bash Bunny。 什么是Bash Bunny Bash Bunny是一款类似于USB Rubber Ducky的多功能USB攻击工具(…

认识并使用LlamaIndex

认识并使用LlamaIndex 一、认识LlamaIndex1、是什么2、为什么要搞Llama Index?3、怎么搞Llama Index?3.1 方案1:用你的数据对LLM进行微调(fine-tune)3.2 方案2:[检索增强生成(RAG)](…

实验六 模式对象管理与安全管理

🕺作者: 主页 我的专栏C语言从0到1探秘C数据结构从0到1探秘Linux 😘欢迎关注:👍点赞🙌收藏✍️留言 🏇码字不易,你的👍点赞🙌收藏❤️关注对我真的很重要&…

ChatGPT 到 Word:使用 Writage 进行复制粘贴魔法

ChatGPT 到 Word:使用 Writage 进行复制粘贴魔法 写在前面Writage的使用 写在前面 随着ChatGPT的日益普及,越来越多的人每天依赖它来完成各种任务。无论是寻找信息、语言翻译、解决数学问题,还是精炼复杂的概念和文本,ChatGPT 都…