NLP论文阅读记录 - WOS | 2022 使用语言特征空间的抽象文本摘要的神经注意模型

news2025/1/24 22:48:57

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.相关工作
  • 三.本文方法
    • 3.1 总结为两阶段学习
      • 3.1.1 基础系统
    • 3.2 重构文本摘要
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

Neural Attention Model for Abstractive Text Summarization Using Linguistic Feature Space(2212)

0、论文摘要

摘要生成一个简短而简洁的摘要,描述源文本的主要思想。概括有两种形式:抽象概括和提取概括。提取式摘要从文本中选择重要的句子来形成摘要,而抽象式摘要通过添加新单词或短语来使用高级且更接近人类的解释来进行解释。
对于人类注释者来说,生成文档摘要既耗时又昂贵,因为它需要浏览长文档并撰写简短的摘要。
提出了一种用于文本摘要的自动特征丰富模型,该模型可以减少劳动量并通过使用提取和抽象方法生成快速摘要。功能丰富的提取器突出显示文本中的重要句子,并使用语言特征来增强结果。
然后将提取的摘要馈送到抽象器,以使用命名实体标签、词性标签和术语权重等特征进一步提供信息。
此外,引入损失函数来规范单词级和句子级注意力之间的不一致。所提出的两阶段网络在基准 CNN/DailyMail 数据集上取得了 37.76% 的 ROUGE 分数,优于早期的工作。
还进行人工评估,以衡量生成的摘要的全面性、简洁性和信息量。

一、Introduction

总之,生成文本信息的紧凑版本,其中通常包含原始文档的重要信息。概括有两种类型:提取式概括和抽象式概括。在提取式摘要中,摘要完全由段落​​组成;这是一种更简单的方法,因为从源文档复制数据可以确保语法准确性。另一方面,抽象不仅仅意味着仅仅选择几句话或几句话的概括。段落,还重新表述了文档的主要内容。该任务可以将长文本单词序列转换为包含信息内容的较短序列。大多数早期的摘要工作都集中在提取摘要[3]、[21]、[23]上。在抽象摘要[21]、[26]中,采用了复杂的机制来解释和生成原始文档中未见过的表达式。
自动文本摘要的实际应用有很多。它可以协助教育、研究、媒体监控、搜索引擎、问答系统、社交媒体分析和视频脚本编写。对于教育和媒体监控,自动摘要可以帮助我们把握文件的核心思想。可以通过收集与提取的总结答案相关的文档来改进问答系统的个人助理。视频脚本可以帮助人们根据视频的摘要标题选择所需的视频,而不是观看完整的长度。最近使用序列到序列模型将输入序列映射到相应的输出序列;该方法在语音识别 [5]、机器翻译 [1] 和视频字幕 [27] 方面取得了成功。类似地,基于注意力编码器-解码器的神经网络[1]被用于抽象概括。然而,这些模型最多只能重现不准确的事实细节,并且无法管理 OOV(词汇外)单词。迄今为止,现有文献中将详细信息输入DNN(深度神经网络)进行抽象概括的研究并不多,因此导致准确率不高。为了提高摘要文本的紧凑性,可以将附加信息与实际的词嵌入一起传递。在拟议的工作中,我们整合了多种文本特征,例如 POS(词性)标签、术语权重和命名实体。尽管机器翻译和抽象摘要有很多共同点,但它们不是同一任务。翻译是无损的,并且源和目标之间的机器翻译中存在强大的一对一单词级对齐。在抽象摘要中,目标不依赖于文档的长度,并且通常很短。此外,原始文档以有损方式压缩,以保留原始文档中最重要的内容。

1.1目标问题

1.2相关的尝试

1.3本文贡献

总之,我们的贡献如下:
该研究的主要贡献是使用丰富的特征集进行文档摘要。所提出的特征集包含句子位置、术语权重、命名实体标签、POS 标签以及数字和专有名词的总数。特征数量的增加提高了所得摘要的全面性。为此,我们提出了提取和抽象摘要的统一模型。首先,我们通过使用提取摘要来处理句子级注意力。其次,通过使用抽象摘要,我们在单词级注意力上调整输出。该方法允许提取摘要来帮助抽象摘要,从而减轻伪造的词级注意力。该实验使用具有超过 30 万条新闻文章的 CNN/DailyMail 数据集 [21]。我们表明该方法的 ROUGE 得分为 37.76%,优于早期的工作。还进行了人工评估,以确保两阶段总结网络的重要性。

二.相关工作

最近的大多数文本摘要工作都依赖于提取技术,其中句子和短语在源文档中被识别,并被复制为摘要[6]、[9]、[10]、[20]、[30]。有一些关于自动文本摘要系统的调查,使用注意力模型、数据集和评估方法来评估摘要的质量。
Jean 等人使用了神经网络。 [14] 和尹等人。 [34]其中句子被映射到向量中进行处理。纳拉帕蒂等人。 [21] 以及 Cheng 和 Lapata [3] 使用 RNN(循环神经网络)来创建文档的表示。纳拉扬等人。 [23]采用句子分类器,利用标题和图像标题等附加信息来选择句子。安永等人。 [33]结合图卷积网络和 RNN 来计算每个句子的重要性。尽管一些提取摘要模型取得了良好的 ROUGE 分数,但它们通常存在可读性问题。
在最近的神经模型之前,抽象文档摘要尚未受到足够的关注。 Jing[15]首次通过删除句子中不重要的部分来创建摘要。抽象概括任务在 DUC-2003 和 2004 竞赛中被标准化。 TOPIARY [35] 是 DUC-2004 任务的一项成就;它使用各种语言驱动的压缩技术和检测算法,将从文档中提取的关键字附加到输出中。 Cheung 和 Penn [4] 使用依存树创建了句子融合。
Rush 等人提出了一种应用于抽象文本摘要的现代神经网络。 [25],其中卷积模型用于对输入文本进行编码。为了生成摘要,采用了注意力前馈神经网络。维尼亚尔斯等人。 [28]引入了指针网络,它是基于Bahdanau等人的软注意力分配方法的序列到序列模型。 [2]。指针网络还创建了语言建模、神经机器翻译 [11] 和摘要 [16]、[21] 的混合方法。拉什等人。 [25]是这项工作的扩展,它对编码器使用相同的卷积方法,但解码器被替换为RNN以实现改进的性能。胡等人。 [13]通过使用RNN进行文本摘要来展示中文数据集的良好性能。
对于源的提取文本摘要,Cheng 和 Lapata [3] 使用了基于 RNN 的编码器-解码器。 Nallapati 等人使用了序列到序列模型。 [21] 使用 CNN/DailyMail 数据集评估了这项工作。 Ranzato 等人用评估矩阵(例如 ROUGE 和 BLEU)取代了传统的训练矩阵。 [24]。管理 OOV 单词 请参阅等人。 [26] 和金等人。 [16]在他们想要的模型中采用了指针网络。为了减少摘要中重复的短语,See 等人提出了一种不同的模型。 [26]。亚达夫等人。 [7]使用带有注意层的强化学习作为基础模型。 Li 等人使用了生成对抗网络。 [17]通过人工评估获得高分。 Bahdanau等人提出了注意力机制。 [1]。对于文档分类,Yang 等人提出了分层注意机制。 [32]。
纳拉帕蒂等人。 [21]结合了单词和句子级别的注意力,其中句子注意力是动态的。自动特征工程在开发特征选择模型方面取得了很多进展,其中包括元学习[36]、[37]、[38],又名学习学习。它关注的是即使数据稀疏,如何学习和适应。
在这项研究中,我们提出了一种用于提取摘要和抽象摘要的端到端模型。编码后的单词具有丰富的特征,保留了每个单词的语言信息。单词的这些语言特征被馈送到提取器和抽象器。此外,该模型结合了来自提取模型的句子级摘要和来自抽象模型的单词级摘要。先前的研究者已经采用了不同注意力的概念,但对特征语言学的注意力尚未合并为统一模型。在具有丰富特征的单词编码的顺序模型中使用单词和句子级注意力的优点是一种全面总结的方法。

三.本文方法

3.1 总结为两阶段学习

3.1.1 基础系统

3.2 重构文本摘要

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

在本文中,我们提出了通过结合提取器和抽象器模型的优势来生成全面摘要的方法。包含单词语言信息的单词嵌入被馈送到提取器和抽象器模型的神经网络。合并的单词特征包括句子位置、数字数量、POS标签、NE标签、术语权重和专有名词数量。除此之外,注意力层分别通过使用句子和单词注意力参数来突出显示提取器和抽象器模型最重要的信息。所提出的方法结合了句子和单词的注意力权重,以便有效地计算损失函数。两阶段模型可以在单个网络中进行提取和抽象摘要。所提出的网络使用 CNN/DailyMail 数据集进行训练和测试。它是通过计算 ROUGE 分数以及人类受试者来评估的。结果表明,该方法优于现有技术,ROUGE 得分为 37.76%,具有较高的综合性和信息量。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1383566.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SMART PLC绝对值定位往复运动控制(脉冲绝对定位+状态机编程)

三菱FX3GA系列绝对定位指令DDRVA实现往复运动控制详细内容介绍请参考下面文章链接: https://rxxw-control.blog.csdn.net/article/details/135570157https://rxxw-control.blog.csdn.net/article/details/135570157这篇博客我们介绍SMART PLC里如何开启绝对值定位指…

前缀和模板题 P8218 【深进1.例1】求区间和

一道前缀和的模板题 #include<bits/stdc.h> using namespace std; using ll long long; const int N 1e5 10; ll a[N],prefix[N]; int main(){ios::sync_with_stdio(0),cin.tie(0),cout.tie(0);int n,m;cin >> n;for(int i 1; i < n; i) cin >> a[i]…

这可能是最全面的Java集合面试八股文了

内容摘自我的学习网站&#xff1a;topjavaer.cn 常见的集合有哪些&#xff1f; Java集合类主要由两个接口Collection和Map派生出来的&#xff0c;Collection有三个子接口&#xff1a;List、Set、Queue。 Java集合框架图如下&#xff1a; List代表了有序可重复集合&#xff0c…

yum来安装php727

yum 安装php727,一键安装&#xff0c;都是安装在系统的默认位置&#xff0c;方便快捷 先确定linux平台中centos的版本信息&#xff0c;一下内容针对el7 查看linux版本 &#xff1a; cat /etc/redhat-release 查看内核版本命令&#xff1a; cat /proc/version (0)如果有安装好…

RocketMQ源码阅读-Broker消息接收

RocketMQ源码阅读-Broker消息接收 1. 从单元测试入手2. Broker启动流程3. Broker接收消息4. Broker接收消息时序图5. 小结 Broker接收 Producer发送的消息。 Broker在RocketMQ中也是一个独立的Model&#xff0c;rocketmq-broker。 Broker的核心类为SendMessageProcessor。 …

vue项目之.env文件.env.dev、test、pro

.env文件是vue运行项目时的环境配置文件。 .env: 全局默认配置文件&#xff0c;所有环境(开发、测试、生产等&#xff09;均会加载并合并该文件 .env.development(开发环境默认命名) 开发环境的配置&#xff0c;文件名默认为.env.development,如果需要改名也是可以的&#xf…

[小程序]定位功能实现

第一步:首先要认识三个小程序的 api wx.chooseLocation 和 wx.getLocation 和 wx.openLocation (1).wx.chooseLocation 用于在小程序中选择地理位置。当用户点击选择位置按钮时&#xff0c;小程序会调起地图选择界面&#xff0c;用户可以在地图上选择一个位置&#xff0c;并可以…

openfeign服务启动成功但是注册不上nacos? 我看看怎么个事儿!

spring-cloud-starter-alibaba-nacos-discovery和spring-boot-starter-web不得不说的秘密 ! 直接上答案: 给你的服务加上springbootweb依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifa…

C语言程序设计——程序流程控制方法(二)

循环结构 while语句 while(表达式){代码块; }do{代码块; }while(表达式)while语句分为do-while和while两种&#xff0c;区别在于循环之前是不是先执行一次循环的内容&#xff0c;可以类似于i和i的关系&#xff0c;本质上来讲是相同的。当表达式为真时&#xff0c;则会执行一次…

Python二级:二叉树问题求解

一、题源 在Python二级考试中前10道基础题是必考题&#xff0c;虽然没有什么卵用&#xff0c;但是你得分不达标&#xff0c;还不让你过&#xff0c;没有办法只好硬着头皮去刷题了。这10道题中有一个二叉树题比较难&#xff0c;现摘录如下&#xff0c;同时给出gpt-4的解答&…

【数据开发】BI数据报表之数据可测试性设计与分析

文章目录 1、什么是BI&数据报表2、什么是可测试性3、数据测试与方法3.1 数据准确性与对比&#xff08;重要&#xff09;3.2 数据安全性 1、什么是BI&数据报表 数据报表是一种数据可视化工具 用于将数据以图表、表格和其他可视化形式呈现出来&#xff0c;以便用户可以…

mysql-实战案例 (超详细版)

&#x1f389;欢迎您来到我的MySQL基础复习专栏 ☆* o(≧▽≦)o *☆哈喽~我是小小恶斯法克&#x1f379; ✨博客主页&#xff1a;小小恶斯法克的博客 &#x1f388;该系列文章专栏&#xff1a;重拾MySQL &#x1f379;文章作者技术和水平很有限&#xff0c;如果文中出现错误&am…

【DC系列教程2--Timing and Area Constrains】

DC系列教程2--Timing and Area Constrains Lab Flow:依赖输入Design SpecificationLab Demo Goal: determin the unit of time in the target library; //设置时间精度Create a Design Compiler timing and area constrains file based on a provided schematic and specifacat…

Airflow大揭秘:如何让大数据任务调度变得简单高效?

介绍&#xff1a;Airflow是一个开源的、用于创建、调度和监控数据管道的工作流平台。这个平台使用Python编写&#xff0c;并通过有向无环图&#xff08;Directed Acyclic Graph, DAG&#xff09;来管理任务流程&#xff0c;使得用户不需要知道业务数据的具体内容&#xff0c;只…

AI副业拆解:随心所欲地替换任何内容

在瞬息万变的世界里&#xff0c;保持“物体ID”的核心特质&#xff0c;同时创造无限可能的新内容&#xff0c;这是一场市场需求与技术挑战的双重交响。此刻&#xff0c;为您揭开一款颠覆性创新产品——ReplaceAnything框架。 直击痛点&#xff0c;破茧成蝶&#xff0c;Replace…

RV1126边缘计算AI盒子,支持4-6路1080p视频,2T 算力

1 产品概述 信迈推出基于瑞芯微Rockchip RV1126架构的AI边缘计算主板&#xff0c;RV1126芯片是四核ARM Cortex-A7,1.5GHz&#xff0c; RSIC-V 200MHz CPU &#xff0c;NPU2.0Tops。AI边缘计算主板外围接口丰富&#xff0c;拥有超强扩展性&#xff0c;可广泛应用在智慧安防、工…

Brc20钱包横评推荐:谁更适合玩铭文?

加密货币的世界越来越热闹&#xff0c;新的创意层出不穷&#xff01;最近&#xff0c;BRC-20 通证标准成了这个圈子的新宠儿&#xff0c;这是在比特币网络上诞生的一种超酷的新型可替代通证。和以太坊的 ERC-20 通证一样牛&#xff0c;但 BRC-20 通证是 Ordinals 协议的杰作&am…

洛谷 P1439 【模板】最长公共子序列【线性dp+dp模型转换】

原题链接&#xff1a;https://www.luogu.com.cn/problem/P1439 题目描述 给出 1,2,…,n 的两个排列 P1​ 和 P2​ &#xff0c;求它们的最长公共子序列。 输入格式 第一行是一个数 n。 接下来两行&#xff0c;每行为 n 个数&#xff0c;为自然数 1,2,…,n 的一个排列。 输…

Deepin使用记录-deepin安装docker

引用 本来想在deepin中直接安装mysql的开发环境的&#xff0c;但想到还是安装docker&#xff0c;然后在docker下安装比较方便&#xff0c;所以就有了本篇文章&#xff0c;先在deepin下安装docker。 经过本次安装&#xff0c;发现在deepin下安装docker是非常的简单&#xff0c…

自动执行 Active Directory 清理

Active Directory &#xff08;AD&#xff09; 可帮助 IT 管理员分层存储组织的资源&#xff0c;包括用户、组以及计算机和打印机等设备&#xff0c;这有助于管理员集中创建基于帐户和组的规则&#xff0c;并通过创建不合规的自动日志来强制执行和确保合规性。 不时清理AD是保…