NLP论文阅读记录 - 2022 W0S | 基于Longformer和Transformer的提取摘要层次表示模型

news2025/1/26 7:57:38

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.相关工作
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

A Hierarchical Representation Model Based on Longformer and Transformer for Extractive Summarization(22)

0、论文摘要

自动文本摘要是一种在保留原文主要思想的同时对文档进行压缩的方法,包括抽取式摘要和抽象式摘要。提取文本摘要从原始文档中提取重要句子作为摘要。文档表示方法对于生成摘要的质量至关重要。为了有效地表示文档,我们提出了一种用于提取摘要的分层文档表示模型 Long-Trans-Extr,该模型使用 Longformer 作为句子编码器,使用 Transformer 作为文档编码器。 Longformer 作为句子编码器的优点是,该模型可以输入多达 4096 个 token 的长文档,并增加相对少量的计算。所提出的模型 Long-Trans-Extr 在三个基准数据集上进行评估:CNN(有线电视新闻网)、DailyMail 以及 CNN/DailyMail 组合。它在 CNN/DailyMail 上达到 43.78 (Rouge-1) 和 39.71 (Rouge-L),在 CNN 数据集上达到 33.75 (Rouge-1)、13.11 (Rouge-2) 和 30.44 (Rouge-L)。它们是非常有竞争力的结果,此外,它们表明我们的模型在长文档(例如 CNN 语料库)上具有更好的性能。

一、Introduction

1.1目标问题

自1958年Luhn[1]开始自动文摘研究以来,该领域取得了巨大的成就。文本摘要可以分为两类:即抽象摘要和提取摘要。抽象摘要[2]在理解原文语义的基础上提炼其思想和概念,实现语义重构。尽管更类似于人类的逻辑,但由于自然语言生成技术的限制,抽象摘要仍然面临着对原文进行连贯、语法和概括的摘要的巨大挑战。提取式摘要方法从文档中提取关键句子以生成摘要。首先对输入文档进行编码,然后计算文档中句子的分数。根据得分对句子进行排序,选择得分高的句子形成摘要。

1.2相关的尝试

1.3本文贡献

这项研究的重点是提取摘要,因为它不仅可以在新闻文章中生成语义和语法正确的句子,而且计算速度比抽象摘要更快。目前,生成式摘要方法和提取式摘要方法在处理长文本时都存在一些困难,这是由编码器网络的计算复杂性造成的。最近的研究表明,Transformer [3] 在自然语言处理领域无论是实验结果还是计算复杂度都优于 LSTM [4]。然而,即使具有并行计算能力的Transformer也无法处理长文本,导致文本摘要方法仅限于短文本。对于长文本,通常有两种处理方法:(1)直接丢弃超出的部分。这种方法实现起来比较简单,但是对最终总结的质量影响很大。 (2) 将长文本分为几个较短的文本跨度并一一处理它们。这种处理的结果是,不同的文本跨度无法相互交互,因此,大量信息不可避免地丢失。当然,还可以添加其他机制来增强文本跨度之间的交互,但这些新机制实现起来很复杂,通常是特定于任务的,并且不通用。

总之,我们的贡献如下:
(1)本研究提出了分层文档表示方法,采用Longformer作为句子编码器,Transformer作为文档编码器对输入文本进行编码。与 CNN(卷积神经网络)或 LSTM(长短期记忆)作为编码器不同[5-7],由于采用 Longformer 作为句子编码器,该模型可以处理长文档,最多 4096 个标记,并且使得直接对长文本进行编码成为可能。
(2)编码器同时采用全局注意力和局部注意力[8],这不仅保证了关键令牌不丢失全局信息,而且降低了计算复杂度。
(3)所提出的分层模型在CNN/DailyMail数据集[10]上实现了最好的Rouge-1和Rouge-L[9],并且实现了最先进的Rouge-1、Rouge2和Rouge-L在长文本数据集 CNN 上。最好的 Rouge-1 和 Rouge-L 是在短文本数据集 DailyMail 上实现的。实验结果表明,Longformer 作为句子编码器,在长文档上具有良好的性能。

二.相关工作

自动文本摘要包括抽象摘要和提取摘要。近年来,深度学习技术为文摘研究提供了新的思路。在相关文献中,Cho 等人。 [11] 和 Sutskever 等人。 [12]提出了广泛研究的序列到序列(seq2seq)模型,该模型由编码器和解码器组成。其基本思想是利用输入序列的全局信息来推断相应的输出序列。拉什等人。 [13]首先将上述模型应用于文本摘要任务。
在提取摘要中,一个重要的问题是如何从原始文档中提取重要的句子。一些研究基于统计方法[14,15]。随着深度神经网络在自然语言处理中的成功,抽取式摘要取得了比传统机器学习更好的效果。基于神经网络的提取摘要模型的核心是编码器-解码器结构。对于编码器,采用CNN、RNN(循环神经网络)和LSTM来捕获文档的上下文信息[16-18]。然而,使用上述模型,通常很难捕获长距离依赖关系,特别是在长文档的情况下。随着BERT的成功,变压器被发现可以有效地捕获输入的序列信息。 Liu和Lapata [19]提出了一种基于BERT的句子级编码器,它能够对文档进行编码并获得其句子的表示。然后,他们使用 Transformer 对这些句子表示进行编码。张等人。 [20]提出了用于文档编码的HIerachical BERT(HIBERT),并使用未标记的数据对其进行了预训练。首先,他们将未标记数据的 HIBERT 应用于句子预测任务,然后对句子进行分类。王等人。 [21]提出了基于GNN(图神经网络)的HSG,添加细粒度语义节点来辅助句子提取。对于解码器,通常使用多层感知器(MLP)或LSTM来输出句子的分数。
由于神经网络的复杂性,上述方法在处理长文档时存在困难。为了降低复杂性,研究人员提出了不同的方法:Wu 和 Hu [22] 以及 Al-Sabahi 等人。 [16]限制文档的最大句子长度和句子数量;钟等人。 [23] 和纳拉扬等人。 [17]分别截取文档的前512个和600个单词作为输入。张等人。 [20]限制句子的长度并将长文档分成短文档。让模型拥有更长的输入序列最直接有效的方法就是降低复杂度网络的。研究人员已经进行了一些研究[24,25]。贝尔塔吉等人。 [8]提出了Longformer网络。 Longformer从Transformer的注意力机制出发,改进了三种注意力模式,以降低网络的复杂度:(1)滑动窗口注意力; (2)扩大窗口注意力; (3)滑动窗口注意力+全局注意力。作者在问答系统、共指分析等任务上的实验表明,“局部注意力+全局注意力”模型可以在降低计算复杂度的前提下取得良好的性能。与 Transformer 相比,Longformer 的计算复杂度从 O(n2) 降低到 O(n),其中 n 是输入序列的长度。受上述工作的启发,本文采用 Longformer 在提取摘要模型中对文本进行编码,以接受更长的文本输入

三.本文方法

四 实验效果

4.1数据集

介绍了CNN

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

在本研究中,我们提出了一种 Long-Trans-Extr 提取摘要模型,该模型使用 Longformer 作为句子编码器,Transformer 作为文档编码器,最后使用 MLP 分类器来决定是否应该提取文档中的句子或不是。该模型解决了以往模型难以处理长文档的问题。它使句子表示和文档表示能够注意到更长的文本信息,而无需增加太多的计算和内存。实验结果表明,在相同的解码器条件下,我们的模型在 CNN/DailyMail 数据集上优于其他模型,并且在长 CNN 数据集上取得了最好的结果。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1383472.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【模型评估 04】A/B测试的陷阱

互联网公司中,A/B测试是验证新模块、新功能、新产品是否有效;新算法、新模型的效果是否有提升;新设计是否受到用户欢迎;新更改是否影响用户体验的主要测试方法。在机器学习领域中,A/B测试是验证模型最终效果的主要手段…

知乎x-zse-96算法分析

声明 本文以教学为基准、本文提供的可操作性不得用于任何商业用途和违法违规场景。 本人对任何原因在使用本人中提供的代码和策略时可能对用户自己或他人造成的任何形式的损失和伤害不承担责任。 如有侵权,请联系我进行删除。 这里只是我分析过程,以及一些重要点的记录,没有…

yolov5的完整部署(适合新人和懒人,一键安装)

第一步:安装Anaconda 下载并安装后,配置一下镜像 在这里面,看情况输入镜像源,这里我建议大家搞阿里云镜像源。 # 添加清华源 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda conf…

零知识证明的最新发展和应用

PrimiHub一款由密码学专家团队打造的开源隐私计算平台,专注于分享数据安全、密码学、联邦学习、同态加密等隐私计算领域的技术和内容。 当企业收集大量客户数据去审查、改进产品和服务以及将数据资产货币化时,他们容易受到网络攻击威胁,造成数…

从Demo理解Thrift Thrift和Dubbo的区别

文章目录 安装demo尝试Thrift协议栈Thrift 与 Dubbo 的区别 字节里的RPC框架都是用的Thrift,我猜这主要原因有2: Thrift是Facebook开源的项目,平台中立Thrift支持跨语言调用,这非常适合字节Java、Go语言都存在的环境,语言中立 但…

手把手Docker部署Gitblit服务器

1拉取镜像 docker pull jacekkow/gitblit:v1.9.1 2.启动 docker run -d --name gitblit --restart always -p 10006:8080 -p 18443:8443 -p 19418:9418 -p 29418:29418 -v /data/gitblit/data:/opt/gitblit-data jacekkow/gitblit:v1.9.1 3.查看 默认账户/密码:admin/adm…

运算放大器相关知识总结(1)

1、 前言 最近做了一个小项目,这个项目是研发一款阻抗测量仪。这个阻抗测量仪可以测量人体在不同频率下的生物电阻抗,该设备的核心是模拟电路,技术难点是减小模拟电路噪声。该项目前前忙了2个多月,借着研发这个项目的机会把自己掌…

Jenkins-用户管理

用户管理 1 安装插件 2 选择安全策略为刚刚安装的插件 3 这个是安装插件以后会有的选项 4 增加一个角色 5 根据需要赋值角色的权限,并分配给用户

Protecting Intellectual Property of Deep NeuralNetworks with Watermarking

保护深度神经网络的知识产权与数字水印技术 ABSTRACT 深度学习是当今人工智能服务的关键组成部分,在视觉分析、语音识别、自然语言处理等多个任务方面表现出色,为人类提供了接近人类水平的能力。构建一个生产级别的深度学习模型是一项非常复杂的任务&a…

每日算法打卡:摘花生 day 14

文章目录 原题链接题目描述输入格式输出格式数据范围输入样例:输出样例: 题目分析示例代码 原题链接 1015. 摘花生 题目难度:简单 题目来源:《信息学奥赛一本通》 题目描述 Hello Kitty想摘点花生送给她喜欢的米老鼠。 她来…

机器学习_捕捉函数的变化趋势(凸函数)

文章目录 连续性是求导的前提条件通过求导发现 y 如何随 x 而变凸函数有一个全局最低点 机器学习所关心的问题之一捕捉函数的变化趋势,也就是标签(y)是如何随着特征字段(x)而变化的,这个变化趋势是通过求导…

Arm Generic Interrupt Controller v3 and v4(GICv3v4)学习(一)

提示 该博客主要为个人学习,通过阅读官网手册整理而来(个人觉得阅读官网的英文文档非常有助于理解各个IP特性)。若有不对之处请参考参考文档,以官网参考文档为准。 Arm Generic Interrupt Controller v3 and v4学习一共分为三章&…

【ArcGIS微课1000例】0088:计算城市建筑物朝向(矩形角度)

文章目录 一、实验描述二、实验数据三、角度计算1. 添加字段2. 计算角度四、方向计算一、实验描述 矩形要素具有长轴和短轴,其长轴方向也称为矩形面的主角度,可用于确定面要素的走向趋势。根据该方向参数,可以对具有矩形特征的地理对象进行方向分析,且适用于很多应用场景,…

利用PicGo和SM.MS图床工具实现Markdown(Typora)图片脱离本地路径

利用PicGo和SM.MS图床工具实现Markdown(Typora)图片脱离本地路径 文章目录 利用PicGo和SM.MS图床工具实现Markdown(Typora)图片脱离本地路径1.**前言:**2.解决方案2.1准备工具2.2. 工具介绍2.2.1. Typora2.2.2. SM.MS图床2.2.3. P…

如何使用手机公网远程访问本地群辉Video Station中视频文件【内网穿透】

最近,我发现了一个超级强大的人工智能学习网站。它以通俗易懂的方式呈现复杂的概念,而且内容风趣幽默。我觉得它对大家可能会有所帮助,所以我在此分享。点击这里跳转到网站。 文章目录 1.使用环境要求:2.下载群晖videostation&am…

AnnData:单细胞和空间组学分析的数据基石

AnnData:单细胞和空间组学分析的数据基石 今天我们来系统学习一下单细胞分析的标准数据类型——AnnData! AnnData就是有注释的数据,全称是Annotated Data。 AnnData是为了矩阵类型数据设计的,也就是长得和表格一样的数据。比如…

SpringMVC零基础入门 - 概述、入门搭建、PostMan的使用(常见数据类型的传输)、REST风格编程

SpringMVC零基础入门 - 概述、入门搭建、PostMan的使用(常见数据类型的传输)、REST风格编程 SpringMVC是隶属于Spring框架的一部分,主要是用来进行Web开发,是对Servlet进行了封装SpringMVC是处于Web层的框架,所以其主要的作用就是用来接收前…

cpp_11_虚函数_多态_纯虚函数

编译器根据指针的类型,来确定调用哪个类的普通成员函数 编译器根据基类类型指针指向的对象类型,来确定调用哪个类的虚函数 0 非虚的世界(全普通函数) 对象的自洽性: 1)对同样的函数调用,各个类的对象都会做出恰当的…

WEB前端人机交互导论实验-实训2格式化文本、段落与列表

1.项目1 文本与段落标记的应用&#xff1a; A.题目要求: B.思路&#xff1a; &#xff08;1&#xff09;首先&#xff0c;HTML文档的基本结构是通过<html>...</html>标签包围的&#xff0c;包含了头部信息和页面主体内容。 &#xff08;2&#xff09;在头部信息…

Kubernetes (十二) 存储——Volumes配置管理

一. 卷的概念 官方地址&#xff1a;卷 | Kuberneteshttps://v1-24.docs.kubernetes.io/zh-cn/docs/concepts/storage/volumes/ 二. 卷的类型及使用 …