NLP——Summarization

news2024/10/5 22:24:51

文章目录

  • Extractive summarisation
    • Single-document
      • content selection
        • TFIDF Method
        • Log Likelihood Ratio Method对数似然比
        • Sentence Centrality Method 句子中心法
      • RST Parsing
    • Multi-document
      • Content selection
        • Maximum Marginal Relevance 最大边际相关性
        • Information Ordering 信息有序化
        • Sentence Realization
  • Abstractive summarisation
    • Single-document (deep learning models!)
      • Encoder-Decoder 模型
      • Improvements
        • Encoder-Decoder with Attention
          • 基于 Copy 机制的方法
        • Transformer-based

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

summarization 任务分两种:

  • 一种是提取比较有代表性的句子
  • 第二种是用更加抽象的语言总结段落内容

summarization 的目标:
在这里插入图片描述

在这里插入图片描述

Extractive summarisation

“Extractive Summarization” 是一种自动文本摘要的方法,它的目标是从原始文档中选择一些关键的句子或者段落,组成一个摘要。这个摘要应该尽可能地保留原始文档的主要信息和意思。当我们讨论 “Single-document Extractive Summarization” 时,我们是指从单一文档中提取关键信息生成摘要的过程。

Single-document

在这里插入图片描述

以下是进行单文档抽取式摘要(Single-document Extractive Summarization)的一般步骤:

  • 预处理:这通常包括清洗文本(去除不必要的符号、空格等)、分词、删除停用词(例如“the”,“is”等常见但不含有太多信息的词)等。

  • 特征计算:根据特定的特征对文档中的每个句子进行评分。这些特征可能包括句子的长度、句子中的关键词频率、句子在文档中的位置(例如,通常来说,摘要可能会更倾向于选择文章的开头和结尾的句子,因为这些位置的句子更可能包含主要信息)、句子与整个文档的相似性等。

  • 句子选择:基于前面步骤的评分,选择得分最高的句子包含在摘要中。通常,我们会设置一个阈值或者限制摘要的长度。

  • 摘要生成:将选出的句子按照它们在原始文档中出现的顺序组织起来,形成最终的摘要。

值得注意的是,这种方法虽然简单有效,但也存在一些局限性。例如,它可能会忽视句子之间的逻辑关系和连贯性,因为它只是简单地从原始文档中抽取句子,而没有进行任何的重新组织或者生成新的句子。此外,由于它依赖于原始文档中的句子,所以如果原始文档的质量不高,摘要的质量也可能受到影响。

content selection

在这里插入图片描述
在这里插入图片描述

  • 通常使用 unsupervised learning 的方法
  • 目标是:找出重要或突出的句子

TFIDF Method

在这里插入图片描述

Log Likelihood Ratio Method对数似然比

在这里插入图片描述
这种方法试图通过统计分析来确定哪些句子或短语最有可能包含原始文档的关键内容。

对数似然比是一种衡量两种概率模型之间相对优劣的方法,更具体地说,它比较了一个更复杂的模型(通常包含更多参数)与一个更简单的模型(通常包含更少参数)对于观察到的数据的拟合程度。 在这个情况下,对数似然比可以被用于衡量一个句子或者短语是否包含了与整个文档相关的关键信息。

这种方法的基本思想是,对于一个给定的句子或者短语,如果它在原始文档中的出现频率远高于在一个更大的背景语料库中的出现频率,那么这个句子或者短语就更有可能包含了原始文档的关键信息。 因此,我们可以通过计算对数似然比来评价每个句子或者短语的重要性,然后选择得分最高的句子或者短语作为摘要的一部分。

这种方法的优点是,它可以自动地挑选出那些包含关键信息的句子或者短语,而不需要人工设定一组关键词。然而,它也有一些局限性,比如,它可能会过于依赖于频率信息,而忽视了句子或者短语的语义信息和上下文信息。此外,对于一些较短或者非常特殊的文档,这种方法可能无法提供很好的结果。
在这里插入图片描述

Sentence Centrality Method 句子中心法

在这里插入图片描述
句子的中心性(Sentence Centrality)是指一种评估句子在文档中重要性的度量方法。 对句子中心性的评估常用于自动文本摘要生成、信息抽取等任务。

RST Parsing

在这里插入图片描述
在这里插入图片描述
Rhetorical Structure Theory(RST,修辞结构理论)是一种描述文本结构的理论框架。在这个框架中,文本不仅仅是一系列的句子,而是由一系列的修辞关系(Rhetorical Relations)连接起来的。这些修辞关系包括因果关系、对比关系、解释关系等等,它们描述了文本中的句子或者句子组是如何相互关联,以形成一个统一、连贯的信息结构的。

RST解析(RST Parsing)是指对一个文本进行RST分析,以识别出文本中的修辞关系并生成一种称为RST树(RST Tree)的结构表示。

在文本摘要(Summarization)中,RST解析可以帮助我们理解文本的深层结构和逻辑关系,从而生成更高质量的摘要。例如,我们可以优先选择那些在RST树中位于更高层次(也就是更重要位置)的句子,或者那些参与了重要修辞关系的句子。 此外,我们还可以根据RST树来保证摘要的连贯性和逻辑性,例如,如果我们选择了一个结果(Result)句子,那么我们可能也需要选择与之相关的原因(Reason)句子。

在这里插入图片描述

Multi-document

  • 多文件的情况和单文件的很相似,只是可能有信息冗余,因为可能有多个句子是重复的或者非常相似的
    在这里插入图片描述

Content selection

  • 还是可以采用 tfidf 以及对数似然比
  • 但是要选择忽略那些冗余的句子
    在这里插入图片描述

Maximum Marginal Relevance 最大边际相关性

在这里插入图片描述
最大边际相关性(Maximum Marginal Relevance, MMR)是一种在信息检索和文本摘要等任务中使用的策略,用于权衡信息的相关性和多样性。其基本思想是选择那些与查询或者主题最相关,但与已选择内容最不相似的项。

在文本摘要的场景中,MMR可以帮助我们生成更好的摘要。比如在抽取式摘要中,我们可以使用MMR来选择句子,以确保选出的句子既与文档主题相关,又尽可能地包含不同的信息。这样可以避免摘要中包含重复或者冗余的内容,从而提高摘要的信息密度和阅读体验。

Information Ordering 信息有序化

  • 按照时间排序
  • 按照内聚性排序
    在这里插入图片描述

Sentence Realization

在这里插入图片描述
“句子实现”(Sentence Realisation)通常指的是在自然语言生成(NLG)中将一个语义表示或语义框架转化为一个完整的、语法正确的句子的过程。

这通常涉及到以下几个步骤:

  • 词汇选择:根据语义表示选择合适的词语来表达意思。例如,如果语义表示是“移动”,可以选择"移动",“走”,"跑"等词汇。
  • 语序决定:不同的语言有不同的语序规则,需要根据语法规则决定词语的排列顺序。
  • 形态生成:在某些语言中,词形会根据其在句子中的角色而改变,例如在英语中,动词的时态可能需要根据语境变化。
  • 修饰词添加:可能需要添加一些额外的词语,如冠词、介词、连词等,以生成语法正确的句子。

Abstractive summarisation

Single-document (deep learning models!)

在这里插入图片描述

Encoder-Decoder 模型

在这里插入图片描述

  • 为了训练这些模型,我们使用的数据的类型也不同,其中一种就是: 将文章的第一句话作为 document,summary 就是文章的题目
    在这里插入图片描述
    在这里插入图片描述

  • 按照这种方式产生的结果实例如上:

    • G 是 groundtruth
    • A 是生成的 summary
  • 还有其他数据集形式:
    在这里插入图片描述

Improvements

在这里插入图片描述

Encoder-Decoder with Attention

其工作原理的简单解释为:

  • 编码器:编码器的任务是将输入的源文本(例如,一篇文章)转换成一系列的向量表示,这些向量捕获了文本的语义信息。常见的编码器是循环神经网络(RNN)或者Transformer编码器。

  • 注意力机制:注意力机制在编码和解码过程中起着重要的作用。它的基本思想是在生成每一个输出单词时,不仅考虑解码器的当前状态,也考虑源文本中的所有词语,而且对于不同的词语赋予不同的权重。这些权重被称为“注意力”,它们表示解码器在生成当前词语时对源文本中的每个词语的关注程度。通过注意力机制,解码器可以更好地利用源文本的信息,从而生成更准确的摘要。

  • 解码器:解码器的任务是根据编码器的输出和注意力权重,生成目标文本(例如,一个摘要)。在生成每一个词语时,解码器都会参考之前生成的所有词语和注意力权重。常见的解码器是循环神经网络(RNN)或者Transformer解码器。

基于 Copy 机制的方法

在这里插入图片描述

如上图,具体来说:

  • 上述方法结合了 copy 机制,这样避免解码端直接解码,而是在解码的每一个时间步都考虑编码端的信息
  • 上图中使用了 Bi-lstm 作为 encoderdecoder 端就是使用普通的 lstm
  • 假设目前的 decoder 时间步为 t i t_i tidecoderhidden 向量与 encoder 端的每一个时间步的 hidden 向量计算相似度,通过 softmax 之后得到attention distribution,根据这个 distribution 对每个 encoder 向量加权求和之后得到当前时间步 t i t_i ticontext vector
  • 然后解码端的 vectorcontext vector 计算相似度,并得到 P g e n P_{gen} Pgen 这个标量。
  • 然后按照比例将原本的 attention distribution t i t_i ti 时间步 decoderhidden 状态相加,得到最终用于解码的 Final Distribution,并从中选出最 argmax 作为当前时间步的生成单词
  • 原本的 attention distribution 就是 copy 的部分,代表直接利用原文的信息
    在这里插入图片描述
    在这里插入图片描述

Transformer-based

在这里插入图片描述

  • 由于 BERT 只是 transformer 的编码端,因此无法进行这类任务
  • 这类任务需要 encoder + decoder 或者只有 decoder

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/648872.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

详细介绍ROS中通过shell文件依次启动多个launch文件

本文主要介绍如何在ROS中通过shell文件依次启动多个launch文件,并介绍如何在同一个窗口的不同选项卡中依次启动多个launch文件。 一、先来看一个简单的示例: #!/bin/bashgnome-terminal -- bash -c "roslaunch bringup racecar_gazebo_rviz_znc.la…

Word控件Spire.Doc 【其他】教程(9):从 Word 文档中提取 OLE 对象

Spire.Doc for .NET是一款专门对 Word 文档进行操作的 .NET 类库。在于帮助开发人员无需安装 Microsoft Word情况下,轻松快捷高效地创建、编辑、转换和打印 Microsoft Word 文档。拥有近10年专业开发经验Spire系列办公文档开发工具,专注于创建、编辑、转…

NestJs 管道(Pipe)

🎄Hi~ 大家好,我是小鑫同学,资深 IT 从业者,InfoQ 的签约作者,擅长前端开发并在这一领域有多年的经验,致力于分享我在技术方面的见解和心得 🚀技术&代码分享 我在 94Code 总结技术学习&…

Windows下安装运行Kafka(最底下有遇到的坑与解决方法)

注:安装kafka需要提前安装Zookeeper 一、Zookeeper安装 1. 下载安装包 https://zookeeper.apache.org/releases.html 注意:要下载带bin的安装包 2. 解压并进入ZooKeeper目录,如:D:\onworking\apache-zookeeper-3.7.0-bin&…

ansible剧本模式特殊模块使用

Nginx安装剧本 ansible-playbook test1.yaml //补充参数 -k(-ask-pass):用来交互输入ssh密码 -K(-ask-become-pass):用来交互输入sudo密码 -u:指定用户 -e:命令行指定变量 --syntax-check…

【服务器数据恢复】HP LeftHand存储raid5不可用的数据恢复案例

HP LeftHand存储简介: HP LeftHand存储支持搭建RAID5、RAID6、RAID10磁盘阵列,支持卷快照,卷动态扩容等。服务端和客户端分别如下: LeftHand存储共有三个级别:物理磁盘、基于多个物理磁盘组成的逻辑磁盘(ra…

广东电信突发故障,手机没信号,对讲机的重要性再次凸显

当我们常用的通信网络出现故障时,就会面临全网瘫痪的情况,这个时候无线电通信就显得尤为重要了! 在6月8日下午两点左右,有多位广东电信的用户发现,自己的手机突然出现了打不出去电话,及上不了网的情况&…

Unity编辑器扩展-第四集-获取物体的方法

第三集链接:Unity编辑器扩展-第三集-添加按钮到组件菜单并且重置组件_菌菌巧乐兹的博客-CSDN博客 一、本节目标效果展示 1.改选中单个物体的名字 2.改选中所有物体的名字 3.选中了所有的物体,但只改第一层物体的名称 4.来个有用的(选中的所有…

Python进阶语法之列表推导式

Python进阶语法之列表推导式 Python列表推导式是Python中最有魅力的特性之一,它提供了一种优雅、简洁的方式来创建列表。这种语法不仅使得代码更加简洁,易读,而且在某些情况下还可以提高代码的执行效率。接下来,我们将一起深入探…

SpringBoot中@ControllerAdvice的三种使用场景

一、全局异常处理 代码示例如下: /*** author qinxun* date 2023-06-14* Descripion: 业务层异常枚举*/ public enum ServiceExceptionEnum {SUCCESS(0, "成功"),ERROR(1, "失败"),SYS_ERROR(1000, "服务端发生异常"),MISSING_REQUEST_PARAM_E…

使用同步信号量和互斥信号量解决生产者和消费者问题

生产者和消费者问题 生产者和消费者问题是一个经典的进程同步问题。在这个问题中,生产者不断地向缓冲区中写入数据,而消费者则从缓冲区中读取数据。生产者进程和消费者进程对缓冲区的操作是互斥的,即任意时刻只能有一个进程对这个缓冲区进行…

RTU电流采集上传

RTU电流采集上传 案例说明器件 物联网平台开发代码修改三元组 测试 案例说明 本案例使用HD1(RTU)检测外部电流,并将电流上传阿里云端。 压力传感器输出电流信号,读取压力传感器数值时需要检测电流大小。haasHD1(RTU)有两路ADC—…

深度学习应用篇-元学习[16]:基于模型的元学习-Learning to Learn优化策略、Meta-Learner LSTM

【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等 专栏详细介绍:【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化…

[C语言实现]数据结构堆之《害怕二叉树所以天赋全点到堆上了》

🥰作者: FlashRider 🌏专栏: 数据结构 🍖知识概要:详解堆的概念、小根堆与大根堆的区别、以及代码实现。 目录 什么是堆? 如何实现堆? 代码实现堆(小根堆) 定义堆以及堆的初始化和销毁。 堆的插入 堆…

LeetCode·每日一题·1177. 构建回文串检测·前缀和

作者:小迅 链接:https://leetcode.cn/problems/can-make-palindrome-from-substring/solutions/2309940/qian-zhui-he-zhu-shi-chao-ji-xiang-xi-by-n3ps/ 来源:力扣(LeetCode) 著作权归作者所有。商业转载请联系作者获…

最新水文水动力模型在城市内涝、城市排水、海绵城市规划设计中深度应用

随着计算机的广泛应用和各类模型软件的发展,将排水系统模型作为城市洪灾评价与防治的技术手段已经成为防洪防灾的重要技术途径。本次培训将聚焦于综合利用GIS及CAD等工具高效地进行大规模城市排水系统水力模型的建立,利用SWMM实现排水系统水力模拟。讲解…

【RH850/U2A】:GreenHills编译配置

GreenHills编译配置 GreenHills语法.gpj文件.opt文件示例GreenHills编译器在编译我们的文件时涉及它需要哪些文件及相关配置呢?带着疑问我们开始来梳理。 我们还是以具体示例来展开(硬件平台:RH850 U2A8) GreenHills语法 一般我们是需要查看它的帮助文档的,文档在哪里呢?…

CSP第二轮/NOIP 比赛注意事项

一、在哪里写代码 主办方会提前在桌面已在 E 盘根目录下建立以考生准考证编号命名的文件夹,考生应检查该文件夹名称是否正确(包括编号及大小写字母),如有错误须立即上报监考人员,由监考人员进行更改。确认无误后,考生须为每道试题再单独建立一个子文件夹,子文件夹名与对应…

某互联网银行绿色金融背后的“安全秘诀”

​随着银保监会出台《银行业保险业绿色金融指引》、人民银行牵头制定《G20转型金融框架》的发布,金融行业正在持续加大对绿色金融支持力度。某互联网银行为了响应号召,采用数字化无纸化办公,线上零接触服务减少大量碳排放,成为国内…

oracle rac架构解读

一、oracle 数据库架构 单节点数据库,如果实例宕机了,如果一个业务链接在实例上面,那么这个业务就中断了。这个时候系统就不具有可用性了,那么这个时候单节点的可用性是很差的。 对于RAC来说,和单实例一样,…