Lecture 21 Summarisation

news2024/11/23 12:05:44

目录

      • Extractive: Single-Doc
      • Extractive: Multi-Doc
      • Abstractive: Single-Doc
      • Evaluation
      • Conclusion

  • summarisation
    • Distill the most important information from a text to produce shortened or abridged version
    • Examples
      • outlines of a document
      • abstracts of a scientific article
      • headlines of a news article
      • snippets of search result
    • what to summarise
      • Single-document summarisation
        • Input: a single document
        • Output: summary that characterise the content
      • Multi-document summarisation(find overlapping information)
        • Input: multiple documents
        • Output: summary that captures the gist(要点,主旨) of all documents
        • E.g. summarise a news event from multiple sources or perspectives
    • how to summarise
      • Extractive summarisation
        • Summarise by selecting representative sentences from documents
      • Abstractive summarisation
        • Summarise the content in your own words
        • Summaries will often be paraphrases of the original content
    • goal of summarisation
      • Generic summarisation
        • Summary gives important information in the document(s)
      • Query-focused summarisation
        • Summary responds to a user query
        • “Non-factoid” QA
        • Answer is much longer than factoid QA 在这里插入图片描述

Extractive: Single-Doc

  • summarisation system
    • Content selection: select what sentences to extract from the document

    • Information ordering: decide how to order extracted sentences

    • Sentence realisation: cleanup to make sure combined sentences are fluent 在这里插入图片描述

    • We will focus on content selection

    • For single-document summarisation, information ordering not necessary

      • present extracted sentences in original order
    • Sentence realisation also not necessary if they are presented in dot points

  • content selection
    • Not much data with ground truth extractive sentences

    • Mostly unsupervised methods

    • Goal: Find sentences that are important or salient(显著的,突出的)

    • method1: TF-IDF

      • Frequent words in a doc → \to salient
      • But some generic words are very frequent but uninformative
        • function words
        • stop words
      • Weigh each word w w w in document d d d by its inverse document frequency:
        • w e i g h t ( w ) = t f d , w × i d f w weight(w)=tf_{d,w} \times idf_w weight(w)=tfd,w×idfw
    • method 2: Log Likelihood Ratio

      • Intuition: a word is salient if its probability in the input corpus is very different to a background corpus(e.g. Wikipedia)
      • f ( n ) = { 1 , i f − 2 l o g λ ( w ) > 10 0 , o t h e r w i s e f(n)= \begin{cases} 1, & {if -2log\lambda(w)>10} \\ 0, & {otherwise} \end{cases} f(n)={1,0,if2logλ(w)>10otherwise
      • λ ( w ) \lambda(w) λ(w) is the ratio between:
        • numerator: P(observing w w w in I I I) → ( N I x ) p x ( 1 − p ) N I − x \to \begin{pmatrix} N_I \\ x \\ \end{pmatrix}p^x(1-p)^{N_I-x} (NIx)px(1p)NIx and P(observing w w w in B B B) → ( N B y ) p y ( 1 − p ) N B − y \to \begin{pmatrix} N_B \\ y \\ \end{pmatrix}p^y(1-p)^{N_B-y} (NBy)py(1p)NBy, assuming P ( w ∣ I ) = P ( w ∣ B ) = p → x + y N I + N B P(w|I)=P(w|B)=p \to \frac{x+y}{N_I+N_B} P(wI)=P(wB)=pNI+NBx+y
        • denominato: P(observing w w w in I I I) → ( N I x ) p I x I ( 1 − p I ) N I − x \to \begin{pmatrix} N_I \\ x \\ \end{pmatrix}p_I^{x_I}(1-p_I)^{N_I-x} (NIx)pIxI(1pI)NIx and P(observing w w w in B B B) → ( N B y ) p B y ( 1 − p B ) N B − y \to \begin{pmatrix} N_B \\ y \\ \end{pmatrix}p_B^y(1-p_B)^{N_B-y} (NBy)pBy(1pB)NBy, assuming P ( w ∣ I ) = p I → x N I   a n d   P ( w ∣ B ) = p B → y N B P(w|I)=p_I \to \frac{x}{N_I} \ and \ P(w|B)=p_B \to \frac{y}{N_B} P(wI)=pINIx and P(wB)=pBNBy
      • saliency of a sentence
        • w e i g h t ( s ) = 1 ∣ S ∣ ∑ w ∈ S w e i g h t ( w ) weight(s)=\frac{1}{|S|}\sum_{w\in{S}}weight(w) weight(s)=S1wSweight(w)
        • only consider non-stop words in S S S
    • method 3: sentence centrality(find sentence )

      • Alternative approach to ranking sentences
      • Measure distance between sentences, and choose sentences that are closer to other sentences
      • Use tf-idf BOW to represent sentence
      • Use cosine similarity to measure distance
      • c e n t r a l i t y ( s ) = 1 # s e n t ∑ s ′ c o s t f i d f ( s , s ′ ) centrality(s)=\frac{1}{\# sent}\sum_{s'}cos_{tfidf}(s,s') centrality(s)=#sent1scostfidf(s,s)
      • final extracted summary
        • Use top-ranked sentences as extracted summary
          • Saliency (tf-idf or log likelihood ratio)
          • Centrality
    • method 4: RST parsing 在这里插入图片描述

      • Rhetorical structure theory (L12, Discourse): explain how clauses are connected

      • Define the types of relations between a nucleus (main clause) and a satellite (supporting clause) 在这里插入图片描述

      • Nucleus more important than satellite

      • A sentence that functions as a nucleus to more sentences = more salient (dashed arrow is satellite, solid arrow is nucleus) 在这里插入图片描述

      • which sentence is the best summary sentence?

        • Mars experiences frigid conditions

Extractive: Multi-Doc

  • summarisation system
    • Similar to single-document extractive summarisation system

    • Challenges:

      • Redundancy in terms of information(multiple documents contains the same information)
      • Sentence ordering(can on longer use the original order) 在这里插入图片描述
    • content selection

      • We can use the same unsupervised content selection methods (tf-idf, log likelihood ratio, centrality) to select salient sentences from each of these documents individually
      • But ignore sentences that are redundant
    • Maximum Marginal Relevance

      • Iteratively select the best sentence to add to summary
      • Sentences to be added must be novel(new information)
      • Penalise a candidate sentence if it’s similar to extracted sentences:
        • M M R − p e n a l t y ( s ) = λ m a x s i ∈ S s i m ( s , s i ) MMR-penalty(s)=\lambda max_{s_i\in{S}}sim(s,s_i) MMRpenalty(s)=λmaxsiSsim(s,si)
        • s i s_i si is a extracted sentence
        • s s s is a candidate sentence
        • S S S is the set of extracted sentences
      • Stop when a desired number of sentences are added
    • Information Ordering

      • Chronological ordering:
        • Order by document dates
      • Coherence:
        • Order in a way that makes adjacent sentences similar
        • Order based on how entities are organised (centering theory, L12) 在这里插入图片描述
    • Sentence Realisation

      • Make sure entities are referred coherently
        • Full name at first mention
        • Last name at subsequent mentions
      • Apply coreference methods to first extract names
      • Write rules to clean up 在这里插入图片描述在这里插入图片描述

Abstractive: Single-Doc

  • example 在这里插入图片描述

    • Paraphrase
    • A very difficult task
    • Can we train a neural network to generate summary?
  • Encoder-Decoder? 在这里插入图片描述

    • What if we treat:
      • Source sentence = “document”
      • Target sentence = “summary” 在这里插入图片描述
  • data

    • News headlines

    • Document: First sentence of article

    • Summary: News headline/title

    • Technically more like a “headline generation task”

    • and it kind of works… 在这里插入图片描述

    • More Summarisation Data

      • But headline generation isn’t really exciting…
      • Other summarisation data:
        • CNN/Dailymail: 300K articles, summary in bullets
        • Newsroom: 1.3M articles, summary by authors
          • Diverse; 38 major publications
        • XSum: 200K BBC articles
          • Summary is more abstractive than other datasets
  • improvements

    • Attention mechanism
    • Richer word features: POS tags, NER tags, tf-idf
    • Hierarchical encoders
      • One LSTM for words
      • Another LSTM for sentences 在这里插入图片描述
  • Potential issues of an attention encoder-decoder summarisation system?

    • Has the potential to generate new details not in the source document (yes)
    • Unable to handle unseen words in the source document (yes, can only generate a closed set of words)
    • Information bottleneck: a vector is used to represent the source document (no, use attention)
    • Can only generate one summary (no)

在这里插入图片描述在这里插入图片描述

  • Copy Mechanism
    • Generate summaries that reproduce details in the document
    • Can produce out-of-vocab words in the summary by copying them in the document
      • e.g. smergle = out of vocabulary
      • p(smergle) = attention probability + generation probability = attention probability
  • latest development
    • State-of-the-art models use transformers instead of RNNs
    • Lots of pre-training
    • Note: BERT not directly applicable because we need a unidirectional decoder (BERT is only an encoder)

Evaluation

  • ROUGE (Recall Oriented Understudy for Gisting Evaluation)
    • Similar to BLEU, evaluates the degree of word overlap between generated summary and reference/human summary
    • But recall oriented(BLEU is precision-oriented)
    • Measures overlap in N-grams separately (e.g. from 1 to 3)
    • ROUGE-2: calculates the percentage of bigrams from the reference that are in the generated summary
  • ROUGE-2: example 在这里插入图片描述

Conclusion

  • Research focus on single-document abstractive summarisation
  • Mostly news data
  • But many types of data for summarisation:
    • Images, videos
    • Graphs
    • Structured data: e.g. patient records, tables
    • Multi-document abstractive summarisation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/628451.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MapReduce【小文件的优化-Sequence文件】

在实际开发中,我们肯定希望提高MapReduce的工作效率,其实提高MapReduce的效率,无非就是提高Map阶段和Reduce阶段的效率。 Map阶段优化之小文件问题 我们知道Map阶段中的MapTask个数是与InputSplit的个数有关的,一般一个InputSpl…

《微服务实战》 第二十八章 分布式锁框架-Redisson

前言 Redisson 在基于 NIO 的 Netty 框架上,充分的利⽤了 Redis 键值数据库提供的⼀系列优势,在Java 实⽤⼯具包中常⽤接⼝的基础上,为使⽤者提供了⼀系列具有分布式特性的常⽤⼯具类。使得原本作为协调单机多线程并发程序的⼯具包获得了协调…

VR全景营销颠覆传统营销模式,让商企博“出圈”

在激烈的市场竞争中,营销成为了商企博“出圈”的重要课题,随着5G的到来,VR全景迈入了快速发展时期,随着VR全景的普及应用,商业领域也逐渐引入了VR全景营销。 时下,商企的营销是越发困难,传统的营…

币圈下半年重点之一:以太坊坎昆升级,将带来哪些实质性利好?

近期BRC-20大火,主打价值存储的比特币竟然生态比以太坊还热,但要论生态,以太坊才是真正的王者,因为其正在悄悄酝酿下一个重大升级——坎昆(Dencun)升级。 最新消息,以太坊开发者已经就Dencun升级…

【MySQL高级篇笔记-数据库的设计规范(中) 】

此笔记为尚硅谷MySQL高级篇部分内容 目录 一、为什么要数据库设计 二、范式 1、范式简介 2、范式都包括哪些 3、键和相关属性的概念 4、第一范式(1st NF) 5、第二范式(2nd NF) 6、第三范式(3rd NF) 7、小结 三、反范式化 1、概述 2、 应用举例 3、反范式的新问…

逆向分析高薪就业:学习Android逆向开发,拥抱行业机会!

简述 Android 逆向开发是指利用各种技术手段对安卓应用程序进行逆向分析和研究,以了解应用程序的内部机制,发现应用程序中的漏洞、脆弱性或者安全问题,并提供相关的解决方案。逆向开发技术可以帮助开发人员更好地了解应用程序的构成、运行机…

Django实现接口自动化平台(六)httprunner(2.x)基本使用【持续更新中】

上一章: Django实现接口自动化平台(五)httprunner(2.x)基本使用【持续更新中】_做测试的喵酱的博客-CSDN博客 下一章: 一、 api 文件夹(没有任何数据依赖的场景) api 文件夹&…

一键生成代码

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

(五)CSharp-进一步理解接口

一、什么是接口 接口是指定一组函数成员而不实现它们的引用类型。 实现接口: 只能由类和结构来实现接口。 二、声明接口 接口声明不能包含以下成员: 数据成员静态成员 接口声明只能包含如下类型的非静态成员函数的声明: 方法属性事件索…

25张python代码速查表,让你python能力突飞猛进的秘诀!

在学习函数时,总是会有很多东西学得很快,遗忘得也很快。但其实在学习中,只需要知道相关参数,加以调整就够了。所以你可能需要这本秘籍! 即整理了Python科学速查表,就可以帮你解决以上的问题。当你在练习的时…

怎样正确做 Web 应用的压力测试?字节8年测试5个步骤给我看师了

Web应用,通俗来讲就是一个网站,主要依托于浏览器来访问其功能。 那怎么正确做网站的压力测试呢? 提到压力测试,我们想到的是服务端压力测试,其实这是片面的,完整的压力测试包含服务端压力测试和前端压力测…

高可用系统架构总结

文章目录 系统设计的一些原则海恩法则墨菲定律 软件架构中的高可用设计什么是高可用故障的度量与考核解决高可用问题具体方案 集群化部署负载均衡负载均衡实现内部服务外部服务数据库 负载均衡算法round-robinip_hashhash key 失败重试健康检查TCPHTTP 隔离线程隔离进程隔离集群…

华秋观察 | 通讯产品 PCB 面临的挑战,一文告诉你

印制电路板是电子产品的关键电子互联件,被誉为“电子产品之母”。随着电子产品相关技术应用更快发展、迭代、融合,PCB作为承载电子元器件并连接电路的桥梁,为满足电子信息领域的新技术、新应用的需求,行业将迎来巨大的挑战和发展机…

rocky9脚本py格式

在linux7上编写/root/CreateFile.py的python3脚本,创建20个文件/root/test/File01至/root/test/File20,如果文件存在,则先删除再创建;每个文件的内容同文件名,如File01文件的内容为”File01” 先在root目录下建立所需…

使用单片机遇到的几个问题及解决方案1

1.为什么我跟着视频学习的过程中,我没有找到“端口"的选项呢?我甚至没有出现“其他插口”。 想要找到设备管理器最快的方法就是: 首先如果把输入法调为大写形式,然后按下“WINX”,再按“M”就会出现一个设备管理…

python制作炸弹人游戏,一起来爆破消灭敌人吧

前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 《炸弹人》是HUDSON出品的一款ACT类型游戏,经典的第一作登陆在FC版本,游戏于1983年发行。 游戏具体操作是一个机器人放置炸弹来炸死敌人,但也可以炸死自己,还有些增强威力…

K8S之服务Service(十三)

1、Service概念: Kubernetes中的 Pod是有生命周期的,它们可以被创建,也可以被销毁,然而一旦被销毁pod生命就永远结束,这个pod就不存在了,通过ReplicaSets能够动态地创建和销毁Pod(例如&#xff…

【计算思维题】少儿编程 蓝桥杯青少组计算思维 数学逻辑思维真题详细解析第8套

少儿编程 蓝桥杯青少组计算思维题真题及解析第8套 1、下列哪个选项填到填到下图空缺处最合适 A、 B、 C、 D、 答案:D 考点分析:主要考查小朋友们的观察能力,从给定的图中可以看到,图中的线条都是有实现和虚

【C++ 学习 ⑨】- 万字详解 string 类(上)

目录 一、为什么学习 string 类? 二、标准库中的 string 类 三、C STL容器是什么? 四、string 类的成员函数 4.1 - 构造函数 4.2 - 赋值运算符重载 4.3 - 容量操作 4.4 - 遍历及访问操作 4.4.1 - operator[] 和 at 4.4.2 - 迭代器 4.5 - 修改…

Node.js 使用踩坑

重装电脑后,重装node.js 出现一个问题: npm install 会报错 按提示操作后 而npm run serve 会报xlsx和echart的错误,提示引用不对之类的,但是公司项目固定的,不可以随便改,而且之前是没问题的。 此时需要找…