ROUGE:摘要自动评估软件包

news2024/10/22 2:49:18

算法解析

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一组用于自动评估文本摘要质量的指标,主要通过比较机器生成的摘要与一个或多个参考摘要之间的重合程度来衡量。ROUGE 包括多个变体,其中最常用的有 ROUGE-N、ROUGE-L、ROUGE-W 和 ROUGE-S。下面将详细介绍这四种 ROUGE 测量方法的算法定义、它们之间的区别,并通过生动的例子来帮助理解。

Abstract

ROUGE 是 "Recall-Oriented Understudy for Gisting Evaluation"的缩写。它是一种通过将 AI 生成的摘要与人类创建的理想摘要进行比较来自动确定摘要质量的测量方法。这些测量方法计算计算机生成的待评估摘要与人类创建的理想摘要之间的重叠单位数量,如 n-gram、词序列和词对。本文介绍了四种不同的 ROUGE 测量方法:ROUGE-N、ROUGE-L、ROUGE-W 和 ROUGE-S 四种不同的 ROUGE 测量方法及其评估结果。其中三种已在 2004 年文档理解大会 (DUC) 上使用,这是 NIST 赞助的一次大规模摘要评估。

1. Introduction

传统的摘要评估包括人工对不同质量指标的判断,例如连贯性、简洁性、语法性、可读性和内容(Mani,2001)。然而,即使是像文档理解会议(DUC)(Over and Yen, 2003)那样,针对几个语言质量问题和内容覆盖范围对摘要进行大规模的简单人工评估,也需要花费超过 3000 个小时的人力。这不仅成本高昂,而且难以经常进行。因此,如何自动评估摘要近年来引起了摘要研究界的广泛关注。例如,Saggion 等人(2002 年)提出了三种基于内容的评估方法来衡量摘要之间的相似性。这些方法分别是:余弦相似度(cosine similarity)、单词重叠(unit overlap),即单字符串或大字符串和最长公共子序列(longest common subsequence)。

然而,他们并没有说明这些自动评估方法的结果与人类判断之间的关联。继 BLEU(Papineni 等人,2001 年)等自动评估方法成功应用于机器翻译评估之后,Lin 和 Hovy(2003 年)证明,与 BLEU 相似的方法,即 n-gram 共同出现统计法,也可用于评估摘要。

在本文中,我们介绍了一个用于自动评估摘要及其评估的软件包 ROUGE。ROUGE 是 Recall-Oriented Understudy for Gisting Evaluation 的缩写。它包括几种衡量摘要之间相似性的自动评估方法。我们将在第 2 节介绍 ROUGE-N,在第 3 节介绍 ROUGE-L,在第 4 节介绍 ROUGE-W,在第 5 节介绍 ROUGE-S。第 6 节利用 DUC 2001、2002 和 2003 数据说明了这些测量方法与人类判断的相关性。第 7 节是本文的结论,并讨论了未来的发展方向。

2. ROUGE-N: N-gram Co-Occurrence Statistics

形式上,ROUGE-N 是候选摘要与参考摘要集之间的 n-gram 召回率。ROUGE-N 的计算方法如下:

其中,n 代表 n-gram 的长度(gramn),Countmatch(gramn) 是候选摘要(candidate summary)和一组参考摘要(reference summaries)中共同出现的 n-gram 的最大数量。

很明显,ROUGE-N 是一种与召回率相关的测量方法,因为等式的分母是出现在参考摘要侧的 n-grams 数量的总和。机器翻译自动评估中使用的一个密切相关的指标 BLEU 是一种基于精确度的指标。BLEU 通过计算候选译文中与参考译文重叠的 n-grams 百分比来衡量候选译文与一组参考译文的匹配程度。有关 BLEU 的详细信息,请参见 Papineni 等人(2001 年)。

请注意,随着参考摘要的增加,ROUGE-N 公式分母中的 n-grams 数量也会增加。这既直观又合理,因为可能存在多个好的摘要。每当我们向参考摘要池中添加一个参考摘要,就会扩大备选摘要的空间。通过控制添加到参考摘要池中的参考摘要类型,我们可以设计出侧重于摘要不同方面的评估。还要注意的是,分母是所有参考文献摘要的总和。这就有效地提高了出现在多个参考文献中的匹配 n-gram 的权重。因此,ROUGE-N 方法更倾向于使用包含更多参考摘要共享词语的候选摘要。这也是非常直观和合理的,因为我们通常更喜欢与参考文献摘要中的共识更相似的候选摘要。

2.1. Multiple References

到目前为止,我们只演示了如何使用单个 reference 计算 ROUGE-N。当使用多个参考文献时,我们会计算候选摘要 s 与 reference 集中每个 ri 之间的成对摘要级 ROUGE-N。然后,我们取成对摘要级 ROUGE-N 分数的最大值作为最终的多参考 ROUGE-N 分数。其写法如下:

这个过程也适用于计算 ROUGE-L(第 3 节)、ROUGE-W(第 4 节)和 ROUGE-S(第 5 节)。在实现过程中,我们使用了积分法(Jackknifing)。给定 M 个参考文献,我们计算 M 集合中 M-1 参考文献的最佳得分。最终的 ROUGE-N 分数是使用不同 M-1 参考文献的 M 个 ROUGE-N 分数的平均值。由于我们经常需要比较系统和人工性能,而参考摘要通常是唯一可用的人工摘要,因此我们采用了积层假定(Jackknifing)程序。使用该程序,我们可以通过一个参考文献的 M ROUGE-N 分数与其余 M-1 参考文献的平均值来估算人类的平均性能。虽然当我们只想使用多个参考文献计算 ROUGE 分数时不需要 Jackknif ing 程序,但在 ROUGE 评估软件包中的所有 ROUGE 分数计算中都使用了该程序。

下一节,我们将介绍一种基于两个摘要之间最长公共子序列的 ROUGE 测量方法。

3. ROUGE-L: Longest Common Subs equence

一个序列 Z = [z1, z2, ..., zn] 是另一个序列 X = [x1, x2, ..., xm] 的子序列,如果存在一个 X 指数的严格递增序列 [i1, i2, ..., ik],对于所有 j = 1, 2, ..., k,我们有 xij = zj(Cormen 等人,1989 年)。给定两个序列 X 和 Y,X 和 Y 的最长公共子序列(LCS)是具有最大长度的公共子序列。LCS 已被用于从平行文本中构建 N 个最佳翻译词典时识别候选同源词。Melamed(1995 年)使用两个词的 LCS 长度与两个词中较长单词长度之间的比率(LCSR)来衡量它们之间的同义性。他使用 LCS 作为近似字符串匹配算法。Saggion 等人(2002 年)在自动摘要评价中使用归一化的成对 LCS 来比较两个文本之间的相似性。

3.1. Sentence-Level LCS

在摘要评估中应用 LCS 时,我们将摘要句子视为单词序列。我们的直觉是,两个摘要句的 LCS 越长,这两个摘要就越相似。我们建议使用基于 LCS 的 Fmeasure 来估计长度为 m 的两个摘要句 X 和长度为 n 的两个摘要句 Y 之间的相似度,假设 X 是参考摘要句,Y 是候选摘要句,具体如下:

其中,LCS (X,Y) 是 X 和 Y 的最长公共子序列的长度,当 ?Flcs/?Rlcs = ?Flcs/?Plcs 时,ß = Plcs/Rlcs。在 DUC 中,ß 被设置为一个非常大的数字(? 8)。因此,只考虑 Rlcs。我们将基于 LCS 的 F 测量(即公式 4)称为 ROUGE-L。请注意,当 X = Y 时,ROUGE-L 为 1;而当 LCS(X,Y) = 0 时,ROUGE-L 为 0,即 X 和 Y 之间没有共同点。本例中的综合因子是基于 LCS 的召回率和精确率。Melamed 等人(2003 年)使用单字节 Fmeasure 估算机器翻译质量,结果表明单字节 Fmeasure 与 BLEU 一样好。

使用 LCS 的一个优点是,它不要求连续匹配,而是要求反映句子级词序的内序匹配 n-gram。另一个优点是,它能自动包含最长的序列内常见 n-gram,因此无需预定义 n-gram长度。

等式 4 中定义的 ROUGE-L 具有这样一个特性,即其值小于或等于 X 和 Y 的单字符 F 测量值的最小值。单词召回率反映了 X(参考摘要句子)中同时出现在 Y(候选摘要句子)中的单词比例;而单词精确率则是 Y 中同时出现在 X 中的单词比例。

ROUGE-L 只对序列内的非词块匹配进行评分,因此也能以自然的方式捕捉句子层面的结构。请看下面的例子:

为了便于解释,我们只考虑 ROUGE-2,即 N=2。以 S1 为参照句,S2 和 S3 为候选摘要句,S2 和 S3 的 ROUGE-2 得分相同,因为它们都有一个大字符串,即 "枪手"。然而,S2 和 S3 的含义却截然不同。在 ROUGE-L 中,S2 得分为 3/4 = 0.75,S3 得分为 2/4 = 0.5,ß = 1。因此,根据 ROUGE-L 标准,S2 优于 S3。这个例子还说明,ROUGE-L 可以在句子层面可靠地发挥作用。

但是,LCS 有一个缺点,那就是它只计算主要的序列内单词,因此,其他可供选择的 LCS 和较短的序列不会反映在最终得分中。例如,下面是一个候选句子:

以 S1 为参照,LCS 只计算 "枪手 "或 "警察被杀",而不同时计算两者;因此,S4 的 ROUGE-L 得分与 S3 相同。与 S3 相比,ROUGE-2 更倾向于 S4。

3.2. Summary-Level LCS

上一节介绍了如何计算基于句子级 LCS 的 F-measure 分数。当应用到摘要层面时,我们取参考摘要句子 ri 和每个候选摘要句子 cj 之间的 LCS 匹配值。给定一个由 u 个句子(共包含 m 个单词)组成的参考摘要和一个由 v 个句子(共包含 n 个单词)组成的候选摘要,基于摘要级 LCS 的 F-measure 计算公式如下:

在 DUC 中,ß 又被设为一个很大的数字(? 8),即只考虑 Rlcs。LCS∪(ri , C) 是参考句 ri 和候选摘要 C 之间联合最长公共子序列的 LCS 得分。例如,如果 ri = w1 w2 w3 w4 w5,而 C 包含两个句子:c1 = w1 w2 w6 w7 w8 和 c2 = w1 w3 w8 w9 w5,那么 ri 和 c1 的最长公共子序列是 "w1 w2",而 ri 和 c2 的最长公共子序列是 "w1 w3 w5"。ri、c1 和 c2 的联合最长公共子序列为 "w1 w2 w3 w5",且 LCS∪(ri , C) = 4/5。

3.3. ROUGE-L vs. Normalized Pairwise LCS

Radev 等人(2002 年,第 51 页)提出的两个摘要 S1 和 S2 之间的归一化成对 LCS,LCS(S1 ,S2)MEAD 的写法如下:

假设 S1 有 m 个字,S2 有 n 个字,由于对称性,等式 8 可改写为等式 9:

然后,我们对 MEAD LCS 的召回率(Rlcs-MEAD)和 MEAD LCS 的精确率(Plcs-MEAD)定义如下:

我们可以用常数 ß = 1 的 Rlcs-MEAD 和 Plcs-MEAD 对等式 (9) 进行如下重写:

等式 12 表明,Radev 等人(2002 年)定义并在 MEAD 中实现的归一化成对 LCS 也是 ß = 1 时的 F 。句子级归一化配对的 LCS 与 ß = 1 时的 ROUGE-L 相同。除了设置 ß = 1 外,摘要级归一化成对 LCS 与 ROUGE-L 的不同之处还在于句子如何从其引用中获得 LCS 分数。归一化成对 LCS 采用最佳 LCS 得分,而 ROUGE-L 则采用联合 LCS 得分。

4. ROUGE-W: Weighted Longest Common Subsequence

正如我们在前面的章节中所描述的,LCS 具有许多很好的特性。遗憾的是,基本 LCS 也有一个问题,即它不能区分嵌入序列中不同空间关系的 LCS。例如,给定一个参考序列 X 和两个候选序列 Y1 和 Y2 如下:

Y1 和 Y2 的 ROUGE-L 分数相同。但是,在这种情况下,Y1 应该比 Y2 更优,因为 Y1 有连续匹配。为了改进基本的 LCS 方法,我们可以简单地将迄今为止遇到的连续匹配长度记入计算 LCS 的常规二维动态程序表中。我们称之为加权 LCS(WLCS),并用 k 表示当前以单词 xi 和 yj 结尾的连续匹配长度。给定两个句子 X 和 Y,X 和 Y 的 WLCS 得分可通过以下动态编程过程计算:

其中,c 是动态编程表,c(i,j) 存储以 X 的词 xi 和 Y 的词 yj 结尾的 WLCS 得分,w 是存储以 c 表位置 i 和 j 结尾的连续匹配长度的表,f 是表位置 c(i,j) 的连续匹配函数。请注意,通过提供不同的加权函数 f,我们可以对 WLCS 算法进行参数化,为连续的序列内匹配分配不同的信用。

对于任何正整数 x 和 y,加权函数 f 必须具有 f(x+y) > f(x) + f(y) 的特性。换句话说,连续比赛的得分要高于非连续比赛。例如,当 k >= 0 且 α、β > 0 时,f(k)-=-αk - β。另一个可能的函数族是形式为 kα 的多项式函数族,其中 -α > 1。然而,为了规范 ROUGE-W 的最终得分,我们还倾向于使用具有近似形式反函数的函数。例如,f(k)-=-k2 有一个近似形式的反函数 f-1(k)-=-k1/2。给定两个长度为 m 的序列 X 和长度为 n 的序列 Y,基于 WLCS 的 F 测量可按如下方法计算:

其中 f -1 是 f 的反函数。在 DUC 中,ß 被设置为一个很大的数字(? 8)。因此,只考虑 ROUGE。我们将基于 WLCS 的 Fmeasure(即公式 15)称为 ROUGE-W。使用公式 15 和 f(k)-=-k2 作为加权函数,序列 Y1 和 Y2 的 ROUGE-W 分数分别为 0.571 和 0.286。因此,使用 WLCS,Y1 的排名会高于 Y2。我们使用 ROUGE 评估软件包中 kα 形式的多项式函数。下一节我们将介绍跳格共生统计。

5. ROUGE-S: Skip-Bigram Co-Occurrence Statistics

Skip-bigram 是指按句子顺序排列的任意一对单词,允许任意间隙。跳格共生统计测量候选译文与一组参考译文之间的跳格重叠度。以第 3.1 节中的例子为例:

每个句子都有 C42 = 6 个跳字。例如,S1 有以下跳格:

S2 与 S1 有三个跳格匹配("police the"、"police gunman"、"the gunman"),S3 与 S1 有一个跳格匹配("the gunman"),S4 与 S1 有两个跳格匹配("police kille d"、"the gunman")。给定长度为 m 的译文 X 和长度为 n 的译文 Y,假设 X 是参考译文,Y 是候选译文,我们计算基于跳格的 F-measure 如下:

其中,SKIP2(X,Y) 是 X 和 Y 之间的跳格匹配数,ß 控制 Pskip2 和 Rskip2 的相对重要性,C 是组合函数。我们将基于跳格的 F-measure(即公式 18)称为 ROUGE-S。

使用等式 18,ß = 1,以 S1 为参照,S2 的 ROUGE-S 得分为 0.5,S3 为 0.167,S4 为 0.333。因此,S2 优于 S3 和 S4,S4 优于 S3。这一结果比使用 BLEU-2 和 ROUGE-L 更为直观。与 BLEU 相比,skip-bigram 的一个优点是它不需要连续匹配,但对词序仍然很敏感。将 skip-bigram 与 LCS 进行比较,skip-bigram 计算所有顺序匹配的词对,而 LCS 只计算一个最长公共子序列。

在不对词与词之间的距离进行任何限制的情况下使用跳越重构,"the "或 "of in "等虚假匹配可能会被算作有效匹配。为了减少这些虚假匹配,我们可以限制两个同序词之间的最大跳越距离(dskip)。例如,如果我们将 dskip 设为 0,那么 ROUGE-S 就等同于 bigram overlap Fmeasure。如果我们将 dskip 设为 4,那么只有相距最多 4 个词的词对才能形成跳越重构。

调整等式 16、17 和 18 以使用最大跳越距离限制非常简单:我们只计算最大跳越距离内的跳越图匹配数 SKIP2 (X,Y),并将等式 16 的分母 C(m,2) 和等式 17 的分母 C(n,2) 分别替换为参考图和候选图的实际跳越图数量。

5.1. ROUGE-SU: Extension of ROUGE-S

ROUGE-S 的一个潜在问题是,如果候选句子中没有任何词对与参考句子同时出现,它就不会给该句子任何评分。例如,以下句子的 ROUGE-S 得分为零:

S5 与 S1 完全相反,两者之间不存在跳过 bigram 匹配。然而,我们希望将与 S5 相似的句子与那些与 S1 没有单词共现的句子区分开来。为此,我们对 ROUGE-S 进行了扩展,增加了单字符作为计数单位。扩展版本称为 ROUGE-SU。我们还可以通过在候选句和参考句的开头添加句首标记,从 ROUGE-S 中得到 ROUGE-SU。

6. Evaluations of ROUGE

为了评估 ROUGE 测量的有效性,我们计算了 ROUGE 分配的摘要得分与人工分配的摘要得分之间的相关性。我们的直觉是,好的评估方法应该给好的摘要打分,给差的摘要打分。基本事实是基于人类给出的分数。获取人工评判的成本通常很高;幸运的是,我们拥有 DUC 2001、2002 和 2003 年的评估数据,其中包括以下方面的人工评判:

  • 100 字左右的单份文件摘要:2001 年 DUC 有 12 个系统 2,2002 年有 14 个系统。在 DUC 2001 中,每个系统评出了 149 份单一文件摘要,在 DUC 2002 中评出了 295 份。

  • 单份文件非常简短的摘要,约 10 个字(类似标题、关键词或短语):DUC 2003 的 14 个系统。在 DUC 2003 中,每个系统评出了 624 篇超短摘要。

  • 约 10 个字的多文件摘要:2002 年 DUC 的 6 个系统;50 个字:100 字:100 字:2001 年 DUC 的 14 个系统、2002 年 DUC 的 10 个系统和 2003 年 DUC 的 18 个系统;200 字:200 字:14 个 DUC 2001 系统和 10 个 DUC 2002 系统;400 字:400 字:14 个 DUC 2001 系统。在 DUC 2001 中,每个系统按摘要大小评出 29 篇摘要,在 DUC 2002 中评出 59 篇,在 DUC 2003 中评出 30 篇。

除了这些人工评判之外,我们还为 DUC 2001 准备了 3 套人工摘要,为 DUC 2002 准备了 2 套,为 DUC 2003 准备了 4 套。人工评委通过使用南加州大学信息科学研究所(ISI)开发的摘要评估环境3 (SEE),检查人工摘要单元(即基本话语单元或句子)与候选摘要之间的内容重叠百分比,从而为候选摘要分配内容覆盖分数。候选摘要的总分是人工摘要中所有单元内容覆盖得分的平均值。请注意,尽管有多个备选摘要,但人工评委在所有评估中只使用了一个人工摘要。

利用 DUC 数据,我们计算了系统的平均 ROUGE 分数与人工分配的平均覆盖率分数之间的皮尔逊积矩相关系数、斯皮尔曼等级相关系数和肯德尔相关系数(使用单个参考文献和多个参考文献)。为了研究词干化和包含或排除停止词的效果,我们还对原始自动摘要和 3 SEE 进行了实验,实验结果可在 http://www.isi.edu/~cyl 上在线查阅。人工摘要(CASE 集)、词干化4 版本的摘要(STEM 集)和停止版本的摘要(STOP 集)。例如,我们使用带有单一参考的 CASE 集计算了参加 DUC 2001 单篇文档摘要评估的 12 个系统的 ROUGE 分数,然后计算了这 12 个系统的 ROUGE 分数与人类指定的平均覆盖率分数的三个相关分数。之后,我们使用多个参考文献重复这一过程,然后使用 STEM 和 STOP 集。因此,我们为每个 ROUGE 指标和每个 DUC 任务收集了 2(多个或单个)x 3(CASE、STEM 或 STOP)x 3(Pearson、Spearman 或 Kendall)= 18 个数据点。为了评估结果的显著性,我们采用了引导重采样技术(Davison 和 Hinkley,1997 年)来估计每次相关计算的 95% 置信区间。

使用 ROUGE 评估软件包 v1.2.1 对每次运行的 17 个 ROUGE 测量进行了测试:ROUGE-N (N = 1 至 9)、ROUGE-L、ROUGE-W(加权系数 α = 1.2)、ROUGE-S 和 ROUGE-SU(最大跳越距离 dskip = 1、4 和 9)。由于篇幅有限,我们只报告基于皮尔逊相关系数的相关分析结果。基于斯皮尔曼(Spearman)和肯德尔(Kendall)相关系数的相关分析结果与皮尔逊相关系数非常接近,稍后将发布在 ROUGE 网站5 上,以供参考。皮尔逊相关系数的临界值6 为 0.632,置信度为 95%,自由度为 8。

表 1 显示了在 DUC 2001 和 2002 年 100 词单篇文档摘要数据中,17 个 ROUGE 测量值与人类判断的皮尔逊相关系数。每列中的最佳值用深色(绿色)标出,与最佳值在统计上相当的值用灰色标出。我们发现,在这个数据集中,相关性不受词干化或删除停止词的影响;在 ROUGE-N 变体中,ROUGE-2 的表现更好;ROUGE-L、ROUGE-W 和 ROUGE-S 的表现都很好;使用多个参考文献虽然对表现的提高不大,但也有所改善。在 DUC 2002 数据中,所有 ROUGE 测量结果都与人类判断有很好的相关性。这可能是由于 DUC 2002 中每个系统的样本量增加了一倍(DUC 2001 中为 295 个,而 DUC 2002 中为 149 个)。

表 1:在 DUC 2001 和 2002 年 100 字单篇文档摘要任务中,17 项 ROUGE 测量得分与人判断的皮尔逊相关性

表 2 显示了对 DUC 2003 单文档极短摘要数据的相关性分析结果。我们发现,ROUGE-1、ROUGE-L 和 ROUGE-SU4 和 9 以及 ROUGE-W 是非常好的测量方法,而 N > 1 的 ROUGE-N 的表现明显差于所有其他测量方法,除 ROUGE-1 外,排除停止词一般都能提高性能。由于该数据集中的样本数量较多(624 个),使用多个参考文献并不能提高相关性。

表 2:在 DUC 2003 极简短摘要任务中,17 项 ROUGE 测量得分与人类判断的皮尔逊相关性

表 3 中的 A1、A2 和 A3 显示了 DUC 2001、2002 和 2003 年 100 词多文档摘要数据的相关性分析结果。结果表明,使用多个参考文献可以提高相关性,而排除停顿词通常可以提高性能。ROUGE-1、2 和 3 性能良好,但不一致。ROUGE-1 、ROUGE-S4、ROUGE-SU4、ROUGE-S9 和 ROUGESU9 在去除停顿词后的相关性超过了 0.70。ROUGE-L 和 ROUGE-W 在这组数据中效果不佳。

表 3 中的 C、D1、D2、E1、E2 和 F 显示了使用多参考文献对 DUC 其余数据进行的相关性分析。这些结果再次表明,在 50 个词的多文档摘要中,剔除定语从句的效果更好。在长摘要任务(即 200 字和 400 字摘要)中观察到了更好的相关性(> 0.70)。ROUGE 测量的相对性能与 100 词多文档摘要任务的模式相同。

表 3:在 DUC 2001、2002 和 2003 多文档摘要任务中,17 项 ROUGE 测量得分与人判断的皮尔逊相关性

将表 3 中的结果与表 1 和表 2 进行比较,我们发现除了长摘要任务外,多文档任务中的相关值很少达到 90% 以上。造成这种结果的一个可能原因是我们在多文档任务中没有大量的样本。在单文档摘要任务中,我们有 100 多个样本;而在多文档任务中,我们只有大约 30 个样本。唯一超过 30 个样本的任务来自 DUC 2002,在 100 词摘要任务中,ROUGE 测量与人类判断的相关性比 DUC 2001 和 2003 中的类似任务要好得多,也更稳定。由于缺乏样本,可能无法获得统计上稳定的人类对系统性能的判断,这反过来又造成了相关性分析的不稳定性。

7. Conclusions

在本文中,我们介绍了用于总结摘要的自动评估软件包 ROUGE,并使用三年的 DUC 数据对 ROUGE 软件包中的自动测量方法进行了全面评估。为了检验结果的显著性,我们使用引导重采样法估计了相关性的置信区间。我们发现:

  1. ROUGE-2、ROUGE-L、ROUGE-W 和 ROUGE-S 在单篇文档摘要任务中表现出色;

  2. ROUGE-1、ROUGE-L、ROUGE-W、ROUGE-SU4 和 ROUGE-SU9 在评估非常短的摘要(或类似标题的摘要)时表现出色

  3. ROUGE-1 和 ROUGE-S 在多文档摘要任务中很难达到 90% 以上的相关性、ROUGE-1、ROUGE-2、ROUGE-S4、ROUGE-S9、ROUGE-SU4 和 ROUGE-SU9 在排除停止词匹配的情况下工作得相当好

  4. 排除 stopwords 通常会提高相关性

  5. 使用多个参考文献会提高与人类判断的相关性

总之,我们证明了 ROUGE 软件包可以有效地用于摘要的自动评估。在另一项研究中(Lin 和 Och,2004 年),我们发现了 ROUGE 软件包在自动评估摘要中的应用、在机器翻译的自动评估中,ROUGE-L、W 和 S 也被证明非常有效。作者在(Lin,2004)中报告了 ROUGE 在不同样本量下的稳定性和可靠性。然而,如何在多文档摘要任务中实现与人类判断的高度相关性,就像 ROUGE 在单文档摘要任务中已经做到的那样,仍然是一个开放的研究课题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2220473.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Java微信小程序的的儿童阅读系统的详细设计和实现(源码+lw+部署文档+讲解等)

详细视频演示 请联系我获取更详细的演示视频 项目运行截图 技术框架 后端采用SpringBoot框架 Spring Boot 是一个用于快速开发基于 Spring 框架的应用程序的开源框架。它采用约定大于配置的理念,提供了一套默认的配置,让开发者可以更专注于业务逻辑而不…

WebGoat SQL Injection (intro) 源码分析

首先了解 java 中 mysql 的连接:java连接Mysql WebGoat SQL Injection (intro) 10 根据提示:下面两个输入框只有一个受到 sql 注入攻击。题目要求是检索到所有数据 发现请求路径为 SqlInjection/assignment5b 定位到所在文件如下,根据代码…

基于递推式最小二乘法的PMSM参数辨识MATLAB仿真模型

微❤关注“电气仔推送”获得资料(专享优惠) 模型简介 最小二乘法是一种回归估计法,适用于被辨识的参数与系统输出为线性关 系的情况。它是在一定数据量下,基于系统输出误差的平方和最小的准则对参 数进行辨识的方法。此模型通过…

使用Flask实现本机的模型部署

前言 模型部署是指将大模型运行在专属的计算资源上,使模型在独立的运行环境中高效、可靠地运行,并为业务应用提供推理服务。其目标是将机器学习模型应用于实际业务中,使最终用户或系统能够利用模型的输出,从而发挥其作用。 一、设…

unity 屏幕波动反馈打击效果(附资源下载)

unity 屏幕波动反馈打击效果 一枪打出去整个屏幕都回波动的效果反馈。 知识点: 1、动画事件 2、屏幕后处理 效果如图:(波动速度浮动都可调整) 附件下载

TH-OCR:高效的文字识别工具与护照阅读器的完美结合

在数字化的时代,高效准确的文字识别工具变得越来越重要。今天我要给大家介绍一下 TH-OCR。 TH-OCR 是一款功能强大的文字识别软件,它能够快速准确地识别各种文档中的文字,大大提高了工作效率。 而其中,TH-OCR 在护照阅读器方面的应…

Gitlab 完全卸载–亲测可行

1、停止gitlab gitlab-ctl stop2.卸载gitlab(注意这里写的是gitlab-ce) rpm -e gitlab-ce 3、查看gitlab进程 ps aux | grep gitlab 4、杀掉第一个进程(就是带有好多.............的进程) 5、删除所有包含gitlab文件 find / …

工业自动化为什么依赖光耦隔离器 --- 腾恩科技

光耦合器隔离器在工业自动化中必不可少,可确保信号传输,同时保护敏感电子设备和人员免受高压影响。选择合适的光耦合器隔离器取决于对操作环境和隔离要求的了解。本文将重点介绍在为工业应用选择光耦合器隔离器时需要考虑的关键因素。 光耦合器隔离器在工…

电影评论网站开发:Spring Boot技术指南

3系统分析 3.1可行性分析 通过对本电影评论网站实行的目的初步调查和分析,提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本电影评论网站采用SSM框架,JAVA作为开发语言&#…

python获取当前鼠标位置的RGB值

效果 依赖 pip install Pillow pyautoguisudo apt install gnome-screenshot代码 import pyautogui import timedef get_rgb_at_mouse():try:while True:# 获取当前鼠标的位置x, y pyautogui.position()# 截取当前屏幕图像screenshot pyautogui.screenshot()# 获取鼠标位置…

【C语言备课课件】(下)指针pointer

目录 定义type *var_name;初始化int *p &a; // p指向变量a的地址 空指针NULL,野指针,指针悬挂 解引用指针的算术运算指针与数组 数组名—首指针二维数组指针 行指针列指针 多级指针(进阶)数组指针,指针数组(进阶&#xff09…

ZYNQ:流水灯实验

实验目的 PL_LED0 和 PL_LED1 连接到 ZYNQ 的 PL 端,PL_LED0 和 PL_LED1循环往复产生流水灯的效果,流水间隔时间为 0.5s。 原理图 程序设计 本次实验是需要实现两个LED的循环熄灭点亮,时间间隔是0.5S,对时间间隔的控制使用计数器来完成。本…

改变函数调用上下文:apply与call方法详解及实例

目录 改变函数调用上下文:apply与call方法详解及实例 一、什么是 apply 方法? 1、apply 语法 2、apply 示例 二、什么是 call 方法? 1、call 语法 2、call 示例 三、apply 和 call 的共同与差异 1、apply 和 call 的共同点 2、apply…

一文读懂什么是数据即产品(Data as a Product,DaaP)

企业每天都要产生并消费大量数据,但如果这些数据一直保持在原始格式,就很难真正应用起来。因此,为了充分发挥数据的最大潜力,必须改变组织内部处理数据的方式。 “数据即产品”(DaaP)就是这样一种思维方式…

ERROR [internal] load metadata for docker.io/library/nginx:latest

docker执行错误解决方法 1、执行docker pull nginx2、docker build -t xxx:xx

RISC-V笔记——显式同步

1. 前言 RISC-V的RVWMO模型主要包含了preserved program order、load value axiom、atomicity axiom、progress axiom和I/O Ordering。今天主要记录下preserved program order(保留程序顺序)中的Explicit Synchronization(显示同步)。 2. 显示同步 显示同步指的是&#xff1a…

02篇 机械考研复试简历保姆级教程,考研简历联系导师邮件复试调剂超全攻略 导师喜欢看到的简历(附模板)

考研复试简历怎么写?导师喜欢看到的简历(附模板) 复试简历,重要程度max!绝非小事一桩!它就像是你硬核经历的闪亮外衣,条理清晰、逻辑严谨且设计感十足,一定能在导师心中留下深刻印象…

微信小程序-自定义组件

文章目录 微信小程序-自定义组件概述创建和使用数据、方法和属性slot 插槽默认插槽具名插槽 组件样式注意项样式隔离 数据监听组件间通信父传子子传父获取子组件实例 生命周期组件的生命周期组件所在页面的生命周期App、Page与Component生命周期对比冷启动保留当前页面和关闭当…

极氪汽车困局:营销频繁车、产品力不足

“ 极氪汽车的“车上吃火锅”营销活动虽登上热搜,但因频繁忽视老用户和产品力不足的争议,并未赢得消费者好感,反而加剧负面印象。 ” 科技新知 原创 作者丨颜瞾 编辑丨蕨影 近日,背靠吉利集团的极氪…

信息安全工程师(60)计算机病毒分析与防护

计算机病毒分析 介绍 计算机病毒是一种人为制造的程序,它通过不同的途径潜伏或寄生在存储媒体(如磁盘、内存)或程序里。当某种条件或时机成熟时,它会自生复制并传播,使计算机的资源受到不同程度的破坏。 定义&#xf…