Image Caption评估指标深入理解

news2026/3/16 12:53:40

前言：刚开始做图像描述的任务就整理了这些评估指标，时间久远有点记不清怎么具体实现原理了，结果面试的时候就问了这个问题，没答上来，郁闷了很久，还是基础不扎实，浅浅记录一下

文章目录

BLEU
ROUGE
METEOR
CIDEr
参考

BLEU

BLEU(Biligual Evaluation understudy)：是一种用来评估机器翻译的评价指标，广泛出现在文本生成的论文当中，是一种基于单词精确度的度量方式。
BLEU采用一种 N-Gram 的匹配规则，具体来说就是比较生成文本和真实文本之间的 N组词的相似度
举个栗子：
有如下两个句子：
其中，真实值是you are a good man，预测值是good man is you

当使用1-Gram匹配时：

在不考虑语序的情况下，预测值4个词命中了真实文本的5个词，所以Score(1-gram)=4/5
当使用3-Gram匹配时：

可以看到预测值中有1个三元词汇命中了真实文本中的3个三元词汇，于是Score(3-gram)=1/3

BLEU还有许多变种。根据n-gram可以划分成多种评价指标，常见的指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种，其中n-gram指的是连续的单词个数为n。BLEU-1衡量的是单词级别的准确性，更高阶的bleu可以衡量句子的流畅性

BLEU的优点：

(1)速度快、成本低廉
(2)容易理解
(3)不受语种限制
(4)运用广泛
BLEU的缺点

BLEU的缺点：

(1)忽略同义词
(2)N-gram的机制会导致某项分数特别低
(3)BLEU不考虑意义
(4)BLEU不考虑句子的结构，很多时候，只要单词相同BLEU就会给出很高的分数
(5)BLEU不能够很好地处理形态丰富的语言
(6)BLEU与人类的判断并不相符合

ROUGE

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）也是评估自动文摘以及机器翻译的一组指标。ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要，是一种面向n元词召回率的评价方法。

基本思想：将模型生成的文本与人工生成的真实文本相对比，通过统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目，来评价生成文本的质量。

举个栗子：
机器生成的自动摘要：
the cat was found under the bed
人工生成的标准摘要：
the cat was under the bed
ROUGE-1的值可以很容易计算出来，生成的六个词六个词都是匹配的，所以score(ROUGE-1)=6/6，
这个值与召回率是一样的，也就是recall = 6/6，percision=6/7

ROUGE-2该如何计算？
自动摘要的Bigrams：
the cat, cat was, was found, found under, under the, the bed
标准摘要的Bigrams：
the cat, cat was, was under, under the, the bed
生成的十个词有八个（两个一组）是匹配的，故score(ROUGE-2)=4/5，也就是recall = 4/5。此时percision = 4/6

ROUGE-N优点:直观，简洁，能反映词序。
ROUGE-N缺点:区分度不高，且当N>3时，ROUGE-N值通常很小。

ROUGE准则由一系列的评价方法组成，包括ROUGE-N(N是n-gram中n，取值有1，2，3，4)，ROUGE-L，ROUGE-S, ROUGE-W，ROUGE-SU等。在自动文摘相关研究中，一般根据自己的具体研究内容选择合适的ROUGE方法。

METEOR

METEOR是一种用于评估文本生成任务，初是为机器翻译而开发的，现在广泛用于图像描述任务中。它基于单词级别的准确率和召回率，以及对词序的惩罚，来计算候选文本和参考文本之间的相似度。

METEOR的特点是它不仅考虑了单词的精确匹配，还考虑了词干、同义词和其他语言变体的匹配。它还使用了一个调和平均数来平衡准确率和召回率，以及一个罚分因子来惩罚不流畅或不连贯的文本。
计算公式：
在这里插入图片描述

其中P是准确率，R是召回率，Fmean是单元词组对齐后的准确率和召回率的调和平均，Pen是碎片度惩罚，计算如下：

m是生成文本中能够被匹配的一元词组的数量，ch是chunk 的数量，怎么理解这个chunk呢，看下面的例子：
在这里插入图片描述
预测值的一元词组数量 m=5,，按照匹配度被分成了三个 chunk，即ch=3
如果超参数 γ=1，β=2，那 Pen=1*(3/5)^2=0.36
召回率： P=匹配的单词数 / 真实文本的单词数=4/5=0.8
精确率： R=匹配的单词数 / 预测文本的单词数=4/5=0.8
假设超参数 α=0.5，则 Fmean=0.80.8/(0.50.8+0.5*0.8)=0.8
所以，最终的 METEOR=（1-0.36）*0.8=0.512

CIDEr

CIDEr是专门用于评价图像描述(image caption)任务的评价指标。相较于常用于文本翻译的评价指标BLEU、ROUGE来说，CIDEr更接近人类去判断两个句子是否相近的原理，因为它利用了TF-IDF来对不同n-gram去赋予不同的权重，直观的来说，即经常出现的词组的权重具有更低的权重，而不常出现的词组则更特殊（具有更大的权重），人们会更注意这些特殊的单词。

CIDEr是利用TF-IDF来给不同长度的n-gram赋予不同的权重，然后计算候选句子和参考句子的n-gram的余弦相似度，再取平均得到最终的评分，计算公式如下：
在这里插入图片描述
其中， c_i是候选句子， s_i 是参考句子集合，m是参考句子的数量，n是n-gram的长度， g_n( c_i)和 g_n( s_i) 是候选句子和参考句子的TF-IDF向量