【NLP】训练chatglm2的评价指标BLEU，ROUGE

news2025/2/22 18:23:21

衡量模型输出的描述语句的准确性，因为衡量的对象是一个个的自然语言文本，所以通常会选择自然语言处理领域的相关评价指标。这些指标原先都是用来度量机器翻译结果质量的，并且被证明可以很好的反映待评测语句的准确性，主要包含4种：BLEU，METEOR，ROUGE，CIDEr。
本文只介绍BLEU，ROUGE两个指标，其他待补充。

1、BLEU

BLEU(Bilingual Evaluation understudy，双语互译质量评估)是一种流行的机器翻译评价指标，一种基于精确度的相似度量方法，用于分析候选译文中有多少 n 元词组出现在参考译文中（就是在判断两个句子的相似程度）
BLEU有许多变种，根据n-gram可以划分成多种评价指标，常见的评价指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种，其中n-gram指的是连续的单词个数为n，BLEU-1衡量的是单词级别的准确性，更高阶的BLEU可以衡量句子的流畅性。

假设， $c_i$ 表示候选译文（也就是GT），该候选译文对应的一组参考译文（也就是模型预测出来的语句）可以表示为 $\mathrm{S_{i}=\{s_{i1},s_{i2},\ldots,s_{im}\}}$ ；将候选译文 $c_i$ 中所有相邻的 n 个单词提取出来组成一个集合 $n - g r am$ ，一般取 $n = 1, 2, 3, 4$ ；用 $\omega_k$ b=表示 $n - g r am$ 中的第 $k$ 个词组， $h_k(c_i)$ 表示第k个词组 $\omega_k$ 在候选译文 $c_i$ 中出现的次数， $h_k(s_{ij})$ 表示第 $k$ 个词组 $\omega_k$ ，在参考译文 $s_{ij}$ 中出现的次数。此时，在n-gram下，参考译文和候选译文 $c_i$ 的匹配度计算公式可以表示为：
$\mathrm{p_n}\left(\mathrm{c_i},\mathrm{S}\right)=\frac{\sum_{\mathrm{k}}\min\left(\mathrm{h_k}\left(\mathrm{c_i}\right),\max_{\mathrm{j}\in\mathrm{m}}\mathrm{h_k}\left(\mathrm{s_{ij}}\right)\right)}{\sum_{\mathrm{k}}\mathrm{h_k}\left(\mathrm{c_i}\right)}$

举例说明：
candidate：The cat sat on the mat.
reference：The cat is on the mat

$(candidate\text{和}reference\text{中匹配的}n-gram\text{的个数})/candidate\text{中}n-gram\text{的个数}$
在这里插入图片描述
一般来说, n 取值越大，参考译文就越难匹配上，匹配度就会越低. $1 - g r am$ 能够反映候选译文中有多少单词被单独翻译出来，也就代表了参考译文的充分性； $2 - g r am$ 、 $3 - g r am$ 、 $4 - g r am$ 值越高说明参考译文的可读性越好，也就代表了参考译文的流畅性。
当参考译文比候选译文长（单词更多）时，这种匹配机制可能并不准确，例如上面的参考译文如果是The cat，匹配度就会变成1，这显然是不准确的；为此我们引入一个惩罚因子。
$BP(c_i,s_{ij}) = \left\{\begin{matrix} 1\quad ,\quad l_{ci}>l_{s_{ij}} \\ {e^{l-\frac{l_{s_{ij}}}{l_{c_i}}},\quad l_{ci}~\leq l_{sij}} \end{matrix}\right.$
l 表示各自的长度。最终，BLEU的计算公式就是
$\mathrm B\mathrm L\mathrm E\mathrm U=\mathrm B\mathrm P\cdot\exp\left(\sum_{\mathrm n=1}^N\mathrm w_n\log\mathrm p_\mathrm n\right)$
$w_n$ 代表每一个 n-gram 的权重，一般 $n$ 最大取4，所以 $w_n = 0.25$ 。

BLEU 更偏向于较短的翻译结果，它看重准确率而不注重召回率（n-gram 词组是从候选译文中产生的，参考译文中出现、候选译文中没有的词组并不关心）；原论文提议数据集多设置几条候选译文，4条比较好，但是一般的数据集只有一条。

2、ROUGE

BLEU 是统计机器翻译时代的产物，因为机器翻译出来的结果往往不通顺，所以BLEU更关注翻译结果的准确性和流畅度；到了神经网络翻译时代，神经网络很擅长脑补，自己就把语句梳理得很流畅了，这个时候人们更关心的是召回率，也就是参考译文中有多少词组在候选译文中出现了。
ROUGE（recall-oriented understanding for gisting evaluation）就是这样一种基于召回率的相似性度量方法，主要考察参考译文的充分性和忠实性，无法评价参考译文的流畅度，它跟BLEU的计算方式几乎一模一样，但是 n-gram 词组是从参考译文中产生的。分为4种类型：

ROUGE	解释
ROUGE-N	基于 N-gram 的共现（共同出现）统计
ROUGE-L	基于最长共有子句共现性精度和召回率 Fmeasure 统计
ROUGE-W	带权重的最长共有子句共现性精度和召回率 Fmeasure 统计
ROUGE-S	不连续二元组共现性精度和召回率 Fmeasure 统计