一:BLEU
1.1 BLEU 的全称是 Bilingual evaluation understudy,BLEU 的分数取值范围是 0~1,分数越接近1,说明翻译的质量越高。BLEU 主要是基于精确率(Precision)的,下面是 BLEU 的整体公式。
- BLEU 需要计算译文 1-gram,2-gram,...,N-gram 的精确率,一般 N 设置为 4 即可,公式中的 Pn 指 n-gram 的精确率。
- Wn 指 n-gram 的权重,一般设为均匀权重,即对于任意 n 都有 Wn = 1/N。
- BP 是惩罚因子,如果译文的长度小于最短的参考译文,则 BP 小于 1。
- BLEU 的 1-gram 精确率表示译文忠于原文的程度,而其他 n-gram 表示翻译的流畅程度。
参考:
机器翻译评价指标之BLEU详细计算过程_bleu4是20-CSDN博客
机器翻译, 文本生成等任务评价指标 BLEU, ROUGE, PPL(困惑度)_ppl困惑度升高-CSDN博客
【文本生成】评价指标:BERTScore-CSDN博客
BERTScore——一种衡量两段文本相似度的方法-CSDN博客