1 介绍
- bleu是一种文本评估算法,它是用来评估机器翻译跟专业人工翻译之间的对应关系
- 核心思想就是机器翻译越接近专业人工翻译,质量就越好,经过bleu算法得出的分数可以作为机器翻译质量的一个指标
2 BLEU原理
2.1 N-gram
- BLEU采用了N-gram匹配规则,通过它算出比较译文和参考译文之间n组词的相似的一个占比
2.1.1 举例
原文: 猫坐在垫子上
机器翻译:The cat sat on the mat.
人工翻译:The cat is on the mat.
1-gram | 机器翻译6个词,有5个词命中参考以为,那么它的匹配度为 5/6 |
2-gram | 2元词组的匹配度则是 3/5 |
3-gram | 3元词组的匹配度是1/4 |
4-gram | 4元词组的匹配情况没有,为0 |
2.1.2 n-gram不行的情况
原文:猫坐在垫子上
机器译文: the the the the the the the.
参考译文:The cat is on the mat.
此时 1-gram会把所有the都算上,匹配度为7/7
——>在BLEU中,进行了一定的修改
按照这种算法,出现次数是7,参考中最大出现次数是2
——>取最小值之后,1-gram为2/7
2.1.3 不同n-gram的加和
2.2 惩罚因子
还有一种反例情况:如果机翻的句子过短会怎么样?
机器译文:The cat
参考译文:The cat is on the mat.
只看n-gram的话,精度会很高,但实际上的得分应该是比较低的
——> BLEU引入了惩罚因子
2.3 最终的BLEU结果
3 举例
机器翻译:The cat sat on the mat.
人工翻译:The cat is on the mat