生成式语言模型的文本生成评价指标(从传统的基于统计到现在的基于语义)

news2024/11/5 17:24:51

文本生成评价指标

所有评价指标的鼻祖，核心思想是比较候选译文和参考译文里的 n-gram 的重合程度，重合程度越高就认为译文质量越高。

unigram 用于衡量单词翻译的准确性，高阶 n-gram 用于衡量句子翻译的流畅性。

ROUGE 是 BLEU 的改进版，从名字上可以看出，他专注于召回率而非精确率。

即，他会查看有多少个参考译文中的 n 元词组出现在输出中。

ROUGE 大致分为四种(前两种常用)
- ROUGE-N(将 BLEU 的精确率优化为召回率)
- ROUGE-L(将 BLEU 的 n-gram 优化为公共子序列)
- ROUGE-W(将 ROUGE-L 的连续匹配给予更高的奖励)
- ROUGE-S(允许 n-gram 出现跳词(skip))
初衷
- 在 SMT(统计机器翻译) 时代，机器翻译效果很差，需要同时评价翻译的准确度和流畅度。
- 在 NMT(神经网络机器翻译) 时代，神经网络能力很强，翻译的结果大多都是通顺的，但是可能会一本正经的胡说八道
- ROUGE 的出现是为了解决 NMT 的漏翻问题(低召回率)。所以 ROUGE 只适合评价 NMT，不适用于 SMT，因为他不评价译文的流畅与否。

它也可以用来比较两个语言模型在预测样本上的优劣。

低困惑度的概率分布模型或概率模型能更好地预测样本。

$PPL(W)=P(w_1w_2...w_N)^{-\frac1N}$

核心思想：对两个生成句和参考句(WordPiece 进行 tokenize) 分别用 BERT 提取特征，然后对两个句子的每个词分别计算内积，得到一个相似性矩阵。基于这个矩阵，可以分别对参考句和生成句做一个最大相似性得分的累加然后归一化，得到 $BERT_{score}$ 的 precision 、 recall 和 F1

$R_{BERT}=\frac1{|x|}\sum_{x_i \in x} \max_{\hat{x}_j \in \hat{x}}x_i^T\hat{x}_j\\ P_{BERT}=\frac1{|\hat x|}\sum_{\hat x_j \in \hat x} \max_{x_i \in x}x_i^T \hat x_j\\ F_{BERT}=2\frac{P_{BERT}·R_{BERT}}{P_{BERT}+R_{BERT}}$

BLEU
- 优点：计算速度，适合评估机器翻译等文本生成任务的准确性。依赖于 n-gram 匹配，所以对短文本评价友好
- 缺点：无法衡量语义，容易惩罚语义合理的表示；对自由度较高的生成任务表现不佳
- 使用场景：机器翻译、文本摘要，尤其是目标文本相对固定的情形
ROUGE
- 优点：对文本摘要任务适用，尤其是 ROUGE-L 可识别长的匹配序列，适合评估摘要生成中较长的语义片段
- 缺点：依赖表层匹配，缺乏对语义的深层次理解
- 使用场景：在摘要生成任务中表现良好
PPL
- 优点：可量化生成文本的流畅度，适合语言模型的评估
- 缺点：与人类理解不直接相关；低的 PPL 不保证高质量文本。
- 使用场景：适用于评估语言模型在训练数据上的拟合程度，对生成模型的流畅度衡量有效
$BERT_{score}$
- 优点：基于 BERT 等预训练模型，能捕获词汇和语义的相似度，弥补了传统表层指标的不足；对重组、同义表达的容忍度更高
- 缺点：计算较慢，依赖模型的复杂度；性能依赖于使用的预训练模型
- 使用场景：适合需要语义理解的生辰任务，如开放式问答和文本生成任务，在多样化表达中优异。
总结
- $B L E U$ 和 $RO U GE$ 更适合传统的，较为结构化的生成任务
- PPL 适合流畅度的评估
- $BERT_{score}$ 适合更深层次的语义对齐场景