微调了一个垂直大模型,要判断其好坏,怎么做才算科学的?
一、客观测试集评测
训练的时候,就划分了训练集、验证集、测试集,6:3:1.
验证集用于观察有没有过拟合,一般来说是loss;测试集是在训练完成后测试模型的能力,可以自己设置各种指标。
在大模型微调后,使用测试集进行客观评测,一般来说是下面这样:
{
"predict_bleu-4": 27.806828685897436,
"predict_rouge-1": 36.388832131410254,
"predict_rouge-2": 13.097188060897436,
"predict_rouge-l": 24.604292788461535,
"predict_runtime": 2245.6039,
"predict_samples_per_second": 0.553,
"predict_steps_per_second": 0.035
}
1.BLEU-4
意义:BLEU (Bilingual Evaluation Understudy) 是一种常用的机器翻译质量评价指标。它通过计算生成文本和参考文本之间的 n-gram 精确度来衡量生成文本的质量。BLEU-4 特别关注 4-gram 的匹配情况,可以较好地反映句子的语法和流畅度。
2.ROUGE-1
意义:ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 用于评估生成文本和参考文本的覆盖度。ROUGE-1 计算的是 1-gram(即单个词)的召回率,反映了生成文本在多大程度上覆盖了参考文本中的词汇。
3.ROUGE-L
针对通用的,有很多客观测试集,司南提供了简便的使用,可以参考https://blog.csdn.net/qq_43814415/article/details/138289322
二、主观评测
客观评测虽然能够从指标上评断模型的各项知识、长文本等能力,但是无法贴近真实的场景。很多模型都号称在指标上逼近或超过gpt4,但是实际用下来很差。
主观评测的方式:
两个模型针对同一问题生成回复,人工选择。可以是计算正确率,还有elo分数。
竞技场Elo:利用Bradley-Terry模型,基于历史匿名对战数据估计的大模型竞技场Elo等级分数。
如:https://rank.opencompass.org.cn/leaderboard-arena