大模型有哪些评估指标？

1. 导入

你可能听说过A大模型比B大模型好，但你知道如何评估这些模型吗？在大模型领域，有许多指标可以帮助我们评估模型的性能。这些指标可以帮助我们了解模型的准确性、效率和可解释性。在本文中，我们将介绍一些常用的指标，以及如何使用它们来评估模型的性能。

在训练大模型的时候，我们需要一个目标函数（损失函数）来指导大模型进行梯度下降；
训练后，我们会使用Bleu或者Rouge等指标来评估模型的性能；
在正式发布前，我们会使用各种Benchmarks来评估模型的性能，如GLUE、SuperGLUE、SQuAD、CoLA等；
最后，我们会在竞技场上与其他模型进行比较，以确定模型的性能。

下面，我们分别从这四个方面来介绍LLM的评估指标。

2. Cross Entropy 交叉熵

熵

请添加图片描述

熵（Entropy）是一个物理学和信息论中非常重要的概念，它最初来自热力学第二定律，用来描述系统的无序程度或能量分布的均匀性。在不同的学科领域，熵有着不同的含义和应用：

热力学中的熵：热力学中的熵是一个状态函数，表示系统的能量分布的无序性。一个系统的熵增加通常表示系统变得更加无序。热力学第二定律表明，封闭系统的熵总是倾向于增加，直至达到热力学平衡；
信息论中的熵：克劳德·香农将熵的概念引入信息论，定义为信息的不确定性度量。在信息论中，熵用来量化信息的预期值，一个信息源的熵越高，其包含的信息就越不确定，信息内容的不确定性越大；
统计学和概率论中的熵：在统计学和概率论中，熵可以被看作是随机变量不确定性的度量。如果一个随机变量的可能结果是完全等可能的，那么它的熵就达到最大值。

熵的数学定义通常如下：

对于离散随机变量 X ，其概率分布为 P(x) ，熵 H(X) 的定义为：
$ H(X) = -\sum_{x} P(x)log_b P(x) $
对于连续随机变量 X ，其概率密度函数为 p(x) ，熵 H(X) 的定义为：
$ H(X) = -\int p(x)log_b p(x)dx$

在这两个公式中 b 是对数的底数，常用的底数是 2，此时熵的单位是比特bit。

文学作品的熵

很多文学作品中也有“熵”的影子，比如天下霸唱的《地底世界》的幕后大Boss就是“熵”，《地底世界》是天下霸唱继《鬼吹灯》之后的又一部长篇系列探险小说。它讲述了名不见经传的主人公跟随一支肩负神秘使命的探险队深入地下世界，由此展开了一段惊心动魄的死亡之旅。作者天下霸唱被称为中国最具想象力的作家，具有强劲的市场号召力，作品故事精彩，包罗万象，引人入胜。

请添加图片描述

交叉熵

交叉熵（Cross-Entropy）是机器学习和信息理论中的一个重要概念，常用于衡量两个概率分布之间的差异。在分类问题中，交叉熵通常用于评估模型的预测结果与实际标签之间的差异。

交叉熵的公式通常表示为：

$-\sum_{i} p(i) \log q(i)$

其中：
p 是实际的概率分布;
q 是预测的概率分布;
i 是类别索引。

在二分类问题中，交叉熵损失函数的公式可以简化为：

$\log q + (1 - p) \log (1 - q)]$

其中：
p 是实际标签（0 或 1）;
q 是模型预测的概率。

在多分类问题中，交叉熵损失函数的公式为：

$-\sum_{i=1}^{N} p_i \log q_i$

其中：
N 是类别的数量。
p_i是实际类别 i 的概率（通常为 0 或 1）。
q_i是模型预测类别 i 的概率。

perplexity

Perplexity字面意思是困惑度，是度量语言模型好坏的一种metric。它的取值范围是1-可选字典长度，困惑度的意思是语言模型在做next-token-prediction的时候，有多困惑。比如Perplexity=81，意味着模型在做下一个token预测的时候，要从81个候选字中选出正确答案，模型的困惑度为81。

给定测试集W = w1,w2,w3,…wm

困惑度定义为测试集的概率的倒数，并用单词数做归一化。

请添加图片描述

第一个单词的概率是p(w1),第二个是p(w2),第m个是p(wm),PP(W)就等于这些概率倒数的几何平均。

Perplexity的另一种解释

假设我有1个红球，80个黑球，获取到红球的概率就是1/81，也代表要从81个里面找到正确的（倒数），困惑度就是81。

1个红球代表正确的单词，80个黑球代表模型的能力，模型能力越强，越能把黑球排除干净。最强的模型是只有一个红球没有黑球----困惑度为1。

3. Bleu Score & Rouge Score

在NLP领域，直接使用precision、recall和F1-score等传统的评价指标往往无法很好地评估生成式模型的性能，因为生成式模型的输出是自然语言文本，不同的文本可能有不同的表达方式，但意思相同。因此，需要一些特定的评价指标来评估生成式模型的性能。

请添加图片描述

BLEU（Bilingual Evaluation Understudy）和ROUGE（Recall-Oriented Understudy for Gisting Evaluation）是自然语言处理中用于评估机器翻译和文本摘要的两个重要指标。

BLEU 是一种基于n-gram的评估方法，通过比较机器翻译输出与一组参考翻译之间的重叠度来评估翻译质量。BLEU的核心在于计算候选翻译与参考翻译中相同n-gram的数量，并给予较高的权重。它的优点是简单易用，能够快速评估翻译文本的质量，但它对翻译的语义相似度不太敏感，容易受到n元语法覆盖率的影响。
请添加图片描述

ROUGE 则是基于召回率的评估指标，主要用于自动文摘和机器翻译的质量评估。ROUGE通过比较生成的摘要或翻译与参考摘要或翻译之间的n-gram重叠度来评估生成结果的质量。ROUGE包括多个变体，如ROUGE-N（基于n-gram的召回率）、ROUGE-L（基于最长公共子序列的评估）等。ROUGE的优点是更注重语义相似度，但在评估时计算复杂度较高，对句子结构差异较为敏感。

N-gram

N-gram是自然语言处理中常用的一种特征表示方法，它将文本分割成长度为N的连续子序列，并将这些子序列作为特征。N-gram模型通常用于语言建模、文本分类、机器翻译等任务中。

单个词称为unigram，两个词组成的序列称为bigram，多个词组成的序列称为n-gram。

请添加图片描述