大模型有哪些评估指标?

news2024/9/21 6:06:50

1. 导入

你可能听说过A大模型比B大模型好,但你知道如何评估这些模型吗?在大模型领域,有许多指标可以帮助我们评估模型的性能。这些指标可以帮助我们了解模型的准确性、效率和可解释性。在本文中,我们将介绍一些常用的指标,以及如何使用它们来评估模型的性能。

  • 在训练大模型的时候,我们需要一个目标函数(损失函数)来指导大模型进行梯度下降;
  • 训练后,我们会使用Bleu或者Rouge等指标来评估模型的性能;
  • 在正式发布前,我们会使用各种Benchmarks来评估模型的性能,如GLUE、SuperGLUE、SQuAD、CoLA等;
  • 最后,我们会在竞技场上与其他模型进行比较,以确定模型的性能。

下面,我们分别从这四个方面来介绍LLM的评估指标。

2. Cross Entropy 交叉熵

请添加图片描述

熵(Entropy)是一个物理学和信息论中非常重要的概念,它最初来自热力学第二定律,用来描述系统的无序程度或能量分布的均匀性。在不同的学科领域,熵有着不同的含义和应用:

  • 热力学中的熵:热力学中的熵是一个状态函数,表示系统的能量分布的无序性。一个系统的熵增加通常表示系统变得更加无序。热力学第二定律表明,封闭系统的熵总是倾向于增加,直至达到热力学平衡;

  • 信息论中的熵:克劳德·香农将熵的概念引入信息论,定义为信息的不确定性度量。在信息论中,熵用来量化信息的预期值,一个信息源的熵越高,其包含的信息就越不确定,信息内容的不确定性越大;

  • 统计学和概率论中的熵:在统计学和概率论中,熵可以被看作是随机变量不确定性的度量。如果一个随机变量的可能结果是完全等可能的,那么它的熵就达到最大值。

熵的数学定义通常如下:

  • 对于离散随机变量 X ,其概率分布为 P(x) ,熵 H(X) 的定义为:
    $ H(X) = -\sum_{x} P(x)log_b P(x) $

  • 对于连续随机变量 X ,其概率密度函数为 p(x) ,熵 H(X) 的定义为:
    $ H(X) = -\int p(x)log_b p(x)dx$

在这两个公式中 b 是对数的底数,常用的底数是 2,此时熵的单位是比特bit。

文学作品的熵

很多文学作品中也有“熵”的影子,比如天下霸唱的《地底世界》的幕后大Boss就是“熵”,《地底世界》是天下霸唱继《鬼吹灯》之后的又一部长篇系列探险小说。它讲述了名不见经传的主人公跟随一支肩负神秘使命的探险队深入地下世界,由此展开了一段惊心动魄的死亡之旅。作者天下霸唱被称为中国最具想象力的作家,具有强劲的市场号召力,作品故事精彩,包罗万象,引人入胜。

请添加图片描述

交叉熵

交叉熵(Cross-Entropy)是机器学习和信息理论中的一个重要概念,常用于衡量两个概率分布之间的差异。在分类问题中,交叉熵通常用于评估模型的预测结果与实际标签之间的差异。

交叉熵的公式通常表示为:

H ( p , q ) = − ∑ i p ( i ) log ⁡ q ( i ) H(p, q) = -\sum_{i} p(i) \log q(i) H(p,q)=ip(i)logq(i)

其中:
p 是实际的概率分布;
q 是预测的概率分布;
i 是类别索引。

在二分类问题中,交叉熵损失函数的公式可以简化为:

H ( p , q ) = − [ p log ⁡ q + ( 1 − p ) log ⁡ ( 1 − q ) ] H(p, q) = -[p \log q + (1 - p) \log (1 - q)] H(p,q)=[plogq+(1p)log(1q)]

其中:
p 是实际标签(0 或 1);
q 是模型预测的概率。

在多分类问题中,交叉熵损失函数的公式为:

H ( p , q ) = − ∑ i = 1 N p i log ⁡ q i H(p, q) = -\sum_{i=1}^{N} p_i \log q_i H(p,q)=i=1Npilogqi

其中:
N 是类别的数量。
p_i是实际类别 i 的概率(通常为 0 或 1)。
q_i是模型预测类别 i 的概率。

perplexity

Perplexity字面意思是困惑度,是度量语言模型好坏的一种metric。它的取值范围是1-可选字典长度,困惑度的意思是语言模型在做next-token-prediction的时候,有多困惑。比如Perplexity=81,意味着模型在做下一个token预测的时候,要从81个候选字中选出正确答案,模型的困惑度为81。

给定测试集W = w1,w2,w3,…wm

困惑度定义为测试集的概率的倒数,并用单词数做归一化。

请添加图片描述

第一个单词的概率是p(w1),第二个是p(w2),第m个是p(wm),PP(W)就等于这些概率倒数的几何平均。

Perplexity的另一种解释

假设我有1个红球,80个黑球,获取到红球的概率就是1/81,也代表要从81个里面找到正确的(倒数),困惑度就是81。

1个红球代表正确的单词,80个黑球代表模型的能力,模型能力越强,越能把黑球排除干净。最强的模型是只有一个红球没有黑球----困惑度为1。

3. Bleu Score & Rouge Score

在NLP领域,直接使用precision、recall和F1-score等传统的评价指标往往无法很好地评估生成式模型的性能,因为生成式模型的输出是自然语言文本,不同的文本可能有不同的表达方式,但意思相同。因此,需要一些特定的评价指标来评估生成式模型的性能。

请添加图片描述

BLEU(Bilingual Evaluation Understudy)和ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是自然语言处理中用于评估机器翻译和文本摘要的两个重要指标。

BLEU 是一种基于n-gram的评估方法,通过比较机器翻译输出与一组参考翻译之间的重叠度来评估翻译质量。BLEU的核心在于计算候选翻译与参考翻译中相同n-gram的数量,并给予较高的权重。它的优点是简单易用,能够快速评估翻译文本的质量,但它对翻译的语义相似度不太敏感,容易受到n元语法覆盖率的影响。
请添加图片描述

ROUGE 则是基于召回率的评估指标,主要用于自动文摘和机器翻译的质量评估。ROUGE通过比较生成的摘要或翻译与参考摘要或翻译之间的n-gram重叠度来评估生成结果的质量。ROUGE包括多个变体,如ROUGE-N(基于n-gram的召回率)、ROUGE-L(基于最长公共子序列的评估)等。ROUGE的优点是更注重语义相似度,但在评估时计算复杂度较高,对句子结构差异较为敏感。

N-gram

N-gram是自然语言处理中常用的一种特征表示方法,它将文本分割成长度为N的连续子序列,并将这些子序列作为特征。N-gram模型通常用于语言建模、文本分类、机器翻译等任务中。

单个词称为unigram,两个词组成的序列称为bigram,多个词组成的序列称为n-gram。

请添加图片描述

Rouge-N
ROUGE-N基于n-gram的重叠来计算,其中"N"指的是n-gram的大小,即连续的N个元素(通常是单词)序列。

ROUGE-N的计算方法主要关注召回率,即系统生成的文本中有多少n-gram也出现在参考文本中.

请添加图片描述

Rouge-L
ROUGE-L是基于最长公共子序列(Longest Common Subsequence)的评估方法,它考虑了系统生成的文本和参考文本之间的最长公共子序列。

请添加图片描述

4. Benchmarks

大模型的benchmarks,即基准测试,是用来评估和比较大型语言模型(LLM)性能的标准测试集和指标。这些基准测试可以全面地评估模型在不同领域和任务上的能力,包括但不限于知识理解、逻辑推理、多轮对话、编程能力等。

例如,General Language Understanding Evaluation (GLUE) benchmark 是一个著名的自然语言理解评估集合,包含多个任务,并使用不同的数据集来评估模型在各种文本类型和难度级别上的表现。

在中文领域,有专门针对中文大模型的基准测试,如CMMLU,它包含67个不同学科的题目,覆盖自然科学、社会科学、工程、人文和常识等,旨在全面评估模型在中文知识储备和语言理解上的能力。

此外,还有一些基准测试专注于特定领域,比如MathEval,它是一个全面评估大模型数学解题能力的测评基准,包含20个数学领域测评集和近30K道数学题目,覆盖从算术到高等数学的多个分支。

请添加图片描述

5. Arena

说到Arena,最先想到的是什么?

请添加图片描述

大模型竞技场是一个为LLM提供的性能比较平台,它允许不同来源的大型模型在相同的任务和数据集上进行测试,以评估和比较它们的性能。这种竞技场可以为研究人员、开发人员以及最终用户提供一个直观的方法来衡量和选择最优的AI服务。

如LMSys Chatbot Arena Leaderboard这样的评测排行榜,它采用众包的方式对大模型进行匿名评测,用户可以输入问题,然后由一个或多个匿名的大模型同时返回结果,用户根据自己的期望对效果进行投票,最终形成不同的大模型众包的评测结果。

请添加图片描述

参考

[1] LMSYS Chatbot Arena Leaderboard

[2] deeplearning.ai

[3] GitHub: LLMForEverybody

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2097679.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

卡尔曼滤波实现一阶马尔可夫形式的滤波|价格滤波|MATLAB代码|无需下载,复制后即可运行

一节马尔可夫 一阶马尔可夫噪声是一种具有马尔可夫性质的随机过程。在这种噪声中,当前时刻的状态只与前一时刻的状态有关,与更早的状态无关。 一阶马尔可夫噪声可以用一个状态转移矩阵表示,矩阵的每个元素表示从一个状态转移到另一个状态的概率。 滤波模型 状态量的迭代…

CleanClip for Mac v2.2.0 剪贴板历史管理软件正式激活版

CleanClip 是一款专为 Mac 用户设计的强大剪贴板历史管理工具。它能够自动保存您复制的内容,让您轻松访问和管理剪贴板历史记录,大大提高工作效率。 下载地址:CleanClip for Mac v2.2.0 剪贴板历史管理软件正式激活版 主要特点 自动保存剪贴板历史 CleanClip 会自…

作为HR如何做候选人的背景调查

如果HR想更进一步解决背景调查难题,可以先建立一套规范的调查流程,这样能够大大节约时间。在这套流程中要包括明确调查的内容,比如个人学历,工作经历,资质证书等等,只要是和岗位招聘相关的信息都需要全面覆…

SAP B1 三大基本表单标准功能介绍-物料主数据(中)

背景 在 SAP B1 中,科目表、业务伙伴主数据、物料主数据被称为三大基本表单,其中的标准功能是实施项目的基础。本系列文章将逐一介绍三大基本表单各个字段的含义、须填内容、功能等内容。 附上 SAP B1 10.0 的帮助文档:SAP Business One 10…

【软件测试专栏】软件测试 — BUG篇

博客主页:Duck Bro 博客主页系列专栏:软件测试专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ 软件测试 — BUG篇 关键词:bug、bug生命周期、bug级别…

解析C++内联函数与auto关键字

🌈个人主页:Yui_ 🌈Linux专栏:Linux 🌈C语言笔记专栏:C语言笔记 🌈数据结构专栏:数据结构 🌈C专栏:C 文章目录 1. 内联函数1.1 概念1.2 内联的特性1.3 内联与…

YOLOv8改进 | 模块缝合 | C2f融合PKINet提升遥感图像的检测性能【完整代码】

秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 专栏目录 :《YOLOv8改进有效…

MySQL系列—7.内存结构

目录 1.Buffer Pool 2.Redo Log Buffer 3.change buffer InnoDB内存结构主要分为4个部分: Buffer Pool Change Pool #写缓存 Log Buffer #日志缓存 Adaptive Hash Index #自适应hash索引 1.Buffer Pool 也是B树结构 1.当读一条数据时,会先检查是…

去中心化身份验证:Web3时代数字身份的革新

随着Web3时代的到来,去中心化技术正在重新定义数字身份验证的方式。传统的身份验证方法常常依赖于中心化的数据库和中介机构,这些系统不仅易受攻击,还可能侵犯用户的隐私。而去中心化身份验证(DID, Decentralized Identifier&…

SDN与SD-WAN:共同点和区别分析

软件定义网络(SDN)是一种革新性的网络架构,而软件定义广域网(SD-WAN)则是基于SDN技术发展而来的网络解决方案。两者有许多共同点,但它们之间也存在显著差异。本文将详细分析SDN与SD-WAN的共同和区别。 SDN的…

cv2.error: OpenCV(4.10.0) :-1: error: (-5:Bad argument) in function ‘resize‘

cv2.error: OpenCV(4.10.0):-1: error: (-5:Bad argument)in function resize 安装好Echomimic之后,上传图片和音频进行生成视频的时候报错了,在服务器端查看报错信息如下: 解决方法&#xff1a…

uniapp / uniapp x UI 组件库推荐大全

在 uniapp 开发中,我们大多数都会使用到第三方UI 组件库,提起 uniapp 的UI组件库,我们最常使用的应该就是uview了吧,但是随着日益增长的需求,uview 在某些情况下已经不在满足于我们的一些开发需求,尽管它目…

在线压缩pdf,无需安装就可轻易压缩pdf文件

PDF文件因其跨平台兼容性和良好的阅读体验,成为工作学习中不可或缺的一部分。然而,随着文件体积的增大,如何有效压缩PDF文件成为了许多人的迫切需求。很多小伙伴想要通过在线的方式来压缩PDF文件,下面给大家分享一种在线压缩方法&…

前端布局利器:Flex布局

曾经的我们使用传统布局方式,我们深刻的体会着1px除不尽,三等分,居中,塌陷等等让我们升血压的问题。传统的布局方式:布局繁琐,需要使用大量的HTML和CSS代码来实现简单的布局。灵活性差,难以实现…

腾讯视频:让自媒体创作者“怀才有遇”

在这个信息快速流通的自媒体时代,时间变得越来越碎片化,短剧、短番与短节目则凭借着短小精悍、内容紧凑的特点,完美契合了碎片化的时间消费习惯。这些短的内容被观众喜爱的同时,也让许多自媒体创作者找到了致富之路。 相对于大IP…

Redis Desktop Manager 0.8.8.384 安装与使用详解

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「storm…

【软件安装】PyCharm安装教程(MAC)

一、准备阶段 准备软件安装包和jetbrains crack 包 二、软件安装 (1)运行pycharm安装包 等待程序运行 (2)运行jetbrains crack 安装包 运行补丁安装 (3)打开pycharm软件 等待系统验证后,打开…

【路径规划】移动机器人路径规划算法的实现

摘要 本文实现了移动机器人路径规划算法,包括Dijkstra、A*和基于无向图的动态规划算法。通过在复杂障碍环境中测试这些算法,评估了它们在路径最优性、计算效率和适应性方面的性能。本文提出的算法结合了不同的启发式和优化策略,为机器人路径…

kubectl的deployment和service

目录 概念 kubectl的基础命令 *每天常用的查看集群的基本信息 deployment的部署方式 deployment 的特点 基于deployment创建pod 手动缩容 service的类型以及工作原理 创建service service的类型 修改service的类型为nodeport **nodeport实验:对外暴露端…

产品网络低价乱价,有哪些控价方法?

电商平台的兴起让产品销售渠道更加多元化,但同时也带来了价格混乱的问题。产品网络低价现象频发,不仅扰乱了市场秩序,损害了品牌形象, 还严重影响了正规渠道经销商的利益。针对这一问题,产品控价成为了企业和品牌方亟待…