『大模型笔记』评估大型语言模型的指标：ELO评分，BLEU，困惑度和交叉熵介绍以及举例解释

『大模型笔记』评估大型语言模型的指标：ELO评分，BLEU，困惑度和交叉熵介绍以及举例解释

news2026/2/12 19:44:33

评估大型语言模型的指标：ELO评分，BLEU，困惑度和交叉熵介绍以及举例解释

文章目录

一. ELO Rating
- 大模型的elo得分如何理解
- - 1. Elo评分的基本原理
  - 2. 示例说明
  - 3. 大模型中的Elo得分
  - 总结
- 3个模型之间如何比较计算，给出示例进行解释
- - 1. 基本原理扩展到三方
  - 2. 示例计算
  - 第一场： $A$ 对战 $B$
  - 第二场： $A$ 对战 $C$
  - 第三场： $B$ 对战 $C$
  - 3. 最终 Elo 得分
  - 4. 总结
- ELO评分的局限性
二. BLEU (Bilingual Evaluation Understudy，双语评估替代)
- - **BLEU计算步骤概述**
  - **详细解释**
  - - **1. n-gram匹配**
    - **2. 计算精确度（Precision）**
    - **3. 平均精确度（Precision Average）**
    - **4. 长度惩罚（Brevity Penalty, BP）**
    - **5. BLEU得分计算**
  - **示例**
  - **总结**
三. 困惑度(Perplexity)
- - **困惑度（Perplexity）的详细解释**
  - **1. 困惑度的定义**
  - - **公式中的符号解释**：
  - **2. 困惑度的直观理解**
  - **3. 计算困惑度的步骤**
  - **4. 困惑度的意义**
  - **5. 总结**
四. 交叉熵(Cross Entropy)
- - **交叉熵（Cross Entropy）详细解释**
  - **1. 交叉熵的定义公式**
  - **2. 交叉熵的作用**
  - **3. 示例计算**
  - **4. 在语言模型中的应用**
  - **5. 优化目标：最小化交叉熵**
  - **6. 交叉熵与困惑度的关系**
  - **总结**
三. 参考文献

ELO Rating, BLEU, Perplexity and Cross Entropy

ELO评分提供了一种动态和相对的LLM性能衡量标准，允许在模型进行训练和微调时进行持续评估和排名。聊天机器人领域使用ELO评分来促进LLM对战，并维护最有效模型的排行榜。

在这里插入图片描述

一. ELO Rating

大模型的elo得分如何理解

Elo得分是一个用于评估棋手或参与者相对能力的评分系统，最初由匈牙利裔美国人阿尔帕德·厄尔&#x

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2266825.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

使用VS Code开发ThinkPHP项目

使用VS Code开发ThinkPHP项目

【图书介绍】《ThinkPHP 8高效构建Web应用》-CSDN博客《ThinkPHP 8高效构建Web应用夏磊编程与应用开发丛书清华大学出版社》【摘要书评试读】- 京东图书 ThinkPHP 8开发环境安装-CSDN博客安装ThinkPHP项目的IDE 常用的集成开发环境（IDE）包括P…

阅读更多...

ROS1入门教程6：复杂行为处理

ROS1入门教程6：复杂行为处理

一、新建项目 # 创建工作空间 mkdir -p demo6/src && cd demo6# 创建功能包 catkin_create_pkg demo roscpp rosmsg actionlib_msgs message_generation tf二、创建行为 # 创建行为文件夹 mkdir action && cd action# 创建行为文件 vim Move.action# 定义行为…

阅读更多...

Java处理视频思路

Java处理视频思路

1.首先实现断点续传功能。断点续传实现思路： 前端对文件分块。前端使用多线程一块一块上传，上传前给服务端发一个消息校验该分块是否上传，如果已上传则不再上传。如果从该断点处断网了，下次上传时，前面的分块已经存在…

阅读更多...

C#实现调用DLL 套壳读卡程序（桌面程序开发）

C#实现调用DLL 套壳读卡程序（桌面程序开发）

背景正常业务已经支持读三代卡了，前端调用医保封装好的服务就可以了，但是长护要读卡，就需要去访问万达，他们又搞了一套读卡的动态库，为了能够掉万达的接口，就需要去想办法调用它们提供的动态库方法&…

阅读更多...

USB 状态机及状态转换

USB 状态机及状态转换

文章目录 USB 状态机及状态转换连接状态供电状态默认状态地址状态配置状态挂起状态USB 状态机及状态转换枚举完成之前，USB 设备要经过一系列的状态变化，才能最终完成枚举。这些状态是连接状态 - attached供电状态 - powered默认状态 - default地址状态 - address配置状态 -…

阅读更多...

QT线程 QtConcurrent (深入理解)

QT线程 QtConcurrent (深入理解)

QT多线程专栏共有16篇文章，从初识线程到、QMutex锁、QSemaphore信号量、Emit、Sgnals、Slot主线程子线程互相传值同步变量、QWaitCondition、事件循环、QObjects、线程安全、线程同步、线程异步、QThreadPool线程池、ObjectThread多线程操作、 moveToThread等线程操作进行了全…

阅读更多...

Linux-Ubuntu之串口通信

Linux-Ubuntu之串口通信

Linux-Ubuntu之串口通信一，串口通信1.串口通信寄存器配置2.串口通信软件实现①手动波特率②自动波特率③主函数二，printf和scanf实现串口的输入显示一，串口通信 1.串口通信寄存器配置串口通信利用接口是这个TTL，下载程序用的…

阅读更多...

阿尔萨斯(JVisualVM)JVM监控工具

阿尔萨斯(JVisualVM)JVM监控工具

文章目录前言阿尔萨斯(JVisualVM)JVM监控工具1. 阿尔萨斯的功能2. JVisualVM启动3. 使用前言如果您觉得有用的话，记得给博主点个赞，评论，收藏一键三连啊，写作不易啊^ _ ^。而且听说点赞的人每天的运气都不会太差&#xff…

阅读更多...

41 stack类与queue类

41 stack类与queue类

目录一、简介 （一）stack类 （二）queue类二、使用与模拟实现 （一）stack类 1、使用 2、OJ题 （1）最小栈 （2）栈的弹出压入序列 （3&#xf…

阅读更多...

wangEditor富文本插件在vue项目中使用和媒体上传的实现

wangEditor富文本插件在vue项目中使用和媒体上传的实现

wangEditor是前端一个比较流行的简洁易用，功能强大的前端富文本编辑器，支持 JS Vue React，提供了很多丰富的功能，下面手把手教你实现wangWditor富文本插件在vue项目中配置，保存、图片上传等功能。无脑ctrlc即可基本功…

阅读更多...

VMwareTools安装(ubuntu23)

VMwareTools安装(ubuntu23)

1.打开VMware，菜单栏虚拟机->安装VMwareTools 2.点开光驱，把压缩包复制到桌面 3.解压如何开启sudo权限： sudo passwd root 之后输入密码查看解压文件夹，执行vmware-install.pl文件安装过程中碰见如下报错信息：…

阅读更多...

jangow-01-1.0.1靶机

jangow-01-1.0.1靶机

靶机 ip：192.168.152.155 把靶机的网络模式调成和攻击机kali一样的网络模式，我的kali是NAT模式, 在系统启动时(长按shift键)直到显示以下界面 ,我们选第二个，按回车。继续选择第二个，这次按 e 进入编辑页面接下来，…

阅读更多...

C# GDI+数码管数字控件

调用方法 int zhi 15;private void button1_Click(object sender, EventArgs e){if (zhi > 19){zhi 0;}lcdDisplayControl1.DisplayText zhi.ToString();} 运行效果控件代码 using System; using System.Collections.Generic; using System.Drawing.Drawing2D; using …

阅读更多...

Cilium：BPF 和 XDP 参考指南（2021）

Cilium：BPF 和 XDP 参考指南（2021）

大家觉得有意义和帮助记得及时关注和点赞!!! BPF 是 Linux 内核中一个非常灵活与高效的类虚拟机（virtual machine-like）组件， 能够在许多内核 hook 点安全地执行字节码（bytecode ）。很多内核子系统都已经使用了 BPF&a…

阅读更多...

LabVIEW条件配置对话框

LabVIEW条件配置对话框

条件配置对话框（Configure Condition Dialog Box） 要求：Base Development System 当右键单击**条件禁用结构（Conditional Disable Structure）**并选择以下选项时，会显示此对话框： Add Subdiagr…

阅读更多...

机器学习-高斯混合模型

机器学习-高斯混合模型

文章目录高斯混合模型对无标签的数据集：使用高斯混合模型进行聚类对有标签的数据集：使用高斯混合模型进行分类总结高斯混合模型对无标签的数据集：使用高斯混合模型进行聚类对有标签的数据集：使用高斯混合模型进行分类总结

阅读更多...

GitLab 服务变更提醒：中国大陆、澳门和香港用户停止提供服务（GitLab 服务停止）

GitLab 服务变更提醒：中国大陆、澳门和香港用户停止提供服务（GitLab 服务停止）

目录前言一. 变更详情 1. 停止服务区域 2. 邮件通知 3. 新的服务提供商 4. 关键日期 5. 行动建议二. 迁移指南三. 注意事项四. 相关推荐前言近期，许多位于中国大陆、澳门和香港的 GitLab 用户收到了一封来自 GitLab 官方的重要通知。根据这封邮件…

阅读更多...

MacOS下TestHubo安装配置指南

MacOS下TestHubo安装配置指南

TestHubo是一款开源免费的测试管理工具， 下面介绍MacOS私有部署的安装与配置。TestHubo 私有部署版本更适合有严格数据安全要求的企业，支持在本地或专属服务器上运行，以实现对数据和系统的完全控制。 1、Mac 服务端安装 Mac安装包下载地址&a…

阅读更多...

css绘制圆并绘制圆的半径

css绘制圆并绘制圆的半径

<div class"item1"></div>.item1 {position: relative;width: 420px;height: 420px;border-radius: 50%; /* 圆形 */color: white; /* 文本颜色 */background-color: rgba(154, 227, 36, 0.4); } .item1::before {content: "";position: absol…

阅读更多...

【原理图专题】CIS库中有两部分组成的器件怎么查看符号库

【原理图专题】CIS库中有两部分组成的器件怎么查看符号库

在ICS库使用过程中，会遇到比如运放、MOS管等是由两个符号构成的一个器件。比如下图所示的器件： 为了方便我们知道内部结构，很可能把器件拆成两部分，一部分是PMOS，一部分是NMOS。包括大的MCU或芯片也是这样，…

阅读更多...

推荐文章

最新文章