LLM：微调大模型的评估

LLM：微调大模型的评估

news2025/4/12 17:42:37

微调了一个垂直大模型，要判断其好坏，怎么做才算科学的？

一、客观测试集评测

训练的时候，就划分了训练集、验证集、测试集，6:3:1.
验证集用于观察有没有过拟合，一般来说是loss；测试集是在训练完成后测试模型的能力，可以自己设置各种指标。

在大模型微调后，使用测试集进行客观评测，一般来说是下面这样：

{
    "predict_bleu-4": 27.806828685897436,
    "predict_rouge-1": 36.388832131410254,
    "predict_rouge-2": 13.097188060897436,
    "predict_rouge-l": 24.604292788461535,
    "predict_runtime": 2245.6039,
    "predict_samples_per_second": 0.553,
    "predict_steps_per_second": 0.035
}

1.BLEU-4

意义：BLEU (Bilingual Evaluation Understudy) 是一种常用的机器翻译质量评价指标。它通过计算生成文本和参考文本之间的 n-gram 精确度来衡量生成文本的质量。BLEU-4 特别关注 4-gram 的匹配情况，可以较好地反映句子的语法和流畅度。
请添加图片描述

2.ROUGE-1

意义：ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 用于评估生成文本和参考文本的覆盖度。ROUGE-1 计算的是 1-gram（即单个词）的召回率，反映了生成文本在多大程度上覆盖了参考文本中的词汇。

请添加图片描述

3.ROUGE-L

请添加图片描述

针对通用的，有很多客观测试集，司南提供了简便的使用，可以参考https://blog.csdn.net/qq_43814415/article/details/138289322

二、主观评测

客观评测虽然能够从指标上评断模型的各项知识、长文本等能力，但是无法贴近真实的场景。很多模型都号称在指标上逼近或超过gpt4，但是实际用下来很差。

主观评测的方式：
两个模型针对同一问题生成回复，人工选择。可以是计算正确率，还有elo分数。

竞技场Elo：利用Bradley-Terry模型，基于历史匿名对战数据估计的大模型竞技场Elo等级分数。
如：https://rank.opencompass.org.cn/leaderboard-arena

请添加图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1965437.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【全国大学生电子设计竞赛】2024年E题

【全国大学生电子设计竞赛】2024年E题

🥰🥰全国大学生电子设计大赛学习资料专栏已开启，限时免费，速速收藏~

阅读更多...

工作流流程引擎框架推荐来了

工作流流程引擎框架推荐来了

近期有不少粉丝客户朋友都在询问工作流流程引擎框架推荐。随着行业竞争激烈化，实现流程化办公已经成为当务之急。低代码技术平台及工作流流程引擎拥有够灵活、更可靠、可视化界面等诸多个优势特点，在推动企业实现数字化转型的过程中深受行业信赖与喜爱。…

阅读更多...

Go语言生成excel、将excel保存到本地、将多个excel表格压缩为压缩包、在压缩文件上传OSS删除本地excel文件和压缩包

Go语言生成excel、将excel保存到本地、将多个excel表格压缩为压缩包、在压缩文件上传OSS删除本地excel文件和压缩包

最近在公司了个需求，主要涉及到文件导出，需要根据特定表格文件生成excel文件导出，同时对导出的excel临时保存本地，生成压缩包，将压缩包上传至OSS（Object Storage Service）后删除本地临时文件。下…

阅读更多...

cpu飙升时的排查方式、线上环境常规排查步骤

cpu飙升时的排查方式、线上环境常规排查步骤

提示：面试问题：cpu飙升时的排查方式、生产问题排查方式文章目录前言一、cpu飙升时的排查步骤1、top2、top -Hp pid3、printf ‘0x%x’ tid4、jstack pid | grep tid 二、总结三、线上环境常规排查步骤1、查看服务器中线程情况2、查看系统异常进程的16进…

阅读更多...

JavaEE 从入门到精通(一) ~ Maven

JavaEE 从入门到精通(一) ~ Maven

晚上好，愿这深深的夜色给你带来安宁，让温馨的夜晚抚平你一天的疲惫，美好的梦想在这个寂静的夜晚悄悄成长。前言一、pandas是什么？二、使用步骤 1.引入库2.读入数据总结前言在软件开发的日常工作中，有效的项目管理是…

阅读更多...

OCC 模型编辑

OCC 模型编辑

目录一、简介二、主要功能三、常用方法四、详细子类示例 1、BRepBuilderAPI_Copy 1.1 形状复制注意事项 1.2 复制和变换 2、BRepBuilderAPI_Transform 3、BRepBuilderAPI_GTransform 3.1 应用广义仿射变换 3.2 平移和旋转变换 3.3 缩放 4、BRepBuilderAPI_Nu…

阅读更多...

shell正则表达式和文本处理器

shell正则表达式和文本处理器

文章目录一，正则表达式1.基础正则表达式1.1 字符匹配1.2 元字符1.3 字符集1.4 预定义字符集1.5 量词1.6 非打印字符 2.扩展正则表达式2.1分组和引用2.2 选择2.3 量词二，文件处理器1.grep2.sed3.egredp4.awk4.1awk版本4.2工作原理4.3工作流程4.4运行模式…

阅读更多...

搜维尔科技：Manus VR数据手套-适用于机器人、人工智能和机器学习解决方案

搜维尔科技：Manus VR数据手套-适用于机器人、人工智能和机器学习解决方案

在劳动力短缺和工作环境日益严峻的今天，机器人技术正成为解决这些复杂问题的关键。MANUS™ 手指捕捉技术，结合先进的量子追踪技术，为机器人的精确操作和远程控制提供了准确且先进的解决方案。技术亮点实时数据捕捉：通过Quantum…

阅读更多...

数学强化✨张宇18讲+1000题45天带刷计划

张宇25版18讲加起来一共656页，是以前的2倍内容，课时量页直接翻倍！ 你以为张宇是把强化内容给重新讲了一遍吗？并不是，张宇往年的的强化内容放在了25版的基础部分来讲，这就直接导致张宇基础30讲课时量页跟着…

阅读更多...

视频美颜SDK技术揭秘：如何在直播中实现实时美颜

视频美颜SDK技术揭秘：如何在直播中实现实时美颜

为了满足观众对视觉效果的追求，视频美颜SDK（软件开发工具包）应运而生。今天小编将揭示视频美颜SDK技术，探讨它是如何在直播中实现实时美颜效果的。一、视频美颜SDK的基本原理视频美颜SDK是一种专为视频直播应用设计的软件工具…

阅读更多...

电子级异丙醇的应用以及电子级异丙醇的提纯

电子级异丙醇的应用以及电子级异丙醇的提纯

电子级异丙醇是一种极高纯度的异丙醇（Isopropyl Alcohol, IPA），专为电子和其他高科技产业中对清洁度和纯度有严格要求的应用而设计。它经过特殊的精炼和过滤工艺，以去除水分、杂质、颗粒物以及金属离子，确保其具备超低…

阅读更多...

最优化(12)：约束优化算法

最优化(12)：约束优化算法

本章主要讲解罚函数法和增广拉格朗日函数法。

阅读更多...

微信静默授权，配置redirect_uri，路径

微信静默授权，配置redirect_uri，路径

微信静默授权，配置redirect_uri，路径 1.登录微信公众号 2.进入：https://mp.weixin.qq.com/cgi-bin/settingpage?tsetting/function&actionfunction&token1764020234&langzh_CN

阅读更多...

2/100数据分析实战项目_商城销售数据分析_Python+帆软BI

2/100数据分析实战项目_商城销售数据分析_Python+帆软BI

前言商城销售数据分析数据源：https://www.heywhale.com/mw/project/5f7f0c07fab2e800300e51e4/content BI展示http://localhost:37799/webroot/decision/link/xItL 密码: a600【链接失效:2024年10月31日】 1. 销售数据分析销售数据分析一般分析什么数据&#x…

阅读更多...

C#调试与VS技巧、注释规范等

C#调试与VS技巧、注释规范等

C#高级调试与VS技巧断点条件断点联动断点断点详细信息显示并输出 VS技巧常用快捷键保存代码段设置自己的代码命名规则智能显示当前代码所处的Scope固定的选项卡另外起一行竖向选项卡 C#规范注释///自动生成注释para另起一行，see指向符号(可跳转)，code插…

阅读更多...

WPF的5种绑定模式

WPF的5种绑定模式

WPF的5种绑定模式 WPF的5种绑定模式演示效果XAML WPF的5种绑定模式 OneWay（源变就更新目标属性）TwoWay（源变就更新目标并且目标变就更新源）OneTime（只根据源来设置目标，以后都不会变）OneWayToS…

阅读更多...

科普文：Lombok使用及工作原理详解

科普文：Lombok使用及工作原理详解

1. 概叙 Lombok是什么？ Project Lombok 是一个 JAVA 库，它可以自动插入编辑器和构建工具，为您的 JAVA 锦上添花。再也不要写另一个 getter/setter 或 equals 等方法，只要有一个注注解，你的类就有一个功能齐全的生成器…

阅读更多...

《动手做科研》08. 云端上的深度学习

《动手做科研》08. 云端上的深度学习

地址链接:《动手做科研》08. 云端上的深度学习欢迎加入我的知识星球，定期分享AI论文干货知识！ 导读: 当我们开始开发复杂模型时，尝试在本地计算机上训练模型通常不是一个可行的选择，因为我们本地的显存都比较受限制，而…

阅读更多...

streamlit安装成功

streamlit安装成功

文章目录安装streamlit方法1：联网在线安装方法2：离线安装（无网络）安装streamlit 方法1：联网在线安装在Anaconda的工作环境（或其他虚拟环境或真是环境，均可以）中，安装streamlit： pip install streamlit安装成功后如下图所示: 然后我们测试一下streamlit是否安装…

阅读更多...

一文看懂什么是架构

一文看懂什么是架构

对程序员来说，架构是一个常见词汇。如果想成为一名架构师，对架构概念的理解必须清晰。否则，在制定架构方案时，肯定会漏洞百出，问题频发，这将对你的面试、晋升和团队领导产生负面影响。我们看下维基百科关…

阅读更多...

推荐文章

最新文章