大模型sft评估指标方案

news2024/9/20 22:48:48

大模型sft评估一直都是一个让人头疼的问题,那么如何进行sft评估呢?

一共有两类方案 

第一类:用另一个AI或者人类 对模型答案进行打分

可以是竞技场模式,也可以是离线打分模式

打分可以用一些权威的榜单,例如 superclue

评测流程:

我们采用高级 AI 模型(例如 GPT-4o )来评估不同任务的表现,根据设定的评价标准进行打分( 1-5 分)。
以【长文本】任务为例,设定的评价标准包括:符合基本要求、语言与逻辑连贯性、推理链条完整度。
假设在一个具体的题目中,模型 A 的得分如下:符合基本要求 3 分、语言与逻辑连贯性 4 分、推理链条完整度 5
分。首先,我们计算这一题目的平均得分: 3+4 + 5 = 12,12/3  =4
因此,该题目的具体得分为 4 分。
最后,将所有题目的得分进行归一化处理,以确保满分为 100 分。这样,每个任务的得分都能清晰地反映模型
在不同标准下的表现
问题:
*** 问题背景 ***
清吴淇评谢灵运诗“语多生撰,非注莫解其词,非疏莫通其义”(《选诗定论》卷十
四)。论者也大都指责谢诗雕刻 ......< 由于篇幅有限,此处省略长文内容 >......
*** 问题背景 ***
请根据所提供的文档,提取出有关 谢灵运山水诗 所有相关的信息,并生成一篇 300 字的
中文摘要。摘要应包括以下方面的内容:谢灵运诗风的总体评价及影响以及佛教和老庄
思想对谢诗的影响。
模型回答:
谢灵运的山水诗以其意境阔大悠远、风格恢宏豪放而著称,深得后世如李白、苏轼等人
的推崇。他的诗作在描写山水景色时融入了完整而悠远的时空意识,通过使用朝夕昏旦
等时间词,以及方位词和数量词的频繁使用,拓展了诗歌的意境,使抒发的情感更为深
厚。谢灵运还善于将超越时空甚至超越现实的人物和传说融入诗中,增加了诗的悠远深
厚境界和情感内涵。此外,他好以老庄佛教之理入诗,赋予山水景色以超世的色彩,使
诗歌具有了宏大的艺术效果。谢灵运的山水诗不仅展现了他对自然山水的细密观察和豪
放气势,还体现了他深厚的玄佛思想,这些因素共同作用,使他的诗作在艺术上达到了
恢宏豪宕、深邃厚重的境界。
评价打分:
---- 逐项打分开始 ----
打分与评价开始:
1. 基于标准 1 < 符合基本要求 > AI 助手的回答大体符合用户的要求,提供了谢灵运诗
风的总体评价和影响,以及佛教和老庄思想对谢诗的影响,但略有简略;基于标准 1
得分: 4 分;
2. 基于标准 2 < 语言与逻辑连贯性 > AI 助手的语言表达较为流畅,逻辑较为清晰,内
容结构合理但略显简洁;基于标准 2 的得分: 4 分;
3. 基于标准 3 < 推理链条完整度 > AI 助手对逻辑链条的梳理较为全面,涵盖了大部分
相关信息,但略欠深入;基于标准 3 的得分: 4 分;
综合以上, AI 助手的回答的综合得分(平均分)为 [[4.0]]
---- 逐项打分结束

第二类:用自动化指标进行打分

accuracy:准确率。 acc = count( 模型文本和真实文本一致的个数)/ 样本数

ppl困惑度:衡量模型预测下一个词的能力,常用于语言模型的评估。 用于在能够获取概率的情况下用代码进行计算

BLEU(Bilingual Evaluation Understudy):原来是用于翻译的指标, 现在用于在大模型的 回答和数据集的回答进行对比

ROUGE(Recall-Oriented Understudy for Gisting Evaluation):原来是用于翻译的指标, 现在用于在大模型的 回答和数据集的回答进行对比。

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一种用于评估文本摘要质量的指标,主要用于衡量生成的摘要与参考摘要之间的相似度。ROUGE有多种变体,包括ROUGE-1、ROUGE-2和ROUGE-L,它们分别基于n-gram重叠、bigram重叠和最长公共子序列来计算相似度。

Rouge-1

Rouge-2

Rouge-L

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2125100.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI芯片国产化率100%!运营商最大单集群智算中心投产

8月30日&#xff0c;中国移动建成运营商最大单集群智算中心——中国移动智算中心&#xff08;哈尔滨&#xff09;&#xff0c;并正式投产使用&#xff0c;将为全国的科技创新与产业升级带来强大助力。 该智算中心部署超1.8万张AI加速卡&#xff0c;AI芯片国产化率达100%&#x…

【吊打面试官系列-Redis面试题】都有哪些办法可以降低 Redis 的内存使用情况呢?

大家好&#xff0c;我是锋哥。今天分享关于【都有哪些办法可以降低 Redis 的内存使用情况呢&#xff1f;】面试题&#xff0c;希望对大家有帮助&#xff1b; 都有哪些办法可以降低 Redis 的内存使用情况呢&#xff1f; 如果你使用的是 32 位的 Redis 实例&#xff0c;可以好好利…

佰朔资本:股票市场牛熊是什么意思,熊市怎么找投资机会?

股票商场中的牛市&#xff0c;也被称为多头商场&#xff0c;指的是股票价格长时刻呈上升趋势的股票商场&#xff0c;后续广泛看涨的情况。 股票商场中的熊市&#xff0c;也被称为空头商场&#xff0c;指股票的价格长时刻呈下降趋势的股票商场&#xff0c;后续广泛看跌的情况。…

计算机常见网络协议分析(1)

1.ppp协议 &#xff09;流程&#xff1a;五个阶段 链路不可用阶段dead 链路建立阶段established 认证阶段authentiate 网络层协议阶段network 链路终止阶段terminate &#xff09;帧格式: Flags&#xff1a;帧定界&#xff0c;表示帧开始和结束&#xff0c;一字节&#…

实验十一 Java的网络应用

实验目的及要求 目的&#xff1a;熟悉java中网络通讯的基本原理及简单网络程序的开发。 内容&#xff1a;1.编写使用ServerSocket创建服务器端程序&#xff1b; 2.编写使用Socket创建客户器端程序&#xff1b; 3.验证使用套接字实现网络通信的方法。 二、实验环境 计算机…

Codeforces Round 969 (Div. 2) (A~D)

文章目录 A. Doras Set思路code B. Index and Maximum Value思路code C. Dora and C思路code D. Iris and Game on the Tree思路code Codeforces Round 969 (Div. 2) A. Dora’s Set 思路 签到题&#xff0c;把玩一下样例不难发现&#xff1a; 对于 [ l , r ] [l,r] [l,r] …

MVC架构的JSP快速学习(一)

目录 服务相关配置 模型介绍 基础依赖 模型图(抽象) 项目结构 控制器编写 服务相关配置 1. Tomcat配置 http://t.csdnimg.cn/9rILV 2. Maven配置 http://t.csdnimg.cn/REKu9 3. Idea配置 tomcat maven 模型介绍 虽然JSP本身不强制使用MVC&#xff0c;但它通常与Serv…

【MySQL】敏感数据加密后如何模糊查询?

往期文章&#xff1a; 【MySQL】索引 【MySQL】索引底层的数据结构 BTree 【MySQL】SQL语句执行流程 【MySQL】order by 的排序策略 【MySQL】explain 执行计划各字段解析 一、前言 在日常开发中&#xff0c;我们通常需要对敏感数据进行加密存储&#xff0c;如&#xff1a…

封装一个 Vue 3 流程线可视化组件

这个组件展示了一系列带有节点和箭头连接的流程线&#xff0c;并具备不同风险等级的样式和动画效果&#xff0c;非常适合大屏展示项目。 功能概述 这个流程线组件具备以下功能&#xff1a; 动态渲染&#xff1a;根据传入的数据&#xff0c;组件可以自动生成节点和箭头。风险…

后端面试经典问题汇总

后端面试经典问题汇总 后端开发在现代互联网应用中扮演着关键角色&#xff0c;涉及的数据处理、业务逻辑和系统性能等方面在面试中常常会被深入考察。本文将总结一些后端面试中常见的经典问题&#xff0c;并给出简单的解答思路。 1. HTTP 协议 问题&#xff1a;请解释 HTTP …

Linux:五种IO模型

1&#xff1a;五种IO模型 1&#xff1a;阻塞IO 阻塞IO: 在内核将数据准备好之前,系统调用会一直等待.所有的套接字,默认 都是阻塞方式。 2&#xff1a;非阻塞 IO 非阻塞 IO: 如果内核还未将数据准备好, 系统调用仍然会直接返回, 并且返回EWOULDBLOCK 错误码。 非阻塞 IO 往往需…

Centos7.9部署Gitlab-ce-16.9

一、环境信息 软件/系统名称版本下载地址备注Centos77.9.2009https://mirrors.nju.edu.cn/centos/7.9.2009/isos/x86_64/CentOS-7-x86_64-DVD-2009.isogitlab-cegitlab-ce-16.9.1https://mirror.tuna.tsinghua.edu.cn/gitlab-ce/yum/el7/gitlab-ce-16.9.1-ce.0.el7.x86_64.rpm…

4款免费录屏工具,哪款更实用?

作为一个经常需要录制教程和游戏视频的UP主&#xff0c;我尝试过市面上不少录屏工具。今天&#xff0c;我就来分享一下我使用过的四款软件录制全屏时的体验感受&#xff0c;看看哪款软件的表现更胜一筹。 一、福昕录屏大师 网址&#xff1a;https://www.foxitsoftware.cn/REC/…

配置 MinGW 以及使用 g++ 编译 C++ 程序

如何在 Windows 上安装和配置 MinGW 以及使用 g 编译 C 程序 (C语言&#xff08;gcc&#xff09;类似 ) 在Windows环境下&#xff0c;使用C进行编程需要一个编译器&#xff0c;而MinGW (Minimalist GNU for Windows) 是一个常用的C/C编译器工具集。对于编程新手来说&#xff0c…

SAP与赛美特MES系统集成案例

一、项目环境 上海某通信有限公司主要产品应用于图像传感器、 图像信号处理芯片、 低功耗芯片、 射频芯片。 为实现生产流程的自动化调度&#xff0c;减少人为干预的错误&#xff0c;保证流程的一致性和合规性&#xff0c;同时也简化操作流程&#xff0c;降低培训成本。&am…

护眼台灯对眼睛好吗?眼科医生推荐的台灯告诉你答案

作为一名家长&#xff0c;我深刻体会到保护孩子眼部健康的重要性。随着科技的迅猛发展&#xff0c;孩子们越来越多地接触并依赖电子设备&#xff0c;如平板电脑、手机和电视&#xff0c;长时间盯着屏幕已成为他们日常生活的一部分。然而&#xff0c;这些屏幕发出的蓝光及闪烁的…

等保测评前的准备工作:企业必知的五大步骤

信息安全等级保护&#xff08;等保&#xff09;测评是企业信息安全合规的重要环节&#xff0c;对于确保企业信息系统的安全性、稳定性和合规性具有重大意义。为了顺利通过等保测评&#xff0c;企业需要提前做好充分的准备。本文将从实战角度出发&#xff0c;详细介绍等保测评前…

2024年10款好用的图纸加密软件推荐|有效的图纸加密方法分享

在数字化时代&#xff0c;保护CAD图纸等设计文件的安全性是企业不可忽视的重要任务。随着技术的不断进步&#xff0c;各类图纸加密软件应运而生&#xff0c;为企业提供了强大的数据保护能力。本文将为您推荐2024年十款好用的图纸加密软件&#xff0c;并分享一些有效的图纸加密方…

GD32F4开发 -- FATFS文件系统

一、FATFS源码下载 FatFs - Generic FAT Filesystem Module (elm-chan.org) 二、移植 打开ffconf.h文件&#xff0c;找到对应宏并按照需求修改 FF_CODE_PAGE: #define FF_CODE_PAGE 936 //改为936以支持简体中文 /* This option specifies the OEM code page to be used on…

Find My资讯|国外外设品牌发布新型素皮护照套,支持苹果Find My功能

外设品牌 Satechi 发布一款采用苹果Find My技术的新型素皮护照套&#xff0c;售价为 59.99 美元。这款新型护照套除了可以存放护照外&#xff0c;还可存放银行卡、信用卡、身份证、登机牌等物品&#xff0c;其最大特性是采用了与苹果 AirTags 相同的技术&#xff0c;内置了可充…