大模型sft评估指标方案

news2026/4/8 21:43:33

大模型sft评估一直都是一个让人头疼的问题，那么如何进行sft评估呢？

一共有两类方案

第一类：用另一个AI或者人类对模型答案进行打分

可以是竞技场模式，也可以是离线打分模式

打分可以用一些权威的榜单，例如 superclue

评测流程：

我们采用高级 AI 模型（例如 GPT-4o ）来评估不同任务的表现，根据设定的评价标准进行打分（ 1-5 分）。

以【长文本】任务为例，设定的评价标准包括：符合基本要求、语言与逻辑连贯性、推理链条完整度。

假设在一个具体的题目中，模型 A 的得分如下：符合基本要求 3 分、语言与逻辑连贯性 4 分、推理链条完整度 5

分。首先，我们计算这一题目的平均得分： 3+4 + 5 = 12,12/3 =4

因此，该题目的具体得分为 4 分。

最后，将所有题目的得分进行归一化处理，以确保满分为 100 分。这样，每个任务的得分都能清晰地反映模型

在不同标准下的表现

问题：

*** 问题背景 ***

清吴淇评谢灵运诗“语多生撰，非注莫解其词，非疏莫通其义”（《选诗定论》卷十

四）。论者也大都指责谢诗雕刻 ......< 由于篇幅有限，此处省略长文内容 >......

*** 问题背景 ***

请根据所提供的文档，提取出有关 “ 谢灵运山水诗 ” 所有相关的信息，并生成一篇 300 字的

中文摘要。摘要应包括以下方面的内容：谢灵运诗风的总体评价及影响以及佛教和老庄

思想对谢诗的影响。

模型回答：

谢灵运的山水诗以其意境阔大悠远、风格恢宏豪放而著称，深得后世如李白、苏轼等人

的推崇。他的诗作在描写山水景色时融入了完整而悠远的时空意识，通过使用朝夕昏旦

等时间词，以及方位词和数量词的频繁使用，拓展了诗歌的意境，使抒发的情感更为深

厚。谢灵运还善于将超越时空甚至超越现实的人物和传说融入诗中，增加了诗的悠远深

厚境界和情感内涵。此外，他好以老庄佛教之理入诗，赋予山水景色以超世的色彩，使

诗歌具有了宏大的艺术效果。谢灵运的山水诗不仅展现了他对自然山水的细密观察和豪

放气势，还体现了他深厚的玄佛思想，这些因素共同作用，使他的诗作在艺术上达到了

恢宏豪宕、深邃厚重的境界。

评价打分：

---- 逐项打分开始 ----

打分与评价开始：

1. 基于标准 1 的 < 符合基本要求 > ； AI 助手的回答大体符合用户的要求，提供了谢灵运诗

风的总体评价和影响，以及佛教和老庄思想对谢诗的影响，但略有简略；基于标准 1 的

得分： 4 分；

2. 基于标准 2 的 < 语言与逻辑连贯性 > ； AI 助手的语言表达较为流畅，逻辑较为清晰，内

容结构合理但略显简洁；基于标准 2 的得分： 4 分；

3. 基于标准 3 的 < 推理链条完整度 > ； AI 助手对逻辑链条的梳理较为全面，涵盖了大部分

相关信息，但略欠深入；基于标准 3 的得分： 4 分；

综合以上， AI 助手的回答的综合得分（平均分）为 [[4.0]]

---- 逐项打分结束

第二类：用自动化指标进行打分

accuracy：准确率。 acc = count( 模型文本和真实文本一致的个数）/ 样本数

ppl困惑度：衡量模型预测下一个词的能力，常用于语言模型的评估。用于在能够获取概率的情况下用代码进行计算

BLEU（Bilingual Evaluation Understudy）：原来是用于翻译的指标，现在用于在大模型的回答和数据集的回答进行对比

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）：原来是用于翻译的指标，现在用于在大模型的回答和数据集的回答进行对比。

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）是一种用于评估文本摘要质量的指标，主要用于衡量生成的摘要与参考摘要之间的相似度。ROUGE有多种变体，包括ROUGE-1、ROUGE-2和ROUGE-L，它们分别基于n-gram重叠、bigram重叠和最长公共子序列来计算相似度。