大模型sft评估一直都是一个让人头疼的问题,那么如何进行sft评估呢?
一共有两类方案
第一类:用另一个AI或者人类 对模型答案进行打分
可以是竞技场模式,也可以是离线打分模式
打分可以用一些权威的榜单,例如 superclue
评测流程:
我们采用高级
AI
模型(例如
GPT-4o
)来评估不同任务的表现,根据设定的评价标准进行打分(
1-5
分)。
以【长文本】任务为例,设定的评价标准包括:符合基本要求、语言与逻辑连贯性、推理链条完整度。
假设在一个具体的题目中,模型
A
的得分如下:符合基本要求
3
分、语言与逻辑连贯性
4
分、推理链条完整度
5
分。首先,我们计算这一题目的平均得分: 3+4 + 5 = 12,12/3 =4
因此,该题目的具体得分为
4
分。
最后,将所有题目的得分进行归一化处理,以确保满分为
100
分。这样,每个任务的得分都能清晰地反映模型
在不同标准下的表现
问题:
***
问题背景
***
清吴淇评谢灵运诗“语多生撰,非注莫解其词,非疏莫通其义”(《选诗定论》卷十
四)。论者也大都指责谢诗雕刻
......<
由于篇幅有限,此处省略长文内容
>......
***
问题背景
***
请根据所提供的文档,提取出有关
“
谢灵运山水诗
”
所有相关的信息,并生成一篇
300
字的
中文摘要。摘要应包括以下方面的内容:谢灵运诗风的总体评价及影响以及佛教和老庄
思想对谢诗的影响。
模型回答:
谢灵运的山水诗以其意境阔大悠远、风格恢宏豪放而著称,深得后世如李白、苏轼等人
的推崇。他的诗作在描写山水景色时融入了完整而悠远的时空意识,通过使用朝夕昏旦
等时间词,以及方位词和数量词的频繁使用,拓展了诗歌的意境,使抒发的情感更为深
厚。谢灵运还善于将超越时空甚至超越现实的人物和传说融入诗中,增加了诗的悠远深
厚境界和情感内涵。此外,他好以老庄佛教之理入诗,赋予山水景色以超世的色彩,使
诗歌具有了宏大的艺术效果。谢灵运的山水诗不仅展现了他对自然山水的细密观察和豪
放气势,还体现了他深厚的玄佛思想,这些因素共同作用,使他的诗作在艺术上达到了
恢宏豪宕、深邃厚重的境界。
评价打分:
----
逐项打分开始
----
打分与评价开始:
1.
基于标准
1
的
<
符合基本要求
>
;
AI
助手的回答大体符合用户的要求,提供了谢灵运诗
风的总体评价和影响,以及佛教和老庄思想对谢诗的影响,但略有简略;基于标准
1
的
得分:
4
分;
2.
基于标准
2
的
<
语言与逻辑连贯性
>
;
AI
助手的语言表达较为流畅,逻辑较为清晰,内
容结构合理但略显简洁;基于标准
2
的得分:
4
分;
3.
基于标准
3
的
<
推理链条完整度
>
;
AI
助手对逻辑链条的梳理较为全面,涵盖了大部分
相关信息,但略欠深入;基于标准
3
的得分:
4
分;
综合以上,
AI
助手的回答的综合得分(平均分)为
[[4.0]]
----
逐项打分结束
第二类:用自动化指标进行打分
accuracy:准确率。 acc = count( 模型文本和真实文本一致的个数)/ 样本数
ppl困惑度:衡量模型预测下一个词的能力,常用于语言模型的评估。 用于在能够获取概率的情况下用代码进行计算
BLEU(Bilingual Evaluation Understudy):原来是用于翻译的指标, 现在用于在大模型的 回答和数据集的回答进行对比
ROUGE(Recall-Oriented Understudy for Gisting Evaluation):原来是用于翻译的指标, 现在用于在大模型的 回答和数据集的回答进行对比。
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一种用于评估文本摘要质量的指标,主要用于衡量生成的摘要与参考摘要之间的相似度。ROUGE有多种变体,包括ROUGE-1、ROUGE-2和ROUGE-L,它们分别基于n-gram重叠、bigram重叠和最长公共子序列来计算相似度。