基于OpenCompass大模型评测
关于评测的三个问题Why/What/How
Why
What
有许多任务评测,包括垂直领域
How
包含客观评测和主观评测,其中主观评测分人工和模型来评估。
提示词工程
主流评测框架
OpenCompass 能力框架
- 模型层
- 能力层
- 方法层
- 工具层
支持丰富的模型
评测流水线设计,能切分多个独立执行的任务,最大化利用计算资源。
大模型能力对比结果输出
前言探索
探索性方向涵盖:
- 多模态
- 法律
- 医生
挑战
实践
创建开发环境和准备数据集
查看支持的数据集:
启动评测
客观评测
主要是run.py
代码文件
- datasets:指定数据集
- hf-path:模型文件
- tokenizer-path:tokenizer路径
- max-seq-len:模型读入的最大长度
- max-out-len:模型输出的最大长度,客观题设置一般较小
- –debug:debug模式,打印出所有的过程
主观评测
主要是eval_sbujective_alignbench.py
文件修改,需要注意model
,max_out_len
等处的修改。