视频链接:https://www.bilibili.com/video/BV1Gg4y1U7uc/?vd_source=5d94ee72ede352cb2dfc19e4694f7622
教程文档:https://github.com/InternLM/tutorial/blob/main/opencompass/opencompass_tutorial.md
仓库:https://github.com/open-compass/opencompass
关于评测的三个问题
1、为什么需要评测?
2、需要测什么?
3、怎么测?
客观评测
有很多东西是客观评测评测不了的,因此只能使用主观评测的方式。
提示词工程
如果只是换了一个prompt,模型就回答错了。说明模型对prompt非常敏感,鲁棒性还不够好。
主流大模型评测框架
OpenCompass能力框架
OpenCompass是唯一一个由meta官方推荐的国内开发的大模型评测体系
OpenCompass开源评测平台架构
OpenCompass评测流水线设计
进行了推理优化,对评测任务进行了切分。
目前还在探索多模态能力的评测
同时也在探索垂直领域的评测
法律领域
医疗领域