大型语言模型(LLM)评估榜单提供了对不同模型性能的标准化比较,涵盖了从通用能力到特定领域应用的多个方面。这些榜单专注于评估模型在特定领域的应用能力,有助于开发者了解模型的优势和局限性,推动语言模型的发展和优化。
通用大模型榜单
1.🤗 Open LLM Leaderboard
Hugging Face 旨在展示和比较不同大型语言模型(LLMs)的性能,特别是那些可以公开访问的模型。模型将根据一系列标准进行评估,包括但不限于准确性、效率、可解释性和公平性。
在 6 个关键基准上评估模型,这是一个统一的框架,用于在大量不同的评估任务上测试生成语言模型。
- MMLU-Pro 是 MMLU 数据集的精炼版本。
- GPQA是一个极其困难的知识数据集,其中的问题是由各自领域的领域专家(生物学、物理、化学等博士级别)设计的,外行人很难回答,但对于专家来说(相对)容易回答。
- MuSR 是一个非常有趣的新数据集,由算法生成的长度约为 1K 字的复杂问题组成。
- MATH是从多个来源收集的高中水平竞赛问题的汇编,其格式一致地使用 Latex 表示方程,使用 Asymptote 表示图形。
- IFEval是一个相当有趣的数据集,它测试模型清晰遵循明确指令的能力,例如“包含关键字 x”或“使用格式 y”。
- BBH 是 BigBench数据集中 23 个具有挑战性的任务的子集,这些任务 1) 使用客观指标,2) 很困难,作为语言模型进行测量,最初并未超越人类基线,3)包含足够的样本,具有统计显着性。
2.FlagEval
相关介绍paper:FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark
FlagEval由智源研究院将联合多个高校团队打造,是一种采用“能力一任务一指标"三维评测框架的大模型评测平台,旨在提供全面、细致的评测结果。该平台已提供了30多种能力、5种任务和4大类指标,共600多个维度的全面评测,任务维度包括22个主客观评测数据集和84433道题目。
FlagEval(天秤)创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。目前已推出语言大模型评测、多语言文图大模型评测及文图生成评测等工具,并对广泛的语言基础模型、跨模态基础模型实现了评测。
3.OpenCompass
OpenCompass;是由上海人工智能实验室(上海AI实验室)于2023年8月正式推出的大模型开放评测体系,该算法库的主要评估目标是大型语言模型。以大语言模型为例,介绍具体的评估模型类型。
基础模型:通常通过自监督方式对海量文本数据进行训练而获得(例如OpenAI的GPT-3、Meta的LLaMA)。这些模型通常具有强大的文本延续功能。
聊天模型:通常建立在基础模型的基础上,并通过指令微调或人类偏好调整进行完善(例如,OpenAI 的 ChatGPT、上海人工智能实验室的 Scholar Pu Tongue)。这些模型可以理解人类指令并具有很强的会话能力。
OpenCompass从通用人工智能的角度出发,融合前沿学术进展和行业最佳实践,提出适合实际应用的评估体系。 OpenCompass的能力维度涵盖通用能力和特殊功能。
4.SuperCLUE
中文通用大模型综合性测评基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。
它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。
SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。
目前包括三大基准:OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。它按照月度进行更新。
5.C-Eval
相关介绍paper:C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。
榜单分成2个:
(1) 公开访问的模型 – 这些模型有公开权重或者API,用户可以自行检查验证它们的效果;
(2) 受限访问的模型: 这些模型暂时没有对公众开放。
6.MMLU
相关介绍paper:Measuring Massive Multitask Language Understanding
MMLU 由Dan Hendrycks和一组研究人员于 2020 年发布。
MMLU 以庞大的多任务测试集为基础,其中包含来自各个知识分支的多项选择题。
测试横跨人文、社会科学、硬科学等重要领域;总共57个任务。
这 57 项任务总共分布在 15,908 个问题上,这些问题被分为几个镜头开发集、一个验证集和一个测试集。
- 少样本开发集每个主题有 5 个问题。
- 验证集可用于选择超参数,由 1540 个问题组成。
- 测试集有 14079 个问题。 每个科目至少包含100 个测试示例
7.Chatbot Arena
相关论文paper:Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
Chatbot Arena 是一个开源平台,用于通过人类偏好评估人工智能,由加州大学伯克利分校SkyLab和LMSYS的研究人员开发。该平台拥有超过 1,000,000 名用户投票,使用 Bradley-Terry 模型生成实时排行榜,对最佳人工智能聊天机器人进行排名。
8.HELM
相关论文paper:Holistic Evaluation of Language Models
HELM大语言模型评价模型是斯坦福的基础模型研究中心发布的来提高语言模型的透明度。
采用多指标方法:在可能的情况下,为 16 个核心场景中的每一个测量 7 个指标(准确性、校准、鲁棒性、公平性、偏差、毒性和效率)。还根据26个目标场景进行7个有针对性的评估,以分析特定方面(例如推理、虚假信息)。
医学大模型榜单
1.PubMedQA
paper:PubMedQA: A Dataset for Biomedical Research Question Answering
PubMedQA 有 1k 个专家标记、61.2k 个未标记和 211.3k 个人工生成的 QA 实例。
2.MedBench
MedBench致力于打造一个科学、公平且严谨的中文医疗大模型评测体系及开放平台。我们基于医学权威标准,不断更新维护高质量的医学数据集,全方位多维度量化模型在各个医学维度的能力。MedBench提出了五大评测维度:医学语言理解、医学语言生成、医学知识问答、复杂医学推理、医疗安全和伦理。
- 医学语言理解:MedBench涵盖了医学信息抽取、医学术语标准化以及医学文本分类等测试
- 医学语言生成:面向医院侧的医疗应用,MedBench设立了医学语言生成测试,包含短对话电子病历生成和长对话电子病历生成任务
- 医学知识问答:面向患者侧的大模型医疗应用,设立医学知识问答评测,包括医学考试、医学咨询、专科问答、导诊和轻问诊等任务的测试
- 复杂医学推理:面向医院侧的医疗应用,平台设立了复杂医学推理测试,覆盖了临床问诊、医学诊断和治疗方案等任务
- 医疗安全和伦理:MedBench也为大模型应用时的医疗安全和伦理能力设置了相应测试,涵盖医学伦理考题和药物禁忌等任务
法律大模型榜单:
LawBench
LawBench 将法律认知细分为三个认知维度,涵盖 20 项法律任务:
- 法律知识记忆:大型语言模型能否在其参数中记忆必要的法律概念、术语、文章和事实。
- 法律知识理解:大语言模型能否理解法律文本中的实体、事件和关系,从而理解法律文本的含义和内涵。
- 法律知识应用:大型语言模型能否正确利用其法律知识,对其进行推理以解决下游应用中的实际法律任务。
每项法律任务包含 500 个问题。分数是模型在20 种不同任务类型中获得的平均值
金融大模型榜单:
CFBenchmark
"书生•济世"金融评测基准(CFBenchmark)主要包含以下几方面
金融自然语言处理:主要关注模型对金融文本的理解和生成能力,包含三个方面的任务:金融实体识 别、金融文本分类和金融内容生成
- 金融场景计算:侧重于模型在特定金融场景下的计算和推理能力,如风险评估和投资组合优化,包含三个子任务:金融数据检查、金融数值提取和金融指标计算
- 金融分析与解读任务:检验模型在理解复杂金融报告、预测市场趋势和辅助决策制定方面的能力,关注了大模型对宏观经济、具体行业、公司公告和金融事件的深入解读,以及对股票行情、基金经营、行业板块和大盘行情的详细分析
- 金融合规检查:评估模型潜在的合规风险,如生成内容的隐私性、内容安全性、金融合规性等能力,探索模型在面对可能触及敏感或风险内容时的反应,是否会拒绝回答某些问题,从而确保在金融服务过程中的安全性和合规性