大模型榜单汇总整理

news2024/9/24 14:27:30

大型语言模型(LLM)评估榜单提供了对不同模型性能的标准化比较,涵盖了从通用能力到特定领域应用的多个方面。这些榜单专注于评估模型在特定领域的应用能力,有助于开发者了解模型的优势和局限性,推动语言模型的发展和优化。

通用大模型榜单

1.🤗 Open LLM Leaderboard

Hugging Face 旨在展示和比较不同大型语言模型(LLMs)的性能,特别是那些可以公开访问的模型。模型将根据一系列标准进行评估,包括但不限于准确性、效率、可解释性和公平性。
在 6 个关键基准上评估模型,这是一个统一的框架,用于在大量不同的评估任务上测试生成语言模型。

  • MMLU-Pro 是 MMLU 数据集的精炼版本。
  • GPQA是一个极其困难的知识数据集,其中的问题是由各自领域的领域专家(生物学、物理、化学等博士级别)设计的,外行人很难回答,但对于专家来说(相对)容易回答。
  • MuSR 是一个非常有趣的新数据集,由算法生成的长度约为 1K 字的复杂问题组成。
  • MATH是从多个来源收集的高中水平竞赛问题的汇编,其格式一致地使用 Latex 表示方程,使用 Asymptote 表示图形。
  • IFEval是一个相当有趣的数据集,它测试模型清晰遵循明确指令的能力,例如“包含关键字 x”或“使用格式 y”。
  • BBH 是 BigBench数据集中 23 个具有挑战性的任务的子集,这些任务 1) 使用客观指标,2) 很困难,作为语言模型进行测量,最初并未超越人类基线,3)包含足够的样本,具有统计显着性。
    在这里插入图片描述

2.FlagEval

相关介绍paper:FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark
FlagEval由智源研究院将联合多个高校团队打造,是一种采用“能力一任务一指标"三维评测框架的大模型评测平台,旨在提供全面、细致的评测结果。该平台已提供了30多种能力、5种任务和4大类指标,共600多个维度的全面评测,任务维度包括22个主客观评测数据集和84433道题目。
FlagEval(天秤)创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。目前已推出语言大模型评测、多语言文图大模型评测及文图生成评测等工具,并对广泛的语言基础模型、跨模态基础模型实现了评测。在这里插入图片描述

3.OpenCompass

OpenCompass;是由上海人工智能实验室(上海AI实验室)于2023年8月正式推出的大模型开放评测体系,该算法库的主要评估目标是大型语言模型。以大语言模型为例,介绍具体的评估模型类型。
基础模型:通常通过自监督方式对海量文本数据进行训练而获得(例如OpenAI的GPT-3、Meta的LLaMA)。这些模型通常具有强大的文本延续功能。
聊天模型:通常建立在基础模型的基础上,并通过指令微调或人类偏好调整进行完善(例如,OpenAI 的 ChatGPT、上海人工智能实验室的 Scholar Pu Tongue)。这些模型可以理解人类指令并具有很强的会话能力。
OpenCompass从通用人工智能的角度出发,融合前沿学术进展和行业最佳实践,提出适合实际应用的评估体系。 OpenCompass的能力维度涵盖通用能力和特殊功能。在这里插入图片描述

4.SuperCLUE

中文通用大模型综合性测评基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。
它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。
SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。
目前包括三大基准:OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。它按照月度进行更新。
在这里插入图片描述

5.C-Eval

相关介绍paper:C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。
榜单分成2个:
(1) 公开访问的模型 – 这些模型有公开权重或者API,用户可以自行检查验证它们的效果;
(2) 受限访问的模型: 这些模型暂时没有对公众开放。在这里插入图片描述

6.MMLU

相关介绍paper:Measuring Massive Multitask Language Understanding
MMLU 由Dan Hendrycks和一组研究人员于 2020 年发布。
MMLU 以庞大的多任务测试集为基础,其中包含来自各个知识分支的多项选择题。
测试横跨人文、社会科学、硬科学等重要领域;总共57个任务。
这 57 项任务总共分布在 15,908 个问题上,这些问题被分为几个镜头开发集、一个验证集和一个测试集。

  • 少样本开发集每个主题有 5 个问题。
  • 验证集可用于选择超参数,由 1540 个问题组成。
  • 测试集有 14079 个问题。 每个科目至少包含100 个测试示例
    在这里插入图片描述

7.Chatbot Arena

相关论文paper:Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
Chatbot Arena 是一个开源平台,用于通过人类偏好评估人工智能,由加州大学伯克利分校SkyLab和LMSYS的研究人员开发。该平台拥有超过 1,000,000 名用户投票,使用 Bradley-Terry 模型生成实时排行榜,对最佳人工智能聊天机器人进行排名。
在这里插入图片描述

8.HELM

相关论文paper:Holistic Evaluation of Language Models
HELM大语言模型评价模型是斯坦福的基础模型研究中心发布的来提高语言模型的透明度。
采用多指标方法:在可能的情况下,为 16 个核心场景中的每一个测量 7 个指标(准确性、校准、鲁棒性、公平性、偏差、毒性和效率)。还根据26个目标场景进行7个有针对性的评估,以分析特定方面(例如推理、虚假信息)。

医学大模型榜单

1.PubMedQA

paper:PubMedQA: A Dataset for Biomedical Research Question Answering
PubMedQA 有 1k 个专家标记、61.2k 个未标记和 211.3k 个人工生成的 QA 实例。在这里插入图片描述

2.MedBench

MedBench致力于打造一个科学、公平且严谨的中文医疗大模型评测体系及开放平台。我们基于医学权威标准,不断更新维护高质量的医学数据集,全方位多维度量化模型在各个医学维度的能力。MedBench提出了五大评测维度:医学语言理解、医学语言生成、医学知识问答、复杂医学推理、医疗安全和伦理。

  • 医学语言理解:MedBench涵盖了医学信息抽取、医学术语标准化以及医学文本分类等测试
  • 医学语言生成:面向医院侧的医疗应用,MedBench设立了医学语言生成测试,包含短对话电子病历生成和长对话电子病历生成任务
  • 医学知识问答:面向患者侧的大模型医疗应用,设立医学知识问答评测,包括医学考试、医学咨询、专科问答、导诊和轻问诊等任务的测试
  • 复杂医学推理:面向医院侧的医疗应用,平台设立了复杂医学推理测试,覆盖了临床问诊、医学诊断和治疗方案等任务
  • 医疗安全和伦理:MedBench也为大模型应用时的医疗安全和伦理能力设置了相应测试,涵盖医学伦理考题和药物禁忌等任务在这里插入图片描述

法律大模型榜单:

LawBench

LawBench 将法律认知细分为三个认知维度,涵盖 20 项法律任务:

  • 法律知识记忆:大型语言模型能否在其参数中记忆必要的法律概念、术语、文章和事实。
  • 法律知识理解:大语言模型能否理解法律文本中的实体、事件和关系,从而理解法律文本的含义和内涵。
  • 法律知识应用:大型语言模型能否正确利用其法律知识,对其进行推理以解决下游应用中的实际法律任务。
    每项法律任务包含 500 个问题。分数是模型在20 种不同任务类型中获得的平均值
    在这里插入图片描述

金融大模型榜单:

CFBenchmark

"书生•济世"金融评测基准(CFBenchmark)主要包含以下几方面
金融自然语言处理:主要关注模型对金融文本的理解和生成能力,包含三个方面的任务:金融实体识 别、金融文本分类和金融内容生成

  • 金融场景计算:侧重于模型在特定金融场景下的计算和推理能力,如风险评估和投资组合优化,包含三个子任务:金融数据检查、金融数值提取和金融指标计算
  • 金融分析与解读任务:检验模型在理解复杂金融报告、预测市场趋势和辅助决策制定方面的能力,关注了大模型对宏观经济、具体行业、公司公告和金融事件的深入解读,以及对股票行情、基金经营、行业板块和大盘行情的详细分析
  • 金融合规检查:评估模型潜在的合规风险,如生成内容的隐私性、内容安全性、金融合规性等能力,探索模型在面对可能触及敏感或风险内容时的反应,是否会拒绝回答某些问题,从而确保在金融服务过程中的安全性和合规性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2160588.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

彩虹表攻击

彩虹表攻击是一种通过查找预计算哈希值来破解密码的技术。攻击者会生成一个包含大量常见密码及其哈希值的查找表,随后将这些哈希值与数据库中的密码哈希进行匹配,从而快速找出对应的明文密码。该攻击方法特别适用于使用弱密码且未进行加盐处理的系统。 相…

Spring Cloud Alibaba-(6)Spring Cloud Gateway【网关】

Spring Cloud Alibaba-(1)搭建项目环境 Spring Cloud Alibaba-(2)Nacos【服务注册与发现、配置管理】 Spring Cloud Alibaba-(3)OpenFeign【服务调用】 Spring Cloud Alibaba-(4)Sen…

Windows电脑使用VNC远程桌面本地局域网内无公网IP树莓派5

目录 前言 1. 使用 Raspberry Pi Imager 安装 Raspberry Pi OS 2. Windows安装VNC远程树莓派 3. 使用VNC Viewer公网远程访问树莓派 3.1 安装Cpolar步骤 3.2 配置固定的公网地址 3.3 VNC远程连接测试 4. 固定远程连接公网地址 4.1 固定TCP地址测试 作者简介&#xff1…

在Windows系统上安装的 Arrow C++ 库

在Windows系统上安装的 Arrow C 库 正文第一步第二步第三步第四步注: 检查是否安装成功 吐槽 正文 第一步 git clone gitgithub.com:apache/arrow.git第二步 打开powershell (好像cmd也可以,不过我试了powershell中不报错,cmd中报错,不是很清楚为什么) 打开arrow的目录 cd …

利士策分享,如何培养良好的工作习惯?

利士策分享,如何培养良好的工作习惯? 在这个快节奏、高压力的职场环境中,培养良好的工作习惯不仅关乎个人职业发展的顺畅度, 更是提升工作效率、保持身心健康的关键。 以下是一些实用的建议,帮助你在日常工作中逐步构…

fiddler监听安卓http请求

下载安装Fiddler 官网 配置 选择Options 打开模拟器找到设置 打开app请求就能实现接口的监听了 https需要单独处理 参考 https://blog.csdn.net/lengdaochuqiao/article/details/88170522

靠AI视频在短视频平台接单月入过万,她怎么做到的?AI视频真的来了

大家好,我是画画的小强 相信大家和我一样,从小也有一个导演梦,感谢AI时代,替我完成了这个梦想,如果你想知道如何实现的,今天这篇文章,你一定要看完! 从去年11月份起,随…

MISC - 第三天(MSB二进制高地址位,ASCII编码,brainfuck编码)

前言 各位师傅大家好,我是qmx_07,今天继续讲解MISC题目 被嗅探的流量 观察题目信息,猜测可能是通过http网址传输文件,也可以查询内网ip进行筛查 过滤http协议,发现upload.php路径 查询POST提交请求 在第二条数据里…

【Python报错已解决】NameError: name ‘reload‘ is not defined

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 专栏介绍 在软件开发和日常使用中,BUG是不可避免的。本专栏致力于为广大开发者和技术爱好者提供一个关于BUG解决的经…

开学季好物合集!带你揭秘2024最全数码好物清单!学生党必看!

开学季总是令人充满期待与憧憬。对于学生党来说,拥有合适的学习装备和数码好物,不仅能提升学习效率,还能为校园生活增添诸多便利与乐趣。在科技飞速发展的今天,数码产品的更新换代日新月异,市场上琳琅满目的数码好物让…

数据结构算法题

目录 轮转数组原地移除数组中所有元素val删除有序数组中的重复项合并两个有序数组 轮转数组 思路1: 1.利用循环将最后一位数据放到临时变量(n)中 2.利用第二层循环将数据往后移一位 3.将变量(n)的数据放到数组第一位 时…

slam入门学习笔记

SLAM是Simultaneous localization and mapping缩写,意为“同步定位与建图”,主要用于解决机器人在未知环境运动时的定位与地图构建问题,目前广泛用于机器人定位导航领域,VR/AR方面,无人机领域,无人驾驶领域…

9.23每日作业

仿照string类&#xff0c;自己手动实现 My_string list.h #ifndef LIST_H #define LIST_H #include <iostream>using namespace std;class My_string { private:char *ptr;int size;int len;public://无参构造My_string();//有参构造My_string(const char * src);My_st…

哈希——字符串哈希

回顾/本期梗概 上期我们学习了图论基础&#xff08;空降链接&#xff09;&#xff0c;本期我们将学习哈希中的字符串哈希。 1、什么是哈希 哈希算法是&#xff1a;通过哈希函数讲字符串、较大的数等转换为能够用变量表示的或者是直接能作为数组下标的数&#xff0c;通过哈希算法…

代码随想录算法训练营Day13 | 递归遍历、迭代遍历、层序遍历

目录 递归遍历和迭代遍历&#xff1a; 144.二叉树的前序遍历 94.二叉树的中序遍历 145.二叉树的后序遍历 层序遍历&#xff1a; 102.二叉树的层序遍历 107.二叉树的层序遍历Ⅱ 199.二叉树的右视图 637.二叉树的层平均值 429.N叉树的层序遍历 515.在每个树行中找最大…

计算机组成体系与组成结构错题解析【软考】

目录 前言进制转换码制补码 CPU的组成输入/输出技术中断相关概念输入/输出技术的三种方式比较周期相关知识 主存编址计算流水线技术层次化存储体系可靠性 前言 本文专门用来记录本人在做软考中有关计算机上组成体系与组成结构的错题&#xff0c;我始终认为教学相长是最快提高的…

0-1开发自己的obsidian plugin DAY 2

今天上午解决了三个问题 1. typescript长得丑/一片飘红/格式检查太严格 在vscode的settings里搜索下面这个然后false掉&#xff1a; "typescript.validate.enable": false 就不会一片飘红了&#xff08;其他下载第三方插件如TSLint和typescript hero的方法都不好使&…

众数信科 AI智能体政务服务解决方案——寻知智能审查系统

政务服务解决方案 寻知智能审查方案 融合检察院起诉文书审查要求 能智能识别文书格式、内容缺失等错误 标记出不符合数百项监督提示点的内容 给出法律依据&#xff0c;正确率95% 3分钟助检察官完成起诉书审查 众数信科AI智能体 产品亮点 分析、理解行业知识和校验规则 A…

828华为云征文 | 云服务器Flexus X实例,基于宝塔搭建Typecho博客平台

828华为云征文 | 云服务器Flexus X实例&#xff0c;基于宝塔搭建Typecho博客平台 宝塔面板配置 华为云 Flexus X 实例购买 Flexus云服务器X实例-华为云 (huaweicloud.com) 1、下载宝塔面板&#xff0c;大约需要1~2分钟左右 yum install -y wget && wget -O install.sh…

NVIDIA发布端到端自动驾驶框架Hydra-MDP

自动驾驶是目前人工智能领域的一个主要分支&#xff0c;目前特斯拉的FSD确实是为数不多的大模型框架。与其说特斯拉是一个造车公司&#xff0c;不如说是一个人工智能大数据公司。特斯拉每天靠行驶在道路上的汽车搜集的道路数据不胜其数&#xff0c;而拥有海量的数据是人工智能领…