智源与HuggingFace联合推出开放中文大语言模型榜单 - 旗鉴榜

news2025/1/16 2:06:26

图片

近日,智源研究院与 Hugging Face 开发者社区合作,发布 Open Chinese LLM Leaderboard,旨在跟踪、排名和评估开放式中文大语言模型,通过开源社区共建、用户自主贡献的方式,持续推动和完善中文语言大模型的科学、客观排名榜。该评测从2月24日试上线至今,已经完成了78个模型的评测,当前正在评测的有7个,还有20个在队列中。

了解更多,请访问

https://huggingface.co/spaces/BAAI/open_cn_llm_leaderboard

在以往的Hugging Face社区上,始终缺乏一个开放共建更具客观性质的中文榜单,而Open-Chinese-LLM-leaderboard的建设填补了这一部分的空白。

图片

Hugging Face Spaces页

共建共享,推动技术进步

任何技术的长远发展都离不开社区的广泛参与和贡献。而Open-Chinese-LLM-leaderboard的建设初衷,是期望依托Hugging Face这一开源社区平台,鼓励和吸引更多的中文大语言模型开发者加入,共同推动中文大语言模型的持续进步与完善,为中文大语言模型的发展提供强有力的支撑。

图片

Open-Chinese-LLM-leaderboard主页图

公正、标准化的评估流程

为确保评估的公正性,所有的模型均通过FlagEval平台提供的底层能力进行评估,FlagEval平台为该榜单提供评测服务与社区共建的相关数据集,同时使用平台标准化的GPU和统一的评估环境进行测试,保障评估结果的可比性和可信度。

采用更全面的数据集

Open Chinese LLM Leaderboard基于Eleuther AI Language Model Evaluation Harness评测框架,对模型在七个关键基准上进行评估,所有采用的英文数据集均已完成中文的转换。

在数据集方面,针对中文大语言模型的评估,该Leaderboard 将相关的英文数据集,进行了中文的翻译与校验。为了更好的评估中文大语言模型的能力,该Leaderboard 提供了更加完善的基准数据集,覆盖学科教育、专业知识、推理、幻觉和常识。最终得分为每个评估数据集的平均得分,包含以下数据集:

ARC (25-shot)

包含7,787个科学考试问题,源自不同来源,要求模型在25个示例后进行推理,用于评估模型的多步推理能力,已翻译为中文。

HellaSwag (10-shot) 

用于评估常识推理的挑战性数据集,它特别难以应对现有的先进模型,尽管问题对人类来说非常简单(准确率 >95%),已翻译为中文。

TruthfulQA (0-shot) 

包含817个问题,覆盖38个类别,旨在衡量语言模型在生成答案时是否真实,以及它们是否倾向于复制人类的虚假信息,已翻译为中文。

Winogrande (5-shot) 

是一个大规模对抗性高难度 Winograd 基准,用于常识推理,要求模型在5个示例后进行推理,已翻译为中文。

GSM8k (5-shot) 

是一个包含8,000个问题的小学数学数据集,用于衡量模型解决多步骤数学推理问题的能力,它要求模型展示出对数学问题的深入理解,已翻译为中文。

C-SEM_v2 (5-shot) 

针对中文模型的综合语义评估基准,侧重于通过多样化和具有挑战性的任务评估词汇和句子层面的语义理解。

CMMLU (5-shot) 

专为中文模型设计的基准,用于评估文本模型在 67 个不同任务中的多任务准确性。这些任务涵盖数学、中国文学、计算机科学、法律等学科,突出了该基准对中文文本处理能力的关注。

这些数据集不仅全面,而且深入,能够全方位地评估语言模型的性能。

诚邀开发者与我们共建

我们十分重视不同开发者和用户的反馈与建议,也期望大家能够参与到Open Chinese LLM Leaderboard的建设中来,共同探讨评估体系的演化与提升,感兴趣的用户可以直接在Hugging Face的submit页面添加需要评估的模型,参与评测。我们期待与全球的开发者与研究人员共同推动中文大语言模型的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1713027.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

TPM是如何平衡设备维护与生产需求的?

在当今快节奏的生产环境中,设备维护与生产需求之间的平衡成为了企业持续发展的关键所在。TPM(全面生产维护)作为一种先进的生产管理理念,为企业提供了实现这一平衡的有效路径。具体如深圳天行健精益管理咨询公司下文所述&#xff…

记录使用自定义编辑器做试题识别功能

习惯了将解析写在代码注释,这里就直接上代码啦,里面用到的bxm-ui3组件库是博主基于element-Plus做的,可以通过npm i bxm-ui3自行安装使用 // 识别方法: // dom 当前识别数据所在区域, questionType 当前点击编辑选择的题目类型&a…

docker的介绍、原理及操作

一、docker介绍 1.容器技术介绍 Container 即容器,平时生活中指的是可以装下其它物品的工具, 以方便人类归纳放置物品 、存储和异 地运输 ,比如人类使用的衣柜 、行李箱、 背包等可以成为容器,Container 除了容器以外&#xff…

Simulink从0搭建模型06-P7模型中结构体的使用

Simulink从0搭建模型06-P7模型中结构体的使用 本节课学习内容1. 结构体的创建 Bus Creator(多输入单输出)2. 结构体的引用 Bus Selector(单输入多输出)3. 结构体的赋值 Bus Assignment4. 结构体对象的创建 Bus object5. 结构体数组…

vue3 vant4实现抖音短视频功能

文章目录 1. 实现效果2. 精简版核心代码3. 完整功能点&#xff08;本文章不写&#xff0c;只写核心代码&#xff09; 1. 实现效果 2. 精简版核心代码 使用的 vue3 vant4组件使用van-swipe进行轮播图切换实现 <template><div :style"{width: width px,overflo…

Spark中的累加器与广播变量及blockmanager图解

一、累加器 1、累加器的引入 案例&#xff1a;没读取一条文件中的数据&#xff0c;count1&#xff0c;并打印在Drive端&#xff08;控制台&#xff09; import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.rdd.RDDobject Demo20Accumulator {def ma…

做电商,错过了2020年的抖音!那2024一定要选择视频号小店!

哈喽~我是电商月月 电商老板们集合了&#xff0c;问大家一个问题: 如果能让你回到三四年前&#xff0c;抖音才步入大众视野&#xff0c;这时候让你去做抖音小店&#xff0c;你愿意吗&#xff1f; 我敢相信&#xff01;很多&#xff0c;错过当年抖音红利的商家&#xff0c;一…

【每日力扣】300. 最长递增子序列 与 139. 单词拆分

&#x1f525; 个人主页: 黑洞晓威 &#x1f600;你不必等到非常厉害&#xff0c;才敢开始&#xff0c;你需要开始&#xff0c;才会变的非常厉害 300. 最长递增子序列 给你一个整数数组 nums &#xff0c;找到其中最长严格递增子序列的长度。 子序列 是由数组派生而来的序列&…

【计算机网络】P1 计算机网络概念、组成、功能、分类、标准化工作以及性能评估指标

目录 1 什么是计算机网络2 计算机网络的组成2.1 组成部分上2.2 工作方式上2.3 功能组成上 3 计算机网络的功能3.1 数据通信3.2 资源共享3.3 分布式处理3.4 提高可靠性3.5 负载均衡 4 计算机网络的分类4.1 按分布范围分类4.2 按传输技术分类4.3 按照拓扑结构分类4.4 按使用者分类…

网络智能化的发展对仿真环境的需求

1. 网络智能化背景介绍 1.1 什么是网络智能化 网络智能化是指利用人工智能&#xff08;AI&#xff09;、机器学习&#xff08;ML&#xff09;、优化算法等技术来实现网络的信息化、自动化和智能化。相对5G、6G、算力网络等领域&#xff0c;网络智能化是针对网络全场景、全要素…

低调收藏,这份MobaXterm使用指南很全面

中午好&#xff0c;我的网工朋友。 MobaXterm&#xff0c;这个名字对于我们这些经常需要在Windows环境下与Linux服务器打交道的人来说&#xff0c;应该并不陌生。它不仅仅是一个SSH客户端&#xff0c;更是一个功能强大的终端工具箱&#xff0c;集成了X服务器和Unix命令集&…

HiWoo Box工业4G网关

在飞速发展的工业4.0时代&#xff0c;数据已成为驱动工厂智能化、自动化的核心力量。而如何将这些散布在工厂各个角落的数据高效、安全地汇集起来&#xff0c;成为企业提升生产效率、降低运营成本的关键。今天&#xff0c;我们将为您介绍一款4G网关产品——HiWoo Box&#xff0…

【嵌入式模块芯片开发】DWIN的T5L _DGUS应用开发 显示屏的基本图形显示以及串口命令的动态数据波形功能实现

【嵌入式模块芯片开发】DWIN的T5L _DGUS应用开发 显示屏的基本图形显示以及串口命令的动态数据波形功能实现 T5L _DGUS应用在DWIN的各类显示屏中 如DMG80480T070_05WTR等等 可用DWIN官方工具生成一系列上位机显示控件 通过串口命令进行交互实现显示、触摸等功能 也可以进行C51…

【上】王树森《小红书推荐系统公开课》- 课程笔记(推荐系统基础、召回、排序)

写在前面 本文为王树森老师《小红书推荐系统公开课》的课程笔记 课程来源&#xff1a;ShusenWang的个人空间-ShusenWang个人主页-哔哩哔哩视频 (bilibili.com)课程资料&#xff1a;GitHub - wangshusen/RecommenderSystem 由于篇幅较长&#xff0c;分为【上】【下】两篇文章…

HTML静态网页成品作业(HTML+CSS)——动漫海贼王介绍网页(1个页面)

&#x1f389;不定期分享源码&#xff0c;关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 &#x1f3f7;️本套采用HTMLCSS&#xff0c;未使用Javacsript代码&#xff0c;共有1个页面。 二、作品演示 三、代…

VSCode 报错 之 运行 js 文件报错 ReferenceError: document is not defined

1. 背景 持续学习ing 2. 遇到的问题 在VSCode 右键 code runner js 文件报错 ReferenceError: document is not defined eg&#xff1a; // 为每个按钮添加点击事件监听器 document.querySelectorAll(button).forEach(function (button) {button.addEventListener(click, f…

全面盘点多模态融合算法及应用场景

关注作者&#xff0c;分享AI全维度知识。作者拥有10年互联网服务架构、AI产品研发经验、团队管理经验&#xff0c;同济本复旦硕博&#xff0c;复旦机器人智能实验室成员&#xff0c;阿里云认证的资深架构师&#xff0c;项目管理专业人士&#xff0c;上亿营收AI产品研发负责人 多…

AI 绘图要如何入门?有哪些好用的软件推荐?(附工具+教程+变现模式)

1.Ai绘画如何入门 不需要把Ai绘画想的很复杂 抛去复杂的应用 使用现成简单的工具 只需要学会提示词 描述你想要的画面即可 提示词 不需要太复杂&#xff0c;也不能太简单&#xff0c;太简单依赖于ai的基本样式&#xff0c;关键是要抓住你想要的核心描述 AI不太擅长理解人类的…

Flask和Django的对比

文章目录 1. 简介FlaskDjango 2. 安装和创建项目FlaskDjango 3. URL路由FlaskDjango 4. 数据库支持FlaskDjango 5. 管理后台FlaskDjango 6. 总结 Flask和Django都是Python Web框架&#xff0c;它们在开发Web应用程序时都能提供强大的功能。本文将对这两个框架进行对比&#xff…

PPT 隐藏开启对象图层

目录预览 一、问题描述二、解决方案三、参考链接 一、问题描述 制作PPT的时候&#xff0c;有时候需要在一张PPT放置多个依次出现的内容&#xff0c;然后设置对应的动画&#xff0c;要是需要对某个内容进行修改的话&#xff0c;就会很不方便&#xff0c;这个时候就需要使用&…