7月最新大模型排名!3700道保密试题、20个大模型参与评测|SuperCLUE

news2024/11/26 18:31:25

7月最新大模型排名!3700道保密试题、20个大模型参与评测|SuperCLUE

CLUE中文语言理解测评基准 

中文通用大模型综合性评测基准SuperCLUE 

2023年7月榜单

7月25日,SuperCLUE发布大模型7月榜单。

SuperCLUE: A Benchmark for Foundation Models in Chinese

图片

图片

SuperCLUE-Opt评测榜单

SuperCLUE-Opt评测基准是SuperCLUE综合性三大基准之一,每期有3700+道客观题(选择题),由基础能力(10个子任务)、中文特性能力(10个子任务)、学术专业能力(50+子任务)组成,用于考察大模型在70余个任务上的综合表现。

图片

7月榜单由4部分组成:总排行榜、基础能力榜单、中文特性榜单、开源模型榜单。

2023年7月SuperCLUE-Opt中文大模型总排行榜:

图片

注:国外代表性非开源模型(GPT4.0/Claude/gpt-3.5)参与榜单,但不参与排名

2023年7月SuperCLUE-Opt基础能力榜单:

图片

注:国外代表性非开源模型(GPT4.0/Claude/gpt-3.5)参与榜单,但不参与排名

2023年7月SuperCLUE-Opt中文特性榜单:

图片

注:国外代表性非开源模型(GPT4.0/Claude/gpt-3.5)参与榜单,但不参与排名

2023年7月SuperCLUE-Opt开源模型榜单:

图片

SuperCLUE认为榜上有名的都是英雄。

温馨提醒,此榜单仅用于学术研究,不作为投资建议。

排行榜会定期更新,可访问:

https://www.cluebenchmarks.com

https://github.com/CLUEbenchmark/SuperCLUE

图片

SuperCLUE7月评测变动

7月榜单有一些重要变动:

1. 增加了Claude-2、百川智能的Baichuan-13B-Chat、清华&智谱AI的ChatGLM2-6B、 上海人工智能实验室&商汤科技的internlm-chat-7b(书生浦语)、Meta新开源的Llama-2-13B-Chat

具体模型来源及版本信息,请访问:

https://github.com/CLUEbenchmark/SuperCLUE

2. 7月评测数据集与5、6月评测数据集完全独立,数量级为3728道测试题。

3. 新增开源模型榜单,方便中文社区开发者对比使用,并突出称赞各模型研发机构对于开源事业的贡献。

图片

SuperCLUE是什么?

SuperCLUE是中文通用大模型综合性评测基准,由三大基准组成,分别是:

一、SuperCLUE-Opt:客观题测试形式,三大能力+七十余子任务

详情点击文章:最新大模型排名!中文大模型评测基准SuperCLUE发布6月榜单

二、SuperCLUE-Open:主观题形式, 十大基础任务,可测开放域、多轮能力

详情点击文章:首测生成、多轮对话能力!SuperCLUE-Open中文大模型开放域测评基准发布

三、SuperCLUE-LYB琅琊榜:用户投票的匿名对战形式,也是本文发布的基准

详情点击文章:大模型对战平台「SuperCLUE琅琊榜」排名首发,国内大模型首超GPT3.5

SuperCLUE具有独特的优势

  • 保密性高:

SuperCLUE数据集保密性高,减少模型训练数据混入评测数据的可能性

  • 月考制:

SuperCLUE按照月考的形式进行评测,基于国内大模型研发机构的模型训练进度,模型月考与模型研发节奏保持同步。

  • 自动测评:

通过自动化测评方式以相对客观形式测试不同模型的效果,可以一键对大模型进行测评。

  • 模型范围宽泛:

选取了多个国内外有代表性的可用的模型进行测评,以反映国内大模型的发展现状并了解与国际领先模型的差距或相对优劣势。

  • 人类基准:

在通用人工智能发展的情况下,也提供了模型相对于人类效果的指标对比。

SuperCLUE不足与局限

  1. 选取模型的不完全:我们测试了一部分模型,但还存在着更多的可用中文大模型。需要后续进一步添加并测试;有的模型由于没有广泛对外提供服务,我们没能获取到可用的测试版本。

  2. 选取的能力范围:我们尽可能的全面、综合衡量模型的多维度能力,但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。

图片

SuperCLUE基准计划按照月度进行更新,会纳入更多可用中文大模型,欢迎大模型研发机构联系与交流,可在下方申请评测。

SuperCLUE榜单大模型评测申请:https://wj.qq.com/s2/12305633/a73d/

模型内测需求收集(非公开):https://wj.qq.com/s2/12307825/2ae0/

Github地址:https://github.com/CLUEbenchmark/SuperCLUE

CLUE官网:https://www.cluebenchmarks.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/784764.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【TypeScript】类型推断与类型别名的使用方式。

什么是类型推断? 在 TypeScript 中, 如果声明变量时,没有明确的指定类型,那么 TypeScript 会依照类型推论(Type Inference)的规则推断出一个类型。 以下代码虽然没有明确指定类型,但是会在编译的…

web安全漏洞总结

目录 (一)网络安全常见漏洞 1、sql注入漏洞 漏洞解释与形成原因 漏洞分类: 漏洞存在常见地方: 漏洞利用: 漏洞防御: 攻击流量特征 绕开waf拦截的常用方法 2、文件上传漏洞 漏洞解释与形成原因: 漏洞利用 漏…

20230720在ubuntu22.04系统下载+解密+合并ts切片的步骤

20230720在ubuntu22.04系统下载解密合并ts切片的步骤 2023/7/20 23:06 1、视频源头,打开时效肯定有时间限制的! 【并且不同时间打开,下载链接/参数会有区别的!以前的链接就会失效/出错了!】 https://app1ce7glfm1187.…

深“扒”云原生高性能分布式文件系统JuiceFS

JuiceFS 是一款面向云原生设计的高性能分布式文件系统,在 Apache 2.0 开源协议下发布。提供完备的 POSIX 兼容性,可将几乎所有对象存储接入本地作为海量本地磁盘使用,亦可同时在跨平台、跨地区的不同主机上挂载读写。 JuiceFS 简介 JuiceFS…

【100天精通python】Day13:面向对象编程_多态和封装,实战模拟电影院的自动售票机选票页面

目录 1 多态(Polymorphism) 2 封装(Encapsulation) 3 总结 4 实战:模拟电影院的自动售票机选票页面 在 Python 中,多态和封装是面向对象编程的两个重要概念。 1 多态(Polymorphism&#xf…

GoogleLeNet Inception V1

文章目录 Inception V1Inception Modulenative versionInception module with dimensionality reduction1 * 1网络的降维说明 多个Softmax的输出整体结构 GoogleLeNet主要是把深度扩充到了22层,能增加网络深度而不用担心训练精度和梯度消失问题。 总共是提出了4个版…

【stm32L152】段码屏驱动注解、MX_LCD_Init()初始化失败的解决方法

文章目录 断码屏驱动补充MX_LCD_Init()驱动初始化失败 断码屏驱动补充 已经有大神写过较详细的教程:https://blog.csdn.net/CSDN_Gao_16/article/details/115463499,但这篇博文仍然比较抽象,我看了好多遍才看明白-_-||,为了节省和…

金融中的数学:贝叶斯公式

1.贝叶斯定理 贝叶斯定理是概率论中的一项重要定理,用于在已知某一事件的条件下,求另一事件发生的概率。它是根据条件概率推导出来的,得名于英国数学家托马斯贝叶斯。 贝叶斯定理可以表示为: 这个式子就是贝叶斯公式&#xff0c…

LabVIEW使用自定义模板和示例项目来开发LabVIEW项目

LabVIEW使用自定义模板和示例项目来开发LabVIEW项目 创建项目时,LabVIEW将显示“创建项目”对话框,以帮助您选择模板或示例项目来作为开发起点。如果要使用您创建的项目作为自定义模板和示例项目,您必须将每个项目的源文件和元数据添加到相应…

算法与数据结构(四)--队列

一.队列的基本概念 队列是另一种特殊的表,这种表只在表首(也称为队首)进行删除操作,只在表尾进行插入操作。队列的修改是按先进先出的规则进行的,所以队列又称为先进先出表,First In First Out&#xff0c…

高温介电参数测试

高温介电参数测试 在新材料科研领域,高温介电参数的测量是众多高校和研究所经常会面临的问题。精科声学所事业部电子和专业的高温介电系统集成商合作,使用 JKZC-YDZK03A型高温压电阻抗综合分析仪进行配套系统集成,满足客户高温介电测量和曲线…

什么是 web3?

在百度搜索引擎输入 “Web3”、“大厂”。跳出来基本都是这样的标题. 以及如今的互联网行业 “哀鸿遍野”,不仅内卷,还裁员。然后掀起一阵风,猛吹 Web3 的好,数据回归用户……最后再 “威逼利诱” 一下,Web3 就是 20 年…

【业务功能篇50】ObjectMapper-将java对象转为json字符串

ObjectMapper可以实现Java对象和json字符串间互相转换,我们经常用到的是它的Java对象转json字符串功能。 这里目的是 Java对象 json字符串相互转换 api 【json字符串转为Java对象:readValue(json字符串,类.class)】【Java对象转为json字符串&#xff1a…

读kafka生产端源码,窥kafka设计之道(下)

背景 在上一篇文章《读kafka生产端源码,窥kafka设计之道(上)》 留下了kafka设计上比较优秀的一个点;内存的循环使用。本篇文章准备盘盘它。 好奇 为什么 kafka减少发送消息时向JVM频繁申请内存,就可以降低JVM GC的执…

idea 设置了 vm options后无法启动

今天想扩展ideaj的JVM 设置了 vm options后无法启动 找了很久,重新卸载后安装也没有用 后面直接打开idea的bat文件 找到自己idea使用的.vmoptions文件,我是因为之前idea有缓存,一直用的我修改的文件,后面删了就可以启动了

看了我项目中的商品功能设计,同事也开始悄悄模仿了...

商品功能作为电商系统的核心功能,它的设计可谓是非常重要的。就算不是电商系统中,只要是涉及到需要交易物品的项目,商品功能都具有很好的参考价值。今天就以mall项目中的商品功能为例,来聊聊商品功能的设计与实现。 mall项目简介 …

前端实习第一周周记

第一天 第一天来的时候,十点左右就开始跑代码了,公司发了电脑,但由于自己的电脑环境比较齐全,所以就先用自己的电脑跑的代码。 一共是两个项目,一个pc类似于管理系统,还有一个是微信小程序。 拉代码的过…

3DVR全景旅游,最新数字化智慧文旅

导语: 随着科技的飞速发展,3DVR全景旅游正以其独特的特点和无限的优势,成为当今智慧文旅的领航者。穿戴上VR设备,只需一个轻轻的点击,你将被带入一个全新的数字世界,领略美景、探索奇迹。让我们一起深入了…

el-Cascader 中div上绑定keyDown事件

keydown,keyup,keypress 事件默认是给页面上可以聚焦的元素绑定键盘事件,例如input输入框,点击输入框即代表聚焦在该元素上。那么想要给div或者其他不能聚焦的元素上使用键盘事件怎么处理呢?这里用到tabindex属性。 …

Idea maven窗口 展示不分级 maven层级混乱

1. 正在写分布式im 开源项目:nami-im: 分布式im, 集群 zookeeper netty kafka nacos rpc主要为gate(长连接服务) logic (业务) lsb (负载均衡)store(存储) - Gitee.com …