SuperCLUE:中文大模型基准测评2024年上半年报告

news2024/9/21 22:46:53

      SuperCLUE是一个中文通用大模型的综合性评测基准,其前身是CLUE(The Chinese Language Understanding Evaluation),自2019年成立以来,CLUE基准一直致力于提供科学、客观和中立的语言模型评测。SuperCLUE继承并发展了CLUE的测评体系,构建了一个多层次、多维度的综合性测评基准,以适应通用大模型在学术、产业与用户侧的广泛应用。

官方网址:CLUE中文语言理解基准测评

1 国内大模型关键进展及趋势

国内大模型的发展经历三个阶段:

1.1 具体进展

1.2 发展趋势

2 SuperCLUE通用能力测评

2.1测评维度

2.2 数据集

2.3 测评模型

2.4 测评结果

  • 准备期 (2022年12月 - 2023年2月): ChatGPT的发布引发了全球范围内对大模型的关注,国内产学研界迅速形成共识,积极布局大模型技术。
  • 成长期 (2023年2月 - 2023年12月): 国内大模型数量和质量开始逐渐增长,多家企业和研究机构发布了各自的大模型产品,例如百度文心一言、清华ChatGLM等。
  • 爆发期 (2023年12月至今): 各行各业开源闭源大模型层出不穷,形成“百模大战”的竞争态势,例如阿里云通义千问、华为盘古3.0、字节跳动豆包等。
  • 通用大模型: 国内外通用大模型数量持续增长,能力不断提升,例如GPT系列模型、文心一言、通义千问、GLM系列模型等。
  • 行业大模型: 各行各业开始探索大模型在特定场景的应用,例如医疗、金融、教育、工业等,例如岐黄问道、MindGPT、蚂蚁金融大模型、轩辕大模型等。
  • 开源模型: 开源大模型蓬勃发展,例如阿里云Qwen系列模型、百川智能Baichuan系列模型、零一万物Yi系列模型等。
  • 端侧小模型: 端侧小模型进展迅速,例如qwen2系列模型、Yi系列模型等,为在设备端侧本地运行大模型提供了可能性。
  • 差距缩小: 国内外大模型差距正在缩小,尤其在中文能力方面,国内模型取得了显著进步。
  • 开源崛起: 开源大模型发展迅速,在中文场景下展现出强大的竞争力。
  • 端侧发展: 端侧小模型发展潜力巨大,为在设备端侧本地运行大模型提供了可能性。
  • 场景应用: 大模型在各个行业的应用场景不断拓展,推动产业升级和数字化转型。
  • 通用能力评估: 考察大模型的基础能力,例如语言理解、生成创作、逻辑推理、代码能力等。
  • 专项能力评估: 考察大模型在特定场景下的应用能力,例如数学多步推理、检索增强生成、智能体、安全等。
  • 行业/应用评估: 考察大模型在特定行业或应用场景下的表现,例如医疗、汽车、金融、工业等。
  • 理科任务: 计算题、逻辑推理题、代码题等,考察大模型的数理逻辑能力和编程能力。
  • 文科任务: 知识百科题、语言理解题、长文本题、角色扮演题、生成与创作题、安全题、工具使用题等,考察大模型的语言理解能力、知识储备、文本生成能力等。
  • Hard任务: 精确指令遵循题、复杂任务多步推理题、高难度问题解决题等,考察大模型的极限能力。

2.4.1 国内外差距缩小

  • 国内外第一梯队大模型在中文领域的通用能力差距持续缩小,从 2023 年 5 月的 30.12% 缩小至 2024 年 6 月的 4.94%。
  • GPT-4o 依然领跑 SuperCLUE 基准测试,是唯一超过 80 分的大模型,展现出强大的语言、数理和指令遵循能力。
  • 国内大模型上半年发展迅速,例如 Qwen2-72B、AndesGPT、山海大模型 4.0 等模型,在多个维度上表现出色。

2.4.2 开源崛起

  • 开源模型 Qwen2-72B 在 SuperCLUE 基准中表现非常出色,超过众多国内外闭源模型,与 Claude-3.5 持平,与 GPT-4o 仅差 4 分。
  • 零一万物推出的 Yi-1.5-34B 在开源领域表现不俗,有超过 60 分的表现,较为接近部分闭源模型。

3 SuperCLUE专项与行业基准测评

3.1 专项基准测评

SuperCLUE 推出了多个专项基准测评,详情如下:

  • SuperCLUE-Math6: 中文数学多步推理测评基准,旨在评估和提升中文大模型在数学推理方面的核心能力。
  • SuperCLUE-Code3: 中文原生等级化代码能力测评基准,通过功能性单元测试,评估和提升中文大模型在代码生成方面的核心能力。
  • SuperCLUE-Agent: 中文智能体测评基准,评估大语言模型在核心 Agent 能力上的表现,包括工具使用、任务规划和长短期记忆能力。
  • SuperCLUE-Safety: 中文大模型多轮对抗安全基准,检验模型在遵守基本道德法律标准、与人类价值观的对齐,以及抵御潜在攻击等方面的能力。
  • SuperCLUE-RAG: 中文原生检索增强生成测评基准,全方位、多角度地对 RAG 技术水平进行测评。
  • SuperCLUE-200K: 中文超长文本测评基准,考察大模型在超长文本中的处理能力。
  • SuperCLUE-Role: 中文角色扮演测评基准,评估和提升中文大模型在角色扮演方面的心智模拟、场景应用和人际交往等能力。

3.2 行业基准测评

SuperCLUE 还推出了多个行业基准测评,详情如下:

  • SuperCLUE-Auto: 汽车行业中文大模型测评基准,评估大模型在汽车场景下的各项能力,例如车辆使用指南、智能座舱与交互等。
  • SuperCLUE-Industry: 工业行业中文大模型测评基准,评估大模型在工业场景下的各项能力,例如设备维护、生产计划等。
  • SuperCLUE-Fin: 金融行业中文大模型测评基准,评估大模型在金融场景下的各项能力,例如风险控制、投资决策等。
  • SuperCLUE-ICabin: 汽车智能座舱大模型测评基准,评估大模型在汽车智能座舱场景下的各项能力,例如语音交互、图像感知等。

如要进一步了解测评细节可以下载PDF文件,下载地址如下:

https://download.csdn.net/download/robinfang2019/89534923

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1926453.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【前端Vue3】——Vue基础知识点总结(万字总结)

🎼个人主页:【Y小夜】 😎作者简介:一位双非学校的大二学生,编程爱好者, 专注于基础和实战分享,欢迎私信咨询! 🎆入门知识专栏:🎇【MySQL&#…

24.7.14(板刷数据结构,警钟长鸣)

上周六: 算是暑假训练第一天,期末考完了真好 cf round951 div2 D cf传送门 之前用正解补过,又臭又长,写完就跑了,这次用哈希补一发 思路:目标字符…

2022睿抗CAIP-编程技能赛-本科组省赛(c++)(未完结)

RC-u1 不要浪费金币 模拟 AC: #include<iostream> #define int long long using namespace std; const int N1e35; int n,m,p[N],ans; signed main(){cin>>n>>m;for(int i1;i<n;i) cin>>p[i];int sum0;for(int i1;i<n;i){if(sump[i]<m) sump…

昇思25天学习打卡营第21天|ResNet50迁移学习

在实际应用场景中&#xff0c;由于训练数据集不足&#xff0c;所以很少有人会从头开始训练整个网络。普遍的做法是&#xff0c;在一个非常大的基础数据集上训练得到一个预训练模型&#xff0c;然后使用该模型来初始化网络的权重参数或作为固定特征提取器应用于特定的任务中。 …

STM32MP135裸机编程:BOOT跳转到APP前关闭所有中断、清除所有中断挂起标志操作方法

0 前言 一般来说&#xff0c;MCU/SOC的BOOT在跳转到APP前都需要进行环境清理的操作&#xff0c;其中必须进行的一项操作便是关闭所有中断、清除所有中断挂起标志。本文介绍基于STM32MP135裸机编程下关闭所有中断、清除所有中断挂起标志的操作方法。 1 操作方法 STM32MP135裸…

缓存与分布式锁

一、缓存 1、缓存使用 为了系统性能的提升&#xff0c;我们一般都会将部分数据放入缓存中&#xff0c;加速访问。 适合放入缓存的数据有&#xff1a; 即时性、数据一致性要求不高的&#xff1b;访问量大且更新频率不高的数据。 在开发中&#xff0c;凡是放入缓存中的数据我们都…

机器人前沿--PalmE:An Embodied Multimodal Language Model 具身多模态大(语言)模型

首先解释这篇工作名称Palm-E&#xff0c;发表时间为2023.03&#xff0c;其中的Palm是谷歌内部在2022.04开发的大语言模型&#xff0c;功能类似ChatGPT&#xff0c;只是由于各种原因没有那样火起来&#xff0c;E是Embodied的首字母&#xff0c;翻译过来就是具身多模态大语言模型…

基于5个K7的多FPGA PCIE总线架构的高性能数据预处理平台

板载FPGA实时处理器&#xff1a;XCKU060-2FFVA15172个QSFP光纤接口&#xff0c;最大支持10Gbps/lane板载DMA控制器&#xff0c;能实现双向DMA高速传输支持x8 PCIE主机接口&#xff0c;系统带宽5GByte/s1个R45自适应千兆以太网口1个FMC子卡扩展接口 基于PCIE总线架构的高性能数据…

c++包管理器

conan conan search&#xff0c;查看网络库 conan profile detect&#xff0c;生成缓存信息conan new cmake_exe/cmake_lib&#xff0c;创建cmakelists.txtconan install .&#xff0c;执行Conanfile.txt中的配置&#xff0c;生成相关的bat文件 项目中配置Conanfile.txt(或者…

【学习笔记】无人机(UAV)在3GPP系统中的增强支持(十一)-无人机服务可用性用例需求

引言 本文是3GPP TR 22.829 V17.1.0技术报告&#xff0c;专注于无人机&#xff08;UAV&#xff09;在3GPP系统中的增强支持。文章提出了多个无人机应用场景&#xff0c;分析了相应的能力要求&#xff0c;并建议了新的服务级别要求和关键性能指标&#xff08;KPIs&#xff09;。…

口袋算法的示例

原理 口袋算法是感知器(Perceptron)算法的一种改进。感知器算法是一种线性分类算法,但在训练数据不是线性可分的情况下,它可能无法收敛,即无法找到一个线性分类器来正确分类所有的训练样本。为了解决这个问题,口袋算法引入了一个"口袋"(Pocket),用来存储迄…

Redis② —— Redis线程模型

1. Redis是单线程吗&#xff1f; 指 接受客户请求 --> 解析请求 --> 进行数据读写操作 --> 发送数据给客户端 这个过程由一个主线程完成redis程序并不是单线程的&#xff0c;在启动时会启动后台进程 2.6之前启动两个后台线程&#xff0c;分别处理关闭文件、AOF刷盘4.…

Go 语言返回组装数据

文章id 文章标题 ..... 分类 字段 &#xff1a;[分类名&#xff0c;分类描述 .... ]标签字段 : [标签名, 标签id ..... ]type ArticleWithCategoryLabel struct {system.SysArticleCategoryName system.SysCategorie json:"category_name"LabelName system.SysLab…

CSS选择器(1)

以内部样式表编写CSS选择器&#xff0c;其主要编写在<head></head>元素里&#xff0c;通过<style></style>标签来定义内部样式表。 基本语法为&#xff1a; 选择器{ 声明块 } 声明块&#xff1a;是由一对大括号括起来&#xff0c;声明块中是一个一个的…

23种设计模式之责任链模式

责任链模式 1、定义 避免将一个请求的发送者与接受者耦合在一起&#xff0c;让多个对象都有机会处理请求。将接受请求的对象连接成一条链&#xff0c;并且沿着这条链传递请求&#xff0c;直到有一个对象能够处理它为止 2、责任链模式结构 Handler(抽象处理者)&#xff1a;定…

使用Python和MediaPipe实现手势控制音量(Win/Mac)

1. 依赖库介绍 OpenCV OpenCV&#xff08;Open Source Computer Vision Library&#xff09;是一个开源的计算机视觉和机器学习软件库。它包含了数百个计算机视觉算法。 MediaPipe MediaPipe是一个跨平台的机器学习解决方案库&#xff0c;可以用于实时人类姿势估计、手势识…

什么是im即时通讯?WorkPlus im即时通讯私有化部署安全可控

IM即时通讯是Instant Messaging的缩写&#xff0c;指的是一种实时的、即时的电子信息交流方式&#xff0c;也被称为即时通讯。它通过互联网和移动通信网络&#xff0c;使用户能够及时交换文本消息、语音通话、视频通话、文件共享等信息。而WorkPlus im即时通讯私有化部署则提供…

[MySQL][表的约束][二][主键][自增长][唯一键][外键]详细讲解

目录 1.主键2.自增长1.是什么&#xff1f;2.索引 3.唯一键4.外键1.为什么&#xff1f;2.是什么&#xff1f;3.如何理解外键约束&#xff1f; 5.综合案例 -- 阅读 1.主键 主键&#xff1a;primary key用来唯一的约束该字段里面的数据&#xff0c;不能重复&#xff0c;不能为空&a…

Linux系列--命令详解

目录 一、Linux资源管理方式 二、查询类型命令详解 三、文件管理类型命令详解 四、文件压缩与解压 五、文件编辑 六、系统命令 七、文件内容查看命令 一、Linux资源管理方式 linux操作系统采用一个文档树来组织所有的资源。这棵树的根目录的名字叫做&#xff1a;//…

护网HW面试常问——webshell内存马流量特征以及查杀

参考&#xff1a;学习干货|HVV必学远控工具及Webshell流量合集分析(建议收藏附面试题) 蚁剑 ini_set ini_set_time ini_set_limit ini_set("display_errors","0") 部分代码明文传输&#xff0c;较好辨认 哥斯拉 1、User-Agent (弱特征) 在默认的情况…