SuperCLUE：中文大模型基准测评2024年上半年报告

news2026/2/15 20:16:49

SuperCLUE是一个中文通用大模型的综合性评测基准，其前身是CLUE（The Chinese Language Understanding Evaluation），自2019年成立以来，CLUE基准一直致力于提供科学、客观和中立的语言模型评测。SuperCLUE继承并发展了CLUE的测评体系，构建了一个多层次、多维度的综合性测评基准，以适应通用大模型在学术、产业与用户侧的广泛应用。

官方网址：CLUE中文语言理解基准测评

1 国内大模型关键进展及趋势

国内大模型的发展经历三个阶段：

1.1 具体进展

1.2 发展趋势

2 SuperCLUE通用能力测评

2.1测评维度

2.2 数据集

2.3 测评模型

2.4 测评结果

准备期 (2022年12月 - 2023年2月): ChatGPT的发布引发了全球范围内对大模型的关注，国内产学研界迅速形成共识，积极布局大模型技术。
成长期 (2023年2月 - 2023年12月): 国内大模型数量和质量开始逐渐增长，多家企业和研究机构发布了各自的大模型产品，例如百度文心一言、清华ChatGLM等。
爆发期 (2023年12月至今): 各行各业开源闭源大模型层出不穷，形成“百模大战”的竞争态势，例如阿里云通义千问、华为盘古3.0、字节跳动豆包等。
通用大模型: 国内外通用大模型数量持续增长，能力不断提升，例如GPT系列模型、文心一言、通义千问、GLM系列模型等。
行业大模型: 各行各业开始探索大模型在特定场景的应用，例如医疗、金融、教育、工业等，例如岐黄问道、MindGPT、蚂蚁金融大模型、轩辕大模型等。
开源模型: 开源大模型蓬勃发展，例如阿里云Qwen系列模型、百川智能Baichuan系列模型、零一万物Yi系列模型等。
端侧小模型: 端侧小模型进展迅速，例如qwen2系列模型、Yi系列模型等，为在设备端侧本地运行大模型提供了可能性。
差距缩小: 国内外大模型差距正在缩小，尤其在中文能力方面，国内模型取得了显著进步。
开源崛起: 开源大模型发展迅速，在中文场景下展现出强大的竞争力。
端侧发展: 端侧小模型发展潜力巨大，为在设备端侧本地运行大模型提供了可能性。
场景应用: 大模型在各个行业的应用场景不断拓展，推动产业升级和数字化转型。
通用能力评估: 考察大模型的基础能力，例如语言理解、生成创作、逻辑推理、代码能力等。
专项能力评估: 考察大模型在特定场景下的应用能力，例如数学多步推理、检索增强生成、智能体、安全等。
行业/应用评估: 考察大模型在特定行业或应用场景下的表现，例如医疗、汽车、金融、工业等。
理科任务: 计算题、逻辑推理题、代码题等，考察大模型的数理逻辑能力和编程能力。
文科任务: 知识百科题、语言理解题、长文本题、角色扮演题、生成与创作题、安全题、工具使用题等，考察大模型的语言理解能力、知识储备、文本生成能力等。
Hard任务: 精确指令遵循题、复杂任务多步推理题、高难度问题解决题等，考察大模型的极限能力。