中文大语言和多模态模型测评

news2025/4/19 11:21:40

Notion – The all-in-one workspace for your notes, tasks, wikis, and databases.A new tool that blends your everyday work apps into one. It's the all-in-one workspace for you and your teamhttps://yaofu.notion.site/C-Eval-6b79edd91b454e3d8ea41c59ea2af873排行榜 | C-Eval: 一个适用于大语言模型的多层次多学科中文评估套件https://cevalbenchmark.com/static/leaderboard_zh.htmlhttps://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboardhttps://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboardGitHub - HqWu-HITCS/Awesome-Chinese-LLM: 整理开源的中文大语言模型，以规模较小、可私有化部署、训练成本较低的模型为主，包括底座模型，垂直领域微调及应用，数据集与教程等。整理开源的中文大语言模型，以规模较小、可私有化部署、训练成本较低的模型为主，包括底座模型，垂直领域微调及应用，数据集与教程等。 - GitHub - HqWu-HITCS/Awesome-Chinese-LLM: 整理开源的中文大语言模型，以规模较小、可私有化部署、训练成本较低的模型为主，包括底座模型，垂直领域微调及应用，数据集与教程等。https://github.com/HqWu-HITCS/Awesome-Chinese-LLMhttps://huggingface.co/spaces/AILab-CVC/SEED-Bench_Leaderboardhttps://huggingface.co/spaces/AILab-CVC/SEED-Bench_LeaderboardGitHub - BradyFU/Awesome-Multimodal-Large-Language-Models at Evaluation:sparkles::sparkles:Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation. - GitHub - BradyFU/Awesome-Multimodal-Large-Language-Models at Evaluationhttps://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/EvaluationMMBenchhttps://mmbench.opencompass.org.cn/leaderboard中文大语言模型：

C-Eval/OpenCompass/SuperCLUE/GAOKAO/Open LLM Leaderboard/CMMLU/MMCU/，C-Eval和Open LLM Leaderboard这两个榜单都比较不错。

C-Eval：MMLU/MATH/BBH，MMLU考虑了57个学科，从人文到社科到理工多个大类的综合知识能力，C-Eval包括4个大方向，52个学科，从中学到大学研究生以及职业考试，一共13948道题目的中文知识和推理型测试集。

1.模型强弱的核心指标

区分模型强弱的核心指标：知识和推理。知识型能力可以很好的衡量底座模型的潜力，推理能力是在知识的基础上进一步上升的能力，它代表模型是否能做很困难，很复杂的事情。

知识型的能力是模型能力的基础，推理能力是进一步的升华 — 模型要推理也是基于现有的知识图里。
知识性任务的榜单上，模型大小和模型分数一般是连续变化的，不大会因为模型小就出现断崖式下跌 — 从这个角度来说知识型的任务更有区分度一点。
推理型任务的榜单上，模型大小和模型分数可能存在相变，只有当模型大到一定程度之后（大概是 50B 往上，也就是 LLaMA 65B 这个量级），模型推理能力才会上来。
对于知识性的任务，Chain-of-thought (CoT) prompting 和 Answer-only (AO) prompting 的效果是差不多的；对于推理型任务，CoT 显著好于 AO.
所以这边需要记住一下，CoT 只加推理效果不加知识效果。在 C-Eval 数据集中，我们也观察到了这个现象。

2.C-Eval的目标

对标MMLU（GPT3.5/GPT4/PaLM/Gopher/Chinchilla）

3.数据集制作

从头开始手工制作数据集，并且防止题目被爬虫爬到训练集里。

C-Eval里面的题目大多数来源于pdf和word文件，先把pdf文件用ocr来电子化，把格式统一转成Markdown，其中数理部分统一用latex表示，公式处理，能转latex直接转，转不了就手动输入，