号称「碾压」LLaMA的Falcon实测得分仅49.08

news2026/2/12 19:41:53

作为开源模型界的扛把子，LLaMA 一直备受瞩目。

这是一组由 Meta 开源的大型语言模型，共有 7B、13B、33B、65B 四种版本。其中，LLaMA-13B 在大多数数据集上超过了 GPT-3（175B），LLaMA-65B 达到了和 Chinchilla-70B、PaLM-540B 相当的水平。

自 2 月份发布以来，开源社区一直在 LLaMA 的基础上进行二创，先后推出了 Alpaca、Vicuna 等多个「羊驼」大模型，生物学羊驼属的英文单词都快被用光了。

不过，也有人对 LLaMA 发起了挑战。5 月底，阿联酋阿布扎比的技术创新研究所（TII）开源了一个 400 亿参数的因果解码器模型「Falcon-40B」，该模型在 RefinedWeb 的 1 万亿个 token 上进行了训练，并使用精选数据集增强。刚一发布，「Falcon-40B」就冲上了 Huggingface 的 OpenLLM 排行榜首位，「碾压」了参数规模 1.5 倍的「LLaMA-65B」，也优于 MPT、RedPajama 和 StableLM 等开源大模型。

后来，Falcon-40B Instruct 版本占据了排行榜首位，Falcon-40B 则退到了第三，而 LLaMA-65B 已经掉到了第六位。

不过，仔细看过数据之后，围观者产生了疑问：为什么在 HuggingFace 的 Open LLM 排行榜上，LLaMA-65B 的 MMLU 这项分数是 48.8，明显低于官方数据 63.4？

HuggingFace 的 Open LLM 排行榜。地址：https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

LLaMA 论文中的 MMLU 数据。MMLU 是 Massive Multitask Language Understanding 的缩写，是一个基准数据集，旨在通过仅在零样本和少样本设置下评估模型来衡量预训练期间获取的知识。它由一系列学术科目中类似考试的问题组成，用于测试模型对于世界理解的能力。

还有人表示，在测 Falcon-40B 时，他们也复现不了排行榜上的分数。

面对这样的争议，Karpathy 等大牛选择了谨慎观望。

爱丁堡大学博士生符尧等则选择自己测一遍。

简而言之，他们在 Chain-of-thought Hub 上重新写了开源的 LLaMA eval 代码，然后在同样的设定下，用官方 prompt，fp16，HF 默认代码，公平比较了 Falcon 和 LLaMA 在 MMLU 上的表现。

「没有花哨的 prompt 工程和解码，一切都是在默认设置下进行的。」符尧在推文中写道。

6 月 8 日，他们公布了第一批结果：LLaMA 65B 的 MMLU 得分为 61.4，比较接近官方数字（63.4），明显高于其 Open LLM Leaderboard 分数 48.8，且远高于 Falcon-40B 的 Leaderboard 分数 52.7。

初步来看，「你大爷还是你大爷」。不过，这还不是 LLaMA 65B 的真实实力。在 6 月 10 日凌晨公布的第二波结果中，符尧解释说，他们在第一波测评中发现了一个「long prompt」引起的 bug，这个 bug 导致 LLaMA 在高中欧洲历史和高中美国历史上得到 0 分。在修复了这个 bug 后，LLaMA 得分变成了 63.64，与论文中报道的数字基本相同。