号称「碾压」LLaMA的Falcon实测得分仅49.08

news2024/11/16 23:40:57

作为开源模型界的扛把子,LLaMA 一直备受瞩目。

这是一组由 Meta 开源的大型语言模型,共有 7B、13B、33B、65B 四种版本。其中,LLaMA-13B 在大多数数据集上超过了 GPT-3(175B),LLaMA-65B 达到了和 Chinchilla-70B、PaLM-540B 相当的水平。

2 月份发布以来,开源社区一直在 LLaMA 的基础上进行二创,先后推出了 Alpaca、Vicuna 等多个「羊驼」大模型,生物学羊驼属的英文单词都快被用光了。

不过,也有人对 LLaMA 发起了挑战。5 月底,阿联酋阿布扎比的技术创新研究所(TII)开源了一个 400 亿参数的因果解码器模型「Falcon-40B」,该模型在 RefinedWeb 的 1 万亿个 token 上进行了训练,并使用精选数据集增强。刚一发布,「Falcon-40B」就冲上了 Huggingface 的 OpenLLM 排行榜首位,「碾压」了参数规模 1.5 倍的「LLaMA-65B」,也优于 MPT、RedPajama 和 StableLM 等开源大模型。

后来,Falcon-40B Instruct 版本占据了排行榜首位,Falcon-40B 则退到了第三,而 LLaMA-65B 已经掉到了第六位。

不过,仔细看过数据之后,围观者产生了疑问:为什么在 HuggingFace 的 Open LLM 排行榜上,LLaMA-65B 的 MMLU 这项分数是 48.8,明显低于官方数据 63.4?

HuggingFace 的 Open LLM 排行榜。地址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

LLaMA 论文中的 MMLU 数据。MMLU 是 Massive Multitask Language Understanding 的缩写,是一个基准数据集,旨在通过仅在零样本和少样本设置下评估模型来衡量预训练期间获取的知识。它由一系列学术科目中类似考试的问题组成,用于测试模型对于世界理解的能力。

还有人表示,在测 Falcon-40B 时,他们也复现不了排行榜上的分数。

面对这样的争议,Karpathy 等大牛选择了谨慎观望。

爱丁堡大学博士生符尧等则选择自己测一遍。

简而言之,他们在 Chain-of-thought Hub 上重新写了开源的 LLaMA eval 代码,然后在同样的设定下,用官方 prompt,fp16,HF 默认代码,公平比较了 Falcon 和 LLaMA 在 MMLU 上的表现。

「没有花哨的 prompt 工程和解码,一切都是在默认设置下进行的。」符尧在推文中写道。

6 月 8 日,他们公布了第一批结果:LLaMA 65B 的 MMLU 得分为 61.4,比较接近官方数字(63.4),明显高于其 Open LLM Leaderboard 分数 48.8,且远高于 Falcon-40B 的 Leaderboard 分数 52.7。

初步来看,「你大爷还是你大爷」。不过,这还不是 LLaMA 65B 的真实实力。在 6 月 10 日凌晨公布的第二波结果中,符尧解释说,他们在第一波测评中发现了一个「long prompt」引起的 bug,这个 bug 导致 LLaMA 在高中欧洲历史和高中美国历史上得到 0 分。在修复了这个 bug 后,LLaMA 得分变成了 63.64,与论文中报道的数字基本相同。

公平起见,使用相同的脚本,他们也测出了 Falcon-40B 的得分:49.08,低于 Leaderboard 分数 52.7,只比 LLaMA 13B 好一点。

由此,这次所谓的「碾压」事件彻底反转。

符尧团队的这一尝试也吸引了 HuggingFace 研究科学家 Nathan Lambert 的注意,后者决定重写 Open LLM Leaderboard 的代码。

不过,符尧专门指出,他们不打算在 LLaMA 和 Falcon 之间挑起战争:「两者都是伟大的开源模型,并为该领域做出了重大贡献!Falcon 还具有更简单的许可证优势,这也赋予了它强大的潜力!」

为了方便大家检查代码和开源结果,符尧公布了相关地址:https://github.com/FranxYao/chain-of-thought-hub/tree/main/MMLU   

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/637140.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

服务器文件同步机制配置(rsync Sersync)

参考文章链接:http://static.kancloud.cn/curder/linux/78148 在上述参考文章中,对与主从同步部署过程做了详细的操作解释,但对于三台服务器如何互相同步(即三个都是master),本文针对三台master相互同步进…

一文读懂redis持久化机制

持久化官网相关参考资料 https://redis.io/docs/manual/persistence/ 持久化就是把redis内存里面保存的数据保存磁盘中,在redis重启或者能够使得数据不会丢失。目前常用的持久化方式有:RDB方式、AOF方式以及RDB AOF两种方式 RDB持久化方式 所谓的RDB…

实现无间断的自动化:Jenkins与GitLab的定时任务工作流程

简介: Jenkins是一个流行的开源自动化服务器,而GitLab是一个强大的代码托管和协作平台。通过结合Jenkins和GitLab,我们可以建立一个强大的定时任务自动化工作流程,实现代码拉取、构建、测试和部署的自动化。本篇博客将介绍如何使…

大屏数据可视化开源项目

一、DataGear —— 数据可视化项目 官网:DataGear - 开源免费的数据可视化分析平台 DataGear 是一款开源免费的数据可视化分析平台,数据可视化看板。 功能特性: 1、多种数据源,支持运行时接入任意提供 JDBC 驱动的数据库&#…

Web网页端IM产品RainbowChat-Web的v5.0版已发布

一、关于RainbowChat-Web RainbowChat-Web是一套Web网页端IM系统,是RainbowChat的姊妹系统(RainbowChat是一套基于开源IM聊天框架 MobileIMSDK(Github地址) 的产品级移动端IM系统)。 ► 详细介绍:http://www.52im.net/thread-248…

Python的pip install安装路径修改

背景 当我们在安装python的依赖包的时候,不知道默认安装在什么位置,或者不想安装在默认的位置,这时候我们可以手动修改pip install的安装位置。 1.打开cmd窗口, 执行python -m site 输入 python -m site 这个命令可以看到目前的USER_BASE和…

HarmonyOS ArkTS Ability内页面的跳转和数据传递

HarmonyOS ArkTS Ability的数据传递包括有Ability内页面的跳转和数据传递、Ability间的数据跳转和数据传递。本节主要讲解Ability内页面的跳转和数据传递。 打开DevEco Studio,选择一个Empty Ability工程模板,创建一个名为“ArkUIPagesRouter”的工程为…

亚马逊美国站 CPC认证-儿童毛绒玩具产品 毛绒玩具的作用

毛绒玩具等毛绒东西,其实能给孩子带来愉快和安全感,接触舒适,是儿童依恋的重要部分。我们常常能见到一些孩子晚上睡觉前一定要搂着毛绒玩具、或者一定要盖着毛绒毯子才能睡,丢掉了毛绒玩具,或者盖了其他布质的被子就会…

vue时间组件重置

<el-form-item label"注册日期" label-width"210px"><el-date-picker clearablev-model"registerTime"type"daterange"range-separator"至"value-format"yyyy-MM-dd"start-placeholder"开始日期&qu…

[论文笔记] Atos: A Task-Parallel GPU Scheduler for Graph Analytics

Atos: A Task-Parallel GPU Scheduler for Graph Analytics Atos: 用于图分析的任务并行 GPU 调度程序 [Paper] [Slides] ICPP’22 摘要 提出了 Atos, 一个特别针对动态不规则应用的任务并行 GPU 动态调度框架. 支持消除依赖关系的应用的任务并行公式来暴露额外的并发性除了…

MacBook苹果笔记本电脑卡顿怎么解决?

MacBook使用时间久了之后很容易出现卡顿的问题。那么出现卡顿的原因有哪些呢&#xff1f;MacBook卡顿怎么处理呢&#xff1f;下面为大家介绍几种可能的解决方案。虽然mac系统相对来说比较稳定&#xff0c;但遇到软件崩溃的情况也会突然卡顿而无法使用。那么&#xff0c;遇上mac…

C#运行程序修改数据后数据表不做更新【已解决】

前言 近日&#xff0c;在使用C#连接数据库的时候&#xff0c;对数据库中的表做更新后&#xff0c;在当前启动项目中去显示表数据时虽然会发生一个更新&#xff0c;但是在结束程序运行后再去观察数据表中的记录时发现并没有发生一个变化&#xff0c;在重复尝试了好几次后还是同样…

【Linux】中不小心误卸载了rpm命令如何恢复?

&#x1f341;博主简介 &#x1f3c5;云计算领域优质创作者   &#x1f3c5;华为云开发者社区专家博主   &#x1f3c5;阿里云开发者社区专家博主 &#x1f48a;交流社区&#xff1a;运维交流社区 欢迎大家的加入&#xff01; 文章目录 问题复现问题解决方案补全 whereis r…

Mac电脑把位图转换成矢量图的软件

Super Vectorizer for Mac是一款强大的位图转换工具&#xff0c;运行在Mac OS平台&#xff0c;可以轻松将数位图转换为矢量图。 矢量图以其放大后图像不会失真的优点&#xff0c;在社会各处的使用范围越来越广&#xff0c;但是网络上找到的图片又往往是数位图&#xff0c;这时…

【APP Debug抓包工具】Stream - Network Debug Tool

【APP Debug工具】 Stream - Network Debug Tool

Flutter进阶篇-Local Key和Global Key

简介: key是widget、element和semanticsNode的唯一标识&#xff0c;同一个parent下的所有element的key不能重复&#xff0c;但是在特定条件下可以在不同parent下使用相同的key&#xff0c;比如page1和page2都可以使用ValueKey(1) 。 常用key的UML关系图如上&#xff0c;整体上…

阿里云安装2019版sql server服务

1、添加 Microsoft 的 yum 存储库 [rootiZ22312ginudnbnifn438Z ~]# curl -o /etc/yum.repos.d/mssql-server.repo https://packages.microsoft.com/config/rhel/7/mssql-server-2019.repo 这里地址一定要选择https://packages.microsoft.com/config/rhel/7/mssql-server-2019…

华为OD机试真题 JavaScript 实现【记票统计】【牛客练习题】

一、题目描述 请实现一个计票统计系统。你会收到很多投票&#xff0c;其中有合法的也有不合法的&#xff0c;请统计每个候选人得票的数量以及不合法的票数。 &#xff08;注&#xff1a;不合法的投票指的是投票的名字不存在n个候选人的名字中&#xff01;&#xff01;&#x…

JavaScript DOM

1、DOM介绍 DOM(Document Object Model)&#xff1a;文档对象模型。 将 HTML 文档的各个组成部分&#xff0c;封装为对象。借助这些对象&#xff0c;可以对 HTML 文档进行增删改查的动态操作。 1.1、Element元素的获取操作 具体方法 方法名说明getElementById (id 属性值)根…

原因分析必知必会的十大要点

原因分析是对选定的现象进行全面深入的研究&#xff0c;找到现象背后的真正原因与深层次原因&#xff0c;然后采取合适的措施纠正问题、预防问题。如果没有找到真正的根因就采取措施&#xff0c;往往事倍功半&#xff0c;浪费了投入。那么在原因分析时&#xff0c;有哪些成功要…