LLM:Scaling Laws for Neural Language Models (中)

news2025/1/23 7:52:50

核心结论

1:LLM模型的性能主要与计算量C,模型参数量N和数据大小D三者相关,而与模型的具体结构 (层数/深度/宽度) 基本无关。三者满足:  C ≈ 6ND

2. 为了提升模型性能,模型参数量N和数据大小D需要同步放大,但模型和数据分别放大的比例还存在争议。

首先看一下核心结论1是怎么推导得到的。

针对transformer结构:Parameters 参数量(不含embedding层)为N,每个Token前向传播消耗运算量C 约为 2N,反向传播的运算量又是前向传播运算量的两倍,所以每个Token需要花费的运算量C 约为 2N + 2*(2N) = 6N。现在Token的数量为D,所以总的运算量为C = 6N*D。

核心公式:本部分来自参考2.

  • 第一项L_{\infty }是指无法通过增加模型规模来减少的损失,可以认为是数据自身的熵(例如数据中的噪音)
  • 第二项(\frac{x_{0}}{x})^{a}是指能通过增加计算量来减少的损失,可以认为是模型拟合的分布与实际分布之间的差。

根据公式,增大x (例如计算量C),模型整体loss下降,模型性能提升;伴随x (例如计算量C) 趋向于无穷大,模型能拟合数据的真实分布,让第二项逼近0,整体趋向于L_{\infty }

结论验证

从图上可以看出:

1:当模型的参数量 N 为10^{3}时(图中紫色的线),在 Token 数量达到 10^{9}后(图中红色的圈),模型基本收敛,继续增加训练的 Token 数量,纵轴的Test Loss 并没有明显下降。

2:如果此时,增加模型的参数量N:10^{3}->10^{9}。 纵轴的Test Loss:从6.x->3.x。可以看出:提升模型参数量带来的收益更大。

思考一个问题:基于上图,当模型的参数量 N 为10^{3}图中紫色的线

(1)模型达到收敛状态时需要消耗的算力C是多少?

(2)模型达到收敛状态时的耗时是多久呢?

先看答案:下图红色箭头指向位置,也就是图中紫色线的拐点。

1:算力消耗: C\approx 6\ast N\ast D\approx 6\ast 10^{3}\ast 10^{9}\approx 6\ast 10^{12}

2:耗时:Compute (PF-days) \approx 7\ast 10^{-8}

如果没做实验,怎么知道上面的答案呢?

根据核心公式1,得到:C\approx 6\ast N\ast D\approx 6\ast 10^{3}\ast 10^{9}\approx 6\ast 10^{12}

Compute(PF-days) = \frac{C}{PF-days}=\frac{6\ast 10^{12}}{8.64\ast 10^{19}}\approx 6.99\ast 10^{-8}=7\ast 10^{-8}

Tips:

PF-days: 如果每秒钟可进行1015次运算,就是1 peta flops,那么一天的运算就是1015×24×3600=8.64×1019,这个算力消耗被称为1个petaflop/s-day。

再看个例子:

下图是Baichuan-2技术报告中的Scaling Law曲线。基于10M到3B的模型在1T数据上训练的性能,可预测出最后7B模型和13B模型在2.6T数据上的性能。

 问题1:在1T的数据上,训练的10M-3B的模型,是怎么推算训练7B/13B需要2.6T数据呢?

C\approx 6\ast N\ast D

D\approx \frac{C}{6\ast N}=\frac{10^{23}}{6\ast 7B}=\frac{10^{23}}{6\ast 7\ast 10^{9}}\approx 2.38T

2.38T 是理论数值,与 2.6T基本一致了。

问题2:7B/13B模型的理论损失是多少呢?

将10M->3B不同尺寸的模型,训练到收敛状态,即上图,将每个模型的loss拐点记录进行拟合,得到幂函数(上图中蓝色粗线-scaling law),将C = 10^{23}带入拟合函数,就可以得到7B/13B模型的理论预期Loss了。

参考

1:介绍一些Scaling Laws - 知乎

2:解析大模型中的Scaling Law - 知乎 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1389131.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

这三款内网管理监控软件让你事半功倍

在当今高度信息化的时代,企业内部网络(内网)已经成为企业运营和发展的重要支撑。 然而,随着内网规模的扩大和复杂性的增加,内网的管理和监控也变得越来越困难。 为了提高内网的管理效率和工作效率,许多企…

在Linux上使用PHP-FPM与Nginx实现高效的HTTP处理

当谈到高效的HTTP处理时,PHP-FPM(FastCGI进程管理器)与Nginx的结合是许多web开发者的首选。这种组合提供了出色的性能、可扩展性和稳定性,尤其适用于高流量的网站和应用程序。 1. 为什么选择PHP-FPM与Nginx? 性能优化…

excel(vab)删除空行

删除第一、二、三列位空的所有行(8000)行范围以内 代码如下: Sub Macro1()Dim hang As Integer For hang 8000 To 1 Step -1If Sheet1.Cells(hang, 1) "" And Sheet1.Cells(hang, 2) "" And Sheet1.Cells(hang, 3) "&quo…

2024 基于 Rust 的 linter 工具速度很快

2024 年 Web 工具的一大趋势是使用 Rust 重写现有工具。Rust 是一种出色的编程语言,能生成运行速度惊人的二进制文件,且与其它 Web 工具的互操作性极佳,这得益于 WebAssembly 的帮助。swc 和 Turbopack 等工具的速度提升为快速开发体验带来了…

代码随想录算法训练营第24天 | 理论基础 77. 组合

目录 理论基础 什么是回溯法 回溯法的效率 回溯法解决的问题 如何理解回溯法 回溯法模板 77. 组合 💡解题思路 💻实现代码 理论基础 什么是回溯法 回溯法也可以叫做回溯搜索法,它是一种搜索的方式。 回溯法的效率 虽然回溯法很难&#xff…

Nestjs 笔记

一、模块添加版本 1、添加如下代码 2、访问方式 http://localhost:3000/v1/list 二、跨域处理 1、安装依赖 npm install corsnpm install types/cors -D 2、app.module.ts 添加代码 import { NestFactory } from nestjs/core; import { AppModule } from ./app.module; i…

QQ视频聊天怎么录制

虽然微信几乎成为主流的聊天工具,但是不可否认的是QQ视频聊天仍有他的趣味所在,多种特效在视频的时候增加乐趣,那么如果QQ视频聊天的时候可以录制聊天内容吗?当然是可以的。可以使用电脑自带的视频录制工具,或者QQ自带…

k8s的存储卷、数据卷---动态PV创建

当发布PVC之后可以生成PV,还可以在动态服务器上直接生成挂载目录。PVC直接绑定和使用PV。 动态PV需要两个组件 存储卷插件:Provisioner(存储分配器)根据定义的属性创建PV StorageClass:定义属性 存储卷插件 存储卷插件:k8s本…

电脑安装 Python提示“api-ms-win-crt-process-l1-1-0.dll文件丢失,程序无法启动”,快速修复方法,完美解决

在windows 10系统安装完python后,启动的时候,Windows会弹出错误提示框“无法启动此程序,因为计算机中丢失了api-ms-win-crt-process-l1-1-0.dll,尝试重新安装该程序以解决此问题。” api-ms-win-crt-process-l1-1-0.dll是一个动态…

SCSI/UFS储存 基础

一、UFS协议 UniPro 的上面就是 UTP 和 SCSI 命令集,由于涉及的 SCSI 命令是很大一块需要单独来讲,所以这里只简单两笔。正如最开始提到的,UTP 和 SCSI 是属于 SCSI 这部分,在 JEDEC 的标准里能找到它们的具体说明。 UTP&#xf…

仅用三张图片实现任意场景三维重建:ReconFusion

论文题目: ReconFusion: 3D Reconstruction with Diffusion Priors 论文作者: Rundi Wu, Ben Mildenhall, Philipp Henzler, Keunhong Park, Ruiqi Gao, Daniel Watson, Pratul P. Srinivasan, Dor Verbin, Jonathan T. Barron, Ben Poole, Aleksande…

Java - Lombok的添加和使用详解

目录 🐶6.1 lombok介绍 🐶6.2 lombok使用 1. 🥙添加方法一 2. 🥙添加方法2 3. 使用 🐶6.3 lombok常用注解 1. 🥙Getter和Setter 2. 🥙ToString 3. 🥙NoArgsConstructor和Al…

随笔03 笔记整理

图源:文心一言 关于我的考研与信息安全类博文整理~🥝🥝 第1版:整理考研类博文~🧩🧩 第2版:提前列出博文链接,以便小伙伴查阅~🧩🧩 第3版:整理We…

光彩耀新年,戴森美发科技品类,见证成长美一面

龙年将至,祥瑞满天,新年曙光寓意着好运从「头」开始,同时也承载着人们对新一年的期许。值此之际,戴森中国美发科技品类正式发布全新蓝彩朱红色系列产品,为新年注入活力与希望,携手消费者一起开启护发造型新…

力扣hot100 寻找重复数 二分 抽屉原理

Problem: 287. 寻找重复数 文章目录 思路复杂度🎈 Code 思路 👨‍🏫 参考题解 复杂度 时间复杂度: O ( N log ⁡ N ) O(N \log{N}) O(NlogN) 空间复杂度: O ( 1 ) O(1) O(1) 🎈 Code class Solution {public int findDu…

ASP.NET Core列表增删改查

前置要求&#xff1a; 1. vueelement-plus实现前端静态页面 HelloWorld.vue <template><h2>hello界面</h2><div class"tableList"><!-- 搜索框 --><el-row :gutter"20"><el-col :span"8"><!-- 搜…

【备战蓝桥杯】今天给大家整点解压的~

【备战蓝桥杯】今天给大家整点解压的~ 蓝桥杯备赛 | 洛谷做题打卡day8 文章目录 【备战蓝桥杯】今天给大家整点解压的~ 蓝桥杯备赛 | 洛谷做题打卡day8[NOIP2017 普及组] 成绩题目背景题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 样例 #2样例输入 #2样例输出 #2 提…

【书生·浦语】大模型实战营——LMDeploy 大模型量化部署实战

大模型部署背景 大模型部署是指将训练好的模型在特定的软硬件环境中启动的过程&#xff0c;使模型能够接收输入并返回预测结果。大模型的内存开销巨大&#xff0c;7B模型仅权重需要14G内存。另外大模型是自回归生成&#xff0c;需要缓存Attention的 k/v。 LMDeploy 简介 推理性…

UE5 UE4 打包报错Failed to compile material 解决

参考&#xff1a;https://forums.unrealengine.com/t/failed-to-compile-material-for-pcd3d_sm5-warning/385087 https://forums.unrealengine.com/t/failed-to-compile-material-for-platform-pcd3d-sm4/436176 报错&#xff1a;Failed to compile Material for platform PC…

基于Java SSM框架实现学生寝室管理系统项目【项目源码+论文说明】计算机毕业设计

基于java的SSM框架实现学生寝室管理系统演示 摘要 寝室管理设计是高校为学生提供第二课堂&#xff0c;而我们所在学院多采用半手工管理学生寝室的方式&#xff0c;所以有必要开发寝室管理系统来对进行数字化管理。既可减轻学院宿舍长工作压力&#xff0c;比较系统地对宿舍通告…