深入浅出，大模型的规模与训练成本揭秘

导读

大模型是近几年非常火的一个AI名词，很多公司也在训练自己的大模型，但是训练一个大模型需要多少钱呢？本文从多个角度为大家拆解。

Title: Visualizing the size of Large Language Models
Paper: https://medium.com/@georgeanil/visualizing-size-of-large-language-models-ec576caa5557

导读

决定语言模型大小的三个重要因素是：

模型大小（Model Size）
训练规模（Training Size）
计算规模（Compute Size）

模型大小可视化

模型大小取决于模型中可学习参数的数量

这些参数包括与模型神经网络中各个神经元相关联的权重（和偏置）。
在训练之前，这些参数被设置为随机值。随着训练过程的进行，它们会被更新以优化模型在特定任务上的性能。
用“旋钮”和“开关”的类比来说，这可以比作调整设备中的各种旋钮来正确调整它。

一旦训练完成，最终的参数值可以被想象成填充到一个“巨型Excel表格“中的单元格。

模型参数 = 巨型Excel表格中的值.

以足球场为单位来表示模型大小

如果我们假设每个Excel单元格的大小为（1厘米 x 1厘米）
一个足球场大小的Excel表格（100米 x 60米）将包含大约6000万个参数。这大致相当于2017年发布的原始Transformer模型的参数数量

1个足球场 = 6000万参数

GPT-1，2018年发布，包含大约1.17亿参数。相当于2个足球场大小的Excel表格（2FFs）。
最近由谷歌发布的PALM 1和2（参数量为3.4亿到5.4亿）模型，可以想象为一个巨型Excel表格，大小相当于6000到7000个足球场！

按模型大小和发布年份排序

2017年 - 原始Transformer - 6500万参数（或1个足球场）

2018年 - GPT 1 - 1.17亿参数（或2个足球场）

2019年 - GPT 2 - 1.5亿参数（或20个足球场）

2020年 - GPT 3 - 1750亿参数（或2500个足球场）

2021年 - Gopher - 280亿参数（或4000个足球场）

2022年 - PALM - 540亿参数（或7700个足球场）

模型参数与发布年份（对数刻度）

训练规模可视化

训练规模取决于训练数据集中的Tokens数量。

Token可以是一个单词、子词或字符——这取决于训练文本是如何被分割成 Token 的（Tokenization）。
训练数据集被分成Batches，每个Batch内的tokens一起处理，然后更新模型的参数。
整个训练数据集通过模型的一次完整遍历称为一个Epoch。
最近的大多数语言模型，Epoch = 1。因此，这样的模型在训练数据集中只会“看到”一次Token 。

以图书馆书架为单位进行可视化

如果我们假设一本典型的书，包含大约10万个Token，一个典型的图书馆书架可以容纳大约100本书。那么每个图书馆书架将包含大约1000万Token。
原始的Transformer模型用于英德翻译，使用了WMT数据集，包含450万句对（大约1亿Token或10个图书馆书架）。
GPT-1是在Book Corpus数据集上的7000本书上进行训练的（大约6亿Token或60个图书馆书架）。
最近由谷歌发布的PALM模型是在780亿Token上进行训练的，相当于78,000个图书馆书架！

按训练规模和发布年份排序

2017年 - 原始Transformer - 1亿Token（或10个图书馆书架）

2018年 - GPT 1 - 6亿Token（或60个书架）

2019年 - GPT 2 - 280亿Token（或2800个书架）

2020年 - GPT 3 - 3万亿Token（或3万个书架）

2021年 - Gopher - 3万亿Token（或3万个书架）

2022年 - PALM - 780万亿Token（或7.8万个书架）

训练规模与发布年份（对数刻度）

计算规模可视化

计算规模取决于在模型训练的不同阶段所需的浮点运算（FLOPs）或计算的数量。

在FP32精度下，不同设备典型的FLOPs容量（1GFLOP = 10亿FLOPs = 1E+9 FLOPs）

💻 现代中型笔记本电脑 ~ 100 GFLOPs

📱 苹果iPhone 14 Pro ~ 2000 GFLOPs

🎮 索尼PlayStation 5 ~ 10000 GFLOPs

🖥️ Nvidia H100 NVL GPU ~ 134,000 GFLOPs

训练过程中的阶段包括：

前向传播（Forward Pass）—— 模型接收一系列训练Token作为输入，并进行预测（例如，序列中的下一个词）
损失计算（Loss Computation）—— 通过损失函数计算预测值与实际值之间的差异。
反向传播和参数更新（Backpropagation and Parameter Update）—— 损失函数的梯度通过反向传播计算（Back propagation），并用于更新模型参数以最小化损失。
多轮迭代（Multiple Epochs）—— 前向传播、损失计算、反向传播和参数更新的过程在整个训练数据集中的所有batches上重复进行，跨越多个“运行”或Epochs。
在大多数现代大型语言模型（LLMs）中，Epoch等于1，这意味着模型只处理整个训练数据集一次。

整个训练过程所需的近似计算量由以下经验法则给出：

Ct ~ 6.N.D

Ct = 训练所需的计算量

N = 模型参数的数量

D = 训练Token的数量

使用6ND公式进行训练计算：

原始的Transformer模型（用于英语到德语任务）在1个Epoch中会消耗3.9 E+16 FLOPs，假设有10个Epoch，总共会消耗3.9 E+17 FLOPs。（相当于在中等配置的笔记本电脑上训练45天，即100GFLOPs）
GPT-1在1个Epoch中会消耗4.2 E+17 FLOPs，假设有100个Epoch，总共会消耗4.2 E+19 FLOPs。（相当于在中等配置的笔记本电脑上训练13年）
GPT-2在1个Epoch中会消耗2.5 E+20 FLOPs，假设有20个Epoch，总共会消耗5 E+21 FLOPs。（相当于在中等配置的笔记本电脑上训练1600年）
更近期的PALM模型假设Epoch = 1，会消耗2.53 E+24 FLOPs。（相当于在中等配置的笔记本电脑上训练800,000年！）

推理计算：在推理（Inference）时所需的近似计算量由以下经验法则给出：

Ci ~ 2.N.l

Ci = 推理计算量

N = 模型参数的数量

l = 输入/输出长度

典型笔记本电脑 = 100 GFLOPs = 1.0 E+11 FLOPs

那最火的 GPT-4 呢？

模型大小

GPT-4采用了一个专家混合 （Mixture of Experts, MoE） 模型，包含16个专家（每个专家有1110亿参数），总共约有 1.8万亿参数 。
为了将GPT-4的参数放入一个巨大的Excel表格中，它需要有30,000个足球场那么大，或者180平方公里（比孟买市还要大！）

训练规模

GPT-4在大约13万亿个tokens（跨越多个时期）上进行了训练。
这相当于阅读了130万个图书馆书架上的所有书籍，或者650公里长的图书馆书架！

计算规模

估计GPT-4的训练FLOPs约为2.15 E+25 FLOPs。
在中等配置的笔记本电脑（100GFLOPs）上训练GPT-4需要7百万年！

估计训练成本约为 6400万美元

A100 GPU 的峰值 FLOPs = 312 TFLOPS（对于 TF32，稀疏性已启用）
Azure 对 A100 GPU（ND96asrA100 v4）的按需费用 = 3.40 美元/小时。
估计最低训练成本（对于 2.15 E+25 FLOPs）= 6400万美元。
这接近 Sam Altman 对 GPT-4 训练成本的估计 = 1亿美元。

估计推理成本约为 0.3 美分，用于 1000 个token

假设：提示和响应 = 1024 token长度
估计推理 FLOPs = 3 * GPT3 推理 FLOPs = 3 * 350 TFLOPs = 1000 TFLOPs（对于 1024 输入和输出token）
Azure 对 A100 GPU（ND96asrA100 v4）的按需费用 = 3.40 美元/小时。
估计推理成本（对于 1024 输入和输出token）= 0.003 美元，或者每 330 对输入/输出token，将花费 1 美元。

GPT-4 模型估计