CMU 10423 Generative AI：lec15（Scaling Laws 大规模语言模型的扩展法则）

文章目录

一概述
- - 1. **扩展规律的背景**
  - 2. **两种主要的扩展规律**
  - 3. **模型容量扩展规律**
  - 4. **信息论下界**
  - 5. **计算扩展规律**
  - 6. **训练高效性**
  - 7. **结论与启示**
二 2bit/parameter 概念（模型的存储能力分析）
- - - **1. 概念解释**
    - **2. 图表解读**
    - **3. 量化模型的表现**
    - **4. 知识存储的规模效应**
    - **5. 总结**
三 Transformer 模型达到最大存储容量所需的训练次数
- - **1. 关键结论：**
  - **2. 三个子图的分析：**
  - - **(a) 没有噪声，100次遍历**
    - **(b) 7/8 数据是噪声，100次遍历**
    - **(c) 7/8 数据是噪声，800次遍历主数据**
  - **3. 总结与启示：**
四参数规模与训练数据量的关系
- - **1. 关键结论：**
  - **2. 理解原因：**
  - - **2.1 参数规模与存储容量的关系：**
    - **2.2 为什么训练数据量需要比参数量更快增长？**
  - **3. 实际应用中的影响：**
  - - **3.1 对资源的需求：**
    - **3.2 训练时间的延长：**
  - **4. 结论与建议：**
五 2bit/parameter的概念与非线性增长的数据需求之间的关系
- - **1. 关于 2bit/parameter**
  - **2. 关于数据需求的非线性增长**
  - - **为什么数据需求是非线性的？**
  - **3. 结论：二者的关系**
六如何更高效的训练
- - **1. 计算扩展规律的核心**
  - - **1.1 关键观察**
  - **2. 训练损失与计算量的关系**
  - - **2.1 图表解释**
    - **2.2 小模型在低 FLOPS 下的表现**
    - **2.3 大模型的优势在更高 FLOPS 中显现**
    - **2.4 解释：小模型 VS 大模型**
  - **3. 非正式观察：模型规模与遍历次数的关系**
  - - **3.1 结论**
  - **4. 计算扩展规律的实际应用**
  - - **4.1 优化资源利用**
    - **4.2 大模型的优势**
    - **4.3 小模型的局限**
  - **5. 总结与启示**

一概述

这份讲义主要讲解了Scaling Laws，即大规模语言模型的扩展规律，解释了如何根据模型大小和计算资源需求来优化训练过程。以下是主要内容的概述：

1. 扩展规律的背景

训练大规模语言模型成本极高，因此需要明确模型应该有多大，以及需要多少计算资源来有效训练模型。
通过对小型模型进行实验，扩展规律可以帮助预测更大规模模型的表现，指导训练资源的合理分配。

2. 两种主要的扩展规律

模型容量扩展规律（Capacity Scaling Law）：用于预测模型能够记忆多少知识。
计算扩展规律（Computation Scaling Law）：用于预测训练模型所需的计算量和训练时间。

3. 模型容量扩展规律

语言模型的容量衡量模型能够记忆多少“事实知识”。
以知识为基础的人类智能是这一理论的核心，讲义中使用（名称，属性，值）的形式表示知识，如 “Harvard, Found Year, 1636”。
通过实验，讲义分析了模型需要多少参数来存储这些知识，并得出了2bit/parameter 的结论，即每个模型参数能存储约 2 比特的信息。

4. 信息论下界

使用信息论来计算存储特定量的传记信息所需的最小比特数。通过实验表明，模型参数与所需比特数成线性关系。

5. 计算扩展规律

更大的模型需要更少的训练步数来记忆相同数量的知识。例如，模型的参数增加一倍，所需训练的步数则减少。
更大的模型在记忆相同数据时训练速度更快，因此可以通过增大模型尺寸来提高训练效率。

6. 训练高效性

如果模型的尺寸翻倍，那么不仅模型的大小增加，所需的训练数据量也会超过翻倍。例如，一个 7B 的模型需要 2 万亿个训练 token，而 70B 的模型需要超过 20 万亿个 token 才能被充分训练。
讲义还指出，对于模型的优化训练，干净的数据和合理的训练步骤同样重要。

7. 结论与启示

在训练大型语言模型时，不仅要考虑模型的大小，还要综合考虑训练数据量和计算资源。
大模型在同等训练条件下可以更快地记忆数据，使用扩展规律可以帮助我们合理分配训练资源。

总结来说，这份讲义通过探讨模型容量和计算扩展规律，帮助理解如何优化大规模语言模型的训练过程，以达到更高效、更合理的计算资源利用。

二 2bit/parameter 概念（模型的存储能力分析）

在这里插入图片描述

1. 概念解释

2bit/parameter：这一概念表示，在使用 FP16 精度训练 Transformer 模型时，每个参数最多可以存储 2比特 的信息。这是一个关键的限制，无论模型训练时长如何，参数的存储能力都不会超过这一上限。
量化后仍为 2bit/parameter：即使在使用 FP16 训练完模型后，将模型量化为 FP8 或 Int8 进行压缩，我们依然观察到每个参数的存储能力保持为 2bit/parameter。这表明模型量化不会影响单个参数的最大存储信息量。

2. 图表解读

X 轴：表示模型的参数数量（#params），即模型规模的大小。从 $10^6$ 到 $10^8$ 不等，展示了从小型到大型模型的对比。
Y 轴：表示模型学习到的知识量（learned knowledge），以比特为单位（bits），从 $10^6$ 到 $10^8$ 不等。
不同斜率线：
- 蓝色线：2bit/parameter
- 红色线：1bit/parameter
- 紫色线：0.5bit/parameter
- 绿色线：0.25bit/parameter
数据点颜色：每个数据点代表不同规模的数据集，标注了样本数 $N$ ，例如：
- 粉色：N = 10,000,000
- 红色：N = 5,000,000
- 绿色：N = 1,000,000
- 蓝色：N = 10,000
这些数据点表示了在不同样本数下训练的模型在存储能力上的表现。

3. 量化模型的表现

图表下方注释表明：即使在完成 1000 次训练后，将模型量化到 8-bit，也同样可以看到每个参数的存储能力仍然保持在 2bit/parameter。这表明，通过量化降低模型计算复杂度，并不会显著影响模型的存储能力。
量化模型的优势：
- 在计算资源有限的情况下，量化模型是降低内存和计算负担的一种有效方式，同时可以保证模型仍然具有较高的知识存储能力。
- 量化到 FP8/Int8 不会削弱模型的存储效率，仍然可以保持 2bit/parameter 的存储能力。

4. 知识存储的规模效应

模型越大，存储能力越强：从图中可以清楚看到，随着模型参数规模的增加（X 轴向右移动），模型存储的知识量也显著增加（Y 轴向上移动）。在同样的 2bit/parameter 斜率下，较大的模型存储的知识量更大。
同等规模下，存储能力保持不变：无论模型被量化到何种精度，参数数量相同时，所能存储的知识总量都沿着 2bit/parameter 的蓝色线性斜率分布。这说明量化后的模型在知识存储能力上仍能保持稳定表现。

5. 总结

2bit/parameter 是模型的存储极限：无论是 FP16 还是 FP8/Int8 量化模型，Transformer 模型在训练时，每个参数最多只能存储 2 比特的信息。这一限制是由模型的架构决定的，而不是训练时长或精度所能突破的。
量化技术的实用性：即便将模型量化到更低精度（如 Int8），我们依然可以保留高效的存储能力。这使得量化成为在有限资源下训练和部署大模型的一种有效手段。

三 Transformer 模型达到最大存储容量所需的训练次数

在这里插入图片描述

这张图展示了关于 Transformer 模型达到最大存储容量所需的训练次数，并且对比了不同数据质量情况下的训练效果。它解释了在理想数据和“噪声数据”（junk data）下，训练次数对模型存储能力的影响。

1. 关键结论：

100次数据遍历（Passes）基本足够：如果数据是干净的（无噪声），训练数据集遍历 100 次左右就足够使模型达到其最大存储容量。
训练需要干净的数据：即使增加数据遍历次数，但数据质量不高（含有大量无效或噪声数据），也无法显著提升模型的存储能力。

2. 三个子图的分析：

(a) 没有噪声，100次遍历

数据说明：这是在无噪声的干净数据上训练，训练数据集被遍历 100 次。
结果分析：从左边的图可以看到，随着模型参数规模的增加，存储的知识量接近 2bit/parameter 的理想斜率。模型在足够的干净数据下，存储容量可以达到最大值。
结论：在干净的数据上，100次遍历已经足够让模型达到其存储能力的上限。

(b) 7/8 数据是噪声，100次遍历

数据说明：在这个实验中，数据集中有 7/8 的数据是噪声（无效数据），只有 1/8 的数据是有用的主数据，数据集被遍历了 100 次。
结果分析：从图中可以看出，噪声数据显著影响了模型的存储能力，存储的知识量远远低于 2bit/parameter。即使模型参数增大，模型能够存储的知识量依然受限。
结论：在大量噪声数据的情况下，即使训练遍历 100 次，模型仍然不能充分利用参数的存储能力。

© 7/8 数据是噪声，800次遍历主数据

数据说明：这次实验中，数据集有 7/8 是噪声数据，但模型经过了 800 次的主数据遍历训练（1/8 的主数据被反复使用）。
结果分析：从右边的图可以看出，尽管有噪声数据，但由于主数据被反复使用了 800 次，模型的存储能力有所提升，并且接近理想的 2bit/parameter 斜率。
结论：在有噪声数据的情况下，增加对主数据的训练次数可以一定程度上弥补噪声数据的影响，提升模型的存储能力。

3. 总结与启示：

训练次数与数据质量的关系：干净数据的少量训练比大量的噪声数据更有效。在理想的情况下，100次遍历足够使模型达到最大存储容量。
噪声数据的影响：大量的无效数据会极大降低模型的存储能力，甚至多次训练也无法弥补这种损失。
数据遍历的有效性：即使数据中有噪声，通过增加对有用数据的训练遍历次数，也能提升模型的存储效果，但这需要显著增加训练次数。

这张图表明，干净的数据和适量的训练遍历是确保 Transformer 模型达到最佳存储能力的关键。而在噪声数据的情况下，单纯增加训练次数并不能有效提高模型的表现。

四参数规模与训练数据量的关系

1. 关键结论：

当模型规模加倍时，训练数据量需要大幅增加：如果我们将语言模型的规模加倍，那么所需的训练 tokens 数量将远不止翻倍。换句话说，模型的参数规模与训练数据的需求并非线性关系。
7B 参数模型与 70B 参数模型的对比：
- 7B 参数模型：如果一个 7B 参数（即 70 亿参数）的模型需要 2 万亿（2T）个训练 tokens 来达到最佳性能。
- 70B 参数模型：一个 70B 参数的模型则需要超过 20T 个训练 tokens。这意味着训练数据量的增长速度超过了模型参数的增长速度。

2. 理解原因：

2.1 参数规模与存储容量的关系：

随着模型参数规模的增加，模型的存储容量也随之增加，这意味着模型能够存储和处理更多的知识和信息。
如果训练数据量不足，即使模型有更多的参数，也无法充分训练这些参数来存储更多的知识。这就需要更多的训练数据，以填满这些新增的参数空间。

2.2 为什么训练数据量需要比参数量更快增长？

当模型参数数量增大时，模型的表示能力增强，能够捕捉到更细粒度的特征和模式。为了充分利用这些新增的表示能力，需要额外的训练数据来提供更多样化的信息。
非线性增长：当模型规模加倍时，训练数据量需要大于模型参数增加的倍数，因为模型需要处理更复杂的模式和特征，同时防止过拟合或欠拟合。

3. 实际应用中的影响：

3.1 对资源的需求：

计算资源的投入增加：当模型规模增大时，不仅需要更大的 GPU/TPU 来支持更大规模的计算，同时也需要更多的训练数据来支撑模型的学习过程。
数据的获取与质量：随着训练数据需求量的增加，如何获取足够且高质量的训练数据成为一个挑战。数据的多样性和覆盖范围必须增加，以防止模型的学习局限于某些狭窄领域。

3.2 训练时间的延长：

训练所需的时间也会相应增加，因为模型不仅需要处理更多的训练数据，而且需要在更多的参数上进行优化。
优化策略：在训练大模型时，可以考虑使用优化的训练策略，如混合精度训练、模型并行、梯度累积等，以减少资源消耗并提升训练效率。

4. 结论与建议：

更大的模型需要更多的训练数据：训练一个大规模的语言模型时，数据量需要与模型规模相匹配，甚至要以更快的速度增加。否则，模型无法充分利用其增加的参数，进而导致次优的表现。
数据策略的重要性：随着模型规模的增长，确保训练数据的数量和质量至关重要。合理的数据采集和预处理策略是训练大规模语言模型的核心要素。

五 2bit/parameter的概念与非线性增长的数据需求之间的关系

你提到的问题很关键。让我们详细分析2bit/parameter的概念与非线性增长的数据需求之间的关系，以及它们各自的背景和适用场景。

1. 关于 2bit/parameter

在前面提到的 2bit/parameter 规则中，我们主要讨论的是模型的存储能力，即 每个参数能存储多少比特的信息。具体来说：

2bit/parameter 的含义是：在 Transformer 模型中，每个参数大约能够存储 2 比特的信息量。这是一个经验性结论，适用于基于 Transformer 的语言模型。
这个结论是基于语言模型的存储容量如何随着模型规模的增加而线性增长。也就是说，模型的存储容量与参数的数量成线性关系——参数越多，存储的信息也越多。

注意：这个规则主要用于衡量模型在特定训练数据量下存储知识的能力，但并未涉及训练数据量是否足够来填充这些参数。

2. 关于数据需求的非线性增长

非线性数据需求 则是一个不同的概念，主要讨论的是如何让模型参数充分利用起来，即当我们增加模型的参数数量时，需要多少训练数据来使这些新增的参数得到充分的训练。

问题背景：虽然模型的存储能力可以达到 2bit/parameter，但这只是理想情况下每个参数能存储的知识量。要让这些参数达到其最大存储能力，需要足够的训练数据。

具体来说，随着模型参数数量的增加，模型能够表示的信息也变得更复杂。因此，为了填满模型的存储能力，所需的训练数据量也会成倍增长，并且增长的速度要超过模型参数的增长速度。

为什么数据需求是非线性的？

复杂模式的表示：更大的模型可以学习和表示更复杂的模式，这意味着为了充分利用模型的表示能力，需要更多的训练样本来提供足够的复杂性和多样性。
防止过拟合：如果训练数据不足，即使模型有大量参数，这些参数也可能无法得到充分的训练，从而导致模型过拟合或表现不佳。为此，数据量需要增加得更快，以防止模型在较小的数据集上过拟合。

举个例子：如果一个 7B 参数的模型需要 2T tokens 来达到最佳效果，按照这个比例，直接增加 10 倍参数的 70B 模型应该需要远超过 20T tokens 来填充这些新增的参数并防止过拟合。因为模型规模增加后，它能够捕捉和表示的模式更加复杂，所需的数据也更丰富和多样。

3. 结论：二者的关系

2bit/parameter 规则告诉我们，在给定的数据下，每个模型参数能存储多少信息量，这表示的是模型在已有数据量下的存储上限。
非线性数据需求 说明的是，为了让模型的每个参数都能有效地存储信息，我们需要更多的数据来充分训练模型的这些参数。

因此，2bit/parameter 规则适用于评估模型的存储上限，而非线性数据增长则是关于如何填满这些参数，确保每个参数都被充分利用。

这也是为什么我们需要理解模型容量和训练数据量之间的区别：前者是评估存储能力，而后者是确保模型在实际应用中得到充分训练的关键因素。

六如何更高效的训练

在训练大规模语言模型时，如何利用有限的计算资源达到最佳的训练效果是一个关键问题。根据计算扩展规律（Computation Scaling Law），研究揭示了模型规模与训练效率之间的复杂关系。特别是随着模型规模增大，训练所需的遍历次数减少，训练速度提高。然而，我们也需要仔细理解为什么在某些情况下，小模型在低计算量下表现看似更好。以下是完整的解释和总结。

1. 计算扩展规律的核心

1.1 关键观察

根据 DeepMind 的研究，计算扩展规律揭示了以下关键点：

如果一个规模为 $X$ 的语言模型需要对数据进行 $K$ 次遍历（Passes）才能记住所有的知识，那么：
- 一个规模为 $\times X$ （ $p > 1$ ）的模型，只需要 少于 $K / p$ 次遍历即可记住相同的知识量。

这意味着，随着模型规模增大，所需的训练遍历次数减少，并且大模型能够更快地学会相同的数据，从而减少训练时间。这一规律强调了大模型的训练效率，尤其是在大量计算资源下的优势。

2. 训练损失与计算量的关系

在这里插入图片描述

2.1 图表解释

X 轴：FLOPS：表示计算量，单位是浮点运算次数，横轴以对数表示，从 $10^{17}$ 到 $10^{22}$ 。
Y 轴：训练损失：表示模型在训练过程中的损失，数值越低表示模型拟合效果越好。
颜色编码：曲线颜色从紫色到黄色，分别代表模型参数规模从 75M 到 10B 不等。

2.2 小模型在低 FLOPS 下的表现

在较低 FLOPS（如 $10^{20}$ ）时，小模型（紫色和蓝色）的训练损失看似低于大模型（黄色和橙色）：

小模型由于参数少，能够更快地在有限计算资源下达到收敛，较早实现较低的训练损失。
这是因为小模型的表示能力有限，它们能够快速学会简单模式，但无法继续学习复杂的知识。因此，小模型的损失下降在低 FLOPS 时更明显。

2.3 大模型的优势在更高 FLOPS 中显现

随着 FLOPS 的增加（如从 $10^{21}$ 开始），**大模型（黄色和橙色）**的训练损失下降速度加快，并且超过小模型。这是因为：

大模型具有更强的表示能力，能够学习到更复杂的数据模式和知识，但这需要更多的计算量。
当计算资源足够时，大模型可以更有效地利用计算量，并在同样的 FLOPS 下实现更快的损失下降。

2.4 解释：小模型 VS 大模型

小模型在低 FLOPS 下收敛更快，但它们的表示能力有限，最终损失不会继续下降。
大模型在低 FLOPS 时表现不佳，因为它们需要更多计算量才能充分发挥潜力。然而，一旦 FLOPS 足够，大模型的效率显著提升，表现优于小模型。

3. 非正式观察：模型规模与遍历次数的关系

在训练语言模型时，模型的参数规模决定了其记忆数据所需的遍历次数：

要记住 $k$ 比特的信息量：
- $k /2$ 参数的模型：需要 1000 次遍历。
- $k$ 参数的模型：需要 100 次遍历。
- $10 k$ 参数的模型：只需要 1 次遍历。

3.1 结论

大模型的高效性：较大的模型在训练时，可以通过更少的遍历次数记住更多的知识，从而节省训练时间。这与前面的计算扩展规律一致，即大模型通过较少的训练步骤即可达到相同的学习效果。
小模型的局限：小模型虽然在早期 FLOPS 资源下表现良好，但它们需要更多的遍历次数才能达到与大模型相同的表现，并且最终表现受限于其参数规模。