CMU 10423 Generative AI:lec15(Scaling Laws 大规模语言模型的扩展法则)

news2024/11/25 22:50:41

文章目录

  • 一 概述
      • 1. **扩展规律的背景**
      • 2. **两种主要的扩展规律**
      • 3. **模型容量扩展规律**
      • 4. **信息论下界**
      • 5. **计算扩展规律**
      • 6. **训练高效性**
      • 7. **结论与启示**
  • 二 2bit/parameter 概念(模型的存储能力分析)
        • **1. 概念解释**
        • **2. 图表解读**
        • **3. 量化模型的表现**
        • **4. 知识存储的规模效应**
        • **5. 总结**
  • 三 Transformer 模型达到最大存储容量所需的训练次数
      • **1. 关键结论:**
      • **2. 三个子图的分析:**
        • **(a) 没有噪声,100次遍历**
        • **(b) 7/8 数据是噪声,100次遍历**
        • **(c) 7/8 数据是噪声,800次遍历主数据**
      • **3. 总结与启示:**
  • 四 参数规模与训练数据量的关系
      • **1. 关键结论:**
      • **2. 理解原因:**
        • **2.1 参数规模与存储容量的关系:**
        • **2.2 为什么训练数据量需要比参数量更快增长?**
      • **3. 实际应用中的影响:**
        • **3.1 对资源的需求:**
        • **3.2 训练时间的延长:**
      • **4. 结论与建议:**
  • 五 2bit/parameter的概念与非线性增长的数据需求之间的关系
      • **1. 关于 2bit/parameter**
      • **2. 关于数据需求的非线性增长**
        • **为什么数据需求是非线性的?**
      • **3. 结论:二者的关系**
  • 六 如何更高效的训练
      • **1. 计算扩展规律的核心**
        • **1.1 关键观察**
      • **2. 训练损失与计算量的关系**
        • **2.1 图表解释**
        • **2.2 小模型在低 FLOPS 下的表现**
        • **2.3 大模型的优势在更高 FLOPS 中显现**
        • **2.4 解释:小模型 VS 大模型**
      • **3. 非正式观察:模型规模与遍历次数的关系**
        • **3.1 结论**
      • **4. 计算扩展规律的实际应用**
        • **4.1 优化资源利用**
        • **4.2 大模型的优势**
        • **4.3 小模型的局限**
      • **5. 总结与启示**

一 概述

这份讲义主要讲解了Scaling Laws,即大规模语言模型的扩展规律,解释了如何根据模型大小和计算资源需求来优化训练过程。以下是主要内容的概述:

1. 扩展规律的背景

  • 训练大规模语言模型成本极高,因此需要明确模型应该有多大,以及需要多少计算资源来有效训练模型。
  • 通过对小型模型进行实验,扩展规律可以帮助预测更大规模模型的表现,指导训练资源的合理分配。

2. 两种主要的扩展规律

  • 模型容量扩展规律(Capacity Scaling Law):用于预测模型能够记忆多少知识。
  • 计算扩展规律(Computation Scaling Law):用于预测训练模型所需的计算量和训练时间。

3. 模型容量扩展规律

  • 语言模型的容量衡量模型能够记忆多少“事实知识”。
  • 以知识为基础的人类智能是这一理论的核心,讲义中使用(名称,属性,值)的形式表示知识,如 “Harvard, Found Year, 1636”。
  • 通过实验,讲义分析了模型需要多少参数来存储这些知识,并得出了2bit/parameter 的结论,即每个模型参数能存储约 2 比特的信息。

4. 信息论下界

  • 使用信息论来计算存储特定量的传记信息所需的最小比特数。通过实验表明,模型参数与所需比特数成线性关系。

5. 计算扩展规律

  • 更大的模型需要更少的训练步数来记忆相同数量的知识。例如,模型的参数增加一倍,所需训练的步数则减少。
  • 更大的模型在记忆相同数据时训练速度更快,因此可以通过增大模型尺寸来提高训练效率。

6. 训练高效性

  • 如果模型的尺寸翻倍,那么不仅模型的大小增加,所需的训练数据量也会超过翻倍。例如,一个 7B 的模型需要 2 万亿个训练 token,而 70B 的模型需要超过 20 万亿个 token 才能被充分训练。
  • 讲义还指出,对于模型的优化训练,干净的数据和合理的训练步骤同样重要。

7. 结论与启示

  • 在训练大型语言模型时,不仅要考虑模型的大小,还要综合考虑训练数据量和计算资源。
  • 大模型在同等训练条件下可以更快地记忆数据,使用扩展规律可以帮助我们合理分配训练资源。

总结来说,这份讲义通过探讨模型容量和计算扩展规律,帮助理解如何优化大规模语言模型的训练过程,以达到更高效、更合理的计算资源利用。

二 2bit/parameter 概念(模型的存储能力分析)

在这里插入图片描述

1. 概念解释
  • 2bit/parameter:这一概念表示,在使用 FP16 精度训练 Transformer 模型时,每个参数最多可以存储 2比特 的信息。这是一个关键的限制,无论模型训练时长如何,参数的存储能力都不会超过这一上限。
  • 量化后仍为 2bit/parameter:即使在使用 FP16 训练完模型后,将模型量化为 FP8 或 Int8 进行压缩,我们依然观察到每个参数的存储能力保持为 2bit/parameter。这表明模型量化不会影响单个参数的最大存储信息量。
2. 图表解读
  • X 轴:表示模型的参数数量(#params),即模型规模的大小。从 1 0 6 10^6 106 1 0 8 10^8 108 不等,展示了从小型到大型模型的对比。

  • Y 轴:表示模型学习到的知识量(learned knowledge),以比特为单位(bits),从 1 0 6 10^6 106 1 0 8 10^8 108 不等。

  • 不同斜率线

    • 蓝色线:2bit/parameter
    • 红色线:1bit/parameter
    • 紫色线:0.5bit/parameter
    • 绿色线:0.25bit/parameter
  • 数据点颜色:每个数据点代表不同规模的数据集,标注了样本数 N N N,例如:

    • 粉色:N = 10,000,000
    • 红色:N = 5,000,000
    • 绿色:N = 1,000,000
    • 蓝色:N = 10,000

    这些数据点表示了在不同样本数下训练的模型在存储能力上的表现。

3. 量化模型的表现
  • 图表下方注释表明:即使在完成 1000 次训练后,将模型量化到 8-bit,也同样可以看到每个参数的存储能力仍然保持在 2bit/parameter。这表明,通过量化降低模型计算复杂度,并不会显著影响模型的存储能力。
  • 量化模型的优势
    • 在计算资源有限的情况下,量化模型是降低内存和计算负担的一种有效方式,同时可以保证模型仍然具有较高的知识存储能力。
    • 量化到 FP8/Int8 不会削弱模型的存储效率,仍然可以保持 2bit/parameter 的存储能力。
4. 知识存储的规模效应
  • 模型越大,存储能力越强:从图中可以清楚看到,随着模型参数规模的增加(X 轴向右移动),模型存储的知识量也显著增加(Y 轴向上移动)。在同样的 2bit/parameter 斜率下,较大的模型存储的知识量更大。
  • 同等规模下,存储能力保持不变:无论模型被量化到何种精度,参数数量相同时,所能存储的知识总量都沿着 2bit/parameter 的蓝色线性斜率分布。这说明量化后的模型在知识存储能力上仍能保持稳定表现。
5. 总结
  • 2bit/parameter 是模型的存储极限:无论是 FP16 还是 FP8/Int8 量化模型,Transformer 模型在训练时,每个参数最多只能存储 2 比特的信息。这一限制是由模型的架构决定的,而不是训练时长或精度所能突破的。
  • 量化技术的实用性:即便将模型量化到更低精度(如 Int8),我们依然可以保留高效的存储能力。这使得量化成为在有限资源下训练和部署大模型的一种有效手段。

三 Transformer 模型达到最大存储容量所需的训练次数

在这里插入图片描述

这张图展示了关于 Transformer 模型达到最大存储容量所需的训练次数,并且对比了不同数据质量情况下的训练效果。它解释了在理想数据和“噪声数据”(junk data)下,训练次数对模型存储能力的影响。

1. 关键结论:

  • 100次数据遍历(Passes)基本足够:如果数据是干净的(无噪声),训练数据集遍历 100 次左右就足够使模型达到其最大存储容量。
  • 训练需要干净的数据:即使增加数据遍历次数,但数据质量不高(含有大量无效或噪声数据),也无法显著提升模型的存储能力。

2. 三个子图的分析:

(a) 没有噪声,100次遍历
  • 数据说明:这是在无噪声的干净数据上训练,训练数据集被遍历 100 次。
  • 结果分析:从左边的图可以看到,随着模型参数规模的增加,存储的知识量接近 2bit/parameter 的理想斜率。模型在足够的干净数据下,存储容量可以达到最大值。
  • 结论:在干净的数据上,100次遍历已经足够让模型达到其存储能力的上限。
(b) 7/8 数据是噪声,100次遍历
  • 数据说明:在这个实验中,数据集中有 7/8 的数据是噪声(无效数据),只有 1/8 的数据是有用的主数据,数据集被遍历了 100 次。
  • 结果分析:从图中可以看出,噪声数据显著影响了模型的存储能力,存储的知识量远远低于 2bit/parameter。即使模型参数增大,模型能够存储的知识量依然受限。
  • 结论:在大量噪声数据的情况下,即使训练遍历 100 次,模型仍然不能充分利用参数的存储能力。
© 7/8 数据是噪声,800次遍历主数据
  • 数据说明:这次实验中,数据集有 7/8 是噪声数据,但模型经过了 800 次的主数据遍历训练(1/8 的主数据被反复使用)。
  • 结果分析:从右边的图可以看出,尽管有噪声数据,但由于主数据被反复使用了 800 次,模型的存储能力有所提升,并且接近理想的 2bit/parameter 斜率。
  • 结论:在有噪声数据的情况下,增加对主数据的训练次数可以一定程度上弥补噪声数据的影响,提升模型的存储能力。

3. 总结与启示:

  • 训练次数与数据质量的关系:干净数据的少量训练比大量的噪声数据更有效。在理想的情况下,100次遍历足够使模型达到最大存储容量。
  • 噪声数据的影响:大量的无效数据会极大降低模型的存储能力,甚至多次训练也无法弥补这种损失。
  • 数据遍历的有效性:即使数据中有噪声,通过增加对有用数据的训练遍历次数,也能提升模型的存储效果,但这需要显著增加训练次数。

这张图表明,干净的数据和适量的训练遍历是确保 Transformer 模型达到最佳存储能力的关键。而在噪声数据的情况下,单纯增加训练次数并不能有效提高模型的表现。

四 参数规模与训练数据量的关系

1. 关键结论:

  • 当模型规模加倍时,训练数据量需要大幅增加:如果我们将语言模型的规模加倍,那么所需的训练 tokens 数量将远不止翻倍。换句话说,模型的参数规模与训练数据的需求并非线性关系。
  • 7B 参数模型与 70B 参数模型的对比
    • 7B 参数模型:如果一个 7B 参数(即 70 亿参数)的模型需要 2 万亿(2T)个训练 tokens 来达到最佳性能。
    • 70B 参数模型:一个 70B 参数的模型则需要超过 20T 个训练 tokens。这意味着训练数据量的增长速度超过了模型参数的增长速度。

2. 理解原因:

2.1 参数规模与存储容量的关系:
  • 随着模型参数规模的增加,模型的存储容量也随之增加,这意味着模型能够存储和处理更多的知识和信息。
  • 如果训练数据量不足,即使模型有更多的参数,也无法充分训练这些参数来存储更多的知识。这就需要更多的训练数据,以填满这些新增的参数空间。
2.2 为什么训练数据量需要比参数量更快增长?
  • 当模型参数数量增大时,模型的表示能力增强,能够捕捉到更细粒度的特征和模式。为了充分利用这些新增的表示能力,需要额外的训练数据来提供更多样化的信息。
  • 非线性增长:当模型规模加倍时,训练数据量需要大于模型参数增加的倍数,因为模型需要处理更复杂的模式和特征,同时防止过拟合或欠拟合。

3. 实际应用中的影响:

3.1 对资源的需求:
  • 计算资源的投入增加:当模型规模增大时,不仅需要更大的 GPU/TPU 来支持更大规模的计算,同时也需要更多的训练数据来支撑模型的学习过程。
  • 数据的获取与质量:随着训练数据需求量的增加,如何获取足够且高质量的训练数据成为一个挑战。数据的多样性和覆盖范围必须增加,以防止模型的学习局限于某些狭窄领域。
3.2 训练时间的延长:
  • 训练所需的时间也会相应增加,因为模型不仅需要处理更多的训练数据,而且需要在更多的参数上进行优化。
  • 优化策略:在训练大模型时,可以考虑使用优化的训练策略,如混合精度训练、模型并行、梯度累积等,以减少资源消耗并提升训练效率。

4. 结论与建议:

  • 更大的模型需要更多的训练数据:训练一个大规模的语言模型时,数据量需要与模型规模相匹配,甚至要以更快的速度增加。否则,模型无法充分利用其增加的参数,进而导致次优的表现。
  • 数据策略的重要性:随着模型规模的增长,确保训练数据的数量和质量至关重要。合理的数据采集和预处理策略是训练大规模语言模型的核心要素。

五 2bit/parameter的概念与非线性增长的数据需求之间的关系

你提到的问题很关键。让我们详细分析2bit/parameter的概念与非线性增长的数据需求之间的关系,以及它们各自的背景和适用场景。

1. 关于 2bit/parameter

在前面提到的 2bit/parameter 规则中,我们主要讨论的是模型的存储能力,即 每个参数能存储多少比特的信息。具体来说:

  • 2bit/parameter 的含义是:在 Transformer 模型中,每个参数大约能够存储 2 比特的信息量。这是一个经验性结论,适用于基于 Transformer 的语言模型。
  • 这个结论是基于语言模型的存储容量如何随着模型规模的增加而线性增长。也就是说,模型的存储容量与参数的数量成线性关系——参数越多,存储的信息也越多。

注意:这个规则主要用于衡量模型在特定训练数据量下存储知识的能力,但并未涉及训练数据量是否足够来填充这些参数。


2. 关于数据需求的非线性增长

非线性数据需求 则是一个不同的概念,主要讨论的是如何让模型参数充分利用起来,即当我们增加模型的参数数量时,需要多少训练数据来使这些新增的参数得到充分的训练。

  • 问题背景:虽然模型的存储能力可以达到 2bit/parameter,但这只是理想情况下每个参数能存储的知识量。要让这些参数达到其最大存储能力,需要足够的训练数据。

具体来说,随着模型参数数量的增加,模型能够表示的信息也变得更复杂。因此,为了填满模型的存储能力,所需的训练数据量也会成倍增长,并且增长的速度要超过模型参数的增长速度。

为什么数据需求是非线性的?
  • 复杂模式的表示:更大的模型可以学习和表示更复杂的模式,这意味着为了充分利用模型的表示能力,需要更多的训练样本来提供足够的复杂性和多样性。
  • 防止过拟合:如果训练数据不足,即使模型有大量参数,这些参数也可能无法得到充分的训练,从而导致模型过拟合或表现不佳。为此,数据量需要增加得更快,以防止模型在较小的数据集上过拟合。

举个例子:如果一个 7B 参数的模型需要 2T tokens 来达到最佳效果,按照这个比例,直接增加 10 倍参数的 70B 模型应该需要远超过 20T tokens 来填充这些新增的参数并防止过拟合。因为模型规模增加后,它能够捕捉和表示的模式更加复杂,所需的数据也更丰富和多样。


3. 结论:二者的关系

  • 2bit/parameter 规则告诉我们,在给定的数据下,每个模型参数能存储多少信息量,这表示的是模型在已有数据量下的存储上限。
  • 非线性数据需求 说明的是,为了让模型的每个参数都能有效地存储信息,我们需要更多的数据来充分训练模型的这些参数。

因此,2bit/parameter 规则适用于评估模型的存储上限,而非线性数据增长则是关于如何填满这些参数,确保每个参数都被充分利用

这也是为什么我们需要理解模型容量训练数据量之间的区别:前者是评估存储能力,而后者是确保模型在实际应用中得到充分训练的关键因素。

六 如何更高效的训练

在训练大规模语言模型时,如何利用有限的计算资源达到最佳的训练效果是一个关键问题。根据计算扩展规律(Computation Scaling Law),研究揭示了模型规模与训练效率之间的复杂关系。特别是随着模型规模增大,训练所需的遍历次数减少,训练速度提高。然而,我们也需要仔细理解为什么在某些情况下,小模型在低计算量下表现看似更好。以下是完整的解释和总结。


1. 计算扩展规律的核心

1.1 关键观察

根据 DeepMind 的研究,计算扩展规律揭示了以下关键点:

  • 如果一个规模为 X X X 的语言模型需要对数据进行 K K K 次遍历(Passes)才能记住所有的知识,那么:
    • 一个规模为 p × X p \times X p×X p > 1 p > 1 p>1)的模型,只需要 少于 K / p K/p K/p 次遍历即可记住相同的知识量。

这意味着,随着模型规模增大,所需的训练遍历次数减少,并且大模型能够更快地学会相同的数据,从而减少训练时间。这一规律强调了大模型的训练效率,尤其是在大量计算资源下的优势。


2. 训练损失与计算量的关系

在这里插入图片描述

2.1 图表解释
  • X 轴:FLOPS:表示计算量,单位是浮点运算次数,横轴以对数表示,从 1 0 17 10^{17} 1017 1 0 22 10^{22} 1022
  • Y 轴:训练损失:表示模型在训练过程中的损失,数值越低表示模型拟合效果越好。
  • 颜色编码:曲线颜色从紫色到黄色,分别代表模型参数规模从 75M 到 10B 不等。
2.2 小模型在低 FLOPS 下的表现

在较低 FLOPS(如 1 0 20 10^{20} 1020)时,小模型(紫色和蓝色)的训练损失看似低于大模型(黄色和橙色)

  • 小模型由于参数少,能够更快地在有限计算资源下达到收敛,较早实现较低的训练损失。
  • 这是因为小模型的表示能力有限,它们能够快速学会简单模式,但无法继续学习复杂的知识。因此,小模型的损失下降在低 FLOPS 时更明显
2.3 大模型的优势在更高 FLOPS 中显现

随着 FLOPS 的增加(如从 1 0 21 10^{21} 1021 开始),**大模型(黄色和橙色)**的训练损失下降速度加快,并且超过小模型。这是因为:

  • 大模型具有更强的表示能力,能够学习到更复杂的数据模式和知识,但这需要更多的计算量。
  • 当计算资源足够时,大模型可以更有效地利用计算量,并在同样的 FLOPS 下实现更快的损失下降
2.4 解释:小模型 VS 大模型
  • 小模型在低 FLOPS 下收敛更快,但它们的表示能力有限,最终损失不会继续下降。
  • 大模型在低 FLOPS 时表现不佳,因为它们需要更多计算量才能充分发挥潜力。然而,一旦 FLOPS 足够,大模型的效率显著提升,表现优于小模型。

3. 非正式观察:模型规模与遍历次数的关系

在训练语言模型时,模型的参数规模决定了其记忆数据所需的遍历次数:

  • 要记住 k k k 比特的信息量:
    • k / 2 k/2 k/2 参数的模型:需要 1000 次遍历
    • k k k 参数的模型:需要 100 次遍历
    • 10 k 10k 10k 参数的模型:只需要 1 次遍历
3.1 结论
  • 大模型的高效性:较大的模型在训练时,可以通过更少的遍历次数记住更多的知识,从而节省训练时间。这与前面的计算扩展规律一致,即大模型通过较少的训练步骤即可达到相同的学习效果。
  • 小模型的局限:小模型虽然在早期 FLOPS 资源下表现良好,但它们需要更多的遍历次数才能达到与大模型相同的表现,并且最终表现受限于其参数规模。

4. 计算扩展规律的实际应用

4.1 优化资源利用

根据计算扩展规律,合理增大模型规模可以更高效地利用计算资源。在计算资源有限的情况下,大模型能够更快地学习并且减少训练时间。通过适当调整模型规模,训练任务的时间和计算成本可以显著降低。

4.2 大模型的优势
  • 高效的记忆能力:较大的模型能够通过更少的遍历次数记住更多的数据和知识,这使得它们在处理复杂任务时表现更优。
  • 计算资源的高效利用:在高 FLOPS 条件下,大模型的表现超越小模型,并能更快地收敛到较低的损失。因此,在计算资源充足的场景下,选择大模型是更具效率的策略
4.3 小模型的局限

虽然小模型在低 FLOPS 下表现看似良好,但其学习能力受限,无法在更大规模数据上展现与大模型相当的效果。因此,在长期和大规模任务中,大模型具有不可替代的优势。


5. 总结与启示

计算扩展规律表明,随着模型规模的增大,训练效率显著提高,训练步骤减少。虽然在低 FLOPS 下,小模型的训练损失看似较低,但这是因为它们的学习能力有限,较早达到其上限。而大模型则需要更多的计算资源来充分发挥潜力,并在高 FLOPS 下显著超越小模型的表现。

因此,在大规模训练任务中,合理选择大模型并充分利用计算资源,可以显著提升训练效率,减少计算成本,并最终获得更优的训练效果。

通过这些规律,我们能够更好地优化大规模语言模型的训练过程,并确保在不同的计算资源条件下实现最佳的训练效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2187715.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于SpringBoot+Vue+MySQL的校园招聘管理系统

系统展示 用户前台界面 管理员后台界面 公司后台界面 系统背景 随着高等教育的普及和就业市场的竞争加剧,校园招聘成为了连接学生与企业的关键桥梁。然而,传统的校园招聘流程繁琐、效率低下,且信息更新不及时,给企业和求职者带来了…

Leetcode: 0041-0050题速览

Leetcode: 0041-0050题速览 本文材料来自于LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解 遵从开源协议为知识共享 版权归属-相同方式…

CycleGAN图像风格迁移互换

tutorials/application/source_zh_cn/generative/cyclegan.ipynb MindSpore/docs - Gitee.com 本案例运行需要较大内存,建议在Ascend/GPU上运行。 模型介绍 模型简介 CycleGAN(Cycle Generative Adversarial Network) 即循环对抗生成网络,来自论文 U…

【Java】—— 集合框架:Collection子接口:Set不同实现类的对比及使用(HashSet、LinkedHashSet、TreeSet)

目录 5. Collection子接口2:Set 5.1 Set接口概述 5.2 Set主要实现类:HashSet 5.2.1 HashSet概述 5.2.2 HashSet中添加元素的过程: 5.2.3 重写 hashCode() 方法的基本原则 5.2.4 重写equals()方法的基本原则 5.2.5 练习 5.3 Set实现类…

map部分重点

1.map的方括号 给key,返回value的引用&#xff0c;如果没有key&#xff0c;就插入一个key,无参构造的value的pair<> 适用&#xff1a;没有就插入&#xff0c;有就拿找到的值 insert返回pair<iterator,bool>,[]返回值 #include<iostream> #include<map&…

更美观的HTTP性能监测工具:httpstat

reorx/httpstat是一个旨在提供更美观和详细HTTP请求统计信息的cURL命令行工具&#xff0c;它能够帮助开发者和运维人员深入理解HTTP请求的性能和状态。 1. 基本概述 项目地址&#xff1a;https://github.com/reorx/httpstat语言&#xff1a;该工具主要是以Python编写&#xff…

偏标记学习+图像分类(论文复现)

偏标记学习图像分类&#xff08;论文复现&#xff09; 本文所涉及所有资源均在传知代码平台可获取 文章目录 偏标记学习图像分类&#xff08;论文复现&#xff09;概述算法原理核心逻辑效果演示使用方式 概述 本文复现论文提出的偏标记学习方法&#xff0c;随着深度神经网络的发…

异常场景分析

优质博文&#xff1a;IT-BLOG-CN 为了防止黑客从前台异常信息&#xff0c;对系统进行攻击。同时&#xff0c;为了提高用户体验&#xff0c;我们都会都抛出的异常进行拦截处理。 一、异常处理类 Java把异常当做是破坏正常流程的一个事件&#xff0c;当事件发生后&#xff0c;…

CMU 10423 Generative AI:lec16(Mixture of Experts 混合专家模型)

关于MoE推荐博客&#xff1a; https://huggingface.co/blog/zh/moehttps://www.paddlepaddle.org.cn/documentation/docs/zh/guides/06_distributed_training/moe_cn.html 1 概述 这个文档是关于Mixture of Experts (MoE) 的介绍和实现&#xff0c;主要内容如下&#xff1a;…

virtualbox配置为NAT模式后物理机和虚拟机互通

virtualbox配置为 NAT模式后&#xff0c;虚拟机分配到的 IP地址一般是 10.xx网段的&#xff0c;虚拟机可以通过网络地址转换访问物理机所在的网络&#xff0c;但若不做任何配置&#xff0c;则物理机无法直接访问虚拟机。 virtualbox在提供 NAT配置模式时&#xff0c;也提供了端…

深度学习:CycleGAN图像风格迁移转换

基础概念 CycleGAN是一种GAN的变体&#xff0c;它被设计用来在没有成对训练数据的情况下学习两种不同域之间的图像到图像的转换&#xff0c;不需要同一场景或物体在两个不同域中的对应图像。 CycleGAN由Jun-Yan Zhu等人在2017年提出。 CycleGAN的模型架构主要由两组生成器和…

mac配置python出现DataDirError: Valid PROJ data directory not found错误的解决

最近在利用python下载SWOT数据时出现以下的问题&#xff1a; import xarray as xr import s3fs import cartopy.crs as ccrs from matplotlib import pyplot as plt import earthaccess from earthaccess import Auth, DataCollections, DataGranules, Store import os os.env…

CSS3--美开二度

免责声明&#xff1a;本文仅做分享&#xff01; 目录 定位 相对定位 绝对定位 定位居中 固定定位 堆叠层级 z-index 定位-小结 CSS 精灵 京东案例 字体图标 下载字体 使用字体 上传矢量图 CSS 修饰属性 垂直对齐方式 vertical-align 过渡 transition 透明度 opa…

【西门子V20变频器】 变频器运行时报A922报警

报警说明 原因&#xff1a; 1.变频器未接负载 2.变频器设定的电机参数与实际电机不匹配 3.查看P2179查看 无负载监控 设定的电流极限值&#xff0c;出厂默认为“3.0”

mysql事务 -- 事务的隔离性(测试实验+介绍,脏读,不可重复读,可重复度读,幻读)

目录 事务的隔离性 引入 测试 读未提交 脏读 读提交 不可重复读 属于问题吗? 例子 可重复读 幻读 串行化 原理 总结 事务的隔离性 引入 当我们让两个客户端共同执行begin语句时,就开始了两个事务并发访问 在这个过程中,可能会出现sql交叉的问题 但我们不希望因为…

项目定位与服务器(SERVER)模块划分

目录 定位 HTTP协议以及HTTP服务器 高并发服务器 单Reactor单线程 单Reactor多线程 多Reactor多线程 模块划分 SERVER模块划分 Buffer 模块 Socket模块 Channel 模块 Connection模块 Acceptor模块 TimerQueue模块 Poller模块 EventLoop模块 TcpServer模块 SE…

【ADC】噪声(1)噪声分类

概述 本文学习于TI 高精度实验室课程&#xff0c;总结 ADC 的噪声分类&#xff0c;并简要介绍量化噪声和热噪声。 文章目录 概述一、ADC 中的噪声类型二、量化噪声三、热噪声四、量化噪声与热噪声对比 一、ADC 中的噪声类型 ADC 固有噪声由两部分组成&#xff1a;第一部分是量…

【树莓派系列】树莓派wiringPi库详解,官方外设开发

树莓派wiringPi库详解&#xff0c;官方外设开发 文章目录 树莓派wiringPi库详解&#xff0c;官方外设开发一、安装wiringPi库二、wiringPi库API大全1.硬件初始化函数2.通用GPIO控制函数3.时间控制函数4.串口通信串口API串口通信配置多串口通信配置串口自发自收测试串口间通信测…

Django 后端数据传给前端

Step 1 创建一个数据库 Step 2 在Django中点击数据库连接 Step 3 连接成功 Step 4 settings中找DATABASES Step 5 将数据库挂上面 将数据库引擎和数据库名改成自己的 Step 6 在_init_.py中加上数据库的支持语句 import pymysql pymysql.install_as_MySQLdb() Step7 简单创建两…

以企业的视角进行大学生招聘

课程来源&#xff1a;中国计算机学会---朱颖韶&#xff08;资深人力资源领域--HR&#xff09; 一、招聘流程 1.简历->门槛 注重&#xff1a;专业学历、行业经验 2.笔试面试->专业知识与技能 3.简历面试-> 过往的成果 4.面试 沟通能力、学习力-----了解动机、价值观…