算力共享:混合并行策略
目录
-
- 算力共享:混合并行策略
-
- 一、常见并行技术
- 二、混合并行策略举例
混合并行策略是在深度学习模型训练过程中,综合运用多种并行技术来加速训练过程的方法。以下是常见的并行技术以及混合并行策略的举例:
一、常见并行技术
- 数据并行(Data Parallelism)
- 原理:将训练数据划分成多个子集,分配到多个计算设备(如GPU)上。每个设备都有完整的模型副本,对不同的数据子集进行训练,然后在每个训练步骤结束时,将各个设备上计算得到的梯度进行聚合,更新模型参数。
- 举例:假设有1000个训练样本和4个GPU。将1000个样本平均分成4份,每份250个样本,分别送到4个GPU上进行训练。每个GPU独立计算损失和梯度,然后通过AllReduce等操作将梯度汇总平均,更新模型。
- 模型并行(Model Parallelism)
模型并行中的多头切分
多头注意力机制与模型并行
在基于 Transformer 架构的大型语言模型(LLM)中,多头