LLaMA-Factory使用实战

news2025/4/1 19:36:25

LLaMA-Factory使用实战

项目介绍

项目地址：https://github.com/hiyouga/LLaMA-Factory

中文文档：安装 - LLaMA Factory

快速开始文档：https://zhuanlan.zhihu.com/p/695287607（推荐参考）

远程服务器通过本地代理加速访问网站：

https://zhuanlan.zhihu.com/p/18500712254
Centos7 -- 用三种方法设置代理服务器上网_center os如何强制所有应用使用代理上网-CSDN博客（适用于服务器下载速度较慢的情况）

一、DeepSpeed技术解析

讲这个的原因就是因为，训练大模型肯定是得多卡并行的，这样不仅能节省空间，还能加快速度，所以，微调训练的时候，一般都会采用分布式训练。

有很多种情况，单机多卡，多机多卡等等。

核心原理

DeepSpeed的核心就在于：GPU显存不够，CPU内存来凑。

DeepSpeed是微软开发的分布式训练工具，通过ZeRO技术优化内存占用，支持更大规模的模型训练。ZeRO通过分片模型参数、优化器状态和梯度来减少显存需求，分为多个阶段（Stage1、2和3），每个阶段逐步增加内存优化程度。混合精度训练结合FP16和FP32，降低显存使用，但需要平衡精度和计算效率。

具体而言，DeepSpeed将当前时刻训练模型用不到的参数缓存到CPU中，需要时再从CPU挪到GPU。这里的"参数"不仅指模型参数，还包括optimizer、梯度等。

越多的参数挪到CPU上，GPU的负担就越小；但代价是更频繁的CPU-GPU交互，显著增加训练推理的时间开销。因此，DeepSpeed使用的核心要义是时间开销和显存占用的权衡。

Offload技术

将forward中间结果保存到内存、硬盘（NVMe）等缓存中，然后在需要时进行加载或重计算，进一步降低显存占用。

并行训练范式

在大规模深度学习模型训练中有两个主要范式：

数据并行
模型并行

目前训练超大规模语言模型技术路线：GPU + PyTorch + Megatron-LM + DeepSpeed

DeepSpeed优势

DeepSpeed是Microsoft提供的分布式训练工具，旨在支持更大规模的模型和提供更多的优化策略和工具。主要优势在于：

支持更大规模的模型
提供更多的优化策略和工具（例如ZeRO和Offload等）

核心技术特点

3D并行化实现万亿参数模型训练：DeepSpeed实现了三种并行方法的灵活组合：ZeRO支持的数据并行，流水线并行和张量切片模型并行。适应不同工作负载需求，支持万亿参数超大型模型，实现近乎完美的显存扩展性和吞吐量扩展效率。提高的通信效率使用户可以在网络带宽有限的常规集群上以2-7倍的速度训练有数十亿参数的模型。
ZeRO-Offload使GPU单卡能够训练10倍大的模型：扩展了ZeRO-2，同时利用CPU和GPU内存训练大型模型。使用单张英伟达V100 GPU时，可运行多达130亿参数的模型，模型规模扩展至现有方法的10倍，并保持有竞争力的吞吐量。
DeepSpeed Sparse Attention实现6倍速度执行10倍长的序列：提供稀疏attention kernel，支持长序列模型输入（文本、图像、语音）。比经典稠密Transformer支持的输入序列长一个数量级，获得最高6倍执行速度提升，比最新稀疏实现快1.5-3倍。
1比特Adam减少5倍通信量：新算法最多可减少5倍通信量，同时实现与Adam相似的收敛率。在通信受限场景下，分布式训练速度提升3.5倍，适用于不同类型的GPU集群和网络环境。