如何使用PyTorch训练LLM

news2026/2/12 10:38:11

推荐：使用 NSDT场景编辑器 快速搭建3D应用场景

像LangChain这样的库促进了上述端到端AI应用程序的实现。我们的教程介绍 LangChain for Data Engineering & Data Applications 概述了您可以使用 Langchain 做什么，包括 LangChain 解决的问题，以及数据用例的示例。

本文将解释训练大型语言模型的所有过程，从设置工作区到使用 Pytorch 2.0.1 的最终实现，Pytorch <>.<>.<> 是一个动态且灵活的深度学习框架，允许简单明了的模型实现。

先决条件

为了充分利用这些内容，重要的是要熟悉 Python 编程，对深度学习概念和转换器有基本的了解，并熟悉 Pytorch 框架。完整的源代码将在GitHub上提供。

在深入研究核心实现之前，我们需要安装和导入相关库。此外，重要的是要注意，训练脚本的灵感来自 Hugging Face 中的这个存储库。

库安装

安装过程详述如下：

首先，我们使用语句在单个单元格中运行安装命令作为 Jupyter 笔记本中的 bash 命令。%%bash

Trl：用于通过强化学习训练转换器语言模型。
Peft使用参数高效微调（PEFT）方法来有效地适应预训练的模型。
Torch：一个广泛使用的开源机器学习库。
数据集：用于帮助下载和加载许多常见的机器学习数据集。

变形金刚：由Hugging Face开发的库，带有数千个预训练模型，用于各种基于文本的任务，如分类，摘要和翻译。

现在，可以按如下方式导入这些模块：

数据加载和准备

羊驼数据集，在拥抱脸上免费提供，将用于此插图。数据集有三个主要列：指令、输入和输出。这些列组合在一起以生成最终文本列。

加载数据集的指令在下面通过提供感兴趣的数据集的名称给出，即：tatsu-lab/alpaca

我们可以看到，结果数据位于包含两个键的字典中：

特点：包含主列数据
Num_rows：对应于数据中的总行数

train_dataset的结构

train_dataset的结构

可以使用以下说明显示前五行。首先，将字典转换为熊猫数据帧，然后显示行。

train_dataset的前五行

train_dataset的前五行

为了获得更好的可视化效果，让我们打印有关前三行的信息，但在此之前，我们需要安装库以将每行的最大字数设置为 50。第一个 print 语句用 15 个短划线分隔每个块。textwrap

前三行的详细信息

前三行的详细信息

模型训练

在继续训练模型之前，我们需要设置一些先决条件：

预训练模型：我们将使用预训练模型Salesforce/xgen-7b-8k-base，该模型可在Hugging Face上使用。Salesforce 训练了这一系列名为 XGen-7B 的 7B LLM，对高达 8K 的序列进行了标准的密集关注，最多可获得 1.5T 代币。
分词器： 这是训练数据上的标记化任务所必需的。加载预训练模型和分词器的代码如下：

pretrained_model_name = "Salesforce/xgen-7b-8k-base"
model = AutoModelForCausalLM.from_pretrained(pretrained_model_name, torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name, trust_remote_code=True)