从零开始实现大语言模型（一）：概述

1. 前言

大家好，我是何睿智。我现在在做大语言模型相关工作，我用业余时间写一个专栏，给大家讲讲如何从零开始实现大语言模型。

从零开始实现大语言模型是了解其原理及领域大语言模型实现路径的最好方法，没有之一。已有研究证明，为特定任务定制或使用领域数据训练的大语言模型能在领域相关的评价指标上超过ChatGPT这样的通用大语言模型。

本专栏将从零开始讲解大语言模型理论原理step-by-step，提供一整套工业级文本数据处理，大语言模型构建、预训练、监督微调及指令微调，并行计算与分布式训练代码，并且从零开始解释实现代码line-by-line。

2. 大语言模型的模型结构

2017年，文章Attention is all you need提出了一种用于机器翻译的sequence-to-sequence架构模型Transformer。Transformer包含一个编码器(encoder)和一个解码器(decoder)，编码器提取输入文本中的上下文信息，将其转变成多个向量，并传递给解码器。解码器接收编码器生成的向量，生成输出序列。

2018年，文章BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding使用 [MASK] 单词预测任务和句子前后顺序预测任务预训练Transformer模型的编码器，预训练后的模型被称为BERT(Bidirectional Encoder Representations from Transformers)。BERT模型的编码器架构及训练策略，使其非常擅长情感预测、文档分类等文本分类任务。

句子前后顺序预测任务，最初是预测两句话是否在原始预训练语料中相邻，后续改进为原始预训练语料中的两个相邻句子是否被交换顺序。

同年，OpenAI的文章Improving Language Understanding by Generative Pre-Training通过生成式预训练任务（根据一段话的前文预测后文）训练Transformer模型的解码器，预训练后的模型被称为GPT(Generative Pretrained Transformers)。GPT模型的解码器架构及训练策略，使其非常擅长机器翻译、文本摘要、编写计算机代码等文本生成任务。

Transformer、BERT及上述GPT模型网络结构核心是自注意力机制(self-attention)。自注意力机制可以让模型判断输入文本序列中不同token之间的相关性，使模型能够捕获输入文本数据中长距离依赖关系及上下文关系，因而比传统基于RNN等结构的模型具备更强的自然语言理解能力，生成的内容更加连贯且与上下文相关性更强。

token是指对文本分割处理后得到的最小单位，也是模型处理文本时的基本单元。训练数据处理时常提到的tokenization，即把自然语言文本处理成连续的token。Token可以是一个单词，一个字符，一个词组等等，取决于对训练数据做tokenization时采用的方法。

相比较于上面OpenAI的文章介绍的GPT-1模型，GPT-3模型结构没有做任何调整。GPT-3可以视为GPT-1模型的拓展，其模型层数更多，Embedding向量维度更高，参数量更大，并且使用了更大的预训练数据集。ChatGPT是通过OpenAI的InstructGPT论文中的方法在一个大的指令数据集(instruction dataset)上微调GPT-3而产生的。Meta的LLaMA等绝大部分大语言模型结构与GPT基本相同或仅仅做了非常微小的修改。

与Transformer模型相比，大语言模型GPT的结构非常简单，本质上它只是Transformer模型的解码器。但是GPT-3比原始Transformer模型解码器要大的多，原始Transformer模型解码器仅包含6个Transformer Block，但是GPT-3包含96个Transformer Block，共1750亿参数。GPT生成文本时每次仅预测下一个token，因此它也被视为一种自回归模型(autoregressive model)。

尽管GPT只相当于Transformer模型的解码器，而不是像Transformer那样明确被用于解决机器翻译任务的sequence-to-sequence模型，且训练模型的下一个token预测任务也不是专门针对机器翻译的任务，但是它也能够执行机器翻译任务，且大语言模型机器翻译效果比一般机器翻译模型都相对好。

大语言模型这种能够执行没有被明确训练的能力被称为“涌现(emerging property)”。涌现是一种没有使用相同任务明确训练，而是模型在学习了大量各种各样语言的语料之后自然而然出现的能力。大语言模型中的这种涌现现象证明了其具备非常强大的能力，部分专家学者认为其具备一定的通用人工智能雏形，截止目前大家已经发现并认可了大语言模型的广阔应用前景。

3. 大语言模型的训练方法

如下图所示，大语言模型的训练方法通常包含预训练(pretraining)和微调(finetuning)。

预训练是指使用大量无标签的、多样化的文本数据(raw text)，通过下一个token预测任务(next token prediction task)训练模型，使模型能够了解自然语言文本中的语法及知识。预训练后的模型被称为基础模型(base model or foundational model)，如GPT-3（ChatGPT对应的基础模型）。基础模型一般具有比较强的文本补全(text completion)及小样本学习(few-shot learning)能力。

文本补全是指模型能够根据用户输入的上文，完成相应的下文。小样本学习是指不用大量训练数据训练或微调模型，而是提供几个具体任务的示例，模型也能够输出比较不错的结果。

可以使用针对特定任务或具体领域的小数据集微调模型参数，使基础模型具备如ChatGPT这样的对话能力。最流行的两类微调大语言模型的方法为指令微调(instruction-finetuning)和监督微调(finetuning for classification tasks)。指令微调是指使用如下所示的带标签的（指令-答案）数据集继续训练基础模型，监督微调是指使用（文本-类别标签）这样的带标签数据集继续训练基础模型。

{
    "instruction": "请把下面的中文翻译成英文：\n我爱你。",
    "answer": "I love you."
}

“raw"的意思为"原始的”，是指用于预训练模型的数据不包含任何使用监督学习方法训练传统机器学习模型或深度学习模型时用到的标签信息。预训练大语言模型的方法被称为自监督学习(self-supervised learning)，预训练模型的标签数据使用一定的规则从输入文本中自动生成。

使用raw text训练模型并不意味着不对用于预训练的文本数据做任何处理。如在预训练之前，通常会使用一系列文本预处理方法对文本数据进行过滤。已有研究表明，预训练大语言模型的文本质量越高，则模型能力越强。

4. 大语言模型的训练数据

预训练GPT-3的数据来自5个不同的数据集，共包含3000亿tokens。其中CommonCrawl (filtered)是采用一定规则从CommonCrawl数据集过滤得到的一个质量相对高的子集，WebText2是Reddit网站上获得3个及以上点赞的帖子中的外部链接所包含的网页文本（外部链接指向其他网页，WebText2收集了这些链接指向网页的文本内容），Books1可能来自古腾堡计划（Project Gutenberg，古腾堡计划是一个数字化图书馆，致力于向公众提供免费的电子书），Books2可能来自Libgen（Libgen是一个知名的免费图书共享平台，用户可以通过该平台获取各种电子书、学术论文和期刊等资源），Wikipedia数据集由英文维基百科组成。

数据集名称	描述	token数量	在训练数据集中的比例
CommonCrawl (filtered)	Web crawl data	410 billion	60%
WebText2	Web crawl data	19 billion	22%
Books1	Internet-based book corpus	12 billion	8%
Books2	Internet-based book corpus	55 billion	8%
Wikipedia	High-quality text	3 billion	3%

GPT-3之后的大语言模型进一步拓展了训练模型的数据集，如Meta的LLaMA还使用了Arxiv网站中的论文数据集（92GB）及StackExchange网站中与代码相关的问答数据集（78GB）。国内的大语言模型也针对性地增加了训练集中的中文训练数据占比。

GPT-3论文作者没有公开他们用到的训练数据集，但是有个类似的开源数据集The Pile，该数据集的信息可以点击链接查看详情：https://pile.eleuther.ai/。

训练GPT-3时并没有使用上表提到的5个数据集中的全部数据，而是从每个数据集中抽取了一部分数据，共同组成了训练模型的包含3000亿tokens的训练数据集。抽取数据的原则是：质量越高的数据集采样比例越高，质量越低的数据集采样比例越低。如CommonCrawl数据集共包含4100亿tokens，但是只从中抽取了1800亿tokens，WebText2虽然只包含190亿tokens，但是从中共抽取了660亿tokens，相当于将WebText2数据集重复了3.47遍。

5. 大语言模型的实现流程

从零开始实现大语言的流程共三阶段：构建大语言模型、预训练大语言模型、微调大语言模型。

大语言模型构建部分将详细介绍文本数据处理方法，构建训练大语言模型的Dataset及DataLoader；从零开始一步步解释并实现简单自注意力机制(simplified self-attention)、缩放点积注意力机制(scaled dot-product attention)、因果注意力机制(causal attention)、多头注意力机制(multi-head attention)；并最终构建出OpenAI的GPT系列大语言模型GPTModel。

预训练部分将介绍并行计算与分布式机器学习方法原理，实现使用无标签文本数据训练大语言模型的方法，以及介绍大语言模型效果评估的基本方法。使用GPT-3同量级数据集预训练大语言模型的计算代价非常大，如果换算成相应云计算资源价值，预训练GPT-3大约需耗费460万美元。因此，该部分同时会介绍使用构建好的大语言模型加载开源大语言模型(如GPT-2)权重的方法。