LLMs基础学习（一）概念、模型分类、主流开源框架介绍以及模型的预训练任务

文章目录

LLM基础学习（一）
- 一、大语言模型（LLMs）的简单介绍
- - 定义与基本信息
  - 核心特点
  - 局限性
  - 参考的模型
- 二、大语言模型（LLMs）名称后 “175B”“60B”“540B” 等数字的含义
- - 数字代表模型参数数量
  - 具体示例
  - 参数数量的影响与局限
- 三、分析大语言模型（LLMs）的优点和缺点
- - 优点
  - 缺点
- 四、大语言模型（LLMs）的分类
- - 按输入内容分类
  - 按预训练任务分类
  - 按模型规模分类
- 五、主流 LLMs 开源模型体系对应的架构
- - Encoder-Decoder
  - - Encoder（编码器）与 Decoder（解码器）区别
    - 简易图示（以文本处理为例）：
  - Causal Decoder（因果解码器）
  - Prefix Decoder（前缀解码器）
  - 三种架构的核心区别
- 六、预训练任务
- - 三类常见预训练任务
  - - 训练目标
  - 语言建模（Language Modeling, LM）
  - 去噪自编码（Denosing Autoencoding, DAE）
  - 总结对比

LLM基础学习（一）

原视频链接

一、大语言模型（LLMs）的简单介绍

定义与基本信息

大语言模型是针对语言设计的大型模型，通常以 “亿级以上参数” 为特征（尽管该标准不绝对，如今已出现万亿参数模型，如 Megatron-Turing LM MoE 1.3B）。

核心特点

大规模参数：参数数量庞大（如 GPT-3 的 1750 亿、PaLM 的 5400 亿），参数越多，模型对语言的理解、文本处理及生成流畅内容的能力越强。
多任务处理：经训练后，LLMs 能在文本摘要、情感分析、机器翻译等多种语言任务中表现优异，因其从海量数据中学习到了语言模式与规律。
上下文理解：处理长文本时，可保持内容的一致性与逻辑性，尤其擅长对话和内容创作，能 “记忆” 对话历史，理解上下文关联。
自监督学习：主要依赖自监督学习，利用未标注数据，通过预测下一个词、填空补全、匹配句子等方式学习语言结构。
通用性与扩展性：可迁移至多种任务和领域，通过少量微调，即可在医疗文本分析、法律文件摘要等专门任务中发挥作用。

局限性

尽管能力突出，LLMs 仍存在生成错误信息（“幻觉”）、隐含偏见，以及训练需高计算资源等问题。

参考的模型

BLOOM、gpt-4o、百度文心一言、阿里通义千问、讯飞星火、商汤 SenseChat 等）

二、大语言模型（LLMs）名称后 “175B”“60B”“540B” 等数字的含义

数字代表模型参数数量

这些数字表示大语言模型的参数数量，单位 “B” 是 “billion”（十亿）的缩写。参数是模型训练中学习的权重系数，直接影响模型复杂度与计算能力。

具体示例

175B：指模型包含 1750 亿个参数，如 OpenAI 的 GPT-3。
60B：代表 600 亿参数，例如 Meta（原 Facebook）的 LLM 版本之一。
540B：表示 5400 亿参数，典型如 Google 的 Pathways Language Model（PaLM）较大版本。

参数数量的影响与局限

优势：参数越多，模型学习和捕捉语言模式、语义信息的能力越强，处理复杂任务或生成高质量文本的性能更优。
局限：参数数量不直接等同于效果，还依赖模型优化、数据质量、训练方法等。例如，过多参数可能增加计算资源消耗，且若训练数据或方法不足，模型效果未必提升。

三、分析大语言模型（LLMs）的优点和缺点

优点

语言理解与生成能力强：
基于海量文本数据训练，对自然语言的理解和生成表现优异，能创作连贯文章、回答问题、模拟对话，广泛用于聊天交互、写作辅助等场景。
跨领域知识广泛：
在医学、法律、工程等多领域提供知识支持。因训练数据覆盖海量内容，积累了跨领域知识，用户可咨询专业或非专业问题。
支持多语言：
具备处理多种语言的能力，如 GPT-3、GPT-4 支持英语、中文、法语等，在跨国服务或多语言客户场景中实用性高。
快速部署和适应性：
通过微调预训练模型，可适配不同任务需求。例如针对法律、医疗等领域微调，使其适用于法律助理、医疗咨询等具体场景。

缺点

缺乏事实准确性：
回答可能出现 “看似合理但不准确” 的信息，因模型基于模式匹配和概率分布生成内容，并非真正理解事实，且知识更新易滞后。
计算资源消耗大：
训练和运行需大量计算资源，如 GPT-3 训练耗费高额电力和硬件资源，实际应用中成本高，推理速度也可能受硬件限制。
可能产生偏见：
若训练数据含性别、种族、地域等偏见，模型输出会反映这些偏见，影响其公正性和适用性。
隐私安全风险：
训练数据可能包含敏感个人信息，若生成内容不慎暴露相关信息，会引发隐私泄露问题。
大模型（LMs）的分类方式，具体内容如下：

四、大语言模型（LLMs）的分类

按输入内容分类

语言大模型（NLP）
- 定义与特点：聚焦自然语言处理（NLP）领域，通过大规模语料库训练，学习自然语言的语法、语义、语境规则，用于文本处理与语言理解。
- 典型示例：GPT 系列（OpenAI）、Bard（Google）、百度文心一言、阿里云 Qwen 等。
视觉大模型（CV）
- 定义与特点：应用于计算机视觉（CV）领域，基于大规模图像数据训练，实现图像处理与分析，涵盖图像分类、目标检测、图像分割、姿态估计、人脸识别等任务。
- 典型示例：Google 的 VIT 系列、百度文心 UFO、华为盘古 CV、商汤 - 书生 INTERN 等。
多模态大模型
- 定义与特点：处理文本、图像、音频等多种类型数据，融合 NLP 和 CV 能力，综合理解多模态信息，应对复杂数据场景。
- 典型示例：OpenAI 的 DALL-E（图像生成）、midjourney（图文交互生成）等。

按预训练任务分类

自回归语言模型
- 原理与应用：通过前文内容预测下一个词，擅长生成任务，如 GPT 系列模型，常用于文本生成、对话模拟等场景。
自编码语言模型
- 原理与应用：通过掩码语言建模（masked language modeling）预测被遮挡的词，侧重语言理解与分类任务，典型如 BERT，用于文本分类、情感分析等。
序列到序列语言模型
- 原理与应用：将一个序列转换为另一个序列，可完成理解与生成任务，在机器翻译、文本生成等领域广泛应用，如 T5、BART 等模型。

按模型规模分类

小规模模型

定义与参数范围：参数数量通常在数千万到几亿之间。
典型示例：如 BERT Base、GPT-2 Small 等。
适用场景：适合资源有限的设备或边缘计算场景。因参数量较少，对计算资源要求较低，可在硬件条件有限的环境中运行，满足基础任务需求。

中等规模模型

定义与参数范围：参数数量一般在几亿到几十亿之间。
典型示例：如 BERT Large、GPT-2 Medium 等。
特点：平衡性能和计算开销，既具备一定的复杂任务处理能力，又不会过度消耗计算资源，适用于对性能有一定要求但需控制成本的场景。

大规模模型

定义与参数范围：参数数量可到达百亿到上万亿之间。
典型示例：如 GPT-3、PaLM、LLaMA 等。
特点：具备更强的复杂任务处理能力（如复杂推理、高难度生成任务），但对计算资源要求极高，常用于对性能要求严苛的场景（如前沿科研、工业级复杂应用）。

五、主流 LLMs 开源模型体系对应的架构

在自然语言处理的 预训练 + 微调范式 中，形成了三类主流架构：

Encoder-only（编码器架构）：以 BERT 为代表，仅使用编码器处理文本，擅长文本理解任务（如文本分类、语义匹配），通过掩码语言模型（MLM）学习双向语义信息。
Decoder-only（解码器架构）：以 GPT 为代表，仅使用解码器，采用自回归方式（根据前文预测下一个词），适合生成任务（如文本生成、对话），是当前生成式大语言模型的主流架构。
Encoder-Decoder（编码器 - 解码器架构）：以 T5 为代表，结合编码器和解码器，编码器处理输入文本，解码器生成输出，适用于序列到序列任务（如机器翻译、问答系统），兼顾理解与生成能力。

在这里插入图片描述

图片通过可视化表格对比了 Causal Decoder、Prefix Decoder、Encoder-Decoder：

Causal Decoder：仅解码器，按顺序处理，生成依赖前文。
Prefix Decoder：解码器部分支持前置信息（Prefix），生成时结合前缀与实时内容。
Encoder-Decoder：包含独立的编码器和解码器，编码器处理输入，解码器基于编码器输出生成，适合双向信息交互的任务（如翻译）。

Encoder-Decoder

左侧 “Encoder” 部分处理输入数据，右侧 “Decoder” 部分基于编码器输出生成结果，体现了两者协作完成任务的流程。

定义：Encoder-Decoder 是自然语言处理领域的经典模型架构，广泛应用于机器翻译等序列到序列任务。原始的 Transformer 模型即采用这一架构，通过组合两个分别担任编码器（Encoder）和解码器（Decoder）的 Transformer 模块实现功能。
应用场景：适用于需要同时处理输入理解与输出生成的任务，如机器翻译、文本摘要、问答系统等。
编码器（Encoder）：采用双向自注意力机制，对输入信息进行编码处理，捕捉输入文本的全局语义信息。
解码器（Decoder）：使用交叉注意力（结合编码器输出与自身输入）和掩码自注意力机制，通过自回归方式（逐步生成下一个词）输出目标序列（如翻译后的文本）。
基于 Encoder-Decoder 设计的预训练语言模型，在 自然语言理解与生成任务 中表现优异。但目前仅有少数大语言模型（如 FLAN-T5）基于该架构构建，可能因训练复杂度、生成效率等因素，未成为主流大语言模型的首选架构。

Encoder（编码器）与 Decoder（解码器）区别

维度	Encoder（编码器）	Decoder（解码器）
核心功能	编码：将输入（文本 / 图像等）转为模型可处理的特征表示。	解码：将编码后的特征还原为目标输出（如文本生成）。
典型应用	文本分类（提取文本特征）、图像压缩（编码图像数据）。	机器翻译（生成目标语言）、文本生成（输出完整句子）。
工作逻辑	分析输入，提取关键信息，关注 “理解”。	基于编码信息，逐步生成结果，关注 “输出”。

简易图示（以文本处理为例）：

输入文本 → [Encoder] → 编码特征 → [Decoder] → 生成目标文本  
（如“我爱自然语言”）   （语义向量）          （如“I love NLP”）

Causal Decoder（因果解码器）

定义：Causal Decoder 是因果语言模型（Causal LM）的核心架构，当前主流的大语言模型（如 GPT 系列、LLaMA 等）均采用该结构。
典型代表：最具代表性的是 OpenAI 的 GPT 系列模型。随着 GPT-3 的成功，因果解码器被广泛应用于 BLOOM、LLaMA（Meta）等大语言模型中。
单向注意力掩码 ：
- Causal Decoder 使用单向注意力掩码，确保每个输入的 token（文本单元）只能关注过去的 token 和自身，无法看到后续内容。例如，在处理文本 “A Survey of” 时，“Survey” 能看到前面的 “A”，但看不到后面的 “of”。
- 其序列掩码矩阵是典型的下三角矩阵（图示中灰色单元表示对应 token 间无法相互关注），以此实现自回归生成（按顺序依前文生成后续内容）。
输入输出处理：输入和输出的 token 均通过 Decoder 以相同方式处理，遵循 “基于前文预测下一个词” 的逻辑，适合文本生成任务。

在这里插入图片描述
示意图直观展示了 Causal Decoder 的掩码机制：

纵向和横向的 token 排列中，灰色单元表示对应位置的 token 无法相互关注，仅能看到左侧（过去）的内容，体现了单向注意力的约束，与下三角掩码矩阵的原理一致。
该架构因适配自然语言的顺序生成特性，成为生成式大语言模型的主流选择，尤其擅长文本续写、对话生成等任务。

Prefix Decoder（前缀解码器）

非因果解码器属性：Prefix Decoder 又称非因果解码器架构，是对因果解码器掩码机制的改进。与因果解码器一样，仅使用解码器组件，但在处理逻辑上有显著差异。
区别于 Encoder-Decoder：不划分独立的编码器和解码器，而是在单一解码器流程中完成编码和解码，简化了架构设计。
输入输出处理：
- 输入（前缀部分）：采用双向注意力机制编码，允许模型在处理输入前缀时关注前后文信息，充分捕捉语义。
- 输出部分：利用单向掩码注意力，仅基于当前词元及前面的词元进行自回归预测，确保生成逻辑的连贯性。
掩码机制调整：通过修改掩码规则，平衡了输入信息的全面理解与输出生成的顺序性，既参考了 Encoder-Decoder 的双向编码优势，又保留了解码器生成的特性。

在这里插入图片描述

图示通过可视化矩阵展示了 Prefix Decoder 的注意力机制：输入前缀部分（如 “A Survey of”）允许双向关注（蓝色单元相互可见），而输出生成部分遵循单向掩码规则（绿色、黄色单元仅能关注前文），直观体现了其架构特点。
当前基于前缀解码器架构的大语言模型包括：

GLM-130B：由中国团队开发，结合前缀解码特性，优化了长文本处理与生成能力。
U-PaLM（Google）：谷歌推出的模型，借助前缀解码器架构实现高效的文本生成与理解任务。

三种架构的核心区别

重点体现在 注意力掩码（attention mask）机制 及对应特性上，具体如下：

Encoder-Decoder

注意力特点：输入采用双向注意力，对问题的编码理解更充分。
适用场景：在偏理解的 NLP 任务（如机器翻译、文本摘要）中效果好。
局限性：长文本生成任务效果差，训练效率较低。

Causal Decoder（代表：GPT 系列）

注意力规则：严格遵循自回归语言模型逻辑，仅后面的 token 能看到前面的 token，输出与预训练的注意力规则完全一致。
优势：
- 训练效率高，零样本（zero-shot）能力强，具备涌现能力（处理复杂任务时展现出预训练阶段未明确学习的能力）。
- 擅长文本生成任务（如对话、文章续写）。

Prefix Decoder（代表：GLM）

注意力特点：prefix（前缀）部分的 token 可互相看见，打破单向注意力限制。
适用场景：在文本生成任务中，结合前缀信息实现更灵活的生成效果，平衡输入理解与输出生成。

总结来看，三者的核心差异源于注意力掩码机制的不同，进而影响模型在理解、生成任务上的表现及训练效率。

六、预训练任务

在大规模预训练中，通过设计自监督预训练任务，让模型从海量无标注数据中学习语义知识与世界知识，为后续下游任务奠定基础。

三类常见预训练任务

语言建模（Language Modeling, LM）
- 核心逻辑：基于上下文预测单词，分为自回归（如 GPT、LLaMA，按顺序预测下一词）和自编码（如 BERT，通过掩码预测被遮词）。
- 图示示例：输入 “今天的天气很不错。”，模型学习预测后续内容，聚焦文本生成的连贯性。
去噪自编码（Denosing Autoencoding, DAE）
- 核心逻辑：修复被破坏的输入（如添加掩码、删除或替换部分内容），还原原始文本，侧重理解与恢复能力。
- 图示示例：输入 “今天的 [MASK] [MASK] 不错。”，模型输出 “天气很不错”，典型模型如 T5、GLM。
混合去噪器（Mixture-of-Denosers, MoD）
- 融合多种去噪方式（如同时使用掩码、删除等操作），提升模型对复杂数据的处理鲁棒性。

在这里插入图片描述

训练目标

通过这些预训练任务，模型学习语言结构、语义关联及世界知识，获得强大的泛化能力，以适配翻译、问答、文本生成等多样化下游任务。图片通过图示直观对比语言建模和去噪自编码的输入输出，展现不同任务的训练逻辑差异。

语言建模（Language Modeling, LM）

任务核心
- 以 “预测下一个词元” 为目标，广泛应用于基于解码器的大语言模型（如 GPT-3、PaLM）。模型通过学习文本序列的概率分布，根据前文内容预测后续词元。
形式化表达
- 给定词元序列 $(\mathbf{u} = u_1, \dots, u_T)$ ，语言建模任务通过自回归方式，基于当前位置之前的词元序列 $u_{<t})$ 预测目标词元 $u_t)$ 。
- 优化的损失函数为：
  $(\mathcal{L}_{\text{LM}}(\mathbf{u}) = \sum_{t=1}^T \log P(u_t | u_{<t}))$
  - $(\mathcal{L}_{\text{LM}}(\mathbf{u}))$ ：语言模型对句子的损失函数。
  - $P(u_t | u_{<t}))$ ：已知前 $(t - 1)$ 个词元时，第 t 个词元出现的概率。
  - 通过最大化对数概率总和，训练模型捕捉文本序列的语义依赖。
本质与扩展
- 本质是多任务学习，例如预测句子中 “好看” 时，模型学习情感分析的语义；预测 “一块糖” 时，学习数学算术相关语义。
- 不同解码器训练差异：
  - Causal Decoder：在所有词元上计算损失（如 GPT 系列，每个位置都参与预测训练）。
  - Prefix Decoder：仅在输出部分计算损失（如 GLM，区分输入前缀和输出生成的训练逻辑）。

去噪自编码（Denosing Autoencoding, DAE）

任务核心
- 输入文本经随机替换、删除等操作形成损坏版本 $(\tilde{\mathbf{u}})$ ，模型目标是根据损坏文本恢复原始词元片段 $(\hat{\mathbf{u}})$ 。广泛应用于 BERT、T5 等模型。
形式化表达
- 目标函数： $(\mathcal{L}_{\text{DAE}}(\mathbf{u}) = \log P(\hat{\mathbf{u}} | \tilde{\mathbf{u}}))$
  - 模型需学习从损坏文本 $(\tilde{\mathbf{u}})$ 到原始文本 $(\hat{\mathbf{u}})$ 的映射关系。
优化策略与局限
- 需设定额外策略（如词元替换策略、替换片段长度、替换词元比例），这些策略直接影响模型训练效果。
- 虽应用广泛，但预训练大语言模型能力仍有限（相比语言建模任务），代表性模型如 FLAN-T5 尝试改进。

总结对比

任务类型	核心逻辑	典型模型	训练目标
语言建模（LM）	基于前文预测下一词元	GPT-3、PaLM	捕捉序列依赖，优化生成连贯性
去噪自编码（DAE）	修复损坏文本，恢复原始内容	BERT、T5	学习文本鲁棒表示，理解语义结构