大模型有哪些算法

news2025/4/5 16:42:02

大模型（Large-scale Models）通常指参数量大、架构复杂、在特定任务或领域表现出色的深度学习模型。这些模型的算法核心往往基于Transformer 架构及其变体，同时结合了大规模数据、硬件加速和优化技巧。以下是当前主流大模型及其核心算法的分类与特点：

所有现代大模型的核心基础是Transformer 架构（2017年提出，来自论文《Attention is All You Need》）。其核心是自注意力机制（Self-Attention），能够高效捕获长距离依赖关系。

Relative Positional Encoding：在原始Transformer中，Positional Encoding是固定嵌入。改进方法（如《Transformer-XL》）通过相对位置编码，增强模型对位置信息的感知。
Sparse Attention：为降低计算复杂度（原始注意力是O(n²)），引入稀疏注意力机制：
- Local Attention：仅关注局部区域。
- Strided Attention（如《Longformer》）：在长序列中稀疏计算注意力。
- Product Keys Attention（如《Reformer》）：用分组键值对分解计算。
Recurrent Transformer：结合RNN的循环机制（如《Transformer-LL》），解决长序列建模问题。
Efficient Attention：
- Linear Attention（如《Linformer》）：将注意力计算复杂度降至O(n)。
- LSH Attention（局部敏感哈希）：通过哈希分桶加速。

GPT（Generative Pre-trained Transformer）系列：
- GPT（2018）、GPT-2（2019）、GPT-3/GPT-3.5（2020/2022）：
  - 全解码器架构，通过自回归生成文本。
  - 使用掩码自注意力（Masked Self-Attention），预测下一个词。
  - 创新点：超大规模预训练（如GPT-3有1750亿参数）、从无标注文本中学习语言模式。
- GPT-4/5（OpenAI）：
  - 增强了多模态处理（结合图像-文本）、长上下文理解（如4096 tokens输入）。
BERT 系列（Bidirectional Encoder Representations from Transformers）：
- BERT（2018）、RoBERTa（Robustly Optimized BERT）、alBERT：
  - 全编码器架构，通过掩码语言建模（MLM） 和下一句预测（NSP）训练。
  - 强项：双向编码能力，捕捉上下文依赖。
- BERT + 深度优化变体：
  - DistilBERT：通过知识蒸馏压缩模型。
  - BERT Series Variants：如BERT-wwm（整词-mask）、BERT-Max（加先验知识）。
T5（Text-to-Text Transfer Transformer）（Google，2019）：
- 统一所有任务为文本生成任务（如分类、翻译均视为输入文本→输出文本）。
- 共享编码器-解码器架构，简化了任务适配。
XLNet（2019）：
- 通过排列注意力机制（permutation-based attention）结合双向上下文，解决了BERT的MLM预训练局限性。

ViT（Vision Transformer，2021）：
- 直接将图像划分为patches，输入Transformer编码器。
- 引入Class Token进行全局信息聚合，需要密集训练数据。
Swin Transformer（2021）：
- 针对CV优化的窗口化局部自注意力（Window-based Attention），降低计算量。
- 分层架构（Stage-wise）处理不同分辨率的特征。
BERTv2（2022）：
- 结合ViT的分块输入与BERT的双向编码，提升图像视觉全局关系建模。

DALL-E（V1/V2，2021/2022）：
- 输入文本描述生成图像。
- V1为离散VQ-VAE编码，V2用Transformer直接处理图像patch.
SD（Stable Diffusion，2022）：
- 使用Transformer的文本-图像对，结合扩散模型（Diffusion Models）实现高质量图像生成。
CLIP（Contrastive Language-Image Pretraining，2021）：
- 对比学习图文联合嵌入空间，用于跨模态对齐（如图像-文本检索、视觉问答）。

M6（Multi-modal Pre-trained Model，阿里，2021）：
- 10万亿参数稀疏模型，支持文本-图像-代码多模态任务。
- 混合专家（MoE）架构提升模型效率。
GPT-3 + 多模态扩展（OpenAI）：
- GPT-3 软件 3.5+ 添加图像理解能力，但主要依赖文本描述。
PaLM（Pathways Language Model，谷歌，2022）：
- 5400亿参数，专注于纯文本任务，后续延伸出多模态版本(PaLM-E用于机器人视觉)。
通义千问（Qwen，阿里）和文心一言（Baidu Wenxin Yiyan）：
- 支持大规模语言理解、代码生成、多模态交互的文本驱动大模型。
SAM（Segment Anything Model，Meta，2023）：
- 专门用于图像分割，通过Adapter模块支持多种下游任务。

大模型的高效训练依赖以下算法和策略：

分布式训练：
- 数据并行（Data Parallel）：通过并行数据切分减小单卡显存压力。
- 模型并行（Model Parallel）：分割模型层分配到不同设备。
- Pipe_parallel（流水线并行）：结合数据流与模型分片，提升吞吐量。
混合精度训练（Mixed Precision Training）：
- 使用FP16或BF16浮点格式，加速计算并减少显存占用（需梯度缩放防止数值下溢）。
优化器改进：
- AdamW：Adam优化器修正权重衰减。
- LAMB（Layer-wise Adaptive Booster）：针对超大模型的自适应梯度优化。
高效预训练目标：
- Masked Image Modeling (MIM)：ViT和Swin等视觉模型的预训练任务。
- Contrastive Learning：如CLIP通过图文对比学习特征空间。
知识蒸馏（Distillation）：
- 从大模型（教师模型）中提取知识，压缩为轻量级学生模型（如DistilBERT）。

MoE（Mixture of Experts）架构：
- 模型中包含多个专家网络（Experts），通过门控机制选择最适合当前输入的子网络。
- Switch Transformer 和 M6 都是此类代表。
扩散模型（Diffusion Models）：
- 通过反向去噪过程生成数据（图像、音频、文本），在生成任务（如Stable Diffusion）中表现出色。
强化学习强化的大模型：
- AlphaFold（蛋白质结构预测）和 Gato（多任务代理）结合了深度强化学习。
超大规模多模态模型：
- Qwen-vl、Llama-VL 等开源模型，在视觉-语言任务中展示跨模态推理能力。