大模型(如 GPT、BERT 等)训练一般可以分为以下 三个主要阶段,每个阶段都承担着不同的职责,共同推动模型从“语言新手”成长为“多任务专家”。
🧠 一、预训练阶段(Pre-training)
📌 核心目标:
让模型学习通用语言知识和世界常识。
✅ 特点:
- 数据量巨大(TB级以上),通常来自网络、书籍、百科等;
- 无监督或自监督学习:
- BERT 使用 掩码语言模型(MLM)
- GPT 使用 自回归语言模型(Auto-regressive)
🏗️ 技术细节:
- Transformer 架构为主;
- 大批量并行训练;
- 大模型参数通常达到数十亿甚至万亿级别。
🎯 目标是:
学习语法、常识、句式结构、上下文语义等 通用能力。
🧪 二、微调阶段(Fine-tuning)
📌 核心目标:
让模型适应特定任务或领域,比如情感分析、问答、摘要、代码生成等。
✅ 特点:
- 有监督学习(带标签数据);
- 使用比预训练小得多的语料;
- 不同任务、领域会分别训练(可以多任务同时也可以单任务)。
🎯 效果:
提升模型在特定领域/任务中的精度和表现力,例如:
- 金融领域微调后擅长分析报告;
- 医疗微调后能更好理解临床对话。
👥 三、对齐与指令微调(Alignment / Instruction Tuning)
📌 核心目标:
让模型行为更加“人类对齐”,安全、守规、有用。
✅ 典型方法:
- 指令微调(Instruction Tuning):训练模型遵循“用户指令”,例如“写一个摘要”;
- 人类反馈强化学习(RLHF):
- 收集用户偏好数据(哪个回答更好)
- 用奖励模型训练一个“人喜欢的行为”策略
- 还有例如 DPO(Direct Preference Optimization)、RLAIF 等新技术替代 RLHF。
🎯 结果:
- 让模型更加 “对人友好”;
- 能对话、解释、拒绝危险请求。
🧩 附加阶段(可选)
阶段 | 描述 |
---|---|
Continual Learning(持续学习) | 保持模型随时间更新而不过时 |
Retrieval-Augmented Training(检索增强训练) | 融合外部知识库,提升时效性和精度 |
蒸馏(Distillation) | 将大模型能力压缩为小模型 |
📊 小结
阶段 | 核心任务 | 学习方式 | 数据类型 |
---|---|---|---|
预训练 | 学习语言本体 | 自监督 | 大规模无标签 |
微调 | 学习任务技能 | 有监督 | 中小规模标注数据 |
对齐 | 适应人类期望 | 人类反馈+微调 | 偏好/指令/打分数据 |