引言
当GPT-4展现出惊人的上下文理解能力,当Stable Diffusion创造出媲美人类画师的图像作品,当AlphaFold2破解蛋白质折叠密码——这些里程碑事件标志着人工智能发展进入大模型主导的新纪元。本综述将深入解析这一技术革命的核心载体——AI大模型。
一、AI 大模型是什么
概念:AI 大模型,本质上是基于深度学习理论构建的超大规模模型。这些模型借助海量数据训练,拥有强大的泛化能力,能够处理多种复杂任务。
大模型技术特征体现在三个维度:
1. 技术架构革命
LLM 基于 Transformer 架构搭建。Transformer 采用自注意力机制,突破了传统循环神经网络(RNN)和卷积神经网络(CNN)在处理长序列数据时的局限,能够并行处理输入序列,极大提升了模型训练和推理的效率。
2. 训练范式革命
通过自监督学习在海量无标注数据(如互联网文本、图像对)上训练,形成通用知识表征,从监督学习转向"预训练+提示工程"的新方法论。此外,强化学习技术的引入,使模型能依据人类反馈对生成结果进行优化,进一步提升模型的性能。
3. 规模突破
“大” 的特性,赋予了大模型强大的语言理解和生成能力,以及出色的泛化性能。AI 大模型的 “大” 主要体现在三个方面:
- 一是参数规模庞大,GPT - 3 拥有 1750 亿个参数,华为的盘古 - σ 模型参数规模更是达到 10000 亿。
- 二是数据量巨大,如 Llama 2 在 2 万亿令牌上进行训练。
- 三是对计算资源需求高,GPT - 4 的训练成本超过 1 亿美元。
二、关键概念与核心架构
1. 关键概念
-
预训练(Pre-training):无监督训练,掩码语言建模(MLM),下一词预测(Next Token Prediction;
-
监督微调(Supervised Fine-Tuning):SFT 是指在预训练好的LLMs的基础上,利用带有标签的数据集来进一步训练模型,使之能够执行特定的下游任务。
-
强化学习对齐(RLHF):RLHF 是一种训练方法,它将强化学习(RL)与人类反馈相结合,以使大语言模型(LLMs)与人类的价值观、偏好和期望保持一致。主要包含两个组成部分:
-
收集人类反馈来训练奖励模型:人类评估者通过对 LLM 输出的质量、相关性等因素进行评分或排名,提供反馈。然后使用这些反馈来训练一个奖励模型,该模型预测输出的质量,并在强化学习过程中作为奖励函数;
-
使用人类反馈进行偏好优化&#x
-