HCIA-AI人工智能笔记1：大模型技术演进与发展历程

news2025/4/21 10:05:52

一、大模型发展的技术演进图谱

timeline
    title 大模型发展关键里程碑
    1958 : 感知机模型诞生（Frank Rosenblatt）
    1986 : BP反向传播算法（Rumelhart）
    2012 : AlexNet开启深度学习时代
    2017 : Transformer架构提出（《Attention Is All You Need》）
    2018 : BERT/GPT-1发布
    2020 : GPT-3展现涌现能力
    2021 : 华为发布盘古大模型
    2023 : LLaMA-2等开源模型爆发

二、核心技术突破解析

1. Transformer架构革命

核心组件：

# 简化版Transformer结构代码示意
class TransformerBlock(nn.Module):
    def __init__(self, d_model, nhead):
        super().__init__()
        self.attention = MultiHeadAttention(d_model, nhead)
        self.ffn = PositionwiseFeedForward(d_model)
        
    def forward(self, x):
        x = x + self.attention(x)
        x = x + self.ffn(x)
        return x

# 自注意力计算核心
def scaled_dot_product_attention(Q, K, V):
    scores = torch.matmul(Q, K.transpose(-2, -1)) / sqrt(d_k)
    attention = torch.softmax(scores, dim=-1)
    return torch.matmul(attention, V)

技术优势：

并行化处理能力
长距离依赖捕捉
多模态扩展性

2. 大模型能力涌现三要素

在这里插入图片描述

三、典型大模型架构对比

1. 主流模型架构特征

在这里插入图片描述

2. 华为盘古大模型技术亮点

graph TD
A[盘古大模型] --> B[基础架构]
A --> C[行业应用]
B --> B1(昇腾AI处理器)
B --> B2(MindSpore框架)
B --> B3(分层异构存储)
C --> C1(盘古NLP)
C --> C2(盘古CV)
C --> C3(盘古科学计算)

四、大模型训练关键技术

1. 分布式训练策略

# 华为MindSpore并行策略配置示例
import mindspore as ms
from mindspore import context

context.set_auto_parallel_context(
    parallel_mode=ms.ParallelMode.SEMI_AUTO_PARALLEL, 
    device_num=8,
    gradients_mean=True,
    full_batch=True
)

# 定义并行网络
net = TransformerModel(...)
net = ms.Model(net)