Transformer模型-3-基本工作流程

news2026/2/12 13:59:56

继《Transformer模型-2-模型架构》该文主讲Transformer的基本工作流程。

第一步: 获取输入句子某单词的向量X。

X：是指某单词的向量，transformer是分别计算word embedding和position embedding并将两者相加得到向量X。

Embedding Embeddings 是一种将现实世界的对象和关系表示为向量的密集数值表示形式，把字或词转为向量的动作或行为。在机器学习/深度学习中我们用向量表示物体的，这个物体可以是一个单词、一条语句、一个序列、一件商品、一个动作、一本书、一部电影等。拿到语料之后，首先需要做一些必要的清理工作，如清理特殊符号、格式转换、过滤停用词等，然后进行分词、索引化，再利用相关模型或算法把单词、词等标识符向量化。最后输出给下游任务，如下图:

现在主流的分词处理工具是BPE, 好处是不需要像jieba一样需要开发者保存二维数据
图片描述增加了主流分词工具标注。

词嵌入或预训练模型是关键，它们的质量好坏直接影响下游任务的效果。如word2vec、Transformer、BERT、ALBERT等方法。刷新了自然语言处理、语言识别、推荐任务、搜索排序等任务在性能方面的纪录

Transformer中包含两种Embedding：

word embedding：将字或词转为index之后，查表转化为向量，经过模型的迭代之后，矩阵会越来越准确，生成的Embedding的结果就会越来越发。
position embedding：告诉模型正确的语序(transformer不是时序模型，是并行输入的，需要专门的位置Embedding才能知道句子顺序)。

PS: 向量矩阵理解 假设有一个1000千万的数据按词(早期按字去切分)切分, 再根据词表大小建立了一个数据矩阵或lookup的一张表，该矩阵或表的特点如下：

行数，有多少词就有多少行
列数：取决于模型的维度(训练维度)，可以是768维，512维等，具体要根据模型的维度和输入数据要求的维度（Transformer是512维，BERT是768维）
index：每一行代表一个词，第一行(词)都有一个唯一的index，每一个index对应到矩阵中的一行（0开始计），按词的列表做一个倒排，哪一个词出现的更多，就更靠前。
查询：用index去矩阵中去(lookup)查，可以查到唯一的记录。查询返回第index行的向量，拿到该向量可作为词的表征

第二步: 将获得的单词向量矩阵X传入Encoder

将得到的单词表示向量矩阵(每一行是一个单词的向量x) 传入Encoder中，经过6个 Encoder block 后可以得到句子所有单词的编码信息矩阵 C，如下图：

Transformer的Encoder的6层中，每一层的结构相同，经过6层的结构处理，每一层的输出是下一层的输出。单词向量矩阵用 Xn∗dX_{n*d}Xn∗d 表示, n是句子中单词个数，d 是表示向量的维度 (论文中 d=512)。每一个 Encoder block 输出的矩阵维度与输入完全一致。