1.基本结构
Transformer总体架构可分为4个部分:
- 输入部分
- -输出部分
- -编码器部分
- -解码器部分
-
输入部分包含:
- 原文本嵌入层(Input embedding)及其位置编码(position encoding)
- 目标文本嵌入层及其位置编码器
- 文本嵌入层的作用:
无论是源文本嵌入还是目标文本嵌入,都是为了将文本中词汇的数字表示转变为向量表示,
希望在这样的高维空间捕捉词汇间的关系。
-
输出部分包含:
- 线性层(得到output size)
- softmax处理器(找到最大概率)
-
编码器部分:
- 由N个编码器层堆叠而成 每个编码器层由两个子层连接结构组成
- 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
- 第二个子层连接结构包括一个前馈全连接子层(Linear)和规范化层以及一个残差连接
-
解码器部分:
- 由N个解码器层堆叠而成 每个解码器层由三个子层连接结构组成
- 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
- 第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接
- 第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接