Transformer由4部分组成,分别是:
输入模块、编码模块、解码模块、输出模块
整体架构图:
一、输入模块结构 (1)源文本嵌入层及其位置编码器
(2)目标文本嵌入层及其位置编码器
二、编码器模块结构
由N个编码器层堆叠而成
每个编码器层由两个子层连接结构组成
第一个子层连接结构包括一个多头自注意力子层、规范化层和一个残差连接
第二个子层连接结构包括一个前馈全连接子层、规范化层和一个残差连接
三、解码器模块
由N个解码器层堆叠而成
每个解码器层由三个子层连接结构组成
第一个子层连接结构包括一个多头自注意力子层、规范化层和一个残差连接
第二个子层连接结构包括一个多头注意力子层、规范化层和一个残差连接
第三个子层连接结构包括一个前馈全连接子层、规范化层和一个残差连接
四、输出模块结构:
线性层
softmax层