Transformer的流程
- 在机器翻译任务中,翻译第一个词,Transformer的流程为:
- 先将要翻译的句子,一个词一个词的转换为词向量送入编码器层,得到优化过的词向量以及K、V,
- 将K、V送入解码器层,并跟解码器层将要翻译的Q进行计算,来找出相匹配的K、V,
- 经过线性层和Softmax层得到最后翻译的结果,如下图:
- 注意:翻译第一个词的时候,还没有已经生成好的词输入进解码器层
- 在机器翻译任务中,翻译接下来的词,Transformer的流程为:
- 先将要翻译的句子,一个词一个词的转换为词向量送入编码器层,得到优化过的词向量以及K、V,
- 将K、V送入解码器层,同时,将之前已经生成的词也送入解码器层,并跟解码器层将要翻译的Q进行计算,来找出相匹配的K、V,
- 经过线性层和Softmax层得到最后翻译的结果,再将生成的词作为解码器层的输入再重复以上的步骤,当遇到<eos>时最后得到模型的输出,如下图: