Transformer编码,解码大的结构的理解
编码部分,每一个的小编码器的输入是前一个小编码器的输出,
而每一个小解码器的输入不光是它的前一个解码器的输出,还包括了整个编码部分的输出。
self-attention 自注意力机制
顾名思义就是自己和自己计算一遍注意力,
即对每一个输入的词向量,和句子里其他的词向量做一个
Transformer encoder和decoder机制动画版
chatGPT 使用的 Transformer 到底是什么?
Transformer编码器的输出是固定长度吗?
答:确实是固定的,参考,第一篇,第二篇
参考:
十分钟理解Transformer - 知乎
Transformer模型详解(图解最完整版) - 知乎
“追星”Transformer(三):Transformer的“左手”——BERT模型 - 知乎