目录
Transformer架构
Transformer架构的主要组成部分:
简单举例说明输入和输出:
Encoder-Decoder
编码器/解码器组成
6、位置前馈网络(Position-wise Feed-Forward Networks)
7、残差连接和层归一化
10、掩码Mask
10.1 Padding Mask
10.2 Sequence Mask
为什么需要Sequence Mask?
Sequence Mask是如何工作的?
具体实现
为什么如果没有适当的掩码机制,解码器在生成某个位置的输出时,可能会“看到”并错误地利用该位置之后的信息
Transformer架构
Transformer架构是一种基于自注意力(Self-Attention)机制的深度学习模型,广泛应用于自然语言处理(NLP)领域。它摒弃了传统的循环神经网络(RNN)或卷积神经网络(CNN)结构,通过自注意力机制来捕捉输入序列中的依赖关系,从而实现高效的序列到序列(Seq2Seq)处理。
Transformer架构的主要组成部分:
- 输入层(Input Layer):
- 输入层接收原始数据(如文本),并将其转换为模型可以处理的格式。这通常包括将文本转换为词嵌入(Word Embeddings),以及添加位置编码(Positional Encoding)以保留单词在序列中的位置信息。
- 编码器(Encoder):
- 编码器由多个相同的层堆叠而成,每个层都包含自注意力机制(如多头注意