Transformer模型-decoder解码器，target mask目标掩码的简明介绍

news2026/2/17 2:27:51

今天介绍transformer模型的decoder解码器，target mask目标掩码

背景

解码器层是对前面文章中提到的子层的包装器。它接受位置嵌入的目标序列，并将它们通过带掩码的多头注意力机制传递。使用掩码是为了防止解码器查看序列中的下一个标记。它迫使模型仅使用之前的标记作为上下文来预测下一个标记。然后，它再通过另一个多头注意力机制，该机制将编码器层的输出作为额外的输入。最后，它通过位置全连接前馈网络。在这些子层中的每一个之后，它都会执行残差相加和层归一化。

Transformer中的解码器层

如上所述，解码器层无非是对子层的包装器。它实现了两个多头注意力子层和一个位置全连接前馈网络，每个子层之后都跟着层归一化和残差相加。

参看编码器encoder：

Transformer模型-encoder编码器，padding填充，source mask填充掩码的简明介绍-CSDN博客https://blog.csdn.net/ank1983/article/details/137399110

为什么需要掩码？

目标掩码target mask

要理解为什么需要目标掩码，最好看一下解码器的输入和输出的示例。解码器的目标是在给定的编码源序列和目标序列的一部分的情况下，预测序列中的下一个标记。为了实现这一点，必须有一个“开始”标记来提示模型预测序列中的下一个标记。这就是上面图像中“<bos>”标记的用途。还需要注意的是，解码器的输入和输出的大小必须相同。

如果目标是将“Wie heißt du?”翻译为“What is your name?”，那么编码器将编码源序列的含义并将其传递给解码器。给定“<bos>”标记和编码的源序列，解码器应该预测出“What”。然后，将“What”附加到“<bos>”后面以创建新的输入，即“<bos> What”。这就是为什么解码器的输入被认为是“向右移动”的原因。这可以传递给解码器以预测What is。这个标记被附加到之前的输入上，以创建新的输入“<bos> What is”。这将被传递给解码器以预测“What is your”。这个过程会一直重复，直到模型预测出“<eos>”标记。

通过使用目标掩码，模型可以同时学习每个迭代的目标序列，例如“<bos> What is your name? <eos>”。

请记住，解码器的输入和输出长度必须相同。因此，在将目标序列传递给解码器之前，需要移除每个目标序列的最后一个标记。如果目标序列存储在trg中，那么解码器的输入将是trg[:, :-1]，用于选择除最后一个标记之外的所有内容，这可以在上面的目标输入中看到。预期的输出将是trg[:, 1:]，即除第一个标记之外的所有内容，这是上面看到的预期输出。

总结来说，与编码器层一样，解码器也需要对其输入进行掩码处理。虽然填充掩码对于输入是必要的，但目标序列也需要一个前视或后续掩码。在推理过程中，模型只会被提供一个开始标记，并必须基于它预测下一个标记。然后，给定两个标记，它必须预测第三个标记。这个过程会一直重复，直到预测出序列结束标记。这就是Transformer的自回归行为。换句话说，未来的标记只基于过去的标记和来自编码器的嵌入进行预测。

为了模拟这种行为，模型使用后续掩码同时学习所有这些迭代。

可以使用PyTorch的torch.tril函数来创建后续掩码。它将具有(trg_seq_length, trg_seq_length)的形状。