LLM架构自注意力机制Transformers architecture Attention is all you need

news2025/4/27 3:31:08

使用Transformers架构构建大型语言模型显著提高了自然语言任务的性能，超过了之前的RNNs，并导致了再生能力的爆炸。
在这里插入图片描述

Transformers架构的力量在于其学习句子中所有单词的相关性和上下文的能力。不仅仅是您在这里看到的，与它的邻居每个词相邻，而是与句子中的每个其他词。将注意力权重应用于这些关系，以便模型学习每个词与输入中的其他词的相关性，无论它们在哪里。
在这里插入图片描述

这使得算法能够学习谁有这本书，谁可能有这本书，以及它是否与文档的更广泛的上下文相关。这些注意力权重在LLM训练期间学到，您将在本周晚些时候了解更多。
在这里插入图片描述

在这里插入图片描述

这个图被称为注意力图，可以用来说明每个词与每个其他词之间的注意力权重。在这个风格化的例子中，您可以看到单词“book”与单词“teacher”和“student”强烈地连接或关注。

这被称为自注意力，这种跨整个输入学习注意力的能力显著地提高了模型编码语言的能力。
在这里插入图片描述

现在您已经看到了Transformers架构的一个关键属性，自注意力，让我们从高层次看看模型是如何工作的。这是一个简化的Transformers架构图，这样您可以从高层次关注这些过程发生的地方。Transformers架构分为两个不同的部分，编码器和解码器。
在这里插入图片描述

这些组件相互协作，并且它们有许多相似之处。此外，请注意，您在这里看到的图是从原始的“Attention is All You Need”论文中派生出来的。注意模型的输入是在底部，输出是在顶部，在可能的情况下，我们将尝试在整个课程中保持这一点。

现在，机器学习模型只是大型的统计计算器，它们使用数字而不是单词。因此，在将文本传递到模型进行处理之前，您必须首先对单词进行标记。简单地说，这将单词转换为数字，每个数字代表模型可以使用的所有可能单词的字典中的位置。您可以选择多种标记化方法。

例如，匹配两个完整单词的令牌ID，
在这里插入图片描述

或使用令牌ID表示单词的部分。
在这里插入图片描述

正如您在这里看到的。重要的是，一旦您选择了一个标记器来训练模型，您在生成文本时必须使用相同的标记器。现在您的输入表示为数字，您可以将其传递给嵌入层。这一层是一个可训练的向量嵌入空间，一个高维空间，其中每个令牌都表示为一个向量，并在该空间内占据一个唯一的位置。
在这里插入图片描述

词汇表中的每个令牌ID都与一个多维向量匹配，直觉是这些向量学会编码输入序列中单个令牌的含义和上下文。嵌入向量空间在自然语言处理中已经使用了一段时间，像Word2vec这样的上一代语言算法使用了这个概念。如果您不熟悉这个，不用担心。您将在整个课程中看到这方面的例子，本周末的阅读练习中还有一些链接到其他资源。

回顾样本序列，您可以看到在这个简单的情况下，每个单词都与一个令牌ID匹配，每个令牌都映射到一个向量。在原始的Transformers论文中，向量的大小实际上是512，所以比我们可以放到这个图像上的要大得多。
在这里插入图片描述