白话transformer（一）：注意力机制

news2025/4/10 4:39:33

前面我们分篇讲述了transformer的原理，但是对于很多刚接触transformer的人来说可能会有一点懵，所以我们接下来会分三篇文章用白话的形式在将transformer 讲一遍。
前文链接
Bert基础(一)–自注意力机制

Bert基础(二)–多头注意力

Bert基础(三)–位置编码

Bert基础(四)–解码器(上)

Bert基础(五)–解码器(下)

注意力机制其实最大的作用就是对词嵌入也就是embedding的优化，下面我们来看下是怎么做到的

1、词嵌入

我们人类最擅长的就是自然语言的表达，而计算机擅长的事数字的计算，如何将人类的表达方式让计算机能够理解呢，就需要一个桥梁连接起来。

这个桥梁就是embedding，embedding 即词嵌入，是NLP领域最重要部分；embedding就是将文本变成数字，让每个或者每段文本都有很好的与之对应的数字表示，那么需要解决的问题就会变得容易很多，embeddings 越好模型就会越好
在这里插入图片描述

2、例子

在这里插入图片描述
我们这里有一堆文本单词，在一个二维的坐标系中，每个单词都有一个水平和垂直的坐标，比如香蕉是6，5，

那么现在出现了一个新的单词，apple（🍎），如果让我们给苹果安排一个位置，应该在哪里最合适呢？

很明显是右上角，因为这里全部是水果，embedding的作用就是相似的单词会被赋予相似的数字
在这里插入图片描述

当然，对于一个单词其实不会只有两个维度，可以使很多，分别来表示其中一个属性，比如大小、颜色、形状等，如下
在这里插入图片描述

3、问题

现在我们重新定义一个坐标系
在这里插入图片描述
右上角是草莓和橘子，左下角是苹果和window系统；根据我们的正常理解，右上角是水果类，左下角是计算机类；

OK，下面我们又有几个新的单词出现了，需要我们预测他们的坐标。

在这里插入图片描述

我们其实很容易的可以区分，车厘子和香蕉是水果，应该在右上角；安卓和电脑应该属于计算机那个类别，放在右下角。
在这里插入图片描述

到现在为止，事情看上去还是很简单的，但是现在来了一个单词苹果（apple）

这个单词应该放在哪里呢？？？

苹果如果表示吃的水果应该在右上角，如果是手机的话应该在左下角。而对于embedding而言，不管是自己创建Vocabulary单词表还是使用word2vec，都不能解决歧义。

我们先把单词苹果（apple）放在中间的位置，那么我们该如何解决这个问题的，下面注意力就要出场了。

4、注意力机制

注意力机制就是来解决单词歧义问题的
在这里插入图片描述

论文中提到的注意力就是使用了查询、键、值三个矩阵，我们在介绍中不是为了解释论文架构，而是说清楚注意力到底是怎么实现的。

在这里插入图片描述
现在我们来看两个文本，根据第一句话我们应该明白，这里面提到了橘子，我们人类是知道橙子属于水果，提到苹果这个词语时，那么苹果应该是可以吃的苹果；同样在第二个句子中提到了手机，那么我们应该明白这里指的是苹果手机。
在这里插入图片描述

我们人类可以根据经验进行判断，但是计算机是不知道的

下面我们来看看注意力机制是如何做到的？

在前面我们提到了，我们先把苹果这个单词初始化，放在中间的位置；当输入是第一句话时，提到了orange，那么这个地方出现的apple应该向右上角移动。
在这里插入图片描述

而，第二句话出现时，apple这个单词应该向左下角移动
在这里插入图片描述
其相应的坐标如下

5、原理

要想实现上述过程，计算机就必须要计算所有单词来查看或者评估苹果这个词，通过程序不断的训练会发现，苹果和橘子这两个词比较接近，而与其他的词关系不是很大，那么orang就与apple这个单词相关性更大，我们这里绘制了更粗的连线，我们可以把他们想象成单词之间是有相互吸引力的，连线越粗其吸引力越大，最后距离就会越近。
在这里插入图片描述