文章目录
- 一、前言
- 二、流程解读
- 1.它整体做了一件什么事
- 2.多层Self-attention
- 3.self-attention做了一件什么事
- 4.具体流程
- 三、流程的矩阵表示
- 三、Softmax层的解释
一、前言
上一篇文章
Self-Attention自注意力机制:深度学习中的动态焦点 | 手把手实例解析 看不懂你打我
以简单的例子引入了Self-Attention,并且以一句话简单的句子:“The cat sat on the mat.”为例做了手把手讲解,我们以每个单词作为一个向量,对这组向量进行一系列操作,最终得到了一个加权求和表格。
上篇文章侧重具体的例子,我们使用了一系列实际的向量数值,带大家计算了一遍,但是对于Self-Attention的整个过程的理解展现的还不够,不如图片来的直观。then 接下来我们用一系列图片,更全面的解读下Self-Attention。
二、流程解读
1.它整体做了一件什么事
请看下面图片,最下面一层四个方框,代表四个向量,你可以理解为四个单词。这四个向量经过一个Self-attention操作之后,出来四个新的向量,这四个向量包含了上下文信息;接着对每个向量进行一个 fully connected layer处理,得到4个新的向量。
2.多层Self-attention
经过一层Self-attention后,你认为重要性权重提取的还不够,Ok当然可以再来一层!这就是多层注意力机制。
3.self-attention做了一件什么事
做了一件这样的事情:将每个向量(a1,a2,…)和其他向量做运算,得到这个向量和其他每个向量的相关性的数值。
接下来,我们记a1和a2的相关性为α1,2
4.具体流程
我先给出一个定义:每个向量都对应着三个向量,例如a1向量对应q1,k1,v1这三个向量。先不要管怎么算出来这三个方向向量。我们分别称之为查询向量(Query Vectors)、键向量(Key Vectors)和价值向量(Value Vectors)。
那么a1和a2的相关性α1,2就等于q1*k2,也就是拿a1的Q值乘以a2的K值。如下图
那么a1和a3、a4的相关性α1,3 α1,4也就同理得出了,我们称α为attention score
另外,我们习惯将自身的相关性,也就是α1,1也得到。
好的现在我们得到了α1,1 α1,2 α1,3 α1,4
接下来我们习惯堆这四个向量进行一步softmax处理,相信大家都了解softmax层的作用,这里的softmax和图片分类任务中的softmax是一模一样的,如果没听说过没关系,文末我也给了解释。简单来说,就是为了得到更易于后续操作的形式。
softmax处理之后得到α’1,1 α’1,2 α’1,3 α’1,4
接下来很重要,将α’1,1 α’1,2 α’1,3 α’1,4分别点积v1,v2,v3,v4向量,然后相加,得到b1,如下图,很清楚:
以此类推,我们将b1,b2,b3,b4都算出来了!
那么 是怎么得到的呢,是将原始向量和三个矩阵分别做矩阵乘法,就是下面红框住的三个矩阵Wq,Wk,Wv
三、流程的矩阵表示
上面,我们一个向量一个向量做了点乘的讲解,其实最后,我们使用的是矩阵相乘,如下图,一下子就把 全部算出来了!
接上一个softmax层,得到带 ’ 的相关性矩阵
接着,拿v1,v2,v3,v4乘以带 ’ 的这个矩阵,不就是最后的结果吗!
最后说来,Self-attention中需要学习的参数只有Wq,Wk,Wv
Also,Self-attention也可以用在CV中,问题可能来了,我们之前输入的不都是一维向量吗,图片都是n×m的呀,如下图,channel为3的情况下,我们可以将如图所示作为一个Vector。但是更深入的你可以阅读相关的论文博客。当然以后我可能也会出一篇博客讲讲我的理解,不过就是后话啦!
本人软件工程本科在读,这篇博客如果对你理解Self-attention有所帮助的话,感谢你的点赞关注啦!共同进步!
三、Softmax层的解释
在机器学习中,特别是在深度学习和神经网络的上下文中,Softmax层通常被用作多分类问题的最后一层。它将前一层输出的K个实数值转换为概率分布,使得这些值可以被解释为属于各个类别的概率。
具体来说,Softmax函数对每个输入值执行以下操作:
- 指数化:每个输入值都被指数化(即计算e的该值次幂),这样做的目的是将负数转换为正数,并放大较大值与较小值之间的差异。
- 归一化:将指数化后的所有值相加得到总和,然后用这个总和去分别除以每个指数化后的值。这样做确保了所有输出值加起来等于1,从而形成一个概率分布。
假设我们有一个向量z = [z_1, z_2, …, z_K]作为输入到Softmax层,那么对于每一个i (1 ≤ i ≤ K),Softmax函数的输出a_i可以表示为:
这里,( a_i )表示类别i的概率。
Softmax层的主要作用包括:
- 概率解释:它将模型的输出转换为概率,便于理解每个类别的可能性大小。
- 多分类任务:它非常适合用于解决多分类问题,如图像分类等。
- 损失函数配合:常与交叉熵损失函数一起使用,共同构成训练过程中的目标函数。
例如,在一个图像分类任务中,如果模型最后的全连接层输出了10个值(对应10个不同的类别),Softmax层会将这10个值转换为10个概率值,这些概率值之和为1,最大概率对应的类别就是模型预测的结果。