目录
-
- 1.注意力机制
-
- 从心理学的角度出发
- 注意力机制
- 非参注意力池化层
- Nadaraya-Watson 核回归:
- 总结
- 注意力汇聚:Nadaraya-Watson 核 代码实现
-
- 非参数注意力汇聚(非参数注意力池化)
- 注意力权重
- 参数注意力汇聚(参数注意力池化)
- 2.注意力分数
-
- 如何将 key 和 value 拓展到更高的维度
- 掩蔽 softmax 操作(masked softmax operation)
- 注意力分数函数 α 的设计
-
- 1、加性注意力(Additive attention)
- 2、缩放点积注意力(Scaled Dot-Product Attention)
- 总结
- 代码实现
1.注意力机制
从心理学的角度出发
-
动物需要在复杂的环境下有效地关注值得注意的点
-
心理学框架:人类根据随意线索(主动、有意识)和不随意线索选择注意点
注意力机制
卷积、全连接、池化层都只考虑不随意线索(没有明确的目标)
-
池化操作通常是将感受野范围中的最大值提取出来(最大池化)
-
卷积操作通常是对输入全部通过卷积核进行操作,然后提取出一些比较明显的特征
-
注意力机制是显式地考虑随意线索
- 随意线索被称之为查询(query)---- 所想要做的事情
- 每个输入是一个值(value)和不随意线索(key)的对 ---- 可以理解为环境,就是一些键值对,key 和 value 可以相同,也可以不同
- 通过注意力池化层来有偏向性地选择某些输入 ---- 根据 query (想要的)有偏向地选择输入,跟之前的池化层有所不同,这里显式地加入了 query,然后根据 query 查询所需要的东西
非参注意力池化层
<