目录
-
-
- 1.自注意力和位置编码
- 跟CNN,RNN对比
- 位置编码(position encoding)
-
- 1、和 CNN / RNN 不同,自注意力并没有记录位置信息
- 2、为了使用序列的顺序信息,通过在输入表示中添加位置编码将位置信息注入到输入里
- 3、P 的元素具体计算如下:
- 位置编码矩阵
- 绝对位置信息
- 相对位置信息
- 总结
-
1.自注意力和位置编码
- 在深度学习中,经常使用卷积神经网络或者循环神经网络对序列进行编码
- 对于 key 、value 和 query ,自注意力有自己的一套选法,因为 key 、value 和 query 的值来自同一组输入,因此被称为自注意力(self-attention)或者内部注意力(intra-attention)
- 给定序列是一个长为 n 的序列,每个 xi 是一个长为 d 的向量
- 自注意力将 xi 同时作为 key 、value 和 query ,以此来对序列抽取特征
- 基本上可以认为给定一个序列,会对序列中的每一个元素进行输出,也就是说,每个查询都会关注所有的键-值对并生成一个注意力输出
- 自注意力之所以叫做自注意力,是因为 key,value,query 都是来自于自身,xi 既作为 key ,又作为 value ,同时还作为 query (self-attention 中的 self 所强调的是 key,value,query 的取法)
跟CNN,RNN对比
- CNN、RNN、自注意力都可以用来处理