博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看
配套 github 链接:https://github.com/nickchen121/Pre-training-language-model
配套博客链接:https://www.cnblogs.com/nickchen121/p/15105048.html
Self-Attention:对于每个词而言都是无位置关系,把每个词的顺序打乱,得到的注意力值依然不变
通过 t1 告诉你,x1 是在前面,x2 在 x1 的后面
位置编码
位置编码公式