q,k,v是一个东西(自注意力)
由于位置编码通过sin和cos得到,在+-1之间抖动,因此为了与embedding相加scale匹配,所以embedding除以根号dk
注意力机制:注意力函数
quary(不同的q) 和 k 的相似度决定了value对应的权重(不同的权重)相加得到 (不同的)输出
英文积累:
sequence transduction models 序列转录模型(给你一个序列生成一个序列)
dispensing with ... entirely 完全抛弃了...
a small fraction of... 一小部分</