Transformer简明笔记：文本翻译

news2025/7/7 5:36:14

Bert和gpt都是基于transformer的，在此之前流行的是rnn，复杂度有限且效率不高，容易受到文本长度的限制。
项目地址:https://github.com/lansinuote/Transformer_Example
b站视频：https://www.bilibili.com/video/BV19Y411b7qx?p=9&spm_id_from=pageDriver&vd_source=eca9b4f9ea9577b666c089a010621a99

总体架构

在这里插入图片描述

编码器：自注意力层->全连接层
解码器：自注意力层->编码解码注意力->全连接层

计算注意力

在这里插入图片描述
词向量编码
x1*wq得到queries，以此类推，得到Q K V

除以8和词向量的编码有关
z1是自注意力计算的结果

得到多组QKV向量，就是多头注意力

图中有八组这样的矩阵

词向量编码

在这里插入图片描述
右边计算出的结果是一样的，transformer会做同样的处理

在这里插入图片描述

在这里插入图片描述
pos是第几个词，i是第几个向量，pos是行，i是列，偶数列是上面的式子计算，奇数列是下面的式子计算
红色是大数，蓝色是小数，第0列是sin，第1列是cos，波动比较快，波动频率会逐渐降低

MASK

在这里插入图片描述
把a b pad理解为一句话，为了把各个句子保持相同长度，会补充pad。对pad的计算没有意义，把对pad的注意力全部替换成mask，但是pad对其他的词的注意力不做处理。

b和c是要预测的结果，所以计算b的时候不能让a看到。
在这里插入图片描述

对两个mask取一个并集

完整计算流程

在这里插入图片描述
layerNorm这部分是短接的计算，然后数据标准化，得到z1,z2，全连接运算

n个encoder上下串联，decoder拿到x1,x2，也要计算注意力，标准化，encoder-decoder这一层和self-attention其实一样，只不过qkv是拿encoder计算得出的结果当作kv，自己的自注意力层计算出的结果当作q，短接相加，标准化，全连接，标准化，decoder也会有n个，串联，最终做一个全连接层的输出。
在这里插入图片描述
翻译过程，不断预测下一个字

实验数据的生成策略

词表是x语言的所有词汇，这里只有7个词，模仿自然语言，采样概率不等，x的长度随机，均为模仿自然语言。在这里插入图片描述
最终目的：x翻译成y
所以x和y要有关联性，这里的关系非常简单，黑色箭头表明y当中的每一个词是x逆序得到的，小写字母翻译成大写字母，y当中的数字用9-x得到
虚线的箭头表明，y中的第一位取决于x的最后一位，这样y的第一位和第二位是相同的，这样做是为了让y中的数据长度比x多一位，同时增加映射复杂度
在这里插入图片描述