版权声明
- 本文原创作者:谷哥的小弟
- 作者博客地址:http://blog.csdn.net/lfdfhl
论文背景
《Attention Is All You Need》这篇具有里程碑意义的论文,彻底改变了自然语言处理(NLP)的研究和应用格局。在此之前,循环神经网络(RNN)及其变体,如长短期记忆网络(LSTM),是处理序列数据的标配。然而,RNN系列模型在处理长序列时存在梯度消失或爆炸的问题,且其顺序处理的特性限制了并行计算的能力。卷积神经网络(CNN)虽然在某些NLP任务上有所应用,但同样面临捕获长距离依赖关系的挑战。正是在这样的背景下,Transformer模型应运而生,凭借其独特的自注意力机制,一举成为NLP领域的新宠。
模型架构详解
Transformer模型由编码器和解码器两大部分组成,二者均通过堆叠多层相同的结构来实现深层次的特征抽取。
-
编码器(Encoder):
- 输入层:接收原始输入序列,如文本中的词汇。
- 位置编码:由于Transformer模型本身不具有处理序列顺序的能力,因此需要通过位置编码来