Transformer模型
1.基本原理
transformer的core是注意力机制,其本质就是编码器-解码器。他可以通过多个编码器进行编码,再把编码完的结果输出给解码器进行解码,然后得到最终的output。
1.1·编码器
数据在编码器中会经过一个self-attention的模块进行加权,之后得到一个特征象征Z。
Z的计算公式如下(z=Attention(Q,K,V)):
然后接着我们会进入到编码器的下一个模块---一个拥有两层全连接层的前馈神经网络(他的第一层激活函数是ReLU,第二层激活函数是一个线性激活函数,如下
FFN(Z)= max ( 0, ZW1 + b1 ) W2 + b2
)。
1.2·解码器
在解码器中它多了一个encoder-decoder Attention,两个Attention分别用于计算输入和输出的权值。
encoder-decoder Attention:我正在测试的股价和特征向量之间的关系。
在encoder-decoder attention中, Q 来自于解码器的上一个输出,K 和 V 则来自于与编码器的输出。如图
mask:是指掩码,指把某些值更新使其在参数更新时不产生效果。mask包括padding mask 和 sequence mask。
Padding Mask:(填充加忽略)每个批次输入序列长度是不一样,需要进行对齐。给较短的序列后面填充 0,对于太长的序列,截取左边的内容,把多余的直接舍弃。这些填充的位置加上一个非常大的负数(负无穷),这样的话,经过 softmax,这些位置的概率就会接近0。
Padding mask 通常是一个与输入序列形状相同的张量,其中的每个值都是一个布尔值(Boolean)。具体来说:
-
True:表示该位置是实际的输入数据。
-
False:表示该位置是填充的部分。
-
为了屏蔽填充部分,padding mask 会被应用到 QK^TQKT 的结果上,具体操作如下:
masked_attention_scores=attention_scores+padding_mask
其中,padding mask 是一个与 attention scores 形状相同的张量,填充部分的值为负无穷(如 −∞),而实际输入部分的值为 0。这样,在经过 softmax 操作后,填充部分的权重会接近于零,从而被忽略。
Sequence mask:在序列建模任务中,特别是在自回归模型(如咱们这个Transformer中的解码器)中,模型需要逐个时间步生成输出。为了防止模型在生成当前时间步的输出时“看到”未来的信息,需要使用 sequence mask 来屏蔽未来时间步的信息。
Decoder的输出是浮点数的向量列表。把得到的向量映射为需要的词,需要线性层和softmax层获取预测为词的概率。
线性层是一个简单的全连接神经网络,它是由Decoder堆栈产生的向量投影到一个更大,更大的向量中,称为对数向量
假设实验中我们的模型从训练数据集上总共学习到十万个股价数据("output")这对应的Logits矢量也有十万个长度(每一段表示了一个唯一股价的得分)。在线性层之后是一个softmax层,softmax将这些分数转换为概率。选取概率最高的索引,然后通过这个索引找到对应的股价作为输出。
1.3·self-Attention
self-Attention :这个在我们的金融分析中可以理解为已经测试过的股价和现在正在测试印证的股价之间的关系。
其核心内容是为输入向量每个内容学习一个权重,比如说我输入了上海电气,三年来的1000多个股价数据作为输入向量。那么我的每一天的这个股价就可以学习到一个权重。而且每个股价的权重是由三个不同的向量组成的,分别是Query向量( Q ),Key向量( K)和Value向量( V ),长度均是64。它们是通过3个不同的权值矩阵由嵌入向量 X 乘以三个不同的权值矩阵 WQ,WK ,WV 得到,其中三个矩阵的尺寸也是相同的,均是 512*64。示例如下:
1.嵌入:首先是把输入转换成嵌入向量的X(带有位置编码)。
2.qkv向量:其次我们计算嵌入向量的 qkv三个向量值。
3.注意力打分(即本元素与全部元素间的关联性):接着计算score,对score进行归一化(除以K的维度平方根,及公式中的√dk)。
4.归一化:对score施以softmax激活函数,使得最后的列表和为1(softmax1+softmax2+...+softmaxn=1)
softmax的值表示其在整个向量中的表示程度。
5.加权求和:softmax点乘Value值 v ,得到加权的每个输入向量的评分v,最终求和,生成self-attention层的输出。
计算流程:
但是对于我们金融分析来说,我们并不需要十分了解self-Attention的底层逻辑,那么我把它的底层逻辑换算成简单的原理来解释一下。就是来计算每个数据和其他所有数据之间的关系。比如说我要分析360的股市,那么它有很多概念,网络游戏,AI语料,虚拟数字人,软件服务,信息安全等。(这里我们把360本身去除,为了方便例子理解)那么它的处理流程就可以简化为下图(其中的数字占比表示为自注意机制所得出的两者关系):
与上同理我们这里面所有的输入数据都会进行这一样的计算。
1.4.Multi-Head Attention(h个self-Attention的集合)
1.先把输入数据x输入到h个self-Attention中
得到特征矩阵Zi,i∈{1,2,..,h}
2.把h个特征矩阵Zi,i∈{1,2,..,h}按列向量拼成
一个大的特征矩阵(也可以通过前馈神经网络把
所有特征矩阵降为一个特征矩阵Z)
3.最后进行一层全链接得到z
1.5.Positional Encoding
在介绍Positional Encoding前必须先介绍Embedding,这是在输入的序列被送入编码器前发生,会在每个元素原始数据中嵌入一个数字,使所有元素的嵌入数组组成数字序列,最后嵌入层再把数字序列映射成嵌入向量。
由于模型没有Recurrence/Convolution,因此是无法捕捉到序列顺序信息的,为了使用序列的顺序信息,需要将tokens的相对以及绝对位置信息注入到模型中去。
transformer给encoder层和decoder层的输入添加了一个额外的向量Positional Encoding,维度和embedding(embedding是将这些离散的符号转换为连续的向量表示,从而使得模型能够处理这些符号,并捕捉它们之间的语义关系。)的维度一样,这个向量能决定当前元素的位置,或者说在一个输入矩阵中不同的元素之间的距离。这样,模型可以区分序列中不同位置的元素,从而更好地捕捉序列的顺序信息,计算方法如下
其中pos是指当前元素在输入数据中的位置,i是指向量中每个值的index,偶数位置,使用正弦编码,奇数位置,使用余弦编码dmodel 是词嵌入的维度。最后把这个Positional Encoding与embedding的值加,作为输入送到下一层。
1.6.残差模块与normalization
在transformer中,每一个子层(self-attetion,ffnn)之后都会接一个残差模块,并且有一个Layer normalization;
2个编码器与解码器的例子如下:
那为什么要引入残差呢?因为随着网络深度的增加,训练变得愈加困难,在基于随机梯度下降的网络训练过程中,误差信号的多层反向传播非常容易引发“梯度弥散”(梯度过小会使回传的训练误差信号极其微弱)或者“梯度爆炸”(梯度过大导致模型出现NaN)的现象。而残差的引入就能极大改善这个问题。
残差模块:y=F(x,w)+x 高速公路网络的“变换门”和“携带门”都为恒等映射时(即令T=1,C=1T=1,C=1),就得到了残差网络
-
xx 是输入。
-
F(x, w)F(x,w) 是网络中的一部分,通常是一个或多个卷积层。
-
yy 是输出。
F(x,w) 表示的是网络的“变换”部分,而 x 则是“携带”部分。当“变换门”和“携带门”都为恒等映射时(即 T = 1 和 C = 1),公式简化为:
y = x + F(x, w)
残差网络的核心思想是通过引入“跳跃连接”(skip connection)(跳跃连接允许输入x直接传递到输出,而不经过中间的变换层。这种设计使得网络可以学习到输入和输出之间的残差,而不是整个映射。),使得网络可以直接学习输入和输出之间的残差(即 F(x, w)),而不是直接学习输出。
在引入残差网络后,还需要对网络层输出的数据进行再归一化,来减小反向传播的偏差,这里我们使用layer normalization(归一化数据的一种方式,不过 LN 是在每一个样本上计算均值和方差,而每一个特征维度上进行归一化)。
参考文献:
https://blog.csdn.net/weixin_44695969/article/details/102997574
https://blog.csdn.net/jiaowoshouzi/article/details/89073944
https://blog.csdn.net/qq_41664845/article/details/84969266
https://zhuanlan.zhihu.com/p/139595546
http://jalammar.github.io/illustrated-transformer
https://zhuanlan.zhihu.com/p/48508221
https://zhuanlan.zhihu.com/p/60821628
https://blog.csdn.net/u013069552/article/details/108074349
https://blog.csdn.net/chen_yiwei/article/details/88671959
https://blog.csdn.net/li15006474642/article/details/104391202
https://blog.csdn.net/weixin_42035282/article/details/138375831