手搓GPT系列之 - 通过理解LSTM的反向传播过程,理解LSTM解决梯度消失的原理 - 逐条解释LSTM创始论文全部推导公式,配超多图帮助理解(下篇)

news2024/9/20 20:43:41

本文承接上篇上篇在此和中篇中篇在此,继续就Sepp Hochreiter 1997年的开山大作 Long Short-term Memory 中APPENDIX A.1和A.2所载的数学推导过程进行详细解读。希望可以帮助大家理解了这个推导过程,进而能顺利理解为什么那几个门的设置可以解决RNN里的梯度消失和梯度爆炸的问题。中篇介绍了各个权重的误差更新算法。本篇将继续说明梯度信息在LSTM的记忆单元中经过一定的时间步之后如何变化,并由此证明LSTM可实现CEC(Constant Error Carousel)。本篇为整个文章的终章,也是最关键的一篇,因为此篇正是理解LSTM实现CEC的关键。一家之言,若有任何错漏欢迎大家评论区指正。好了,Dig in!

6. 误差流

我们将计算误差值在记忆单元上流过 q q q时间步之后(也称误差流error flow)的变化情况。

6.1 记忆单元输出点的误差值计算

已知记忆单元的计算公式:
s c j ( t ) = s c j ( t − 1 ) + g ( n e t c j ( t ) ) y i n j ( t ) s_{c_j}(t) = s_{c_j}(t-1) + g(net_{c_j}(t)) y^{in_j}(t) scj(t)=scj(t1)+g(netcj(t))yinj(t)
我们使用截断求导规则来计算误差在时间步 t − k t-k tk t − k − 1 t-k-1 tk1之间的变化情况:
∂ s c j ( t − k ) ∂ s c j ( t − k − 1 ) = 1 + ∂ g ( n e t c j ( t − k ) ) y i n j ( t − k ) ∂ s c j ( t − k − 1 ) = 1 + ∂ y i n j ( t − k ) ∂ s c j ( t − k − 1 ) g ( n e t c j ( t − k ) ) + ∂ g ( n e t c j ( t − k ) ) ∂ s c j ( t − k − 1 ) y i n j ( t − k ) = 1 + ∑ u [ ∂ y i n j ( t − k ) ∂ y u ( t − k − 1 ) ∂ y u ( t − k − 1 ) ∂ s c j ( t − k − 1 ) ] g ( n e t c j ( t − k ) ) + y i n j ( t − k ) g ′ ( n e t c j ( t − k ) ) ∑ u [ ∂ n e t c j ( t − k ) ∂ y u ( t − k − 1 ) ∂ y u ( t − k − 1 ) ∂ s c j ( t − k − 1 ) ] ≈ t r 1. (30) \begin{aligned} \frac{\partial s_{c_j}(t-k)}{\partial s_{c_j}(t-k-1)} &= 1 + \frac{\partial g(net_{c_j}(t-k))y^{in_j}(t-k)}{\partial s_{c_j}(t-k-1)}\\ &=1+ \frac{\partial y^{in_j}(t-k)}{\partial s_{c_j}(t-k-1)}g(net_{c_j}(t-k)) + \frac{\partial g(net_{c_j}(t-k))}{\partial s_{c_j}(t-k-1)}y^{in_j}(t-k)\\ &=1 + \sum_u[\frac{\partial y^{in_j}(t-k)}{\partial y^u(t-k-1)}\frac{\partial y^u(t-k-1)}{\partial s_{c_j}(t-k-1)}]g(net_{c_j}(t-k)) \\ &\quad + y^{in_j}(t-k)g'(net_{c_j}(t-k))\sum_u [\frac{\partial net_{c_j}(t-k)}{\partial y^u(t-k-1)}\frac{\partial y^u(t-k-1)}{\partial s_{c_j}(t-k-1)}]\\ &\approx_{tr} 1.\tag{30} \end{aligned} scj(tk1)scj(tk)=1+scj(tk1)g(netcj(tk))yinj(tk)=1+scj(tk1)yinj(tk)g(netcj(tk))+scj(tk1)g(netcj(tk))yinj(tk)=1+u[yu(tk1)yinj(tk)scj(tk1)yu(tk1)]g(netcj(tk))+yinj(tk)g(netcj(tk))u[yu(tk1)netcj(tk)scj(tk1)yu(tk1)]tr1.(30)

根据截断求导的规则,上式中的 ∂ y i n j ( t − k ) ∂ y u ( t − k − 1 ) \frac{\partial y^{in_j}(t-k)}{\partial y^u(t-k-1)} yu(tk1)yinj(tk) ∂ n e t c j ( t − k ) ∂ y u ( t − k − 1 ) \frac{\partial net_{c_j}(t-k)}{\partial y^u(t-k-1)} yu(tk1)netcj(tk)都等于0。因此上式应用截断求导规则之后,最终结果等于1。上边这个式子有两个累加符号 ∑ u \sum_u u可能会让人感到迷惑,按照我们一般的理解,应用链式求导规则,
∂ y i n j ( t − k ) ∂ s c j ( t − k − 1 ) = ∂ y i n j ( t − k ) ∂ y u ( t − k − 1 ) ∂ y u ( t − k − 1 ) ∂ s c j ( t − k − 1 ) , \frac{\partial y^{in_j}(t-k)}{\partial s_{c_j}(t-k-1)}=\frac{\partial y^{in_j}(t-k)}{\partial y^u(t-k-1)}\frac{\partial y^u(t-k-1)}{\partial s_{c_j}(t-k-1)}, scj(tk1)yinj(tk)=yu(tk1)yinj(tk)scj(tk1)yu(tk1),为什么这里是
∂ y i n j ( t − k ) ∂ s c j ( t − k − 1 ) = ∑ u [ ∂ y i n j ( t − k ) ∂ y u ( t − k − 1 ) ∂ y u ( t − k − 1 ) ∂ s c j ( t − k − 1 ) ] . \frac{\partial y^{in_j}(t-k)}{\partial s_{c_j}(t-k-1)}=\sum_u[\frac{\partial y^{in_j}(t-k)}{\partial y^u(t-k-1)}\frac{\partial y^u(t-k-1)}{\partial s_{c_j}(t-k-1)}]. scj(tk1)yinj(tk)=u[yu(tk1)yinj(tk)scj(tk1)yu(tk1)].

为了解释这个情况,我们需要先看一下下边从 y i n j ( t − k ) y^{in_j}(t-k) yinj(tk) s c j ( t − k − 1 ) s_{c_j}(t-k-1) scj(tk1)的误差传播路径示意图:

在这里插入图片描述
我们把传播路径上的各个节点展开一下(如下图所示),这里边 y i n j ( t − k ) y^{in_j}(t-k) yinj(tk) s c j ( t − k − 1 ) s_{c_j}(t-k-1) scj(tk1)所属的向量长度是一样的, y u ( t − k − 1 ) y^u(t-k-1) yu(tk1)所属向量的长度与其他两个不同。
在这里插入图片描述

上图分别显示了 ∂ y i n j ( t − k ) ∂ y u ( t − k − 1 ) \frac{\partial y^{in_j}(t-k)}{\partial y^u(t-k-1)} yu(tk1)yinj(tk) ∂ y u ( t − k − 1 ) ∂ s c j ( t − k − 1 ) \frac{\partial y^u(t-k-1)}{\partial s_{c_j}(t-k-1)} scj(tk1)yu(tk1)的现实含义。从上图可以看出,在给定 c j c_j cj i n j in_j inj值的情况下,由于大部分的 y u ( t − k − 1 ) y^u(t-k-1) yu(tk1)的单元和 s c j s_{c_j} scj节点连接。因此当且仅当 u = c j u=c_j u=cj时, ∂ y i n j ( t − k ) ∂ y u ( t − k − 1 ) ∂ y u ( t − k − 1 ) ∂ s c j ( t − k − 1 ) ≠ 0 \frac{\partial y^{in_j}(t-k)}{\partial y^u(t-k-1)}\frac{\partial y^u(t-k-1)}{\partial s_{c_j}(t-k-1)} \ne 0 yu(tk1)yinj(tk)scj(tk1)yu(tk1)=0。所以我们有:
∑ u [ ∂ y i n j ( t − k ) ∂ y u ( t − k − 1 ) ∂ y u ( t − k − 1 ) ∂ s c j ( t − k − 1 ) ] = ∂ y i n j ( t − k ) ∂ y c j ( t − k − 1 ) ∂ y c j ( t − k − 1 ) ∂ s c j ( t − k − 1 ) \sum_u[\frac{\partial y^{in_j}(t-k)}{\partial y^u(t-k-1)}\frac{\partial y^u(t-k-1)}{\partial s_{c_j}(t-k-1)}]= \frac{\partial y^{in_j}(t-k)}{\partial y^{c_j}(t-k-1)}\frac{\partial y^{c_j}(t-k-1)}{\partial s_{c_j}(t-k-1)} u[yu(tk1)yinj(tk)scj(tk1)yu(tk1)]=ycj(tk1)yinj(tk)scj(tk1)ycj(tk1)
同理可得:
∑ u [ ∂ n e t c j ( t − k ) ∂ y u ( t − k − 1 ) ∂ y u ( t − k − 1 ) ∂ s c j ( t − k − 1 ) ] = ∂ n e t c j ( t − k ) ∂ y c j ( t − k − 1 ) ∂ y c j ( t − k − 1 ) ∂ s c j ( t − k − 1 ) \sum_u [\frac{\partial net_{c_j}(t-k)}{\partial y^u(t-k-1)}\frac{\partial y^u(t-k-1)}{\partial s_{c_j}(t-k-1)}]=\frac{\partial net_{c_j}(t-k)}{\partial y^{c_j}(t-k-1)}\frac{\partial y^{c_j}(t-k-1)}{\partial s_{c_j}(t-k-1)} u[yu(tk1)netcj(tk)scj(tk1)yu(tk1)]=ycj(tk1)netcj(tk)scj(tk1)ycj(tk1)
我们用 v j ( t ) v_j(t) vj(t)表示 t t t时刻从记忆单元输出点的误差信号, v i ( t ) v_i(t) vi(t)表示隐藏单元的误差信号, v k ( t ) v_k(t) vk(t)表示输出单元的误差信号。如下图所示:
在这里插入图片描述

我们可以如此定义 v j ( t ) v_j(t) vj(t)
v j ( t ) : = ∑ k w k c j v k ( t + 1 ) + ∑ i w i c j v i ( t + 1 ) v_j(t):=\sum_kw_{kc_j}v_k(t+1) + \sum_iw_{ic_j}v_i(t+1) vj(t):=kwkcjvk(t+1)+iwicjvi(t+1)
原文中采用了一种更加通用的表达方式,即使用 i :   i   n o   g a t e   a n d   n o   m e m o r y   c e l l i:\ i\ no\ gate\ and\ no\ memory\ cell i: i no gate and no memory cell同时代表上式中的 k , i k,i k,i。我们可以将上式改写为原文中的形式:
v j ( t ) : = ∑ i :   i   n o   g a t e   a n d   n o   m e m o r y   c e l l w i c j v i ( t + 1 ) . (31) v_j(t):=\sum_{i:\ i\ no\ gate\ and\ no\ memory\ cell}w_{ic_j}v_i(t+1)\tag{31}. vj(t):=i: i no gate and no memory cellwicjvi(t+1).(31)
由于这个表示会跟隐藏单元误差信号的标识冲突,所以我们把式31重新写成:
v j ( t ) : = ∑ u :   u   n o   g a t e   a n d   n o   m e m o r y   c e l l w u c j v u ( t + 1 ) . (31*) v_j(t):=\sum_{u:\ u\ no\ gate\ and\ no\ memory\ cell}w_{uc_j}v_u(t+1).\tag{31*} vj(t):=u: u no gate and no memory cellwucjvu(t+1).(31*)

6.2 输出门的误差值计算

此时我们可以计算 t t t时刻,输出门得到的误差值 v o u t j ( t ) v_{out_j}(t) voutj(t),该误差值的设定为处于 n e t o u t j net_{out_j} netoutj处,如下图所示:
在这里插入图片描述
v o u t j ( t ) ≈ t r ∂ y c j ( t ) ∂ n e t o u t j ( t ) v j ( t ) ≈ t r ∂ y c j ( t ) ∂ y o u t j ( t ) ∂ y o u t j ( t ) ∂ n e t o u t j ( t ) v j ( t ) . (32) \begin{aligned} v_{out_j}(t) &\approx_{tr} \frac{\partial y^{c_j(t)}}{\partial net_{out_j}(t)}v_j(t)\\ &\approx_{tr}\frac{\partial y^{c_j(t)}}{\partial y^{out_j}(t)} \frac{\partial y^{out_j}(t)}{\partial net_{out_j}(t)}v_j(t)\tag{32}. \end{aligned} voutj(t)trnetoutj(t)ycj(t)vj(t)tryoutj(t)ycj(t)netoutj(t)youtj(t)vj(t).(32)

6.3 CEC的误差值计算

我们现在来计算在 t t t时刻传播到记忆单元内部的 s c j s_{c_j} scj处的误差值。误差值传播路径示意图:
在这里插入图片描述
为了便于理解,我们把上边这个传播路径按时间顺序展开一下:
在这里插入图片描述

从上图我们可以明显地看出来,因为 s c j ( t ) s_{c_j}(t) scj(t)同时作为两个分支的输入,因此 v s c j ( t ) v_{s_{c_j}}(t) vscj(t)等于两个分支传过来的误差值之和:
v s c j ( t ) = ∂ s c j ( t + 1 ) ∂ s c j ( t ) v s c j ( t + 1 ) + ∂ y c j ( t ) ∂ s c j ( t ) v j ( t ) . (33) v_{s_{c_j}}(t) = \frac{\partial s_{c_j}(t+1)}{\partial s_{c_j}(t)}v_{s_{c_j}}(t+1) + \frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t)}v_j(t)\tag{33}. vscj(t)=scj(t)scj(t+1)vscj(t+1)+scj(t)ycj(t)vj(t).(33)

6.4 CEC之间的误差流

接下来算一个中间公式,后边有用:
∂ v j ( t ) ∂ v s c j ( t + 1 ) = ∂ ∑ u w i c j v i ( t + 1 ) ∂ v s c j ( t + 1 ) ( 代入式 31 ∗ ) = ∑ u w u c j ∂ v u ( t + 1 ) ∂ v s c j ( t + 1 ) = 0. (34) \begin{aligned} \frac{\partial v_j(t)}{\partial v_{s_{c_j}}(t+1)}&= \frac{\partial \sum_u w_{ic_j}v_i(t+1)}{\partial v_{s_{c_j}}(t+1)}&(代入式31*)\\ &=\sum_u w_{uc_j}\frac{\partial v_u(t+1)}{\partial v_{s_{c_j}}(t+1)}\\ &=0\tag{34}. \end{aligned} vscj(t+1)vj(t)=vscj(t+1)uwicjvi(t+1)=uwucjvscj(t+1)vu(t+1)=0.(代入式31)(34)

为什么 ∑ u w u c j ∂ v u ( t + 1 ) ∂ v s c j ( t + 1 ) = 0 \sum_u w_{uc_j}\frac{\partial v_u(t+1)}{\partial v_{s_{c_j}}(t+1)}=0 uwucjvscj(t+1)vu(t+1)=0呢?我们用 v y u ( t ) v_{y^u}(t) vyu(t)来表示 t t t时刻传导到 y u y^u yu处的误差值,我们把LSTM模型按时间展开一下:
在这里插入图片描述

由于:
∑ u :   u   n o   g a t e   n o   m e m o r y   c e l l w u c j v u ( t + 1 ) = ∑ i w i c j v i ( t + 1 ) + ∑ k w k c j v i ( t + 1 ) \sum_{u:\ u\ no\ gate\ no\ memory\ cell} w_{uc_j}v_u(t+1)=\sum_{i} w_{ic_j}v_i(t+1) + \sum_{k} w_{kc_j}v_i(t+1) u: u no gate no memory cellwucjvu(t+1)=iwicjvi(t+1)+kwkcjvi(t+1)
可得:
∑ u w u c j ∂ v u ( t + 1 ) ∂ v s c j ( t + 1 ) = ∑ i w i c j ∂ v i ( t + 1 ) ∂ v s c j ( t + 1 ) + ∑ k w k c j ∂ v k ( t + 1 ) ∂ v s c j ( t + 1 ) \sum_u w_{uc_j}\frac{\partial v_u(t+1)}{\partial v_{s_{c_j}}(t+1)}=\sum_{i}\frac{w_{ic_j}\partial v_i(t+1)}{\partial v_{s_{c_j}}(t+1)} + \sum_{k} \frac{w_{kc_j}\partial v_k(t+1)}{\partial v_{s_{c_j}}(t+1)} uwucjvscj(t+1)vu(t+1)=ivscj(t+1)wicjvi(t+1)+kvscj(t+1)wkcjvk(t+1)
通过上图,我们容易看出, v i ( t + 1 ) v_i(t+1) vi(t+1) v s c j ( t + 1 ) v_{s_{c_j}}(t+1) vscj(t+1)互相独立,且 v k ( t + 1 ) v_k(t+1) vk(t+1) v s c j ( t + 1 ) v_{s_{c_j}}(t+1) vscj(t+1)互相独立,因此 w i c j ∂ v i ( t + 1 ) ∂ v s c j ( t + 1 ) = 0 , ∀ i \frac{w_{ic_j}\partial v_i(t+1)}{\partial v_{s_{c_j}}(t+1)}=0, \forall i vscj(t+1)wicjvi(t+1)=0,i,且 w k c j ∂ v k ( t + 1 ) ∂ v s c j ( t + 1 ) = 0 , ∀ k \frac{w_{kc_j}\partial v_k(t+1)}{\partial v_{s_{c_j}}(t+1)}=0, \forall k vscj(t+1)wkcjvk(t+1)=0,k。所以式子34得证。

此时我们来计算时刻 t + 1 t+1 t+1流入 s c j s_{c_j} scj的误差值对 t t t时刻,流入 s c j s_{c_j} scj的误差值的影响:
∂ v s c j ( t ) ∂ v s c j ( t + 1 ) = ∂ s c j ( t + 1 ) ∂ s c j ( t ) ∂ v s c j ( t + 1 ) ∂ v s c j ( t + 1 ) + ∂ y c j ( t ) ∂ s c j ( t ) ∂ v j ( t ) ∂ v s c j ( t + 1 ) (代入式 33 ) = ∂ s c j ( t + 1 ) ∂ s c j ( t ) (代入式 34 ) ≈ t r 1 (代入式 30 ) . (35) \begin{aligned} \frac{\partial v_{s_{c_j}}(t)}{\partial v_{s_{c_j}}(t+1)} &= \frac{\frac{\partial s_{c_j}(t+1)}{\partial s_{c_j}(t)}\partial v_{s_{c_j}}(t+1)}{\partial v_{s_{c_j}}(t+1)} + \frac{\frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t)}\partial v_j(t)}{\partial v_{s_{c_j}}(t+1)}&(代入式33)\\ &=\frac{\partial s_{c_j}(t+1)}{\partial s_{c_j}(t)}& (代入式34)\\ &\approx_{tr}1&(代入式30)\tag{35}. \end{aligned} vscj(t+1)vscj(t)=vscj(t+1)scj(t)scj(t+1)vscj(t+1)+vscj(t+1)scj(t)ycj(t)vj(t)=scj(t)scj(t+1)tr1(代入式33(代入式34(代入式30.(35)

式35意味着:
v s c j ( t ) = v s c j ( t + 1 ) + C . v_{s_{c_j}}(t) = v_{s_{c_j}}(t+1) + C. vscj(t)=vscj(t+1)+C.
记忆单元内部的误差值是恒定的,或者说, t + 1 t+1 t+1时刻,流到 v s c j v_{s_{c_j}} vscj的误差值是多少,再往上流到 t t t时刻的 v s c j v_{s_{c_j}} vscj那里,就还是多少。(这是最理想的情况,我们这个模型还有一个 C C C)。

6.5 记忆单元的误差值计算

记忆单元输入处的误差值 v c j ( t ) v_{c_j}(t) vcj(t)为:
v c j ( t ) = ∂ g ( n e t c j ( t ) ) ∂ n e t c j ( t ) ∂ s c j ( t ) ∂ g ( n e t c j ( t ) ) v s c j ( t ) . (36) v_{c_j}(t)=\frac{\partial g(net_{c_j}(t))}{\partial net_{c_j}(t)}\frac{\partial s_{c_j}(t)}{\partial g(net_{c_j}(t))}v_{s_{c_j}}(t)\tag{36}. vcj(t)=netcj(t)g(netcj(t))g(netcj(t))scj(t)vscj(t).(36)
这个公式太简单了,不需要再进一步解释。我们放个误差流的示意图用以说明上式所说的标记的位置:
在这里插入图片描述

6.6 输入门的误差值计算

v i n j ( t ) ≈ t r ∂ y i n j ( t ) ∂ n e t i n j ( t ) ∂ s c j ( t ) ∂ y i n j ( t ) v s c j ( t ) . (37) v_{in_j}(t)\approx_{tr}\frac{\partial y^{in_j}(t)}{\partial net_{in_j}(t)}\frac{\partial s_{c_j}(t)}{\partial y_{in_j}(t)}v_{s_{c_j}}(t)\tag{37}. vinj(t)trnetinj(t)yinj(t)yinj(t)scj(t)vscj(t).(37)
误差值传播示意图:
在这里插入图片描述

6.7 外部误差流的计算

t + 1 t+1 t+1时刻,各个门或记忆单元(记为 l l l)的误差值 v l ( t + 1 ) v_l(t+1) vl(t+1),沿着 w l v w_{lv} wlv传播到上一个时间时刻 t t t的某一个记忆单元、门、输出单元或者隐藏单元(记为 v v v)中去,这就叫外部误差流(external error flow),我们计算一下任何节点 v v v t t t时刻收到的外部误差值(记为 v v e ( t ) v_v^e(t) vve(t)):
v v e ( t ) = ∂ y v ( t ) ∂ n e t v ( t ) ∑ l ∂ n e t l ( t + 1 ) ∂ y v ( t ) v l ( t + 1 ) = ∂ y v ( t ) ∂ n e t v ( t ) ( ∂ n e t o u t j ( t + 1 ) ∂ y v ( t ) v o u t j ( t + 1 ) + ∂ n e t i n j ( t + 1 ) ∂ y v ( t ) v i n j ( t + 1 ) + ∂ n e t c j ( t + 1 ) ∂ y v ( t ) (38) \begin{aligned} v_v^e(t) &= \frac{\partial y^v(t)}{\partial net_v(t)}\sum_l \frac{\partial net_l(t+1)}{\partial y^v(t)}v_l(t+1)\tag{38}\\ &= \frac{\partial y^v(t)}{\partial net_v(t)}( \frac{\partial net_{out_j}(t+1)}{\partial y^v(t)}v_{out_j}(t+1)+ \frac{\partial net_{in_j}(t+1)}{\partial y^v(t)}v_{in_j}(t+1) + \frac{\partial net_{c_j}(t+1)}{\partial y^v(t)} \end{aligned} vve(t)=netv(t)yv(t)lyv(t)netl(t+1)vl(t+1)=netv(t)yv(t)(yv(t)netoutj(t+1)voutj(t+1)+yv(t)netinj(t+1)vinj(t+1)+yv(t)netcj(t+1)(38)
可以通过下图理解外部误差的传播路径:
在这里插入图片描述

此时我们可以得到外部误差与记忆单元 v v e ( t − 1 ) v_v^e(t-1) vve(t1) v j ( t ) v_j(t) vj(t)的关系,先看下边的传播路径示意图理解一下这个公式想计算的是什么东西,我们这里为了便于理解,只画出 v = i n j v=in_j v=inj的情况:
在这里插入图片描述

∂ v v e ( t − 1 ) ∂ v j ( t ) = ∂ y v ( t − 1 ) ∂ n e t v ( t − 1 ) ( ∂ v o u t j ( t ) ∂ v j ( t ) ∂ n e t o u t j ( t ) ∂ y v ( t − 1 ) + ∂ v i n j ( t ) ∂ v j ( t ) ∂ n e t i n j ( t ) ∂ y v ( t − 1 ) + ∂ v c j ( t ) ∂ v j ( t ) ∂ n e t c j ( t ) ∂ y v ( t − 1 ) ) ≈ t r 0. (39) \begin{aligned} \frac{\partial v_v^e(t-1)}{\partial v_j(t)}&= \frac{\partial y^v(t-1)}{\partial net_v(t-1)}( \frac{\partial v_{out_j}(t)}{\partial v_j(t)}\frac{\partial net_{out_j}(t)}{\partial y^v(t-1)}+ \frac{\partial v_{in_j}(t)}{\partial v_j(t)}\frac{\partial net_{in_j}(t)}{\partial y^v(t-1)} + \frac{\partial v_{c_j}(t)}{\partial v_j(t)}\frac{\partial net_{c_j}(t)}{\partial y^v(t-1)}) \\ &\approx_{tr}0\tag{39}. \end{aligned} vj(t)vve(t1)=netv(t1)yv(t1)(vj(t)voutj(t)yv(t1)netoutj(t)+vj(t)vinj(t)yv(t1)netinj(t)+vj(t)vcj(t)yv(t1)netcj(t))tr0.(39)
根据截断求导规则,上式中的 ∂ n e t o u t j ( t ) ∂ y v ( t − 1 ) ≈ t r 0 \frac{\partial net_{out_j}(t)}{\partial y^v(t-1)}\approx_{tr}0 yv(t1)netoutj(t)tr0 ∂ n e t i n j ( t ) ∂ y v ( t − 1 ) ≈ t r 0 \frac{\partial net_{in_j}(t)}{\partial y^v(t-1)}\approx_{tr}0 yv(t1)netinj(t)tr0 ∂ n e t c j ( t ) ∂ y v ( t − 1 ) ≈ t r 0 \frac{\partial net_{c_j}(t)}{\partial y^v(t-1)}\approx_{tr}0 yv(t1)netcj(t)tr0,因此上式应用截断求导之后为0。

上式的意义就在于,证明了应用截断规则后,从记忆单元出口处的误差值,不会经由 i n j , o u t j , c j in_j,out_j,c_j inj,outj,cj传播到其他任何门和单元。(其实用眼睛看也可以一眼看出来)

6.8 记忆单元内部的误差流计算

最后,让我们来关注从记忆单元出口处的误差,传递到记忆单元内的CEC的情况。这也是整个模型中唯一的错误信息会跨时间步传递的误差流。
给定时间步 q q q,我们计算 ∂ v s c j ( t − q ) ∂ v j ( t ) \frac{\partial v_{s_{c_j}}(t-q)}{\partial v_j(t)} vj(t)vscj(tq)
q = 0 q=0 q=0时,我们可以看下图的误差传播路径:
在这里插入图片描述
根据上图,容易得到:
∂ v s c j ( t − q ) ∂ v j ( t ) = ∂ v s c j ( t ) ∂ v j ( t ) = ∂ y c j ( t ) ∂ s c j ( t ) \begin{aligned} \frac{\partial v_{s_{c_j}}(t-q)}{\partial v_j(t)}&=\frac{\partial v_{s_{c_j}}(t)}{\partial v_j(t)}=\frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t)} \end{aligned} vj(t)vscj(tq)=vj(t)vscj(t)=scj(t)ycj(t)
q = 1 q=1 q=1时,误差传播路径如下图所示(隐藏了无关的单元,只保留记忆单元):
在这里插入图片描述

∂ v s c j ( t − q ) ∂ v j ( t ) = ∂ v s c j ( t − 1 ) ∂ v j ( t ) ≈ t r ∂ v j ( t ) ∂ y c j ( t ) ∂ s c j ( t ) ∂ s c j ( t ) ∂ s c j ( t − 1 ) ∂ v j ( t ) ≈ t r ∂ y c j ( t ) ∂ s c j ( t ) ∂ s c j ( t ) ∂ s c j ( t − 1 ) ≈ t r ∂ s c j ( t ) ∂ s c j ( t − 1 ) ∂ v s c j ( t ) ∂ v j ( t ) \begin{aligned} \frac{\partial v_{s_{c_j}}(t-q)}{\partial v_j(t)}&=\frac{\partial v_{s_{c_j}}(t-1)}{\partial v_j(t)}\\ &\approx_{tr}\frac{\partial v_j(t)\frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t)}\frac{\partial s_{c_j}(t)}{\partial s_{c_j}(t-1)}}{\partial v_j(t)}\\ &\approx_{tr}\frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t)}\frac{\partial s_{c_j}(t)}{\partial s_{c_j}(t-1)}\\ &\approx_{tr}\frac{\partial s_{c_j}(t)}{\partial s_{c_j}(t-1)}\frac{\partial v_{s_{c_j}}(t)}{\partial v_j(t)} \end{aligned} vj(t)vscj(tq)=vj(t)vscj(t1)trvj(t)vj(t)scj(t)ycj(t)scj(t1)scj(t)trscj(t)ycj(t)scj(t1)scj(t)trscj(t1)scj(t)vj(t)vscj(t)
q > 1 q>1 q>1时:
在这里插入图片描述

∂ v s c j ( t − q ) ∂ v j ( t ) ≈ t r ∂ v j ( t ) ∂ y c j ( t ) ∂ s c j ( t − q + 1 ) ∂ s c j ( t − q + 1 ) ∂ s c j ( t − q ) ∂ v j ( t ) ≈ t r ∂ y c j ( t ) ∂ s c j ( t − q + 1 ) ∂ s c j ( t − q + 1 ) ∂ s c j ( t − q ) ≈ t r ∂ v s c j ( t − q + 1 ) ∂ v j ( t ) ∂ s c j ( t − q + 1 ) ∂ s c j ( t − q ) \begin{aligned} \frac{\partial v_{s_{c_j}}(t-q)}{\partial v_j(t)}&\approx_{tr}\frac{\partial v_j(t)\frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t-q+1)}\frac{\partial s_{c_j}(t-q+1)}{\partial s_{c_j}(t-q)}}{\partial v_j(t)}\\ &\approx_{tr}\frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t-q+1)}\frac{\partial s_{c_j}(t-q+1)}{\partial s_{c_j}(t-q)}\\ &\approx_{tr}\frac{\partial v_{s_{c_j}}(t-q+1)}{\partial v_j(t)}\frac{\partial s_{c_j}(t-q+1)}{\partial s_{c_j}(t-q)} \end{aligned} vj(t)vscj(tq)trvj(t)vj(t)scj(tq+1)ycj(t)scj(tq)scj(tq+1)trscj(tq+1)ycj(t)scj(tq)scj(tq+1)trvj(t)vscj(tq+1)scj(tq)scj(tq+1)

因此我们可得:
∂ v s c j ( t − q ) ∂ v j ( t ) ≈ t r { ∂ y c j ( t ) ∂ s c j ( t ) ( q = 0 ) ∂ s c j ( t − q + 1 ) ∂ s c j ( t − q ) ∂ v s c j ( t − q + 1 ) ∂ v j ( t ) ( q > 0 ) . (40) \frac{\partial v_{s_{c_j}}(t-q)}{\partial v_j(t)}\approx_{tr} \begin{cases} \frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t)} &(q=0)\\ \frac{\partial s_{c_j}(t-q+1)}{\partial s_{c_j}(t-q)}\frac{\partial v_{s_{c_j}}(t-q+1)}{\partial v_j(t)}&(q>0) \end{cases}\tag{40}. vj(t)vscj(tq)tr scj(t)ycj(t)scj(tq)scj(tq+1)vj(t)vscj(tq+1)(q=0)(q>0).(40)

将式40扩展为计算记忆节点在时刻 t t t的误差值,传播到 t − q t-q tq时刻任意节点 v v v时的误差,误差传播路经如下图所示:
在这里插入图片描述
从上图可知在 t − q t-q tq时刻,只有 n e t i n j net_{in_j} netinj n e t c j net_{c_j} netcj处,即 v ∈ { i n j , c j } v\in\{in_j,c_j\} v{inj,cj}时,可以得到 v j ( t ) v_j(t) vj(t)传过来的非零误差。其他位置都是0。我们标记任意节点 v v v t − q t-q tq时刻收到的误差信息为 v v ( t − q ) v_v(t-q) vv(tq),我们计算 t t t时刻记忆单元出口处与 v v ( t − q ) v_v(t-q) vv(tq)之间的误差流:
∂ v v ( t − q ) ∂ v j ( t ) ≈ t r ∂ v v ( t − q ) ∂ v s c j ( t − q ) ∂ v s c j ( t − q ) ∂ v j ( t ) ≈ t r ∂ v v ( t − q ) ∂ v s c j ( t − q ) ∂ s c j ( t − q + 1 ) ∂ s c j ( t − q ) ∂ v s c j ( t − q + 1 ) ∂ v j ( t ) ≈ t r ∂ v v ( t − q ) ∂ v s c j ( t − q ) ( ∂ s c j ( t − q + 1 ) ∂ s c j ( t − q ) ∂ s c j ( t − q + 2 ) ∂ s c j ( t − q + 1 ) ∂ s c j ( t − q + 3 ) ∂ s c j ( t − q + 2 ) ⋯ ∂ s c j ( t + 1 ) ∂ s c j ( t ) ) ∂ v s c j ( t ) ∂ v j ( t ) ≈ t r ∂ v v ( t − q ) ∂ v s c j ( t − q ) ( ∏ m = 0 q ∂ s c j ( t − m + 1 ) ∂ s c j ( t − m ) ) ∂ v s c j ( t ) ∂ v j ( t ) ≈ t r ∂ v v ( t − q ) ∂ v s c j ( t − q ) ∂ v s c j ( t ) ∂ v j ( t ) ≈ t r y o u t j ( t ) h ′ ( s c j ( t ) ) { g ′ ( n e t c j ( t − q ) ) y i n j ( t − q ) v = c j g ( n e t c j ( t − q ) ) f i n j ′ ( n e t i n j ( t − q ) ) v = i n j 0 O t h e r w i s e . (41) \begin{aligned} \frac{\partial v_v(t-q)}{\partial v_j(t)}&\approx_{tr}\frac{\partial v_v(t-q)}{\partial v_{s_{c_j}}(t-q)}\frac{\partial v_{s_{c_j}}(t-q)}{\partial v_j(t)}\\ &\approx_{tr} \frac{\partial v_v(t-q)}{\partial v_{s_{c_j}}(t-q)}\frac{\partial s_{c_j}(t-q+1)}{\partial s_{c_j}(t-q)}\frac{\partial v_{s_{c_j}}(t-q+1)}{\partial v_j(t)}\\ &\approx_{tr} \frac{\partial v_v(t-q)}{\partial v_{s_{c_j}}(t-q)}(\frac{\partial s_{c_j}(t-q+1)}{\partial s_{c_j}(t-q)}\frac{\partial s_{c_j}(t-q+2)}{\partial s_{c_j}(t-q+1)}\frac{\partial s_{c_j}(t-q+3)}{\partial s_{c_j}(t-q+2)}\cdots\frac{\partial s_{c_j}(t+1)}{\partial s_{c_j}(t)})\frac{\partial v_{s_{c_j}}(t)}{\partial v_j(t)}\\ &\approx_{tr}\frac{\partial v_v(t-q)}{\partial v_{s_{c_j}}(t-q)}(\prod_{m=0}^q\frac{\partial s_{c_j}(t-m+1)}{\partial s_{c_j}(t-m)})\frac{\partial v_{s_{c_j}}(t)}{\partial v_j(t)}\\ &\approx_{tr}\frac{\partial v_v(t-q)}{\partial v_{s_{c_j}}(t-q)}\frac{\partial v_{s_{c_j}}(t)}{\partial v_j(t)}\\ &\approx_{tr}y^{out_j}(t)h'(s_{c_j}(t)) \begin{cases} g'(net_{c_j}(t-q))y^{in_j}(t-q)&v=c_j\\ g(net_{c_j}(t-q))f'_{in_j}(net_{in_j}(t-q)) &v=in_j\\ 0&Otherwise \end{cases}\tag{41}. \end{aligned} vj(t)vv(tq)trvscj(tq)vv(tq)vj(t)vscj(tq)trvscj(tq)vv(tq)scj(tq)scj(tq+1)vj(t)vscj(tq+1)trvscj(tq)vv(tq)(scj(tq)scj(tq+1)scj(tq+1)scj(tq+2)scj(tq+2)scj(tq+3)scj(t)scj(t+1))vj(t)vscj(t)trvscj(tq)vv(tq)(m=0qscj(tm)scj(tm+1))vj(t)vscj(t)trvscj(tq)vv(tq)vj(t)vscj(t)tryoutj(t)h(scj(t)) g(netcj(tq))yinj(tq)g(netcj(tq))finj(netinj(tq))0v=cjv=injOtherwise.(41)

通过上式可以看出,误差流的变化只有分别与 t t t t − q t-q tq时刻有关,在不同时间步之间流经CEC时未受影响。最后Sepp Hochreiter指出以下几点:

  1. y o u t j ( t ) y^{out_j}(t) youtj(t)可以在误差流进入记忆单元之前就缩小误差值。也会在之后的训练步骤中降低记忆单元产生的误差值。
  2. 根据式35可知, v s c j ( t ) = v s c j ( t + 1 ) + C v_{s_{c_j}}(t) = v_{s_{c_j}}(t+1) + C vscj(t)=vscj(t+1)+C,因此随着时间步数的增加, s c j s_{c_j} scj会出现漂移的情况,如果 s c j ( t ) s_{c_j}(t) scj(t)产生一个大值(大正值或大负值),该值会被 h ′ ( s c j ( t ) ) h'(s_{c_j}(t)) h(scj(t))截断。同时,也可通过给 i n j in_j inj设置适当的偏移量来优化该问题(现在我们通过增加遗忘门解决该问题,这个遗忘门也成为新的标准LSTM模型的一部分)。
  3. 如果我们给 i n j in_j inj设置了用与抗衡 s c j s_{c_j} scj漂移的反向偏移值,那么会导致 y i n j ( t − q ) y^{in_j}(t-q) yinj(tq) ( n e t i n j ( t − q ) ) (net_{in_j}(t-q)) (netinj(tq))的值变小,这样的影响对比放任 s c j s_{c_j} scj漂移的影响来说微不足道。

总之一句话,LSTM模型比没有记忆单元的RNN模型好很多。

由于文章太长,我把整个文章分为上中下三篇,本篇为最后一篇。
上篇:上篇在此
中篇:中篇在此
下篇:下篇在此

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/714569.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring中@NotEmpty、@NotBlank、@NotNull 的区别和使用

1、引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId><version>2.0.5.RELEASE</version> </dependency>NotEmpty、NotBlank、NotNull 包的位置&#xff1…

i春秋,春秋云镜系列

目录 先提神CVE-2022-32991靶标介绍&#xff1a;复现&#xff1a; CVE-2022-30887靶标介绍&#xff1a;复现 先提神 CVE-2022-32991 靶标介绍&#xff1a; 该CMS的welcome.php中存在SQL注入攻击。 复现&#xff1a; 打开靶场地址&#xff0c;三个随便选一个进去&#xff0c…

Gof23设计模式之适配器模式

1.定义 将一个类的接口转换成客户希望的另外一个接口&#xff0c;使得原本由于接口不兼容而不能一起工作的那些类能一起工作。 适配器模式分为类适配器模式和对象适配器模式&#xff0c;前者类之间的耦合度比后者高&#xff0c;且要求程序员了解现有组件库中的相关组件的内部结…

国产划片机开创了半导体芯片切割的新工艺时代

国产划片机确实开创了半导体芯片切割的新工艺时代。划片机是一种用于切割和划分半导体芯片的设备&#xff0c;它是半导体制造过程中非常重要的一环。在过去&#xff0c;划片机技术一直被国外厂商所垄断&#xff0c;国内半导体制造企业不得不依赖进口设备。 然而&#xff0c;随着…

QT学习笔记6--信号之间的连接

连接 仍然使用connect函数&#xff0c;但是和函数重载类似&#xff0c;需要用到函数指针。如下所示 void (teacher:: *teachersignals)(void) &teacher::hungery;void (student:: *studentslots)(void) &student::treat;connect(zt,teachersignals,st,studentslots)…

水利三类人员专职安全生产管理人员c证安全生产法律法规考试题库

​本题库是根据最新考试大纲要求&#xff0c;结合近年来考试真题的重难点进行汇编整理组成的全真模拟试题&#xff0c;考生们可以进行专项训练&#xff0c;查漏补缺巩固知识点。本题库对热点考题和重难点题目都进行了仔细的整理和编辑&#xff0c;相信考生在经过了针对性的刷题…

浏览器使用Notification桌面通知消息推送

什么是 Notification&#xff1f; Notification 是浏览器最小化后在桌面显示消息的一种方法类似于 360 等流氓软件在桌面右下角的弹窗广告它与浏览器是脱离的&#xff0c;消息是置顶的 一、弹窗授权 授权当前页面允许通知可以通过检查只读属性 Notification.permission 的值来…

基于Springboot+Html的健身房管理系统

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取项目下载方式&#x1f345; 一、项目背景介绍&#xff1a; 随着现代生活方式的改…

基于改进莱维飞行和混沌映射的金鹰优化算法(10种混沌映射随意切换),附matlab代码

“ 本篇文章对金鹰优化算法进行改进&#xff0c;首先通过引入混沌映射机制&#xff0c;对其群体进行初始化&#xff0c;增加金鹰个体的多样性&#xff1b;然后在金鹰个体的位置更新公式上引入改进的莱维飞行机制&#xff0c;提高搜索精度&#xff0c;帮助金鹰个体跳出局部最优。…

谈谈NLP中 大语言模型LLM的 思维链 Chain-of-Thought(CoT)

Chain-of-Thought(CoT) 1.介绍 在过去几年的探索中&#xff0c;业界发现了一个现象&#xff0c;在增大模型参数量和训练数据的同时&#xff0c;在多数任务上&#xff0c;模型的表现会越来越好。因而&#xff0c;现有的大模型LLM&#xff0c;最大参数量已经超过了千亿。 然而…

大数据Doris(五十五):BACKUP数据备份案例和注意事项

文章目录 BACKUP数据备份案例和注意事项 一、BACKUP数据备份案例 1、Doris中创建数据库&#xff0c;以及建表插入数据 2、创建远端仓库 3、全量备份指定 Doris 库下所有表所有分区数据 4、查看 backup 作业执行情况 5、查看远端仓库中已备份结果 二、注意事项 BACKUP数…

【花雕】青少年机器人技术等级考试理论综合试卷(一级)2021年9月

随着科技的不断进步&#xff0c;机器人技术已经成为了一个重要的领域。在这个领域中&#xff0c;机械结构是机器人设计中至关重要的一部分&#xff0c;它决定了机器人的形态、运动方式和工作效率。对于青少年机器人爱好者来说&#xff0c;了解机械结构的基础知识&#xff0c;掌…

Drools用户手册翻译——第二章 入门(下)测试和评估

因为篇幅原因&#xff0c;所以分为上下两个部分&#xff0c;主要就是通过一个交通违章项目的例子&#xff0c;带你先粗略感受一下决策模型的使用流程&#xff0c;总体来说有详细&#xff0c;也有没说清的地方&#xff0c;如果想要了解一下决策模型&#xff0c;可以进来了解一下…

[探地雷达]利用Faster RCNN对B-SCAN探地雷达数据进行目标检测

引用量较高的一篇会议论文。 由于真实雷达图像较少&#xff0c;作者采用了GPR工具箱&#xff0c;使用不同配置&#xff0c;合成了部分模拟雷达图。然后采用Cifar-10数据&#xff08;灰度图&#xff09;对Faster RCNN进行预训练&#xff0c;再采用真实和合成数据进行微调。 论…

(0021) H5-Vuejs配合 mint-ui 开发移动端web

mint-ui 初衷 element-ui主打pcweb&#xff0c;导致移动端上UI适配问题突出&#xff0c;趟了很多坑。这次更加理智些&#xff0c;选择了饿了么团队的主打移动端的mint-ui&#xff0c;目前来说体验很好。 认识Mint-ui 首先在手机上体验其demo&#xff0c;扫描链接&#xff1a;…

双层玻璃门碎了一面怎么更换

更换双层玻璃门的碎片需要按照以下步骤进行&#xff1a; 1. 备齐工具和材料&#xff1a;你需要准备以下工具和材料&#xff1a;安全手套、安全护目镜、扁头螺丝刀、绳子、玻璃胶和新的玻璃门。 2. 移除残存玻璃&#xff1a;首先&#xff0c;将门上的残留玻璃及其框架小心地取下…

12给图片加水印(matlab程序)

代码 clear;clc size512; block8; blocknosize/block; LENGTHsize*size/64; Alpha10.02; Alpha20.02; T1100; Izeros(size,size); Dzeros(size,size); BWzeros(size,size); block_dct1zeros(block,block); iimread(watermark64by64.png); %水印原图 markreshape(i…

springboot 2.6.6接入prometheus

springboot是2.6.6版本&#xff0c;刚开始用的是simpleclient客户端 <dependency><groupId>io.prometheus</groupId><artifactId>simpleclient</artifactId><version>0.16.0</version> </dependency>接入后一直报AbstractEnd…

Linux:CentOS安装Git

报错如下&#xff1a;git: 未找到命令... 这是因为没有安装git。 解决方案 使用yum安装git yum -y install git 查看是否安装git,若出现版本号&#xff0c;则代表已经安装了git git --version

ubuntu18实现QT与ROS通信

背景介绍&#xff1a;老板需求&#xff1a;qt开发ui界面&#xff0c;实现与ros通讯。同伴A已经使用qt开发了部分功能&#xff0c;但是没有弄与ros通讯相关&#xff0c;与A沟通了解项目细节。当前主要任务&#xff1a;先实现ros与qt通讯&#xff0c;实现ros话题发布、接收 经验…