引言

上一节介绍了循环神经网络 $(\text{Recurrent Neural Network,RNN})$ 的反向传播过程，本节将针对 $\text{RNN}$ 存在的梯度消失问题，介绍一种新的网络——长短期记忆神经网络 $(\text{Long-Short Term Memory,LSTM})$ 。

回顾： $\text{RNN}$ 的反向传播过程

关于 $\text{RNN}$ 的网络结构图(展开)表示如下：
RNN网络结构展开图
仅以上图部分为例，它的前馈计算过程表示如下：
对应的 $t, t + 1$ 时刻同理。
$\begin{aligned} \begin{cases} \mathcal Z_1^{(t-1)} & = \mathcal W_{h^{(t-2)}\Rightarrow h^{(t-1)}}\cdot h^{(t-2)} + \mathcal W_{x^{(t-1)} \Rightarrow h^{(t-1)}} \cdot x^{(t-1)} + b^{(t-1)}\\ h^{(t-1)} & = \text{Tanh}\left[\mathcal Z_1^{(t-1)}\right] \\ \mathcal Z_2^{(t-1)} & = \mathcal W_{h^{(t-1)} \Rightarrow \mathcal O^{(t-1)}} \cdot h^{(t-1)} + b_{\mathcal O} \\ \mathcal O^{(t-1)} & = \text{Softmax}(\mathcal Z_2^{(t-1)}) \end{cases} \end{aligned}$
假设针对分类任务使用交叉熵作为损失函数，从 $t + 1$ 时刻的损失函数信息 $\mathcal L^{(t+1)}$ 开始，对 $t - 1$ 时刻的权重 $\mathcal W_{x^{(t-1)} \Rightarrow h^{(t-1)}}$ 求解梯度。那么它的梯度传播方向表示如下(红色箭头方向)：
这里仅描述 $\mathcal L^{(t+1)}$ 对 $\mathcal W_{x^{(t-1)} \Rightarrow h^{(t-1)}}$ 的梯度，其他时刻输出对应的梯度不包含在内。
梯度传播方向示例
对应梯度公式表示如下：

关于 $\begin{aligned}\frac{\partial \mathcal L^{(t+1)}}{\partial \mathcal O^{(t+1)}} \cdot \frac{\partial \mathcal O^{(t+1)}}{\partial \mathcal Z_2^{(t+1)}}\end{aligned}$ 结果见上一节。
其中 $y^{(t+1)}$ 表示 $t + 1$ 时刻样本的真实分布。
$\begin{aligned} \frac{\partial \mathcal L^{(t+1)}}{\partial \mathcal W_{x^{(t-1)} \Rightarrow h^{(t-1)}}} & = \underbrace{\frac{\partial \mathcal L^{(t+1)}}{\partial \mathcal O^{(t+1)}} \cdot \frac{\partial \mathcal O^{(t+1)}}{\partial \mathcal Z_2^{(t+1)}} \cdot \frac{\partial \mathcal Z_2^{(t+1)}}{\partial h^{(t+1)}}}_{\mathcal O^{(t+1)}梯度结果} \cdot \left[\prod_{k=t}^{t+1} \frac{\partial h^{(k)}}{\partial \mathcal Z_1^{(k)}} \cdot \frac{\partial \mathcal Z_1^{(k)}}{\partial h^{(k-1)}}\right] \cdot \frac{\partial h^{(t-1)}}{\partial \mathcal Z_1^{(t-1)}} \cdot \frac{\partial \mathcal Z_1^{(t-1)}}{\partial \mathcal W_{x^{(t-1)} \Rightarrow h^{(t-1)}}} \\ & = (\mathcal O^{(t+1)} - y^{(t+1)}) \cdot \mathcal W_{h^{(t+1)} \Rightarrow \mathcal O^{(t+1)}} \cdot \left\{\prod_{k=t}^{t+1} \text{Diag} \left[1 - \text{Tanh}^2(\mathcal Z_1^{(k)})\right] \cdot \mathcal W_{h^{(k-1)} \Rightarrow h^{(k)}}\right\} \cdot \text{Diag}\left[1 - \text{Tanh}^2(\mathcal Z_1^{(t-1)})\right] \cdot x^{(t-1)} \\ & = (\mathcal O^{(t+1)} - y^{(t+1)}) \cdot \mathcal W_{h^{(t+1)} \Rightarrow \mathcal O^{(t+1)}} \cdot \left\{\prod_{k=t-1}^{t+1} \text{Diag} \left[1 - \text{Tanh}^2(\mathcal Z_1^{(k)})\right]\right\}\cdot \left\{\prod_{k=t}^{t+1}\mathcal W_{h^{(k-1)} \Rightarrow h^{(k)}}\right\} \cdot x^{(t-1)} \end{aligned}$
这仅仅是两个时刻长度的梯度描述。更泛化的情况呢 $?$ 例如想要将 $\mathcal T$ 时刻的损失信息 $\mathcal L^{(\mathcal T)}$ 通过梯度传递给 $\mathcal W_{x^{(1)}\Rightarrow h^{(1)}}$ ，关于梯度 $\begin{aligned}\frac{\partial \mathcal L^{(\mathcal T)}}{\partial \mathcal W_{x^{(1)} \Rightarrow h^{(1)}}} \end{aligned}$ 可表示为：
$\begin{aligned}\frac{\partial \mathcal L^{(\mathcal T)}}{\partial \mathcal W_{x^{(1)} \Rightarrow h^{(1)}}} & = (\mathcal O^{(\mathcal T)} - y^{(\mathcal T)}) \cdot \mathcal W_{h^{(\mathcal T)} \Rightarrow \mathcal O^{(\mathcal T)}} \cdot \left\{\prod_{k=1}^{\mathcal T} \text{Diag}\left[1 - \text{Tanh}^2(\mathcal Z_1^{(k)})\right]\right\} \cdot \left\{\prod_{k=2}^{\mathcal T} \mathcal W_{h^{(k-1)} \Rightarrow h^{(k)}}\right\} \cdot x^{(1)} \end{aligned}$

$\text{RNN}$ 反向传播的梯度消失问题

上述梯度仅仅描述了 $\mathcal L^{(\mathcal T)}$ 对 $\mathcal W_{x^{(1)} \Rightarrow h^{(1)}}$ 的梯度信息，实际上，除去初始时刻，其他时刻的输出都会向 $\mathcal W_{x^{(1)} \Rightarrow h^{(1)}}$ 传递梯度信息。
观察上式，其中 $\begin{aligned}\prod_{k=2}^{\mathcal T} \mathcal W_{h^{(k-1)} \Rightarrow h^{(k)}}\end{aligned}$ 就是各时刻隐变量权重的累积结果。

由于损失函数使用的交叉熵，因此使用梯度下降法对各权重进行更新，这导致 $\mathcal W_{h^{(k-1)}\Rightarrow h^{(k)}}(k=2,\cdots,\mathcal T)$ 结果逐渐趋近于零。最终导致梯度结果 $\begin{aligned}\frac{\partial \mathcal L^{(\mathcal T)}}{\partial \mathcal W_{x^{(1)} \Rightarrow h^{(1)}}} \end{aligned}$ 随着各时刻权重更新几乎不发生变化，即梯度消失现象。

从物理意义的角度观察，随着序列长度的增加，对序列初始位置的信息出现忘却的现象。因为参数更新过程中梯度仅能有效传递到之前若干个时刻。这导致无法捕捉长期关联或者依赖关系。
这个问题也被称作‘长期依赖问题’。

长短期记忆神经网络

针对循环神经网络的长期依赖问题， $\text{LSTM}$ 给出了解决方式。从思想的角度观察，它与循环神经网络没有本质区别，依然是对各时刻隐变量 $h_t(t=1,2,\cdots,\mathcal T)$ 的后验分布以及对应下一时刻输入的后验分布进行交替求解：
$\begin{cases} \mathcal P(h_t \mid h_{t-1},x_{t-1}) = \mathcal P [h_t \mid f(h_{t-1},x_{t-1};\lambda)] \\ \mathcal P(x_t \mid h_{t},x_{t-1}) = \mathcal P [x_t \mid f(h_t,x_{t-1};\eta)] \end{cases}$
不同于 $\text{RNN}$ 的神经网络构建， $\text{LSTM}$ 对各单元的输出进行了限制，从而避免出现梯度消失现象。 $\text{LSTM}$ 的结构展开图表示如下：
Lstm结构展开图
可以看出， $\text{LSTM}$ 单元结构与循环神经网络是相似的。每个单元均包含 $x^{(t)},h^{(t)}$ ；不同点在于， $\text{LSTM}$ 内增加了一个新的变量——细胞状态 $(\text{Cell State})\mathcal C^{(t)}$ 。

从图中可以看出，在每一个 $\text{LSTM}$ 单元中， $\mathcal C^{(t)}$ 不仅全程陪跑，并且还对当前时刻隐变量输出 $h^{(t)}$ 存在紧密关联。下面从 $\text{LSTM}$ 单元中的各结构进行介绍。

遗忘门结构

遗忘门结构
被称作遗忘门 $(\text{Forget Gate})$ 的神经元结构，其输入包含两个部分：当前时刻 $t$ 的输入信息 $x^{(t)}$ ，以及 $t$ 时刻之前的序列信息 $h^{(t-1)}$ ；由于 $\sigma = \text{Sigmoid}$ 激活函数的原因，其输出 $f^{(t)}$ 是一个各元素值均 $\in (0,1)$ 的向量结果。对应公式表示如下：
正常写法是 $f_t = \sigma(\mathcal W_f \cdot [h^{(t-1)},x^{(t)}] + b_f)$ ,其将 $h^{(t-1)},x^{(t)}$ 进行拼接，使用一个权重矩阵 $\mathcal W_f$ 进行表示。这里仅是为了与上面格式相同，下同。
$f^{(t)} = \sigma \left[\mathcal W_{h^{(t-1)} \Rightarrow f^{(t)}} \cdot h^{(t-1)} + \mathcal W_{x^{(t)} \Rightarrow f^{(t)} }\cdot x^{(t)} + b_f\right]$
我们可以将 $f^{(t)}$ 理解成比率，即各分量保留下来(不被遗忘)的比率。

输入门结构

输入门结构
被称作输入门 $(\text{Input Gate})$ 的结构，包含了两个神经元，并且这两个神经元的输入是相同的： $x^{(t)},h^{(t-1)}$

第一个神经元的激活函数是 $\text{Tanh}$ ，该格式与循环神经网络中的 $h^{(t)}$ 的描述相同，即当前 $t$ 时刻，单元内的序列信息。记作候选信息 $\widetilde{\mathcal C}^{(t)}$ ：
$\widetilde{\mathcal C}^{(t)} = \text{Tanh} \left[\mathcal W_{h^{(t-1)} \Rightarrow \widetilde{\mathcal C}^{(t)}} \cdot h^{(t-1)} + \mathcal W_{x^{(t)} \Rightarrow \widetilde{\mathcal C}^{(t)}} \cdot x^{(t)} + b_{\widetilde{\mathcal C}}\right]$
另一个神经元的激活函数是 $\text{Sigmoid}$ ，它与遗忘门结构的思想完全相同。只不过该神经元针对的对象是候选信息 $\widetilde{\mathcal C}^{(t)}$ ，而遗忘门针对的对象是过去时刻累积的状态信息 $\mathcal C^{(t-1)}$ ：
$i^{(t)} = \sigma \left[\mathcal W_{h^{(t-1)} \Rightarrow i^{(t)}} \cdot h^{(t-1)} + \mathcal W_{x^{(t)} \Rightarrow i^{(t)}} \cdot x^{(t)} + b_i\right]$

遗忘门与输入门的特征融合操作

遗忘门输入门特征融合
将 $t$ 时刻输入门结构中的更新比率 $i^{(t)}$ 与对应的候选信息 $\widetilde{\mathcal C}^{(t)}$ 做点积 $i^{(t)} * \widetilde{\mathcal C}^{(t)}$ ，表示：当前 $t$ 时刻能够被保留下来的候选信息；同理，遗忘门结构的遗忘比率 $f^{(t)}$ 与 $\mathcal C^{(t-1)}$ 做点积 $f^{(t)} * \mathcal C^{(t-1)}$ ，表示能够保留下来的过去 $t - 1$ 时刻的累积信息。

将两种信息融合，得到：从初始时刻到 $t$ 时刻保留下来的累积信息 $\mathcal C^{(t)}$ ：
$\mathcal C^{(t)} = f^{(t)} * \mathcal C^{(t-1)} + i^{(t)} * \widetilde{\mathcal C}^{(t)}$

输出门结构

输出门结构
被称作输出门 $(\text{Output Gate})$ 的结构，包含一个神经元和一个 $\text{Tanh}$ 激活函数：

对于激活函数 $\text{Tanh}$ ，它的输入部分是融合特征 $\mathcal C^{(t)}$ 。 $\text{Tanh}$ 函数的一个主要作用是： $\mathcal C^{(t)}$ 种贸然将两类特征融合，势必会使特征分布发生变化。而 $\text{Tanh}$ 激活函数在不破坏恒等映射分布的情况下，最大程度的将偏离的分布拉回来。
$\text{Tanh}$ 激活函数不仅映射值域较广 $(- 1, 1)$ ,并且该函数在 $0$ 附近的结果趋近于 $y = x$ ,这是一个优秀的性质。
关于恒等映射分布与激活函数的底层逻辑，详见数值稳定性、模型初始化与激活函数
$\text{Tanh}(\mathcal C^{(t)})$
另一个神经元的激活函数是 $\text{Sigmoid}$ ，它与遗忘门、输入门结构的思想完全相同。也就是说：即便是融合后，并将分布还原后的特征信息，同样需要挑选出需要保留的信息，并作为下一时刻的隐状态输出 $h^{(t)}$ ，而未经过 $\text{Tanh}$ 映射的融合特征 $\mathcal C^{(t)}$ ，继续陪跑，作为下一时刻的过去时刻累积状态：
$\begin{cases} o^{(t)} = \sigma(\mathcal W_{h^{(t-1)} \Rightarrow o^{(t)}} \cdot h^{(t-1)} + \mathcal W_{x^{(t)} \Rightarrow o^{(t)}} \cdot x^{(t)} + b_o) \\ h^{(t)} = o^{(t)} * \text{Tanh}(\mathcal C^{(t)}) \end{cases}$

个人感悟

之前在其他的模型中，我们更多的是对随机变量的后验进行推断(观测变量、隐变量)。而这里的 $f^{(t)},i^{(t)},o^{(t)}$ ，我们人为给他们赋予的物理意义是一个比率，更泛化地说，它们都是约束序列信息的一种权重。而这种权重还被其他权重约束着。例如：
$\underbrace{o^{(t)}}_{一种权重} = \sigma \left(\underbrace{\mathcal W_{h^{(t-1)} \Rightarrow o^{(t)}}}_{约束权重o^{(t)}的权重} \cdot h^{(t-1)} + \underbrace{\mathcal W_{x^{(t)} \Rightarrow o^{(t)}}}_{约束权重o^{(t)}的权重} \cdot x^{(t)} + b_o \right)$
并能够执行用其执行运算。这种嵌套是个很奇特的感受。
它们的本质也是隐变量，但它们能够与其他隐变量执行运算。