1 RNN 的结构

首先考虑这样一个 slot filling 问题：

注意到，上图中 Taipei 的输出为 destination。如果我们只是单纯地将每个词向量输入到一个神经网络中，那么对于"leave Taipei on …" 这句话，模型对 Taipei 的输出也会是 destination，但我们希望它是 departure。要实现这一目的，必须要引入当前向量与上下文的关系，于是就有了循环神经网络（RNN）：

注意到，RNN 与一般的神经网络的主要区别在与将隐层的上一次输出保存并作为本次的输入，即：
$\begin{align} O_t&=g(V\cdot S_t)\notag\\ S_t&=f(U\cdot X_t+W\cdot S_{t-1})\notag \end{align}$

矩阵 $U, W, V$ 即为 RNN 的参数，与 $t$ 无关。

引入时间这一维度，RNN 可以表示为如下结构：

如果采用双向 RNN ，则每个向量都可以充分地考虑到上下文。

2 RNN 的梯度消失与梯度爆炸

考虑这样一个简单的 RNN 结构：

假设神经元没有激活函数（激活函数的导数一般是恒 $< 1$ 的），则有：
$\begin{align} S_1&=W_xX_1+W_sS_0+b_1\quad&O_1=W_oS_1+b_2\notag\\ S_2&=W_xX_2+W_sS_1+b_1\quad&O_2=W_oS_2+b_2\notag\\ S_3&=W_xX_3+W_sS_2+b_1\quad&O_3=W_oS_3+b_2\notag\\ \end{align}$
设 $t_3$ 时刻的损失函数为 $L_3$ ，则有：
$\begin{align} \frac{\partial L_3}{\partial W_o}&=\frac{\partial L_3}{\partial O_3}\frac{\partial O_3}{\partial W_o}\notag\\ \frac{\partial L_3}{\partial W_x}&=\frac{\partial L_3}{\partial O_3}\frac{\partial O_3}{\partial S_3}\bigg(X_3+W_s\Big(X_2+W_sX_1\Big)\bigg)\notag\\ \frac{\partial L_3}{\partial W_s}&=\frac{\partial L_3}{\partial O_3}\frac{\partial O_3}{\partial S_3}\bigg(S_2+W_s\Big(S_1+W_sS_0\Big)\bigg)\notag\\ \end{align}$

这部分的公式和参考资料里的不太一样，但我感觉参考资料里的公式不太严格吧？

所以，任意时刻损失函数对 $W_x,W_s$ 的偏导为：
$\begin{align} \frac{\partial L_t}{\partial W_x}&=\frac{\partial L_3}{\partial O_3}\frac{\partial O_3}{\partial S_3}\sum\limits_{k=1}^{t}W_s^{t-k}X_k\notag\\ \frac{\partial L_t}{\partial W_s}&=\frac{\partial L_3}{\partial O_3}\frac{\partial O_3}{\partial S_3}\sum\limits_{k=1}^{t}W_s^{t-k}S_{k-1}\notag\\ \end{align}$
当 $W_s\in(0,1)$ 时，损失函数对 $W_x,W_s$ 的偏导会逐渐“遗忘”距离较远的梯度，所以模型很难学习到距离较远的依赖关系。