长短 期 记 忆 网 络 ( long short term memory, LSTM) [11-12]作为一种特殊的循环神经网络( recurrent neural network,RNN) ,主要用于解决长序列训 练过程中的梯度消失和梯度爆炸问题。典型的 LSTM 结构如图 2 所示。 图 2 典型 LSTM 结构 Fig. 2 Typical LSTM structure 图 2 中,ct、ct - 1分别为细胞在 t 和 t - 1 时刻的 状态,ht、ht - 1分别为细胞在 t 和 t - 1 时刻的输出,xt 为 t 时刻细胞的输入,ft 为细胞经过遗忘门后的输 出变量,it 为细胞经过输入门后的输出变量,Ct ~ 为 细胞经过 tanh 函数后的输出变量,ot 表示细胞经过 激活函数后的输出变量,LSTM 的输入 x = { x1, x2,…,xT } ,输出 h = { h1,h2,…,hT } ,记忆细胞状态 c = { c1,c2,…,cT } 承担记忆历史信息的功能。其预 测过程主要包括: 遗忘阶段,选择记忆阶段和输出 阶段。遗忘阶段主要是对上一个节点传过来的信息进行选择性剔除,通过读取上一节点的输出状态 ht-1 和本节点的输出状态 xt ,由激活函数决定上一 时刻细胞状态信息被遗忘的比例; 选择记忆阶段是 对输入的信息有选择性的进行筛选,将重要的信息 挑选出来输入到当前细胞。选择记忆阶段主要包 括两个步骤: 第一步是输入层的激活函数决定哪些 信息需要更新,tanh 层生成一个备选的更新内容 C ~ t ,然后接下来是更新细胞状态。根据遗忘阶段的 输出状态和备选更新的细胞状态来得到当前细胞 的状态; 输出阶段将会利用激活函数决定输出细胞 状态的比例,然后将经过 tanh 层处理的细胞状态与 输出的细胞状态相乘得到最终的输出结果。