LSTM（长短期记忆网络）的设计灵感和数学表达式

news2024/9/28 17:22:16

1、设计灵感

LSTM（长短期记忆网络）的设计灵感来源于传统的人工神经网络在处理序列数据时存在的问题，特别是梯度消失和梯度爆炸的问题。

在传统的RNN（循环神经网络）中，信息在网络中的传递是通过隐状态向量进行的。然而，在处理长序列数据时，由于反向传播过程中梯度的不断乘积，会导致梯度消失或梯度爆炸的问题，使得网络无法有效地学习到长期依赖关系。

为了解决这个问题，Hochreiter和Schmidhuber提出了LSTM网络。LSTM网络引入了“门”的概念，包括输入门、遗忘门和输出门，这些门可以控制信息在神经元之间的流动，并允许网络在需要的时候存储和更新长期记忆。

具体来说，LSTM网络中的每个单元包含一个细胞状态，该状态可以在时间步之间传递并被修改。输入门、遗忘门和输出门分别控制细胞状态的更新、清除和读取操作。通过这三个门的巧妙设计，LSTM网络能够在处理长序列数据时有效地避免梯度消失和梯度爆炸的问题，同时保留长期依赖关系的信息。

因此，LSTM的设计灵感主要来自于对传统RNN在处理序列数据时存在问题的深入理解和解决思路，以及对如何更好地模拟人类大脑处理序列信息机制的探索和创新。

2、数学表达式

下面我们来具体看看输入门、遗忘门和输出门以及记忆细胞元的数学表达式：

假设有 $h$ 个隐藏单元，批量大小为 $n$ ，输入数为 $d$ 。因此，输入为 $\textbf{X}_{t}\in \mathbb{R}^{n\times d}$ ，前一个时间步的隐状态为 $\textbf{H}_{t-1}\in \mathbb{R}^{n\times h}$ 。时间步 $t$ 的门被定义为：输入门 $\textbf{I}_{t}\in \mathbb{R}^{n\times h}$ ，遗忘门 $\textbf{F}_{t}\in \mathbb{R}^{n\times h}$ ，输出门 $\textbf{O}_{t}\in \mathbb{R}^{n\times h}$ 。各种门的计算方法如下：

$\textbf{I}_{t}=\sigma \left ( \mathbf{X}_{t}\mathbf{W}_{xi}+\mathbf{H}_{t-1}\mathbf{W}_{hi}+\mathbf{b}_{i} \right )$

$\textbf{F}_{t}=\sigma \left ( \mathbf{X}_{t}\mathbf{W}_{xf}+\mathbf{H}_{t-1}\mathbf{W}_{hf}+\mathbf{b}_{f} \right )$

$\textbf{O}_{t}=\sigma \left ( \mathbf{X}_{t}\mathbf{W}_{xo}+\mathbf{H}_{t-1}\mathbf{W}_{ho}+\mathbf{b}_{o} \right )$

其中， $\textbf{W}_{xi},\textbf{W}_{xf},\textbf{W}_{xo}\in \mathbb{R}^{d\times h}$ 和 $\textbf{W}_{hi},\textbf{W}_{hf},\textbf{W}_{ho}\in \mathbb{R}^{h\times h}$ 是权重参数， $\textbf{b}_{i},\textbf{b}_{f},\textbf{b}_{o}\in \mathbb{R}^{1\times h}$ 是偏置参数。

候选记忆细胞元 $\widetilde{\textbf{C}}_{t}\in \mathbb{R}^{n\times h}$ 的计算表达式为：

$\widetilde{\textbf{C}}_{t}=tanh \left ( \mathbf{X}_{t}\mathbf{W}_{xc}+\mathbf{H}_{t-1}\mathbf{W}_{hc}+\mathbf{b}_{c} \right )$

其中， $\textbf{W}_{xc}\in \mathbb{R}^{d\times h}$ 和 $\textbf{W}_{hc}\in \mathbb{R}^{h\times h}$ 是权重参数， $\textbf{b}_{c}\in \mathbb{R}^{1\times h}$ 是偏置参数。

记忆元细胞 $\textbf{C}_{t}\in \mathbb{R}^{n\times h}$ 的计算表达式为：

$\textbf{C}_{t}=\textbf{F}_{t}\bigodot \textbf{C}_{t-1}+\textbf{I}_{t}\bigodot\widetilde{\textbf{C}}_{t}$ 。

在上述设计中，输入门 $\textbf{I}_{t}$ 控制采用多少来自 $\widetilde{\textbf{C}}_{t}$ 的新数据，而遗忘门 $\textbf{F}_{t}$ 控制保留多少过去的记忆元 $\textbf{C}_{t-1}\in\mathbb{R}^{n\times h}$ 的内容。