长短记忆神经网络（LSTM，Long Short-Term Memory）

news2025/2/21 23:58:08

长短记忆神经网络定义

长短记忆神经网络（Long-short term memory, LSTM）是一种特殊的RNN结构。该神经网络可以有效保留历史信息，实现对文本的长期依赖信息进行学习。

关键问题：控制长期状态信息

解决方法：门控开关

门的定义：使用门（Gate）实现对图1中开关的控制。所谓的门，即全连接层的一个神经元，如图2所示。门的激活有两种形式： $s i g m o d$ 和 $t anh$

门控实现：LSTM网络由输入门 $\ gate)$ 、遗忘门 $\ gate)$ 、输出门 $\ gate)$ 和一个记忆单元 $(ce ll)$ 来实现历史信息的更新和保留，如图3所示。

门限开关控制
遗忘门 $f_t$ ：决定保留多少上一时刻单元状态信息 $c_{t - 1}$ 到当前时刻的记忆单元 $c_{t}$ 中。
${f_t} = sigmoid\left( {{W_f} \cdot \left[ {{a_{t - 1}},{x_t}} \right] + {b_f}} \right).$
输入门 $i_t$ ：决定保留多少当前时刻的输入信息 $x_t$ 到当前时刻的记忆单元 $c_{t}$ 中。
${i_t} = sigmoid\left( {{W_i} \cdot \left[ {{a_{t - 1}},{x_t}} \right] + {b_i}} \right).$
输出门 ${o_{t}}$ ：决定控制多少当前时刻的记忆单元 $c_{t}$ 的输出值 ${o_t}$ 。
${o_t} = sigmoid\left( {{W_o} \cdot \left[ {{a_{t - 1}},{x_t}} \right] + {b_o}} \right).$
状态更新
当前时刻 $ce ll$ 候选状态值 ${c_{in}}$ （中间状态）：
${c_{in}} = \tanh \left( {{W_c} \cdot \left[ {{a_{t - 1}},{x_t}} \right] + {b_c}} \right).$
当前时刻长期状态值 ${c_t}$ 更新：
${c_t} = {f_t} \cdot {c_{t-1}} + {i_t} \cdot {c_{in}}.$
当前时刻输出值
当前时刻LSTM单元的输出值 ${a_{t}}$ 。
${a_t} = {o_t} \cdot \tanh \left( {{c_t}} \right).$