Transformer教程之循环神经网络（RNN）和长短期记忆网络（LSTM）

news2026/3/20 3:48:56

在当今人工智能和深度学习的世界中，Transformer模型已经成为了主流。然而，回顾过去，循环神经网络（RNN）和长短期记忆网络（LSTM）在序列数据处理上也曾风靡一时。本文将详细讲解RNN和LSTM的原理、应用场景及其在深度学习领域中的重要性。

一、循环神经网络（RNN）

1.1 RNN的基本概念

循环神经网络（RNN, Recurrent Neural Network）是一种专门处理序列数据的神经网络。与传统的前馈神经网络不同，RNN具有“记忆”功能，可以记住之前的输入信息，并将这些信息应用到当前的输出中。这使得RNN在处理时间序列数据、自然语言处理（NLP）等任务中具有明显优势。

1.2 RNN的工作原理

RNN通过隐藏层的循环连接将前一个时刻的隐藏状态传递到当前时刻。具体来说，在每一个时间步，RNN会接收一个输入值和前一个时间步的隐藏状态，然后生成当前时间步的隐藏状态和输出值。公式如下：

ℎ𝑡=𝜎(𝑊ℎ𝑥𝑥𝑡+𝑊ℎℎℎ𝑡−1+𝑏ℎ)

ht=σ(Whxxt+Whhht−1+bh)

yt=σ(Whyht+by)

其中，ℎ𝑡是当前时刻的隐藏状态，𝑥𝑡是当前时刻的输入，𝑊ℎ𝑥、𝑊ℎℎ、𝑊ℎ𝑦分别是权重矩阵，𝑏ℎ、𝑏𝑦是偏置项，𝜎是激活函数。

1.3 RNN的局限性

尽管RNN在处理序列数据方面具有独特优势，但它也存在一些显著的缺陷：

梯度消失和梯度爆炸：RNN在处理长序列时，会出现梯度消失或梯度爆炸的问题，这使得网络难以学习和记住长时间跨度的信息。
长期依赖问题：RNN在记住长时间序列依赖关系时表现不佳，容易遗忘较早的输入信息。

二、长短期记忆网络（LSTM）

2.1 LSTM的基本概念

为了克服RNN的上述局限性，Hochreiter和Schmidhuber在1997年提出了长短期记忆网络（LSTM, Long Short-Term Memory）。LSTM通过引入“门”机制，有效解决了RNN的梯度消失和梯度爆炸问题，并能够更好地捕捉长时间依赖关系。

2.2 LSTM的工作原理

LSTM的核心在于其特殊的单元结构，包括输入门、遗忘门和输出门。这些门通过控制信息的流动，来实现对信息的选择性记忆和遗忘。具体来说，LSTM单元的计算过程如下：

遗忘门（Forget Gate）：决定哪些信息需要遗忘。
𝑓𝑡=𝜎(𝑊𝑓⋅[ℎ𝑡−1,𝑥𝑡]+𝑏𝑓)ft=σ(Wf⋅[ht−1,xt]+bf)
输入门（Input Gate）：决定哪些新的信息需要存储。
𝑖𝑡=𝜎(𝑊𝑖⋅[ℎ𝑡−1,𝑥𝑡]+𝑏𝑖)it=σ(Wi⋅[ht−1,xt]+bi)
同时生成新的候选记忆。
𝐶~𝑡=tanh⁡(𝑊𝐶⋅[ℎ𝑡−1,𝑥𝑡]+𝑏𝐶)C~t=tanh(WC⋅[ht−1,xt]+bC)
更新细胞状态（Cell State）：结合遗忘门和输入门来更新细胞状态。
𝐶𝑡=𝑓𝑡∗𝐶𝑡−1+𝑖𝑡∗𝐶~𝑡Ct=ft∗Ct−1+it∗C~t
输出门（Output Gate）：决定当前时刻的输出。
𝑜𝑡=𝜎(𝑊𝑜⋅[ℎ𝑡−1,𝑥𝑡]+𝑏𝑜)ot=σ(Wo⋅[ht−1,xt]+bo)
计算当前的隐藏状态。
ℎ𝑡=𝑜𝑡∗tanh⁡(𝐶𝑡)ht=ot∗tanh(Ct)