rnn/lstm

tip：本人比较小白，看到july大佬的文章受益匪浅，现在其文章基础上加上自己的归纳、理解，以及gpt的答疑，如果有侵权会删。 july大佬文章来源：如何从RNN起步，一步一步通俗理解LSTM_rnn lstm-CSDN博客

-------------------------------------------------------------------------------------------------------------------

1.RNN

1.1 从单层网络到经典的RNN结构

在学习LSTM之前，得先学习RNN，而在学习RNN之前，首先要了解一下最基本的单层网络，它的结构如下图所示：

输入是x，经过变换Wx+b和激活函数f，得到输出y。相信大家对这个已经非常熟悉了。

在实际应用中，我们还会遇到很多序列形的数据：

如：

1. 自然语言处理问题。x1可以看做是第一个单词，x2可以看做是第二个单词，依次类推
2. 语音处理。此时，x1、x2、x3……是每帧的声音信号。
3. 时间序列问题。例如每天的股票价格等等

而其中，序列形的数据就不太好用原始的神经网络处理了。

为了建模序列问题，RNN引入了隐状态h（hidden state）的概念，隐状态h可以对序列形的数据提取特征，接着再转换为输出。

--------------------------------------------------------------------------------------------------------------------

1.2 由x到h

先从h的计算开始看：

图示中记号的含义是：

a）圆圈或方块表示的是向量。
b）一个箭头就表示对该向量做一次变换。如上图中 $h_{0}$ 和 $x_{1}$ 分别有一个箭头连接，就表示对 $h_{0}$ 和 $x_{1}$ 各做了一次变换

说白了， $h_1$ 基于上一个隐藏层的状态 $h_{0}$ 和当前的输入 $x_{1}$ 计算得来，且提前说一嘴，泛化到任一时刻，便是 $h_{t}=f\left(W h_{t-1}+U x_{t}\right)$ ，而这里的 $f$ 一般是tanh、sigmoid、ReLU等非线性的激活函数。

$\rightarrow$ 且在实践中， $h_t$ 一般只包含前面若干步而非之前所有步的隐藏状态

在 RNN 模型（或者神经网络模型）中，权重矩阵W和偏置向量 b初始时一般是随机生成的。（在之后不断训练）

（即上面的U、W、b参数）

在计算时，每一步使用的参数U、W、b都是一样的，也就是说每个步骤的参数都是共享的，这是RNN的重要特点，一定要牢记；
而下文马上要看到的LSTM中的权值则不共享，因为它是在两个不同的向量中。而RNN的权值为何共享呢？很简单，因为RNN的权值是在同一个向量中，只是不同时刻而已。

依次计算剩下来的（使用相同的参数U、W、b）：

我们这里为了方便起见，只画出序列长度为4的情况，实际上，这个计算过程可以无限地持续下去。

------------------------------------------------------------------------------------------------------------------------------

1.3 tip: 为什么要用到激活函数？

如果没有激活函数，那么公式就是一个线性映射：

对于序列数据的多个时间步，如果在每一层计算时都没有激活函数，输出将是输入的线性组合。最终，整个 RNN 变成一个线性模型，即：

这里的W是个向量。

这是一个简单的线性变换，无法捕捉复杂的非线性关系，而我们通常需要通过神经网络处理非线性问题。

序列数据（如自然语言、时间序列）中的依赖关系往往是复杂且非线性的。激活函数（如 Tanh 或 ReLU）能够让神经网络捕捉这些非线性模式，使得模型能够学习复杂的时间依赖关系。
Tanh 或 Sigmoid 是常见的激活函数，用于控制隐藏状态的更新。Tanh 的输出范围是 [-1, 1]，能够有效捕捉输入数据的正负变化；Sigmoid 的输出范围是[0,1]，适合用于门控机制。

---------------------------------------------------------------------------------------------------------------------------------

1.4 由h到y

我们目前的RNN还没有输出，得到输出值的方法就是直接通过h进行计算。

这里从h到y又有不同的说法了，即是否也选择激活函数，比如上面出现了softmax函数。

在 RNN 的每一个时间步t，我们有一个隐藏状态 ht，它保存了当前时间步的特征表示。在这个时间步中，我们希望将隐藏状态映射为一个输出 yt。

分类任务：预测某个类别（如情感分析）。
回归任务：预测数值（如股价、温度）。
语言模型：预测下一个单词。

核心公式如下：

根据任务的不同，我们会选择不同的激活函数f：

分类任务（如多分类的文本分类）：

使用 Softmax 激活函数，将输出变为概率分布。

其中。Softmax 确保所有输出值都在 0 到 1之间，并且所有类别的概率和为 1。

举个例子：

2. 二分类任务（如情感分析：积极 vs 消极）：

使用 Sigmoid 激活函数，将输出限制在 0 到 1 之间，表示属于某一类别的概率。

3. 回归任务（如股价预测、温度预测）：

不需要激活函数，直接使用线性输出：

----------------------------------------------------------------------------------------------------------------------

1.5 RNN 的正向传播

这里先从x到h，再从h到y，总体来看是x到y，这个步骤就是rnn的正向传播。

而总的来说，在 RNN 中输入和输出的序列长度不需要相同。具体情况要看任务需求，可以是一对一、多对多、一对多 或 多对一 等多种形式。每一种模式都有其适用的场景和特点。

除了刚才图上面的多对多相互对应的情况（相当于即时反馈），还有其他常见的场景。比如下面一对多和多对一：

以及序列长度不同的多对多：

1.6 RNN 的训练：反向传播算法

RNN 的训练与普通神经网络类似，也是通过梯度下降法来优化参数。但由于 RNN 的参数在每个时间步共享，因此要用一种特殊的算法，叫做 BPTT（Backpropagation Through Time，时间反向传播算法）。

上面的W是向量。反向传播和正向传播是对应的，正向传播从头到尾得到返回值y，反向传播则从末尾到开头连续修正相应参数。

---------------------------------------------------------------------------------------------------------------------------

1.7 正向与反向传播的关系

单次正向传播：给定一个输入序列 x1,x2,…,xT，RNN 会从第一个时间步传递到最后一个时间步，得到输出序列 y1,y2,…,yT和损失值。
单次反向传播（BPTT）：从损失函数开始，从时间步 T 向前传播误差，依次传递回到时间步 1。这会更新每一层的参数。

整个训练过程中：RNN 需要多轮（epoch）训练，即对整个数据集多次进行正向和反向传播。

--------------------------------------------------------------------------------------------------------------------------

1.8 RNN 中的梯度消失与梯度爆炸问题

1. 梯度消失问题：

在反向传播（BPTT）过程中，误差需要沿时间轴逐步传播。由于每次传播都会涉及到链式求导，当激活函数（如 sigmoid 或 tanh）将输出限制在(0,1) 或 (−1,1)范围内时，梯度的值会越来越小。
经过多次时间步的传播后，远处时间步的梯度会指数级缩小，导致模型在更新参数时，无法有效调整靠前时间步的权重。这就是梯度消失。

2. 梯度爆炸问题：

这是指在某些情况下，梯度的值会变得非常大，导致模型参数更新不稳定甚至发散。
梯度爆炸通常出现在训练初期或权重初始化不当的情况下，但这不是图中所描述问题的主要原因。

解决方案：

梯度裁剪（Gradient Clipping）：将梯度限制在一个最大值范围内，防止梯度爆炸。
LSTM / GRU：引入门控机制来解决梯度消失问题。

梯度消失在实际例子上的体现（前部序列信息权重降低）：

在 RNN 中，隐藏状态ht会从前一时刻 ht-1 传递到下一时刻 ht+1。这种逐步传播的特点使得距离较远的时间步（例如 x1对应的状态）信息可能会在后面的时间步中变得越来越不重要。

梯度爆炸的例子倒是挺少见，反正就是梯度消失的相反面，由于某些不好的原因导致的梯度过于大，导致模型参数更新不稳定甚至发散。

2. LSTM

2.1 为什么要从rnn到lstm（解决梯度消失和梯度爆炸）

LSTM 通过引入细胞状态和门控机制（遗忘门、输入门和输出门），实现了信息的线性传递，避免了多次非线性激活导致的梯度消失。同时，遗忘门动态调节信息的保留与遗忘，避免无关信息的累积，减少梯度爆炸的风险。这种设计使得梯度在长时间步上传递时更加稳定，从而有效解决了 RNN 中的梯度消失和梯度爆炸问题，让模型能够捕捉长期依赖关系。

再具体一点：

LSTM 通过以下方式解决了 RNN 中的梯度消失和梯度爆炸问题：