深度学习笔记（6）——循环神经网络RNN

news2025/4/16 18:27:45

循环神经网络

RNN

核心思想:RNN内部有一个“内部状态”,随着序列处理而更新 $h_t=f_W(h_{t-1},x_t)$
一般来说 $h_t=tanh(W_{hh}h_{t-1}+W_{xh}x_t)$
$h_t$ 是new state, $h_{t-1}$ 是old state, $x_t$ 是当前时间步的输入,所有时间步共享 $f_W$ 这个函数和参数
$y_t=W_{hy}(h_t)$ 是当前时间步的输出

分块损失计算:计算所有时间步的前向传播,但只在每时间块内进行反向传播

RNN:
RNN的各种输出
one-to-many:两种情况:

x作为输入就最开始的一次,输出为 $y_1,y_2...$
x作为输入多次,每轮都有x作为输入,输出为 $y_1,y_2...$

many-to-many:两种情况:

输入、输出都是等长的序列数据。每一步使用的参数U、W、b都是一样的,也就是说每个步骤的参数都是共享的,这是RNN的重要特点,一定要牢记。
输入输出不等长: encoder-decoder结构,Encoder先将输入数据编码成一个上下文语义向量c，语义向量c可以有多种表达方式，最简单的方法就是把Encoder的最后一个隐状态赋值给c，还可以对最后的隐状态做一个变换得到c，也可以对所有的隐状态做变换。拿到c之后，就用另一个RNN网络对其进行解码，这部分RNN网络被称为Decoder

RNN优势:

可以处理任意长度的序列
步骤t的计算(理论上)可以使用之前许多步骤的信息
输入时间越长,模型尺寸就越大
每个时间步都使用了相同的权重

RNN缺点:

循环计算速度慢
在实践中,很难从多个步骤中获取信息(遗忘)

多层RNN

将许多RNN层堆叠，构成一个多层RNN网络。
在这里插入图片描述
RNN中会遇到梯度消失和梯度爆炸问题：

最大奇异值大于1：梯度爆炸 $\rightarrow$ 梯度裁剪
最大奇异值小于1：梯度消失 $\rightarrow$ 改进RNN结构

LSTM

LSTM引入了三个门( 输入门、遗忘门、输出门)和一个细胞状态(cell state)
在这里插入图片描述
LSTM可以在一定程度上解决梯度消失和梯度爆炸的问题,但不是完全解决
LSTM架构使RNN更容易在多个时间步长内保存信息
LSTM的连乘是 $C_t$ 对 $C_{t-1}$ 的偏导的不断累乘,如果前后的记忆差别不大,那偏导的值就是1,那就是多个1相乘。当然,也可能出现某一一些偏导的值很大,但是一定不会很多(换句话说,一句话的前后没有逻辑,那完全没有训练的必要)。
LSTM使用 $tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}$ 函数,而不用Sigmoid函数的原因: