【课程总结】Day17（中）：LSTM及GRU模型简介

news2025/2/25 0:28:32

前言

在上一章【课程总结】Day17(上)：NLP自然语言处理及RNN网络我们初步了解RNN的基本概念和原理。本章内容，我们将继续了解RNN的变种模型，如LSTM和GRU。

RNN发展历史

早期发展

1980年代：RNN 的概念最早由 David Rumelhart 和 Geoffrey Hinton 提出。早期的 RNN 结构相对简单，主要用于字符级别的序列处理。
1986年：Rumelhart 等人提出的反向传播算法（Backpropagation Through Time, BPTT）使得 RNN 的训练变得可行。

问题与挑战

1990年代：随着 RNN 的应用增多，研究人员发现传统 RNN 在处理长序列时面临梯度消失和梯度爆炸的问题，限制了其在实际应用中的有效性。

LSTM 和 GRU 的提出

1997年：Sepp Hochreiter 和 Jürgen Schmidhuber 提出了长短期记忆网络（LSTM），引入了门控机制，有效解决了传统 RNN 的梯度消失问题。
2014年：门控循环单元（GRU）被提出，作为 LSTM 的简化版本，进一步提高了 RNN 的性能和训练效率。

Transformer 的出现

2017年：Vaswani 等人提出了 Transformer 模型，完全基于自注意力机制，摆脱了 RNN 的结构限制。Transformer 能够并行处理序列数据，显著提高了训练速度和效率。

LSTM模型

LSTM模型介绍

长短期记忆网络（LSTM）是一种特殊类型的递归神经网络（RNN），旨在解决传统 RNN 在处理长序列时常见的梯度消失和梯度爆炸问题。LSTM 通过引入门控机制，能够有效地捕捉长期依赖关系。

LSTM模型结构

LSTM 单元主要由以下几个部分组成：

第一部分：遗忘门（Forget Gate）
- 作用：遗忘不想要的。输出在 0 到 1 之间的值，0 表示完全遗忘，1 表示完全保留。
第二部分：输入门（Input Gate）
- 作用：输出短期状态，决定当前输入 (x_t) 有多少信息被添加到单元状态中。
第三部分：输出门（Output Gate）
- 作用：决定当前单元状态 (C_t) 的多少信息将输出到隐状态。

LSTM的API使用

自动循环

# 创建模型
lstm = nn.LSTM(input_size=128, hidden_size=256)

# 定义输入(待处理信息)
X = torch.randn(13, 2, 128)
# 初始的长期状态
c0 = torch.zeros(1, 2, 256, dtype=torch.float32)
# 初始的短期状态
h0 = torch.zeros(1, 2, 256, dtype=torch.float32)

# 执行循环
out, (hn, cn) = lstm(X, (h0, c0))
out.shape, hn.shape, cn.shape
# 输出结果
# (torch.Size([13, 2, 256]), torch.Size([1, 2, 256]), torch.Size([1, 2, 256]))

手写循环

# 创建手动循环
lstm_cell = nn.LSTMCell(input_size=128, hidden_size=256)

# 定义输入(待处理信息)
X = torch.randn(13, 2, 128)
c0 = torch.zeros(2, 256, dtype=torch.float32)
h0 = torch.zeros(2, 256, dtype=torch.float32)

out = []
# 循环处理
for x in X:
    h0, c0 = lstm_cell(x, (h0, c0))
    out.append(h0)
# 将结果堆叠
out = torch.stack(out)
len(out), out.shape
# 输出结果
# (13, torch.Size([13, 2, 256]))

GRU模型

GRU模型介绍

门控循环单元（Gated Recurrent Unit, GRU）是一种改进的递归神经网络（RNN）架构，旨在解决传统 RNN 在处理长序列时遇到的梯度消失问题。GRU 于 2014 年由 Kyunghyun Cho 等人提出，作为 LSTM 的一种简化版本，具有更少的参数和更高的计算效率。

GRU模型结构

GRU 主要由以下两个门控机制组成：

更新门（Update Gate）
- 作用：决定当前隐状态 (h_t) 中保留多少前一个隐状态 (h_{t-1}) 的信息。
重置门（Reset Gate）
- 作用：决定在计算当前隐状态时，前一个隐状态的信息被遗忘的程度。

GRU的API使用

自动循环

# 创建模型
gru = nn.GRU(input_size=128, hidden_size=256)

# 定义输入(待处理信息)
X = torch.randn(13, 2, 128)
# 初始的短期状态
h0 = torch.zeros(1, 2, 256, dtype=torch.float32)

# 执行循环
output, hn = gru(X, h0)
output.shape, hn.shape
# 输出结果
# (torch.Size([13, 2, 256]), torch.Size([1, 2, 256]))

手写循环

gru_cell = nn.GRUCell(input_size=128, hidden_size=256)

X = torch.randn(13, 2, 128)
h0 = torch.zeros(2, 256, dtype=torch.float32)

out = []
for x in X:
    h0 = gru_cell(x, h0)
    out.append(h0)
out = torch.stack(out)
len(out), out.shape

RNN、LSTM、GRU 的优势与劣势

RNN优势与劣势

优势：

简单性：RNN 结构相对简单，易于理解和实现。
适合序列数据：RNN 能够处理任意长度的序列数据(例如：股票数据、销售数据、自然语言、语音信号等)，实现了统计机器学习 到 深度学习 的过渡。

劣势：

梯度消失与爆炸：传统 RNN 在处理长序列时，容易出现梯度消失或梯度爆炸的问题，导致训练困难。
训练时间较长：由于序列数据的特性，RNN 的训练时间通常较长，尤其是在长序列上。
并行化困难：RNN 的计算依赖于前一个时间步的输出，导致其在训练和推理时难以进行并行化，效率较低，无法有效利用硬件加速。

LSTM优势与劣势

优势：

解决梯度消失问题：通过引入遗忘门、输入门和输出门，有效缓解了梯度消失问题。
捕捉长距离依赖：能够更好地捕捉长距离依赖关系，适用于长序列数据。

劣势：

复杂性：结构较为复杂，参数较多，训练和调优的难度增加。
计算开销：由于门控机制的引入，计算成本较高，训练速度相对较慢。
过拟合风险：参数较多可能导致过拟合，尤其是在数据量不足的情况下。

GRU优势与劣势

优势：

简化结构：相较于 LSTM，GRU 只有两个门，结构更简单，参数更少。
高效训练：由于参数较少，训练速度通常更快，适合资源有限的环境。
良好性能：在许多任务中，GRU 的表现与 LSTM 相当，有时甚至更好。

劣势：

灵活性不足：虽然 GRU 在许多任务中表现良好，但在某些特定任务上，LSTM 可能会表现得更好。
可解释性问题：与其他深度学习模型一样，GRU 的内部机制较难以解释，可能导致模型的可解释性问题。

内容小结

LSTM 和 GRU 都是 RNN 的变种，它们都旨在解决传统 RNN 在处理长序列时遇到的梯度消失问题。
LSTM 通过引入遗忘门（Forget Gate）和输入门（Input Gate）来控制短期记忆和长期记忆，能够有效地捕捉长期依赖关系。
GRU 通过引入更新门（Update Gate）和重置门（Reset Gate）来控制短期记忆和长期记忆，能够有效地捕捉长期依赖关系。
LSTM 和 GRU 的API使用方式都较为相似，都是通过调用 nn.LSTM() 或 nn.GRU() 函数创建模型，他们与RNN类似都有自动循环和手写循环两种方式。
RNN的优势是简单，易于理解和实现；劣势是梯度消失和训练时间较长。
LSTM的优势是能够捕捉长距离依赖关系，缺点是参数较多，训练和调优的难度增加。
GRU的优势是简化结构，缺点是参数较多，训练和调优的难度增加。