07_GRU模型

news2025/4/22 22:02:14

GRU模型

双向GRU笔记:https://blog.csdn.net/weixin_44579176/article/details/146459952

概念

GRU（Gated Recurrent Unit）也称为门控循环单元，是一种改进版的RNN。与LSTM一样能够有效捕捉长序列之间的语义关联，通过引入两个"门"机制（重置门和更新门）来控制信息的流动，从而避免了传统RNN中的梯度消失问题，并减少了LSTM模型中的复杂性。

[^ 要点]:1.GRU同样是通过门机制来解决传统RNN中的梯度消失问题的 2.GRU相比于LSTM更为简洁,它只引入了两个门 :更新门（Update Gate）, 重置门（Reset Gate）

核心组件

重置门(Reset Gate)
- 作用: 决定如何将新的输入与之前的隐藏状态结合。
  - 当重置门值接近0时，表示当前时刻的输入几乎不依赖上一时刻的隐藏状态。
  - 当重置门值接近1时，表示当前时刻的输入几乎完全依赖上一时刻的隐藏状态。
- 公式(变体版本): $r_t = σ(W_r·[h_{t-1},x_t] + b_r)$
  - $r_t$ | 重置门值, $r_t ∈ (0,1)$
  - $W_r$ 和$ b_r$ | 重置门权值和偏置项
  - σ | sigmoid函数保证 $r_t$ 的输出值在 0 到 1之间
更新门(Update Gate)
- 作用: 决定多少之前的信息需要保留，多少新的信息需要更新。
  - 当更新门值接近0时，意味着网络只记住旧的隐藏状态，几乎没有新的信息。
  - 当更新门值接近1时，意味着网络更倾向于使用新的隐藏状态，记住当前输入的信息。
- 公式(变体版本): $z_t = σ(W_r·[h_{t-1},x_t] + b_z)$
  - $z_t$ | 更新门值, $z_t ∈ (0,1)$
  - $W_r$ 和$ b_r$ | 重置门权值和偏置项
  - σ | sigmoid函数保证 $z_t$ 的输出值在 0 到 1之间
候选隐藏状态(Candidate Hidden State)
- 作用: 捕捉当前时间步的信息，多少前一隐藏状态的信息被保留。
- 公式(变体版本): $ĥ_t = tanh(W_h · [r_t \odot h_{t-1} , x_t] + b_h)$
  - $ĥ_t$ | 候选隐藏状态值, $ĥ_t ∈ (-1,1)$
  - $W_h$ 和$ b_h$ | 候选隐藏状态的权重和偏置项
  - tanh| 双曲正切函数保证 $h_t$ 的输出值在 -1 到 1之间
  - $\odot$ | Hadamard Product

最终隐藏状态(Final Hidden State)

作用: 控制信息更新，传递长期依赖。
公式(变体版本): $h_t = (1-z_t) \odot h_{t-1} + z_t \odot ĥ_t$
- $h_t$ | 当前时间步的隐藏状态
- $z_t$ | 更新门的输出，控制新旧信息的比例
- $\odot$ | Hadamard Product

重置门与更新的对比

门控机制	核心功能	直观理解
重置门（Reset Gate）	控制历史信息对当前候选状态的影响：决定是否忽略部分或全部历史信息，从而生成新的候选隐藏状态。	“是否忘记过去，重新开始？”（例如：处理句子中的突变或新段落）
更新门（Update Gate）	控制新旧信息的融合比例：决定保留多少旧状态的信息，同时引入多少候选状态的新信息。	“保留多少旧记忆，吸收多少新知识？”（例如：维持长期依赖关系）

重置门作用举例:

input: [‘风’,‘可以’,‘吹起’,‘一大张’,‘白纸’,‘却’,‘无法’,‘吹走’,‘一只’,‘蝴蝶’,‘因为’,‘生命’,‘的’,‘力量’,‘在于’,‘不’,‘顺从’]

当处理到 ‘却’ 时,上文信息 : 风可以吹起一大张白纸
- 重置门值 : $r_t = 0.3$
  - 作用:忽略部分历史信息,弱化上文影响,为后续信息(无法吹走一只蝴蝶)腾出空间
- 更新门值 : $z_t = 0.8$
  - 作用: 表示保留更多候选隐藏状态(由于 $r_t$ 是一个较小的值,所以候选隐藏状态中新信息占比更大) 的信息
[^ 注]: 此时$ h_t $接近 $ ĥ_t$，隐藏状态被重置为“准备处理转折后的新逻辑”。
当处理到 ‘因为’ 时,上文信息 : 少部分的 "风可以吹起一大张白纸 " + 大部分的 “无法吹走蝴蝶”
- 重置门值 : $r_t = 0.8$
  - 作用:保留更多上文信息,以便与后续原因关联
- 更新门值 : $z_t = 0.5$
  - 作用: 平衡旧状态(上文结论) 和新状态(下文原因) ,逐步构建完整的逻辑链

内部结构

在这里插入图片描述

GRU的更新门和重置门结构图

在这里插入图片描述

Pytorch实现

nn.GRU(input_size, hidden_size, num_layers, bidirectional, batch_first, dropout)

[^ input_size ]:输入特征的维度
[^ hidden_size ]:隐藏状态的维度
[^ num_layers ]:GRU的层数（默认值为1）
[^ batch_first ]:如果为True，输入和输出的形状为 (batch_size, seq_len, input_size)；否则为 (seq_len, batch_size, input_size)
[^ bidirectional ]:如果为True，使用双向GRU；否则为单向GRU（默认False）
[^ dropout ]:在多层GRU中，是否在层之间应用dropout（默认值为0）

使用示例

# 定义GRU的参数含义: (input_size, hidden_size, num_layers)
# 定义输入张量的参数含义: (sequence_length, batch_size, input_size)
# 定义隐藏层初始张量的参数含义: (num_layers * num_directions, batch_size, hidden_size)
import torch.nn as nn
import torch

def dm_gru():
    # 创建GRU层
    gru = nn.GRU(input_size=5, hidden_size=6, num_layers=2)
    # 创建输入张量
    input = torch.randn(size=(1, 3, 5))
    # 初始化隐藏状态
    h0 = torch.randn(size=(2, 3, 6))
    # hn输出两层隐藏状态, 最后1个隐藏状态值等于output输出值
    output, hn = gru(input, h0)
    print('output--->', output.shape, output)
    print('hn--->', hn.shape, hn)