pytorch笔记：RNN 系列

news2026/2/11 18:02:38

来自B站视频，API查阅，TORCH.NN

RNN可以处理变长序列，是因为其每个时刻的参数是共享的
RNN每算出一个时刻都可以输出，适合流式输出，但串行计算比较慢，无法获取太长的历史信息
RNN 初始隐状态不提供默认是0，输出包括两部分：所有时刻的输出 (batch_size,seq_len,out_hidden_size*num_direction) 和最后一个时刻的隐状态 (num_layers*num_direction,batch_size,out_hidden_size)。竖向的是第一个元素，横向的是最后一个元素。即实际上第一个输出的最后一个元素就是第二个元素（冗余的）

这里的RNN没有提供 $O_t=H_tW_{hq}+b_q$ ，输出只是 $H_t$

LSTM 中指定 proj_size 后是 LSTM 的一个变体，hidden_size 会经过 $W_{hr}$ 压缩成 proj_size，减少了模型参数添加链接描述
LSTM 的输入比 RNN 多了 C，如果不提供默认C 和 H 都是全0，输入的时候如果是多层或者双向，h的第一个维度不是1，需要1的话可以h.unsqueeze(0)

请添加图片描述

$F_t,I_t,O_t$ 都是直接通过 $X_t,H_{t-1}$ 得到，激活函数是 $\sigma$ ， $\tilde C_t$ 也是 $X_t,H_{t-1}$ 得到，激活函数是 $t anh$ ，计算的时候可以四个 W concat 起来做矩阵乘法然后需要的时候用切片截取，计算并行性好
$C_t=F_t\odot C_{t-1}+I\odot \tilde C_t$ ， $H_t=O_t\odot tanh(C_t)$
GRU 的参数和计算量只是 LSTM 的 3/4
$R_t,Z_t$ 都是直接通过 $X_t,H_{t-1}$ 得到
$\tilde H_t=tanh(X_tW_{xh}+(R_t\odot H_{t-1})W_{hh}+b_h)$
$H_t=Z_t\odot H_{t-1}+(1-Z_t)\odot \tilde H_t$