双向循环神经网络
在序列模型中,我们总是关注之前的信息,并以此来对下一个输出进行预测,但可能未来的信息也很重要,比如文本序列填空:
- 我
___
。 - 我
___
饿了。 - 我
___
饿了,我可以吃半头猪。
我们可以分别填,happy,not, very。但很明显,very更为合适,因为下文传达了非常重要的信息(如果有的话),所以无法利用这一点的序列模型将在相关任务上表现不佳。
例如,命名实体识别('Green’是绿色还是格林先生),不同长度的上下文范围重要性是相同的。
1.双向模型
想让模型拥有一定程度的前瞻能力,只需要增加一个从最后一个词元开始从后向前运行的循环神经网络,而不是只有一个在前向模式下运行的循环神经网络。
双向循环神经网络(bidirectional RNNs)添加了反向传递信息的隐藏层,以便更灵活地处理此类信息。
1.1 定义
对于任意时间步
t
t
t,给定一个小批量的输入数据
X
t
∈
R
n
×
d
X_t\in R^{n\times d}
Xt∈Rn×d(样本数
n
n
n,每个示例中的输入数
d
d
d),并且令隐藏层激活函数为
ϕ
\phi
ϕ。在双向架构中,我们设该时间步的前向和反向隐状态分别为
H
→
t
,
H
←
t
∈
R
n
×
h
\overrightarrow{H}_t,\overleftarrow{H}_t \in R^{n\times h}
Ht,Ht∈Rn×h,其中
h
h
h是隐藏单元的数目。前向和反向隐状态的更新如下:
H
→
t
=
ϕ
(
X
t
W
x
h
(
f
)
+
H
→
t
−
1
W
h
h
f
+
b
h
(
f
)
)
H
←
t
=
ϕ
(
X
t
W
x
h
(
b
)
+
H
←
t
+
1
W
h
h
(
b
)
+
b
h
(
b
)
)
\overrightarrow{H}_t = \phi(X_t W_{xh}^{(f)}+\overrightarrow{H}_{t-1}W^{f}_{hh}+b_h^{(f)})\\ \overleftarrow{H}_t = \phi(X_t W_{xh}^{(b)}+\overleftarrow{H}_{t+1}W_{hh}^{(b)}+b_h^{(b)})
Ht=ϕ(XtWxh(f)+Ht−1Whhf+bh(f))Ht=ϕ(XtWxh(b)+Ht+1Whh(b)+bh(b))
其中权重
W
x
h
(
f
)
,
W
x
h
(
b
)
∈
R
d
×
h
,
W
h
h
(
f
)
,
W
h
h
(
b
)
∈
R
h
×
h
W_{xh}^{(f)},W_{xh}^{(b)}\in R^{d\times h},W_{hh}^{(f)},W_{hh}^{(b)}\in R^{h\times h}
Wxh(f),Wxh(b)∈Rd×h,Whh(f),Whh(b)∈Rh×h,偏置
b
h
(
f
)
,
b
h
(
b
)
∈
R
1
×
h
b_h^{(f)},b_h^{(b)}\in R ^{1\times h}
bh(f),bh(b)∈R1×h都是模型参数。
随后,将前向隐状态
H
→
t
\overrightarrow{H}_t
Ht和反向隐状态
H
←
t
\overleftarrow{H}_t
Ht连接起来,获得需要送入输出层的隐状态
H
t
∈
R
n
×
2
h
H_t\in R^{n\times 2h}
Ht∈Rn×2h, 在具有多个隐藏层的深度双向循环神经网络中, 该信息作为输入传递到下一个双向层。 最后,输出层计算得到的输出为
O
t
∈
R
n
×
q
O_t\in R^{n\times q}
Ot∈Rn×q(q是输出单元的数目):
O
t
=
H
t
W
h
q
+
b
q
O_t = H_t W_{hq}+b_q
Ot=HtWhq+bq
这里,权重矩阵
W
h
q
∈
R
2
h
×
q
W_{hq}\in R^{2h\times q}
Whq∈R2h×q和偏置
b
q
∈
R
1
×
q
b_q\in R^{1\times q}
bq∈R1×q是输出层的模型参数。这两个方向可以有不同数量的隐藏单元。
2.代码实现(错误应用)
双向循环神经网络使用了过去和未来的数据,所以不能盲目地将这一语言模型应用于任何预测任务。尽管模型产出的困惑度是合理的,该模型预测未来词元的能力却可能存在严重缺陷。
下面的代码用来展示如何使用双向LSTM模型,引以为戒。
import torch
from torch import nn
from d2l import torch as d2l
# 加载数据
batch_size, num_steps, device = 32, 35, d2l.try_gpu()
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)
# 通过设置“bidirective=True”来定义双向LSTM模型
vocab_size, num_hiddens, num_layers = len(vocab), 256, 2
num_inputs = vocab_size
lstm_layer = nn.LSTM(num_inputs, num_hiddens, num_layers, bidirectional=True)
model = d2l.RNNModel(lstm_layer, len(vocab))
model = model.to(device)
# 训练模型
num_epochs, lr = 500, 1
d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)
'''
perplexity 1.1, 131129.2 tokens/sec on cuda:0
time travellerererererererererererererererererererererererererer
travellerererererererererererererererererererererererererer
'''