将最后时刻的隐藏状态传给解码器。特定的“”表示序列开始词元,表示开始翻译。将此次翻译的结果作为下一次的输入,并将隐藏状态传递给下一时刻。最后可以拿到整个语言句子的输出。
将编码器最后一次的隐藏状态与解码器的第一次的输入,放在一起作为隐藏层的输入。
在训练的时候,我们是知道目标句子的,在解码器RNN输入的时候,即便是上次预测的结果不正确,但我们也可以用正确的结果作为输入。在推理的时候,没有真正的句子,本时刻的输入,只能用上一时刻的输出。
p1:预测序列中A,B,C,D在标签序列中出现过,所以为4/5
p2:预测序列中AB,BC,CD在标签序列中出现过,唯有BB没有出现过,所以是3/4
P3:预测序列中BCD在标签序列中出现过,其余的ABB,BBC均没有出现,所以是1/3
BLEU定义:对比预测长度和标签长度,如果预测长度过短,则惩罚变大。对于长匹配的Pn,当n越大时,则2的n次方分之一越小,Pn为小于1的预测值,当指数越愈小,则结果越大。所以可以使长匹配有高权重。