P33 Transformer(下)
视频链接
P33 Transformer(下)
1. Decoder: Autoregressive(AT)
Decoder原理:






Encoder vs Decoder:


Masked:




how to stop:



2. Decoder: Non-autoregressive(NAT)

3. Encoder-Decoder




4. Training


Tips:
a. Copy Mechanism



b. Guided Attention


c. Beam Search

- 适用场景:答案非常明确的任务(如,语音辨识);而对于需要有创造力的、不是只有一个答案的任务,则需要在decoder加入随机性。
d. BLEU score

e. exposure bias

