P33 Transformer(下)
视频链接
P33 Transformer(下)
1. Decoder: Autoregressive(AT)
Decoder原理:
Encoder vs Decoder:
Masked:
how to stop:
2. Decoder: Non-autoregressive(NAT)
3. Encoder-Decoder
4. Training
Tips:
a. Copy Mechanism
b. Guided Attention
c. Beam Search
- 适用场景:答案非常明确的任务(如,语音辨识);而对于需要有创造力的、不是只有一个答案的任务,则需要在decoder加入随机性。
d. BLEU score
e. exposure bias