1、 RNN模型简介
1.2传统RNN模型
2、LSTM模型
3、GRU模型
5、注意力机制
6、人名分类器
7 、BERT
8、Transformer 的结构是什么样子的? 各个子模块有什么作用?
8.1 Encoder模块
8.2 Decoder模块
8.3 Transformer 结构中的Decoder端具体输入是什么? 在训练阶段和预测阶段一致吗?
8.4 Transformer中一直强调的self-attention是什莫?为什么能发挥如此大的作用?计算的时候如果不使用三元组(Q,K,V),而仅仅使用(Q,V)或者(K,V)或者(V)行不行、
8.5 Transformer 为什莫需要进行Multi-Head Attention? Multi-head Attention 的计算过程是什莫?
8.6 Transformer 相比于RNN/LSTM有什莫优势?为什莫?
8.7 为什么说Transformer可以替代seq2seq?
8.8 self-attention公式中的归一化有什莫作用?为什么要添加scaled
8.8 Transformer 架构的并行化如何进行的?具体体现在在哪?
8.10 BERT 模型的优点和缺点
8.11 BRET 的MLM任务中为什么采用了80%,10%,10%的策略?
8.11 长文本预测任务如果想用BERT来实现,如何构造训练样本?