NLP 八股 DAY1：BERT

BERT全称：Pre-training of deep bidirectional transformers for language understanding，即深度双向Transformer。

模型训练时的两个任务是预测句⼦中被掩盖的词以及判断输⼊的两个句⼦是不是上下句。在预训练好的BERT模型后⾯根据特定任务加上相应的⽹络，可以完成NLP的下游任务，⽐如⽂本分类、机器翻译等。Masked LM和Next Sentence Prediction。

只使⽤了transformer的encoder部分，它的整体框架是由多层transformer的encoder堆叠⽽成的。每⼀层的encoder则是由⼀层muti-head-attention和⼀层feed-forword组成，⼤的模型有24层，每层16个attention heads，⼩的模型12层，每层12个attention heads。feed-forward的维度是4 * d_model也就是4 * 768 = 3072。

在BERT中，输⼊的向量是由三种不同的embedding求和⽽成，分别是： a. wordpiece embedding：词嵌⼊，WordPiece是指将单词划分成⼀组有限的公共⼦词单元，能在单词的有效性和字符的灵活性之间取得⼀个折中的平衡； b. position embedding：不是三⻆函数⽽是⼀个跟着训练学出来的向量，也就是nn.Embedding； c. segment embedding：⽤于区分两个句⼦的向量表示。这个在问答等⾮对称句⼦中是⽤区别的。

BERT常⻅⾯试问题：bert的具体⽹络结构，以及训练过程，bert为什么⽕，它在什么的基础上改进了些什么？

答：bert是⽤了transformer的encoder侧的⽹络，作为⼀个⽂本编码器，使⽤⼤规模数据进⾏预训练，预训练使⽤两个loss，⼀个是mask LM，遮蔽掉源端的⼀些字，然后根据上下⽂去预测这些字；⼀个是next sentence，判断两个句⼦是否在⽂章中互为上下句，然后使⽤了⼤规模的语料去预训练。在它之前是GPT，GPT是⼀个单向语⾔模型的预训练过程（它和gpt的区别就是bert为啥叫双向bi-directional），更适⽤于⽂本⽣成。

mask的具体做法：Masked LM 即掩码语⾔模型，它和⼀般的语⾔模型如N元语⾔模型不同。 a. N元语⾔模型第 i 个字的概率和它前 i-1 个字有关，也就是要预测第 i 个字，那么模型就得先从头到尾依次预测出第1个到第 i-1 个字，再来预测第 i 个字；这样的模型⼀般称为⾃回归模型（Autoregressive LM）。 b. ⽽Masked LM 通过随机将句⼦中的某些字MASK掉，然后通过该MASK掉的字的上下⽂来预测该字，我们称这样的语⾔模型为⾃编码语⾔模型（Autoencoder LM）。Bert 的 MASK 机制是这样的：它以token为单位随机选择句⼦中 15%的 token，然后将其中 80% 的 token 使⽤ [MASK] 符号进⾏替换，将 10% 使⽤随机的其他 token 进⾏替换，剩下的10%保持不变。

更细节的阐述：在⼀个句⼦中，随机选中⼀定百分⽐（实际是15%）的token，将这些token⽤" [MASK]"替换。然后⽤分类模型预测"[MASK]"实际上是什么词。作者发现，在pre-training阶段，⼀句话中有15%的token被选中，然后将这些token⽤"[MASK]"替换。⽽在fine-tuning阶段，给 BERT模型的输⼊并没有token被"[MASK]"替换。为了减少pre-training与fine-tuning阶段的差异，在pre-training阶段，对MLM任务进⾏改进：在被选中的15%的token中，有80%被替换为" [MASK]"，有10%被替换为⼀个随机token，有10%保持不变。如下所示：

具体怎么做分类：输⼊[CLS]我 mask 中 mask 天安⻔[SEP]，预测句⼦的mask，多分类问题。

NSP任务：下⼀个句⼦预测，⽤于判断两个句⼦是否互为上下⽂。输⼊[CLS]a[SEP]b[SEP]，预测b 是否为a的下⼀句，即⼆分类问题。

具体实现：因为与⽂本中已有的其它词相⽐，CLS这个⽆明显语义信息的符号会更“公平”地融合⽂本中各个词的语义信息，从⽽更好的表示整句话的语义。

11. BERT和transformer

a. 相同点：

ⅰ. 基础架构相同，BERT使⽤Transformer作为编码器；
ⅱ. 都使⽤了位置编码；
ⅲ. 都是多层堆叠的层级结构。

b. 不同点：

ⅰ. 训练⽅式不同，Transformer在训练时，输⼊序列从左到右进⾏处理，逐步⽣成输出。这意味着在⽣成每个位置的隐藏表示时，只能依赖于已经⽣成的左侧部分；BERT：使⽤了双向（双向上下⽂）的训练⽅式。它通过遮蔽输⼊⽂本中的⼀些词，然后预测这些词的上下⽂，从⽽使模型能够考虑到每个词的上下⽂信息。
ⅱ. 此外还有输出层的差异：Transformer通常在输出层使⽤Softmax函数进⾏概率分布的计算，适⽤于分类任务，BERT常⽤于⽣成上下⽂相关的词嵌⼊，⽽不是直接在输出层进⾏分类。

BERT采⽤LayerNorm结构，和BatchNorm的区别主要是做规范化的维度不同

a. BatchNorm针对⼀个batch⾥⾯的数据进⾏规范化，针对单个神经元进⾏，⽐如batch⾥⾯有64 个样本，那么规范化输⼊的这64个样本各⾃经过这个神经元后的值（64维）。图像领域⽤BN⽐较多的原因是因为每⼀个卷积核的参数在不同位置的神经元当中是共享的，因此也应该被⼀起规范化。
b. LayerNorm则是针对单个样本，不依赖于其他数据，常被⽤于⼩mini-batch场景、动态⽹络场景和 RNN，特别是⾃然语⾔处理领域，就BERT来说就是对每层输出的隐层向量（768维）做规范化。

Attention时为啥要除以根号下dk：作者在论⽂中的解释是点积后的结果⼤⼩是跟维度成正⽐的，所以经过softmax以后，梯度就会变很⼩，除以根号下dk后可以让attention的权重分布⽅差为1，⽽不是dk。

NLP中构造词表

a. 传统构造词表的⽅法，是先对各个句⼦进⾏分词，然后再统计并选出频数最⾼的前N个词组成词表。
b. 存在问题： ⅰ. 模型预测的词汇是开放的，对于未在词表中出现的词(Out Of Vocabulary, OOV)，模型将⽆法处理及⽣成； ⅱ. 词表中的低频词/稀疏词在模型训练过程中⽆法得到充分训练，进⽽模型不能充分理解这些词的语义； ⅲ. ⼀个单词因为不同的形态会产⽣不同的词，但是在词表中这些词会被当作不同的词处理，⼀⽅⾯增加了训练冗余，另⼀⽅⾯也造成了⼤词汇量问题。

上述问题的⼀种解决思路是使⽤字符粒度来表示词表，虽然能够解决OOV问题，但单词被拆分成字符后，⼀⽅⾯丢失了词的语义信息，另⼀⽅⾯，模型输⼊会变得很⻓，这使得模型的训练更加复杂难以收敛。针对上述问题，Subword(⼦词)模型⽅法被提出。它的划分粒度介于词与字符之间，⽐如可以将”looking”划分为”look”和”ing”两个⼦词，⽽划分出来的"look"，”ing”⼜能够⽤来构造其它词，如"look"和"ed"⼦词可组成单词"looked"，因⽽Subword⽅法能够⼤⼤降低词典的⼤⼩，同时对相近词能更好地处理。

⽬前有三种主流的Subword算法，它们分别是：Byte Pair Encoding (BPE), WordPiece和Unigram Language Model。

理解BERT中的三部分输⼊：（1）wordpiece embedding：词嵌⼊，使⽤wordpiece⽅法对语料进⾏分词并编码；（2）position embedding：不是三⻆函数⽽是⼀个跟着训练学出来的向量，也就是 nn.Embedding；（3）segment embedding⽤于处理句⼦对任务，对输⼊序列中的每个单词标记其所属句⼦，通常使⽤ 0 和 1 表示两个句⼦，然后通过嵌⼊层将每个句⼦标记转换为⼀个向量表示。

当⼀个batch的数据输⼊模型的时候，⼤⼩为(batch_size, max_len, embedding)，其中batch_size 为batch的批数，max_len为每⼀批数据的序列最⼤⻓度，embedding则为每⼀个单词或者字的 embedding维度⼤⼩。⽽Batch Normalization是在batch间选择同⼀个位置的值做归⼀化，相当于是对batch⾥相同位置的字或者单词embedding做归⼀化，Layer Normalization是在⼀个Batch⾥⾯的每⼀⾏做normalization，相当于是对每句话的embedding做归⼀化。显然，LN更加符合处理⽂本的直觉。