Self-Supervised Learning
Bert 的数据是 340M parameters
抽象解释👆
Bert
单个字的预测
把一个字盖住:
1、把一个字替换成特殊字符(MASK)。
2、替换成随机的一个字,进行训练。
next sentence prediction
通过变换两个连起来的句子的顺序,或者加符号来训练。
case1用做填空的bert(训练好的模型)做pre-train(下面的case2 3 4 也是用填空获得的bert来做的),用来训练新的分类。
case2 也是做初始化的pre-train的问题
case3是给两个句子 判断两个句子之间的关系(矛盾、蕴含、对立)
给两个文段D、Q通过训练得到两个整数s、e答案就是原文D中第s到第e个词组。
上图中 通过
1、橙色的向量和黄色的内积+softmax获得的是answer的开始位置。
2、蓝色的向量和黄色的内积+softmax获得的是answer的结束的位置。
其中黄色的向量是bert中pre-train获得的向量,而橙色和蓝色是随机初始化后得到的向量。
所以这种训练模式需要一定的训练数据来完成对于橙色和蓝色的向量的训练。
bert胚胎学👆可以进行详细研究。
回归我们需要的研究方向👇,seq_to_seq方向
这里要做到的是把w1,w2·····损坏(mass)之后,也要输出对的w5,w6·····值。
👆就是各种损坏(mass)的方法。
以‘果’为例子感受bert的词向量的应用状态
word embedding通过被masked单词的上下文就可以进行预测。