1.参考

bert论文
李宏毅《机器学习》自监督训练-bert

2. self-supervised learning–bert

Bert模型结构实际上是Transformer的编码器，
Transformer
在这里插入图片描述
bert训练时，对模型的输入进行处理，将部分输入遮盖或者用其他数据替，输出后与被遮盖的数据做损失函数来进行多次训练，相当于在训练完形填空，这就是self-supervised learning，自监督训练

不但如此，bert在训练时还会训练另一个方法，Next Sentence Prediction(效果不太好)
在这里插入图片描述
在经过大量的数据训练后我们就得了一个预训练模型 Bert，模型的参数是已经训练完毕了。然后根据下游任务的不同，我们再对这些参数进行微调Fine-tune

3. bert的一些用法

3.1情感分析

在这里插入图片描述
实验表明，在经过Bert预训练后的参数比随机初始化参数，loss下降的比较快也比较小。

3.2词性标注

在这里插入图片描述

3.3常识推理和NLI

在这里插入图片描述

3.4 QA问题

如下QA问题得到的答案是单词的序号（要保证答案一定在文章内）
在这里插入图片描述
随机初始化2个向量，蓝色和橙色，参数可学习。
将橙色向量和输出的向量做内积，在进行Softmax函数得出answer的开始序号d2

在这里插入图片描述
将蓝色向量和输出的向量做内积，在进行Softmax函数得出answer的开始序号d3

4.bert的工作原理解释

bert能够如此高效是因为他的训练是建立在特别庞大的数据基础上，使用预训练好的BERT，只需加载预训练好的模型作为自己当前任务的词嵌入层，后续针对特定任务构建后续模型结构即可，不需对代码做大量修改或优化。
其工作原理也就是为什么训练后的bert会如此适用大部分任务，这里李宏毅老师视频里给出了解释(8:30前），同时也提出了几个有意思的现象
Why does bert work?

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/370407.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！