【王树森】BERT：预训练Transformer模型（个人向笔记）

【王树森】BERT：预训练Transformer模型（个人向笔记）

news2026/2/14 4:14:09

前言

BERT：Bidirectional Encoder Representations from Transformer
BERT是用来预训练Transformer模型的encoder的
本节课只讲述主要思想
BERT用两个主要思想来训练Transformer的encoder网络：①随机遮挡单词，让encoder根据上下文来预测被遮挡的单词。②把两句话放在一起，让encoder判断是不是原文相邻的两句话

Randomly mask a word

随机遮挡一个单词，让神经网络来预测这个单词是什么：
我们把cat遮住后如下图所示：我们把原来的 $x_2$ 变为了 $x_M$ ，由前几节课transformer的原理可以知道：最后的输出不仅仅取决于 $x_2$ 或 $x_M$ ，而是包含整句话的信息，最后我们把 $u_M$ 输入到 Softmax 后，期望其中的 cat 的概率是最大的
我们把被遮住的单词 cat 的one-hot向量称为 $e$ ， $p$ 为上面 Softmax 输出的概率分布向量，那么我们要让 $p$ 尽可能地接近 $e$ ，于是我们可以把它丢进交叉熵损失函数里面进行反向传播，梯度下降：
BERT 不需要人为打标，可以自动遮住单词然后生成标签。因此可以拥有很多的数据，可以训练很大的模型

Predict the Next Sentence

给定随机的两句话，问这两句在文中是否是相邻的
其中输入时两句话，其中 [CLS] 时分类的标号，[SEP] 是分句的标号
该方法会在原来的文本随机选取句子，其中一半是相邻的，一半不是相邻的
CLS符号在经过 Embedding 和 Transformer 的 Encoder 后会生成一个向量 $c$ ，其由一个二分类器来计算值，虽然由 attention 机制我们可以知道： $c$ 还依赖于文中的其他信息，这样就能学到两句话的信息，这样我们就可以让 $c$ 和标签做交叉熵损失，然后就能反向传播和梯度下降来训练。相邻两句话通常含有关联，这样训练就能让 Embedding 和 Encoder 学到这种关联信息。

Combining the two methods

把上面两个任务结合起来：这样就有多个标签
假设我们有两个单词被遮住了，那么就有三个任务，三个损失函数，那么最后的损失函数就是三个损失函数之和
BERT 的优点在于不用人工标注数据，因为人工标注数据是非常昂贵的。而 BERT 可以自动生成标签，这是一个非常好的性质
缺点在于 BERT 的计算代价很大：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2092888.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

2024年9月1日十二生肖今日运势

2024年9月1日十二生肖今日运势

小运播报：2024年9月1日，星期日，农历七月廿九 （甲辰年壬申月戊辰日），法定节假日。红榜生肖：鸡、猴、鼠需要注意：龙、兔、狗喜神方位：东南方财神方位：正…

阅读更多...

【系统架构设计师-2015年】综合知识-答案及详解

【系统架构设计师-2015年】综合知识-答案及详解

【第1~2题】某航空公司机票销售系统有n个售票点，该系统为每个售票点创建一个进程Pi（i1，2，…，n）管理机票销售。假设Tj（j1，2，…，m）单元存放某日某…

阅读更多...

2025届必看：如何用Java SpringBoot+Vue打造免费体育馆场地预约系统？

2025届必看：如何用Java SpringBoot+Vue打造免费体育馆场地预约系统？

✍✍计算机毕业编程指导师 ⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！ ⚡⚡ Java、…

阅读更多...

异常与使用

异常与使用

异常一、C语言传统的错误处理机制二、异常1、概念2、关键字3、示例三、异常的使用1、异常的抛出和匹配原则2、在函数调用链中异常栈展开匹配原则3、栈展开示意图4、示例代码5、运行结果四、异常的重新抛出1、作用2、示例代码3、运行结果五、异常安全六、异常规范1、概念2、…

阅读更多...

CSS-浮动【看这一篇就够了】

CSS-浮动【看这一篇就够了】

目录浮动布局浮动是如何工作的浮动的本质和要点如何产生浮动元素浮动的特性 1.元素添加浮动后，脱离文档流 2.如果父元素的宽度不够 3.浮动的顺序贴靠特性 4.元素浮动后，具有行内块级元素特性 5.浮动的元素会造成父元素高度塌陷 6.浮动对…

阅读更多...

“无法连接打印机0X0000011B”原因分析及多种解决方法

“无法连接打印机0X0000011B”原因分析及多种解决方法

在日常办公和生活中，打印机是不可或缺的重要设备。然而，有时在连接打印机的过程中，我们可能会遇到错误代码0x0000011b的提示。有更新补丁导致的、有访问共享打印机服务异常、有访问共享打印机驱动异常等问题导致的，针对访问共享打…

阅读更多...

MySQL场景测试题

MySQL场景测试题

第一题软件环境描述： Mysql V5.7.30 Innodb RR隔离级别表结构以及数据描述： （1）t_user用户表，表格如下： CREATE TABLE t_user ( id int(10) NOT NULL, name varchar(100) DEFAULT NULL, PRIMARY KEY (id)…

阅读更多...

240831-Gradio之RAG文档对话工具Kotaemon的安装与配置

240831-Gradio之RAG文档对话工具Kotaemon的安装与配置

A. 用户界面该项目既可以作为功能性 RAG UI，既可以用于对文档进行 QA 的最终用户，也可以用作想要构建自己的 RAG 管道的开发人员。对于最终用户： - 一个干净且简约的用户界面，用于基于RAG的QA。 - 支持 LLM API 提供程序&#xf…

阅读更多...

gethub-rrsf

gethub-rrsf

一.FastCGI协议 1.来到127.0.0.1下发现404报错 2.这一关我们要借助一个叫Gopherus的工具，我这里是在kali虚拟机里面克隆的 git clone https://github.com/tarunkant/Gopherus.git 3.运行命令由于一句话木马无法写入，所以我们使用base64编码&#xf…

阅读更多...

将Google Chrome或Microsoft Edge浏览器的地址栏隐藏的方法

将Google Chrome或Microsoft Edge浏览器的地址栏隐藏的方法

将Google Chrome或Microsoft Edge浏览器的地址栏隐藏的方法目标效果示范我们以百度首页为例，普通模式启动的页面通常会显示地址栏，如下图所示： 而本文要实现的效果是隐去地址栏和书签栏（如果有的话），无…

阅读更多...

重生奇迹MU 敏捷流梦幻骑士真正的平民PK王

重生奇迹MU 敏捷流梦幻骑士真正的平民PK王

“梦幻骑士”这个职业已经存在于重生奇迹MU中很长时间了，虽然现在已经不算是新职业了，但玩家们对于梦幻骑士的研究和开发一直没有停止过。它作为一个特殊的职业，与传统职业截然不同，拥有着许多独特的玩法。其中，有一种…

阅读更多...

JVM2-JVM组成、字节码文件、类的生命周期、类加载器

JVM2-JVM组成、字节码文件、类的生命周期、类加载器

Java虚拟机的组成 Java虚拟机主要分为以下几个组成部分： 类加载子系统：核心组件类加载器，负责将字节码文件中的内容加载到内存中运行时数据区：JVM管理的内存，创建出来的对象、类的信息等内容都会放在这块区域中执行引…

阅读更多...

有宠物用哪个牌子的宠物空气净化器，希喂、IAM哪个更值得推荐

有宠物用哪个牌子的宠物空气净化器，希喂、IAM哪个更值得推荐

由于很喜欢猫咪和狗狗，每天都只想和它们待在一起，一点都不想上班，经过一番深思熟虑后，决定裸辞去开了一家宠物店。还真别说，开了宠物店之后，整个人都舒爽了，还可以摸到很多不同品种的小猫小狗&a…

阅读更多...

学习笔记之JS（0830）

学习笔记之JS（0830）

1、介绍 1.1 JavaScript （是什么？） javascript是一种运行在客户端（浏览器）的编程语言，实现人机交互效果。作用（做什么？） 网页特效（监听用户的一些行为让万叶…

阅读更多...

Java 集合框架与泛型实战指南

Java 集合框架与泛型实战指南

Collection： Collection 不唯一，无序 List 不唯一，有序 Set 唯一，无序 ArrayList：内部使用长度可变的数组，遍历查询效率高 LinkedList：采用双向链表实现，增删改效率比较高 ArrayL…

阅读更多...

【智能排班系统】Hibernate Validator 参数校验

【智能排班系统】Hibernate Validator 参数校验

🎯导读：本文档介绍了参数校验的重要性及其在软件开发中的作用，强调了数据完整性、安全性、用户体验、系统稳定性及开发效率等方面的关键价值。文档详细阐述了Hibernate Validator这一流行的Java验证框架的使用方法，展示了如何利用…

阅读更多...

适马相机cf卡剪切的数据还能恢复吗？可尝试这几种方法

适马相机cf卡剪切的数据还能恢复吗？可尝试这几种方法

“本想把适马相机CF卡里的珍贵数据剪切到电脑上，‌以备不时之需，‌但是不知道怎么回事，剪切后数据既不在电脑上，‌CF卡里也没了，这可真是让我心急如焚！‌求大神指点迷津，‌帮我找回那些重要的文…

阅读更多...

Vue 选项式api和组合式api 路由嵌套

Vue 选项式api和组合式api 路由嵌套

选项式api和组合式api是两种不同的语法习惯，<template>标签内还是该怎么写就怎么写，不一样的只是<script>里面的语法改变了。目录选项式api： 组合式api： 1)省略各种关键字： 省略前： 省略后…

阅读更多...

【Qt】菜单栏

【Qt】菜单栏

目录菜单栏例子：创建菜单栏、菜单、菜单项例子：给菜单设置快捷键例子：给菜单项设置快捷键例子：添加子菜单例子：添加分隔线例子：添加图标菜单栏 Qt中的菜单栏是通过QMenuBar这个类实现的&…

阅读更多...

LeetCode --- 412周赛

LeetCode --- 412周赛

题目列表 3264. K 次乘运算后的最终数组 I 3266. K 次乘运算后的最终数组 II 3265. 统计近似相等数对 I 3267. 统计近似相等数对 II 一、K次乘预算后的最终数组 I & II I 数据范围比较小，可以暴力模拟，代码如下 class Solution { public:vecto…

阅读更多...

推荐文章

最新文章