【王树森】BERT:预训练Transformer模型(个人向笔记)

news2024/11/13 9:33:32

前言

  • BERT:Bidirectional Encoder Representations from Transformer
  • BERT是用来预训练Transformer模型的encoder的
  • 本节课只讲述主要思想
  • BERT用两个主要思想来训练Transformer的encoder网络:①随机遮挡单词,让encoder根据上下文来预测被遮挡的单词。②把两句话放在一起,让encoder判断是不是原文相邻的两句话

Randomly mask a word

  • 随机遮挡一个单词,让神经网络来预测这个单词是什么:
    在这里插入图片描述
  • 我们把cat遮住后如下图所示:我们把原来的 x 2 x_2 x2 变为了 x M x_M xM,由前几节课transformer的原理可以知道:最后的输出不仅仅取决于 x 2 x_2 x2 x M x_M xM,而是包含整句话的信息,最后我们把 u M u_M uM 输入到 Softmax 后,期望其中的 cat 的概率是最大的
    在这里插入图片描述
  • 我们把被遮住的单词 cat 的one-hot向量称为 e e e p p p 为上面 Softmax 输出的概率分布向量,那么我们要让 p p p 尽可能地接近 e e e,于是我们可以把它丢进交叉熵损失函数里面进行反向传播,梯度下降:
    在这里插入图片描述
  • BERT 不需要人为打标,可以自动遮住单词然后生成标签。因此可以拥有很多的数据,可以训练很大的模型

Predict the Next Sentence

  • 给定随机的两句话,问这两句在文中是否是相邻的
    在这里插入图片描述
  • 其中输入时两句话,其中 [CLS] 时分类的标号,[SEP] 是分句的标号在这里插入图片描述
  • 该方法会在原来的文本随机选取句子,其中一半是相邻的,一半不是相邻的
    在这里插入图片描述
    在这里插入图片描述
  • CLS符号在经过 Embedding 和 Transformer 的 Encoder 后会生成一个向量 c c c,其由一个二分类器来计算值,虽然由 attention 机制我们可以知道: c c c 还依赖于文中的其他信息,这样就能学到两句话的信息,这样我们就可以让 c c c 和标签做交叉熵损失,然后就能反向传播和梯度下降来训练。相邻两句话通常含有关联,这样训练就能让 Embedding 和 Encoder 学到这种关联信息。
    在这里插入图片描述

Combining the two methods

  • 把上面两个任务结合起来:这样就有多个标签
    在这里插入图片描述
    在这里插入图片描述
  • 假设我们有两个单词被遮住了,那么就有三个任务,三个损失函数,那么最后的损失函数就是三个损失函数之和
    在这里插入图片描述
  • BERT 的优点在于不用人工标注数据,因为人工标注数据是非常昂贵的。而 BERT 可以自动生成标签,这是一个非常好的性质
  • 缺点在于 BERT 的计算代价很大:
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2092888.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024年9月1日 十二生肖 今日运势

小运播报:2024年9月1日,星期日,农历七月廿九 (甲辰年壬申月戊辰日),法定节假日。 红榜生肖:鸡、猴、鼠 需要注意:龙、兔、狗 喜神方位:东南方 财神方位:正…

【系统架构设计师-2015年】综合知识-答案及详解

【第1~2题】 某航空公司机票销售系统有n个售票点,该系统为每个售票点创建一个进程Pi(i1,2,…,n)管理机票销售。假设Tj(j1,2,…,m)单元存放某日某…

2025届必看:如何用Java SpringBoot+Vue打造免费体育馆场地预约系统?

✍✍计算机毕业编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java、…

异常与使用

异常 一、C语言传统的错误处理机制二、异常1、概念2、关键字3、示例 三、异常的使用1、异常的抛出和匹配原则2、在函数调用链中异常栈展开匹配原则3、栈展开示意图4、示例代码5、运行结果 四、异常的重新抛出1、作用2、示例代码3、运行结果 五、异常安全六、异常规范1、概念2、…

CSS-浮动【看这一篇就够了】

目录 浮动布局 浮动是如何工作的 浮动的本质和要点 如何产生浮动 元素浮动的特性 1.元素添加浮动后,脱离文档流 2.如果父元素的宽度不够 3.浮动的顺序贴靠特性 4.元素浮动后,具有行内块级元素特性 5.浮动的元素会造成父元素高度塌陷 6.浮动对…

“无法连接打印机0X0000011B”原因分析及多种解决方法

在日常办公和生活中,打印机是不可或缺的重要设备。然而,有时在连接打印机的过程中,我们可能会遇到错误代码0x0000011b的提示。有更新补丁导致的、有访问共享打印机服务异常、有访问共享打印机驱动异常等问题导致的,针对访问共享打…

MySQL场景测试题

第一题 软件环境描述: Mysql V5.7.30 Innodb RR隔离级别 表结构以及数据描述: (1)t_user用户表,表格如下: CREATE TABLE t_user ( id int(10) NOT NULL, name varchar(100) DEFAULT NULL, PRIMARY KEY (id)…

240831-Gradio之RAG文档对话工具Kotaemon的安装与配置

A. 用户界面 该项目既可以作为功能性 RAG UI,既可以用于对文档进行 QA 的最终用户,也可以用作想要构建自己的 RAG 管道的开发人员。对于最终用户: - 一个干净且简约的用户界面,用于基于RAG的QA。 - 支持 LLM API 提供程序&#xf…

gethub-rrsf

一.FastCGI协议 1.来到127.0.0.1下发现404报错 2.这一关我们要借助一个叫Gopherus的工具,我这里是在kali虚拟机里面克隆的 git clone https://github.com/tarunkant/Gopherus.git 3.运行命令 由于一句话木马无法写入,所以我们使用base64编码&#xf…

将Google Chrome或Microsoft Edge浏览器的地址栏隐藏的方法

将Google Chrome或Microsoft Edge浏览器的地址栏隐藏的方法 目标效果示范 我们以百度首页为例,普通模式启动的页面通常会显示地址栏,如下图所示: 而本文要实现的效果是隐去地址栏和书签栏(如果有的话),无…

重生奇迹MU 敏捷流梦幻骑士 真正的平民PK王

“梦幻骑士”这个职业已经存在于重生奇迹MU中很长时间了,虽然现在已经不算是新职业了,但玩家们对于梦幻骑士的研究和开发一直没有停止过。它作为一个特殊的职业,与传统职业截然不同,拥有着许多独特的玩法。其中,有一种…

JVM2-JVM组成、字节码文件、类的生命周期、类加载器

Java虚拟机的组成 Java虚拟机主要分为以下几个组成部分: 类加载子系统:核心组件类加载器,负责将字节码文件中的内容加载到内存中运行时数据区:JVM管理的内存,创建出来的对象、类的信息等内容都会放在这块区域中执行引…

有宠物用哪个牌子的宠物空气净化器,希喂、IAM哪个更值得推荐

由于很喜欢猫咪和狗狗,每天都只想和它们待在一起,一点都不想上班,经过一番深思熟虑后,决定裸辞去开了一家宠物店。还真别说,开了宠物店之后,整个人都舒爽了,还可以摸到很多不同品种的小猫小狗&a…

学习笔记之JS(0830)

1、介绍 1.1 JavaScript (是什么?) javascript是一种运行在客户端(浏览器)的编程语言,实现人机交互效果。作用(做什么?) 网页特效(监听用户的一些行为让万叶…

Java 集合框架与泛型实战指南

Collection: Collection 不唯一,无序 List 不唯一,有序 Set 唯一,无序 ArrayList:内部使用长度可变的数组,遍历查询效率高 LinkedList:采用双向链表实现,增删改效率比较高 ArrayL…

【智能排班系统】Hibernate Validator 参数校验

🎯导读:本文档介绍了参数校验的重要性及其在软件开发中的作用,强调了数据完整性、安全性、用户体验、系统稳定性及开发效率等方面的关键价值。文档详细阐述了Hibernate Validator这一流行的Java验证框架的使用方法,展示了如何利用…

适马相机cf卡剪切的数据还能恢复吗?可尝试这几种方法

“本想把适马相机CF卡里的珍贵数据剪切到电脑上,‌以备不时之需,‌但是不知道怎么回事,剪切后数据既不在电脑上,‌CF卡里也没了,这可真是让我心急如焚!‌求大神指点迷津,‌帮我找回那些重要的文…

Vue 选项式api和组合式api 路由嵌套

选项式api和组合式api是两种不同的语法习惯&#xff0c;<template>标签内还是该怎么写就怎么写&#xff0c;不一样的只是<script>里面的语法改变了。 目录 选项式api&#xff1a; 组合式api&#xff1a; 1)省略各种关键字&#xff1a; 省略前&#xff1a; 省略后…

【Qt】菜单栏

目录 菜单栏 例子&#xff1a;创建菜单栏、菜单、菜单项 例子&#xff1a;给菜单设置快捷键 例子&#xff1a;给菜单项设置快捷键 例子&#xff1a;添加子菜单 例子&#xff1a;添加分隔线 例子&#xff1a;添加图标 菜单栏 Qt中的菜单栏是通过QMenuBar这个类实现的&…

LeetCode --- 412周赛

题目列表 3264. K 次乘运算后的最终数组 I 3266. K 次乘运算后的最终数组 II 3265. 统计近似相等数对 I 3267. 统计近似相等数对 II 一、K次乘预算后的最终数组 I & II I 数据范围比较小&#xff0c;可以暴力模拟&#xff0c;代码如下 class Solution { public:vecto…