【NLP】BERT和原理揭示

news2024/11/24 11:46:03

一、说明

        BERT(来自transformer的双向编码器表示)是Google AI Language研究人员最近发表的一篇论文。它通过在各种NLP任务中展示最先进的结果,在机器学习社区引起了轰动,包括问答(SQuAD v1.1),自然语言推理(MNLI)等。

        BERT的关键技术创新是将流行的注意力模型Transformer的双向训练应用于语言建模。这与以前的工作形成鲜明对比,以前的努力从左到右查看文本序列或从左到右和从右到左的组合训练。论文的结果表明,双向训练的语言模型比单向语言模型具有更深入的语言上下文和流动感。在论文中,研究人员详细介绍了一种名为蒙面LM(MLM)的新技术,该技术允许在以前不可能的模型中进行双向训练。

二、背景资料

        在计算机视觉领域,研究人员反复展示了迁移学习的价值——在已知任务(例如ImageNet)上预先训练神经网络模型,然后进行微调——使用经过训练的神经网络作为新的特定目的模型的基础。近年来,研究人员已经证明,类似的技术在许多自然语言任务中都很有用。

        一种不同的方法,在NLP任务中也很流行,并在最近的ELMo论文中举例说明,是基于特征的训练。在这种方法中,预先训练的神经网络产生词嵌入,然后将其用作NLP模型中的特征。

2.1 BERT如何工作

        BERT利用变形金刚,这是一种注意力机制,可以学习文本中单词(或子单词)之间的上下文关系。在其原版形式中,Transformer 包括两种独立的机制——读取文本输入的编码器和生成任务预测的解码器。由于BERT的目标是生成语言模型,因此只需要编码器机制。Transformer的详细工作原理在Google的一篇论文中进行了描述。

        与按顺序(从左到右或从右到左)读取文本输入的方向模型相反,Transformer 编码器一次读取整个单词序列。因此,它被认为是双向的,尽管说它是非定向的会更准确。此特征允许模型根据单词的所有周围环境(单词的左侧和右侧)学习单词的上下文。

        下图是变压器编码器的高级描述。输入是一系列令牌,这些令牌首先嵌入到向量中,然后在神经网络中进行处理。输出是大小为 H 的向量序列,其中每个向量对应于具有相同索引的输入标记。

        在训练语言模型时,定义预测目标存在挑战。许多模型预测序列中的下一个单词(例如,“孩子从___回家”),这是一种定向方法,本质上限制了上下文学习。为了克服这一挑战,BERT使用两种培训策略:

2.2 Mask-LM(传销)

        在将单词序列输入BERT之前,每个序列中15%的单词将替换为[MASK]标记。然后,该模型尝试根据序列中其他非屏蔽单词提供的上下文来预测被屏蔽单词的原始值。用技术术语来说,输出单词的预测需要:

  1. 在编码器输出顶部添加分类图层。
  2. 将输出向量乘以嵌入矩阵,将它们转换为词汇维度。
  3. 使用 softmax 计算词汇表中每个单词的概率。

        BERT损失函数仅考虑屏蔽值的预测,而忽略非屏蔽词的预测。因此,该模型的收敛速度比定向模型慢,这一特征被其增加的上下文感知所抵消(参见要点#3)。

        注意:在实践中,BERT实现稍微复杂一些,并没有取代所有15%的屏蔽词。 有关其他信息,请参阅附录 A。

2.3 下一句预测 (NSP)

        在BERT训练过程中,模型接收成对的句子作为输入,并学习预测对中的第二个句子是否是原始文档中的后续句子。在训练过程中,50% 的输入是一对,其中第二句是原始文档中的后续句子,而在另外 50% 的输入中,语料库中的随机句子被选择为第二句。假设随机句子将与第一个句子断开连接。

为了帮助模型在训练中区分这两个句子,在进入模型之前,将按以下方式处理输入:

  1. [CLS] 标记插入到第一个句子的开头,[SEP] 标记插入到每个句子的末尾。
  2. 指示句子 A 或句子 B 的句子嵌入将添加到每个标记中。句子嵌入在概念上类似于词汇量为 2 的标记嵌入。
  3. 位置嵌入将添加到每个标记中,以指示其在序列中的位置。位置嵌入的概念和实现在转换器论文中介绍。

资料来源:BERT [Devlin 等人,2018 年],经过修改

为了预测第二个句子是否确实与第一个句子相连,请执行以下步骤:

  1. 整个输入序列通过变压器模型。
  2. [CLS] 令牌的输出使用简单的分类层(学习的权重和偏差矩阵)转换为 2×1 形向量。
  3. 使用 softmax 计算 IsNextSequence 的概率。

在训练BERT模型时,掩码LM和下一句预测一起训练,目的是最小化两种策略的组合损失函数。

2.4 如何使用BERT(微调)

        将BERT用于特定任务相对简单:

        BERT可用于各种语言任务,而只需在核心模型中添加一小层:

  1. 情绪分析等分类任务的完成方式与“下一句”分类类似,方法是在 [CLS] 令牌的转换器输出顶部添加分类层。
  2. 在问答任务(例如 SQuAD v1.1)中,软件接收有关文本序列的问题,并需要在序列中标记答案。使用BERT,可以通过学习两个额外的向量来训练问答模型,这两个向量标志着答案的开始和结束。
  3. 在命名实体识别(NER)中,软件接收文本序列,并需要标记文本中出现的各种类型的实体(人员,组织,日期等)。使用 BERT,可以通过将每个令牌的输出向量馈送到预测 NER 标签的分类层来训练 NER 模型。

在微调训练中,大多数超参数与BERT训练中相同,本文对需要调优的超参数给出了具体的指导(第3.5节)。BERT团队使用这种技术在各种具有挑战性的自然语言任务上取得了最先进的结果,详见本文第4节。

三、特出优点

  1. 模型尺寸很重要,即使在大规模的情况下也是如此。BERT_large有345.110亿个参数,是同类模型中最大的。在小规模任务上,它明显优于BERT_base,后者使用相同的架构,“只有”<>.<> 亿个参数。
  2. 有了足够的训练数据,更多的训练步骤==更高的准确性。例如,在 MNLI 任务中,与相同批量大小的 1K 步相比,在 0M 步(1,128 字的批大小)上训练时,BERT_base准确率提高了 000.500%。
  3. BERT的双向方法(MLM)收敛速度比从左到右的方法慢(因为每批中只预测了15%的单词),但在少量的预训练步骤之后,双向训练仍然优于从左到右的训练。

Source: BERT [Devlin et al., 2018]

四、计算注意事项(训练和应用)

五、结论

        BERT无疑是使用机器学习进行自然语言处理的突破。它平易近人并允许快速微调的事实可能会在未来允许广泛的实际应用。在这个总结中,我们试图描述论文的主要思想,同时不淹没在过多的技术细节中。对于那些希望更深入的人,我们强烈建议阅读其中引用的完整文章和辅助文章。另一个有用的参考是BERT源代码和模型,它们涵盖了103种语言,并由研究团队慷慨地作为开源发布。

六、附录 A — 单词掩码

        在BERT中训练语言模型是通过预测输入中随机选择的15%的令牌来完成的。这些令牌的预处理方式如下 - 80%替换为“[MASK]”令牌,10%替换为随机单词,10%使用原始单词。导致作者选择这种方法的直觉如下(感谢谷歌的Jacob Devlin的见解):

  • 如果我们 100% 使用 [MASK],模型不一定能为非屏蔽词生成良好的标记表示。非屏蔽标记仍用于上下文,但模型已针对预测屏蔽词进行了优化。
  • 如果我们在90%的时间内使用[MASK],在10%的时间内使用随机单词,这将告诉模型观察到的单词永远不会正确。
  • 如果我们在90%的时间内使用[MASK],并在10%的时间内保持相同的单词,那么模型就可以简单地复制非上下文嵌入。

        没有对这种方法的比率进行消融,并且在不同的比率下可能效果更好。此外,模型性能并未通过简单地屏蔽 100% 的选定令牌来测试。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/747231.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PostgreSQL如何设置主键自增?

本文主题&#xff1a;采用Navicat 连接pgSQL库&#xff0c;如何创建表&#xff0c;如何设置主键自增&#xff1f; 1. 如何通过Navicat 连接pgSQL创建表 详细创建过程可以参考天翼云文章&#xff1a; 参考链接&#xff1a;https://www.ctyun.cn/document/10000047/10030641 2…

一篇完整学习JUC并发编程(包含实例源码)

文章目录 JUC并发编程1、什么是JUC?2、线程和进程并发、并行线程有几个状态&#xff1f; 6个wait/sleep区别&#xff1f; 3、Lock锁传统sychronized锁卖票实例使用Lock锁卖票实例sychnorized 和 lock锁区别 4、生产者和消费者问题synorchized版生产者和消费者问题虚假唤醒问题…

【UT学习记录】

系列文章目录 提示&#xff1a;这里可以添加系列文章的所有文章的目录&#xff0c;目录需要自己手动添加 Part1&#xff1a;Mock Part2&#xff1a;PowerMock Part3:Junit 提示&#xff1a;写完文章后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文…

Linux进程信号(二)

信号保存与捕捉 1.相关概念2.信号在内核中的示意图3.信号集4.信号集操作函数5.内核态与用户态6.信号捕捉7.sigaction8.可重入函数8.volatile9.SIGCHLD信号 &#x1f31f;&#x1f31f;hello&#xff0c;各位读者大大们你们好呀&#x1f31f;&#x1f31f; &#x1f680;&#…

hbuilderX自定义主题仿vscode暗黑主题

目录 hbuilderX自定义主题仿vscode暗黑主题 效果图 设置方式&#xff08;把主题代码复制进来即可&#xff09; 是基于雅蓝主题自定义的 设置好后需要切换到雅蓝主题 hbuilderx保存时自动整理代码 1.首先在顶部栏&#xff0c;找到工具&#xff0c;打开设置 2.点击旁边的编…

uniapp做微信小程序,自定义checkbox和radio的样式

用uniapp做个微信小程序&#xff0c;其中有用到自定义checkbox和radio的样式&#xff1b;代码记录如下&#xff1a; 自定义checkbox 在App.vue中写入样式&#xff1a; checkbox.red .wx-checkbox-input,checkbox.red .uni-checkbox-input {background-image: url(/static/ima…

MySQL锁定:死锁及其避免方法

文章目录 一、MySQL锁定和并发控制的重要性二、MySQL锁机制回顾2.1 锁类型&#xff1a;共享锁和排他锁2.2 锁粒度&#xff1a;行级锁和表级锁 三、死锁的原因和场景四、检测和解决死锁4.1 死锁检测算法4.2 死锁处理策略4.3 手动处理死锁 五、死锁的预防和避免分布式环境下&…

驱动程序设计 利用RTC显示年月日时分秒到终端 7.11

驱动控制RTC 用户需求&#xff1a;写一个RTC时钟控制的驱动&#xff0c;实现RTC显示年月日时分秒到用户端 驱动需求&#xff1a;设备&#xff1a;RTC模块 功能&#xff1a;打印显示 寄存器操作&#xff1a; 原理图&#xff1a; 设备–>pin–>设备控制芯片 ​ 驱动需求 …

信号波形时序图常用工具推荐

Refer: 下载&#xff1a;画时序图的四大神器_可编程器件-面包板社区 (eet-china.com) 软件工程师&#xff0c;习惯使用StarUML画Timing Diagram, 硬件工程师建议使用一下软件。 1、AndyTiming 免费的&#xff0c;这个有一个知乎的博文可以参考 https://zhuanlan.zhihu.com/p…

Android 中利用多个Button组合实现选项切换效果

效果图&#xff1a; xml布局: <LinearLayoutandroid:orientation"horizontal"android:layout_width"match_parent"android:layout_height"50dp"android:gravity"center"android:background"color/White">​<Linear…

SpringCloud Alibaba微服务分布式架构组件演变

文章目录 1、SpringCloud版本对应1.1 技术选型依据1.2 cloud组件演变&#xff1a; 2、Eureka2.1 Eureka Server &#xff1a; 提供服务注册服务2.2 EurekaClient &#xff1a; 通过注册中心进行访问2.3 Eureka自我保护 3、Eureka、Zookeeper、Consul三个注册中心的异同点3.1 CP…

Mysql:常见的面试题和答案

1. 数据库事务的特性&#xff1f; 原子性&#xff1a;即不可分割性&#xff0c;事务要么全部被执行&#xff0c;要么就全部不被执行。一致性或可串性。事务的执行使得数据库从一种正确状态转换成另一种正确状态隔离性。在事务正确提交之前&#xff0c;不允许把该事务对数据的任…

华为数通智选交换机S5735S-L24T4S-QA2无法SSH远程访问

以前都是按照华为S5700交换机开启SSH远程访问方法配置不同网段通过静态路由实现互通,华为S5700交换机开启ssh远程登陆,现在新买的华为数通智选交换机S5735S-L24T4S-QA2,也是按照这步骤配置,令人不解的是,竟然无法ssh访问,仔细看了配置也没有发现问题,在华为eNSP模拟器上验…

FreeSwitch 1.10.9 在CentOS7.9编译spandsp版本匹配问题

最近FreeSwitch 1.10.9 在CentOS7.9编译mod_spandsp出问题, making all mod_spandsp make[4]: Entering directory /usr/local/src/freeswitch-1.10.9.-release/src/mod/applications/mod_spandspCC mod_spandsp_la-mod_spandsp.loCC mod_spandsp_la-udptl.loCC …

HTTP以及Servlet的学习

HTTP和Servlet 联系&#xff1a; HTTP是一个通信协议&#xff0c;而Servlet是服务器端程序&#xff0c;用于处理HTTP请求。Servlet通常用于处理HTTP请求&#xff0c;在服务器上生成动态内容&#xff0c;并生成HTTP响应。HTTP协议就是Servlet处理的基础。 区别&#xff1a; …

【MySQL】如何查询MySQL执行过的所有SQL语句

文章目录 1 MySQL 的通常查询日志实验2 参考资料 1 MySQL 的通常查询日志实验 通过 MySQL 的通用查询日志可以找到你指定的每一条 sql 语句。很明显会有严重的性能损耗所以也只会在开发测试时才会使用。 前言&#xff1a;关于本实验与慢日志实验几乎一模一样&#xff0c;故本文…

05-算法部分 (数据结构和算法)

一 排序算法 1.1 冒泡法排序 冒泡排序&#xff08;Bubble Sort&#xff09;是一种简单直观的排序算法。它重复地走访过要排序的数列&#xff0c;一次比较两个元素&#xff0c;如果他们的顺序错误就把他们交换过来。 首先从数组的第一个元素开始到数组最后一个元素为止&#x…

串行FLASH文件系统FatFs-文件系统介绍

目录 串行FLASH文件系统FatFs-文件系统介绍 文件系统介绍 使用SPI FLASH直接存储数据缺点 Windows上的文件系统 磁盘的物理结构 磁盘分区表 文件系统的结构与特性 文件系统的空间示意图 FATFS文件系统 FATFS文件系统简介 1 . 特征 2. 层级结构 FatFs的目录结构 FatF…

文件操作--文件的随机读写、标准输入输出重定向

目录 一、文件的随机读写 二、便准输入输出重定向 一、文件的随机读写 前面的例程执行的都是顺序文件处理&#xff08;Sequential File Processing&#xff09;。在顺序文件处理过程中&#xff0c;数据项是一个接着一个进行读取或者写入的。例如&#xff0c;如果想读取文件中…

HarmonyOS学习路之开发篇—流转(多端协同 一)

多端协同开发 场景介绍 开发者在应用FA中通过调用流转任务管理服务、分布式任务调度的接口&#xff0c;实现多端协同。 主要流程如下&#xff1a; 设备A上的应用FA向流转任务管理服务注册一个流转回调。 Alt1-系统推荐流转&#xff1a;系统感知周边有可用设备后&#xff0c;主…