深度学习笔记之BERT(一)BERT的基本认识

news2024/12/23 6:55:14

深度学习笔记之BERT——BERT的基本认识

引言

从本节开始,将介绍 BERT \text{BERT} BERT系列模型以及其常见的变种形式,主要以逻辑认识为主;并将过去的关于 Transformer \text{Transformer} Transformer的相关内容结合起来,形成通顺逻辑即可。

回顾:Transformer的策略

在Transformer系列文章中介绍了 Transformer \text{Transformer} Transformer的模型架构,而它的策略 Seq2seq \text{Seq2seq} Seq2seq基本相同: t t t时刻状态下,解码器最终预测 t + 1 t +1 t+1时刻词汇的概率分布,并选择我概率最高的词作为输出
P ( o t + 1 ∣ o 1 , o 2 , ⋯   , o t ) \mathcal P(o_{t+1} \mid o_1,o_2,\cdots,o_t) P(ot+1o1,o2,,ot)
因而需要让预测的概率分布和实际概率分布之间的差异最小化,使用交叉熵( Cross Entropy \text{Cross Entropy} Cross Entropy)损失函数即可实现策略的分类任务。

回顾:Word2vec的策略和局限性

在Word2vec的介绍中,提到了 Word2vec \text{Word2vec} Word2vec中两个模型结构: Skipgram,CBOW \text{Skipgram,CBOW} Skipgram,CBOW的构建逻辑。基于长度为 T \mathcal T T语料库 D = { w 1 , w 2 , ⋯   , w T } \mathcal D = \{w_1,w_2,\cdots,w_{\mathcal T}\} D={w1,w2,,wT},需要对联合概率分布 P ( w 1 , w 2 , ⋯   , w T ) \mathcal P(w_1,w _2,\cdots,w_{\mathcal T}) P(w1,w2,,wT)进行建模:
P ( w 1 , w 2 , ⋯   , w T ) = P ( w t ∣ w 1 , ⋯   , w t − 1 , w t + 1 , ⋯   , w T ) ⋅ P ( w 1 , ⋯   , w t − 1 , w t + 1 , ⋯   , w T ) t ∈ { 1 , 2 , ⋯   , T } \mathcal P(w_1,w_2,\cdots,w_{\mathcal T}) = \mathcal P(w_t \mid w_1,\cdots,w_{t-1},w_{t+1},\cdots,w_{\mathcal T}) \cdot \mathcal P(w_1,\cdots,w_{t-1},w_{t+1},\cdots,w_{\mathcal T}) \quad t \in \{1,2,\cdots, \mathcal T\} P(w1,w2,,wT)=P(wtw1,,wt1,wt+1,,wT)P(w1,,wt1,wt+1,,wT)t{1,2,,T}
很明显作为自然语言处理任务, D \mathcal D D的规模必然是不小的;对应联合概率分布的计算也是既复杂的。针对这种情况,使用 3 3 3假设对任务进行约束:

  • 假设 1 1 1:中心词 w t ( t = 1 , 2 , ⋯   , T ) w_t(t=1,2,\cdots,\mathcal T) wt(t=1,2,,T)仅能对其前后 C \mathcal C C个上下文词语产生影响。基于该假设,可以对条件概率 P ( w t ∣ w 1 , ⋯   , w t − 1 , w t + 1 , ⋯   , w T ) \mathcal P(w_t \mid w_1,\cdots,w_{t-1},w_{t+1},\cdots,w_{\mathcal T}) P(wtw1,,wt1,wt+1,,wT)进行化简:
    为了数据有意义,同样需要满足: t − C ≥ 0 ; t + C ≤ T t-\mathcal C \geq 0;t+ \mathcal C \leq \mathcal T tC0;t+CT
    P ( w t ∣ w 1 , ⋯   , w t − 1 , w t + 1 , ⋯   , w T ) ≈ P ( w t ∣ w t − C , ⋯   , w t − 1 , w t + 1 , ⋯   , w t + C ) \mathcal P(w_t \mid w_1,\cdots,w_{t-1},w_{t+1},\cdots,w_{\mathcal T}) \approx \mathcal P(w_t \mid w_{t-\mathcal C},\cdots,w_{t-1},w_{t+1},\cdots,w_{t+\mathcal C}) P(wtw1,,wt1,wt+1,,wT)P(wtwtC,,wt1,wt+1,,wt+C)
  • 假设 2 2 2:各似然结果 P ( w t ∣ w t − C , ⋯   , w t − 1 , w t + 1 , ⋯   , w t + C ) t ∈ { 1 , 2 , ⋯   , T } \mathcal P(w_t \mid w_{t-\mathcal C},\cdots,w_{t-1},w_{t+1},\cdots,w_{t+\mathcal C}) \quad t \in \{1,2,\cdots,\mathcal T\} P(wtwtC,,wt1,wt+1,,wt+C)t{1,2,,T}之间相互独立。可以将完整似然结果表示为:
    均值 1 T \frac{1}{\mathcal T} T1只会影响似然结果变化的范围,而不会影响趋势;
    1 T ∑ t = 1 T log ⁡ P ( w t ∣ w t − C , ⋯   , w t − 1 , w t + 1 , ⋯   , w t + C ) \frac{1}{\mathcal T} \sum_{t=1}^\mathcal T \log \mathcal P(w_t \mid w_{t-\mathcal C},\cdots,w_{t-1},w_{t+1},\cdots,w_{t+\mathcal C}) T1t=1TlogP(wtwtC,,wt1,wt+1,,wt+C)
  • 假设 3 3 3:中心词 w t ( t = 1 , 2 , ⋯   , T ) w_{t}(t=1,2,\cdots,\mathcal T) wt(t=1,2,,T)确定的条件下,作为条件的各词之间同样相互独立。假设 2 2 2中的结果可以继续分解:
    J ( θ ) = 1 T ∑ t = 1 T log ⁡ ∏ i = − C ( ≠ 0 ) C P ( w t ∣ w t + i ) = 1 T ∑ t = 1 T ∑ i = − C ( ≠ 0 ) C log ⁡ P ( w t ∣ w t + i ) \begin{aligned} \mathcal J(\theta) & = \frac{1}{\mathcal T} \sum_{t=1}^{\mathcal T} \log \prod_{i=-\mathcal C(\neq0)}^{\mathcal C} \mathcal P(w_t \mid w_{t+i}) \\ & = \frac{1}{\mathcal T} \sum_{t=1}^{\mathcal T} \sum_{i=-\mathcal C(\neq 0)}^{\mathcal C} \log \mathcal P(w_t \mid w_{t+i}) \end{aligned} J(θ)=T1t=1Tlogi=C(=0)CP(wtwt+i)=T1t=1Ti=C(=0)ClogP(wtwt+i)

上面对应的是 CBOW \text{CBOW} CBOW架构的策略。很明显: 3 3 3个假设都非常苛刻,并且不合语言常理

  • 关于假设 1 1 1:中心词与上下文之间存在关联这个理念没有错,但是将上下文约束在固定大小的范围(窗口) ( − C , C ) (-\mathcal C,\mathcal C) (C,C)显得过于生硬;
  • 关于假设 2 2 2假设 3 3 3窗口内的词中心词后验概率均相互独立,这本身也是对上下文这个概念的一种破坏。

通常也称 Word2vec \text{Word2vec} Word2vec系列模型为静态模型、无上下文模型

BERT \text{BERT} BERT的基本理念

抽象的双向

BERT \text{BERT} BERT( Bidirectional Encoder Representation from Transformers \text{Bidirectional Encoder Representation from Transformers} Bidirectional Encoder Representation from Transformers,基于 Transformer \text{Transformer} Transformer的双向编码器表示) 是针对一般语言的理解任务,使用深层双向 Transformer \text{Transformer} Transformer用来做预训练的模型。该模型的优势之处在于:对于预训练好的 BERT \text{BERT} BERT模型,仅需要增加一个额外的输出层,就可以在 NLP \text{NLP} NLP的相关任务中得到一个不错的结果。

BERT \text{BERT} BERT之所以成功的一个重要原因在于:它是一个基于上下文的嵌入模型。和 Transformer \text{Transformer} Transformer相同,它使用自注意力机制去分析完整句子内各词之间的关联关系,而相反 Word2vec \text{Word2vec} Word2vec这种静态模型,即便存在考虑上下文信息的想法,但各种苛刻、不合理的假设,让上下文信息几乎失去了意义

那么 BERT \text{BERT} BERT是如何实现双向表示的呢 ? ? ? 提到双向,在 Seq2seq \text{Seq2seq} Seq2seq注意力机制执行过程一节中,将编码器部分设置为双向 GRU \text{GRU} GRU结构。当然,无论是双向 GRU \text{GRU} GRU还是双向 LSTM \text{LSTM} LSTM,其本质是两个学习顺序相反的独立结构双向LSTM示例
最终将每个结构产生的特征信息进行拼接,从而得到一个新的融合特征,并基于该特征执行后续步骤。
h u p d a t e = [ h L ; 1 , h L ; 2 , ⋯   , h L ; T ; h L ; 1 , h L ; 2 , ⋯   , h L ; T ] h_{update} = [h_{\mathcal L;1},h_{\mathcal L;2},\cdots,h_{\mathcal L;\mathcal T};h_{\mathcal L;1},h_{\mathcal L;2},\cdots,h_{\mathcal L;\mathcal T}] hupdate=[hL;1,hL;2,,hL;T;hL;1,hL;2,,hL;T]

BERT \text{BERT} BERT中的描述的双向不同于上述结构,它所描述的双向仅是:仅使用 Transformer \text{Transformer} Transformer中的编码器部分作为模型的架构。在 Transformer \text{Transformer} Transformer模型架构一节中编码器部分的多头注意力机制中,其输出的任意头的注意力矩阵 A ( i ) \mathcal A^{(i)} A(i),其矩阵內部的信息是完整的。也就是说:句子中的任意一个词,和句子中的其他词(包含自身),均存在相应的注意力映射关系。自然包含某个被 Mask \text{Mask} Mask词的前向、后向的词。
是个有点抽象意义上的双向~
{ att [ Q ( i ) , K ( i ) ] = Q ( i ) [ K ( i ) ] T d A ( i ) = Softmax { att [ Q ( i ) , K ( i ) ] } V ( i ) \begin{cases} \begin{aligned} & \text{att} \left[\mathcal Q^{(i)},\mathcal K^{(i)} \right] = \frac{\mathcal Q^{(i)} \left[ \mathcal K^{(i)} \right]^T}{\sqrt{d}} \\ & \mathcal A^{(i)} = \text{Softmax} \left\{ \text{att} \left[\mathcal Q^{(i)},\mathcal K^{(i)}\right] \right\} \mathcal V^{(i)} \end{aligned} \end{cases} att[Q(i),K(i)]=d Q(i)[K(i)]TA(i)=Softmax{att[Q(i),K(i)]}V(i)

既然有双向,那自然也有单向。单向自然指 Transformer \text{Transformer} Transformer中的解码器部分。解码器模块中的 Masked Multi-Head Attention \text{Masked Multi-Head Attention} Masked Multi-Head Attention模块,由于需要预测后一个词的概率分布,所以其对应的注意力矩阵是一个 mask \text{mask} mask一半的三角矩阵

BERT的预训练策略

BERT \text{BERT} BERT的预训练策略包含两种:

  • 掩码语言模型训练
    两个示例句子: Paris is a beautiful city  I love Paris \text{Paris is a beautiful city \quad I love Paris} Paris is a beautiful city I love Paris
    将两个句子处理成预期格式:
    分词;第一句开头添加 [ CLS ] [\text{CLS}] [CLS]每个分句后添加 [ SEP ] [\text{SEP}] [SEP]
    tokens = [[CLS], Paris, is, a, beautiful, city, [SEP], I, love, Paris, [SEP]] \text{tokens = [[CLS], Paris, is, a, beautiful, city, [SEP], I, love, Paris, [SEP]]} tokens = [[CLS], Paris, is, a, beautiful, city, [SEP], I, love, Paris, [SEP]]
    在上述 token \text{token} token中随机选择一部分词语进行掩码标记,标记方式为:使用 [ MASK ] [\text{MASK}] [MASK]对被掩码词语进行替换。被选择词语数量与 token \text{token} token长度相关,控制在 token \text{token} token长度的 15 15 15%,这里仅以一个词为例: city \text{city} city
    tokens = [[CLS], Paris, is, a, beautiful, [MASK], [SEP], I, love, Paris, [SEP]] \text{tokens = [[CLS], Paris, is, a, beautiful, [MASK], [SEP], I, love, Paris, [SEP]]} tokens = [[CLS], Paris, is, a, beautiful, [MASK], [SEP], I, love, Paris, [SEP]]
    在论文中,为了优化 BERT \text{BERT} BERT预训练模式下游任务微调模式之间由于掩码标记导致不匹配的问题而提出 80-10-10 规则。即: 80 80 80%的 token \text{token} token使用掩码标记进行替换; 10 10 10%的 token \text{token} token使用随机标记替换,即使用词表中的随机词替换被掩码的词语。这里选择用 love \text{love} love 替换 city \text{city} city
    人为增加噪声提升模型鲁棒性的操作~
    tokens = [[CLS], Paris, is, a, beautiful, love, [SEP], I, love, Paris, [SEP]] \text{tokens = [[CLS], Paris, is, a, beautiful, love, [SEP], I, love, Paris, [SEP]]} tokens = [[CLS], Paris, is, a, beautiful, love, [SEP], I, love, Paris, [SEP]]
    最后 10 10 10%的 token \text{token} token保持不变。将处理好的 token \text{token} token对应的各类 Embedding \text{Embedding} Embedding送入到 BERT \text{BERT} BERT中,对 [ MASK ] [\text{MASK}] [MASK]位置对应的 BERT \text{BERT} BERT输出 R [ MASK ] \mathcal R_{[\text{MASK}]} R[MASK]进行预测:
    R [ MASK ] = P ( [MASK] ∣ Paris,is,a , ⋯   , love,Paris ) \mathcal R_{[\text{MASK}]} = \mathcal P(\text{[MASK]} \mid \text{Paris,is,a},\cdots,\text{love,Paris}) R[MASK]=P([MASK]Paris,is,a,,love,Paris)
    这明显是一个多分类任务。使用 Softmax \text{Softmax} Softmax从当前词表中选择一个概率最高的值对 [ MASK ] [\text{MASK}] [MASK]进行预测,因而对应的策略使用交叉熵损失函数

  • 下句预测
    顾名思义,即 token \text{token} token内的句子之间是否存在前后因果关系。示例 token \text{token} token中自然是满足条件的,具体判断方式是对 [CLS] \text{[CLS]} [CLS]对应的 BERT \text{BERT} BERT输出 R [ CLS ] \mathcal R_{[\text{CLS}]} R[CLS]使用 Softmax \text{Softmax} Softmax进行二分类(有关联/无关联)任务。对应的策略同样是交叉熵损失函数

Transformer \text{Transformer} Transformer相比,虽然都是分类任务, Transformer \text{Transformer} Transformer最终求得的后验概率仅包含正向(单向)顺序;而 BERT \text{BERT} BERT不仅是双向顺序,并且是两种策略共同对权重参数进行反向传播更新。

预训练与微调

  • 在整个预训练过程中,我们使用未标注的数据对词语的 Embedding \text{Embedding} Embedding进行优化,并获取相应对应预训练的权重
    但是这个部分还是交给各个大厂和顶级研究院吧~我们连电费交不起

  • 在后期微调时,我们针对一些具体的下游任务,如文本分类、命名实体识别等,我们新建一个 BERT \text{BERT} BERT模型,并且初始化权重参数是之前预训练得到的参数,而数据是我们自己标注过的数据,针对具体任务,对下游神经网络权重、 BERT \text{BERT} BERT內部权重进行进一步调整(微调),从而得到该任务的BERT版本

Reference \text{Reference} Reference
BERT \text{BERT} BERT论文逐段精读
《BERT基础教程——Transformer大模型实战》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2229401.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【华为HCIP实战课程二十八】中间到中间系统协议IS-IS邻居关系排错,网络工程师

一、ISIS邻居关系条件 1、同一层次(比如Level-2路由器不能和Level-1路由器形成邻居关系) 2、同一区域(L1必须同一区域) 3、同一网段 R1和R2之间分别配置如下IP地址和掩码: R1 的接口S1/0/0掩码为/24 R2的接口S1/0/0配置成掩码/28: 此时R1和R2依然可以建立ISIS邻居关系…

微信小程序,打开新的项目,调试遇见[ app.json 文件内容错误] app.json: 在项目根目录未找到 app.json

1,首先,在开发工具右上角,打开详情;设置基础库;3.6.3 2,第二步,在项目目录下,找到app.json文件存在 3,第三步,修改项目根目录下,project.config.j…

使用RabbitMQ实现微服务间的异步消息传递

使用RabbitMQ实现微服务间的异步消息传递 RabbitMQ简介 安装RabbitMQ 在Ubuntu上安装RabbitMQ 在CentOS上安装RabbitMQ 配置RabbitMQ 创建微服务 生产者服务 安装依赖 生产者代码 消费者服务 消费者代码 运行微服务 消息模式 直接模式 生产者代码 消费者代码 扇出模式 生产…

数字教学的创新引擎:构建数字教学知识库

在教育行业,数字化转型正成为推动教育现代化的重要力量。数字教学知识库作为这一转型的核心组成部分,对于整合教育资源、提升教学质量、促进教育公平具有重要意义。本文将探讨数字教学知识库的构建策略、应用价值,并分析其在教育行业的深远影…

【ArcGISPro】制作简单的ArcGISPro-AI助手

【python】AI Navigator的使用及搭建本机大模型_anaconda ai navigator-CSDN博客 【Python】AI Navigator对话流式输出_ai大模型流式输出效果(打字效果) python-CSDN博客 【C#】调用本机AI大模型流式返回_怎么实现调用本地大模型时实现流式输出-CSDN博客 【ArcGISPro】宣布推…

web文件包含include

php伪协议 在 PHP 中,伪协议(Pseudo Protocols) 也被称为 流包装器,这些伪协议以 php:// 开头,后面跟着一些参数,用于指定 要执行的操作 或 需要访问的资源。 伪协议表明这些协议并不是一个 真实的外部协议…

【力扣打卡系列】验证二叉搜索树

坚持按题型打卡&刷&梳理力扣算法题系列,语言为go,Day17 验证二叉搜索树 题目描述 解题思路 前序遍历:先访问节点值,再访问左右子树有效二叉搜索树的定义 节点的左子树只包含小于当前节点的数节点的右子树只包含大于当前节…

【天线&空中农业】蜜蜂检测系统源码&数据集全套:改进yolo11-ASF

改进yolo11-dysample等200全套创新点大全:蜜蜂检测系统源码&数据集全套 1.图片效果展示 项目来源 人工智能促进会 2024.10.30 注意:由于项目一直在更新迭代,上面“1.图片效果展示”和“2.视频效果展示”展示的系统图片或者视频可…

hive将包含逗号的字段拆分为多列

目录 一、概述 二、行动 1.准备数据 2.数据清洗 3.substring_index函数 4.split函数实现 一、概述 想将hive表中包含逗号的字段按逗号做分隔符进行分列操作 二、行动 1.准备数据 --1 select {1,2,3,4,5,6,7,8} as num_str --使用的数据2.数据清洗 --2 select num_s…

基于MPC控制器的混合动力EMS能量管理系统simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 4.1 MPC 控制器原理 4.2 能量管理模块 4.3 动力模型 5.完整工程文件 1.课题概述 整个系统可以划分为如下几个模块。 其中,能量管理模块其包括:MPC控制器模块,驱动扭…

11-Python基础编程之错误和异常

Python基础编程之错误和异常 概念错误异常 常见的系统异常异常的解决预防捕捉处理异常with语句 手动抛出异常自定义异常 概念 错误 可以通过代码进行修复; 异常 需要提前考虑,设定限制条件;不能通过代码进行修复; 常见的系…

使用 Elastic、OpenLLMetry 和 OpenTelemetry 跟踪 LangChain 应用程序

作者:来自 Elastic Bahubali Shetti Langchain 应用程序的使用正在增长。构建基于 RAG 的应用程序、简单的 AI 助手等的能力正在成为常态。观察这些应用程序更加困难。考虑到现有的各种选项,本博客展示了如何将 OpenTelemetry 检测与 OpenLLMetry 结合使…

b站小土堆PyTorch视频学习笔记(二)

Dataloader:提供不同类型的数据集;为后面的网络提供不同的数据形式 Dataset:提供一种方式去获取数据及其label(标签) 主要实现以下两个功能: {如何获取每一个数据及其lable;告诉我们总共有多少数据} fr…

操作系统实验记录

实验零:虚拟机安装 一、安装vmware虚拟机 与vmware匹配搜索结果 - 考拉软件 (rjctx.com),下载17.5.1版本即可下载后对照教程安装 二、下载iso虚拟驱动 搜索清华大学镜像网站,点击再搜ubuntu,下载这个4.1GB的iso文件安装后打开vmware虚拟机 三、配置vmware虚拟机 右键管…

【YOLO 系列】基于YOLO的行人口罩检测系统【python源码+Pyqt5界面+数据集+训练代码】

前言 在当前全球公共卫生形势下,戴口罩已成为预防呼吸道疾病传播的重要措施。然而,确保每个人都遵守这一规定仍然是一项挑战。为了提高公共场合的口罩佩戴合规性,我们开发了基于YOLO V8的行人口罩检测系统。该系统利用深度学习技术&#xff…

SpringBoot节奏:Web音乐网站构建手册

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常…

《Python游戏编程入门》注-第4章2

《Python游戏编程入门》的“4.2.2 键盘事件”中介绍了通过键盘事件来监听键盘按键的方法。 1 键盘事件 玩家点击键盘中某个按键实际上包含了两个动作:点击按键和释放按键,也就是按键按下和松开。按键按下的对应的事件是KEYDOWN,按键松开对应…

ifuse挂载后,在python代码中访问iOS沙盒目录获取app日志

上一次使用pymobiledevice3,在python代码中访问app的沙盒目录并分析业务日志,在使用过程中发现,在获取app日志的时候速度很慢,执行时间很长,需要30-61秒,所以这次尝试使用libimobiledevic和ifuse&#xff0…

Vue2指令原理手写

文件结构 index.js /** Author: RealRoad* Date: 2024-10-31 17:13:50* LastEditors: Do not edit* LastEditTime: 2024-10-31 17:15:57* Description: * FilePath: \project_10_08\vite-project\src\testVue\index.js*/ import Vue from ./Vue.js window.VueVue Vue.js imp…

信而泰防火墙安全测试解决方案:为网络安全保驾护航

在当今数字化时代,网络安全至关重要。防火墙作为网络安全的第一道防线,其性能和可靠性直接影响到网络的安全性。信而泰提供的防火墙安全测试解决方案,旨在通过全面的测试流程,确保防火墙能够高效、准确地执行其安全任务。 针对防火…