BERT模型和Big Bird模型对比

news2024/11/19 1:29:43

BERT模型简介

BERT模型是基于Transformers的双向编码器表示(BERT),在所有层中调整左右情境(学习上下层语义信息)。
Transformer是一种深度学习组件,能够处理并行序列、分析更大规模的数据、加快模型训练速度、拥有注意力机制,能够更好地收集词语相关上下文语境的信息。能够学习其他词语的衍生信息。更改产生更好质量的embedding表示。
双向模型在自然语言处理范围内被广泛应用。文本查看顺序为left-to-right(从左到右)和right-to-left(从右到左)。
BERT适合创建高质量情境化embedding表示。能运用语言建模等自我监督任务(无人工标注)训练BERT模型。
下图是BERT信息流动的方向(BERT能够较好地将文本表示应用于所有层中)在这里插入图片描述

BERT的输入(基于Transformer)

BERT的input embedding主要由Token Embeddings, Segment Embeddings, Position Embeddings相加获得。
I n p u t _ E m b e d d i n g s = T o k e n _ E m b e d d i n g s + S e g m e n t _ E m b e d d i n g s + P o s i t i o n _ E m b e d d i n g s Input\_Embeddings = Token\_Embeddings + Segment\_Embeddings + Position\_Embeddings Input_Embeddings=Token_Embeddings+Segment_Embeddings+Position_Embeddings

  • Token Embeddings,主要将word切分为subword(子词),具体例子为将playing切分为play和##ing。
  • Segment Embeddings,主要用于区分不同句子,比如输入有两个句子,所以Segmnt Embeddings有两种为 E A E_{A} EA E B E_{B} EB
  • Position Embeddings,主要为存储位置信息,BERT 的 Position Embedding 也是通过学习得到的,在 BERT 中,假设句子最长为 512。
    在这里插入图片描述

BERT的预训练任务Mask LM

BERT预训练任务主要为Mask LM任务(掩码预测任务)和Next sentence predict(NSP)(下一句预测)任务。
Mask LM任务较好缓解了双向文本查看顺序的信息泄露问题。信息泄露的图示具体如下(有些模型在编码的时候已知预测的信息)
在这里插入图片描述
BERT在预训练任务Mask LM的时候只预测MASK位置的单词,这样能够更好的利用上下文信息,能够获得更高质量的embedding表示。但在后续的任务中句子都为一个完整的句子(不出现MASK),为了缓解此类问题,在训练过程中采取下列操作,具体操作如下所示。

例句为"my dog is hairy", 选择了hairy 作为MASK。

  • 80%的概率,将句子"my dog is hairy"转化为"my dog is [MASK]"
  • 10%的概率,句子"my dog is hairy"不做任何修改
  • 10%的概率,替换hairy替换为apple,将句子"my dog is hairy"转化为"my dog is apple"

BERT的预训练任务Next Sentence Prediction(NSP)

NSP(next sentence prediction)任务具体如下。先假设有A和B两个句子。BERT将A和B拼接在一起,具体如下所示, [CLS] A1 A2 A3 … An [SEP] B1 B2 B3 … Bn 。在NSP任务中,BERT会有50%的概率选择相连的两个句子(A和B为上下句)A,B。有50%的概率没有选择到相连的两个句子A,B。通过BERT输入的[CLS]的标志位的输出C判断(预测)句子A下一句是否是B。具体情况如图所示。
无

BERT代码

Github上的Bert official code

BERT模型效果

GLUE九个任务的实验结果

在这里插入图片描述

SQuAD1.1任务的实验结果

在这里插入图片描述

Big Bird模型

参考

Big Bird
英伟达bert介绍
彻底理解 Google BERT 模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/799622.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

sftp和scp协议,哪个传大文件到服务器传输速率快?

环境: 1.Win scp 6.1.1 2.XFTP 7 3.9.6G压缩文件 4.Centos 7 5.联想E14笔记本Win10 6.HW-S1730S-S48T4S-A交换机 问题描述: sftp和scp协议,哪个传大文件到服务器速度快? 1.SFTP 基于SSH加密传输文件,可靠性高&am…

Profinet转EtherNet/IP网关连接AB PLC的应用案例

西门子S7-1500 PLC(profinet)与AB PLC以太网通讯(EtherNet/IP)。本文主要介绍捷米特JM-EIP-PN的Profinet转EtherNet/IP网关,连接西门子S7-1500 PLC与AB PLC 通讯的配置过程,供大家参考。 1, 新建工程&…

护网行动:ADSelfService Plus引领企业网络安全新纪元

随着信息技术的飞速发展,企业网络的重要性变得愈发显著。然而,随之而来的网络安全威胁也日益增多,网络黑客和恶意软件不断涌现,给企业的数据和机密信息带来巨大风险。在这个信息安全威胁层出不穷的时代,企业急需一款强…

API攻击原理,以及如何识别和预防

攻击者知道在针对API时如何避开WAF和API网关。以下是一些公司应对API攻击快速增长的示例。 5月初,Pen Test Partners 安全研究员 Jan Masters 发现,他竟然能够在未经身份验证的情况下,向Peloton的官方API提出可获取其它用户私人数据的请求&am…

TEE GP(Global Platform)功能认证产品

TEE之GP(Global Platform)认证汇总 一、功能认证产品介绍 选择Functional和TEE Initial Configuration v1.1,然后SEARCH,可以看到TEE对应的功能认证产品。 二、CK810MFT V3.8, ERAGON V3, ALIBABA CLOUD LINK TEE V1.2.0 参考: GlobalPlatf…

知乎高赞|什么是低代码,强烈推荐!

本文摘自知乎用户吴多益的文章《从实现原理看低代码》,与以往抽象的定义不同,本文是从代码的角度定义低代码,有非常高的学习价值!欢迎大家去看原文。 在讨论各个低代码方案前,首先要明确「低代码」究竟是什么&#xff…

微信联系人批量删除功能如何操作?删除的联系人如何恢复?

继微信推出了朋友圈置顶功能后,微信又推出了"批量删除好友的功能" ,具体的操作步骤如下: 第一步 是点击聊天界面上的搜索框"搜索" 第二步 "搜索"排序字母,点击"更多联系人" 第三步 搜…

GNN的一篇入门 :A Gentle Introduction to Graph Neural Networks

原文链接 A Gentle Introduction to Graph Neural Networks (distill.pub)https://distill.pub/2021/gnn-intro/ 内容简介:本文是“A Gentle Introduction to Graph Neural Networks”的阅读笔记,因为第一次接触GNN,很多深奥的概念不懂&…

a柱透明屏好处和挑战详解

a柱透明屏是一种新型的汽车技术,它可以将车辆的a柱部分变得透明,提高驾驶员的视野和安全性。这项技术的出现,将为驾驶员提供更好的驾驶体验和更高的安全性能。 a柱是汽车车身结构中的一部分,位于车辆前部,连接车顶和车…

wangEditor初探

1、前言 现有的Quill比较简单,无法满足业务需求(例如SEO的图片属性编辑需求) Quill已经有比较长的时间没有更新了,虽然很灵活,但是官方demo都没有一个。 业务前期也没有这块的需求,也没有考虑到这块的扩展…

总结 Android 开发中截取字符串的方法

string str”hello word”;int i5; 1 取字符串的前i个字符 strstr.Substring(0,i); // or strstr.Remove(i,str.Length-i);substring(start,end):substring是截取2个位置之间及start-end之间的字符串2 去掉字符串的前i个字符: strstr.Remove(0,i); // or…

HTTP vs HTTPS: 网络安全的重要转变

文章目录 一、HTTP的缺点1.1 通信使用明文可能会被窃听1.2 不验证通信方的身份就可能遭遇伪装1.3 无法证明报文完整性,可能已遭篡改 二、 HTTP 加密 认证 完整性保护 HTTPS2.1 HTTPS 是身披 SSL 外壳的 HTTP2.2 HTTPS采用混合加密机制2.3 HTTPS存在的问题 一、HTT…

JavaScript --简介

目录 JS可以用来做什么? JS在前端中几种写法: 1. 文件引用: 2. 页面样式 3. 行内样式 集中常见的弹框: JS基本语法: 变量: 常量: 数据类型: 基本数据类型: 引用数据类型&#xff1a…

解决nginx和gateway网关跨域问题Access to XMLHttpRequest

一、为什么会出现跨域问题? 1、什么是跨域 跨域(Cross-Origin Resource Sharing,简称 CORS) 主要是浏览器的同源策略导致的。 同源策略要求浏览器发出的 AJAX 请求只能发给与请求页面域名相同的 API 服务器,如果发给其他域名就会产生跨域问题。 2、什么是同源策略&…

9.NIO非阻塞式网络通信入门

highlight: arduino-light Selector 示意图和特点说明 一个 I/O 线程可以并发处理 N 个客户端连接和读写操作,这从根本上解决了传统同步阻塞 I/O 一连接一线程模型。架构的性能、弹性伸缩能力和可靠性都得到了极大的提升。 服务端流程 1、当客户端连接服务端时&…

按键消抖实现

一、使用状态机实现按键消抖 可将按键按下整个过程看做四个状态:按键空闲状态,按下抖动状态,稳定按下状态,释放抖动状态。 代码实现: /** Description: 状态机方式按键消抖(多按键)* Author: Fu Yu* Date: 2023-07-27…

echarts timeline时间轴鼠标移入停止

echarts timeline时间轴鼠标移入停止 修改autoplay 变量无用,需修改option配置项里autoplay 然后setoption重新渲染生效

Swiper横向循环焦点图实现与解析

一、实现效果 二、样式与结构代码 html: <div class"item center"><div id"certify" class"col-md-12"><div class"swiper-container"><div class"swiper-wrapper"><div class"swiper-sli…

2:SpringIOC

文章目录 一&#xff1a;Spring_IOC概念引入_重要1&#xff1a;Spring解耦合的原理2&#xff1a;创建一个spring项目并实现IOC基本功能 二&#xff1a;Spring_IOC原理分析 ***1&#xff1a;XML解析技术读取配置文件**2**&#xff1a;反射技术实例化对象,放到容器中3&#xff1a…

【C语言】—— 可变参数列表

C语言中的可变参数是一种特殊的函数参数&#xff0c;允许在函数定义中传递可变数量的参数。使用可变参数机制可以使函数更加灵活&#xff0c;可以根据不同的需求接受不同数量或类型的参数。 目录 &#xff08;一&#xff09;概念理解 &#xff08;二&#xff09;代码展示 1…