SpanBert学习

news2024/11/17 21:27:41

SpanBERT: Improving Pre-training by Representing and Predicting Spans

核心点

  1. 提出了更好的 Span Mask 方案,也再次展示了随机遮盖连续一段字要比随机遮盖掉分散字好;
  2. 通过加入 Span Boundary Objective (SBO) 训练目标,增强了 BERT 的性能,特别在一些与 Span 相关的任务,如抽取式问答;
  3. 用实验获得了和 XLNet 类似的结果,发现不加入 Next Sentence Prediction (NSP) 任务,直接用连续一长句训练效果更好

整体结构

1.Span Masking,SM。根据集合分布,随机选择一段span的长度,之后根据均匀分布随机选择这一段的起始位置,然后按照长度进行遮盖。使用几何分布取p=0.2,最大长度为10,通过采样,平均遮盖长度为3.8个词的长度。

2.SBO span boundary objective ,希望被遮盖span边界的词向量,能学习到span的内容。再训练时,取span前后边界的两个词,用这两个词向量加上span中被遮盖词的位置向量,预测原词。

将词向量和位置向量拼接起来,加两层全连接。使用Gelu函数,并使用正则化。

最后预测span中原值时计算新损失,即SBO目标的损失。将该损失与BERT的MLM损失加起来,一起训练模型。

3.NSP ,Next Sentence Prediction任务,SPanBert没有用NSP,使用Single-Sequence Traing。不加入NSP任务判断是否两句是上下句,直接用一句来训练。

训练细节

  1. 训练时用了 Dynamic Masking 而不是像 BERT 在预处理时做 Mask;
  2. 取消 BERT 中随机采样短句的策略
  3. 还有对 Adam 优化器中一些参数改变。

学习自 SpanBert:对 Bert 预训练的一次深度探索 - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1619679.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

蓄能勃发,酷开科技携酷开系统“软硬结合”提升大屏实力

智慧大屏以全新媒体形态之姿在过去几年快速增长,截至去年上半年,国内联网电视总量覆盖达5.26亿,其中智能电视终端活跃量达3.22亿,在PC、Mobile流量增长已显疲态的背景下,大屏的高速发展意味着一个新的赛道的崛起&#…

程序员英语之Spring篇

spring.io/quickstart 本期课程讲解Spring官网的快速上手页面 官网地址 https://spring.io/quickstart Spring Quickstart Guide Spring 快速开始指南 Guide 指南 What you’ll build 接下来你将要构建的是什么? build 构建 You will build a classic “H…

Sectigo证书申请流程及价格介绍

Sectigo 是一家全球知名的数字证书颁发机构(Certificate Authority, CA),自1998年起就开始提供 SSL 证书服务,是全球最早的 CA 机构之一。 一 Sectigo证书申请流程 1 确定证书类型 根据自身的需求确定证书的类型,一…

from_pretrained明明以及下载好模型,却突然不能加载了报错

本人报错:OSError: Error no file named model_index.json found in directory /home/xxx/我的python学习/textToImage/sdxl-turbo. 原因:路径错误导致无法加载模型的配置文件 pipe AutoPipelineForText2Image.from_pretrained("stabilityai/sdx…

Gopher的Rust第一课:Rust的那些事儿

要说这两年后端编程语言谁最火,Rust[1]说自己第二,没人敢说第一。Rust连续8年霸榜stackoverflow最受推崇的编程语言[2],甚至被推特之父Jack Dorsey称为“完美的编程语言”: 注:最火:仅代表人气最旺&#xf…

算法刷题day46

目录 引言一、树的重心二、毕业旅行问题三、高精度乘法 引言 今天复习了一下高精度的所有模板,包括加法、减法、乘法、除法,因为自己当时在蓝桥杯的时候没有看出来那个题使用高精度,因为对于一个数的大小和一个数的长度,自己有时…

【FX110网】股市、汇市一年有多少个交易日?

事实上,作为交易者,重要的是要了解并非每天都是交易日。虽然金融市场在大多数工作日开放交易,但在某些特定情况下无法进行交易。这些非交易日可能因各种原因而发生,包括节假日、周末和市场休市。 通过随时了解假期、交易时间表和市…

报名 | Qt汽车及工业行业解决方案及实战训练 深圳站(5月15日 星期三)

加入我们的Qt技术培训,探索跨平台应用开发的无限可能!本次培训将深入Qt框架,涵盖从基础概念到高级功能的全方位知识,无论您是刚入门的新手还是希望提升技能的资深开发者,都能在此找到适合自己的学习路径。通过实践案例…

《XR806开发板试用》硬件IIC驱动MPU6050

1.环境配置 总结一下遇到的问题: 1.需要修改配置文件中的文件路径 2.固件编译出现以下问题时,需要修改文件内容 2.工程目录结构 device/xradio/xr806/ohosdemo/car_demo └── src #源文件 └── main.c #主函数 └── mpu6050.c #驱动代码 └…

golang 流程控制

流程控制 一 if条件语句 1 if单分支 if条件表达式{ //条件表达式不建议写括号 if后一定要有空格与条件表达式分开 逻辑代码 /大括号一定要写不能省略 } 例如 var age int fmt.Println("请输入学生1年龄:") fmt.Scanln(&age) fmt.Println(&quo…

光伏并网逆变器IEEE 1547测试

光伏并网逆变器IEEE 1547测试 IEEE 1547A-2014 有电力系统的互连配电资源;修改件1 IEEE 1547.2-2008 IEEE 1547《分布式资源与电力系统互连用IEEE标准》应用指南 IEEE 1547-2003 有电力系统的互连配电资源 IEEE P1547/D08-2001 IEEE 1547-2018(Revision of IEEE Std 1547-…

凌恩病原微生物检测系统上线啦,助力环境病原微生物检测

病原微生物是指能够引起人类或动物疾病的微生物,包括病毒、细菌、真菌、衣原体和支原体等。病原微生物可以通过空气、体液等介质传播,危害人体健康,造成财产损失。因此,快速、准确地检测病原微生物对于疫情防控和保障人民生命健康…

C++之类与对象(1)

目录 一、面向对象的思想 二、类 2.1 类的引入 2.2 类的定义 2.3 类的访问限定符及封装 2.3.1 访问限定符 2.3.2 封装 2.3.3 类的作用域 2.3.4 类的实例化 2.4 this指针 一、面向对象的思想 在正式介绍类与对象之前我们首先先简单了解一下面向对象的思想,提到…

4G车牌识别如何实现低功耗AOV唤醒拍照?

车牌识别摄像机,一般的做法是有线方式,并且采用有线网络或者是RJ45网络,如果换个方式,比如在野外工地,矿场,需要识别一些车牌,上传到服务器平台,要考虑的是无线,无电&…

Mybatisplus LambdaQueryWrapper表达式使用DATE_FORMAT比较日期函数

背景&#xff1a; 最近遇到一个问题&#xff0c;数据库保存的日期字段是如下格式 但是我们需要比较的日期为 2020-08-01格式&#xff0c; 所以我们要将日期格式化 使用 Mybatisplus LambdaQueryWrapper的情况下可用下面的方式做参考 LambdaQueryWrapper<SysDicCode> la…

C++“流”风格日志系统实战-课程简介

一个能快速提升C复杂代码设计的学习项目&#xff0c;一个能迅速让C面试官会心一笑的简历项目&#xff0c;一个能在实际项目中使用的项目……学习什么是流&#xff1f;如何利用抽象层面的流编写适用面更广的代码&#xff1f; 每天在用的cout和cin 它们是什么类型&#xff1f;最后…

【SpringBoot整合系列】SpringBoot配置多数据源

目录 背景技术选型配置多数据源思路(以两个为例)代码实现1.导入依赖2.各自的配置 3.各自的dataSourcenews数据库的smbms数据库的注意&#xff1a;Primary注解 4.各自的SqlSessionFactory等news数据库的smbms数据库的 5.去掉启动类头上的MapperScan6.各自的mapper接口7.各自的ma…

书籍发售:七个阶段,让你详细了解“有书共读”的完整发售流程

有书共读发售流程 你要在本子上画一个流程或者是导图上。 首先整个过程分成7个阶段: 第1个:预告阶段, 第2个:售书阶段, 第3个:发货阶段, 第4个:共读阶段, 第5个:发售阶段, 第6个:售卖周期, 第7个:发售结束, 一共7个阶段,最重要的是前5个阶段,第6和7个…

Java 网络编程之TCP(三):基于NIO实现服务端,BIO实现客户端

前面的文章&#xff0c;我们讲述了BIO的概念&#xff0c;以及编程模型&#xff0c;由于BIO中服务器端的一些阻塞的点&#xff0c;导致服务端对于每一个客户端连接&#xff0c;都要开辟一个线程来处理&#xff0c;导致资源浪费&#xff0c;效率低。 为此&#xff0c;Linux 内核…

SVG 绘制微信订阅号icon

效果 代码 <!DOCTYPE html> <html> <body><svg xmlns"http://www.w3.org/2000/svg" version"1.1" width"600" height"600"><rect x"0" y"0" rx"0" ry"0" width&…