BERT论文核心点记录

news2026/2/12 12:18:20

BERT适合分类任务（整段分类后者词分类），对生成任务不友好

使用BERT的方法：只需要在预训练好的BERT基础上新增一个输出层，然后用标记好的数据进行有监督微调

Bidirectional Encoder双向Encoder实质上就是指Transformer中的encoder，双向是指在self-attention的每个位置能看到左/右两侧的上下文信息

BERT由两大部分组成

1.预训练

有两种预训练任务

（1）Masked LM

每个sentence随机masked掉15%的token。因为在微调时候是没有[MASK]这个特殊token的，为了弥补预训练和微调时的这个mismatch，作者采用如下策略：

1.80%的概率为[MASK]

2.10%的概率是随机的token

3.10%的概率不改变，仍是原来的token

（2）NSP, Next Sentence Prediction

输入两个句子A和B，B有50%的概率是A的下一句，50%的概率不是。采用[CLS]对应的输出向量进行二分类训练

2.微调

预训练好的模型参数也全部参与训练

额外增加一个输出层进行训练。

本质是分类模型：[CLS]对应输出向量用于整个分类，其余token对应的输出向量用于token-level的分类。用softmax函数实现多分类

网络结构

BERT-BASE, L=12, H=768, A=12，110M即1.1亿参数（和GPT-1具有相近参数）

BERT-LARGE, L=24, H=1024, A=24，340M即3.4亿参数

输入输出表示

为了兼容多种下游任务，BERT输入可以是一个句子或者两个句子，统称为一个Sequence

采用WordPiece embeddings，这样输入字典为3w个token（以空格区分，每个单词作为token的话，字典会非常大）

输入的第一个token永远是[CLS]，[CLS]的BERT输出向量（维度也为H）可用于整个句子的分类

每个输入句子后面都跟一个分隔符[SEP]，因此输入句子对pair的话会有两个[SEP]

每个输入token的embedding由三部分组成，三个embedding都是通过网络学习得到的

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/569111.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【分享】用java和pathon实现小红书(Red Booklet)客服自动回复功能、技术实现分析

【分享】用java和pathon实现小红书(Red Booklet)客服自动回复功能、技术实现分析

技术栈：python、java、android，进程管理、socket通信客户需求： 客户需要在Red Booklet平台做一个可以24小时自动回复用户私信、评论、回关用户等行为的客服软件。他说他们公司有50个小红书号，十几个客服，急需一款代…

阅读更多...

正则表达式和文本三剑客题型练习

正则表达式和文本三剑客题型练习

1、显示/etc/passwd文件中以bash结尾的行； 解释：使用 grep 工具来搜索文件 /etc/passwd 中匹配模式 bash$ 的行。bash$ 是一个正则表达式，其中 $ 表示行结尾。因此，bash$ 匹配以 bash 结尾的行。 grep bash$ /etc/passwd 运…

阅读更多...

四元数转换为欧拉角（多解问题）

四元数转换为欧拉角（多解问题）

车辆行驶状态估计（4）中车辆横摆角信息在顺时针转向时存在明显的错误，进行记录输出 2023-05-25-aft02.txt 四元数： -0.00201210.00115721 -0.0005967610.999997 欧拉角：3.14039四元数： -0.00170584 -0.00…

阅读更多...

RabbitMQ（2）、MQ的问题、消息可靠性

RabbitMQ（2）、MQ的问题、消息可靠性

一、MQ的问题基于上篇存在的问题 1. 问题说明 MQ在分布式项目中是非常重要的， 它可以实现异步、削峰、解耦，但是在项目中引入MQ也会带来一系列的问题。今天我们要解决以下几个常见的问题： 消息可靠性问题：如何确保消息被成功送…

阅读更多...

MySQL — SQL 优化

MySQL — SQL 优化

文章目录 SQL 优化一、插入数据二、主键优化2.1 数据组织方式2.2 页分裂2.3 页合并2.4 主键设计原则三、 Order by 优化3.0 排序方式讲解3.1 升序/降序联合索引结构图示3.2 总结四、Group by优化五、limit优化六、 count优化七、update优化七、update优化 SQL 优化一、插入…

阅读更多...

【MySQL 数据库】5、存储引擎

【MySQL 数据库】5、存储引擎

目录一、MySQL 体系结构二、存储引擎简介三、InnoDB 存储引擎四、MyISAM五、Memory六、三大存储引擎比较七、存储引擎的选择一、MySQL 体系结构连接层最上层是一些客户端和链接服务，包含本地sock 通信和大多数基于客户端/服务端工具实现的类似于TCP/IP的通信。主…

阅读更多...

07:MYSQL----多表查询

07:MYSQL----多表查询

目录 1:多表查询概述 2:多表查询分类 3:内连接 3:外连接 4:自连接 5:联合查询-union，union all 6:子查询 1:多表查询概述 select * from emp , dept; emp:表中有6条数据, dept表中有5条数据只查询出来的数据为:30条概述:指从多张表中查询数据笛卡尔积…

阅读更多...

在vite或者vue-cli中使用.env[mode]环境变量

在vite或者vue-cli中使用.env[mode]环境变量

在项目中总会遇到一些默认的配置,需要我们配置到静态文件中方便我们去获取,这时候就可以用到这个.env环境变量文件,在cli创建的项目中顶层的nodejs会有一个process对象,这个对象可以根据不同的环境获取不同的环境配置文件,但是vite中获取变量的方式不一样。创建变量文件.env.…

阅读更多...

如何编写接口自动化框架系列之requests详解(三)

如何编写接口自动化框架系列之requests详解(三)

目录 1.http协议 2.requests介绍 3.requests的主要功能 3.requests的主要功能 3.1 场景1-常用方法 3.2 场景2-通用方法 3.3 场景3-cookies认证方式 4.requests 在项目中的实践 4.1 在接口层实现一个接口 4.2 在测试用例层调用 4.3 项目总结本文是接口自动化测试框架…

阅读更多...

IOC初始化 IOC启动阶段 (Spring容器的启动流程)

IOC初始化 IOC启动阶段 (Spring容器的启动流程)

[toc](IOC初始化 IOC启动阶段 (Spring容器的启动流程)) IOC初始化 IOC启动阶段 (Spring容器的启动流程) Resource定位过程：这个过程是指定位BeanDefinition的资源，也就是配置文件（如xml）的位置，并将其封装成Resource对…

阅读更多...

Makefile基础教程（make的隐式规则）

Makefile基础教程（make的隐式规则）

文章目录前言一、什么是make的隐式规则二、makefile中出现同名目标时三、一些常见的隐式规则四、查看隐式规则五、隐式规则缺点六、禁用隐式规则1.全局禁用2.局部禁用总结前言本篇文章将给大家介绍make的隐式规则。一、什么是make的隐式规则 Make 的隐式规则是指 Make …

阅读更多...

css选择器及其权重

css选择器及其权重

1. 类型选择器 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevice-wid…

阅读更多...

【ZYNQ】裸机 PS + PL 双网口实现之 ZYNQ 配置

【ZYNQ】裸机 PS + PL 双网口实现之 ZYNQ 配置

目前，在 ZYNQ 中进行以太网开发的方案，大部分都是基于通过 PS 的 MIO 以 RGMII 接口连接外部 PHY 芯片的方式。但是，由于使用 PS 的 MIO 只能以 RGMII 接口连接外部 PHY 芯片，这就限制了支持其他接口 PHY 芯片的使用，如…

阅读更多...

分文件实现温湿度数据管理系统项目

分文件实现温湿度数据管理系统项目

目标： 了解分文件的概念，要依次从C语言的函数声明、变量的存储类别、C语言编译预处理，说起。这些知识点我们之前或多或少接触过，这里做个总结与拓展。经过总结，最后我们归纳出一个实现C语言模块化编程的技巧&#xff…

阅读更多...

03-bootstrap-响应式布局-栅格系统

03-bootstrap-响应式布局-栅格系统

一、概述 1、栅格系统是 Bootstrap 中响应式布局的重要组成部分，旨在实现页面元素的自适应排版。Bootstrap 栅格系统将屏幕宽度分为 12 列，通过在 HTML 元素上添加相应的类名，可以让元素占据指定数量的列数，从而实现灵活的布局效…

阅读更多...

5种易实现的Linux和 Windows VPS速度提升方法

5种易实现的Linux和 Windows VPS速度提升方法

　　无论是Linux VPS还是Windows VPS，网站速度的提高都是非常重要的。它们在提高网站速度方面都有很多的优化方法。下面我们将介绍 5 种提高网站速度的方法。 1.通过缓存加速缓存通常是用来加快商业网站加载时间的技术，因此它也可以用在 VPS 上。没有…

阅读更多...

车架号查车辆信息-vin查车辆信息api接口

车架号查车辆信息-vin查车辆信息api接口

接口地址： https://登录后显示/pyi/88/264(支持:http/https)) 在线查询：https://www.wapi.cn/car_vin.html 网站地址：https://www.wapi.cn 返回格式：json,xml 请求方式：GET,POST 请求说明： Md5验证方式-…

阅读更多...

字符串、字符串列表，倒序生成字典。

字符串、字符串列表，倒序生成字典。

带数字的字符串以数字为key倒序生成字典，字符串列表按其元素索引为key倒序生成字典。【学习的细节是欢悦的历程】 Python 官网：https://www.python.org/ Free：大咖免费“圣经”教程《 python 完全自学教程》，不仅仅是基础那么简…

阅读更多...

【MySQL】-- 表的操作

【MySQL】-- 表的操作

目录表的操作创建表创建表案例查看表结构查看表结构案例查看历史上表的创建语句修改表修改表实例新增列属性修改列属性删除列属性修改列名修改表名删除表表的操作创建表语法： CREATE TABLE (if not exists) table_name (fie…

阅读更多...

【MyBatisPlus框架】

【MyBatisPlus框架】

文章目录 MyBatisPlus1.概述1.1 简介1.2特性1.3支持数据库1.4框架结构 2.入门案例2.1 创建数据库以及表2.2 创建工程2.2.1引入依赖 2.3编写代码 3.基本CRUD3.1BaseMapper3.2插入3.3删除3.4修改3.5查询3.6通用Service 4.常用注解4.1TableName4.1.1问题4.1.2通过TableName解决上述…

阅读更多...

推荐文章

最新文章