BERT学习笔记

BERT学习笔记

news2026/2/14 14:56:43

论文：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》，2019

代码：[tensorflow]，[pytorch]

来源：李沐精度BERT

0、摘要

与之前模型的区别：

GPT考虑的是一个单向预测，用左边的词预测右边的词；但BERT则是同时利用左边和右边的词，来预测中间的词
ELMO用的BiLSTM，但是它使用的是RNN结构，在应用到下游任务时它需要对模型结构做调整；但BERT使用的是transformer，在下游任务中只需要改上层的一小部分就可以了

基本效果：

11个任务上取得更高的精度
GLUE提升7.7%，至80.5%；MultiL1提升4.6%，至86.7%；SQuAD v1.1提升1.5，至93.2；SQuAD v2提升5.1，至83.1

1、导言

句子层面的任务：情感识别

单词层面的任务：命名实体识别

下游任务使用预训练模型的两种方式：

Feature-based：下游任务先用训练好的预训练模型来提取训练语料的特征，这个特征可能是预训练模型encoder的输出，也可能是某个中间层的隐藏状态；然后下游任务再用这个特征对自己的模型做训练。简单来说，就是用预训练模型做一个特征提取器？
Fine-tuning：根据下游特定的任务，在原来的预训练模型上进行一些结构方面的修改，这些修改通常是在模型的最后一层，使得模型输出是当前任务所需要的；然后在新的语料上重新训练修改后的模型。

之前工作的局限性：从左到右，单向，不太符合人类对语言的理解

MLM：Masked Language Model，带掩码的语言模型

贡献：

（1）展示了双向信息的重要性

（2）第一个基于微调、且在各项任务上都取得优越性能的预训练模型

2、相关工作

非监督的基于特征的方法：代表作是ELMo

非监督的微调方法：代表作是GPT

在有标注的数据上做迁移学习

3、BERT

Pre-training：在无标注的数据上做训练

Fine-tuning：模型首先用预训练好的模型做参数初始化，然后用下游任务标注好的数据对所有的参数做训练

L：transformer块的个数

H：隐藏层的大小

A：自注意力机制模块head的数量

	L	H	A	Total parameters
BERT_Base	12	768	12	110M
BERT_Large	24	1024	16	340M

切词方式：WordPiece（类似于BPE，字节对编码？？）

句子的第一个 token 永远是 [CLS]，它代表 classification，其在最后一个隐藏层的输出就代表整个序列在句子层面的信息。

句子与句子之间用一个 [SEP] 分割，它代表 separate。

上图即为BERT嵌入层的做法，分为三部分：

Token Embedding：词元的嵌入，就是正常的单词嵌入向量
Segment Embedding：词元属于哪一个句子的嵌入，是属于第一个句子，还是属于第二个句子（第一个[SEP]属于第一个句子）
Position Embedding：词元的位置嵌入，是在整个输入序列中的位置（不是在单独某一个句子中的位置）

BERT用的是transformer的编码器（没用decoder），所以它的每一个词都会跟句子中的其他词计算注意力关系。

预训练中两个比较重要的点：（1）目标函数；（2）数据。

任务一：Masked LM，预训练的数据有Mask，但是微调的数据没有Mask，这会带来一些问题（什么问题？？），解决方案是：

15%被选中的待预测词，有80%的概率被替换成 [Mask] 掩码符号，有10%的概率被替换成随机的词元，有10%的概率保持不变但依然去做预测。

在这里插入图片描述

任务二：Next Sentence Prediction（NSP），预测下一个句子

两个句子A和B，50%的概率B是在A之后（正例），有50%的概率B就是从其他地方选取出来的、跟A无关的一个句子（负例）

注：上面的 ## 表示后面的那个词跟前面的词是一个单词，因为 flightless 是一个不常见的单词，所以就把它分开成两个常见的单词flight和less。

BERT的Fine-Tuning：根据下游任务的形式，设计模型的输入和输出（模型本身不需要做太多改变）

如果做分类，就用第一个词元 [CLS] 的输出来做分类；
如果做句子预测，就对每个词元的输出再加一个输出层，做softmax做预测；

4、实验

GLUE：分类任务，对第一个词元 [CLS] 的输出做softmax，然后分类。

SQuAD v1.1：Q&A任务，给模型一段话，然后提一个问题，需要在这段话中找出这个问题的答案，这个答案已经在这段话里面了，模型只需要找出答案片段的开始和结尾。

5、消融实验

BERT用作Feature-Based的效果并不好，用作Fine-Tuning更好一些。

6、结论

（1）使用非监督的预训练是很好的，这使得那些数据量很小的下游任务也能使用神经网络

（2）主要的贡献就是把前人的工作成果扩展到双向的深度结构上

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1467655.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

FairyGUI × Cocos Creator 3.7.3 引入报错解决

FairyGUI × Cocos Creator 3.7.3 引入报错解决

Cocos Creator 3.7.3引入fgui库 package.json添加这个依赖 "devDependencies": {"fairygui-cc": "latest"}执行npm i 报错解决使用import引入fairygui-cc，就会有报错和警告，简单处理一下。鼠标随便点一下也会出警告…

阅读更多...

300分钟吃透分布式缓存-13讲：如何完整学习MC协议及优化client访问？

300分钟吃透分布式缓存-13讲：如何完整学习MC协议及优化client访问？

协议分析异常错误响应接下来，我们来完整学习 Mc 协议。在学习 Mc 协议之前，首先来看看 Mc 处理协议指令，如果发现异常，如何进行异常错误响应的。Mc 在处理所有 client 端指令时，如果遇到错误，就会返回 …

阅读更多...

Ubuntu20.04 查看系统版本号

Ubuntu20.04 查看系统版本号

目录 uname -auname -vlsb_release -acat /etc/issuecat /proc/version uname -a 查看系统发行版本号和操作系统版本 uname -v 查看版本号 lsb_release -a 查看发行版本信息 cat /etc/issue 查看系统版本 cat /proc/version 查看内核的版本号

阅读更多...

Linux笔记--文件与目录

Linux笔记--文件与目录

ls /--查看根目录一、介绍 1.目录结构 // 5.3 FHS (Filesystem Hierarchy Standard ) 文件层次结构标准 (标准规范每个特定的目录应该放什么 bin:全称 binary，含义是二进制。该目录中存储的都是一些二进制文件，文件都是可以被运行的。(一些最经常使…

阅读更多...

多种分布随机数生成[Laplace] Matlab

多种分布随机数生成[Laplace] Matlab

Laplace随机数生成

阅读更多...

洛谷P5741 旗鼓相当的对手-加强版题解

#题外话（第40篇题解）（本题为普及-难度） #先看题目题目链接https://www.luogu.com.cn/problem/P5741 #思路（看代码） #代码 （看思路） #include <bits/stdc.h>//脑子文件 usi…

阅读更多...

VTK通过线段裁剪

VTK通过线段裁剪

线段拆分网格 void retrustMesh(vtkSmartPointer<vtkPolyData> polydata, vtkSmartPointer<vtkPoints> intermediatePoint) {vtkSmartPointer<vtkPoints> srcPoints polydata->GetPoints();int pointSize intermediatePoint->GetNumberOfPoints();/…

阅读更多...

算法【查找算法的概念】

算法【查找算法的概念】

查找算法概念 1、查找的基本概念2、评价查找算法3、问题: 查找过程中我们要研究什么? 1、查找的基本概念查找的概念： 根据给定的某个值，在查找表中确定一个其关键字等于给定值的数据元素或者记录。查找算法也可以叫搜索算法。查找算法就是从一个有序…

阅读更多...

Spring Boot 手写starter！！！

Spring Boot 手写starter！！！

原因：为什么要手写starter？？？ 原因：简化功能。实例：以分页为例：写一个starter。 1.首先定义一个PageX注解。 Target({ElementType.METHOD}) Retention(RetentionPolicy.RUNTIME) Documented p…

阅读更多...

独立版表情包小程序完整版源码前后端源码，附带系统搭建教程

独立版表情包小程序完整版源码前后端源码，附带系统搭建教程

搭建要求： 1.系统要求Nginx 1.18.0PHP-7.2mysql5.6，开启 ssl，php需要安装 sg11 扩展 2.设置伪静态 location / { index index.php index.html index.htm; if (!-e $request_filename) { rewrite ^/(.*)$ /index.php?s$1; } } location /a…

阅读更多...

ESP32 LVGL开发板例程使用记录：自制常用汉字字库（一）

ESP32 LVGL开发板例程使用记录：自制常用汉字字库（一）

需要工具和文件： 1、LVGL官方在线字体转换工具：Online font converter - TTF or WOFF fonts to C array | LVGL 2、字体和常用汉字字库文件：字体字库.7z - 蓝奏云一、制作过程 1、首先打开字体转换工具 2、填入需要的内容，这里…

阅读更多...

ShardingSphere 5.x 系列【15】分布式主键生成器

ShardingSphere 5.x 系列【15】分布式主键生成器

有道无术，术尚可求，有术无道，止于术。本系列Spring Boot 版本 3.1.0 本系列ShardingSphere 版本 5.4.0 源码地址：https://gitee.com/pearl-organization/study-sharding-sphere-demo 文章目录 1. 概述2. 配置3. 内置算法3.1 UUID3.2 Snowflake3.3 NanoId3.4 CosId3.5 Co…

阅读更多...

力扣面试经典150 —— 1-5题

力扣面试经典150 —— 1-5题

力扣面试经典150题在 VScode 中安装 LeetCode 插件即可使用 VScode 刷题，安装 Debug LeetCode 插件可以免费 debug本文使用 python 语言解题，文中 “数组” 通常指 python 列表；文中 “指针” 通常指 python 列表索引文章目录 1. [简单] 合并…

阅读更多...

【Activiti7】全新Activiti7工作流讲解

【Activiti7】全新Activiti7工作流讲解

一、Activiti7概述官网地址：https://www.activiti.org/ Activiti由Alfresco软件开发，目前最高版本Activiti 7。是BPMN的一个基于java的软件实现，不过 Activiti 不仅仅包括BPMN，还有DMN决策表和CMMN Case管理引擎，并且有自己的用户管理、微服务API 等一系列功能，是一…

阅读更多...

C#与VisionPro联合开发——INI存储和CSV存储

C#与VisionPro联合开发——INI存储和CSV存储

1、INI存储 INI 文件是一种简单的文本文件格式，通常用于在 Windows 环境中存储配置数据。INI 文件格式由一系列节（section）和键值对（key-value pairs）组成，用于表示应用程序的配置信息。一个典型的 INI 文…

阅读更多...

Uipath 读取Word模板实现录用通知书PDF批量生成

Uipath 读取Word模板实现录用通知书PDF批量生成

本文主要讲解如何使用Uipath 读取Excel 面试人员信息表，读取Word模板，再批量生成录用通知书PDF文件，该自动化大大提高了HR 的工作效率。注：本方案实现采用无代码模式，通过拖拉控件实现。 1. 数据准备 1.1 面试人员…

阅读更多...

【力扣】Z 字形变换，模拟 + 直接构造

【力扣】Z 字形变换，模拟 + 直接构造

Z 字形变换原题地址方法一：利用二维矩阵模拟对于特殊情况，Z 字形变换后只有一行或只有一列，则变换后的字符串和原字符串相同。对于一般情况，我们可以考虑按照题目要求，把字符串按照 Z 字形存储到二维数组中&…

阅读更多...

高考志愿选择辅助系统

高考志愿选择辅助系统

高考志愿选择辅助系统获取源码——》公主号：计算机专业毕设大全

阅读更多...

回归预测 | Matlab实现SSA-BiLSTM-Attention麻雀算法优化双向长短期记忆神经网络融合注意力机制多变量回归预测

回归预测 | Matlab实现SSA-BiLSTM-Attention麻雀算法优化双向长短期记忆神经网络融合注意力机制多变量回归预测

回归预测 | Matlab实现SSA-BiLSTM-Attention麻雀算法优化双向长短期记忆神经网络融合注意力机制多变量回归预测目录回归预测 | Matlab实现SSA-BiLSTM-Attention麻雀算法优化双向长短期记忆神经网络融合注意力机制多变量回归预测预测效果基本描述程序设计参考资料预测效果基…

阅读更多...

数据结构D4作业

数据结构D4作业

1.实现单向循环链表的功能 loop.c #include "loop.h" loop_p create_loop() { loop_p H(loop_p)malloc(sizeof(loop)); if(HNULL) { printf("创建失败\n"); return NULL; } H->len0; H->nextH; ret…

阅读更多...

推荐文章

最新文章