BERT的学习

BERT的学习

news2026/2/12 11:36:50

BERT

1.前言

self-supervised learning是一种无监督学习的特殊形式，算法从数据本身生成标签或者目标，然后利用这些生成的目标来进行学习。（也就是说数据集的标签是模型自动生成的，不是由人为提供的。）例如，可以通过在图像中遮挡一部分内容来创建自监督任务，让模型预测被遮挡的内容。self-supervised learning 应用十分广泛，不仅用于文字方面，还可以用于语音和图像上。

在这里插入图片描述

self-supervised Learning 自监督学习的一些模型如下：

ELMO（Embeddings from Language Models）—> 最原始的

BERT（Bidirectional Encoder Representations from Transformers）

ERNIE（Enhanced Representation through Knowledge Integration）

Big Bird（Transformers for Longer Sequences）

GPT-3 —> 有 175 billion 个参数

2.BERT结构

BERT 是一个非常巨大的模型，有340 million 个参数。BERT的架构就是 Transformer 的 Encoder 部分（self-attention，residual，normalization）。

训练BERT有俩种方式：Masking Input 和 Next Sentence Prediction

1.Masking Input

在这里插入图片描述

BERT 的输入，某些部分被随机的盖住，盖住有两种方式（随机的选择一种盖住方式）：

MASK：将句中的一些符号换为MASK符号。（这个MASK是一个新的符号，字典中没有的，表示盖住）
Random：随机把某一个字换为另外一个字（随机从字典中挑选一个词盖住）。

输入通过BERT后就得到了对应的Sequence（但是只关注输入被盖住所输出的 vector），然后通过Linear transformer（Linear transformer的意思就是乘以一个矩阵），并进行Softmax，就可以得到一个有关所有符号的概率分布。在训练的时候，将真实值与预测出来的值进行对比，通过minimize cross entropy不断缩小损失，进而提升模型的ACU。

2.Next Sentence Prediction

在这里插入图片描述

从资料库里面随机选两个句子，在句子中间加入一个特殊符号 [SEP] 来代表分割。在最前面加入一个特别的符号 [CLS]。将这个整体送入BERT中，在得到的sequence中只关注 [CLS] 对应输出的vector。然后经过一个Linear transformer，来进行一个二元的预测（Yes or No），表示这两个句子是否是相连接的。

3.Downstream Tasks

Downstream tasks就是利用BERT真正做的任务。而不是上面的预测某个Masked token，或者判断两句话是否是有连接关系的任务。

BERT 分化为各种任务叫做Fine-tune，中文叫做微调。产生BERT的过程叫做 Pre-train。

3.1 Sentiment analysis

在这里插入图片描述

BERT初始化用的参数是pre-train的初始化参数（也就是用于填空任务的参数），Linear用的参数是Random初始化参数。

3.2 POS tagging（词性标注）

在这里插入图片描述

3.3 NLI（自然语言推理）

在这里插入图片描述

在这里插入图片描述

3.4 Extraction-based Question Answering

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

上面的那两个向量是随机初始化的，BERT初始化依旧是利用pre-train的参数。

4.为什么BERT有用？

BERT输出的向量代表了输入的意思。具有相似含义的符号，输出具有相似的嵌入向量。而且在输出的时候还考虑了上下文，因为内部有一个self-attention的结构。

在这里插入图片描述

5.Multi-lingual BERT

Multi-lingual BERT是一个多语言的BERT模型，再训练BERT的时候是通过许多不同的语言训练出来的。尽管是不同语言，但是每个词的意思是相近的，所以输出的嵌入向量距离就很近，因此效果较好。

在这里插入图片描述

6.GPT

BERT做的是填空题，GPT做的就是预测接下来出现的token是什么。

在这里插入图片描述

首先给一个开始标记，然后通过Linear Transform输出一个embedding向量h1，然后经过Softmax得到一个概率分布，概率最大的就是下一个token的值。（在训练的时候，GPT类似于transformer的decoder，不看右边的输入），下一次将和台输入进去，重复上面的过程。

😃😃😃

本文是根据台大李宏毅教授的BERT课程所做的笔记，有想学习的小伙伴，大家直接去看这个课程就可以了。点击跳转

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1334705.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

＜＜USB2.0＞＞第2章:大局观

＜＜USB2.0＞＞第2章:大局观

2.7、USB外设连接 Full-Speed Hubs High-Speed Hubs

阅读更多...

智能监控平台/视频共享融合系统EasyCVR点击通道后页面分页不显示是什么原因？如何解决？

智能监控平台/视频共享融合系统EasyCVR点击通道后页面分页不显示是什么原因？如何解决？

TSINGSEE青犀视频监控汇聚平台EasyCVR可拓展性强、视频能力灵活、部署轻快，可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等，以及支持厂家私有协议与SDK接入，包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安防视频监控的能力&…

阅读更多...

国产POE芯片-XS2184四通道，兼容 IEEE 802.3at/af，内建 N-MOSFET以太网供电 PSE 控制器

国产POE芯片-XS2184四通道，兼容 IEEE 802.3at/af，内建 N-MOSFET以太网供电 PSE 控制器

XS2184 是一个四通道、供电设备（ PSE ）电源控制器，内建 N 通道 MOSFET ，设计用于 IEEE 802.3at/af 兼容 PSE 。器件提供用电设备（ PD ）侦测、分级、限流以及负载断开检测。器件支持自动工作和软件编程。器…

阅读更多...

Redis缓存常见问题之预热、雪崩、击穿、穿透

Redis缓存常见问题之预热、雪崩、击穿、穿透

👏作者简介：大家好，我是爱吃芝士的土豆倪，24届校招生Java选手，很高兴认识大家📕系列专栏：Spring源码、JUC源码、Kafka原理、分布式技术原理、数据库技术🔥如果感觉博主的文章还不错的…

阅读更多...

如何使用Jellyfin结合内网穿透搭建私人影音平台远程可访问

如何使用Jellyfin结合内网穿透搭建私人影音平台远程可访问

作者简介： 懒大王敲代码，计算机专业应届生今天给大家如何使用Jellyfin结合内网穿透搭建私人影音平台远程可访问，希望大家能觉得实用！ 欢迎大家点赞 👍 收藏 ⭐ 加关注哦！💖💖 前言…

阅读更多...

怎么制作挪车电话二维码？扫码直接拨号的快捷方法

怎么制作挪车电话二维码？扫码直接拨号的快捷方法

怎么制作挪车电话二维码？现在遇到需要挪车情况是，经常会发现很多车主都将自己的联系方式做成二维码图片放在车上，其他车主只需要扫码就可以直接获取手机号拨打，无需自己手动输入手机号，更加的简单方便。那么想要将手机…

阅读更多...

【算法】利用双指针法解决算法题（C++）

【算法】利用双指针法解决算法题（C++）

文章目录 1. 前言2. 双指针法引入283.移动零 3. 使用双指针法解决算法题1089.复写零202.快乐数11.盛最多水的容器[611.有效三角形的个数](https://leetcode.cn/problems/valid-triangle-number/description/)LCR179.查找总价格为目标值的两个商品15.三数之和18.四数之和 1. 前…

阅读更多...

Scala（一）基本类型

Scala（一）基本类型

Scala语言快速入门（基本类型） 一、Linux和Windows环境安装这部分跳过，直接使用IDEA进行搭建，和其他编程语言配置差不多二、HelloWorld 1.object表示一个伴生对象（相当于一个对象）2.HelloWorld是对象的…

阅读更多...

Java项目-瑞吉外卖项目优化Day2

Java项目-瑞吉外卖项目优化Day2

读写分离Linux配置如果只有一台数据库，会导致数据库压力过大，也可能出现磁盘损坏数据丢失的情况。所以考虑借助mysql数据库的主从复制解决以上两个问题。 mysql主从复制的原理实现主从复制的操作注意此处的master_log_file的值和master_log_pos的值要…

阅读更多...

渗透测试——1.1初认识kali

渗透测试——1.1初认识kali

一、kali的下载官方地址：www.kali.org 下载后压缩就可用vmware打开即可（初始账号和密码都是kali） 二、三种网络配置 1、桥接模式：将虚拟机看成局域网中的独立主机 2、NAT模式：将物理机当做路由器（rout…

阅读更多...

php一句话木马变形技巧

php一句话木马变形技巧

一、什么是一句话木马？ 一句话木马就是只需要一行代码的木马，短短一行代码，就能做到和大马相当的功能。为了绕过waf的检测，一句话木马出现了无数中变形，但本质是不变的：木马的函数执行了我们发送的命令。 …

阅读更多...

深度学习 | 基本循环神经网络

深度学习 | 基本循环神经网络

1、序列建模 1.1、序列数据序列数据 —— 时间不同时间上收集到的数据，描述现象随时间变化的情况。序列数据 —— 文本由一串有序的文本组成的序列，需要进行分词。序列数据 —— 图像有序图像组成的序列，后一帧图像可能会受前一帧的影响…

阅读更多...

开源持续测试平台Linux MeterSphere本地部署与远程访问

开源持续测试平台Linux MeterSphere本地部署与远程访问

文章目录前言1. 安装MeterSphere2. 本地访问MeterSphere3. 安装 cpolar内网穿透软件4. 配置MeterSphere公网访问地址5. 公网远程访问MeterSphere6. 固定MeterSphere公网地址前言 MeterSphere 是一站式开源持续测试平台, 涵盖测试跟踪、接口测试、UI 测试和性能测试等功能&am…

阅读更多...

C# 读取Word表格到DataSet

C# 读取Word表格到DataSet

目录功能需求 Office 数据源的一些映射关系范例运行环境配置Office DCOM 关键代码组件库引入核心代码杀掉进程总结功能需求在应用项目里，多数情况下我们会遇到导入 Excel 文件数据到数据库的功能需求，但某些情况下，也存…

阅读更多...

算法中的数学一：判定质数和求约数相关

算法中的数学一：判定质数和求约数相关

1.试除法求质数质数就是大于1的整数中除了1和自身没有其他因数的数 1.1暴力求解暴力求解的思路就是从2遍历到自身判断是否有被整除的数，时间复杂度为O(n)的 bool is_prime(int x) {if(x<2)return false;for(int i2;i<x;i){if(x%i0){return false;}}return…

阅读更多...

$LSTM和GRU vs 循环神经网络RNN$

LSTM和GRU vs 循环神经网络RNN

1、考虑下列三种情况下，对比一下普通RNN的表现和LSTM和GRU表现： （1）早期观测值对预测未来观测者具有非常重要的意义。考虑一个极端情况，其中第一个观测值包含一个校验和， 目标是在序列的末尾辨别校验和是…

阅读更多...

Scala安装

Scala安装

Scala安装使用 windows安装,配置环境变量以下载Scala2.11为例，操作在Windows中安装Scala。官网下载scala2.11：All Available Versions | The Scala Programming Language下载好后安装。双击msi包安装,记住安装的路径。配置环境变量（和配…

阅读更多...

精品Nodejs实现的微信小程序的校园跑腿系统-快递收取件

精品Nodejs实现的微信小程序的校园跑腿系统-快递收取件

《[含文档PPT源码等]精品Nodejs实现的微信小程序的校园跑腿系统[包运行成功]》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、项目发布教程、包运行成功！ 软件开发环境及开发工具： 操作系统：Windows 10、Windows 7、Windows 8 …

阅读更多...

C++:list增删查改模拟实现

C++:list增删查改模拟实现

C:list增删查改模拟实现前言一、list底层双链表验证、节点构造1.1 list底层数据结构1. 2 节点构造二、迭代器封装实现（重点、难点）2.1 前置说明2.2 迭代器实现三、list实现3.1 基本框架3.2 迭代器和const迭代器3.2 构造函数、析构函数、拷贝构造、赋值…

阅读更多...

解决FTP传输慢的问题（ftp传输慢为什么）

解决FTP传输慢的问题（ftp传输慢为什么）

在企业运营中，使用FTP进行文件或数据传输是相当普遍的做法。尽管FTP是一种传统的文件传输工具，但在实际应用中，我们可能会面临传输速度缓慢的问题，这不仅影响工作效率，还浪费时间。为了解决这一问题，我们可…

阅读更多...

推荐文章

最新文章