Bert语言大模型基础

Bert语言大模型基础

news2025/4/11 22:31:32

一、Bert整体模型架构

基础架构是transformer的encoder部分，bert使用多个encoder堆叠在一起。

主要分为三个部分：1、输入部分 2、注意力机制 3、前馈神经网络

bertbase使用12层encoder堆叠在一起，6个encoder堆叠在一起组成编码端，6个decoder堆叠在一起组成解码端。

对于Bert的encoder部分重点关注输入部分

对于transformer来说，输入包括两部分：

1、input embedding：做词的词向量，比如做词的初始化

2、positional encoding：位置编码，使用的是三角函数正余弦函数去代表他。

在Bert中分为了三个部分：

input = token emb + segment emb + position emb

二、Bert的输入部分

1、input

正常词汇： my dog is cute he likes play ## ing

特殊词汇：CLS SEP

这两个存在是因为在Bert预训练时有NSP（Next Sentence Prediction）任务存在，这个任务是用于处理两个句子之间的关系

SEP主要是做句子间隔：之前的是一个句子，SEP之后的是另一个句子。

CLS 的输出向量接一个二分类器，去做一个二分类任务（误区：CLS向量输出不能代表整个句子的语义信息）

2、输入的内容

token embeddings

对input中的所有词汇，包括正常词汇和特殊词汇，都去做正常的embedding比如随机初始化

segment embeddings

由于处理的是两个句子，所以需要对两个句子进行区分，第一个句子使用0来表示，第二个句子使用1来表示；并使用不同的符号来表示。

position embeddings

Bert的输入部分与transformer输入部分很大的不同点：

transformer中使用正余弦函数

Bert使用随机初始化，然后让模型自己去学习出来，整个512的长度，让模型自己去学习出来每个位置应该是什么样子的

三、预训练：MLM+NSP

MLM（Masked Language Modeling）是指掩码语言模型。这是一种预训练语言模型的方法，旨在通过预测被掩码（或称为遮盖、掩盖）的单词来学习语言的上下文表示。

NSP（Next Sentence Prediction）是一个特定的预训练任务，旨在预测两个句子在原始文本中是否连续出现。

BERT 在预训练的时候使用的是大量的无标注的语料，所以在设计的时候，一定会考虑无监督来做。

无监督目标函数

AR: auto regressive,自回归模型：只能考虑单侧的信息，典型的就是GPT

AE:auto encoding，自编码模型：从损坏的输入数据中预测重建原始数据。可以使用上下文信息。

MLM模型

1、基本原理

打破了文本，让他文本重建。模型在周围的文本中学习各种信息，来让预测出来的文本无限接近原本的词汇。就像是让模型根据上下文去做完形填空

2、缺点

mask 和mask之间是独立的，但是在实际中不一定是独立的，而是有关系的。

3、模型概率

随机 mask 15% 的单词 ==》 10%替换成其他 10%原封不动 80%替换成马赛克

后续继续补充。。。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1608235.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

存储过程的使用(一）

存储过程的使用(一）

目录不带参数的存储过程创建一个存储过程，向数据表 dept 中插入一条记录带 IN 参数的存储过程在存储过程中接受来自外部的数值，在存储过程中判断该数值是否大于零并显示输入一个编号，查询数据表emp中是否有这个编号，如果…

阅读更多...

【QT进阶】Qt Web混合编程之使用ECharts显示各类折线图等

【QT进阶】Qt Web混合编程之使用ECharts显示各类折线图等

往期回顾【QT进阶】Qt Web混合编程之QWebEngineView基本用法-CSDN博客【QT进阶】Qt Web混合编程之CMake VS2019编译并使用QCefView（图文并茂超详细版本）-CSDN博客【QT进阶】Qt Web混合编程之html、 js的简单交互-CSDN博客【QT进阶】Qt Web混合编程之使…

阅读更多...

【Web】2022DASCTF Apr X FATE 防疫挑战赛题解(全)

【Web】2022DASCTF Apr X FATE 防疫挑战赛题解(全)

目录 warmup-php soeasy_php warmup-java warmup-php spl_autoload_register函数实现了当程序遇到调用没有定义过的函数时，会去找./class/函数名.php路径下的php文件，并把它包含在程序中。拿到附件拖进Seay里自动审计一下显然利用终点为evaluateExp…

阅读更多...

【面试经典 150 | 二叉树层序遍历】二叉树的右视图

【面试经典 150 | 二叉树层序遍历】二叉树的右视图

文章目录写在前面Tag题目来源解题思路方法一：层序遍历方法二：深度优先搜索写在最后写在前面本专栏专注于分析与讲解【面试经典150】算法，两到三天更新一篇文章，欢迎催更…… 专栏内容以分析题目为主，并附带一些对于…

阅读更多...

MySQL-使用CPP接入到MySQL

MySQL-使用CPP接入到MySQL

📟作者主页：慢热的陕西人 🌴专栏链接：MySQL 📣欢迎各位大佬👍点赞🔥关注🚓收藏，🍉留言本博客主要内容介绍如何在c/cpp代码连接和管理数据库文章目录 MySQL-…

阅读更多...

SpringBoot-自定义注解AOP实现及拦截器示例

SpringBoot-自定义注解AOP实现及拦截器示例

SpringBoot-自定义注解AOP实现及拦截器示例一、四大元注解当你在编写自定义注解时，Target、Retention、Documented 和 Inherited 是四个你可能会用到的元注解，它们可以帮助你更好地定义和使用注解。 1、Target Target 注解用于指定注解可以应用的程…

阅读更多...

响应式修改页面字体字号【大中小】

响应式修改页面字体字号【大中小】

浅浅记录下，工作中遇到的问题，修改页面文本字号。 <p class"change_fontSize">[ 字号 <a href"javascript:doZoom(18)">大</a><a href"javascript:doZoom(16)">中</a><a href"ja…

阅读更多...

Java精品项目--第8期基于SpringBoot的宠物用品商城的设计分析与实现

Java精品项目--第8期基于SpringBoot的宠物用品商城的设计分析与实现

项目使用技术栈 SpringBootThymeleafMyBatisMySQLAopJavajdk1.8 项目介绍项目截图

阅读更多...

嘉立创EDA基础

嘉立创EDA基础

一，原理图部分 （1）路径设置打开嘉立创以后，在右上角点击设置可以看到下图左边栏所有工程为工程路径，常用库为库路径 （2）模式设置同样点击设置，可以看到下面界面下图为在线系…

阅读更多...

【读点论文】YOLOX: Exceeding YOLO Series in 2021，无锚框单阶段目标检测方案，解耦检测头的分类和回归分支，优化标签分配策略

【读点论文】YOLOX: Exceeding YOLO Series in 2021，无锚框单阶段目标检测方案，解耦检测头的分类和回归分支，优化标签分配策略

YOLOX: Exceeding YOLO Series in 2021 Abstract 在本报告中，我们介绍了YOLO系列的一些经验改进，形成了一种新的高性能探测器—YOLOX。我们将YOLO检测器切换到无锚方式，并进行其他先进的检测技术，即去耦头和领先的标签分配策略S…

阅读更多...

【Java EE】依赖注入DI详解

【Java EE】依赖注入DI详解

文章目录 🌴什么是依赖注入🍀依赖注入的三种方法🌸属性注入(Field Injection)🌸构造方法注入🌸Setter注入🌸三种注入优缺点分析 🌳Autowired存在的问题🌲解决Autowired对应多个对象问…

阅读更多...

Compose Canvas

Compose Canvas

文章目录 Compose Canvas概述Canvas属性drawPoints 绘制点drawPoints属性使用 drawLine 绘制线drawLine属性使用 drawRect 绘制矩形drawRect属性使用 drawRoundRect 绘制圆角矩形drawRoundRect属性使用 drawCircle 绘制圆drawCircle属性使用 drawOval 绘制椭圆drawOval属性使用…

阅读更多...

【宝德PI300T G2智能小站开发教程（三）】centos配置系统开发源

【宝德PI300T G2智能小站开发教程（三）】centos配置系统开发源

目录一.前言二.配置dns服务器三.测试连通性四.设置更新源文件一.前言 openeular系统的宝德板子没有更新的国内源，要如何配置？二.配置dns服务器 vi /etc/resolv.conf 添加如下内容： nameserver 8.8.8.8 nameserver 114.114.114.114 三.测试连通性 ping www.ba…

阅读更多...

Python教学入门：流程控制

Python教学入门：流程控制

条件语句（if 语句）： 条件语句用于根据条件的真假执行不同的代码块。 x 10if x > 0: # 如果 x 大于 0print("x 是正数") # 输出：x 是正数 elif x 0: # 如果 x 等于 0print("x 是零") else: # 如果以…

阅读更多...

【C语言】每日一题，快速提升（7）！

【C语言】每日一题，快速提升（7）！

🔥博客主页🔥：【坊钰_CSDN博客】欢迎各位点赞👍评论✍收藏⭐ 题目：X图形示例： 输入： 5 //几行数输出： …

阅读更多...

LLM内存占用计算

LLM内存占用计算

阅读更多...

【GlobalMapper精品教程】074：从Lidar点云创建3D地形模型

【GlobalMapper精品教程】074：从Lidar点云创建3D地形模型

本文基于地形点云数据，基于泊松方法、贪婪三角形测量方法和阿尔法形状创建3d地形模型。文章目录一、加载地形点云数据二、创建三维地形模型1. 泊松方法2. 贪婪三角形测量方法3. 阿尔法形状注意事项一、加载地形点云数据加载配套案例数据包中的data074.rar中的地形点云数据…

阅读更多...

【C语言】【数据结构】项目实践——贪吃蛇游戏（超详细）

【C语言】【数据结构】项目实践——贪吃蛇游戏（超详细）

前言本篇博客我们来实现一个小游戏项目——贪吃蛇，相信肯定很多人都玩过，那么整个贪吃蛇是怎么实现出来的那，这个项目用到了很多方面的知识：C语言函数、枚举、结构体、动态内存管理、预处理指令、链表、Win32 API等。我们就通过这…

阅读更多...

《QT实用小工具·三十二》九宫格炫酷主界面

《QT实用小工具·三十二》九宫格炫酷主界面

1、概述源码放在文章末尾项目实现了九宫格炫酷主界面，下面是项目demo演示： 项目部分代码如下： #pragma execution_character_set("utf-8")#include "frmmain.h" #include "ui_frmmain.h"frmMain::frmMain…

阅读更多...

DeepWalk论文精读

DeepWalk论文精读

介绍图神经网络的开山之作 DeepWalk：一种用于学习网络中顶点的潜在表示的新方法，使用随机行走中获得的局部信息，通过将序列视为句子，节点视为单词通过随机游走可以采样出一个序列，序列好比一句话，节点…

阅读更多...

推荐文章

最新文章