Bert浅谈

Bert浅谈

news2026/2/14 10:48:20

优点

首先，bert的创新点在于利用了双向transformer，这就跟openai的gpt有区别，gpt是采用单向的transformer，而作者认为双向transformer更能够融合上下文的信息。这里双向和单向的区别在于，单向只跟当前位置之前的tocken相连，双向与当前位置之后的tocken也有连接。跟ELMo相比的优势在于，transformer对特征的提取能力比lstm要强得多。
在这里插入图片描述

模型输入

首先是对输入的句子做tocken embedding，也就是将句子映射为一维向量，可以是word2vec的结果，猜想一下，如果不是维度过高也可以是one-hot，第二部分segment embedding 是在模型训练过程中自动学习得到的，猜想这里可以用全连接，也可以用transformer，最后是position embedding，主要用以区别“我喜欢妈妈”和“妈妈喜欢我”，虽然这两句话的单词一样，但是因为位置不同，所以含义不同。
在这里插入图片描述

模型参数

BERTBASE (L=12, H=768, A=12, Total Parameters=110M)

BERTLARGE (L=24, H=1024,
A=16, Total Parameters=340M).

L表示层数，H为隐层维度，A为注意力头的数量

两种任务

Masked LM

这个任务主要是随机将某句话的某几个位置做处理，这里的处理可能是3种，80%的概率用[mask]代替，10%的概率保留原来的单词，10%的概率用其他单词代替。就像是英语考试中的完形填空
在这里插入图片描述

Next Sentence Prediction (NSP)

主要利用输入的第一个tocken[cls]和中间的tocken[sep]，其中cls用来表示后面一句是否为前一句的下一句，sep表示两个句子的间隔。从文本语料库中随机选择 50% 正确语句对和 50% 错误语句对进行训练。就像是与语文中的句子排序。

参考：BERT模型的详细介绍

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1222242.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【小收获】数组在声明时整体赋值的细节

【小收获】数组在声明时整体赋值的细节

在C中，在全局区声明的数组会自动初始化如果没有为全局区的整数类型的数组指定初始值，那么它的元素都会被自动初始化为0。该特性适用于所有整数类型的数组，包括char、short、int、long等。（注:char类型数组自动初始化为0&#xff…

阅读更多...

CCF ChinaSoft 2023 论坛巡礼 | CCF-华为胡杨林基金-软件工程专项（海报）论坛

CCF ChinaSoft 2023 论坛巡礼 | CCF-华为胡杨林基金-软件工程专项（海报）论坛

2023年CCF中国软件大会（CCF ChinaSoft 2023）由CCF主办，CCF系统软件专委会、形式化方法专委会、软件工程专委会以及复旦大学联合承办，将于2023年12月1-3日在上海国际会议中心举行。本次大会主题是“智能化软件创新推动数字经济与社…

阅读更多...

MySQL数据库——存储过程-游标（介绍-声明游标、打开游标、获取游标记录、关闭游标，案例）

MySQL数据库——存储过程-游标（介绍-声明游标、打开游标、获取游标记录、关闭游标，案例）

目录介绍声明游标打开游标获取游标记录关闭游标案例介绍游标（CURSOR）是用来存储查询结果集的数据类型 , 在存储过程和函数中可以使用游标对结果集进行循环的处理。游标的使用包括游标的声明、OPEN、FETCH 和 CLOSE，其语法…

阅读更多...

机器学习第8天：线性SVM分类

机器学习第8天：线性SVM分类

文章目录介绍特征缩放示例代码硬间隔与软间隔分类主要代码代码解释结语介绍作用：判别种类原理：找出一个决策边界，判断数据所处区域来识别种类简单介绍一下SVM分类的思想，我们看下面这张图，两种分类都…

阅读更多...

第六十二周周报

第六十二周周报

学习目标： 一、实验二、论文学习时间： 2023.11.11-2023.11.17 学习产出： 实验 1、CB模块实验效果出来了，加上去效果不太行，后续实验考虑是否将CB模块换到其他地方 2、CiFAR100实验已完成，效果比Vi…

阅读更多...

Unity 场景烘培 ——LensFlare镜头光晕（三）

Unity 场景烘培 ——LensFlare镜头光晕（三）

提示：文章有错误的地方，还望诸位大神指出！ 文章目录前言一、镜头光晕 (Lens Flares)是什么？二、使用Lens Flares组件总结前言一般情况下都会忽略的东西，镜头光晕。理论上不加镜头光晕，也不会有什么影响…

阅读更多...

Pandas 累计统计函数【cumsum、cumprod、cummax、cummin】【计算前1/2/3/…/n个数的和、积、最大值、最小值】

Pandas 累计统计函数【cumsum、cumprod、cummax、cummin】【计算前1/2/3/…/n个数的和、积、最大值、最小值】

一、累计统计函数函数作用cumsum计算前1/2/3/…/n个数的和cummax计算前1/2/3/…/n个数的最大值cummin计算前1/2/3/…/n个数的最小值cumprod计算前1/2/3/…/n个数的积 import numpy as np import pandas as pd# np.nan ：空值 df pd.DataFrame({key1: np.arange(1…

阅读更多...

LoRa知识点记录

LoRa知识点记录

CFO(Central Frequency Offset):：不同设备之间的硬件缺陷引起的，会造成bin 偏移。CFO 引起的 bin 偏移对于preamble和data symbol 都是相同的。我们在FFT之前应用汉明窗口来抑制旁瓣的影响 lora的灵敏度依赖于峰值高度没有零填充会导致峰值高度不稳定 …

阅读更多...

什么是NoSQL？什么是redis？redis是做什么的？

什么是NoSQL？什么是redis？redis是做什么的？

redis官网 NoSQL泛指非关系型数据库，redis是其中的一种，Redis是发展最快的。什么是NoSQL？ NoSQL是一个广义的术语，指的是非关系型数据库，不同于传统的关系型数据库（如MySQL、Oracle等）。它没有…

阅读更多...

反转链表（图解）

反转链表（图解）

LCR 024. 反转链表 - 力扣（LeetCode） 题目描述给定单链表的头节点 head ，请反转链表，并返回反转后的链表的头节点。样例输入示例 1： 输入：head [1,2,3,4,5] 输出：[5,4,3,2,1]示例 2&…

阅读更多...

Spring 如何自己创建一个IOC 容器

Spring 如何自己创建一个IOC 容器

IOC(Inversion of Control),意思是控制反转，不是什么技术，而是一种设计思想，IOC意味着将你设计好的对象交给容器控制，而不是传统的在你的对象内部直接控制。在传统的程序设计中，我们直接在对象内部通过new进行对象创建…

阅读更多...

基础课6——开放领域对话系统架构

基础课6——开放领域对话系统架构

开放领域对话系统是指针对非特定领域或行业的对话系统，它可以与用户进行自由的对话，不受特定领域或行业的知识和规则的限制。开放领域对话系统需要具备更广泛的语言理解和生成能力，以便与用户进行自然、流畅的对话。与垂直领域对话系统相比…

阅读更多...

ChatGPT + DALL·E 3

ChatGPT + DALL·E 3

参考链接： https://chat.xutongbao.top/

阅读更多...

excel怎么能锁住行和/或列的自增长，保证粘贴公式的时候不自增长或者只有部分自增长

excel怎么能锁住行和/或列的自增长，保证粘贴公式的时候不自增长或者只有部分自增长

例如在C4单元格中输入了公式： 现在如果把C4拷贝到C5，D3会自增长为D4： 现在如果想拷贝的时候不自增长，可以先把光标放到C4单元格，然后按F4键，行和列的前面加上了$符号，锁定了： …

阅读更多...

竞赛题目：基于大数据的用户画像分析系统数据分析开题

竞赛题目：基于大数据的用户画像分析系统数据分析开题

文章目录 1 前言2 用户画像分析概述2.1 用户画像构建的相关技术2.2 标签体系2.3 标签优先级 3 实站 - 百货商场用户画像描述与价值分析3.1 数据格式3.2 数据预处理3.3 会员年龄构成3.4 订单占比消费画像3.5 季度偏好画像3.6 会员用户画像与特征3.6.1 构建会员用户业务特征标签…

阅读更多...

一文了解ChatGPT Plus如何完成论文写作和AI绘图

一文了解ChatGPT Plus如何完成论文写作和AI绘图

2023年我们进入了AI2.0时代。微软创始人比尔盖茨称ChatGPT的出现有着重大历史意义，不亚于互联网和个人电脑的问世。360创始人周鸿祎认为未来各行各业如果不能搭上这班车，就有可能被淘汰在这个数字化时代，如何能高效地处理文本、文献查阅、PPT…

阅读更多...

SSL证书哪个品牌最好用？

现在市面上的SSL证书品牌有很多，选购SSL证书时有很多人并不是很清楚，因此有很多伙伴对于选择哪个SSL证书品牌而感到疑惑。今天JoySSL小编就专门介绍下哪些比较好用的SSL证书品牌。 SSL证书兼容性主要包含操作系统、浏览器、服务器三个方面，好…

阅读更多...

SpringBoot-过滤器Filter+JWT令牌实现登录验证

SpringBoot-过滤器Filter+JWT令牌实现登录验证

登录校验-Filter 分析过滤器Filter的快速入门以及使用细节我们已经介绍完了，接下来最后一步，我们需要使用过滤器Filter来完成案例当中的登录校验功能。我们先来回顾下前面分析过的登录校验的基本流程： 要进入到后台管理系统，我…

阅读更多...

windows Oracle Database 19c 卸载教程

windows Oracle Database 19c 卸载教程

目录打开任务管理器停止数据库服务 Universal Installer 卸载Oracle数据库程序使用Oracle Installer卸载删除注册表项重新启动系统打开任务管理器 ctrlShiftEsc可以快速打开任务管理器，找到oracle所有服务然后停止。停止数据库服务在开始卸载之前&a…

阅读更多...

数据库大事记

数据库大事记

数据库分类分类方法为：按数据模型分类、按业务类型分类、按部署方式分类、按存储介质分类。按数据模型分类按业务类型分类按部署方式分类按存储介质分类喜欢点赞收藏，下期再见。

阅读更多...

推荐文章

最新文章