深度学习：bert模型

深度学习：bert模型

news2025/1/16 3:33:40

multi-headed机制

1、通过不同的head得到多个特征表达，一般8个head
2、将所有特征拼接在一起
3、降维，将Z0~Z7连接一个FC全连接实现降维

多层堆叠

位置编码

如何实现位置编码？

（1）为每个时间步添加一个0-1范围内的数字，其中0表示第一个单词，1表示最后一个单词。

我喜欢吃洋葱【0 0.16 0.32.....1】

我真的不喜欢吃洋葱【0 0.125 0.25.....1】

问题：我们可以看到，如果句子长度不同，那么位置编码是不一样，所以无法表示句子之间有什么相似性。

（2）1-n正整数范围分配

我喜欢吃洋葱【1，2，3，4，5，6】

我真的不喜欢吃洋葱【1，2，3，4，5，6，7】

问题：往往句子越长，后面的值越大，数字越大说明这个位置占的权重也越大，这样的方式无法凸显每个位置的真实的权重。

三角函数位置编码

word embedding：是词向量，由每个词根据查表得到

pos embedding：就是位置编码。

composition：word embedding和pos embedding逐点相加得到，既包含语义信息又包含位置编码信息的最终矩阵

pos：指当前字符在句子中的位置（如：”你好啊”，这句话里面“你”的pos=0），

dmodel：指的是word embedding的长度（例“民主”的word embedding为[1,2,3,4,5]，则dmodel=5），

2i表示偶数，2i+1表示奇数。取值范围：i=0,1,...,dmodel−1。

偶数使用公式（1），奇数时使用公式（2）。

当pos=3,dmodel=128时Positional Encoding(或者说是pos embedding)的计算结果为：

优点：

1、可以使PE分布在[0,1][0,1]区间。

2、不同语句相同位置的字符PE值一样(如：当pos=0时，PE=0)。

训练数据

训练数据集是什么？

（方法1）随机的将句子中的15%的词汇进行mask。让模型去预测mask的词汇。注：一般选择字进行mask，词的可能性太多，例如今天，明天，后天，上午，下午，没有，再次等等。

方法2）预测两个句子是否应该连在一起。

CLS：分类标记（Classification Token）用于表示输入序列的开始。在输入序列中，CLS应放置在句子的开头。在训练过程中，CLS也当作一个词参与训练，得到对应与其他词汇关系的词向量。 SEP：分隔符标记（Separator Token）用于分隔两个句子或表示单个句子的结束。在处理多个句子时SEP应放置在每个句子的结尾。在训练过程中，SEP也当作一个词参与训练，得到对应与其他词汇关系的词向量。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2236300.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Vue实战学习(2)（Vue快速入门（快速构建一个局部Vue项目））

Vue实战学习(2)（Vue快速入门（快速构建一个局部Vue项目））

目录一、Vue快速入门。 （1）快速入门的案例需求。 （2）原生js解决。 （3）使用Vue解决。 1、准备一个html页面。且该页面需要引入Vue模块。 2、创建Vue程序的应用实例。 3、准备html元素（如div&…

阅读更多...

SpringMVC学习记录（三）之响应数据

SpringMVC学习记录（三）之响应数据

SpringMVC学习记录（三）之响应数据一、页面跳转控制1、快速返回模板视图2、转发和重定向二、返回JSON数据1、前置准备2、ResponseBody 三、返回静态资源1、静态资源概念2、访问静态资源 /*** TODO: 一个controller的方法是控制层的一个处理器,我们称为h…

阅读更多...

Spring WebFlux 核心原理(2-3)

Spring WebFlux 核心原理(2-3)

1、Project Reactor 高级 1.1、响应式流的生命周期要理解多线程的工作原理以及 Reactor 中实现的各种内部优化，首先必须了解 Reactor 中响应式类型的生命周期。 1.1.1、组装时流生命周期的第一部分是组装时（assembly-time）。 Reactor 提供…

阅读更多...

Python爬虫与Web渗透测试入门指南——初学者防踩雷

Python爬虫与Web渗透测试入门指南——初学者防踩雷

目录 Python爬虫与Web渗透测试入门指南一、学习方向和基础知识Python爬虫学习方向Web渗透学习方向二、具体知识点总结三、学习流程和典型案例案例1：Python爬虫 - 简单网页数据爬取案例2：Web渗透 - SQL注入漏洞检测与利用案例3：Python爬虫 - …

阅读更多...

apache-seata-2.1.0 AT模式使用篇(配置简单)

apache-seata-2.1.0 AT模式使用篇(配置简单)

最近在研究seata的AT模式，先在本地搭建了一个演示demo，看看seata是如何使用的。在网上搜的demo，配置相对来说都比较多。我最终搭建的版本，配置较少，所以写篇文章分享下，希望能帮到对seata感兴趣的小伙伴。先…

阅读更多...

Java代码与数据库纽带——JDBC

Java代码与数据库纽带——JDBC

ok，看了题目，就可以知道今天要分享的是JDBC 讲这个这之前，想讲讲之前的。之前我们操作数据库基本都是通过MySQL客户端，进行编写sql语句来操作的。但是我们在开发中一般都是通过代码来操控数据库的。而且在我们日常开发中&a…

阅读更多...

navicat pg库安装mysql fdw 外表扩展

navicat pg库安装mysql fdw 外表扩展

在Windows上手动安装mysql_fdw（MySQL Foreign Data Wrapper）通常涉及一系列步骤，包括下载源码、编译、配置和测试。以下是一个详细的指南： 一、下载mysql_fdw源码访问mysql_fdw的GitHub发布页面，选择最新版本的源码…

阅读更多...

智能提醒助理系列-jdk8升级到21，springboot2.3升级到3.3

智能提醒助理系列-jdk8升级到21，springboot2.3升级到3.3

本系列文章记录“智能提醒助理”产品建设历程，记录实践经验、巩固知识点、锻炼总结能力。本篇介绍技术栈升级的过程，遇到的问题和解决方案。一、需求出发点智能提醒小程序当前使用的是jdk8，springboot2.3,升级到jdk21和springboot3.3 学…

阅读更多...

雷军-2022.8小米创业思考-11-新零售：用电商思维做新零售，极致的效率+极致的体验。也有弯路，重回极致效率的轨道上。

雷军-2022.8小米创业思考-11-新零售：用电商思维做新零售，极致的效率+极致的体验。也有弯路，重回极致效率的轨道上。

第十一章新零售当我们说到小米模式的时候，其实我们说的是两件东西： 一是小米模式的本质，即高效率的商业模式； 另一件是小米这家公司具象的商业模式，这是小米在实践中摸索、建立的一整套业务模型。从2015年到202…

阅读更多...

人工智能——小白学习指南

人工智能——小白学习指南

知孤云出岫目录 1. **智能评测系统**2. **个性化学习路径推荐**3. **虚拟学习助手**4. **学习行为分析**5. **数据驱动的教学决策**6. **自动化课程推荐**7. **数据隐私与安全保护** 人工智能知识点的总结和学习路线，以数据表格形式呈现，并附带在教育行…

阅读更多...

【深度学习基础】常用图像卷积核类型

【深度学习基础】常用图像卷积核类型

🌈 个人主页：十二月的猫-CSDN博客 🔥 系列专栏： 🏀深度学习_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光目录 1. 前言 2. 常…

阅读更多...

SpringCloud框架学习（第一部分：初始项目搭建）

SpringCloud框架学习（第一部分：初始项目搭建）

目录一、SpringBoot和SpringCloud版本选型 1.Springcloud版本选择 2.Springcloud版本选择 3.Springcloud Alibaba版本选择 4.SpringCloud VS SpringBoot VS SpringCloud Alibaba版本三者制约对应关系二、SpringCloud介绍 1.单体架构 2.微服务架构 3.springcloud 4.S…

阅读更多...

【动手学运动规划】 4.1 图搜的基础

【动手学运动规划】 4.1 图搜的基础

🏰代码及环境配置：请参考环境配置和代码运行! 4.1.1 基础概念 4.1.1.1 Configuration Space(配置空间) configuration: 机器人上每一点位置的完整说明degrees of freedom: 机器人能够独立移动或旋转的关节数量（下图所示有4个自由度&#x…

阅读更多...

如何用彩屏显示精美的动画

如何用彩屏显示精美的动画

1什么样的动画是精美的？ 1）视觉暂留视频播放的原理基于人眼的视觉暂留现象。‌视频是由一系列静态图像（帧）组成的，这些图像以特定的频率（帧率）连续播放，使得人眼无法区分单帧图像&…

阅读更多...

信息安全工程师（81）网络安全测评质量管理与标准

信息安全工程师（81）网络安全测评质量管理与标准

一、网络安全测评质量管理遵循标准和流程网络安全测评应严格遵循国家相关标准和流程，确保测评工作的规范性和一致性。这些标准和流程通常包括测评方法、测评步骤、测评指标等，为测评工作提供明确的指导和依据。选择合格的测评团队测评团队应具备相关…

阅读更多...

【CTFN】基于耦合翻译融合网络的多模态情感分析的层次学习

【CTFN】基于耦合翻译融合网络的多模态情感分析的层次学习

同样用了翻译模块的论文->MTMSA 代码地址->github地址 abstract 多模态情感分析是一个具有挑战性的研究领域，涉及多个异构模态的融合。主要的挑战是在多模式融合过程中出现一些缺失的模式。然而，现有的技术需要所有的模态作为输入，因…

阅读更多...

1.每日SQL----2024/11/7

1.每日SQL----2024/11/7

题目： 计算用户次日留存率,即用户第二天继续登录的概率表： iddevice_iddate121382024-05-03232142024-05-09332142024-06-15465432024-08-13523152024-08-13623152024-08-14723152024-08-15832142024-05-09932142024-08-151065432024-08-131123152024-…

阅读更多...

安利一款开源企业级的报表系统SpringReport

SpringReport是一款企业级的报表系统，支持在线设计报表，并绑定动态数据源，无需写代码即可快速生成想要的报表，可以支持excel报表和word报表两种格式，同时还可以支持excel多人协同编辑，后续考虑实现大屏设计…

阅读更多...

使用ookii-dialogs-wpf在WPF选择文件夹时能输入路径

使用ookii-dialogs-wpf在WPF选择文件夹时能输入路径

在进行WPF开发时，System.Windows.Forms.FolderBrowserDialog的选择文件夹功能不支持输入路径： 希望能够获得下图所示的选择文件夹功能： 于是，通过NuGet中安装Ookii.Dialogs.Wpf包，并创建一个简单的工具类： …

阅读更多...

RHCE---搭建lnmp云存储

RHCE---搭建lnmp云存储

一、恢复快照后，检查安全性（查看selinux 以及防火墙） 二、搭建LNMP环境 [rootserver ~]# yum -y install nginx mariadb-server php*三、上传软件 1、将nextcloud-25.0.1.zip压缩包传递到根目录下 2、解压缩nextcloud-25.0.1.zip &#xf…

阅读更多...

推荐文章

最新文章