从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

news2025/4/16 6:01:03

Bert最近很火，应该是最近最火爆的AI进展，网上的评价很高，那么Bert值得这么高的评价吗？我个人判断是值得。那为什么会有这么高的评价呢？是因为它有重大的理论或者模型创新吗？其实并没有，从模型创新角度看一般，创新不算大。但是架不住效果太好了，基本刷新了很多NLP的任务的最好性能，有些任务还被刷爆了，这个才是关键。另外一点是Bert具备广泛的通用性，就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效果，这个第二关键。客观的说，把Bert当做最近两年NLP重大进展的集大成者更符合事实。

本文的主题是自然语言处理中的预训练过程，会大致说下NLP中的预训练技术是一步一步如何发展到Bert模型的，从中可以很自然地看到Bert的思路是如何逐渐形成的，Bert的历史沿革是什么，继承了什么，创新了什么，为什么效果那么好，主要原因是什么，以及为何说模型创新不算太大，为何说Bert是近年来NLP重大进展的集大成者。我们一步一步来讲，而串起来这个故事的脉络就是自然语言的预训练过程，但是落脚点还是在Bert身上。要讲自然语言的预训练，得先从图像领域的预训练说起。

图像领域的预训练

自从深度学习火起来后，预训练过程就是做图像或者视频领域的一种比较常规的做法，有比较长的历史了，而且这种做法很有效，能明显促进应用的效果。

那么图像领域怎么做预训练呢，上图展示了这个过程&

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/719563.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

web服务端接收多用户并发上传同一文件，保证文件副本只存在一份（附go语言实现）

web服务端接收多用户并发上传同一文件，保证文件副本只存在一份（附go语言实现）

背景对于一个文件服务器来说，对于同一文件，应该只保存一份在服务器上。基于这个原则，引发出本篇内容。本篇仅阐述文件服务器在同一时间接收同一文件的并发问题，这种对于小体量的服务来说并不常见，但是最好还是要留…

阅读更多...

存储协议——FC协议讲解

存储协议——FC协议讲解

目录 FC基础概念 FC协议结构 FC通信 FC交换网络工作流程：（以封装SCSI协议为例） FC拓扑结构 FC协议的端口类型 FC适配器（FC HBA卡） FC基础概念 FC最开始为一种传输协议，由于其性能较高，逐…

阅读更多...

我的小流量“转正”心得 --- 下载下方深度语义重排的实践

我的小流量“转正”心得 --- 下载下方深度语义重排的实践

目录一、背景二、通过数据分析找到的问题三、迭代流程迭代一： 迭代二： 迭代三： 迭代成功的原因： 知识扩展四、hnswlib调优过程五、附录 5.1 hnsw 超参选择一、背景在分发中下载带来的收入占比排列仅次于搜索。…

阅读更多...

重磅｜2024年浙大MPA提前批面试政策公布：申请三步走

重磅｜2024年浙大MPA提前批面试政策公布：申请三步走

说曹操曹操到！昨天还在说浙大MPA提面吃迟迟未公布的事情，晚些时候就来了！等待许久的MPA考生们可以开始着手筹划自己的提面备考了！提前批面试真题周期较长，但是需要做准备的内容确实也不少，本期专注浙大的杭…

阅读更多...

如何区分bin log 、redo log 跟 undo log？

如何区分bin log 、redo log 跟 undo log？

概要 MySQL 日志包含了错误日志、查询日志、慢查询日志、事务日志、二进制日志等，如果存储引擎使用的是 InnoDB ，二进制日志(binlog)和事务日志(包括redo log和undo log) 是肯定绕不过去的，本篇接下来详细为大家介绍这三种日志。 redo log 为…

阅读更多...

Android OpenGL ES实现简单绿幕抠图

Android OpenGL ES实现简单绿幕抠图

目录正文 OES FilterBlendShader Filter最后的效果缺陷正文实现绿幕抠图，其实想法很简单。这里简单粗暴的使用着色器替换。 OES Filter 直接实现在相机预览上的Shader ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 #extension GL_OE…

阅读更多...

Spring Boot 中的 Sleuth 是什么, 如何使用

Spring Boot 中的 Sleuth 是什么, 如何使用

Spring Boot 是一个非常流行的 Java Web 开发框架，它提供了许多方便的功能，其中之一就是 Sleuth。Sleuth 是一个分布式跟踪系统，用于跟踪应用程序中的请求和操作。在本文中，我们将探讨 Spring Boot 中的 Sleuth 是什么&#xff0c…

阅读更多...

git 新建分支，切换分支，上传到远程分支

git 新建分支，切换分支，上传到远程分支

git 在使用的过程中，有的时候我们需要更换一个分支才存贮数据，作为版本的一个迭代或者是阶段性成果的一个里程碑。如何来做操作呢？ 在git中，可利用checkout命令转换分支，该命令的作用就是切换分支或恢复工作树文件&a…

阅读更多...

Linux串口应用编程——STM32MP157

Linux串口应用编程——STM32MP157

文章目录替换设备树文件串口API设置行规程struct termios 结构体行规程函数串口应用——回环替换设备树文件挂载boot分区： mount /dev/mmcblk2 /boot拷贝新的设备树文件到boot分区 cp /mnt/stm32mp157c-100ask-512d-lcd-v1.dtb /bootreboot重启，查…

阅读更多...

C++ set和map使用

C++ set和map使用

搜索平衡二叉树的封装 1. 关联容器2. 键值对3. 树形结构的关联式容器3.1 set3.1.1 set介绍3.1.2 set 的使用1. set模板参数列表2. set的构造3. set 的迭代器4. set的容量5. set修改5. set的使用 3.2 multiset3.2.1 multiset的介绍3.2.1 multiset的使用 3.3 map3.3.1 map的介绍3…

阅读更多...

Could not load the Qt platform plugin “xcb“

Could not load the Qt platform plugin “xcb“

qt.core.plugin.loader: QLibraryPrivate::loadPlugin failed on “/home/ly/Qt/6.5.1/gcc_64/plugins/platforms/libqxcb.so” : “Cannot load library /home/ly/Qt/6.5.1/gcc_64/plugins/platforms/libqxcb.so: (libxcb-cursor.so.0: cannot open shared object file: No su…

阅读更多...

VTK8.2手动卸载

VTK8.2手动卸载

利用源代码方式安装的VTK, 进行手动卸载[参考] 1、进入.. /VTK-8.2.0/build目录 make2、记录sudo make install的log log在uninstall.sh文件中 touch uninstall.sh && chmod 775 uninstall.sh && echo #!/bin/bash -v > uninstall.sh && sudo m…

阅读更多...

【unity实战】制作俯视角射击游戏多种射击效果（一）

【unity实战】制作俯视角射击游戏多种射击效果（一）

文章目录本期目标前言欣赏开始1. 角色移动和场景搭建2. 绑定枪械2.1 首先将各种枪械的素材添加给人物作为子物体2.2 给枪械也分别添加两个子物体用作标记枪口和弹仓位置 3. 枪械动画4. 切换枪械5. 发射功能5.1 手枪(1) 枪械随着鼠标旋转(2) 射击时间间隔(3) 创建好子弹、弹壳和…

阅读更多...

手把手教你如何做手机PCB电磁兼容性设计

手把手教你如何做手机PCB电磁兼容性设计

电磁兼容性是指电子设备在各种电磁环境中仍能够协调、有效地进行工作的能力。电磁兼容性设计的目的是使电子设备既能抑制各种外来的干扰，使电子设备在特定的电磁环境中能够正常工作，同时又能减少电子设备本身对其它电子设备的电磁干扰。 1、选择合理的导…

阅读更多...

【霹雳吧啦Wz】Transformer中Self-Attention以及Multi-Head Attention详解

【霹雳吧啦Wz】Transformer中Self-Attention以及Multi-Head Attention详解

文章目录来源Transformer起源Self-Attention1. 求q、k、v2. 计算 a ^ ( s o f t m a x 那块 ) \hat{a} (softmax那块) a^(softmax那块)3. 乘V，计算结果 Multi-Head Attention位置编码来源 b站视频前天啥也不懂的时候点开来一看，各种模型和公式&#…

阅读更多...

FreeRTOS 低功耗模式设计 STM32平台

FreeRTOS 低功耗模式设计 STM32平台

1. STM32F105RBT6 的三种低功耗模式 1.1 sleep睡眠模式、stop停机模式、standby 待机模式 1.2 STM32中文参考手册有介绍STM32 低功耗模式的介绍 2. FreeRTOS 采用的是时间片轮转的抢占式任务调度机制，其低功耗设计思路一般是： ① 当运行空闲任务&#…

阅读更多...

启动网站调试提示 HTTP 错误 403.14 – Forbidden Web 服务器被配置为不列出此目录的内容。

启动网站调试提示 HTTP 错误 403.14 – Forbidden Web 服务器被配置为不列出此目录的内容。

启动网站调试提示 HTTP 错误 403.14 – Forbidden Web 服务器被配置为不列出此目录的内容。解决方案第一种.在网站的配置文件里添加第二种.ISS管理界面修改解决方案第一种.在网站的配置文件里添加 <system.webServer><directoryBrowse enabled"true" /&…

阅读更多...

【RH850/U2A】：休眠唤醒

【RH850/U2A】：休眠唤醒

休眠唤醒唤醒差异休眠差异休眠是解决整个系统待机时尽可能的减少功耗，相应的唤醒则是低功耗模式下整个系统可以被已知的条件唤醒系统，进而进入全功能模式。 RH850/U2A的配置和RH850/F1KM大同小异，本文只讲述差异部分，其他部分详见【Davinci开发】：IO唤醒系统唤醒差异 …

阅读更多...

API验证器，帮助ReSharper开启VS插件新时代！

API验证器，帮助ReSharper开启VS插件新时代！

实质上，ReSharper特征可用于C#，VB.net，XML，Asp.net，XAML，和构建脚本。使用ReSharper，你可以进行深度代码分析，智能代码协助，实时错误代码高亮显示，解决方案范…

阅读更多...

WideNet:让网络更宽而不是更深

WideNet:让网络更宽而不是更深

这是新加坡国立大学在2022 aaai发布的一篇论文。WideNet是一种参数有效的框架，它的方向是更宽而不是更深。通过混合专家(MoE)代替前馈网络(FFN)，使模型沿宽度缩放。使用单独LN用于转换各种语义表示，而不是共享权重。混合专家(MoEs) 条件计…

阅读更多...

推荐文章

最新文章