69 BERT预训练_by《李沐：动手学深度学习v2》pytorch版

69 BERT预训练_by《李沐：动手学深度学习v2》pytorch版

news2026/2/13 18:20:13

系列文章目录

文章目录

系列文章目录
NLP里的迁移学习
Bert的动机
Bert架构
对输入的修改
五、预训练任务
- 1、
- 2、
- 3、
六、
- 1、
- 2、
- 3、
七、
- 1、
- 2、
- 3、
八、
- 1、
- 2、
- 3、

NLP里的迁移学习

之前是使用预训练好的模型来抽取词、句子的特征，例如 word2vec 或语言模型这种非深度学习的模型
一般抽完特征后，在做迁移学习时不更新预训练好的模型
迁移学习前做好的工作所抽取的特征是个比较底层的特征，一般当作embedding用，做自己的工作时需要构建新的网络来抓取新任务需要的信息。之前的工作，比如Word2vec忽略了时序信息，语言模型只看了一个方向，RNN不好处理特别长的序列，所以他也就看了很短的一段东西而已。

Bert的动机

在这里插入图片描述

想研发相似于CV方面的，基于微调的NLP模型，除了输出层，其他层的参数我是可以复用的，我可以挪到其他任务中去。
预训练的模型抽取了足够多的信息
新的任务只需要增加一个简单的输出层

Bert架构

Bert从结构上来讲就是一个只保留了编码器的Transformer，创新很简单，后面在输入和 $L oss$ 上还有创新。
两个版本：

Base:#blocks=12,hidden size=768,#heads = 12
#parameters=110M 参数相比较Transformer大很多，模型深很多。
Large:#blocks=24, hidden size= 1024,#heads = 16
#parameter=340M

在大规模数据上训练>3B 词

对输入的修改

之前Transformer是比如说把一个句子和他的翻译当作数据和标签进行训练，在encoder中放入数据，decoder中放入标签。现在bert只有encoder，怎么办？
在这里插入图片描述

这个<CLS>用来表示句子开头，<sep>表示这个句子结束，后面是下一个句子，所以可以输入多个句子。但只是这样对Transformer不太好区分哪几个词是一个句子，所以加了Segment Embeddings，通过不同标志来标记句子。最上面是一个可以学的Position Embedddings。

五、预训练任务

1、

2、

3、

六、

1、

2、

3、

七、

1、

2、

3、

八、

1、

2、

3、

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2186848.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

香酥胡麻饼一口沦陷的传统美食

香酥胡麻饼一口沦陷的传统美食

🥯美食发现 | 胡麻饼，一口咬出的千年韵味🥯😋宝子们，今天我要给大家分享一款超级有历史底蕴的美食 —— 食家巷胡麻饼。 ✨食家巷胡麻饼，那可是有着悠久历史的传统美食。在古代，它就备受人们喜…

阅读更多...

【算法】链表：160.相交链表（easy）+双指针

【算法】链表：160.相交链表（easy）+双指针

系列专栏《分治》《模拟》《Linux》目录 1、题目链接 2、题目介绍 3、解法（双指针） 返回结果算法正确性时间复杂度 4、代码 1、题目链接 160. 相交链表 - 力扣（LeetCode） 2、题目介绍 3、解法（…

阅读更多...

MISC -第十天(音符加解密、敲击码、NtfsStreamsEditor工具)

MISC -第十天(音符加解密、敲击码、NtfsStreamsEditor工具)

前言各位师傅大家好，我是qmx_07，今天继续讲解MISC的相关知识 [MRCTF2020]你能看懂音符吗附件信息: rar文件无法打开，显示损坏，先放到hxd查看头标识错误，尝试修复 rar标识头(52 61 72 21) 压缩包里有一个d…

阅读更多...

4个顶级的大模型推理引擎

4个顶级的大模型推理引擎

LLM 在文本生成应用中表现出色，例如具有高理解度和流畅度的聊天和代码完成模型。然而，它们的庞大规模也给推理带来了挑战。基本推理速度很慢，因为 LLM 会逐个生成文本标记，需要对每个下一个标记进行重复调用。随着输入序列的增长&…

阅读更多...

【游戏模组】星际争霸1代模组燃烧之地，泰伦帝国对决UED。特效华丽兵种巨多特别好玩

【游戏模组】星际争霸1代模组燃烧之地，泰伦帝国对决UED。特效华丽兵种巨多特别好玩

各位星际争霸1代的粉丝大家好，今天小编给大家带来一个星际争霸1代的模组，这个模组的名字叫燃烧之地，主要是2个阵营。玩家可以扮演UED或者泰伦帝国中的一个来进行比赛。这个模组设定的世界线背景是在异虫入侵并随后被星灵消灭后，…

阅读更多...

昇思MindSpore进阶教程--梯度累加

昇思MindSpore进阶教程--梯度累加

大家好，我是刘明，明志科技创始人，华为昇思MindSpore布道师。技术上主攻前端开发、鸿蒙开发和AI算法研究。努力为大家带来持续的技术分享，如果你也喜欢我的文章，就点个关注吧正文开始本教程介绍梯度累加的训练算法…

阅读更多...

C（十一）scanf、getchar（第三弹）

C（十一）scanf、getchar（第三弹）

问题引入：如何实现输入一串密码，如：“123 xxxx” ，然后读取并确认，是 -- Y；否 -- N。自然的，我们想到用scanf，但是在使用过程中你是否遇到跟我一样的困惑呢？如下&…

阅读更多...

【Linux】进程管理：状态与优先级调度的深度分析

【Linux】进程管理：状态与优先级调度的深度分析

✨ 山海自有归期，风雨自有相逢 🌏 📃个人主页：island1314 🔥个人专栏：Linux—登神长阶 ⛺️ 欢迎关注：👍点赞 &#x1…

阅读更多...

华为技术经理总结Java技术栈思维导图

华为技术经理总结Java技术栈思维导图

最近帮在读大四的学生做了一个java项目，使用Spring bootVue3做了一个机器学习在线训练和服务的平台，发现他的Java技术栈并不全面，希望在下面分享一下Java技术栈，能够帮助到正在参加秋招或者是准备找工作的朋友们： 完整…

阅读更多...

Vue.js 组件开发知识详解

Vue.js 组件开发知识详解

✅作者简介：2022年博客新星第八。热爱国学的Java后端开发者，修心和技术同步精进。 🍎个人主页：Java Fans的博客 🍊个人信条：不迁怒，不贰过。小知识，大智慧。 💞当前专栏…

阅读更多...

为什么我可以做系统架构师？

为什么我可以做系统架构师？

人人都可以做产品经理，但是却没有人随随便便成为系统架构师，系统架构师为什么这么稀缺，因为系统架构师要求的能力是十分全面的，首先技术基本功要非常扎实，其次是你的统筹能力，一个项目交到你手上&#xff0…

阅读更多...

软件管理【1.10】

软件管理【1.10】

软件管理【1.10】 13、软件管理13.1.包管理工具rpm13.2.yum和dnf13.2.1.配置yum源13.2.2.只下载安装包，不安装13.2.3.配置本地光盘ISO文件安装13.2.4.配置阿里云epel源13.2.5.base-for-centos7.repo13.2.6.base-for-rocky8.repo13.3.搭建私有yum仓库13.3.1.Apache实现网战功能…

阅读更多...

力扣题解 1928

力扣题解 1928

题目描述（困难） 规定时间内到达终点的最小费用一个国家有 n 个城市，城市编号为 0 到 n - 1 ，题目保证所有城市都由双向道路连接在一起。道路由二维整数数组 edges 表示，其中 edges[i] [xi, yi, timei] 表示城市…

阅读更多...

提示词工程实践

提示词工程实践

本讲义主要以text2SQL为场景进行讲解，包括提示词的编写和闭源模型调用、本地开源模型部署调用以及基于开源模型的微调。回顾下大模型学习思路： 1. 开发环境准备 1.1 代码代码位于【算法管理】->【公共算法】->【prompts_engineering_04】&…

阅读更多...

leetcode每日一题day17(24.9.27)——每种字符最少取k个

leetcode每日一题day17(24.9.27)——每种字符最少取k个

思路：看到题目就想到了搜索， 广搜：满足要求就往后搜，最后返回搜索队列达到过的最大深度， 深搜：一直往一边取，搜索完所有可能，并在此基础上进行剪枝，剪枝方案有如果某一分…

阅读更多...

大师级GC调优：剖析高并发系统的垃圾回收优化实战

大师级GC调优：剖析高并发系统的垃圾回收优化实战

前期准备大家开始前一定要对VisualVM、Jmeter这两款工具有所了解！ 1. 下载安装VisualVM，以便后续调优分析。JDK1.8及之前所在目录的bin目录下有自带的VisualVM，JDK1.8以后需要自行手动安装下载。下载地址：https://visualvm.git…

阅读更多...

模型的深度优化

模型的深度优化

文章目录一、测试模型是否正确二、图形打印直观观察三、保存训练模型四、正确率（仅使用于分类问题） 一、测试模型是否正确本文承接我的上一篇文章完整网络模型训练（一） 运用测试数据集（test_dataloader）…

阅读更多...

第二十一章（动态内存管理）

第二十一章（动态内存管理）

1. 为什么要有动态内存分配 2. malloc和free 3. calloc和realloc 4. 常⻅的动态内存的错误 5. 动态内存经典笔试题分析 6. 总结C/C中程序内存区域划分 1.为什么要有动态内存管理我们目前已经掌握的内存开辟方式有 int main() {int num 0; //开辟4个字节int arr[10] …

阅读更多...

全局安装cnpm并设置其使用淘宝镜像的仓库地址（地址最新版）

全局安装cnpm并设置其使用淘宝镜像的仓库地址（地址最新版）

npm、cnpm和pnpm基本概念首先介绍一下npm和cnpm是什么，顺便说一下pnpm。 npm npm（Node Package Manager）是Node.js的默认包管理器，用于安装、管理和分享JavaScript代码包。它是全球最大的开源库生态系统之一，提供了数…

阅读更多...

centos环境安装JDK详细教程

centos环境安装JDK详细教程

centos环境安装JDK详细教程一、前期准备二、JDK安装2.1 rpm方式安装JDK2.2 zip方式安装JDK2.3 yum方式安装JDK 本文主要说明CentOS下JDK的安装过程。JDK的安装有三种方式，用户可根据实际情况选择： 一、前期准备查看服务器操作系统型号，执…

阅读更多...

推荐文章

最新文章