【Transformer】Transformer and BERT（1）

【Transformer】Transformer and BERT（1）

news2026/2/13 21:56:30

在这里插入图片描述

文章目录

Transformer
BERT

太…完整了！同济大佬唐宇迪博士终于把【Transformer】入门到精通全套课程分享出来了，最新前沿方向

学习笔记

Transformer

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
无法并行，层数比较少

在这里插入图片描述

词向量生成之后，不会变，没有结合语境信息的情况下，存在一词多义，无法处理

在这里插入图片描述
词如何编码成向量

在这里插入图片描述

第一句话中，it 和 animal 的相应最高

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
内积，正交的话内积为0，越相近（相关），内积越大

在这里插入图片描述

$\sqrt{d_k}$ 的目的，向量维度越大，内积也越大， $\sqrt{d_k}$ 起到 scale 的作用

在这里插入图片描述
对于每个输入 x1 … xn, 计算一样的，可以并行为一个矩阵乘法

在这里插入图片描述
多头类比多个卷积核，来提取多种特征

在这里插入图片描述

不同的头得到的特征表达也不相同

多头包含在了 self-attention 中了

在这里插入图片描述
引入位置编码，形式有很多，比如 one-hot，原文中作者使用的是周期性信号进行编码

在这里插入图片描述
layer normalization 和 residual structure

在这里插入图片描述

encoder-decoder attention，encoder 的 K,V，decoder 的 Q

在这里插入图片描述
mask 机制：以翻译为例，不能透答案了，翻译到 I am a 的时候，student 要被 mask 起来，只能计算 I am a 的注意力

不能用后面未知的结果当成已知的条件

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

BERT

在这里插入图片描述

语料

预测出 mask，来训练提升特征编码能力

在这里插入图片描述

end-to-end 的形式，词编码表达和 task 一起训练

在这里插入图片描述

答案 d2->d3

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1320859.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Transformer Decoder的输入

Transformer Decoder的输入

大部分引用参考了既安的https://www.zhihu.com/question/337886108/answer/893002189这篇文章，个人认为写的很清晰，此外补充了一些自己的笔记。弄清楚Decoder的输入输出，关键在于图示三个箭头的位置： 以翻译为例： 输…

阅读更多...

支持向量机（SVM）：高效分类的强大工具

支持向量机（SVM）：高效分类的强大工具

文章目录前言1. SVM的基本原理1.1 核心思想1.2 支持向量1.3 最大化建模1.4 松弛变量1.5 核函数 2. SVM与逻辑回归的区别和联系2.1 区别2.2 联系 3. SVM的应用领域3.1 图像分类3.2 文本分类3.3 生物信息学3.4 金融领域3.5 医学诊断 4. SVM的优势与挑战4.1 优势4.1.1 非线性分类…

阅读更多...

分布式理论 | RPC | Spring Boot 整合 Dubbo + ZooKeeper

分布式理论 | RPC | Spring Boot 整合 Dubbo + ZooKeeper

一、基础分布式理论什么是分布式系统？ 在《分布式系统原理与范型》一书中有如下定义：“分布式系统是若干独立计算机的集合，这些计算机对于用户来说就像单个相关系统”； 分布式系统是由一组通过网络进行通信、为了完成共同的…

阅读更多...

【02】GeoScene海图生产环境创建

【02】GeoScene海图生产环境创建

1.1 海图生产环境 GeoScene中的企业级海事制图由中央航海信息系统数据库（NIS库）来处理，将之前传统桌面产品库（PL库）产品管理方面的能力已经移植到NIS数据库，以ProductDefinitions、ProductCoverage、Produ…

阅读更多...

主从reactor多线程实现

主从reactor多线程实现

现场模型图片，从网上找的出于学习的目的实现的，如有不对的地方欢迎留言知道，简单实现了http的请求，可通过postman进行访问启动项目： 返回数据示例 postman请求附上源码，有问题直接看源码吧

阅读更多...

低代码工作流，在业务场景下启动流程节点绑定的具体步骤与注意事项

低代码工作流，在业务场景下启动流程节点绑定的具体步骤与注意事项

在业务管理的场景下，存在先做了对应的数据管理，后续增加管理的规范度，“在业务数据变化时发起流程”的需求，那么这种情况下就需要在业务管理（列表页、表单）中发起流程，让业务模型使用流程配置&a…

阅读更多...

[23] GaussianAvatars: Photorealistic Head Avatars with Rigged 3D Gaussians

[23] GaussianAvatars: Photorealistic Head Avatars with Rigged 3D Gaussians

[paper | proj] 给定FLAME，基于每个三角面片中心初始化一个3D Gaussian（3DGS）；当FLAME mesh被驱动时，3DGS根据它的父亲三角面片，做平移、旋转和缩放变化；3DGS可以视作mesh上的辐射场&#xff1…

阅读更多...

Python3中_和__的用途和区别

Python3中_和__的用途和区别

目录一、_（下划线） 1、临时变量： 2、未使用的变量： 二、__（双下划线） 1、私有属性： 2、私有方法： 三、__的一些特殊用途。总结 Python3中的_和__是两个特殊的标识符&#…

阅读更多...

大语言模型加速信创软件 IDE 技术革新

大语言模型加速信创软件 IDE 技术革新

QCon 全球软件开发大会（上海站）将于 12 月 28-29 日举办，会议特别策划「智能化信创软件 IDE」专题，邀请到华为云开发工具和效率领域首席专家、华为软件开发生产线 CodeArts 首席技术总监王亚伟担任专题出品人，为专题质…

阅读更多...

云原生之深入解析减少Docker镜像大小的优化技巧

云原生之深入解析减少Docker镜像大小的优化技巧

一、什么是 Docker？ Docker 是一种容器引擎，可以在容器内运行一段代码，Docker 镜像是在任何地方运行应用程序而无需担心应用程序依赖性的方式。要构建镜像，docker 使用一个名为 Dockerfile 的文件，Dockerfile 是一个包…

阅读更多...

linux系统和网络(一):文件IO

linux系统和网络(一):文件IO

本文主要探讨linux系统编程的文件IO相关知识。文件IO 文件存在块设备中为静态文件,open打开文件,内核在进程中建立打开文件的数据结构在内存中用于记录文件的文件参数,开辟一段内存用于存放内容,将静态文件转为动态文件打开文件后对文件的读写操作都为对动态…

阅读更多...

Windows下配置最新ChromeDriver

Windows下配置最新ChromeDriver

1、问题在使用代码调用谷歌浏览器时会出错： from selenium import webdriver driver webdriver.Chrome() SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version 114 Current browser versi…

阅读更多...

网络空间搜索引擎- FOFA的使用技巧总结

网络空间搜索引擎- FOFA的使用技巧总结

简介 FOFA是一款网络空间测绘的搜索引擎，旨在帮助用户以搜索的方式查找公网上的互联网资产。 FOFA的查询方式类似于谷歌或百度，用户可以输入关键词来匹配包含该关键词的数据。不同的是，这些数据不仅包括像谷歌或百度一样的网页，还…

阅读更多...

网神防火墙后台用户敏感信息泄露漏洞复现

网神防火墙后台用户敏感信息泄露漏洞复现

简介网神防火墙是一款由中国知名网络安全公司启明星辰开发的防火墙产品。它提供了全面的网络安全防护功能，旨在保护企业网络免受各种网络威胁和攻击。该产品存在用户账号信息泄露漏洞，通过构造特定数据包，获取防火墙管理员登录的账号密码。漏洞复现 FOFA语法： body=&…

阅读更多...

A01、关于JVM的GC回收

A01、关于JVM的GC回收

引用类型对象引用类型分为强引用、软引用、弱引用，具体差别详见下文描述： 强引用：就是我们一般声明对象是时虚拟机生成的引用，强引用环境下，垃圾回收时需要严格判断当前对象是否被强引用，如果被强引用&am…

阅读更多...

KSP音频抓包

KSP音频抓包

1. 按照网上其他教程，安装KSP抓音频 Biu~笔记：高通蓝牙ADK（38）-- KSP in MDE - 大大通(简体站) Biu~笔记：高通蓝牙ADK（22）--DSP音频链路监听 - 大大通(简体站) <<Biu~笔记：高…

阅读更多...

docker 与 ffmpeg

docker 与 ffmpeg

创建容器 docker run -it -v /mnt/f/ffmpeg:/mnt/f/ffmpeg --name ffmpeg 49a981f2b85f /bin/bash 在 Linux 上编译 FFmpeg： 安装依赖库： sudo apt-get update sudo apt-get install build-essential yasm cmake libtool libc6 libc6-dev unzip wget下…

阅读更多...

电脑操作系统深度剖析：Windows、macOS和Linux的独特特性及应用场景

导言电脑操作系统是计算机硬件和应用软件之间的桥梁，不同的操作系统在用户体验、性能和安全性方面有着独特的特色。电脑操作系统是计算机系统中的核心组件，不同的操作系统在设计理念、用户体验和应用领域上存在显著差异。本文将深入探讨几种常见的电脑操…

阅读更多...

2018年第七届数学建模国际赛小美赛A题空中加油飞行计划解题全过程文档及程序

2018年第七届数学建模国际赛小美赛A题空中加油飞行计划解题全过程文档及程序

2018年第七届数学建模国际赛小美赛 A题空中加油飞行计划原题再现： 太平洋中部一个小岛上的居民被自然灾害困住。救援人员需要派遣一架轻型飞机运送少量急救药品到岛上，并运送一名重伤者到医疗基地求救。岛上有一个无人值守的简易机场，可以…

阅读更多...

20231218在Ubuntu18.04下以EXT4格式化HDD

20231218在Ubuntu18.04下以EXT4格式化HDD

20231218在Ubuntu18.04下以EXT4格式化HDD 2023/12/18 17:24 缘起： 编译一个Android10大概要200GB，编译10个Android10的SDK，3TB的HDD机械硬盘就估计会被填满了！ 如果使用rm -rf *这个命令将SDK一个一个逐个地删除，估计2…

阅读更多...

推荐文章

最新文章