Transformer机制学习笔记

Transformer机制学习笔记

news2026/2/14 14:36:20

学习自https://www.bilibili.com/video/BV1J441137V6

RNN，CNN网络的缺点

在这里插入图片描述

难以平行化处理，比如我们要算 $b^4$ ，我们需要一次将 $a^1$ ~ $a^4$ 依次进行放入网络中进行计算。

于是有人提出用CNN代替RNN
在这里插入图片描述
三角形表示输入， $b^1$ 的结果是由 $a^1,a^2$ 产生。
$a^1$ ~ $a^4$ 可以同时并行输入到CNN中。
但是，这么做的话可以表示的内容非常有限，解决方法是再往上继续建造。

这样的话，蓝色的输入，就相当于获得了 $a^1$ ~ $a^4$ 的输入。
CNN的优点就是可以同时计算，缺点就是需要叠很多层。

self-Attention层

self-Attention层要做的就是，既能达到RNN的功能，同时又能像CNN一样平行化。
在这里插入图片描述

self-attention层运作步骤

拿每个q与每个k进行attention运算

$d$ 为 $q, k$ 的维度，这个可以理解为是为了平衡维度带来的影响，因为维度越大，点乘出来的结果就会相应的较大，所以除以维度可以消除一部分影响。
然后再统一做一下softmax
随后 $\hat{a}$ 再和 $v$ 相乘

这样，计算 $b^1$ 既可以并行计算，也能获取到 $x^1$ ~ $x^4$ 的全部数据。

如何并行化

可以把上一层的内容统统放入到矩阵中，进行一次矩阵乘法即可算出下一层。而矩阵乘法可以用GPU加速。

在这里插入图片描述
$q, k, v$ 也是可以用多层的。

Position Encoding

在这里插入图片描述
实际上， $x$ 序列的位置信息是不重要的，因为每个位置都有一个独一无二的 $e^i$ 向量与它相加，依次来表示位置信息。这个 $e^i$ 不是从数据中学到的，而是人为赋值的。

Sequence To Sequence

在这里插入图片描述
在Sequence To Sequence模型中，就可以用self-Attention层来代替RNN或者CNN。

Transformer

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/344207.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【数据结构】算法的复杂度分析：让你拥有未卜先知的能力

【数据结构】算法的复杂度分析：让你拥有未卜先知的能力

👑专栏内容：数据结构⛪个人主页：子夜的星的主页💕座右铭：日拱一卒，功不唐捐文章目录一、前言二、时间复杂度1、定义2、大O的渐进表示法3、常见的时间复杂度三、空间复杂度1、定义2、常见的空间复杂度一、前…

阅读更多...

微信小程序删除list指定列表项

微信小程序删除list指定列表项

一、删除效果展示： // 重要代码片段async deleteListItem(e) {const sureResult await wx.showModal({title: "提示",content: "确定要删除这项吗",});if (sureResult.confirm) {const { index } e.currentTarget.dataset;setTimeout(()>{…

阅读更多...

Centos7安装kvm WEB管理工具kimchi

Centos7安装kvm WEB管理工具kimchi

参考：虚拟化技术之kvm WEB管理工具kimchi一、kimchi安装1.1 下载wok安装包和kimchi安装包# 1. wok下载地址： wget https://github.com/kimchi-project/kimchi/releases/download/2.5.0/wok-2.5.0-0.el7.centos.noarch.rpm # 2. kimchi下载地址&#xff1…

阅读更多...

Springmvc补充配置

Springmvc补充配置

Controller配置总结控制器通常通过接口定义或注解定义两种方法实现在用接口定义写控制器时，需要去Spring配置文件中注册请求的bean;name对应请求路径，class对应处理请求的类。 <bean id"/hello" class"com.demo.Controller.HelloCo…

阅读更多...

【Spark分布式内存计算框架——Spark SQL】2. SparkSQL 概述（上）

【Spark分布式内存计算框架——Spark SQL】2. SparkSQL 概述（上）

第二章 SparkSQL 概述 Spark SQL允许开发人员直接处理RDD，同时可以查询在Hive上存储的外部数据。Spark SQL的一个重要特点就是能够统一处理关系表和RDD，使得开发人员可以轻松的使用SQL命令进行外部查询，同时进行更加复杂的数据分析。 2.1 前…

阅读更多...

蓝桥杯模块学习16——PCF8591（深夜学习——单片机）

蓝桥杯模块学习16——PCF8591（深夜学习——单片机）

一、硬件电路：1、蓝桥杯板子上的电路：（1）AIN0-3：四种模拟量的输入口，AIN1为光敏电阻控制电压输入，AIN3为电位器控制电压输入（2）A0-2：决定设备的地址码&#x…

阅读更多...

SSTI漏洞原理及渗透测试

SSTI漏洞原理及渗透测试

模板引擎（Web开发中） 是为了使用户界面和业务数据（内容）分离而产生的，它可以生成特定格式的文档， 利用模板引擎来生成前端的HTML代码，模板引擎会提供一套生成HTML代码的程序，之后…

阅读更多...

TensorRT的Python接口解析

TensorRT的Python接口解析

TensorRT的Python接口解析文章目录TensorRT的Python接口解析4.1. The Build Phase4.1.1. Creating a Network Definition in Python4.1.2. Importing a Model using the ONNX Parser4.1.3. Building an Engine4.2. Deserializing a Plan4.3. Performing Inference点此链接加入…

阅读更多...

科技巨头争相入局，卫星通信领域将迎来怎样的发展？

科技巨头争相入局，卫星通信领域将迎来怎样的发展？

近年来，全球卫星通信产业进入了一个高速发展的阶段。与卫星通信相关的新技术和新应用不断出现，成为了媒体报道的热点，也引起了公众的广泛关注。尤其是刚刚过去的2022年，华为和苹果公司分别发布了搭载卫星通信技术的手机&#xff0…

阅读更多...

万丈高楼平地起：Linux常用命令

万丈高楼平地起：Linux常用命令

目录系统管理命令 man命令 ls命令 cd命令 useradd命令 passwd命令 free命令 whoami命令 ps命令 date命令 pwd命令 shutdown命令文件目录管理命令 touch命令 cat命令 mkdir命令 rm命令 cp命令 mv命令 find命令 more指令 less指令 head指令 tail指令 …

阅读更多...

基于HTML实现浪漫情人节表白代码（附源代码）

基于HTML实现浪漫情人节表白代码（附源代码）

🤵‍♂️ 个人主页：艾派森的个人主页 ✍🏻作者简介：Python学习者 🐋 希望大家多多支持，我们一起进步！😄 如果文章对你有帮助的话， 欢迎评论 💬点赞&#x1f4…

阅读更多...

【spark】第三章——SparkSQL

【spark】第三章——SparkSQL

文章目录1. SparkSQL 概述1.1 SparkSQL 是什么1.2 Hive and SparkSQL1.3 SparkSQL 特点1.3.1 易整合1.3.2 统一的数据访问1.3.3 兼容 Hive1.3.4 标准数据连接1.4 DataFrame 是什么1.5 DataSet 是什么2. SparkSQL 核心编程2.1 新的起点2.2 DataFrame2.2.1 创建 DataFrame2.2.2 S…

阅读更多...

MVC架构 —— 理解 Dao 层和 Service 层

MVC架构 —— 理解 Dao 层和 Service 层

MVC 框架念叨了千百遍，但是对于它的理解还是停留在概念上。作为一种经典架构设计典范，MVC 在日新月异的软件行业却能常青数十年，一定有其独特的魅力。一、Dao 层和 Service 层的概念 Dao 是 Data Access Object （数据访问对象&…

阅读更多...

FPGA纯verilog实现任意分辨率视频输出显示，高度贴近真实项目，提供工程源码和技术支持

FPGA纯verilog实现任意分辨率视频输出显示，高度贴近真实项目，提供工程源码和技术支持

目录1、前言2、视频显示的VESA协议3、VESA协议的bug4、FPGA实现任意分辨率视频输出显示5、FDMA实现数据缓存6、vivado工程详解7、上板调试验证并演示8、福利：工程代码的获取1、前言本设计使用纯Verilog代码实现，重点在于基于AXI协议的DDR控制器的运用&…

阅读更多...

SpringBoot 整合EasyExcel详解

SpringBoot 整合EasyExcel详解

一、概述 Java解析、生成Excel比较有名的框架有Apache poi、jxl。但他们都存在一个严重的问题就是非常的耗内存，poi有一套SAX模式的API可以一定程度的解决一些内存溢出的问题，但POI还是有一些缺陷，比如07版Excel解压缩以及解压后存储都是在内…

阅读更多...

内网渗透-src挖掘-互联网打点到内网渗透-2023年2月

内网渗透-src挖掘-互联网打点到内网渗透-2023年2月

1、通过信息搜集，发现目标有一个互联网访问的骑士cms 2、发现该系统骑士cms版本为6.0.20，通过搜索，发现骑士cms < 6.0.48存在任意文件包含漏洞 /Application/Common/Controller/BaseController.class.php 该文件的assign_resume_tpl函数…

阅读更多...

字节面试惨败，闭关修炼再战美团（Android 面经~）

字节面试惨败，闭关修炼再战美团（Android 面经~）

作者：王旭前言本人从事Android 开发已经有5年了，受末日寒气影响，被迫在家休整，事后第一家选择字节跳动面试，无奈的被面试官虐得“体无完肤”，好在自己并未气馁，于是回家开始回家进行闭关修炼…

阅读更多...

使用红黑树模拟实现map和set

使用红黑树模拟实现map和set

在STL的源代码中，map和set的底层原理都是红黑树。但这颗红黑树跟我们单独写的红黑树不一样，它需要改造一下： 改造红黑树节点的定义因为map和set的底层都是红黑树。而且map是拥有键值对pair<K,V>的，而set是没有键值对&a…

阅读更多...

教育行业需要什么样的数字产品？

教育行业需要什么样的数字产品？

数字化转型的浪潮已经席卷了各行各业，不仅出现在互联网、电商、建筑等行业，还应用在了教育行业。数字化的教育ERP软件能够在满足学校需求的基础上，帮助学校完善各类工作流程，提高工作效率。对于一个拥有多个校区，上万…

阅读更多...

ChatGPT 也太火了吧 ...

ChatGPT 也太火了吧 ...

最近 ChatGPT 太火了，微信指数 ChatGPT 关键词飙升。GitHub 上也不例外，最近热门项目都是 ChatGPT 项目。后续会陆续更新 ChatGPT 好玩的开源项目，本期是本周登上热榜的 Repo，请查收。本期推荐开源项目目录：1. 对 Chat…

阅读更多...

推荐文章

最新文章