transformer总结

news2026/2/13 20:48:43

1.注意力机制

意义：人类的注意力机制极大提高了信息处理的效率和准确性。

公式：

1)自注意力机制

b都是在考虑了所有a的情况下生成的。

以产生b1向量为例：

1.在a这个序列中，找到与a1相关的其他向量

2.每个向量与a1关联的程度，我们用数值α表示

那么这个数值如何计算的呢？

计算的方式有很多种：

我的理解：关联程度就相当于question（问题）与key(答案）的匹配程度

自己跟自己的关联也很重要

然后将这些关联度放到softmax里面，得到最终的关联度

最终乘v，得到最后的值

上述是宏观的理解，现在从矩阵乘法再来看一遍

整个过程只有三个w矩阵需要学习

2）多头自注意力

头1只跟头1计算，头2只跟头2计算，头n只跟头n计算。

乘上一个矩阵，得到最终的bi，传入下一层

Multi-head Attention 的本质是，在参数总量保持不变的情况下，将同样的 Query，Key，Value 映射到原来的高维空间的不同子空间中进行 Attention 的计算，在最后一步再合并不同子空间中的 Attention 信息。这样降低了计算每个 head 的 Attention 时每个向量的维度，在某种意义上防止了过拟合；由于 Attention 在不同子空间中有不同的分布，Multi-head Attention 实际上是寻找了序列之间不同角度的关联关系，并在最后拼接这一步骤中，将不同子空间中捕获到的关联关系再综合起来。

3)位置信息

有了位置信息的加持，a向量才算的上是有顺序的。

3）注意力机制

意义：可以从众多信息中，得到对解决问题最有用的信息。节省了算力资源，提高模型效率和能力。

比如看黑板学习知识，边边角角的部分是无效信息，老师敲黑板的地方是要关注的有效信息。

x1就是tom ，x2就是chase ，x3就是jerry ，先编码再解码得到y1汤姆，y2追逐，y3杰瑞

如果我们采用分心模型，计算过程是这样的。这样的重要程度是也一样的。

encoder-decoder框架

所以加深一下attention的概念：

计算过程与自注意力相似

其中F(Q,K)是计算相似性的方法，并且方法不唯一

2.transformer

1)结构

Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分：编码组件和解码组件

论文中编码器和解码器使用了六层

每个编码器由两个子层组成：Self-Attention 层（自注意力层）和 Position-wise Feed Forward Network（前馈网络，缩写为 FFN）。每个编码器的结构都是相同的，但是它们使用不同的权重参数。位置前馈网络就是一个全连接前馈网络，每个位置的词都单独经过这个完全相同的前馈神经网络。其由两个线性变换组成，即两个全连接层组成，第一个全连接层的激活函数为 ReLU 激活函数。

每个编码器的每个子层（Self-Attention 层和 FFN 层）都有一个残差连接，再执行一个层标准化操作，整个计算过程可以表示为：

2）位置编码

再提一嘴位置编码

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/351184.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

网络编程套接字（上篇）UDP实现简易多人聊天室

网络编程套接字（上篇）UDP实现简易多人聊天室

目录背景知识主机间通信本质 socket 端口号特点： 为什么不用进程pid？ 网络字节序 socket编程接口API sockaddr结构编辑简单UDP网络程序了解UDP协议简易多人聊天室实现服务端代码： 客户端代码： 背景知识主…

阅读更多...

MySQL第六章第四次作业

MySQL第六章第四次作业

学生表：Student (Sno, Sname, Ssex , Sage, Sdept) 学号，姓名，性别，年龄，所在系 Sno为主键课程表：Course (Cno, Cname,) 课程号，课程名 Cno为主键学生选课表：SC (Sno, Cno, Score)…

阅读更多...

java切换版本等注意事项

java切换版本等注意事项

启动java工具，命令行为：java -jar xxx.jar 注意burpsuite，behinder需要jdk，如果是这个例子，jdk-11.0.12，shiro_attack_2.2需要jdk版本jdk1.8.0_291。 jdk版本切换方式： 编辑～目录…

阅读更多...

教育舆情监测关键词有哪些，TOOM教育舆情监测系统流程?

教育舆情监测关键词有哪些，TOOM教育舆情监测系统流程?

教育舆情监测是指对教育领域的舆情进行收集、分析和处理的过程。舆情是指公众在各种渠道上对教育政策、教育机构、教育事件等方面的言论、态度和情绪。通过对教育舆情的监测和分析，可以了解公众对教育行业的看法和反应，提高对教育行业的管控能力&#xf…

阅读更多...

MFC入门

MFC入门

1.什么是MFC?全称是Microsoft Foundation Class Library，我们称微软基础类库。它封装了windows应用程序的各种API以及相关机制的C类库MFC是一个大的类库MFC是一个应用程序框架MFC类库常用的头文件afx.h-----将各种MFC头文件包含在内afxwin.h-------包含了各种MFC窗…

阅读更多...

AcWing语法基础课笔记第六章 C++中的函数

AcWing语法基础课笔记第六章 C++中的函数

第六章 C中的函数函数让代码变得更加简洁。 ——闫学灿目录 1.函数基础 1.1编写函数 1.2调用函数 1.3形参和实参 1.4函数的形参列表 1.5函数返回类型 1.6局部变量、全局变量与静态变量 2.参数传递传值参数编辑 2.2传引用参数 2.3数组形参…

阅读更多...

从事1年软件测试，只会功能测试，想进一步学习，有没有好的建议呢？

从事1年软件测试，只会功能测试，想进一步学习，有没有好的建议呢？

作为一个在软件测试领域奋斗10年的老人，我前8年先后在不同的互联网公司担任高级软件测试工程师，测试主管等职，所以这么多年下来，也算是身经百战，阅人无数了。根据粉丝的提问，得到你当前的状态是1&#xf…

阅读更多...

中国天气——低纬度和高纬度环流复习笔记

中国天气——低纬度和高纬度环流复习笔记

低纬度和高纬度环流低纬度大气运动基本特征中低纬度大气运动的差别低纬度的地转参数f很小，天气尺度系统具有非地转特性，但吃到以外的行星尺度还是有准地转近似特性因此中纬度有效的气压场和温度场分析系统运动和变化的方法在低纬度不再适用&#x…

阅读更多...

虚拟现实三维数字沙盘电子沙盘可视化交互开发教程第5课

虚拟现实三维数字沙盘电子沙盘可视化交互开发教程第5课

虚拟现实三维数字沙盘电子沙盘可视化交互开发教程第5课设置system.ini 如下内容 Server122.112.229.220 userGisTest Passwordchinamtouch.com 该数据库中只提供成都市火车南站附近的数据请注意，104.0648,30.61658 在鼠标指定的位置增加自己的UI对象&#xff1…

阅读更多...

实现8086虚拟机（一）——基本框架

实现8086虚拟机（一）——基本框架

文章目录基本框架几点说明：在实现8086汇编编译器（四）——生成可执行程序一文中，我已经实现了一个编译器，可以将汇编语言汇编成二进制程序。这几篇文章来讲述如何实现虚拟机，也就是执行这个程序的“机器”…

阅读更多...

LabVIEW错误-2147220623：最大内存块属性不存在

LabVIEW错误-2147220623：最大内存块属性不存在

LabVIEW错误-2147220623：最大内存块属性不存在在使用NI Linux实时操作系统目标中，使用系统属性节点和分布式系统管理器（DSM），但遇到一些问题：它未正确报告系统上的可用物理内存量。在NI Linux实时系统上出现…

阅读更多...

深入浅出带你学习无列名注入

深入浅出带你学习无列名注入

前言大家对于SQL注入一定不陌生，我们常用的SQL注入方法是通过information_schema这个默认数据库来实现，可是你有没有想过，如果过滤了该数据库那么我们如何进行SQL语句的查询呢，本文就带给大家如何通过不使用information_schema来…

阅读更多...

MyBatis详解2——增删改查操作

MyBatis详解2——增删改查操作

一、SpringBoot单元测试 1.1什么是单元测试单元测试是指对软件中的最小测试单元进行检查和验证的过程。执行单元测试就是为了证明某段代码的执行结果是否符合我们的预期。如果测试通过则是符合预期，否则测试失败。 1.2单元测试的好处 1.单元测试不用启动Tomca…

阅读更多...

全球十大资质正规外汇期货平台排行榜（最新版汇总）

全球十大资质正规外汇期货平台排行榜（最新版汇总）

外汇期货简称为FxFut，是“Forex Futures”的缩写，是在集中形式的期货交易所内，交易双方通过公开叫价，以某种非本国货币买进或卖出另一种非本国货币，并签订一个在未来的某一日期根据协议价格交割标准数量外汇的合约。 …

阅读更多...

Pycharm开发工具的安装和基础使用

Pycharm开发工具的安装和基础使用

数据来源 01 Python开发环境 Pycharm集成开发工具(DE)，是当下全球Pthn开发者，使用最频繁的工具软件。绝大多数的 Python程序，都是在 Pycharm工具内完成的开发。 Pycharm工具下载首先，我们先下载并安装它：打开网站…

阅读更多...

罗列几个提升WPF应用程序冷启动性能的方法！（Part 2）

罗列几个提升WPF应用程序冷启动性能的方法！（Part 2）

在上文中（点击这里回顾>>），我们主要介绍了针对三个技术的WPF应用程序性能提升，本文将着重介绍针对DevExpress WPF界面控件研发的应用程序如何提升性能！有用控件推荐~DevExpress WPF拥有120个控件和库&#xff0c…

阅读更多...

PostgreSQL的学习心得和知识总结（一百二十三）|深入理解PostgreSQL数据库开源扩展pg_dirtyread的使用场景和实现原理

PostgreSQL的学习心得和知识总结（一百二十三）|深入理解PostgreSQL数据库开源扩展pg_dirtyread的使用场景和实现原理

目录结构注：提前言明本文借鉴了以下博主、书籍或网站的内容，其列表如下： 1、参考书籍：《PostgreSQL数据库内核分析》 2、参考书籍：《数据库事务处理的艺术：事务管理与并发控制》 3、PostgreSQL数据库仓库…

阅读更多...

大彩串口屏

大彩串口屏

资料下载视频屏幕程序创建创建主界面设置实现按钮和文本的添加，实现画面的切换下面注释4有点问题，切换画面还是会下传指令集，只是无法在软件中进行指令集的设置了按钮界面首先第一步同上添加背景图片，然后添加…

阅读更多...

性能VS功能，同为测试又有哪些不一样？

性能VS功能，同为测试又有哪些不一样？

我们在求职的时候，发现有的是招聘的功能测试，有的招聘的是性能测试，那么功能测试和性能测试的区别是什么呢？ 侧重点不同功能测试的侧重点是功能是否满足客户需求。比如说我们拿到一个节假日搞活动的需求，这个需求…

阅读更多...

【订阅】订阅MySql集简云连接器同步报销审批数据至MySql数据库

【订阅】订阅MySql集简云连接器同步报销审批数据至MySql数据库

方案场景企业在实现数字化转型的道路上，因企业多个系统孤立数据割断，数据互通成为企业率先解决的最大问题，依靠钉钉OA审批，企业通过审批后手动录入到企业的自建系统，然后再同步到MySQL数据库，这种方式不仅…

阅读更多...

推荐文章

最新文章