Transformer简单理解

news2025/1/2 3:06:46

目录

  • 一、CNN存在的问题:
  • 二.Transformer整理架构分析:
    • 1.Linear Projection of Flattened Patches层形成Patch:
    • 2.对每个Patch进行位置编码Position Embedding:
    • 3.Transformer Encoder:
  • 三.公式解读:

一、CNN存在的问题:

  • 过拟合问题。
  • 需要堆叠大量卷积层才能识别图片的整体特征,每层卷积层需要重复的实验和证明。而Transformer的Encoder只需要堆叠少量层就能识别图片的整体。

二.Transformer整理架构分析:

在这里插入图片描述

  • 首先将图片分隔成小的图片,对每个小图片的矩阵(10103)进行拉长形成一个向量(300*1),作为输入序列。
  • Linear Projection of Flattened Patches层对输入的向量(300*1)做一个特征整合形成多个新维度的向量Patch。

1.Linear Projection of Flattened Patches层形成Patch:

在这里插入图片描述

  • 因为x1,x2,x3,x4之间是有联系的,首先对输入向量x1,x2,x3,x4进行特征提取,即把输入序列中的每个单元组合成比较好的新的特征。
  • x1与x2,x3,x4之间的关系式由q1,k1,v1给出。
  • q1为x1的查询向量,通过查询向量可以获得x1与x2,x3,x4之间的关系。
  • k1为其他的xi调用qi查询x1时为qi提供的自身信息。
  • v1为x1特征的代表,后续使用的是v1而不再使用x1。
  • Transformer执行过程:首先各向量通过qi查询其余向量的k,获取自己与其余向量的关系,通过关系实际上得到了一组权重项,根据权重项把输入特征进行重新组合,形成比较好的新的特征。

2.对每个Patch进行位置编码Position Embedding:

  • 有2种编码方式:
    • 对小图片进行从上至下,从左至右进行1,2,3,4,5,6,7,8,9编码
    • 对小图片进行(1,1),(1,2),(1,3),(2,1),(2,2),(2,3),(3,1),(3,2),(3,3)编码

3.Transformer Encoder:

在这里插入图片描述

  • Lx表示Transformer做了多次
  • Embedded Patches输入序列
  • Norm规划层
  • ⊕为残差连接
  • Multi-Head Attention多头注意力机制
  • MLP全连接

三.公式解读:

在这里插入图片描述

  • E为向量编码
    • PP表示向量的个数,C为每个向量的维度(C,1)。特征图大小为PP*C
    • D为全连接映射,xD即把(C,1)维向量映射为(D,1)维向量的规模
  • Epos为位置编码,即对每个向量在位置上进行编码
    • N+1中的1即为整体架构图中的0号patch,它的作用是方便对各个输入向量进行整合。
  • z0作用是将各个向量与自身的位置进行组合(相加实现)
    • xpE表示对E中每个向量,xclass为0号patch
  • MSA为多头注意力机制
    • LN表示对输入数据进行规划
    • +为残差连接
  • MLP为全连接
  • LN为对上述操作执行n次

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1388754.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么使用 atan2(sin(z), cos(z)) 进行角度归一化?

文章目录 为什么使用 atan2(sin(z), cos(z)) 进行归一化?为什么归一化后的角度等于原始角度? atan2 方法返回 -π 到 π 之间的值,代表点 (x, y) 相对于正X轴的偏移角度。这个角度是逆时针测量的,以弧度为单位。关于 atan2 函数为…

【JAVA WEB】 Filter过滤器详解

目录 1,Filter 1.1 Filter概述 1.2 Filter快速入门 1.2.1 开发步骤 1.2.2 代码演示 1.3 Filter执行流程 1.4 Filter拦截路径配置 1.5 过滤器链 1.5.1 概述 1.5.2 代码演示 1.5.3 问题 1.6 案例 1.6.1 需求 1.6.2 分析 1.6.3 代码实现 1.6.3.1 创建Fi…

ERP系统怎么选 企业ERP管理系统选型建议

市面上有众多的ERP系统,而由于不同软件供应商的发展策略不同,导致不同ERP系统的侧重点也不同。例如有针对企业某一类管理需求的ERP系统,例如财务管理软件,进销存管理软件,仓库管理软件等。还有针对企业资源整合&#x…

element-ui表单验证同时用change与blur一起验证

项目场景: 提示:这里简述项目相关背景: 当审批时不通过审批意见要必须输入, 1:如果用change验证的话删除所有内容时报错是massage的提示,但是在失去焦点的时候报错就成了英文,如下图&#xf…

【iOS】数据存储方式总结(持久化)沙盒结构

在iOS开发中,我们经常性地需要存储一些状态和数据,比如用户对于App的相关设置、需要在本地缓存的数据等等,本篇文章将介绍六个主要的数据存储方式 iOS中数据存储方式(数据持久化) 根据要存储的数据大小、存储数据以及…

计算机毕业设计 | SpringBoot宠物店管理系统(附源码)

1,绪论 项目背景 我国已经成为世界第二大经济体,经济实力高速发展以及百姓生活水平的普遍提高,不断地要求企业提供更加多元化的娱乐方式,更加快速和方便的服务,因此对宠物行业也提出了更加严格的要求,如管…

【NI国产替代】NI‑9232,3通道,102.4 kS/s/ch,±30 V,C系列声音与振动输入模块

3通道,102.4 kS/s/ch,30 V,C系列声音与振动输入模块 NI‑9232可以测量来自集成电子压电(IEPE)和非IEPE传感器的信号,例如加速度计、转速计和接近式探针。 NI‑9232还可兼容智能TEDS传感器。\n\nNI‑9232集成了软件可选的AC/DC耦合…

Window——安装nacos

1、Git拉取项目 官方地址:https://nacos.io/zh-cn/ git clone https://github.com/alibaba/nacos.git2、进入项目执行命令安装(需要maven) Maven下载指引:https://blog.csdn.net/qq812457115/article/details/117451334 mvn -Prel…

JRT核心竞争力

如果说JRT业务脚本化和发部署简单和打印导出客户端都不足以抵挡Spring用的人多的优势的话。那么这一篇让DolerGet给你一个选择JRT的理由,借助JRT自我实现的ORM,JRT有能力完全把控更新数据和删除数据的口径,和能够准确知道哪些是热点数据&…

UDP传输总丢包?常用的解决方式在这里!

UDP是一种无连接的协议,传输数据时不建立连接,因此可能导致数据包丢失。UDP丢包是指在传输过程中由于各种原因导致数据包未能到达目的地。UDP丢包会影响传输的质量和效率,导致数据损失、延迟,甚至导致传输失败。本文将分析UDP丢包…

guns项目 Failed to register @ServerEndpoint class 问题

问题发生所在 socket-business-websocket-7.2.4.jar tomcat发布测试的时候报Failed to register ServerEndpoint class ,查询jar报主要是WebSocketServer 类加载有问题,把jar报中该类注掉,重新实现这个类,删除Component注解问题&…

Linux信号之信号的保存

(。・∀・)ノ゙嗨!你好这里是ky233的主页:这里是ky233的主页,欢迎光临~https://blog.csdn.net/ky233?typeblog 点个关注不迷路⌯▾⌯ 目录 一、阻塞信号 1.信号递达、未决、阻塞 2.内核…

yolov1:背景介绍与算法精讲

目录 一、背景介绍1.1 yolo发展历史1.2 作者介绍 二、算法精讲2.1 预测阶段2.2 训练阶段 三、论文细节 一、背景介绍 其实在写这篇博客的时候yolov1~yolov8的所有网络结构以及算法思想和源码都已经研究很久了,回过头继续读v1会发现有很多细节是自己没有留意的&#…

Linux上新部署的项目jar包没有生效

今天公司新安排了一个项目,这里简称项目A,需要新增两个功能,我这边完成之后,跟前端对接好了,调试也没有问题。 然后把项目打包上传到测试服务器上,重新启动项目,发现项目A新增的接口没有生效&a…

多变量线性回归

一、多维特征 目前为止,我们探讨了单变量/特征的回归模型,现在我们对房价模型增加更多的特征,例如房间数、楼层等,构成一个含有多个变量的模型,模型中的特征为。 增添更多特征后,我们引入一系列新的注释&am…

【数据结构和算法】奇偶链表

其他系列文章导航 Java基础合集数据结构与算法合集 设计模式合集 多线程合集 分布式合集 ES合集 文章目录 其他系列文章导航 文章目录 前言 一、题目描述 二、题解 2.1 方法一:分离节点后合并 三、代码 3.1 方法一:分离节点后合并 四、复杂度分…

shopee、Lazada、速卖通测评自养号技术,当天注册当天直接下单

自养号测评(补单)技术对跨境平台如shopee、Lazada、速卖通、ebay、wish、mercari、Newegg等是否有用? 随着越来越多的跨境电商进入市场,并且考虑到亚马逊对大卖家的严格监管,这无疑为其他跨境电商平台和独立站市场带来…

Smallpdf扫描、转换、压缩、编辑、签名PDF

【应用名称】:Smallpdf: 扫描、转换、压缩、编辑、签名PDF 【适用平台】:#Android 【软件标签】:#Smallpdf 【应用版本】:1.71.0 【应用大小】:150MB 【软件说明】:通过 Smallpdf,您可以&…

6.3.1认识Camtasia4(1)

6.3.1认识Camtasia4 安装完Camtasia4(本书使用Camtasia4.0.1版本)后,单击【开始】|【程序】|【Camtasia Studio 4】|【Camtasia Studio】,启动Camtasia Studio,启动后界面如图6-3-1所示。 图6-3-1 Camtasia Studio界面 Camtasia Studio窗口中…

编程笔记 html5cssjs 040 CSS盒子模型

编程笔记 html5&css&js 040 CSS盒子模型 一、CSS 盒子模型二、元素的宽度和高度三、最终元素的总宽度四、元素的总高度五、练习小结 网页是靠分成不同的块,再赋予这些块各不相同的属性来布局的。所以这个“块”是一个基础。先看块本身的构造。 一、CSS 盒子…