VIT(Vision Transformer)学习-模型理解（一）

VIT(Vision Transformer)学习-模型理解（一）

news2025/3/12 22:56:31

VIT (Vision Transformer) 模型论文+代码(源码)从零详细解读，看不懂来打我_哔哩哔哩_bilibili

VIT模型架构图

1.图片切分为patch

2. patch转化为embedding

1）将patch展平为一维长度

2）token embedding：将拉平之后的序列映射到规定的向量长度（transformer encoder 的embedding size）

实现方法有两种，一种是线性（此处展示为线性），一种是卷积操作

3.位置embedding和token embedding相加

1）生成CLS 符号的token embedding（图中粉色表示）

2）生成所有序列的位置编码。针对patch生成patch embedding，对应CLS是初始化了CLS的token embedding，位置编码（图中紫色表示）生成所有序列的位置编码

3）粉色和紫色相加，token embedding和位置embedding相加

位置信息

4.输入到TRM模型

原始TRM中，Norm放在了多头自注意力机制（Muti-Head Attention）后面，Norm放在了前馈神经网络（Feed Forward）后面；在VIT中，Norm放在了多头自注意力机制（Muti-Head Attention）前面，Norm放在了前馈神经网络（Feed Forward）前面

VIT没有pad符号，不做边缘补0

5. CLS输出做多分类任务

复习

图片切分为patch

每个pacth拉平为768，映射为encode 中的embedding size，768

生成CLS初始化token embedding

拉平映射的token embedding和位置embedding相加得到Input embedding

输入到encoder中，*N对应多少层

最终每个token都会得到768输出，将每个输出进行多分类任务。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1077744.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

初识 C语言文件操作

初识 C语言文件操作

目录前言： 为什么我们要使用文件？ 什么是文件？ 程序文件： 数据文件： 文件名： 文件的打开和关闭文件指针： 流程： 文件路径： 文件的顺序读写： …

阅读更多...

我用PYQT5做的第一个实用的上位机项目（六）

我用PYQT5做的第一个实用的上位机项目（六）

将之前的画面和代码用复制粘贴的方法复制四份，就完成了整个主画面和主程序的基本构建。下面的工作是关于PLC和通信。上位机项目，其与PLC通信的模式很多都是这样的：在没有操作和设置的平常显示界面，按照预定周期从PLC读取当前页…

阅读更多...

一个命令让redis服务端所有信息无所遁形~(收藏吃灰系列)

一个命令让redis服务端所有信息无所遁形~(收藏吃灰系列)

Redis服务器是一个事件驱动程序，它主要处理两类事件：文件事件和时间事件。这些事件的处理和Redis命令的执行密切相关。下面我将以Redis服务端命令为切入点，深入解析其工作原理和重要性。首先，我们先了解Redis服务端有哪些命令。…

阅读更多...

linux 安装下载conda并创建虚拟环境

linux 安装下载conda并创建虚拟环境

目录 1. 下载安装2. 创建虚拟环境1. 下载安装在window操作系统中下载anconda包，并通过scp传输到ubuntu操作系统具体anconda包在如下界面： anconda包目录博主选择了最新的包：Anaconda3-2023.09-0-Linux-x86_64.sh 通过scp传输到ubuntu操作系统中：并在ubuntu操作系…

阅读更多...

共模电感有什么作用与选型技巧？|深圳比创达EMC

共模电感有什么作用与选型技巧？|深圳比创达EMC

共模电感(Common mode Choke)，也叫共模扼流圈，常用于电脑的开关电源中过滤共模的电磁干扰信号。在板卡设计中，共模电感也是起EMI滤波的作用，用于抑制高速信号线产生的电磁波向外辐射发射。如图1，共模电感的简化模型&…

阅读更多...

【每日一记】OSPF区域划分详讲、划分区域的优点好处

【每日一记】OSPF区域划分详讲、划分区域的优点好处

个人名片： 🐼作者简介：一名大二在校生，喜欢编程🎋 🐻‍❄️个人主页🥇：小新爱学习. 🐼个人WeChat：hmmwx53 🕊️系列专栏：&#x1f5bc…

阅读更多...

springboot项目中后台文件上传处理

springboot项目中后台文件上传处理

参考地址：http://www.gxcode.top/code 文件上次核心处理代码： @Autowired private FileUpload fileUpload; //获取资源对象：file-upload-prod.properties@ApiOperation(value = "用户头像修改", notes = "用户头像修改", httpMethod =

阅读更多...

IDEA的使用（三）Debug（断点调试）（IntelliJ IDEA 2022.1.3版本）

IDEA的使用（三）Debug（断点调试）（IntelliJ IDEA 2022.1.3版本）

编程过程中如果出现错误，需要查找和定位错误时，借助程序调试可以快速查找错误。编写好程序后，可能出现的情况： 1.没有bug。使用Debug的情况： 2.运行后，出现错误或者异常信息，但是通过日志文件…

阅读更多...

【置顶】关于博客的一些公告

【置顶】关于博客的一些公告

所谓万事开头难，最开始的两个专栏《微机》和《骨骼动作识别》定价 29.9 ，因为： 刚开始确实比较困难，要把自己学的知识彻底搞懂讲给别人，还要码字排版，从 Markdown 语法开始学起（这都是花…

阅读更多...

林沛满-TCP 是如何避免被发送方分片的？

林沛满-TCP 是如何避免被发送方分片的？

TCP 可以避免被发送方分片，是因为它主动把数据分成小段再交给网络层。最大的分段大小称为 MSS（Maximum Segment Size），它相当于把 MTU 刨去 IP头和 TCP 头之后的大小，所以一个 MSS 恰好能装进一个 MTU 中。图4 图 4 …

阅读更多...

『Linux项目自动化构建工具』make/Makefile

『Linux项目自动化构建工具』make/Makefile

前言如题可知,make/Makefile为在Linux下的项目自动化构建工具; 在上一篇文章『Linux - gcc / g』c程序翻译过程中讲解了C/C程序的翻译过程; 而make/Makefile即可以看成,是Makefile在使用gcc/g使在Linux环境下能够更好的高效率的进行项目构建; 在此之前首先要对make/Makefile…

阅读更多...

Http请求响应 Ajax 过滤器

Http请求响应 Ajax 过滤器

10/10/2023 近期总结： 最近学的后端部署，web服务器运行，各种请求响应，内容很多，学的很乱，还是需要好好整理，前面JavaSE内容还没有完全掌握，再加上一边刷题，感觉压力很大哈…

阅读更多...

归纳所猜半结论推出完整结论：CF1592F1

归纳所猜半结论推出完整结论：CF1592F1

https://www.luogu.com.cn/problem/CF1592F1 场上猜了个结论，感觉只会操作1。然后被样例1hack了。然后就猜如果 ( n , m ) (n,m) (n,m) 为1则翻转4操作，被#14hack了。然后就猜4操作只会进行一次，然后就不知道怎么做下去了。上面猜的结论都…

阅读更多...

Multi-Grade Deep Learning for Partial Differential Equations

Multi-Grade Deep Learning for Partial Differential Equations

论文阅读：Multi-Grade Deep Learning for Partial Differential Equations with Applications to the Burgers Equation Multi-Grade Deep Learning for Partial Differential Equations with Applications to the Burgers Equation符号定义偏微分方程定义FNN定义PI…

阅读更多...

iceberg简介004_iceberg和其他数据湖框架的对比---数据湖Apache Iceberg工作笔记0004

iceberg简介004_iceberg和其他数据湖框架的对比---数据湖Apache Iceberg工作笔记0004

然后来看一下iceberg和其他数据湖框架的对比这里可以看到hudi支持的多一点对吧,但是 iceberg有自己的优势,并且他们都支持timeline 也就是时间旅行对吧. 然后这个图是显示了,数据湖三剑客的开源时间,以及火热程度,可以对比一下看看.

阅读更多...

复旦管院启动科创战略，培养科技研发人才，引领未来发展！

复旦管院启动科创战略，培养科技研发人才，引领未来发展！

今年夏天，600多位优秀的企业家成为复旦大学EMBA 2023级新生。在疫情结束后，他们选择百战归来再读书，重新回到久违的课堂，共同探索科创大时代下企业的商业本质，开启新的学习与人生旅程。复旦大学管理学院院长陆雄文教授…

阅读更多...

只会 Windows 也能轻松搭建远程桌面 RustDesk 自用服务器

只会 Windows 也能轻松搭建远程桌面 RustDesk 自用服务器

网管小贾 / sysadm.cc “哥，你啥时候回来啊？XX业务系统又出问题了！” “情况紧急，老大说让你远程处理，总之尽快解决！” 虽说我常年出差在外总能收到这样的消息，似乎早已习惯，但是公…

阅读更多...

Go 语言切片扩容规则是扩容2倍？1.25倍？到底几倍

Go 语言切片扩容规则是扩容2倍？1.25倍？到底几倍

本次主要来聊聊关于切片的扩容是如何扩的，还请大佬们不吝赐教切片，相信大家用了 Go 语言那么久这这种数据类型并不陌生，但是平日里聊到关于切片是如何扩容的，很多人可能会张口就来，切片扩容的时候，如果老…

阅读更多...

基于安卓android微信小程序音乐播放器

基于安卓android微信小程序音乐播放器

运行环境小程序前端框架：uniapp 小程序运行软件：微信开发者后端技术:javaSsm(SpringSpringMVCMyBatis)vue.js 后端开发环境:idea/eclipse 数据库:mysql 项目介绍音乐播放器小程序的设计主要是对系统所要实现的功能进行详细考虑，确定所要…

阅读更多...

唐老师讲电赛

唐老师讲电赛

dc-dc电源布局要点

阅读更多...

推荐文章

最新文章