【Transformer】ViT and TNT（2）

【Transformer】ViT and TNT（2）

news2026/3/29 10:08:56

在这里插入图片描述

文章目录

VIT
TNT

太…完整了！同济大佬唐宇迪博士终于把【Transformer】入门到精通全套课程分享出来了，最新前沿方向

学习笔记

VIT

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

eg，图片分块，10x10x3 的 patch 通过 conv 拉成向量，就无缝对接了

在这里插入图片描述
位置编码可以多种方式，一维序号，二维坐标，无

在这里插入图片描述
位置编码 0 这里的 token，为分类任务设计的，encoder 堆叠后（self-attention），0 位置上的 token 已有了全局信息，最后把 0 位置上的特征向量作为分类特征就行

分类仅用到了 encoder，检测任务中会用到 decoder

CNN 的缺点

在这里插入图片描述

在这里插入图片描述

层多，每一层需要设计

在这里插入图片描述
需要的数据比较多，比较难训练

在这里插入图片描述

eg， patch P 为 14*14，C 为 256， D 为 512
Epos 是位置编码
MSA 是 multi-head self-attention
LN 是 layer normalization

在这里插入图片描述

多层共用一个位置编码即可，不用每层都用

仅能反应分类任务的规律，检测可能 2D 位置编码还是更好

在这里插入图片描述

下面跟随数据的维度和代码（我也没有，哈哈）看看整体流程

（1）embedding

输入 [16，3，224，224]

cls token = [16，1，768]

768 超参， hidden size

patch = 16，划分的方式如下。输入通道 3，输出通道 768，kernel size =16, stride = 16 的 conv 把图片分成 patch，[16，768，14，14]

16x14 = 224

拉长一下成向量，[16，768，196]，transpose 一下成 [16，196，768]

batch 16，每个 batch 196 个 token，每个 token 的特征维度是 768

加上 position embedding，维度为 [16，197，768]

每个 batch 的位置编码一样，所以第一个维度是 1

（2）encoder

LN [16，197，768]

query （fc）[16，197，768]
key （fc）[16，197，768]
value（fc）[16，197，768]

在这里插入图片描述

q，k，v transpose for score [16，197，768]->[16，197，12，64]->[16，12，197，64]，12 表示共有 12 个 multi-head attention，197 个 token，每个 token 64 维的特征

在这里插入图片描述
q，k 内积 attention score [16，12，197，197]，197 个 token 间相互的关系

归一化，消除数量的影响

在这里插入图片描述

再接一个 softmax 计算出来权重

权重乘以 v，重构了特征得到 [16，12，197，64]，还原回去得到 [16，197，768]

再来个 fc 层，和输入来个 res 结构

在这里插入图片描述

[16，197，768]

在这里插入图片描述

继续

在这里插入图片描述
再来个 layer norm + MLP + res

在这里插入图片描述

重复执行 L 次，输出选第 0 个 token 作为预测

接个 fc 得到 logits，eg：[16，197，768]->[16，768]->[16，10] 十分类

在这里插入图片描述

TNT

在这里插入图片描述

conv 是基于每个空间位置进行的，相比于来说 patch 过于大了，可以把patch 进一步细分，

在这里插入图片描述

类似于 focus，eg $16 * 16 * 3$ 变成 $4 * 4 * 28$

在这里插入图片描述

内部 transformer 得到的结果和外部 transformer 得到的结果相加

在这里插入图片描述

T-SNE 蓝色特征更发散一些（更能分得开）

方差越大，特征越鲜明，越容易区分

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1319725.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

硬件基础：光耦、可控硅、继电器、达林顿管、干簧管

硬件基础：光耦、可控硅、继电器、达林顿管、干簧管

光耦光电耦合器（optical coupler，英文缩写为OC）亦称光电隔离器，简称光耦。光电耦合器是一种把发光器件和光敏器件封装在同一壳体内， 中间通过电→光→电的转换来传输电信号的半导体光电子器件。其中，发光…

阅读更多...

三勾商城新功能-电子面单发货

三勾商城新功能-电子面单发货

商家快递发货时可以选择在线下单,在线获取和打印电子面单。免去手写面单信息以及避免填写运单号填错,系统会自动填写对应发货商品的运单信息快递100电子面单1、进入快递100，点击登录 2、登录成功后，点击“电子面单与云打印” 3、进入电子面单与云打印后…

阅读更多...

什么是缓存击穿、缓存穿透、缓存雪崩？

什么是缓存击穿、缓存穿透、缓存雪崩？

🚀 作者主页： 有来技术 🔥 开源项目： youlai-mall 🍃 vue3-element-admin 🍃 youlai-boot 🌺 仓库主页： Gitee 💫 Github 💫 GitCode 💖 欢迎点赞…

阅读更多...

Yapi详细安装过程（亲测可用）

Yapi详细安装过程（亲测可用）

1. 前置条件 1、Git 2、NodeJs（7.6） 3、Mongodb（2.6） 2. NodeJs的安装 1、获取资源 curl -sL https://rpm.nodesource.com/setup_8.x | bash - 2、安装NodeJS yum install -y nodejs 3、查看NodeJs和Npm node -v npm -v…

阅读更多...

算法——分治

算法——分治

思想：分而治之，将大问题转化为若干个相同或相似的子问题。快排的题目常见的方法是利用三指针法将数组分三块搭配随机选择基准元素的思想颜色分类（分治_快排） 颜色分类题目解析原地对它们进行排序，使得相同颜色的元…

阅读更多...

Appium 图像识别技术 OpenCV

Appium 图像识别技术 OpenCV

在我们做App自动化测试的时候，会发现很多场景下元素没有id、content-desc、text等等属性，并且有可能也会碰到由于开发采用的是自定义View，View中的元素也无法识别到，很多的自动化测试框架对此类场景束手无策。Appium在V1.9.0中有给…

阅读更多...

Temu、Shein、OZON测评自养号，IP和指纹浏览器的优缺点分析

Temu、Shein、OZON测评自养号，IP和指纹浏览器的优缺点分析

随着全球电子商务的飞速发展，跨境电商环境展现出巨大的潜力和机遇。然而，跨境卖家们也面临着更激烈的竞争、更严格的规定和更高的运营成本等挑战。为了在这个环境中脱颖而出，一些卖家尝试使用自动脚本程序进行浏览和下单。然而，这…

阅读更多...

【LeetCode刷题-回溯】--216.组合总和III

【LeetCode刷题-回溯】--216.组合总和III

216.组合总和III 方法：回溯 class Solution {public List<List<Integer>> combinationSum3(int k, int n) {List<List<Integer>> ans new ArrayList<>();Deque<Integer> path new ArrayDeque<>(); dfs(ans,path,n,k,1…

阅读更多...

复杂背景下的低空无人机检测与跟踪算法

复杂背景下的低空无人机检测与跟踪算法

doi：10.11884/HPLPB202335.230026 大视场中的目标丢失后需要再次检测，但是大视场的检测比较耗时。但是根据实验发现丢失目标通常发生在无人机运动区域的320x320范围内，所以设计辅助网络，当目标丢失后，以320x320区域图像…

阅读更多...

SI24R03国产自主可控RISC-V架构MCU低功耗2.4GHz收发芯片SoC

SI24R03国产自主可控RISC-V架构MCU低功耗2.4GHz收发芯片SoC

目录 RISC-V架构的优势SI24R03/04特性射频收发器模块特征MCU 模块特征其他特征 RISC-V架构的优势相对于目前主流的英特尔X86架构及ARM等架构来说，RISC-V架构具有指令精简、模块化、可扩展、开源、免费等优点。RISC-V的基础指令集只有40多条，加上其他基…

阅读更多...

AI智剪：一键批量剪辑，高效助力创作无限可能

AI智剪：一键批量剪辑，高效助力创作无限可能

你是否曾经因为视频剪辑工作繁琐而感到烦恼？是否曾经因为视频剪辑效率低下而无法按时完成任务？如果你也有这样的困扰，那么AI智剪将为你提供解决方案。第一步：首先进入媒体梦工厂主页面， 并在板块栏里选择“AI智剪”板…

阅读更多...

脉冲群EFT整改措施和影响？|深圳比创达电子

脉冲群EFT整改措施和影响？|深圳比创达电子

一、什么是脉冲群EFT？ 脉冲群EFT是一种电磁兼容性测试方法，用于评估电子设备在电力系统中的耐受能力。它模拟了由电网中的突然切换或开关操作引起的瞬态电磁干扰，并对设备的性能进行测试。二、影响脉冲群EFT测试的因素在进行脉冲群EFT测试…

阅读更多...

模拟适配器设计方案：360-基于10G以太网的模拟适配器

模拟适配器设计方案：360-基于10G以太网的模拟适配器

基于10G以太网的模拟适配器一、产品概述基于10G以太网的模拟适配器是一款分布式高速数据采集系统，实现多路AD的数据采集，并通过10G以太网光纤远距离传输到存储计算服务器，计算控制指令能通过光纤返回给数据卡进行IO信号控制。产品基于…

阅读更多...

如何在安装了巨魔2的iphone中运行Theos编译的本地化二进制工具:Bootstrap

如何在安装了巨魔2的iphone中运行Theos编译的本地化二进制工具:Bootstrap 一、首先从https://github.com/34306/iPA/releases/tag/bstr下载jb.zip、jb_with_jb_folder.zip、prefs_fix.ipa三个文件。二、然后使用Filza文件管理器把jb.zip解压后复制到/var/containers/jb目录&…

阅读更多...

【LangChain学习之旅】—（1）何谓 LangChain

【LangChain学习之旅】—（1）何谓 LangChain

Reference：LangChain 实战课【LangChain学习之旅】— 何谓 LangChain 如何理解 LangChainLangChain 中的具体组件LangChain调用ChatGPTLangChain代理功能如何理解 LangChain 作为一种专为开发基于语言模型的应用而设计的框架，通过 LangChain&#xff…

阅读更多...

【算法刷题】Day15

【算法刷题】Day15

文章目录 1. 串联所有单词的子串题干：算法原理代码： 2. 最小覆盖子串题干：算法原理：1、暴力枚举哈希表2、滑动窗口哈希表代码： 1. 串联所有单词的子串原题链接题干： 给定⼀个字符串 s 和⼀个字符串…

阅读更多...

Vue学习计划-Vue2--VueCLi（八）vuex统一状态管理实现数据共享

Vue学习计划-Vue2--VueCLi（八）vuex统一状态管理实现数据共享

1. vuex是什么概念：专门在Vue中实现集中式状态（数据）管理的一个Vue插件，对Vue应用中多个组件的共享状态进行集中式的管理（读/写），也是一种组件间通信的方式，且适用于任意组件间通信…

阅读更多...

了解葡萄酒最重要的是什么？

了解葡萄酒最重要的是什么？

事实上，大多数人只知道葡萄酒是一种酒精饮料味道很好，是您享用食物和营造氛围的完美饮品。但我认为知道得多一点葡萄酒的知识会增加你的欣赏力，你不必搜索葡萄酒来找寻资料，因为标签上有很多信息。葡萄酒标签里有什么&#xff1f…

阅读更多...

WinSCP显示服务器隐藏的文件

WinSCP显示服务器隐藏的文件

正常情况下，如果我们有使用WinSCP作为SFTP、FTP管理主机空间的时候，如果有类似.htaccess或者其他.开头或者其他特殊文件名扩展会直接看不到而是隐藏着的。这样就显得比较麻烦，自己都不知道有还是没有，比如我们要修改.htaccess伪静…

阅读更多...

Kotlin 笔记 -- Kotlin 语言特性的理解（一）

Kotlin 笔记 -- Kotlin 语言特性的理解（一）

函数引用、匿名函数、lambda表达式、inline函数的理解双冒号对函数进行引用的本质是生成一个函数对象只有函数对象才拥有invoke()方法，而函数是没有这个方法的kotlin中函数有自己的类型，但是函数本身不是对象，因此要引用函数类型就必须通过双…

阅读更多...

推荐文章

最新文章