VIT(Vision Transformer)学习（三）-纯VIT之swin transformer模型理解

VIT(Vision Transformer)学习（三）-纯VIT之swin transformer模型理解

news2026/2/13 14:19:39

语义分割网络纯 TRF 结构：VIT主干作为编码器，设计一个基于 TRF 架构的解码器。

今天学习swin transformer

源码地址: https://github.com/microsoft/Swin-Transform

哔哩哔哩讲解：12.1 Swin-Transformer网络结构详解_哔哩哔哩_bilibili

博文地址：Swin-Transformer网络结构详解_swin transformer-CSDN博客
up主的github地址：https://github.com/WZMIAOMIAO/deep-learning-for-image-processing

对比：下采样不一样；窗口分割

卷积完成以下操作：48个卷积核为4*4，步长为4的进行卷积(听到这发现不太懂，回到了这一步学习Vision Transformer详解-CSDN博客）

通过Patch Partition ,图像宽高缩减为1/4，通道变为48（16个patch*3个通道）

通过Linear embedding (Layer Norm),图像channel变为C

然后就是通过四个Stage构建不同大小的特征图，除了Stage1中先通过一个Linear Embeding层外，剩下三个stage都是先通过一个Patch Merging层进行下采样（后面会细讲）。然后都是重复堆叠Swin Transformer Block注意这里的Block其实有两种结构，如图(b)中所示，这两种结构的不同之处仅在于一个使用了W-MSA结构，一个使用了SW-MSA结构。而且这两个结构是成对使用的，先使用一个W-MSA结构再使用一个SW-MSA结构。所以你会发现堆叠Swin Transformer Block的次数都是偶数（因为成对使用）。

图（表7）是原论文中给出的关于不同Swin Transformer的配置，T(Tiny)，S(Small)，B(Base)，L(Large)，其中：

win. sz. 7x7表示使用的窗口（Windows）的大小
dim表示feature map的channel深度（或者说token的向量长度）
head表示多头注意力模块中head的个数

最后对于分类网络，后面还会接上一个Layer Norm层、全局池化层以及全连接层得到最终输出。图中没有画，但源码中是这样做的。

Multi-Head Attention

Transformer中Self-Attention以及Multi-Head Attention详解_哔哩哔哩_bilibili

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1087534.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

支付宝开放平台第三方代小程序开发，消息服务推送通知总结

支付宝开放平台第三方代小程序开发，消息服务推送通知总结

大家好，我是小悟关于支付宝开放平台第三方代小程序开发的消息服务推送通知，是开放平台代小程序实现业务的重要功能。消息服务推送通知，支持商家两种通讯协议来接收消息，分别为websocket 长连接和http。关于websocket方式&am…

阅读更多...

CentOS 7 编译安装Boost

CentOS 7 编译安装Boost

1、前提条件 linux平台/CentOS 7 下要编译安装Boost除gcc和gcc-c之外，还需要两个开发库：bzip2-devel 和python-devel ，因此在安装前应该先保证这两个库已经安装。安装指令: yum install bzip2 bzip2-devel bzip2-libs python-devel Cent…

阅读更多...

学习开发一个RISC-V上的操作系统（汪辰老师） — 01-helloRVOS程序讲解

学习开发一个RISC-V上的操作系统（汪辰老师） — 01-helloRVOS程序讲解

前言 （1）此系列文章是跟着汪辰老师的RISC-V课程所记录的学习笔记。 （2）该课程相关代码gitee链接； （3）PLCT实验室实习生长期招聘：招聘信息链接 （4） start.S &a…

阅读更多...

SpringBoot项目入门： IDEA 创建SpringBoot项目

SpringBoot项目入门： IDEA 创建SpringBoot项目

方式1:在线创建项目 https://start.spring.io/ 环境准备 （1）JDK 环境必须是 1.8 及以上，传送门：jdk1.8.191 下载（2）后面要使用到 Maven 管理工具 3.2.5 及以上版本（3）开发工具建议…

阅读更多...

leetcode-279. 完全平方数

leetcode-279. 完全平方数

1. 题目链接链接: 题目链接 2. 解答 #include <stdio.h> #include <stdlib.h> #include <stdbool.h>bool issquare(int n) {if (n 1 || n 4) return true;if (n 2 || n 3) return false;for (int i 3; i < n/2; i ) {if (n i*i) return true;}…

阅读更多...

【HCIE】12.VXLAN

【HCIE】12.VXLAN

VXLAN，是一种IP VPN，每台设备几乎都支持IP，而MPLS会有很多设备不会支持，所以VXLAN是使用的较多。采用MAC in UDP封装方式，MAC指的是原始数据的以太头部被封装到新的UDP头部里面。是基于三层的一个虚拟网络。技术背…

阅读更多...

13.SpringBoot项目之Service层

13.SpringBoot项目之Service层

SpringBoot项目之Service层 JavaEE三层架构为了项目维护方便，为了项目开发便利。三层架构功能控制器层：controller方便和前端数据进行交互业务层：service处理各种业务持久化层：mapper和数据库进行数据交互抽取出service层按…

阅读更多...

华为汪涛：5.5G时代UBB目标网，跃升数字生产力

华为汪涛：5.5G时代UBB目标网，跃升数字生产力

[阿联酋，迪拜，2023年10月12日] 在2023全球超宽带高峰论坛上，华为常务董事、ICT基础设施业务管理委员会主任汪涛发表了“5.5G时代UBB目标网，跃升数字生产力”的主题发言，分享了超宽带产业的最新思考与实践，探…

阅读更多...

Ubuntu 23.10 Beta 镜像开放下载

Ubuntu 23.10 Beta 镜像开放下载

导读Canonical放出了 Ubuntu 23.10 Beta 镜像，此外 Edubuntu、Kubuntu、Lubuntu、Ubuntu Budgie、Ubuntu Cinnamon、Ubuntu Kylin、Ubuntu MATE、Ubuntu Studio、Ubuntu Unity 和 Xubuntu 等风味版本也同步放出镜像。近日消息，Canonical 放出了 Ubuntu …

阅读更多...

KanziStudio described using object-oriented design patterns(持续更新...)

KanziStudio described using object-oriented design patterns(持续更新...)

1.绑定-mvc mvc，model数据与view控件分离。

阅读更多...

【1++的Linux】之文件（二）

【1++的Linux】之文件（二）

👍作者主页：进击的1 🤩 专栏链接：【1的Linux】文章目录一，文件描述符二，重定向三，理解Linux下一切皆文件一，文件描述符我们先来看一段代码： #include<unistd.h&g…

阅读更多...

什么是CDN内容分发网络？如何做到加速的？

什么是CDN内容分发网络？如何做到加速的？

这里写目录标题 CDN如何做到加速的？ CDN content delivery network内容分发网络是建立并覆盖在承载网上，由遍布全球的边缘节点服务器群组成的分布式网络。 CDN将源站资源缓存在遍布全球的边缘加速节点服务器上，当客户需要访问和获取资源的时…

阅读更多...

如何使用Net2FTP搭建免费web文件管理器打造个人网盘

如何使用Net2FTP搭建免费web文件管理器打造个人网盘

文章目录 1.前言2. Net2FTP网站搭建2.1. Net2FTP下载和安装2.2. Net2FTP网页测试 3. cpolar内网穿透3.1.Cpolar云端设置3.2.Cpolar本地设置 4.公网访问测试5.结语 1.前言文件传输可以说是互联网最主要的应用之一，特别是智能设备的大面积使用，无论是个人…

阅读更多...

助力乡村教育泰格智能AI英语开展捐赠实施线上培训

助力乡村教育泰格智能AI英语开展捐赠实施线上培训

2023年10月11日晚8点至9点，泰格智能AI英语创始人李勤骞老师举行了一场为期一小时的线上培训，旨在详细解答泰格智能AI英语联合中国善网捐赠千词切APP训练账号的意义，探讨乡村教育、学习英语的现状和方法，以及项目的实施和落地要求。…

阅读更多...

阿里健康携手15家药企发起“慢病减压计划”，为职场人的健康“减负”

阿里健康携手15家药企发起“慢病减压计划”，为职场人的健康“减负”

近年来，慢性疾病患者的发病年龄正在逐年递减。一组来自阿里健康研究院内部分析数据印证了这一趋势。数据显示，当代80后职场人群中，三成用户购买过慢病药品。 30-39岁已经成为肝胆、心脑等相关疾病药品的购药主力人群。35-39岁是高血压疾病药…

阅读更多...

204、RabbitMQ 之使用 topic 类型的 Exchange 实现通配符路由

204、RabbitMQ 之使用 topic 类型的 Exchange 实现通配符路由

目录 ★ 使用topic实现通配符路由代码演示topic通配符类型的Exchange代码演示:ConstantUtilConnectionUtilProducerConsumer01执行结果生产者消费者01消费者02 完整代码：ConstantUtilConnectionUtilProducerConsumer01Consumer02pom.xml ★ 使用topic实现通配符路由…

阅读更多...

Linux系统移植框架简介

Linux系统移植框架简介

一、系统移植简介系统移植就是给开发板安装一个linux系统。需要从官方下载u-boot源码，linux内核源码，根文件系统的源码，对源码进行配置和编译，生成对应的源码的镜像文件，将镜像文件部署到开发板中，使开发…

阅读更多...

上海亚商投顾：沪指高开高走锂电等新能源赛道大反攻

上海亚商投顾：沪指高开高走锂电等新能源赛道大反攻

上海亚商投顾前言：无惧大盘涨跌，解密龙虎榜资金，跟踪一线游资和机构资金动向，识别短期热点和强势个股。一.市场情绪沪指昨日高开后强势震荡，创业板指盘中一度翻绿，随后探底回升再度走高。碳酸锂期货合约…

阅读更多...

制药行业中的设备管理系统和CSV最佳实践

制药行业中的设备管理系统和CSV最佳实践

在制药行业，合规性和质量是关键要素，而设备管理和计算机化系统验证（CSV）是确保这些要素的关键。之前我们介绍过设备健康管理系统如何帮助制药企业实现CSV合规性>>PreMaint设备健康管理系统：实现制药企业的CSV合规…

阅读更多...

Activiti 8.0.0 发布，业务流程管理与工作流系统

Activiti 8.0.0 发布，业务流程管理与工作流系统

导读Activiti 8.0.0 现已发布。Activiti 是一个业务流程管理 (BPM) 和工作流系统，适用于开发人员和系统管理员。其核心是超快速、稳定的 BPMN2 流程引擎。Activiti 可以在任何 Java 应用程序、服务器、集群或云中运行，与 Spring 完美集成。具体更新内容…

阅读更多...

推荐文章

最新文章