swin-transformer

news2025/6/28 12:03:30

面向视觉任务的transfomer

Vision Transformer(ViT)在视觉任务中的局限性

需求数据量巨大

CNN中是图像整体输入，并且经过多年的演变，发展出了多个不同的优化策略。从而在学习时能够在一定先验知识的前提下拟合数据。

而transformer是将图像切割成若干较小的patch，并拉伸成向量。从而难以获得图像关联信息，缺少大量先验知识。

对此，需要从大量数据中学习这些先验知识。大量例子证明，在数据量足够充分的前提下，transformer能够获得比CNN更好的效果。

但是在小规模数据中，由于无法有效学习到数据的先验知识，反而会比CNN更低。
计算量大

事实上，transformer所包含的参数通常要大于CNN。

其主要原因在于：transformer的模型结构就导致学习数据非常的难，因此需要更多的hidden layer来学习数据的本质分布。

为了达到这一目的，通常要累加很多层transoformer结构，因此也更加的庞大。

在视觉领域中的具体困难

1. 大尺寸图像计算量爆炸

2. 尺度固定为16*16

Swin transformer的解决之道：用CNN的精神

swin-transformer结构图

按照"长宽各减一半，channel数增加一倍"的‘规则’进行

transformer需要大量数据原因之一：因为将先验知识（序列或图片切成小patch拉成一个向量）结构被破坏，因此需要更多的数据去训练。

swin与vit不同的是：不与所有的token做相关性，而是跟它相近的（周边邻域（4个或5个））token做相关性，感受野逐渐扩大，与cnn神似；
线性变换降维：通过mlp或1*1卷积进行降维

patch partition：将图片分割成小块block（如：win size: 7*7），在通过1*1卷积将通道数3变为48

swin transformer用CNN的方式去构建网络，用卷积局部化的思想，基于self-attention的方式去搭建网络，实现图像编码

其中主要包含3个主要内容：

patch partition：类似于池化
shift操作：令不同token之间有通信，减少计算量
相对位置编码：进一步加强token之间的上下文关系

patch partition

MSA和WMSA

复杂度比较

对于MSA的复杂度大约为：

对于W MSA来说

M：切割后的尺寸，如上图：M=2 ，但每个block之间没有关联起来，解决：shift

shift操作

问题：原来4个token，现在变成9个token了

解决：挪动一些token

新问题：特征乱窜

解决：加mask

位置偏置

位置偏置就是将位置信息作为偏置，加入向量。

imagenet上加入位置偏置可以有3%的提升。

具体步骤为：

计算每个token的相对位置坐标
拉伸后合并成一个矩阵
合并成一维位置向量(全部加上M-1，行再乘以2M-1，行列相加)
可训练参数B作为偏置value的索引，查表将偏置作为归一化后的偏置信息

B:位置编码（增加每个token的位置信息）

总体架构

Token

在计算机视觉中，Token通常指的是一种用于表示图像或文本中的最小单位的符号或标记。这些符号或标记可以是像素、单词、字符或其他更高级的语义单位。

在图像处理中，Token可以是图像的像素、图像块、特征点或其他表示图像信息的单位。例如，在图像分类或目标检测任务中，可以将图像划分为不同的图像块，并将每个图像块视为一个Token来进行处理。

在自然语言处理中，Token通常指的是将文本分割成单词、字符或其他语义单位的过程。这些Token可以用于文本的分析、语义理解、机器翻译等任务。例如，在文本分类任务中，可以将文本分割成单词并将每个单词视为一个Token来进行处理。

Token在计算机视觉中的应用非常广泛，可以用于图像处理、目标识别、图像分割、文本处理等各种任务中。通过将图像或文本分割成Token，可以更好地理解和处理图像或文本数据，从而提高计算机视觉任务的性能和效果。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/752023.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

精彩回放 | AI驱动下的流程挖掘如何提升企业决策和运营效率？

精彩回放 | AI驱动下的流程挖掘如何提升企业决策和运营效率？

流程挖掘是一种从事件日志中发现、监控和优化实际业务流程的技术。在AI的驱动下，流程挖掘能进行更深层次的自动化和智能化处理，从而帮助企业更准确地了解和优化业务流程，提高决策的精确度和运营的效率。然而，AI驱动的流程挖掘在实…

阅读更多...

FPGA——pwm呼吸灯

FPGA——pwm呼吸灯

文章目录一、实验环境二、实验任务三、实验过程3.1 verilog代码3.2 引脚配置四、仿真4.1 仿真代码4.2 仿真结果五、实验结果六、总结一、实验环境 quartus 18.1 modelsim vscode Cyclone IV开发板二、实验任务呼吸灯是指灯光在微电脑的控制之下完成由亮到暗的逐渐变化…

阅读更多...

便捷查物流教程

便捷查物流教程

当下寄递物品早已成为常态，而如何快速进行物流信息查询，成为收寄人所关心的问题。在回答这个问题之前，首先我们要知道，物流信息查询，有哪些方法？ 1、官网单号查询知道快递公司和单号的情况下，…

阅读更多...

目标检测——目标检测概述

目标检测——目标检测概述

目录目标检测常用的开源数据集PASCAL VOC数据集MS COCO数据集常用的评价指标IOU（交并比）mAP（Mean Average Precision） NMS（非极大值抑制）目标检测方法分类目标检测常用的开源数据集 PASCAL VOC数据集 …

阅读更多...

遭遇勒索攻击，日本名古屋港停摆两天！

遭遇勒索攻击，日本名古屋港停摆两天！

日前，中央社东京报道一则勒索软件讯息。日本名古屋港的货柜码头遭受勒索病毒攻击后发生系统故障，系统数据已被加密，无法装卸货柜，造成港内5处货柜码头全数停摆长达两天，造成了巨额损失。名古屋港是日本汽车产业聚集的…

阅读更多...

ArcGIS如何制作横版图例

ArcGIS如何制作横版图例

如果你经常制图，肯定使用过插入图例这个功能，默认情况下，插入的图例是竖着的，在某些情况下，如果需要横着的图例是否可以实现呢，答案是肯定的，这里为大家介绍一下ArcGIS如何制作横版图例&#xf…

阅读更多...

DC电源模块输出电压的关键参数详细说明

DC电源模块输出电压的关键参数详细说明

BOSHIDA DC电源模块输出电压的关键参数详细说明 DC电源模块是一种直流电源设备，广泛应用于各种电子设备的供电系统中。DC电源模块的输出电压是其中一个非常关键的参数，对于电子设备的性能和稳定性都有着重要的影响。以下将详细描述DC电源模块输出电压的…

阅读更多...

状态模式：实现对象状态的封装和切换

状态模式：实现对象状态的封装和切换

状态模式是一种行为设计模式，它允许对象在内部状态改变时改变其行为。该模式将对象的行为封装在不同的状态类中，使得对象可以根据其内部状态的改变而改变行为，从而实现了状态和行为的解耦。结构和参与者状态模式包含以下几个关键角色&…

阅读更多...

什么是RPC并实现一个简单的RPC

什么是RPC并实现一个简单的RPC

1. 基本的RPC模型主要介绍RPC是什么，基本的RPC代码，RPC与REST的区别，gRPC的使用 1.1 基本概念 RPC（Remote Procedure Call）远程过程调用，简单的理解是一个节点请求另一个节点提供的服务本地过程调用&am…

阅读更多...

【仲裁器】轮询仲裁round-robin，rr

【仲裁器】轮询仲裁round-robin，rr

起因：在多主单从的设计中，当多个源端同时发起传输请求时，需要仲裁器根据优先级来判断响应哪一个源端。轮询仲裁：各个源端优先级相同，当其同时发起请求时，依次进行响应。电路图代码 module rr_arb(input…

阅读更多...

ACREL-5000能耗管理系统在某机场的应用安科瑞许敏

ACREL-5000能耗管理系统在某机场的应用安科瑞许敏

摘要：大型公共建筑总面积不足城镇建筑总面积的4%，但总能耗却占全国城镇总耗电量的22%，大型公共建筑单位面积年耗电量达到70～300KWh，为普通居民住宅的10～20倍。公共建筑是节能大户和节能重点，做好…

阅读更多...

【HarmonyOS】ArkTS学习之基于TextTimer的简易计时器

【HarmonyOS】ArkTS学习之基于TextTimer的简易计时器

【关键字】 ArkTS、计时器、TextTimer 【介绍】 TextTimer是ArkTS提供的通过文本显示计时信息并控制其计时器状态的组件。今天就给大家展示一个基于TextTimer的简易计时器的实现吧。在使用之前我们要先了解它的用法： TextTimer(options?: { isCountDown?: boolean…

阅读更多...

【文末送书】Python深度学习（基于PyTorch）

【文末送书】Python深度学习（基于PyTorch）

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和技术。搜…

阅读更多...

FIR 滤波器去除噪声

FIR 滤波器去除噪声

目录 FIR 滤波器去除噪声解决方案一：滑动平均滤波方法解决方案二：另外一种理解角度-----引入权重系数概念 FIR滤波器表达式 FIR滤波器一、FIR滤波器的基本结构二、FIR滤波器的设计方法 1、频率采样法 2、窗函数法三、FIR滤波器的性能指标 …

阅读更多...

【2023，学点儿新Java-33】字符型变量char | 布尔类型变量 boolean：true、false

【2023，学点儿新Java-33】字符型变量char | 布尔类型变量 boolean：true、false

前情提要： 【2023，学点儿新Java-32】Java基础小练习：根据圆周率与半径求圆的面积 | 温度转换 | 计算矩形面积 | 判断奇偶数 | 年龄分类【2023，学点儿新Java-31】测试：整型和浮点型变量的使用 | 附：计算机存…

阅读更多...

(超详解)---＞自定义类型(结构体，枚举，联合)

(超详解)---＞自定义类型(结构体，枚举，联合)

目录本章学习重点： 1：结构体类型的声明与变量的定义 2：如何求解结构体的大小(结构体的内存对齐) 3:结构体传参，结构体实现位段 4：枚举类型的定义和优点 5：联合的定义与特点及大小的计算 1：结构…

阅读更多...

Kind | Kubernetes in Docker 把k8s装进docker！

Kind | Kubernetes in Docker 把k8s装进docker！

有点像杰克船长的黑珍珠目录零、说明一、安装安装 Docker 安装 kubectl 安装 kind 二、创建/切换/删除集群创建切换删除将镜像加载到 kind 群集中零、说明官网：kind Kind： Kubernetes in Docker 的简称。kind 是一个使用 Docker 容…

阅读更多...

【技能实训】DMS数据挖掘项目-Day09

【技能实训】DMS数据挖掘项目-Day09

文章目录任务9【任务9.1.1】升级DataBase类为可序列化的类，以便在文件保存或网络中传递【任务9.1.2】升级LogRec类为可序列化的类，以便在文件保存或网络中传递【任务9.1.3】升级MatchedLogRec类为可序列化的类，以便在文件保存或网络中传递【…

阅读更多...

java通过正则表达式提取信息

java通过正则表达式提取信息

java通过正则表达式提取信息工具类如下 package com.datafactory.util;import lombok.extern.slf4j.Slf4j; import org.springframework.stereotype.Component;import java.util.regex.Matcher; import java.util.regex.Pattern;Component Slf4j public class RegexUtils {/…

阅读更多...

“简单易懂的排序：深入了解直接选择排序“

“简单易懂的排序：深入了解直接选择排序“

文章目录 🔍 选择排序的原理与过程📈 选择排序的优缺点👉 代码实现 🔍 选择排序的原理与过程本文我们直接说一个优化过的直接选择排序。其思路大同小异. 选择排序的思路很简单每次从待排序的数据中选择一个最小和最大的元素&a…

阅读更多...

推荐文章

最新文章