Transformer在视觉的应用

Transformer在视觉的应用

news2025/4/17 0:05:03

文章目录

Vison Transformer
Swin Transformer
Visual Attention Network

在这里插入图片描述

在这里插入图片描述

Vison Transformer

transformer 在 cv 中最重要的算法

Linear Projection of Flattened Patches
对于标准的Transformer模块，要求输入的是token（向量）序列，即二维矩阵［num_token，token_dim］。对于图像数据而言，其数据格式为［H，W，C］是三维矩阵明显不是Transformer想要的。所以需要先通过一个Embedding层来对数据做个变换。
具体来说，直接使用一个卷积核大小为16x16，步距为16，卷积核个数为768的卷积来实现线性映射，这个卷积操作产生shape变化为［224，224，3］->［14，14，768］，然后把H以及W两个维度展平（FlattenedPatches）即可，shape变化为（［14，14，768］->［196，768］），此时正好变成了一个二维矩阵，正是
Transformer想要的。
在输入Transformer Encoder之前注意需要加上［class］token以及Position Embedding。

在这里插入图片描述
2. Transformer Encoder
Transformer Encoder其实就是重复堆叠如下图所示的Encoder BlockL次，主要由以下几部分组成
MLPBlock就是全连接+GELU激活函数+Dropout组成也非常简单，需要注意的是第一个全连接层会把输入节点个数翻4倍［197，768］->［197，3072］，第二个全连接层会还原回原节点个数［197，3072］->［197， 768］

3.MLP Head
上面通过Transformer Encoder后输出的shape和输入的shape是保持不变的，以ViT-B/16为例，输入的是［197，768］输出的还是［197，768］。
这里我们只是需要分类的信息，所以我们只需要提取出［class］token生成的对应结果就行，即［197，768］中抽取出［class］token对应的［1，768］，因为self-attention计算全局信息的特征，这个［class］token其中已经融合了其他token的信息。接着我们通过MLP Head得到我们最终的分类结果。

在这里插入图片描述

数据>策略>模型

Swin Transformer

在这里插入图片描述

Visual Attention Network

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1289942.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

鸿蒙4.0开发笔记之ArkTS语法基础之应用生命周期与页面中组件的生命周期（十六）

鸿蒙4.0开发笔记之ArkTS语法基础之应用生命周期与页面中组件的生命周期（十六）

文章目录一、应用生命周期二、生命周期函数定义三、生命周期五函数练习一、应用生命周期 1、定义应用生命周期就是代表了一个HarmonyOS应用中所有页面从创建、开启到销毁等过程的全生命周期。查看路径如下： Project/entry/src/main/ets/entryability/EntryAbili…

阅读更多...

vue elementUI 上传非空验证

vue elementUI 上传非空验证

<el-form-item label"照片" prop"staffImg"><template v-slot:label><span v-show"!rules.staffImg[0].required"style"color: #ff4949;margin-right: 4px;">*</span><span>照片</span></temp…

阅读更多...

【JavaWeb学习笔记】6 - Tomcat

【JavaWeb学习笔记】6 - Tomcat

项目代码零、在线文档 Apache Tomcat 8 (8.0.53) - Documentation Index WEB开发 1. WEB,在英语中web表示网/网络资源(页面，图片,css,js)意思，它用于表示WEB服务器(主机)供浏览器访问的资源 2. WEB服务器(主机)上供外界访问的Web资源分为: 静态web…

阅读更多...

LeetCode 每日一题 Day 4

LeetCode 每日一题 Day 4

2477. 到达首都的最少油耗给你一棵 n 个节点的树（一个无向、连通、无环图），每个节点表示一个城市，编号从 0 到 n - 1 ，且恰好有 n - 1 条路。0 是首都。给你一个二维整数数组 roads ，其中 roads[i] [ai,…

阅读更多...

Myblog01-基于基本的javaWeb设计实现

Myblog01-基于基本的javaWeb设计实现

目录一、项目概述： 应用技术： 接口实现： 数据库建表，sql脚本： 页面展示：登陆页面项目源码：myblog01: 初版的个人博客项目-使用基本的javaWeb (gitee.com) 二、对博客系统进行测试总结一、项…

阅读更多...

怎么给文章润色？文章润色怎么收费？

怎么给文章润色？文章润色怎么收费？

文章润色，指的是在原有文章基础上，对语言表达、逻辑结构、风格等方面进行优化调整，以提高文章的阅读体验和质量。润色不同于修改，修改主要针对文章中的错误，如语法、拼写、标点等；而润色则是对文章的整体…

阅读更多...

网页抓取为什么要使用http代理？

网页抓取为什么要使用http代理？

目录前言一、网页抓取的定义二、使用HTTP代理的原因 1. 防止IP被封锁 2. 提高访问速度 3. 保护隐私 4. 突破地域限制三、使用Python进行网页抓取并使用HTTP代理 1. 安装必要的Python模块 3. 获取网页源代码 4. 解析网页内容总结前言网页抓取是指从互联网中…

阅读更多...

如何解决syntaxerror: more than 255 arguments 报错

如何解决syntaxerror: more than 255 arguments 报错

如何解决syntaxerror: more than 255 arguments 报错问题背景解释解决方案问题背景今天拼接特征的时候，突然代码报错syntaxerror: more than 255 arguments ，看了一下感觉这个报错非常有意思，估计平时也是没机会碰到，和大家分…

阅读更多...

课题学习(十五)----阅读《测斜仪旋转姿态测量信号处理方法》论文

课题学习(十五)----阅读《测斜仪旋转姿态测量信号处理方法》论文

一、论文内容 1.1 摘要为准确测量旋转钻井时的钻具姿态，提出了一种新的信号处理方法。测斜仪旋转时，垂直于其旋转轴方向加速度计的输出信号中重力加速度信号分量具有周期性特征，以及非周期性离心加速度分量频率低于重力加速度信号分量频率…

阅读更多...

ROS-ROS通信机制-参数服务器

ROS-ROS通信机制-参数服务器

文章目录一、基础理论知识二、C实现三、Python实现一、基础理论知识参数服务器在ROS中主要用于实现不同节点之间的数据共享。参数服务器相当于是独立于所有节点的一个公共容器，可以将数据存储在该容器中，被不同的节点调用，当然不同的节点…

阅读更多...

【GAMES101】二维变换和齐次坐标

【GAMES101】二维变换和齐次坐标

这几天都在抽空学OpenGL、敲leetcode和看games，这里留点笔记给以后复习 games101第一节课在吹水，第二节课讲了线性代数的入门知识，比较简单，这里稍微回顾一下重点，然后开始讲第三节课的二维变换和齐次坐标目录向量…

阅读更多...

前端CSS（层叠样式表）总结

前端CSS（层叠样式表）总结

CSS2总结一、CSS基础 1. CSS简介 CSS 的全称为：层叠样式表 ( Cascading Style Sheets ) 。CSS 也是一种标记语言，用于给 HTML 结构设置样式，例如：文字大小、颜色、元素宽高等等。简单理解： CSS 可以美化…

阅读更多...

一篇文章带你详细了解C++智能指针

一篇文章带你详细了解C++智能指针

一篇文章带你详细了解C智能指针为什么要有智能指针内存泄漏1.什么是内存泄漏，它的危害是什么2.内存泄漏的分类3.如何避免内存泄漏智能指针的使用及原理1.RAII2.智能指针的原理3.auto_ptr4.unique_ptr5.shared_ptr6.weak_ptr 为什么要有智能指针 C引入智能指针的主…

阅读更多...

【SVM】不同数据划分方式导致结果不同...

【SVM】不同数据划分方式导致结果不同...

此帖是一个自我纠查帖，感觉基本不会有其他人踩相同的坑。背景：在MI分类中使用FBCSPSVM，基于这个方法写了两个分类的.py文件实现，在数据划分上大差不差（都是CV5），但是结果却相差很多方法一&a…

阅读更多...

从零开始学习 JavaScript APl（七）：实例解析关于京东案例头部案例和放大镜效果！

从零开始学习 JavaScript APl（七）：实例解析关于京东案例头部案例和放大镜效果！

大家好关于JS APl 知识点已经全部总结了，第七部部分全部都是案例部分呢！！（素材的可以去百度网盘去下载！！！） 目录前言一、个人实战文档放大镜效果思路分析： 关于其它…

阅读更多...

【C++】String类经典OJ题目分析

【C++】String类经典OJ题目分析

目录字符串相加字符串里面最后一个单词的长度反转字符串||反转字符串中的单词字符串相加链接: link class Solution { public:string addStrings(string num1, string num2) {int next 0;//存放进位int end1 num1.size()-1;int end2 num2.size()-1;int ret 0;string …

阅读更多...

安全测试工具，自动发现网站所有URL！

安全测试工具，自动发现网站所有URL！

作为一个安全测试人员来说，首先要拿到网站所有url，然后根据拿到的url进行渗透测试进行漏洞挖掘。本文给大家介绍的是如何拿到一个网站所有的url。深度爬取层级控制现在我也找了很多测试的朋友，做了一个分享技术的交流群，共享了很…

阅读更多...

Android Glide自定义AppCompatImageView切分成若干小格子，每个小格子onDraw绘制Bitmap，Kotlin（1）

Android Glide自定义AppCompatImageView切分成若干小格子，每个小格子onDraw绘制Bitmap，Kotlin（1） 垂直方向的RecyclerView，每行一个AppCompatImageView，每个AppCompatImageView被均匀切割成n个小格子&#…

阅读更多...

求职招聘小程序源码系统全开源源代码：找工作+招人才平台级别运营版附带完整的搭建教程

求职招聘小程序源码系统全开源源代码：找工作+招人才平台级别运营版附带完整的搭建教程

在当前的求职招聘市场中，尽管存在大量的求职者和招聘者，但依然存在着信息不对称、沟通不畅等问题。小编来给大家分享一款求职招聘小程序源码系统，旨在提供一个高效、便捷、安全的求职招聘平台。以下是部分代码示例： 系统特色功能…

阅读更多...

C#事件的本质

C#事件的本质

event字段本质就是对委托进行私有访问限制，事件的本质就是委托，只不过系统会对用event字段修饰的委托进行了特殊处理，比如自动生成一个私有的委托变量，添加两个事件访问器，同时禁止外部类对事件的Invoke等方法调用。 …

阅读更多...

推荐文章

最新文章