【计算机视觉】Vision Transformers算法介绍合集(三)

news2025/1/11 7:58:25

文章目录

    • 一、OODformer
    • 二、Colorization Transformer
    • 三、MUSIQ
    • 四、LeVIT
    • 五、Visformer
    • 六、Twins-PCPVT
    • 七、Conditional Position Encoding Vision Transformer
    • 八、Twins-SVT
    • 九、Shuffle Transformer
    • 十、RegionViT
    • 十一、LocalViT
    • 十二、EsViT
    • 十三、Multi-Heads of Mixed Attention

一、OODformer

OODformer 是一种基于 Transformer 的 OOD 检测架构,它利用 Transformer 的上下文化功能。 将变压器作为主要特征提取器可以通过视觉注意来利用对象概念及其区分属性以及它们的共现。

OODformer 采用 ViT 及其数据高效变体 DeiT。 每个编码器层由多头自注意力和多层感知块组成。 编码器中的 MSA 和 MLP 层的组合对属性的重要性、关联相关性和共现进行联合编码。 [class] 标记(图像的代表)通过全局上下文整合多个属性及其相关特征。 最后一层的 [class] 标记以两种方式用于 OOD 检测; 首先,它被传递给用于softmax置信度得分,其次用于潜在空间距离计算。

在这里插入图片描述

二、Colorization Transformer

Colorization Transformer 是一种仅由轴向自注意力块组成的概率着色模型。 这些模块的主要优点是能够仅用两层捕获全局感受野。 为了实现高分辨率灰度图像的着色,该任务被分解为三个更简单的顺序子任务:粗略低分辨率自回归着色、并行颜色和空间超分辨率。

对于粗略的低分辨率着色,应用了 Axial Transformer 的条件变体。 作者利用 Axial Transformers 的半并行采样机制。 最后,采用快速并行确定性上采样模型将粗略彩色图像超分辨率为最终的高清晰度图像。

在这里插入图片描述

三、MUSIQ

MUSIQ(多尺度图像质量转换器)是一种基于 Transformer 的多尺度图像质量评估模型。 它处理具有不同尺寸和纵横比的原始分辨率图像。 在 MUSIQ 中,我们构建了一个多尺度图像表示作为输入,包括原始分辨率图像及其 ARP 调整大小的变体。 每个图像被分割成固定大小的补丁,这些补丁由补丁编码模块(蓝色框)嵌入。 为了捕获图像的 2D 结构并处理不同纵横比的图像,通过散列补丁位置对空间嵌入进行编码在可学习嵌入的网格内(红色框)。 引入尺度嵌入(绿色框)来捕获尺度信息。 Transformer 编码器获取输入标记并执行多头自注意力。 为了预测图像质量,MUSIQ 遵循 Transformers 中的常见策略,在序列中添加 [CLS] 标记来表示整个多尺度输入,并将相应的 Transformer 输出用作最终表示。

在这里插入图片描述

四、LeVIT

LeVIT 是一种用于快速推理图像分类的混合神经网络。 LeViT 是变压器块的堆栈,具有池化步骤来降低激活图的分辨率,就像经典卷积架构中一样。 这用带有池化的金字塔取代了 Transformer 的统一结构,类似于 LeNet 架构

在这里插入图片描述

五、Visformer

Visformer,或视觉友好的 Transformer,是一种将基于 Transformer 的架构特征与卷积神经网络架构的特征相结合的架构。 Visformer 采用分级设计,具有更高的基础性能。 但自注意力仅在最后两个阶段使用,考虑到即使 FLOP 平衡,高分辨率阶段的自注意力也相对低效。 Visformer 在第一阶段采用瓶颈块,并在受 ResNeXt 启发的瓶颈块中使用 3 × 3 组卷积。 它还引入了 BatchNorm 来修补嵌入模块,就像 CNN 中一样。

在这里插入图片描述

六、Twins-PCPVT

Twins-PCPVT 是一种视觉变换器,它将全局注意力(特别是 Pyramid Vision Transformer 中提出的全局子采样注意力)与条件位置编码(CPE)相结合,以取代 PVT 中使用的绝对位置编码。

生成 CPE 的位置编码生成器 (PEG) 放置在每级的第一个编码器块之后。 使用最简单的 PEG 形式,即没有批量归一化的 2D 深度卷积。 对于图像级分类,在 CPVT 之后,删除类标记,并在阶段结束时使用全局平均池化。 对于其他视觉任务,遵循PVT的设计。

在这里插入图片描述

七、Conditional Position Encoding Vision Transformer

CPVT(条件位置编码视觉变换器)是一种利用条件位置编码的视觉变换器。 除了新的编码之外,它遵循 ViT 和 DeiT 相同的架构。

在这里插入图片描述

八、Twins-SVT

Twins-SVT 是一种视觉变换器,它利用空间可分离注意力机制(SSAM),该机制由两种类型的注意力操作组成:(i)局部分组自注意力(LSA)和(ii)全局子采样 注意(GSA),其中LSA捕获细粒度和短距离信息,GSA处理长距离和全局信息。 除此之外,它还利用条件位置编码以及 Pyramid Vision Transformer 的架构设计。

在这里插入图片描述

九、Shuffle Transformer

Shuffle Transformer 模块由 Shuffle Multi-Head Self-Attention 模块 (ShuffleMHSA)、Neighbor-Window Connection 模块 (NWC) 和 MLP 模块组成。 为了引入跨窗口连接,同时保持非重叠窗口的高效计算,提出了一种在连续的 Shuffle Transformer 块中交替使用 WMSA 和 Shuffle-WMSA 的策略。 第一个基于窗口的 Transformer 块使用常规窗口分区策略,第二个基于窗口的 Transformer 块使用基于窗口的自注意力和空间混洗。 此外,每个块中还添加了邻居窗口连接模块(NWC),以增强邻居窗口之间的连接。 因此,所提出的洗牌变压器块可以构建丰富的跨窗口连接并增强表示。 最后,连续的 Shuffle Transformer 块计算如下:

在这里插入图片描述
在这里插入图片描述

十、RegionViT

RegionViT 由两个标记化过程组成,将图像转换为区域标记(上方路径)和本地标记(下方路径)。 每个标记化都是具有不同补丁大小的卷积,在第 1 阶段,两组令牌通过建议的区域到本地转换器编码器传递。 然而,在后期,为了平衡计算负载并获得不同分辨率的特征图,该方法使用下采样过程将空间分辨率减半,同时在区域和局部标记上将通道尺寸加倍,然后再进入下一个阶段 阶段。 最后,在网络的末端,它简单地平均剩余的区域标记作为分类的最终嵌入,而检测在每个阶段使用所有本地标记,因为它提供了更细粒度的位置信息。 通过金字塔结构,ViT 可以生成多尺度特征,因此可以轻松扩展到更多视觉应用,例如对象检测,而不仅仅是图像分类。

在这里插入图片描述

十一、LocalViT

LocalViT 旨在引入深度卷积来增强 ViT 的局部特征建模能力。 如图(c)所示,该网络通过深度卷积(用“DW”表示)将局域机制引入到变压器中。 为了应对卷积运算,通过“Seq2Img”和“Img2Seq”添加序列和图像特征图之间的对话。 计算如下:

在这里插入图片描述
输入(标记序列)首先被重塑为在 2D 晶格上重新排列的特征图。 将两个卷积和一个深度卷积应用于特征图。 特征图被重塑为一系列标记,这些标记被网络变压器层的自注意力所使用。

在这里插入图片描述

十二、EsViT

EsViT 提出了两种开发高效自监督视觉转换器以进行视觉表示学习的技术:具有稀疏自注意力的多阶段架构和新的区域匹配预训练任务。 多级架构降低了建模复杂性,但代价是失去了捕获图像区域之间细粒度对应关系的能力。 新的预训练任务允许模型捕获细粒度的区域依赖性,从而显着提高学习视觉表示的质量。

在这里插入图片描述

十三、Multi-Heads of Mixed Attention

混合注意力的多头结合了自我注意力和交叉注意力,鼓励对各种注意力特征中捕获的实体之间的交互进行高级学习。 它由多个注意力头构建,每个注意力头都可以实现自我注意力或交叉注意力。 自注意力是指关键特征和查询特征相同或来自相同的领域特征。 交叉注意力是指关键特征和查询特征是由不同的特征生成的。 MHMA 建模允许模型识别不同域的特征之间的关系。 这在涉及关系建模的任务中非常有用,例如人与物体交互、工具与组织交互、人机交互、人机界面等。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1017322.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

推荐一个页面引导库 driver_js

推荐一个页面引导库 driver.js 页面引导功能是 web 开发中常见的一个功能。通过页面引导功能,你可以让用户第一时间熟悉你的页面功能。今天给大家推荐一个页面引导库 driver.js。 1 简介 driver.js 是一款用原生 js 实现的页面引导库,上手非常简单&am…

远程连接PostgreSQL:配置指南与安全建议

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🐅🐾猫头虎建议程序员必备技术栈一览表📖: 🛠️ 全栈技术 Full Stack: &#x1f4da…

UDP/TCP 最大可传输单元细节可不少~

一、MTU 简述 - 分包后数据包最大长度 1、定义 Maximum Transmission Unit(最大可传输单元) 的缩写,它的单位是字节。在 *数据链路层* 定义 一个数据包穿过一个大的网络,它其间会穿过多个网络,每个网络的 MTU 值是不…

探索Adobe Photoshop 2024:新功能与增强功能详解

Adobe Photoshop 2024,这款传奇的图像编辑软件,近期又迎来了一些令人振奋的新特性。对于专业设计师和摄影爱好者来说,Photoshop 的每次更新都牵动着他们的心。那么,这次的新版本究竟带来了哪些值得我们期待的功能呢?且…

GDB之打印函数堆栈(十二)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言: 人生…

Mysql002:(库和表)操作SQL语句

目录: 》SQL通用规则说明 SQL分类: 》DDL(数据定义:用于操作数据库、表、字段) 》DML(数据编辑:用于对表中的数据进行增删改) 》DQL(数据查询:用于对表中的数…

获取spring容器中的bean实例

在开发过程中,我们可能需要动态获取spring容器中的某个bean的实例,此时我们就会用到ApplicationContext spring应用上下文,这里做一下记录,网上很多类似的的工具类。 先写好工具类再测试一下是否好用 工具类: packag…

CLIP 基础模型:从自然语言监督中学习可转移的视觉模型

一、说明 在本文中,我们将介绍CLIP背后的论文(Contrastive Language-I mage Pre-Training)。我们将提取关键概念并分解它们以使其易于理解。此外,还对图像和数据图表进行了注释以澄清疑问。 图片来源: 论文&#xff1a…

关于 Qt串口不同电脑出现不同串口号打开失败 的解决方法

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/132842297 红胖子(红模仿)的博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软…

8. 工厂方法模式

一 典型工厂方法模式&#xff08;Factory Method&#xff09;结构图 二 典型工厂模式实现 测试代码 #include <iostream> using namespace std;class Product{ public:string name;virtual void show(){cout << "我是:";} }; class Desk : public Produ…

LeetCode 热题 100(九):回溯复习。77. 组合、17. 电话号码的字母组合、39. 组合总和

题目一&#xff1a; 77. 组合 思路&#xff1a; 思路&#xff1a;回溯算法。使用回溯三部曲进行解题&#xff1a; 1.递归函数的返回值以及参数&#xff1a;n&#xff0c;k&#xff0c;startIndex(记录每次循环集合从哪里开始遍历的位置)&#xff0c;其中startIndex 就是防止…

【管理运筹学】第 8 章 | 动态规划(1,多阶段决策过程与动态规划基本概念)

文章目录 引言一、多阶段决策过程及实例二、动态规划的基本概念和方法2.1 动态规划的基本概念 写在最后 引言 倒回来学动态规划&#xff0c;网络计划和排队论先放到后面吧。 动态规划是解决多阶段决策过程最优化问题的一种方法。该方法由美国数学家贝尔曼等人在 20 世纪 50 年…

网安之python基础作业(2-3)

目录 目录 前言 系列文章列表 网安之python基础学习作业(1) 思维导图 1&#xff0c;网安之python基础学习作业(2) 1.1,作业一: 1.1.1,题目 1.1.2,题解 1.2&#xff0c;作业二: 1.2,1,题目 1.2.2,题解 2&#xff0c;网安之python基础学习作业(3) 2.1,作业1 2.1…

【面向对象的三大基本特征与五大基本原则】

文章目录 面向对象的三大基本特征与五大基本原则一、三大基本特征&#xff1a;封装、继承、多态1、封装2、继承3、多态 二、五大基本原则1、单一职责原则&#xff08;SRP&#xff09;2、开放封闭原则&#xff08;OCP&#xff09;3、里氏替换原则&#xff08;LSP&#xff09;4、…

免费:CAD批量转PDF工具,附下载地址

分享一款CAD 批量转PDF、打印的工具插件。能自动识别图框大小、自动识别比例、自动编号命名。重点&#xff01;重点&#xff01;重点&#xff01;自动将CAD的多张图纸一次性地、批量地转为PDF&#xff0c;或者打印。效果看下图&#xff1a; 适用环境&#xff1a; 32位系统 Auto…

前端JavaScript入门到精通,javascript核心进阶ES6语法、API、js高级等基础知识和实战 —— JS基础(二)

人生是旷野&#xff0c;不是轨道。 思维导图 一、运算符 1.1 赋值运算符 1.2 一元运算符 1.3 比较运算符 1.4 逻辑运算符 逻辑与&#xff0c;一假则假 逻辑或&#xff0c;一真则真 <!DOCTYPE html> <html lang"en"><head><meta charset&quo…

李沐机器学习入门

文章目录 1.数据的获取2.数据的爬取3.数据的标注3.1 半监督学习3.1.1 自学习算法3.1.2 人工标注数据3.1.3 弱监督学习 4.数据的预处理5. 数据的清理6. 数据的变换7.特征工程8.机器学习介绍8.1 决策树模型8.2 线性模型线性模型做回归线性模型做分类Softmax回归 8.3 小批量随机梯…

线性代数基础-行列式

一、行列式之前的概念 1.全排列&#xff1a; 把n个不同的元素排成一列&#xff0c;称为n个元素的全排列&#xff0c;简称排列 &#xff08;实际上就是我们所说的排列组合&#xff0c;符号是A&#xff0c;arrange&#xff09; 2.标准序列&#xff1a; 前一项均小于后一项的序列…

输入学生成绩,函数返回最大元素的数组下标,求最高分学生成绩(输入负数表示输入结束)

scanfscore()函数用于输入学生的成绩 int scanfscore(int score[N])//输入学生的成绩 {int i -1;do {i;printf("输入学生成绩:");scanf("%d", &score[i]);} while (score[i] > 0);return i; } findmax()用于寻找最大值 int findmax(int score[N…

【Spring】BeanName 的自动生成原理

&#x1f388;博客主页&#xff1a;&#x1f308;我的主页&#x1f308; &#x1f388;欢迎点赞 &#x1f44d; 收藏 &#x1f31f;留言 &#x1f4dd; 欢迎讨论&#xff01;&#x1f44f; &#x1f388;本文由 【泠青沼~】 原创&#xff0c;首发于 CSDN&#x1f6a9;&#x1f…