【计算机视觉 | 图像模型】常见的计算机视觉 image model(CNNs Transformers) 的介绍合集(六)

news2024/11/18 17:48:39

文章目录

    • 一、Co-Scale Conv-attentional Image Transformer(CoaT)
    • 二、Pyramid Vision Transformer v2(PVTv2)
    • 三、Class-Attention in Image Transformers(CaiT)
    • 四、PoolFormer
    • 五、ScaleNet
    • 六、VoVNet
    • 七、Siamese U-Net
    • 八、Single-path NAS
    • 九、XCiT
    • 十、CrossViT
    • 十一、PeleeNet
    • 十二、ConViT
    • 十三、CrossTransformers
    • 十四、SKNet
    • 十五、SqueezeNeXt

一、Co-Scale Conv-attentional Image Transformer(CoaT)

Co-Scale Conv-Attentional Image Transformer (CoaT) 是一种基于 Transformer 的图像分类器,配备了 co-scale 和 conv-attention 机制。 首先,共尺度机制保持了 Transformers 编码器分支在各个尺度上的完整性,同时允许在不同尺度上学习的表示有效地相互通信。 其次,通过在因子化注意力模块中实现相对位置嵌入公式来设计卷积注意力机制,并采用高效的类似卷积的实现。 CoaT 为图像 Transformers 提供了丰富的多尺度和上下文建模功能。

在这里插入图片描述

二、Pyramid Vision Transformer v2(PVTv2)

Pyramid Vision Transformer v2 (PVTv2) 是一种用于检测和分割任务的 Vision Transformer。 它通过多项设计改进对 PVTv1 进行了改进:(1) 重叠补丁嵌入,(2) 卷积前馈网络,以及 (3) 与 PVTv1 框架正交的线性复杂性注意层。

在这里插入图片描述

三、Class-Attention in Image Transformers(CaiT)

CaiT(图像变换器中的类注意力)是一种视觉变换器,在原始 ViT 的基础上进行了一些设计更改。 首先使用一种称为 LayerScale 的新层缩放方法,在每个残差块的输出上添加可学习的对角矩阵,初始化为接近(但不是)0,从而提高了训练动态。 其次,该架构中引入了类注意层。 这创建了一个架构,其中涉及补丁之间自注意力的变换器层与类注意力层明确分离——类注意力层致力于将处理后的补丁的内容提取到单个向量中,以便可以将其馈送到线性分类器。

在这里插入图片描述

四、PoolFormer

PoolFormer 是通过将令牌混合器指定为极其简单的运算符(池)从 MetaFormer 实例化的。 PoolFormer 被用作验证 MetaFormer 假设“MetaFormer 实际上是您所需要的”(相对于“注意力就是您所需要的”)的工具。

在这里插入图片描述

五、ScaleNet

ScaleNet(或称尺度聚合网络)是一种卷积神经网络,它学习神经元分配以聚合深度网络的不同构建块中的多尺度信息。 每个块中信息最丰富的输出神经元被保留,而其他神经元被丢弃,因此多个尺度的神经元被竞争性和自适应地分配。 尺度聚合(SA)块连接各种尺度的特征图。 每个尺度的特征图是通过一堆下采样、卷积和上采样操作生成的。

在这里插入图片描述

六、VoVNet

VoVNet 是一种卷积神经网络,旨在通过在最后一个特征图中仅连接一次所有特征来提高 DenseNet 的效率,这使得输入大小恒定并能够扩大新的输出通道。 在右图中,代表一个卷积层并且表示串联。

在这里插入图片描述

七、Siamese U-Net

Siamese U-Net 模型采用预训练的 ResNet34 架构作为编码器,用于数据高效的变化检测

在这里插入图片描述

八、Single-path NAS

Single-Path NAS 是通过单路径神经架构搜索方法发现的卷积神经网络架构。 NAS 使用单路径搜索空间。 具体来说,与之前的可微分 NAS 方法相比,单路径 NAS 使用一个单路径过参数化 ConvNet 通过共享卷积核参数对所有架构决策进行编码。 该方法基于这样的观察:NAS 中的不同候选卷积操作可以被视为单个超级内核的子集。 不必像多路径方法中那样在不同的路径/操作之间进行选择,我们而是将 NAS 问题解决为找到在每个 ConvNet 层中使用哪个内核权重子集。 通过共享卷积核权重,我们将所有候选 NAS 操作编码到单个超级内核中。

该架构本身使用 MobileNetV2 的反向残差块作为其基本构建块。

在这里插入图片描述

九、XCiT

交叉协方差图像变换器(XCiT)是一种视觉变换器,旨在将传统变换器的准确性与卷积架构的可扩展性结合起来。

变压器底层的自注意力操作产生所有标记(即单词或图像块)之间的全局交互,并且能够对超出卷积局部交互的图像数据进行灵活建模。 然而,这种灵活性伴随着时间和内存的二次复杂性,阻碍了长序列和高分辨率图像的应用。 作者提出了一种称为交叉协方差注意力的自注意力“转置”版本,它跨特征通道而不是令牌进行操作,其中交互基于键和查询之间的交叉协方差矩阵。

在这里插入图片描述

十、CrossViT

CrossViT 是一种视觉转换器,它使用双分支架构来提取多尺度特征表示以进行图像分类。 该架构结合了不同大小的图像块(即变压器中的标记),以产生更强的图像分类视觉特征。 它使用不同计算复杂度的两个独立分支处理小型和大型补丁令牌,并且这些令牌多次融合在一起以相互补充。

融合是通过高效的交叉注意力模块实现的,其中每个变压器分支创建一个非补丁令牌作为代理,通过注意力与其他分支交换信息。 这允许在融合中线性时间生成注意力图,而不是二次时间。

在这里插入图片描述

十一、PeleeNet

PeleeNet 是一种卷积神经网络和对象检测主干网,是 DenseNet 的变体,并进行了优化以满足内存和计算预算。 与竞争网络不同,它不使用深度卷积,而是依赖于常规卷积。

在这里插入图片描述

十二、ConViT

ConViT 是一种视觉变换器,它使用门控位置自注意力模块(GPSA),这是一种位置自注意力形式,可以配备“软”卷积归纳偏置。 GPSA 层被初始化为模仿卷积层的局部性,然后通过调整控制对位置与内容信息的注意力的门控参数,使每个注意力头可以自由地逃避局部性。

在这里插入图片描述

十三、CrossTransformers

CrossTransformers 是一种基于 Transformer 的神经网络架构,它可以采用少量标记图像和未标记查询,找到查询和标记图像之间的粗略空间对应关系,然后通过计算空间对应特征之间的距离来推断类成员关系。

在这里插入图片描述

十四、SKNet

SKNet 是一种卷积神经网络,在其架构中采用选择性内核单元和选择性内核卷积。 这允许一种注意力类型,网络可以学习关注不同的感受野。

在这里插入图片描述

十五、SqueezeNeXt

SqueezeNeXt 是一种卷积神经网络,它使用 SqueezeNet 架构作为基线,但进行了一些更改。 首先,通过合并两级挤压模块来更积极地减少通道。 这显着减少了 3×3 卷积使用的参数总数。 其次,它使用可分离的3×3卷积来进一步减小模型尺寸,并去除了squeeze模块之后额外的1×1分支。 第三,该网络使用类似于 ResNet 架构的逐元素加法跳跃连接。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1011677.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MT4和MT5的共同点,anzo capital昂首资本说一个,没人有意见吧

相信很多交易者对MT4和MT5都不会陌生,但您了解他们背后之间的关系吗?今天anzo capital昂首资本就和各位交易者一起聊聊,没人有意见的MT4和MT5的共同点。 其实谈起MT4和MT5,就不得不聊聊他们背后的公司MetaQuotes,MetaQuotes 是…

家政小程序源码家政预约小程序独立版,家政上门预约,功能强大

家政服务行业作为一个相对传统的行业,随着互联网的发展迅速,和用户群体的改变,家政服务公司也需要改变一下经营思路了,否则未来很难满足新一代用户群体的个性化需求。 核心功能: 1、师傅(服务人员)入驻:家…

IDEA怎么将CRLF转化为LF

执行命令: git config --global core.autocrlf input 或者使用IDEA的自动提交的修复

2023 Google开发者大会:你了解机器学习的新动向吗?

目录 0 年度科技盛会1 生成式机器学习2 无障碍游戏体验3 跨平台机器学习总结 0 年度科技盛会 2023Google开发者大会在上海浦东举办,为开发者和科技爱好者们带来新技术、新产品、新动向 可能很多同学对Google 开发者大会还不熟悉,Google 开发者大会是 G…

异步FIFO设计

1 FIFO简介 FIFO的本质是RAM,具有先进先出的特性。 FIFO的基本使用原则:空时不能读,满时不能写 FIFO的两个重要参数:宽度和深度 FIFO的两种类型: 同步FIFO:读写时钟相同,通常用来做数据缓存…

医疗领域超低温监控,你了解吗?

超低温冰箱在医疗保健领域中扮演着不可或缺的角色。它们被广泛用于存储生物样本、药物和疫苗等温度敏感的医疗物品,以确保这些关键资源的质量和有效性。 然而,温度波动和不稳定性可能会对这些物品造成严重损害,甚至威胁患者的生命。为了应对这…

对话泛微:产业数字化时代,我们需要怎样的OA?

在泛微诞生以后的十年,恰是OA系统的大规模突破。十年间,上百家OA企业的诞生直接将市场推向了鼎盛期。而后又迎来了移动互联网风口,在互联网厂商的冲击之下,传统OA在不断进击的同时,还要进行自我蜕变,成为“…

ppt录制在哪?实用技巧分享!

在现代演示和培训中,PPT演示已经成为越来越流行的一种交流方式。而录制ppt也成为了很多商务演讲、教学讲解、产品演示等场合的必备技能。本文将为您介绍两种常见的ppt录制方式,帮助您轻松录制ppt演示的过程。 ppt录制在哪? ppt是一款流行的演…

操作系统Deepin DTK顺利适配Qt6,从而提供更高效开发体验

据了解,当前deepin DTK(Development ToolKit)已经在近日顺利适配Qt6 (6.4.2),从而实现全面升级。 据悉,DTK作为 deepin 基于Qt开发的一整套通用开发框架,并且是deepin操作系统中的核心位置。    Multiable万达宝ERP(www.multi…

打败全国百分之99.99的模板方法模式讲解

目录 背景:模板方法定义:步骤:初始版: 每个人都抄卷子,然后抄完写自己的答案第一版:将试卷的题抽象出来第二版:将每个人回答的部分抽象出来第三版:将答题步骤封装出来(这…

lenovo联想Legion Y9000P IRX8H 2023款(82WQ)原装出厂Windows11系统

联想拯救者笔记本电脑原厂系统自带网卡、显卡、声卡等所有驱动、出厂主题壁纸、Office办公软件、联想电脑管家等预装程序 链接:https://pan.baidu.com/s/1YBji_oh7xOkq-NxnS8Mm8g?pwdn17o 提取码:n17o 所需要工具:16G或以上的U盘 文件…

el-table 列背景色渐变

最初的想法是&#xff0c;给每一行添加背景色&#xff0c;逐行递减透明度&#xff0c;发现结果比较突兀&#xff0c;效果如下&#xff1a; 如果有需要这种样式的&#xff0c;代码如下&#xff1a; <template><div><el-table:data"tableData":heade…

小麦苗GreenPlum学习大纲

腾讯文档 课程文档内容如下&#xff1a; 小麦苗GreenPlum课程公开课-- 数据库通用学习路线、答疑、培训、考证等&#xff1a;https://docs.qq.com/doc/p/b65bcd7647a9974a94b97fb06d04a089c25a7f0c 小麦苗GreenPlum课程第0节-- 数据库简介、分类、发展、流行度排名等&#xf…

Docker容器化技术(从零学会Docker)

文章目录 前言一、初识Docker1.初识Docker-Docker概述2.初识Docker-安装Docker3.初识Docker-Docker架构4.初识Docker-配置镜像加速器 二、Docker命令1.Docker命令-服务相关命令2.Docker命令-镜像相关命令3.Docker命令-容器相关命令 三、Docker容器的数据卷1.Docker容器数据卷-数…

Python:函数定义的参数

相关阅读 Python专栏https://blog.csdn.net/weixin_45791458/category_12403403.html?spm1001.2014.3001.5482 函数定义就是定义一个用户自定义的函数对象&#xff0c;它的语法的BNF范式如下所示&#xff0c;有关BNF范式的规则&#xff0c;可以参考之前的文章。 funcdef …

asp.net+sqlserver+c#教师工作量计算系统

本课题主要是解决工作量管理管理中的日常中涉及到的问题&#xff0c;目标是使工作量在管理上做到数据的信息化、快速化。 系统在实现上应至少具有如下功能&#xff1a; (1)教师信息管理 该模块包括教师信息的添加、修改。 (2)个人信息 该模块是对用户登录系统后对自己信息的修改…

C-结构体

目录 结构体 定义结构体 第一种方式 定义的同时定义变量名 第三种方式 赋值和初始化 如何取出结构体成员 结构体变量&#xff0c;结构体指针作为函数参数进行传递 结构体运算 结构体 形成了一个新的数据类型 定义结构体 第一种方式 定义一个新的数据类型&#xf…

Unity - Shader Compiled Log

文章目录 吐槽开启 Log Shader Compilation实践资源准备Build ABTesting ScriptShader Compiled Log Project 吐槽 先说一下&#xff0c;最近几天前&#xff0c;纷纷看到 unity install fee 的天才收费方案 真的忍不住吐槽&#xff0c;我只想说&#xff1a; “no zuo no die”…

旋转框/微调按钮的基类--QAbstractSpinBox 类

1、 QAbstractSpinBox 类是 QWidget 类的直接子类&#xff0c;虽然该类不是抽象类&#xff0c;但该类并未提供实 际的功能&#xff0c;仅为旋转框提供了一些外观的形式以及需要子类实现了成员&#xff0c; 也就是说点击微调按钮的上/下按钮&#xff0c;不会使其中的数值有变化。…

Visual Studio批量删除换行

1. 使用ctrlh可以打开替换窗体 2.alte选择窗体中的正则表达式 使用正则表达式&#xff1a; ^\s*$ ^代表行首 $代表行尾 \s代表任意不可见字符&#xff0c;例如空格、Tab等 *代表匹配\s任意次 结果&#xff1a;