【计算机视觉 | 图像模型】常见的计算机视觉 image model(CNNs Transformers) 的介绍合集(十)

news2024/11/17 21:54:30

文章目录

    • 一、GreedyNAS-A
    • 二、ASLFeat
    • 三、GreedyNAS-B
    • 四、Twins-PCPVT
    • 五、MoGA-A
    • 六、MoGA-C
    • 七、Visformer
    • 八、Multi-Heads of Mixed Attention
    • 九、LocalViT
    • 十、SPP-Net
    • 十一、The Ikshana Hypothesis of Human Scene Understanding Mechanism
    • 十二、DetNASNet
    • 十三、TResNet
    • 十四、MoGA-B
    • 十五、Colorization Transformer
    • 十六、CSPDenseNet-Elastic
    • 十七、Harm-Net
    • 十八、PReLU-Net
    • 十九、Twins-SVT
    • 二十、EsViT

一、GreedyNAS-A

GreedyNAS-A 是使用 GreedyNAS 神经架构搜索方法发现的卷积神经网络。 使用的基本构建块是反向残差块(来自 MobileNetV2)和挤压和激励块。

在这里插入图片描述

二、ASLFeat

ASLFeat 是一种用于学习局部特征的卷积神经网络,它使用可变形卷积网络来密集估计和应用局部变换。 它还利用固有的特征层次结构来恢复空间分辨率和低级细节,以实现准确的关键点定位。 最后,它使用峰值测量来关联特征响应并得出更具指示性的检测分数。

在这里插入图片描述

三、GreedyNAS-B

GreedyNAS-B 是使用 GreedyNAS 神经架构搜索方法发现的卷积神经网络。 使用的基本构建块是反向残差块(来自 MobileNetV2)和挤压和激励块。

在这里插入图片描述

四、Twins-PCPVT

Twins-PCPVT 是一种视觉变换器,它将全局注意力(特别是 Pyramid Vision Transformer 中提出的全局子采样注意力)与条件位置编码(CPE)相结合,以取代 PVT 中使用的绝对位置编码。

生成 CPE 的位置编码生成器 (PEG) 放置在每级的第一个编码器块之后。 使用最简单的 PEG 形式,即没有批量归一化的 2D 深度卷积。 对于图像级分类,在 CPVT 之后,删除类标记,并在阶段结束时使用全局平均池化。 对于其他视觉任务,遵循PVT的设计。

在这里插入图片描述

五、MoGA-A

MoGA-A 是一种针对移动延迟进行优化的卷积神经网络,通过移动 GPU 感知 (MoGA) 神经架构搜索发现。 基本构建块是来自 MobileNetV2 的 MBConvs(反转残差块)。 还对挤压和激励层进行了实验。

在这里插入图片描述

六、MoGA-C

MoGA-C 是一种针对移动延迟进行优化的卷积神经网络,并通过移动 GPU 感知 (MoGA) 神经架构搜索发现。 基本构建块是来自 MobileNetV2 的 MBConvs(反转残差块)。 还对挤压和激励层进行了实验。

在这里插入图片描述

七、Visformer

Visformer,或视觉友好的 Transformer,是一种将基于 Transformer 的架构特征与卷积神经网络架构的特征相结合的架构。 Visformer 采用分级设计,具有更高的基础性能。 但自注意力仅在最后两个阶段使用,考虑到即使 FLOP 平衡,高分辨率阶段的自注意力也相对低效。 Visformer 在第一阶段采用瓶颈块,并在受 ResNeXt 启发的瓶颈块中使用 3 × 3 组卷积。 它还引入了 BatchNorm 来修补嵌入模块,就像 CNN 中一样。

在这里插入图片描述

八、Multi-Heads of Mixed Attention

混合注意力的多头结合了自我注意力和交叉注意力,鼓励对各种注意力特征中捕获的实体之间的交互进行高级学习。 它由多个注意力头构建,每个注意力头都可以实现自我注意力或交叉注意力。 自注意力是指关键特征和查询特征相同或来自相同的领域特征。 交叉注意力是指关键特征和查询特征是由不同的特征生成的。 MHMA 建模允许模型识别不同域的特征之间的关系。 这在涉及关系建模的任务中非常有用,例如人与物体交互、工具与组织交互、人机交互、人机界面等。

在这里插入图片描述

九、LocalViT

LocalViT 旨在引入深度卷积来增强 ViT 的局部特征建模能力。 如图(c)所示,该网络通过深度卷积(用“DW”表示)将局域机制引入到变压器中。 为了应对卷积运算,通过“Seq2Img”和“Img2Seq”添加序列和图像特征图之间的对话。 计算如下:

在这里插入图片描述

输入(标记序列)首先被重塑为在 2D 晶格上重新排列的特征图。 将两个卷积和一个深度卷积应用于特征图。 特征图被重塑为一系列标记,这些标记被网络变压器层的自注意力所使用。

十、SPP-Net

SPP-Net 是一种卷积神经架构,采用空间金字塔池化来消除网络的固定大小约束。 具体来说,我们在最后一个卷积层之上添加一个 SPP 层。 SPP 层汇集特征并生成固定长度的输出,然后将其输入到全连接层(或其他分类器)。 换句话说,我们在网络层次结构的更深层(卷积层和全连接层之间)执行一些信息聚合,以避免在开始时进行裁剪或扭曲。

在这里插入图片描述

十一、The Ikshana Hypothesis of Human Scene Understanding Mechanism

在这里插入图片描述

十二、DetNASNet

DetNASNet 是一个卷积神经网络,旨在成为对象检测主干,并通过 DetNAS 架构搜索发现。 它使用 ShuffleNet V2 块作为其基本构建块。

在这里插入图片描述

十三、TResNet

TResNet 是 ResNet 的变体,旨在提高准确性,同时保持 GPU 训练和推理效率。 它们包含多种设计技巧,包括 SpaceToDepth 茎、抗锯齿下采样、就地激活 BatchNorm、块选择以及挤压和激励层。

在这里插入图片描述

十四、MoGA-B

MoGA-B 是一种针对移动延迟进行优化的卷积神经网络,并通过移动 GPU 感知 (MoGA) 神经架构搜索发现。 基本构建块是来自 MobileNetV2 的 MBConvs(反转残差块)。 还对挤压和激励层进行了实验。

在这里插入图片描述

十五、Colorization Transformer

在这里插入图片描述
对于粗略的低分辨率着色,应用了 Axial Transformer 的条件变体。 作者利用 Axial Transformers 的半并行采样机制。 最后,采用快速并行确定性上采样模型将粗略彩色图像超分辨率为最终的高分辨率输出。

在这里插入图片描述

十六、CSPDenseNet-Elastic

CSPDenseNet-Elastic 是一个卷积神经网络和对象检测主干,我们将跨阶段部分网络 (CSPNet) 方法应用于 DenseNet-Elastic。 CSPNet 将基础层的特征图划分为两部分,然后通过跨阶段层次结构将它们合并。 使用拆分和合并策略允许更多的梯度流通过网络。

在这里插入图片描述

十七、Harm-Net

谐波网络或 Harm-Net 是一种卷积神经网络,它用使用离散余弦变换 (DCT) 滤波器的“谐波块”代替卷积层。 这些块可用于截断高频信息(可能是由于谱域中的冗余)。

在这里插入图片描述

十八、PReLU-Net

PReLU-Net 是一种卷积神经网络,其激活函数使用参数化 ReLU。 它还使用强大的初始化方案 - 后来称为 Kaiming 初始化 - 来解释非线性激活函数。

在这里插入图片描述

十九、Twins-SVT

Twins-SVT 是一种视觉变换器,它利用空间可分离注意力机制(SSAM),该机制由两种类型的注意力操作组成:(i)局部分组自注意力(LSA)和(ii)全局子采样 注意(GSA),其中LSA捕获细粒度和短距离信息,GSA处理长距离和全局信息。 除此之外,它还利用条件位置编码以及 Pyramid Vision Transformer 的架构设计。

在这里插入图片描述

二十、EsViT

EsViT 提出了两种开发高效自监督视觉转换器以进行视觉表示学习的技术:具有稀疏自注意力的多阶段架构和新的区域匹配预训练任务。 多级架构降低了建模复杂性,但代价是失去了捕获图像区域之间细粒度对应关系的能力。 新的预训练任务允许模型捕获细粒度的区域依赖性,从而显着提高学习视觉表示的质量。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1011974.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

thinkphp:查询本周中每天中日期的数据

以今天2023-09-14为例,这一周为2023-09-11~2023-09-07 运行结果 结果: 代码 后端thinkphp: //查询本周每天的的总金额数 //获取本周的起始日期和结束日期 $weekStart date(Y-m-d, strtotime(this week Monday)); $weekEnd date(Y-m-d, strtotime(t…

【Vue】大悟!模板语法-插值语法指令语法

模板语法 Vue模板语法包括两大类 插值语法 插值语法也就是两个大括号,也叫Mustache 功能:用于解析标签体内容,可以进行运算、三元表达式等,将最终解析出来的内容插入到标签中 写法:{{xxx}},xxx 是 js 表达式&…

RSA算法研究报告

摘 要 分析RSA算法的应用现状,论证文件加密应用RSA算法的可行性和意义。设计一套完整实用的RSA文件加密解决方案,具体编码实现。对RSA算法进行研究,从常规RSA算法出发,用C实现RSA加密算法类库,并在32位windows平台封装…

如何将 OBJ 模型转换和压缩为 GLTF 以与 AWS IoT TwinMaker 配合使用

推荐:使用NSDT场景编辑器快速搭建3D应用场景 概述 在这篇博文中,引用了几种文件扩展名和模型格式。在开始之前,最好了解以下内容: OBJ – 对象文件,一种标准的 3D 图像格式,可以通过各种 3D 图像编辑程序…

在springboot下将mybatis升级为mybatis-plus

在springboot下将mybatis升级为mybatis-plus 1. 整体描述2. 具体步骤2.1 更新pom引用2.2 更新yml配置2.3 更新config配置2.4 BaseEntity修改 3. 程序启动4. 总结 1. 整体描述 之前项目工程用的是mybatis,现在需要将其替换为mybatis-plus,mybatis-plus的…

实用技巧:Linux上实现OpenGauss数据库远程连接,方便的跨网络数据操作

文章目录 前言1. Linux 安装 openGauss2. Linux 安装cpolar3. 创建openGauss主节点端口号公网地址4. 远程连接openGauss5. 固定连接TCP公网地址6. 固定地址连接测试 🍁 小结 🍁 前言 openGauss是一款开源关系型数据库管理系统,采用木兰宽松许…

解决WIN11笔记本Type-C转DP线外接显示器重启开机没信号无法识别需再次插拔问题

在最新的WIN11系统中,你如果使用Type-C转DP线外接显示器,每次开机的时候或许会出现显示器没有信号的问题。这是因为你的显示器和转接线作为USB外设进入休眠了,导致需要再次插拔才能识别出来,不仅麻烦而且一次次插拔转接线是有磨损…

微信管理系统自动添加好友功能

你是否有这样的困扰,为什么你在添加多个好友的时候,容易添加频繁。你要先知道底层的规则是怎么样的,才能尽可能的去避免添加频繁,加到更多的好友。 微信主动添加好友的规则: ①通过附近人功能加人上限15人/天&#xf…

评价指标和超参数调整进阶

文章目录 查准率 查全率 F1 scoreGridSearchCV概述score参数的修改 classification report 目标: 综合考虑查准率和查全率,来确定最佳模型参数。 查准率 查全率 F1 score https://blog.csdn.net/qq_47180202/article/details/119780943 from sklea…

嵌入式学习笔记(31)异常向量表的编程处理

6.5.1像内存一样去访问异常向量表 (1)S5PV210的异常向量表可以改变(在CP15协处理器中),以适应操作系统的需求。但是目前系统刚启动,此时DRAM尚未初始化,程序哦都市在iSRAM中运行。210在iSRAM中…

分享一个springboot+uniapp基于微信小程序的校医务室健康服务系统源码 lw 调试

💕💕作者:计算机源码社 💕💕个人简介:本人七年开发经验,擅长Java、Python、PHP、.NET、微信小程序、爬虫、大数据等,大家有这一块的问题可以一起交流! 💕&…

笔记(二)图的基本表示【斯坦福CS224W图机器学习】

1、基础知识 图是由节点和连接组成的 本体图,具体图是本体图的实例化,取决于想要解决什么问题 2、图的种类 异质图 异质图-二分图 异质图-二分图-展开 3、节点连接数 节点的度、入度和出度 4、图的基本表示 邻接矩阵 无向图的邻接矩阵是对称阵&#…

Linux_dup、dup2函数

1.dup1 #include <unistd.h> int dup(int oldfd); 作用&#xff1a;复制一个新的文件描述符 从空闲的文件描述符表中&#xff0c;找一个最小的&#xff0c;作为新的拷贝的文件描述符 指向的文件和旧的文件描述符是一样的 int dup2(int oldfd, int newfd); #include <…

任意文件下载

原理&#xff1a; 文件查看或文件下载功能&#xff0c;不做限制&#xff0c;恶意用户就能够查看或下载任意敏感文件&#xff0c;这就是文件查看与下载漏洞。 一般链接形式: download.php?path down.php?file data.php?file download.php?filename 或者包含参数: &Sr…

python基础开发篇3——线上环境部署Django项目

文章目录 一、基本了解二、打包本地项目三、服务器环境准备四、安装web服务4.1 使用uwsgi代理4.2 使用nginx代理&#xff08;推荐&#xff09; 五、部署daphne 一、基本了解 部署思路&#xff1a; Nginx服务接收浏览器的动态请求&#xff0c;再通过uwsgi模块将请求转发给uwsgi服…

计算机网络(二):TCP篇

文章目录 1. TCP头部包含哪些内容&#xff1f;2. 为什么需要 TCP 协议&#xff1f; TCP 工作在哪一层&#xff1f;3. 什么是 TCP &#xff1f;4. 什么是 TCP 连接&#xff1f;5. 如何唯一确定一个 TCP 连接呢&#xff1f;6. UDP头部大小是多少&#xff1f;包含哪些内容&#xf…

基于SSM+Vue的鲸落文化线上体验馆设计与实现

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;采用Vue技术开发 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#x…

【NVM】nvm安装教程(nodejs多版本切换)

系列文章 C#底层库–记录日志帮助类 本文链接&#xff1a;https://blog.csdn.net/youcheng_ge/article/details/124187709 文章目录 系列文章前言一、安装准备1. 1 下载nvm-setup1. 2 卸载掉nodejs 二、安装步骤2.1 欢迎页面2.2 选择nvm安装目录2.3 选择nodejs安装目录2.4 安装…

进程间通信--信号

1&#xff1a;信号 什么是信号&#xff1f; 信号是给程序提供一种可以处理异步事件的方法&#xff0c;它利用软件中断来实现。不能自定义信号&#xff0c;所有信号都是系统预定义的。 信号由谁产生&#xff1f; 1)由shell终端根据当前发生的错误&#xff08;段错误、非法指令…

途虎养车IPO:飞轮效应下的汽车后市场巨头

汽车已经成为了家家户户必不可少的存在。作为消费品来说&#xff0c;汽车更新换代快&#xff0c;日常使用磨损大&#xff0c;随着智能汽车和新能源汽车市场的不断扩大&#xff0c;也给汽车售后服务产线带来了巨大的发展市场。保养以及维修市场的缺口越来越大&#xff0c;也为汽…