【计算机视觉 | 图像模型】常见的计算机视觉 image model(CNNs Transformers) 的介绍合集(四)

news2025/1/11 4:25:03

文章目录

    • 一、ResNeSt
    • 二、ShuffleNet v2
    • 三、FBNet
    • 四、Inception-v4
    • 五、ResNet-D
    • 六、MetaFormer
    • 七、PyramidNet
    • 八、RevNet
    • 九、Convolutional Vision Transformer(CVT)
    • 十、Tokens-To-Token Vision Transformer
    • 十一、Self-Attention Network
    • 十二、MixNet
    • 十三、Multiscale Vision Transformer
    • 十四、gMLP
    • 十五、OverFeat

一、ResNeSt

在这里插入图片描述
在这里插入图片描述

二、ShuffleNet v2

ShuffleNet v2 是一种针对直接指标(速度)而非间接指标(如 FLOP)进行优化的卷积神经网络。 它建立在 ShuffleNet v1 的基础上,它利用了逐点组卷积、类似瓶颈的结构和通道洗牌操作。 差异如右图所示,包括新的通道分割操作以及将通道洗牌操作进一步移至块下方。

在这里插入图片描述

三、FBNet

FBNet 是通过 DNAS 神经架构搜索发现的一种卷积神经架构。 它采用受 MobileNetv2 启发的基本类型图像模型块,该模型利用深度卷积和反向残差结构(请参阅组件)。

在这里插入图片描述

四、Inception-v4

Inception-v4 是一种卷积神经网络架构,它建立在 Inception 系列之前的迭代基础上,通过简化架构并使用比 Inception-v3 更多的 inception 模块。

在这里插入图片描述

五、ResNet-D

ResNet-D 是对 ResNet 架构的修改,它利用平均池调整进行下采样。 动机是在未修改的 ResNet 中,下采样块的 1 × 1 卷积忽略了 3/4 的输入特征图,因此对此进行了修改,因此不会忽略任何信息。

在这里插入图片描述

六、MetaFormer

MetaFormer 是一个从 Transformer 中抽象出来的通用架构,没有指定令牌混合器。

在这里插入图片描述

七、PyramidNet

PyramidNet 是一种卷积网络,其关键思想是通过逐渐增加特征图维度来集中注意力,而不是通过下采样在每个残差单元处急剧增加特征图维度。 此外,在增加特征图维度时,网络架构通过使用零填充身份映射快捷连接,作为普通网络和残差网络的混合体。

在这里插入图片描述

八、RevNet

可逆残差网络(或 RevNet)是 ResNet 的变体,其中每一层的激活都可以根据下一层的激活精确重建。 因此,在反向传播期间,大多数层的激活不需要存储在内存中。 结果是网络架构的激活存储需求与深度无关,并且通常比同等大小的 ResNet 小至少一个数量级。

在这里插入图片描述
请注意,与残差块不同,可逆块的步长必须为 1,否则该层会丢弃信息,因此无法可逆。 标准 ResNet 架构通常具有少数几个步幅较大的层。 如果我们类似地定义 RevNet 架构,则必须显式存储所有不可逆层的激活。

在这里插入图片描述

九、Convolutional Vision Transformer(CVT)

卷积视觉 Transformer (CvT) 是一种将卷积合并到 Transformer 中的架构。 CvT 设计将卷积引入到 ViT 架构的两个核心部分。

首先,Transformers 被划分为多个阶段,形成 Transformers 的层次结构。 每个阶段的开始由一个卷积令牌嵌入组成,该嵌入在 2D 重塑令牌图上执行重叠卷积操作(即,将扁平令牌序列重塑回空间网格),然后进行层归一化。 这使得模型不仅可以捕获局部信息,还可以逐步减少序列长度,同时增加跨阶段标记特征的维度,实现空间下采样,同时增加特征图的数量,就像 CNN 中执行的那样。

其次,Transformer 模块中每个自注意力块之前的线性投影被替换为提出的卷积投影,该投影在 2D 重塑令牌图上采用 s × s 深度可分离卷积运算。 这使得模型能够进一步捕获局部空间上下文并减少注意力机制中的语义歧义。 它还允许管理计算复杂性,因为卷积的步长可用于对键和值矩阵进行二次采样,以将效率提高 4 倍或更多,同时将性能下降降至最低。

在这里插入图片描述

十、Tokens-To-Token Vision Transformer

T2T-ViT(Tokens-To-Token Vision Transformer)是一种 Vision Transformer,它结合了 1)分层的 Tokens-to-Token (T2T) 转换,通过递归地将相邻的 Tokens 聚合成一个 Token(Tokens)来逐步将图像结构化为 tokens。 -to-Token),这样可以对周围令牌表示的局部结构进行建模,并可以减少令牌长度; 2)经过实证研究后,受 CNN 架构设计启发,为视觉变换器提供了具有深窄结构的高效主干。

在这里插入图片描述

十一、Self-Attention Network

自注意力网络(SANet)提出了用于图像识别的自注意力的两种变体:1)成对自注意力,它概括了标准点积注意力,本质上是一个集合运算符;2)补丁自注意力,它严格地更多 比卷积强大。

在这里插入图片描述

十二、MixNet

MixNet 是一种通过 AutoML 发现的卷积神经网络,它使用 MixConv,而不是常规的深度卷积。

在这里插入图片描述

十三、Multiscale Vision Transformer

多尺度视觉变压器(MViT)是一种用于对图像和视频等视觉数据进行建模的变压器架构。 与在整个网络中保持恒定通道容量和分辨率的传统 Transformer 不同,多尺度 Transformer 具有多个通道分辨率缩放阶段。 从输入分辨率和小通道尺寸开始,各阶段分层扩展通道容量,同时降低空间分辨率。 这创建了一个多尺度的特征金字塔,早期层以高空间分辨率运行,以模拟简单的低级视觉信息,而更深层则以空间粗糙但复杂的高维特征运行。

在这里插入图片描述

十四、gMLP

在这里插入图片描述
在这里插入图片描述

十五、OverFeat

OverFeat 是一种经典的卷积神经网络架构,采用卷积、池化和全连接层。 右图显示了架构细节。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1009378.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高速电路设计笔记----第二章

本章主要讲解的是电阻、电容、电感的选型。 一、电阻:关键还是限流。 1、通常在电源滤波时除了LC外,还会串接一个R。目的是为了降低信号的Q值,防止信号失真。常用于失真电源滤波。(例如时钟电源滤波) 2、选型的电阻的…

眺望数据应用新态势|第八届腾讯云Techo TVP开发者峰会圆满落幕

引言 在数据驱动的时代,如何有效地利用大数据已经成为了各个行业的重要课题。而随着云计算、人工智能等新兴技术的蓬勃发展,数据技术也随之不断生长并呈现出新的趋势与特点,企业该如何把握数据技术的新脉络,从而洞察数据背后的价…

【动态规划刷题 14】最长递增子序列 摆动序列

673. 最长递增子序列的个数 链接: 673. 最长递增子序列的个数 给定一个未排序的整数数组 nums , 返回最长递增子序列的个数 。 注意 这个数列必须是 严格 递增的。 示例 1: 输入: [1,3,5,4,7] 输出: 2 解释: 有两个最长递增子序列,分别是 [1, 3, 4,…

【校招VIP】产品工作难点之如何平衡团队协作

考点介绍: 对于简历上有实习经验的同学,团队配合和项目推进是一个非常常见的提问点。产品经理经常会面临项目延期,无法上线的情况。基于此,产品经理应该做些什么来保障项目按时上线呢? 产品工作难点之如何平衡团队协作-相关题目…

Linux下创建普通用户遇到的问题及解决办法

在Linux下只有root一个超级用户,但是可以创建多个普通用户的,具体的创建方法如下。 先切换到root用户,使用下面的命令创建用户名为user1(本文均以此用户名为例,注意后续键入指令时不要弄错了)的普通用户。 su root useradd user1 …

interview4-集合篇

一、算法复杂度分析 为什么要进行复杂度分析?因为可以指导你编写出性能更优的代码和评判别人写的代码的好坏。 (1)时间复杂度分析 时间复杂度是用来评估代码的执行耗时的。 1.假如每行代码的执行耗时一样:1ms 2.分析这段代码总…

跟随算网超人,深度解析算力网络!

随着数字时代全面开启 算力网络已成为当下热点议题 作为信息社会两大基石 算力、网络为何如此重要? 又将如何影响社会发展脉动? 为帮助大家深入了解算力网络 我们特别推出“算网超人”系列科普 下面,请跟随算网超人的步伐 来到该系列的…

uni-app H5使用 tabbars切换,echartst图表变小 宽度只有100px问题解决

问题: 跳转到别tabbars页面之后,再回来,echarts图显示缩小小团子。 原因分析: 在tabs切换中有echarts的话,我们会发现初始化的那个echarts是有宽度的,当点击tabs切换之后,切换过来的echarts只…

Python+requests编写的自动化测试项目

框架产生目的:公司走的是敏捷开发模式,编写这种框架是为了能够满足当前这种发展模式,用于前后端联调之前(后端开发完接口,前端还没有将业务处理完毕的时候)以及日后回归阶段,方便为自己腾出学(m…

Biome-BGC生态系统模型与Python融合技术:揭秘未来生态预测新趋势

Biome-BGC是利用站点描述数据、气象数据和植被生理生态参数,模拟日尺度碳、水和氮通量的有效模型,其研究的空间尺度可以从点尺度扩展到陆地生态系统。 在Biome-BGC模型中,对于碳的生物量积累,采用光合酶促反应机理模型计算出每天…

手机提词器有哪些?简单介绍这一款

手机提词器有哪些?手机提词器在现代社会中越来越受欢迎,原因是它可以帮助人们提高演讲和朗读的效果。使用手机提词器可以让人们更加自信地面对演讲和朗读,不至于出现口误或读错字的情况。此外,手机提词器还可以帮助人们节省时间和…

了解稀疏数组

稀疏数组(一种数据结构) package com.mypackage.array;public class Demo08 {public static void main(String[] args) {//1.创建一个二维数组 11*11// 0:没有棋子 1:黑棋 2:白棋int[][] array1 new int[11][11];…

OpenCV(四十一):图像分割-分水岭法

1.分水岭方法介绍 OpenCV 提供了分水岭算法(Watershed Algorithm)的实现, 使用分水岭算法对图像进行分割,将图像的不同区域分割成互不干扰的区域。分水岭算法模拟了水在图像中的扩散和聚集过程,将标记的边界被看作是阻…

Android Shadow 插件化原理演示

工程目录图 请点击下面工程名称,跳转到代码的仓库页面,将工程 下载下来 Demo Code 里有详细的注释 代码:LearnShadow

【Linux指令】Centos7 touch修改Access/Modify/Change 时间与恢复系统时间

文章目录 前言正文1. 查看文件状态2.只更新Access Time2.只更新Modify Time3. 修改Acess Time 与Modify Time为指定时间4. 修改Change时间5. 恢复系统时间 总结 前言 本篇主要讲解touch与时间相关的操作,关于touch创建文件,就不再赘述。 正文 1. 查看…

IP地址定位基础数据采集

在互联网时代,IP地址定位技术已经成为了广泛应用的一项重要技术。无论是用于网络安全、广告投放、市场调研还是用户体验优化,IP地址定位技术都发挥着关键作用。 什么是IP地址定位? IP地址定位是一种技术,它通过IP地址来确定设备…

行云管家全面适配信创国产化平台 助力政企信创环境下数字化转型与安全运维

近日,作为云计算管理及信息安全领域优秀的产品服务提供商,深圳市行云绽放科技有限公司宣布旗下行云管家系列产品已全面适配信创国产化平台,包括CPU、服务器、数据库、浏览器等,为政企客户提供符合信创环境要求的云计算管理与信息安…

排序算法-堆排序

思路 堆排序(Heapsort)是指利用堆积树(堆)这种数据结构所设计的一种排序算法,它是选择排序的一种。它是通过堆 来进行选择数据。需要注意的是排升序要建大堆,排降序建小堆。 我们先将要排序的数据建成堆,然后通…

【数据分享】上海市道路中心线数据(无需转发\单线\shp格式)

道路数据是我们在各项研究中经常使用的数据,我们一般获取到的数据都是多线道路(也就是一条道路上有多条线来表示),这种多线道路并不适用于交通网络分析等操作中,很多时候我们需要单线道路数据,也就是道路中…

基于协同过滤算法的旅游推荐系统

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容:毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 项目介绍…