【计算机视觉 | CNN】Image Model Blocks的常见算法介绍合集(四)

news2025/1/11 17:55:57

文章目录

    • 一、Dilated Bottleneck with Projection Block
    • 二、NVAE Generative Residual Cell
    • 三、NVAE Encoder Residual Cell
    • 四、Bottleneck Transformer Block
    • 五、Spatial Feature Transform
    • 六、Big-Little Module
    • 七、Scale Aggregation Block
    • 八、Multiscale Dilated Convolution Block
    • 九、XCiT Layer
    • 十、Local Patch Interaction
    • 十一、MLP-Mixer Layer
    • 十二、Style-based Recalibration Module
    • 十三、Two-Way Dense Layer
    • 十四、SqueezeNeXt Block
    • 十五、Extremely Efficient Spatial Pyramid of Depth-wise Dilated Separable Convolutions
    • 十六、CSPResNeXt Block
    • 十七、Elastic Dense Block
    • 十八、DVD-GAN GBlock
    • 十九、DVD-GAN DBlock
    • 二十、Local Relation Network

一、Dilated Bottleneck with Projection Block

Dilated Bottleneck with Projection Block 是 DetNet 卷积神经网络架构中使用的图像模型块。 它采用带有扩张卷积的瓶颈结构来有效地扩大感受野。 它使用 1x1 卷积来确保空间大小保持固定。

在这里插入图片描述

二、NVAE Generative Residual Cell

NVAE 生成残差单元是一个跳跃连接块,用作生成器 NVAE 架构的一部分。 残存细胞扩大通道数E应用深度可分离卷积之前的时间,然后将其映射回C渠道。 设计动机是通过增加网络的感受野来帮助对数据中的远程相关性进行建模,这解释了扩展路径,同时也解释了使用深度卷积来控制参数计数。

在这里插入图片描述

三、NVAE Encoder Residual Cell

NVAE 编码器残差单元是编码器 NVAE 架构中使用的残差连接块。 它应用了两个系列的 BN-Swish-Conv 层,而不改变通道数。

在这里插入图片描述

四、Bottleneck Transformer Block

Bottleneck Transformer Block 是 Bottleneck Transformer 中使用的块,它用多头自注意力 (MHSA) 替换残差块中的空间 3 × 3 卷积层。

在这里插入图片描述

五、Spatial Feature Transform

在这里插入图片描述
在这里插入图片描述

六、Big-Little Module

Big-Little 模块是具有两个分支的图像模型块:每个分支代表一个来自深度模型的单独块和一个不太深的对应块。 它们被提议作为 BigLittle-Net 架构的一部分。 这两个分支通过线性组合和单位权重融合。 这两个分支被称为大分支(低分辨率下更多层和通道)和小分支(高分辨率下更少层和通道)。

在这里插入图片描述

七、Scale Aggregation Block

在这里插入图片描述
在这里插入图片描述

八、Multiscale Dilated Convolution Block

多尺度扩张卷积块是一种 Inception 风格的卷积块,其动机是图像特征自然地出现在多个尺度上,网络的表达能力与它可以表示的函数范围除以参数总数成正比,再除以 希望有效地扩展网络的感受野。 多尺度扩张卷积 (MDC) 块应用单个 F × F F \times F F×F在多个扩张因子下进行过滤,然后对每个扩张过滤器的输出执行加权元素求和,从而允许网络以最小的参数增加同时学习一组特征以及这些特征出现的相关尺度。 这也快速扩展了网络的感受野,而无需增加深度或参数数量。

在这里插入图片描述

九、XCiT Layer

XCiT 层是 XCiT 架构的主要构建块,它使用交叉协方差注意算子作为其主要操作。 XCiT 层由三个主要块组成,每个块前面都有 LayerNorm,后面跟着一个残差连接:(i) 核心交叉协方差注意 (XCA) 操作,(ii) 局部补丁交互 (LPI) 模块,以及 (iii) 前馈网络(FFN)。 通过转置查询-键交互,XCA 的计算复杂度与数据元素的数量 N 呈线性关系,而不是像传统的自注意力机制那样呈二次方关系。

在这里插入图片描述

十、Local Patch Interaction

本地补丁交互(LPI)是一个用于 XCiT 层的模块,用于实现补丁之间的显式通信。 LPI 由两个深度方向的 3×3 卷积层组成,其间具有 Batch Normalization 和 GELU 非线性。 由于其深度结构,LPI 块在参数方面的开销可以忽略不计,并且在推理期间的吞吐量和内存使用方面的开销也有限。

在这里插入图片描述

十一、MLP-Mixer Layer

Mixer 层是 Tolstikhin 等人提出的 MLP-Mixer 架构中使用的层。 al (2021) 用于计算机视觉。 混合器层纯粹由 MLP 组成,没有卷积或注意力。 它接受嵌入图像块(令牌)的输入,其输出与其输入具有相同的形状,类似于 Vision Transformer 编码器。 正如其名称所示,Mixer 层通过其包含该层的“令牌混合”和“通道混合”MLP 来“混合”令牌和通道。 它利用了其他架构先前的技术,例如层归一化、跳跃连接和正则化方法。

在这里插入图片描述

十二、Style-based Recalibration Module

基于风格的重新校准模块 (SRM) 是一个用于卷积神经网络的模块,它通过利用中间特征图的风格来自适应地重新校准中间特征图。 SRM首先通过风格池化从特征图的每个通道中提取风格信息,然后通过与通道无关的风格集成来估计每个通道的重新校准权重。 通过将个体风格的相对重要性纳入特征图中,SRM 旨在增强 CNN 的表示能力。

SRM的整体结构如右图所示。 它由两个主要组件组成:样式池和样式集成。 风格池算子通过总结跨空间维度的特征响应来从每个通道提取风格特征。 接下来是风格集成运算符,它通过通道操作利用风格特征来生成特定于示例的风格权重。 样式权重最终重新校准特征图以强调或抑制其信息。

在这里插入图片描述

十三、Two-Way Dense Layer

双向密集层是 PeleeNet 架构中使用的图像模型块。 受 GoogLeNet 的启发,使用 2 路密集层来获得不同尺度的感受野。 该层的一种方式使用 3x3 内核大小。 该层的另一种方式使用两个堆叠的 3x3 卷积来学习大型物体的视觉模式。

在这里插入图片描述

十四、SqueezeNeXt Block

SqueezeNeXt 块是 SqueezeNeXt 架构中使用的两级瓶颈模块,用于减少 3 × 3 卷积的输入通道数。 我们用可分离卷积进行分解,以进一步减少参数数量(橙色部分),然后是 1 × 1 扩展模块。

在这里插入图片描述

十五、Extremely Efficient Spatial Pyramid of Depth-wise Dilated Separable Convolutions

EESP 单元(即深度方向扩张可分离卷积的极其高效空间金字塔)是专为边缘设备设计的图像模型块。 它被提议作为 ESPNetv2 CNN 架构的一部分。

该构建块基于减少-拆分-转换-合并策略。 EESP 单元首先使用分组逐点卷积将高维输入特征图投影到低维空间,然后使用具有不同扩张率的深度扩张可分离卷积并行学习表示。 每个分支中不同的扩张率允许 EESP 单元从大的有效感受野中学习表示。 为了消除扩张卷积引起的网格伪影,EESP 使用分层特征融合 (HFF) 来融合特征图。

在这里插入图片描述

十六、CSPResNeXt Block

CSPResNeXt Block 是一个扩展的 ResNext Block,我们将基础层的特征图划分为两部分,然后通过跨阶段层次结构将它们合并。 使用拆分和合并策略允许更多的梯度流通过网络。

在这里插入图片描述

十七、Elastic Dense Block

弹性密集块是一个跳过连接块,它通过在每一层的并行分支中进行下采样和上采样来修改密集块,以便让网络从数据缩放策略中学习,其中输入在每层中以不同的分辨率进行处理。 之所以称为“弹性”,是因为网络中的每一层都可以通过软策略灵活选择最佳规模。

在这里插入图片描述

十八、DVD-GAN GBlock

DVD-GAN GBlock 是 DVD-GAN 架构中用于视频生成的生成器的残差块。

在这里插入图片描述

十九、DVD-GAN DBlock

DVD-GAN DBlock 是 DVD-GAN 架构中用于视频生成的鉴别器的残差块。 与常规残差块不同,由于应用于视频中的多个帧,因此采用 3D 卷积。

在这里插入图片描述

二十、Local Relation Network

局部关系网络(LR-Net)是一个用局部关系层构建的网络,代表特征图像提取器。 该特征提取器根据局部像素对的组成关系自适应地确定聚合权重。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1014426.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Zookeeper 启动失败【Cannot open channel to 3 at election address...】

文章目录 完整报错信息解决方法1.检查文件夹权限2.未监听所有IP3.IP映射名称与 ID 不对应 完整报错信息 Cannot open channel to 3 at election address hadoop121/192.168.10.121:3888 java.net.ConnectException 解决方法 1.检查文件夹权限 检查当前用户是否拥有 Zookeep…

基于SpringBoot的点餐系统

基于SpringBootVue的点餐系统、食堂餐厅点餐系统、前后端分离 开发语言:Java数据库:MySQL技术:SpringBoot、Vue、Mybaits Plus、ELementUI工具:IDEA/Ecilpse、Navicat、Maven 【主要功能】 角色:管理员、用户 管理员…

創能Tronenergy:全球首創,TRON能量算力增值平台

全球知名的TRON能量交易平台Tronenergy再次突破,推出了令人振奮的重磅功能!作為全球首創的USDT轉賬0手續費平台,Tronenergy為用戶帶來了一場USDT轉賬革命,立即體驗Tronenergy,享受便捷、經濟的轉賬服務,同時…

Leetcode162. 寻找峰值

力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 峰值元素是指其值严格大于左右相邻值的元素。 给你一个整数数组 nums,找到峰值元素并返回其索引。数组可能包含多个峰值,在这种情况下,返回 任何一个峰值 所在位置即…

CSRF和SSRF有什么不同?

文章目录 CSRF复现SSRF复现启动环境漏洞复现探测存活IP和端口服务计划任务反弹shell 区别 CSRF复现 打开dvwa,将难度调为low,点击CSRF,打开后发现有一个修改密码的输入框: 在这里修改密码,并用bp抓包,在…

eNSP网络学习

一、eNSP 1.什么是eNSP eNSP(Enterprise Network Simulation Platform)是一款由华为提供的免费的、可扩展的、图形化操作的网络仿真工具平台,主要对企业网络路由器、交换机进行软件仿真,完美呈现真实设备实景,支持大型网络模拟,让…

指针进阶笔试题

今天分享的是指针的笔试题,相信看完这篇文章对指针又会有深入的了解,让我们来学习吧。 首先分享的是指针和数组的关系,我们都知道数组名是首元素的地址,那就让我们来看一下一维数组和指针的关系吧 //一维数组 int a[] { 1,2,3,4…

go-GC垃圾回收

GC GC是自动化内存管理回收机制 虚拟内存函数栈的数据是会根据函数返回而自动销毁的,而堆上的数据是不会随着函数自动销毁的,堆内数据会随着程序运行而逐渐变大,从而导致内存OOM,Go语言就用了GC来清理堆上的内存数据。 如何区分…

leetcode 2602. 使数组元素全部相等的最少操作次数

给你一个正整数数组 nums 。 同时给你一个长度为 m 的整数数组 queries 。第 i 个查询中,你需要将 nums 中所有元素变成 queries[i] 。你可以执行以下操作 任意 次: 将数组里一个元素 增大 或者 减小 1 。 请你返回一个长度为 m 的数组 answer &#xf…

KCC@大连 | 一场关于开源商业的私享脑暴会

KCC,全称 KAIYUANSHE City Community(中文:开源社城市社区)是由开源社发起,旨在让开源社区在每个城市落地生根的地域性开源组织。 自2023年2月份发起以来,我们已经在南京、上海、深圳、北京、硅谷、新加坡、…

VMware Fusion 13在M2芯片的Mac上安装 Windows 11

首先需要下载Windows 11镜像 以下给出一种官方方法,当然也可以自己去网上搜索,有很多资源 注册微软账号 使用注册的账号登录 访问:https://www.microsoft.com/en-us/windowsinsider/register 使用登录的账号注册Windows 11 Insider Prog…

关于Python数据分析,这里有一条高效的学习路径

无处不在的数据分析 谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网易云音乐,通过其相似性算法,为不同的人…

【海报生成器源码】设计海报生成器网站开源源码(更新)

源码简介: 随着社会经济和商业发展,对产品宣传的需求也加大了。如何快速制作海报也成了很大的需求。这里分享的是一个海报生成器网站的最新源代码。 这个海报编辑器有着实用强大的功能,它的最左侧是组件列表。可以在最左侧选择组件,比如文本…

通讯网关软件003——利用CommGate X2Mbt实现Modbus TCP访问OPC Server

本文介绍利用CommGate X2Mbt实现Modbus访问OPC Server。CommGate X2MBT是宁波科安网信开发的网关软件,软件可以登录到网信智汇(wangxinzhihui.com)下载。 【案例】如下图所示,SCADA系统配置OPC Server,现在上位机需要通过Modbus主站软件来获…

基础版本抖音(字节跳动青训)

抖音基础版(字节跳动青训项目) 一、项目介绍 本抖音项目是基于grpc通讯协议开发的高性能微服务,不仅使用gin作为业务层框架,gorm框架作为持久层框架,还使用预编译sql防止sql注入,同时该项目结合连接池技术…

JDK9特性——模块化REPL工具

文章目录 前言模块化模块化案例 可交互的REPL工具 前言 谈到Java9大家往往第一个想到的就是Jigsaw项目(后改名为Modularity)。众所周知,Java已经发展超过20年(95年最初发布),Java和相关生态在不断丰富的同时也越来越暴露出一些问…

ubuntu(20.04)下截图贴图软件——flameshot(带设快捷键)

ubuntu(20.04)下截图贴图软件——flameshot 一、 安装二、打开Flameshot三、截图快捷键设置 windows习惯了用Snipaste的截图和贴图功能,在ubuntu中也有替代品Flameshot。 一、 安装 首先我们进入官网,并点击download。 在这里可…

轻松鲨-AI文案写作 人工智能聊天

轻松鲨AI助手使用地址:http://www.qingsongsha.com?utm_sourcenavigation_website 或前往苹果App Store下载“轻松鲨APP” 支持AI连续对话聊天,帮你解答各种疑问... 让AI帮你画思维导图写文案,提升工作效率... 内置多场景专业模板&#xff0…

[SQL Server]在应使用条件的上下文(在 ‘)‘ 附近)中指定了非布尔类型的表达式,查询时间大于某个数值时

这种条件查询条件里面不要有空格&#xff0c;一个也不要有 这种条件查询条件里面不要有空格&#xff0c;一个也不要有 $giftsDb::table(drawgot)->where(disabtime,<,"2030-01-03")->select();

安卓判断是否是模拟器,适配主流雷电,MUMU,夜神,逍遥

前言 最近游戏项目组又有新的要求&#xff0c;对于数据上报和数据统计接口&#xff0c;尽可能的具体化&#xff0c;比如是否是模拟器&#xff0c;模拟器的型号&#xff0c;品牌等&#xff0c;都要求统计&#xff0c;后续模拟器玩家在活动发放&#xff0c;安全风控等方面也易于…