1.9.3 卷积神经网络中的瓶颈结构和沙漏结构提出的初衷是什么?可以应用于哪些问题?

news2025/1/16 8:17:23
chat瓶颈结构沙漏结构
初衷瓶颈结构最初被引入用于深度卷积神经网络中,旨在通过减少中间特征图的通道数来降低计算复杂度,并在保持网络容量的同时减少参数量
这种设计能够在保持网络性能的前提下,提高计算效率和降低内存消耗
沙漏结构最初提出是为了处理具有多尺度信息的输入和输出,特别是在姿态估计、人体关键点检测等任务中。
该结构通过在网络内部增加上采样和下采样操作,允许网络在不同层次捕捉和融合多尺度的特征,从而提高网络对细节和整体信息的感知能力
作用瓶颈结构广泛应用于各种计算机视觉任务,如图像分类、物体检测和语义分割等。
它通常作为ResNet等深度网络结构中的关键组件,通过降低通道数来有效控制网络的复杂度,提高训练和推理效率。
沙漏结构主要应用于需要处理多尺度信息的任务,例如姿态估计、人体姿态关键点检测、医学影像分析等。
通过沙漏结构,网络可以有效地整合从粗糙到细节的多层次信息,提升对复杂模式和细微特征的识别和推理能力。

瓶颈结构

  • 来源:瓶颈结构是在GoogLeNet/Inception-v1中提出的,而后的ResNet、MobileNet等很多网络也采用并发展了这个结构。

  • 初衷:瓶颈结构的初衷是为了降低大卷积层的计算量

    • 即在计算比较大的卷积层之前,先用一个1x1卷积来压缩大卷积层输入特征图的通道数目,以减小计算量

    • 在大卷积层完成计算之后,根据实际需要,有时候会再次使用一个卷积来将大卷积层输出特征图的通道数目复原。

  • 组成:由此,瓶颈结构一般是一个小通道数的1x1卷积层,接一个较大卷积层,后面可能还会再跟一个大通道数的1x1卷积层(可选),如图1.18所示。
    图1.18

  • 作用:瓶颈结构是卷积神经网络中比较基础的模块,它可以用更小的计算代价达到与之前相似甚至更好的效果(因为瓶颈结构会增加网络层数,所以特征提取能力可能也会有相应提升)。

  • 应用领域:瓶颈结构基本上可以用于所有的卷积神经网络中,场景包括物体检测和分割、生成式对抗网络等大方向,以及诸如人脸匹配、再识别、关键点检测等细分领域。

    相关阅读:

    1×1卷积

    Same卷积

    1×1卷积和Same卷积有什么区别

沙漏结构

沙漏结构也是卷积神经网络中比较基础的模块,它类似于瓶颈结构,但尺度要更大,涉及的层也更多

沙漏结构一般包括以下两个分支。
(1)自底向上(bottom-up)分支:利用卷积、池化等操作将特征图的尺寸逐层压缩(通道数可能增加),类似于自编码器中的编码器(encoder)。

(2)自顶向下(top-down)分支:利用反卷积或插值等上采样操作将特征图的尺寸逐层扩大(通道数可能降低),类似于自编码器中的解码器(decoder)。

参考文献[24]用一个具有沙漏结构的网络来解决人体姿态估计任务,其基本单元如图1.19所示;整个网络则由多个沙漏结构堆叠而成,如图1.20所示。

在这里插入图片描述

此外,在物体检测任务中,沙漏结构也有着大量应用,如TDM(Top-Down Modulation)[25]、FPN(Feature Pyramid Network)[26]、RON(Reverse connection with Objectness prior Networks)[27]、DSSD(Deconvolutional Single-Shot Detector)[28]、DefineDet[29]等模型,它们的网络结构如图1.21所示。

在这里插入图片描述

图中的RFB(Reverse Fusion Block)是将上采样后的深层特征和浅层特征进行融合的模块。

  • 作用
    • 在这些应用中,沙漏结构的作用一般是将多尺度信息进行融合
    • 同时,沙漏结构单元中堆叠的多个卷积层可以提升感受野增强模型对小尺寸但又依赖上下文的物体(如人体关节点)的感知能力。

[24] NEWELL A, YANG K,DENG J. Stacked hourglass networks for human pose estimation[C]//European Conference on Computer Vision. Springer, 2016: 483-499.
[25] SHRIVASTAVA A, SUKTHANKAR R, MALIK J, et al. Beyond skip connections: Top-down modulation for object detection[J].arXiv preprint arXiv: 1612.06851,2016.
[26] LIN T-Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017: 2117-2125.
[27] KONG T,SUN F, YAO A,et al. RON: Reverse connection with objectness prior networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017:5936-5944.
[28] FU C-Y, LIU W, RANGA A,et al. DSSD: Deconvolutional single shot detector[J]. arXiv preprint arXiv:1701.06659,2017.
[29] ZHANG S,WEN L,BIAN X,et a1. Single-shot refinement neural network for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018: 4203-4212.

参考文献:

《百面深度学习》 诸葛越 江云胜主编

出版社:人民邮电出版社(北京)

ISBN:978-7-115-53097-4

2020年7月第1版(2020年7月北京第二次印刷)

推荐阅读:

//好用小工具↓

分享一个免费的chat工具

分享一个好用的读论文的网站

// 深度学习经典网络↓

LeNet网络(1989年提出,1998年改进)

AlexNet网络(2012年提出)

VGGNet网络(2014年提出)

LeNet、AlexNet、VGGNet总结

GoogLeNet网络(2014年提出)

ResNet网络(2015年提出)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1712929.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从 ASCII 到 UTF-8 - Unicode 码的诞生与实现

前言:最近我在整理过往笔记时,发现涉及到了 UTF-8、Unicode 的相关内容,相信大家中的很多人和之前的我一样,在过去的很长一段时间里,并没有搞清楚什么是 Unicode、什么是 UTF-8,于是就有了这篇文章&#xf…

线下教育招生营销短信群发时这几点很重要

线下教育招生营销短信群发时,以下几点非常重要,可以帮助教育机构更有效地进行招生营销: 一、明确目标受众 1.确定目标学生群体:了解你的机构主要服务于哪个年龄段、需求和兴趣的学生,以便更有针对性地编写短信内容。…

LeetCode热题100 Day1——双指针

双指针 移动零11. 盛最多水的容器 移动零 思路: 双指针i,j,j指针遍历数组,i指针存放非0元素。遍历结束后,i指针及其后面的一定是0,就再将空出来的位置设置为0 移动零 class Solution {public void moveZeroes(int[] …

942. 增减字符串匹配 - 力扣

1. 题目 由范围 [0,n] 内所有整数组成的 n 1 个整数的排列序列可以表示为长度为 n 的字符串 s &#xff0c;其中: 如果 perm[i] < perm[i 1] &#xff0c;那么 s[i] I 如果 perm[i] > perm[i 1] &#xff0c;那么 s[i] D 给定一个字符串 s &#xff0c;重构排列 pe…

Linux搭建PHP下的RabbitMQ环境(php-amqp/rabbitmq-c/erlang)

本文演示环境 Red Hat 11.2.1-9gcc (GCC) 11.2.1 20220127OpenSSL v1.1.0PHP 7.1 安装erlang erlang和RabbitMQ有版本对应关系Erlang Version Requirements&#xff0c;需要选择正确的版本。 本文以erlang 26和RabbitMQ 3.13.2为例。 erlang下载地址 下载包上传服务器后&a…

Ubuntu20.04升级到22.04之后出现的问题

项目场景&#xff1a; 之前一致使用的是Ubuntu20.04&#xff0c;虽然丑了点&#xff0c;但是用着没什么问题&#xff0c;最近没能按捺住好奇心&#xff0c;升级到了22.04&#xff0c;升级后颜值有所提高&#xff0c;但是也带来了一些问题。 从20.04升级到22.04&#xff0c;起始…

Cobaltstrike渗透测试框架

Cobaltstrike简介 cobalt strike&#xff08;简称CS&#xff09;是一款团队作战渗透测试神器&#xff0c;分为客户端及服务端&#xff0c;一个服务端可以对应多个客户 端&#xff0c;一个客户端可以连接多个服务端&#xff0c;可被团队进行分布式协团操作. 和MSF关系 metas…

pdf只要其中一页 pdf只要第一页怎么办 pdf只要前几页怎么弄

在现代办公环境中&#xff0c;PDF文件已经成为我们日常工作中不可或缺的一部分。然而&#xff0c;有时我们可能只需要PDF文件中的某一页&#xff0c;而不是整个文件。这时&#xff0c;我们该如何操作才能只获取所需的那一页呢&#xff1f;本文将详细操作方法&#xff0c;帮助大…

【ai】livekit服务本地开发模式及example app信令交互详细流程

文档要安装git lfs 下载当前最新版本1.6.1 windows版本&#xff1a;启动dev模式 服务器启动 (.venv) PS D:\XTRANS\pythonProject\LIVEKIT> cd .\livekit_release\ (.venv) PS D:\XTRANS\pythonProject\LIVEKIT\livekit_release> lsDirectory: D:\XTRANS\pythonProject\L…

CATIA二次开发VBA入门(3)——vb语言基础,可视化编程基础,消息框等

目录 引出VBA与VB的关系和区别vb基础关于什么时候用set字符串函数数学&#xff1a;三角函数&#xff0c;不等于&#xff0c;随机数日期、脚本、空格数组 顺序、选择、循环可视化编程基础按钮文字输入框的输入窗口控件全局变量 vb基础进阶msgbox详解背景颜色按钮能否点击插入图片…

python-使用API

python-使用API 使用github的api-即url地址请求数据 https://api.github.com/search/repositories?qlanguage:python&sortstars #这个调用返回GitHub当前托管了多少个Python项目&#xff0c;还有有关最受欢迎的Python仓库的信息。在浏览器中输入上面地址可以看到该接口&…

C++第二十一弹---vector深度剖析及模拟实现(上)

✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】【C详解】 目录 1、基本结构 2、默认成员函数 2.1、构造函数 2.2、析构函数 2.3、拷贝构造函数 2.3、赋值操作符重载 3、数据访问 4、迭代器获取 总结 …

Redis篇 String的基本命令

String基本命令 一.setnx,setex,psetex二. 增加删除命令三.append,setrange,getrange,strlen命令1.append2.setrange3.strlen4.getrange 四.String的内部编码方式 一.setnx,setex,psetex setex和psetex设置过期时间 setex设置的过期时间是秒级 psetex设置的过期时间是毫秒级 二…

【错误记录】HarmonyOS 运行报错 ( Failure[MSG_ERR_INSTALL_FAILED_VERIFY_APP_PKCS7_FAIL] )

文章目录 一、报错信息二、问题分析二、解决方案 一、报错信息 在 DevEco Studio 中 , 运行程序 , 编译时正常编译 , 但是在真机运行时 , 报如下错误 , 核心报错信息是 " Failure[MSG_ERR_INSTALL_FAILED_VERIFY_APP_PKCS7_FAIL] " ; 完整报错信息 : 05/29 10:58:55…

探索Django 5: 从零开始,打造你的第一个Web应用

今天我们将一起探索 Django 5&#xff0c;一个备受开发者喜爱的 Python Web 框架。我们会了解 Django 5 的简介&#xff0c;新特性&#xff0c;如何安装 Django&#xff0c;以及用 Django 编写一个简单的 “Hello, World” 网站。最后&#xff0c;我会推荐一本与 Django 5 相关…

工控一体机10.1寸显示器电容触摸屏(YA07JK)产品规格说明书

如果您对工控一体机有任何疑问或需求&#xff0c;或者对如何集成工控一体机到您的业务感兴趣&#xff0c;可移步控芯捷科技。 一、硬件功能介绍 1.1 YA07JK介绍 YA07JK 是我公司推出的一款新型安卓屏&#xff0c;使用电容触摸屏。4 核 Cortex-A7 架构&#xff0c;主频1.2GHz …

React-Redux结合@Reduxjs/Toolkit实现函数组件化(数据持久化,刷新页面数据不丢)

函数式组件和类式组件的优缺点儿 函数组件&#xff08;Function Component&#xff09;和类组件&#xff08;Class Component&#xff09;是React中的两种定义组件的方式。函数组件是以一个函数的方式定义组件&#xff0c;而类组件则是以ES6的类继承React.Component来定义组件…

后端企业级开发之yaml数据序列化格式文件详解2024

yaml格式 数据格式 yaml 是一种数据序列化的格式 容易阅读 容易与脚本语言交互 以数据为核心 重数据轻格式 我们要知道他怎么书写 大小写敏感 属性层级关系使用多行描述 每行结尾使用冒号结束 使用缩进表示层级关系 同层级左侧对其 只运行使用空格 属性前面添加空格 #表…

《Ai企业知识库》-rasa-初步使用

根据上面的环境准备之后&#xff1a; 《Ai企业知识库》-模型实践-rasa开源学习框架-搭建简易机器人-环境准备(针对windows)-02-CSDN博客 基础的使用&#xff1a; rasa项目初始化&#xff1a; rasa init 首先进入目标文件夹 在dos窗口&#xff08;目标文件夹下&#xff09…

智能合约革命:Web3引领智能化商业的未来

随着区块链技术的日益成熟和普及&#xff0c;智能合约作为其重要应用之一&#xff0c;正在逐渐改变着商业世界的面貌。Web3作为下一代互联网的代表&#xff0c;以其去中心化、加密安全的特性&#xff0c;为智能合约的发展提供了无限可能&#xff0c;将智能合约应用于商业领域的…