5.23.12 计算机视觉的 Inception 架构

news2024/10/5 17:22:54

1. 介绍

分类性能的提升往往会转化为各种应用领域中显着的质量提升,深度卷积架构的架构改进可用于提高大多数其他计算机视觉任务的性能,这些任务越来越依赖于高质量的学习视觉特征。在 AlexNet 功能无法与手工设计、制作的解决方案竞争的情况下,网络质量的改进为卷积网络带来了新的应用领域。

GoogleNet 使用了大约 700 万个参数,比其前身 AlexNet(使用 6000 万个参数)减少了 9 倍。此外,VGGNet 使用的参数比 AlexNet 多大约 3 倍。

Inception 架构的复杂性使得对网络进行更改变得更加困难。如果单纯地扩展架构,则很大一部分计算收益可能会立即丢失。如果认为有必要增加某些 Inception 式模型的容量,那么只需将所有  滤波器组大小  的数量加倍的简单变换将导致计算成本和参数数量增加 4 倍。

2. 通用设计原则

避免表示瓶颈,尤其是在网络早期。前馈网络可以用从输入层到分类器或回归器的非循环图来表示。这为信息流定义了明确的方向。对于网络中的任何一个分割(即将网络分成两部分,一边是输入,一边是输出),都可以评估通过该分割的信息量。

从输入到输出,表示的大小(即特征的数量或维度)应该逐渐减小,直到达到用于特定任务的最终表示。这种逐渐减小的过程有助于网络逐步提取和精炼关键信息,同时避免不必要的复杂性。理论上,信息内容不能仅仅通过表示的维度来评估,因为它抛弃了相关结构等重要因素;维度仅提供信息内容的粗略估计。


更高维度的表示更容易在网络中进行 局部处理。增加卷积网络中每个图块的激活可以实现更多独立的特征。由此产生的网络将训练得更快。 


空间聚合(如池化或者更复杂的聚合函数)可以在较低维度的嵌入上完成,而不会损失太多或任何表示能力。在执行更分散的(例如 3 × 3)卷积之前,可以在空间聚合之前减小输入表示的维度,而不会产生严重的不利影响。如果在 空间聚合 上下文中使用输出,则相邻单元之间的强相关性会导致降维期间的信息损失会较少。


平衡网络的宽度和深度。通过平衡  每个阶段 滤波器的数量和网络的深度可以达到网络的最佳性能。增加网络的宽度和深度有助于提高网络质量。然而,如果两者并行增加,则可以达到恒定计算量的最佳改进。

一个阶段可以是一个卷积层或者一组卷积层。

3. 使用大卷积核尺寸分解卷积

由于 Inception 网络是完全卷积的,因此每个权重对应于每次激活的一次乘法。因此,计算成本的任何减少都会导致参数数量的减少。这意味着通过适当的因子分解,我们最终可以获得更多 解耦 的参数,从而加快训练速度。此外,我们可以利用计算和内存节省来增加网络的滤波器组大小,同时保持在单台计算机上训练每个模型副本的能力。

解耦(Decoupling)是指降低系统组件之间的依赖程度

解耦是希望减少各个模块之间的依赖关系,使模块间尽可能的独立存在 

3.1 因式分解为更小的卷积

具有较大空间滤波器(例如 5 × 5 或 7 × 7)的卷积在计算方面往往会非常昂贵。例如,在输入数据有 m 个特征图或通道时 使用 n 个卷积核的 5 × 5 卷积的计算成本是具有相同数量卷积核的 3 × 3 卷积的 25 / 9 = 2.78 倍。当然,5×5 卷积核可以捕获较早层中较远的单元激活之间的信号之间的依赖关系,因此卷积核几何尺寸的减小会导致表达能力的巨大损失。

3.2 空间分解为不对称卷积

通过使用非对称卷积,可以做得比 2 × 2 更好,例如n × 1。例如,使用 3 × 1 卷积后跟 1 × 3 卷积相当于滑动具有与 3 × 3 卷积相同的感受野的两层网络。

如果输入和输出 卷积核 的数量相等,那么对于相同数量的输出 卷积核 ,两层解决方案的成本仍然要低 33%。相比之下,将一个 3 × 3 卷积分解为两个 2 × 2 卷积仅节省 11% 的计算量。

理论上,我们可以更进一步,认为可以用 1 × n 卷积,然后是 n × 1 卷积来替换任何 n × n 卷积,并且随着 n 的增长,计算成本节省会急剧增加。

n × n 卷积分解后的 Inception 模块

为 17 × 17 的特征图选择 n = 7

在中等网格大小上(在 m×m 特征图上,其中 m 范围在 12 到 20 之间)给出了非常好的结果。在这个层面上,通过使用 1 × 7 卷积,然后使用 7 × 1 卷积可以获得非常好的结果。

4. 辅助分类器的实用性

引入了辅助分类器的概念来提高非常深的网络的收敛性。最初的动机是将有用的梯度推到较低层,使它们立即有用,并通过解决非常深的网络中的梯度消失问题来提高训练期间的收敛性。在训练接近结束时,具有辅助分支的网络开始超过没有任何辅助分支的网络的准确性,并达到稍高的平台。

5. 有效减小网格(特征图)尺寸

在传统的卷积网络中,通常会使用某种池化操作(如最大池化或平均池化)来减小特征图的网格大小。在应用最大池化或平均池化之前,通常需要扩展网络滤波器的激活维度,以避免所谓的“表达瓶颈”。

例如,从一个具有 k 个 卷积核 的 d\times d 网格开始,如果希望得到一个具有 2k 个 卷积核 的\frac{d}{2}\times \frac{d}{2} 网格,首先需要在更大的网格上进行一个步长为1的卷积,使用 2k 个卷积核,然后应用一个额外的池化步骤。这意味着整体的计算成本主要由在较大网格上使用 2d^2k^2 操作的昂贵卷积所决定。

使用卷积替代池化

一种可能的解决方案是使用卷积来替代池化,这可以将计算成本减少到 2(\frac{d}{2})^2k^2 ,即减少到原来的四分之一。然而,这种替代方案会导致表示的整体维度降低到  (\frac{d}{2})^2k ,从而导致网络表达能力下降(即出现表达瓶颈)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1693677.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring框架学习笔记(四):手动实现 Spring 底层机制(初始化 IOC容器+依赖注入+BeanPostProcessor 机制+AOP)

1 Spring 整体架构示意图 2 阶段 1 -- 编写自己的 Spring 容器,实现多层扫描包 编写自己的 Spring 容器,实现多层扫描包,排除包下不是bean的, 得到 bean 对象,放入到临时ioc容器中 代码实现: &#xff0…

闲鱼电商运营高级课程,一部手机学会闲鱼开店赚钱(34节课)

课程目录 1,闲鱼更货出售主要核心原理.mp4 2、闲鱼前期开店准备.mp4 3.账号基础信息设置1.mp4 4、提升账号权重.mp4 5、注意避免违规行为.mp4 6、实接课 应该怎么选择爆款产品.mp4 7、分析商品的闲鱼市场.mp4 8、寻找最低价货源.mp4 9、怎么寻我优质的货源…

把自己的垃圾代码发布到官方中央仓库

参考博客:将组件发布到maven中央仓库-CSDN博客 感谢这位博主。但是他的步骤有漏缺,相对进行补充 访问管理页面 网址:Maven Central 新注册账号,或者使用github快捷登录,建议使用github快捷登录 添加命名空间 注意&…

【会议征稿,IEEE出版】第九届信息科学、计算机技术与交通运输国际学术会议(ISCTT 2024,6月28-30)

第九届信息科学、计算机技术与交通运输国际学术会议(ISCTT 2024)将于2024年6月28-30日在中国绵阳举行。 ISCTT 2024将围绕 “信息科学”、"计算机技术”、“交通运输” 等最新研究领域,为来自国内外高等院校、科学研究所、企事业单位的专…

【idea】idea2024最新版本下载_安装_破解

1、下载 下载地址:下载 IntelliJ IDEA – 领先的 Java 和 Kotlin IDE 下载完成: idea破解脚本下载链接:https://pan.baidu.com/s/1L5qq26cRABw8XuEn_CngKQ 提取码:6666 下载完成: 2、安装 1、双击idea的安装包&…

MGR集群从库出现RECOVERING

一、MGR集群问题 说明: 1、启动MGR集群,发现从库转态是:RECOVERING,导致数据不同步。 2、查看MGR日志报错信息,发现提示从库以存在数据库linux,导致无法创建。 3、报错信息如下图所示: 二、解决…

数组-在两个长度相等的有序数组中找到上中位数

题目描述 解题思路 此题目直接遍历两个列表,时间复杂度为O(n);使用二分法去比较两个递增列表的中位数,缩小两个数组中位数范围,时间复杂度O(logn),这里我们的算法实现使用二分法。 通过举例子来说明解题算法&#xf…

git revert 和 git reset

文章目录 工作区 暂存区 本地仓库 远程仓库需求:已推送到远程仓库,想要撤销操作git revert (添加新的提交来“反做”之前的更改,云端会残留上次的提交记录)git reset(相当于覆盖上次的提交)1.--…

lvgl无法显示中文

环境: VS2019、LVGL8.3 问题: VS2019默认编码为GB2312, 解决: VS2022设置编码方式为utf-8的三种方式_vs utf8-CSDN博客 我用的方法2,设置为 utf-8无签名就行。

Java+Spring+ IDEA+MySQL云HIS系统源码 云HIS适合哪些地区的医院?

JavaSpring IDEAMySQL云HIS系统源码云HIS适合哪些地区的医院? 云HIS适合哪些地区的医院? 云HIS(云医院信息系统)适合多种地区的医院,特别是那些希望实现医疗服务的标准化、信息化和规范化,同时降低IT运营成…

二叉排序树的创建

二叉排序树就是节点经过排序构建起的二叉树,其有以下性质: 1. 若它的左子树不为空,则左子树上所有节点的值均小于它的根节点的值。 2. 若它的右子树不为空,则右子树上所有节点的值均大于它的根节点的值。 3. 它的左、右子树也分…

【评价类模型】层次分析法(AHP)

1.评价类思想综述: 明确评价主体–>评价指标确定–>计算指标权重–>方案评价 1.1指标确定: 可以通过一个思维导图的方式来画出一个指标系统,先确定方向,再向下细化 注意:指标需要具有贴合性和独立性。 贴合…

《计算机网络微课堂》1-5 计算机网络的性能指标

本节课我们介绍计算机网络的性能指标,性能指标可以从不同的方面来度量计算机网络的性能。 常用的计算机网络性能指标有 8 个:速率、带宽、吞吐量、时延、时延带宽积,往返时间、利用率,丢包率。 ‍ 速率 首先介绍速率。为了能够…

Vue3中为Ant Design Vue中table的checkbox加tooltip、popover

问题的产生 Vue版本:3.3.13 ant-design-vue 版本:3.x.x 在工作时遇到一个场景,需要在 ant-table 的 checkbox 被禁用的时候提示原因,但是在 ant-design-vue 文档中并没有发现有相关介绍。 首先我去看了issue中是否有提到相关问题…

[数据集][目标检测]抽烟喝酒检测数据集VOC+YOLO格式1026张2类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):1026 标注数量(xml文件个数):1026 标注数量(txt文件个数):1026 标注…

【全网最全】2024电工杯数学建模A题前三题完整解答matlab+21页初步参考论文+py代码等(后续会更新成品论文)

您的点赞收藏是我继续更新的最大动力! 一定要点击如下的卡片链接,那是获取资料的入口! 【全网最全】2024电工杯数学建模A题前三题完整解答matlab21页初步参考论文py代码等(后续会更新成品论文)「首先来看看目前已有的…

Android Studio实现MQTT协议的连接

1添加依赖 在项目中找到下图文件 打开文件 如下 plugins {alias(libs.plugins.android.application) }android {namespace "com.example.mqtt_04"compileSdk 34defaultConfig {applicationId "com.example.mqtt_04"minSdk 27targetSdk 34versionCo…

网络性能与流量监控:优化企业网络管理的关键策略

目录 网络性能监控的重要性 1. 提高网络可靠性 2. 优化网络资源使用 3. 提升用户体验 网络流量监控的必要性 1. 识别异常流量 2. 改善网络管理 3. 确保合规性 AnaTraf网络流量分析仪:提升网络监控效率的利器 如何实施有效的网络监控策略 1. 确定监控目标…

yolov10 快速使用及训练

参考: https://docs.ultralytics.com/models/yolov10/ ultralytics其实大多数系列都能加载使用: 官方: https://github.com/THU-MIG/yolov10.git 代码参考: https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/train-yolov10-object-…

无界鼠标与键盘,如何轻松控制多台电脑

简介 在软件开发领域,高效地管理多台电脑是至关重要的。Mouse without Borders软件为开发人员提供了一种便捷的解决方案,使他们能够轻松地在多台电脑之间共享鼠标和键盘。不仅如此,Mouse without Borders还提供了许多高级功能,如…