【论文精读】Deep Residual Learning for Image Recognition

news2024/9/24 23:26:16

1 Degradation Problem💦

  • 深度卷积神经网络在图像分类方面取得了一系列突破。深度网络自然地将低/中/高级特征和分类器以端到端的多层方式集成在一起,特征的“层次”可以通过堆叠层数(深度)来丰富。最近的研究揭示了网络深度是至关重要的,在具有挑战性的ImageNet数据集上的主要结果都利用了“非常深的”模型。许多其他重要的视觉识别任务也极大地受益于非常深度的模型。
  • 在深度重要性的驱动下,一个问题出现了:学习更好的网络就像堆叠更多层一样简单吗?回答这个问题的一个障碍是臭名昭著的梯度消失/爆炸问题,它从一开始就阻碍了收。目前针对这种问题已经有了解决的方法:对输入数据和中间层的数据进行归一化操作,这种方法可以保证网络在反向传播中采用随机梯度下降(SGD),从而让网络达到收敛。但是,这个方法仅对几十层的网络有用,当网络再往深处走的时候,这种方法就无用武之地了。

  1. 上图是使用20层和56层“普通”网络(plain network)的CIFAR-10上的训练误差(左)和测试误差(右)。网络越深,训练误差越大,测试误差越大。在ImageNet上的也有类似现象。
  2. 网络层数不是太多的时候,模型的正确率确实会随着网络层数的增加而提升,但随着网络层数的增加,正确率也会达到饱和,这个时候如果再继续增加网络的层数,那么正确率就会下降。论文中把这种现象称为退化问题(Degradation Problem)出乎意料的是,这种退化并不是由过拟合引起的,并且在适当深度的模型中增加更多的层会导致更高的训练误差。如果是overfitting的话,则会出现训练误差小,测试误差大的现象,但是二者的结果都相较于浅层网络的误差较大。

2 Residual Block🔥

ResNet 之所以叫残差网络(Residual Network),是因为 ResNet 是由很多残差块(Residual Block)组成的。而残差块的使用,可以解决前面说到的退化问题。残差块如下图所示。

  1. 残差(residual)在数理统计中是指实际观察值(观测值)与估计值(拟合值)之间的差。
  2. 假设上图中的 weight layer 是 3×3 的卷积层;F(x) 表示经过两个卷积层计算后得到的结果identity x 表示恒等映射(identity 
    mapping),也称为shortcut connections。
  3. 其实就是把 的值是不做任何处理直接传过去。最后计算 F(x)+x,这里的 F(x) 跟 是种类相同的信号,所以将其对应位置进行相加。
  4. 我们让 H(x) = F(x)+x ,所以 H(x) 就是观测值(实际的特征映射,就是真实的输出),x 就是估计值(也就是上一层ResNet输出的特征映射)。
  5. 我们如果使用plain networks(一般的卷积神经网络)那么 H(x) = F(x)  ,这样某一层达到最优之后在加深就会出现退化问题。
  6. 残差就体现在F(x) = H(x)- 我们假设优化残差映射比优化原始的、未引用残差的映射更容易。在极端情况下,如果一个恒等映射 x 是最优的,那么将残差 F(x) 推到 0 比通过一堆非线性层来拟合一个恒等映射要容易得多。
  7. 进一步理解:因为 x 是当前输出的最优解,为了让它成为下一层的最优解也就是希望咱们的真实输出 H(x)=x 的话,只要让 F(x)=0 就行了,也就是为了保证下一层的网络状态仍然是最优状态,只需要令 F(x)=0 ,这也就是残差网络需要训练和学习的地方,也说明了深层网络不会变的比浅层网络差,可以选择原地踏步,但不会后退(不绝对)。如果更深层网络学习到了好的特征,整个模型的性能就会提升。
  8. 如果模型发现 F(x) 很难训练,或者训练没有好处的话,F(x) 就拿不到梯度,模型发现直接拿 x 过去效果就很好了,加上一个 F(x) 对我的loss下降没有什么明显作用的话,那么在梯度反传的时候就拿不到什么梯度,所以 F(x) 的权重就不会被更新了,权重就有可能变得很小,梯度甚至可能变为零,所以ResNet在加深的时候通常不会使模型的效果变坏
  9. Identity shortcut connections既不会增加额外的参数,也不会增加计算复杂度。
  10. 我们在ImageNet上进行了全面的实验,以显示退化问题并评估我们的方法。结果表明:我们的深度残差网络很容易优化,但对应的“普通”网络(简单地堆叠层)在深度增加时表现出更高的训练误差;我们的深度残差网络可以很容易地从深度的大幅增加中获得精度收益,产生的结果比以前的网络要好得多。

残差块可以有多种设计方式,如改变残差块中卷积层的数量,或者残差块中卷积窗口的大小,或者卷积计算后先 ReLU 后 BN,就像搭积木一样,我们可以随意设置。ResNet 研究团队经过很多的测试最终定下了两种他们觉得最好的残差块的结构,如上图所示。

3 Architecture💑

上图是论文中提出的五种ResNet网络结构。若残差映射 F(x) 的结果的维度与跳跃连接 x 的维度不同时,就必须对 x 进行维度变换,维度相同时二者才能进行相加运算。具体方法有:

  1. Zero-Padding
  2. 1 * 1卷积(Projection Shortcut)

上图表明ResNet的效果要优于相同深度的plain network。

4 Supplement💋

  • 这里的 f(x) 表示深层网络,g(x) 表示浅层网络。
  • 对于一般的卷积神经网络,随着网络加深,梯度反向传播时由于多次乘法(如上图的Plain)变得很小,即使有Batch Normalization等手段,但是最后还是会出现梯度消失,导致模型过早的收敛,因为没有梯度,学不动了,最后的结果就会较差。
  • 而对于ResNet(如上图的ResNet),即使左边的梯度值很小,但是右边的梯度值比较大,小数加大数,总的梯度还是会比较大的,模型就能训练的动,所以训练速度也较快,不管你后面的网络有多深,我的浅层网络 g(x) 的梯度总是有用的,最后的结果就会变好。残差网络起作用的主要原因就是这些残差块学习恒等函数非常容易,很多时候甚至可以提高效率,因此创建类似残差网络可以提升网络性能。

5 Conclusion☀️

  1. 残差结构的主要作用是传递信号,把深度学习浅层的网络信号直接传给深层的网络。深度学习中不同的层所包含的信息是不同的,一般我们认为深层的网络所包含的特征可能对最后模型的预测更有帮助,但是并不是说浅层的网络所包含的信息就没用,深层网络的特征就是从浅层网络中不断提取而得到的。现在我们给网络提供一个捷径,也就是Shortcut Connections,它可以直接将浅层信号传递给深层网络,跟深层网络的信号结合,从而帮助网络得到更好的效果。
  2. 从 ResNet 的设计和发展过程中我们可以知道,深度学习是一门非常注重实验的学科,我们需要有创新的好想法,同时也需要大量的实验来支撑和证明我们的想法。有些时候我们无法从理论上推断哪种模型设计或优化方法是最好的,这个时候我们可能就需要做大量的实验来不断尝试,找到最好的结果。如今 ResNet 已经得到广泛的应用和肯定,对深度学习和计算机视觉做出了卓越贡献。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/340607.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Netty零拷贝机制

Netty零拷贝机制一:用户空间与内核空间二:传统IO流程三:零拷贝常见的实现方式1. mmap write2. sendfile四:Java中零拷贝五:Netty 中如何实现零拷贝1. CompositeByteBuf 实现零拷贝2. wrap 实现零拷贝3. slice 实现零拷…

Pytorch 混合精度训练 (Automatically Mixed Precision, AMP)

Contents混合精度训练 (Mixed Precision Training)单精度浮点数 (FP32) 和半精度浮点数 (FP16)为什么要用 FP16为什么只用 FP16 会有问题解决方案损失缩放 (Loss Scaling)FP32 权重备份黑名单Tensor CoreNVIDIA apex 库代码解读opt-level (o1, o2, o3, o4)apex 的 o1 实现apex …

Docker安全

容器的安全性问题的根源在于容器和宿主机共享内核。如果容器里的应用导致Linux内核崩溃,那么整个系统可能都会崩溃。 与虚拟机是不同的,虚拟机并没有与主机共享内核,虚拟机崩溃一般不会导致宿主机崩溃 一、Docker 容器与虚拟机的区别 1、隔…

Redis配置哨兵模式

Redis配置哨兵模式 ​ ​ 主从复制模式,它是属于 Redis 多机运行的基础,但这种模式本身存在一个致命的问题,当主节点奔溃之后,需要人工干预才能恢复 Redis 的正常使用。 我们需要一个自动的工具——Redis Sentinel(…

Win11浏览器无法上网,秒杀网上99.9%教程—亲测完胜

前言 例如:网上的教程 列如: 关闭代理服务器、QQ微信可以登录,但浏览器无法上网、Win11、Win10无法上网、重启网络、重启电脑、去掉代理服务器等等。 一系列教程,要多鸡肋就多鸡肋。 我是用我2020年在CSDN上发布的第一篇文章&…

自动驾驶规划 - Apollo Lattice Planner算法【1】

文章目录Lattice Planner简介Lattice Planner 算法思路1. 离散化参考线的点2. 在参考线上计算匹配点3. 根据匹配点,计算Frenet坐标系的S-L值4. parse the decision and get the planning target5. 生成横纵向采样路径6. 轨迹cost值计算,进行碰撞检测7. 优…

Fluent Python 笔记 第 8 章 对象引用、可变性和垃圾回收

本章先以一个比喻说明 Python 的变量:变量是标注,而不是盒子。如果你不知道引用式变量是什么,可以像这样对别人解释别名。 然后,本章讨论对象标识、值和别名等概念。随后,本章会揭露元组的一个神奇特性:元…

2023 年腾讯云服务器配置价格表出炉(2核2G/2核4G/4核8G/8核16G、16核32G)

腾讯云轻量应用服务器为轻量级的云服务器,使用门槛低,按套餐形式购买,轻量应用服务器套餐自带的公网带宽较大,4M、6M、7M、10M、14M及20M套餐可选,如果是云服务器CVM这个带宽价格就要贵很多了。 1、轻量应用服务器优惠…

openpyxl表格的简单实用

示例:创建简单的电子表格和条形图 在这个例子中,我们将从头开始创建一个工作表并添加一些数据,然后绘制它。我们还将探索一些有限的单元格样式和格式。 我们将在工作表上输入的数据如下: 首先,让我们加载 openpyxl 并创建一个新工作簿。并获取活动表。我们还将输入我们…

java ArrayList

目录 一.简单介绍 二.ArrayList的底层结构 2.1ArrayList的底层结构和操作分析 2.ArrayList 底层源码分析 三.ArrayList 方法 四.代码使用方法 一.简单介绍 ArrayList 类是一个可以动态修改的数组,与普通数组的区别就是它是没有固定大小的限制,我们…

Mac系统Mysql的8.0.22版本安装笔记和密码重置修改密码等问题方法

忘记密码官网教程地址:https://dev.mysql.com/doc/refman/5.7/en/resetting-permissions.html 5.7数据库安装指南参考:https://jingyan.baidu.com/article/fa4125ac0e3c2928ac709204.html 初次安装8.0.22遇到许多坑,密码修改失败&#xff1b…

【Flutter入门到进阶】Dart基础篇---面向对象

1 类 1.1 构造 //java中写法 class P {double x;double y;P(int x, int y) {this.x x;this.y y;} }//dart建议写法 class P {num x;num y;Point(this.x, this.y); } 1.2 重定向构造 class P { num x; num y; Point(this.x, this.y); //重定向构造函数,使用冒号…

C++:红黑树

红黑树的概念 红黑树是一棵二叉搜索树,但是红黑树通过增加一个存储位表示结点的颜色RED或BLACK。通过对任何一条从根到叶子的路径上各个结点着色方式的限制,红黑树确保没有一条路径会比其他路径长出2倍,因而是接近平衡的。 红黑树的性质 ⭐…

「期末复习」线性代数

第一章 行列式 行列式是一个数,是一个结果三阶行列式的计算:主对角线的乘积全排列与对换逆序数为奇就为奇排列,逆序数为偶就为偶排列对换:定理一:一个排列的任意两个元素对换,排列改变奇偶性(和…

【Unity3D】Unity 3D 连接 MySQL 数据库

1.Navicat准备 test 数据库,并在test数据库下创建 user 数据表,预先插入测试数据。 2.启动 Unity Hub 新建一个项目,然后在Unity编辑器的 Project视图 中,右击新建一个 Plugins 文件夹将连接 MySQL的驱动包 导入(附加驱…

Java链表模拟实现+LinkedList介绍

文章目录一、模拟实现单链表成员属性成员方法0,构造方法1,addFirst——头插2,addLast——尾插3,addIndex——在任意位置插入3.1,checkIndex——判断index合法性3.2,findPrevIndex——找到index-1位置的结点…

Java围棋游戏的设计与实现

技术:Java等摘要:围棋作为一个棋类竞技运动,在民间十分流行,为了熟悉五子棋规则及技巧,以及研究简单的人工智能,决定用Java开发五子棋游戏。主要完成了人机对战和玩家之间联网对战2个功能。网络连接部分为S…

Mac下拉式终端的安装与配置 (iTerm2)

Mac下拉式终端的安装与配置 使用效果如图所示 安装前置软件 iTerm2 很可惜,如此炫酷的功能在原终端中并不能实现,我们需要借助iTerm2这个软件来实现。 官网链接:iTerm2 - macOS Terminal Replacement 我们点击download下载即可 配置 当我…

代码随想录第十天(28)

文章目录28. 找出字符串中第一个匹配项的下标看答案KMPnext数组(前缀表)最长公共前后缀如何计算前缀表前缀表与next数组时间复杂度分析28. 找出字符串中第一个匹配项的下标 莫得思路……好久没做题,都已经忘得差不多了 看答案 其实就是自己…

ModelScope 垂类检测系列模型介绍

文章目录ModelScope介绍垂类模型介绍调用方式1 Demo Service2 Notebook3 本地使用* 二次开发总结ModelScope介绍 ModelScope 是阿里达摩院推出的 中文版模型即服务(MaaS, Model as a Service)共享平台。该平台在2022年的云栖大会上发布,之前…