研一学生笔记,若有看官,笔下留情
作者 Kaiming He Xiangyu Zhang Shaoqing Ren(在蔚来居然) Jian Sun(导师)
Microsoft Research
摘要:
我们提出一个网络,他可以简化网络的训练,这些网咯整体上比以前深得多。我们显示的用带有与输入层的关系的残差机制重新制定这些层,而不是去学习没有关系的函数。我们提供了全面的经验证据来表明这些残差网络更容易被优化,并且,可以在很深的网络获得准确率。我们用很深的层数,比VGG要深8倍,但是依然有更低的复杂度。这些残差网络的集合在ImageNet网络上的获得了3.57的错误率。在2015分类任务上第一名,我们还在100-1000层上做了分析。
表征深度对很对视觉识别任务都至关重要,仅仅因为我们极端的表征深度,我们就在coco目标检测数据集上获得了28个百分点的提升。深度残差网络是我们提交给这些竞赛的基础,在这些竞赛中,我们在检测,定位,分割上获得了第一名。
论文试图解决什么问题:
解决深层神经网络即使收敛之后比对应的浅层网络正确率更差的问题。
resnet为什么能叠加到一千层,传递损失不大嘛?
首先,搞懂之前的网络为什么不深,如果很深会出现什么问题。随着网络的加深,会有梯度消失或者爆炸的问题,因为乘法的求导造成,之前一般用正则和归一化解决这个问题,解决之后面临新的问题就是衰退,深层网络的正确率反而劣于浅层网络,为了解决这个问题,作者提出了残差网络,学习残差。设下层输出为hx,上层输出为x,下层主要任务是拟合fx=hx-x,所谓残差。这样,下层输入变成了fx+x,至少保证x不变。
resnet为什么一定比shallow不差
大不了残差映射权重为0,x是恒等映射。
resnet的亮点是什么
残差,fx+x的维度统一的处理
介绍resnet的short connections
x学习到的内容不变直接传到下一层,物理上的短路链接 ,很形象,深度残差网络速度快也是因为次,短路的时候传播很快。
resnet的网络退化现象是过拟合嘛 是梯度消失吗,那是什么
不是过拟合,因为文中实验给出,训练集也变差所以不是过拟合。也不是的梯度消失因为他可以收敛。是一种新的,层数变深,误差在训练集测试集都增大的实验现象。
resnet的残差fx和x相加拟合目标函数hx的过程中,x和fx维度不同如何处理,resnet的1卷积目的
一种是使用zero padding(不增加参数量),另一种是维度不同的时候使用 1×1 的卷积核作投影,步长为2来改变维度(增加参数量)同时高宽不变,第三种是不管维度是否一样,都做投影。实验效果第三种最好,第二种差不了多少,作者选用第二种,考虑了计算复杂度。
TODO:待更新,3.2Identity Mapping by Shortcuts没看懂。且涉及he的另一篇论文
resnet如何解决梯度消失问题,为什么resnet收敛的比较快
-
fx这个正向传播的残差可能会很小,plainnets梯度消失就是出现在一层一层的正向传播权重太小,而fx+x加的x为短路链接,不用正向传播,直接相加,它不会变小。其实和plainnets解决梯度消失的方法类似,正则化不过也是赋值权重+一个大值。
-
shortcut connection相当于高速直通公路