一、传统卷积神经存在的问题

在ResNet网络提出之前，传统的卷积神经网络都是通过将一系列卷积层与池化层进行堆叠得到的。
这时容易出现错误认知，觉得网络越深，特征信息越丰富，模型效果应该越好。实验证明，当网络堆叠到一定深度时，会出现两个问题：

退化问题(degradation problem)：存在深层网络的效果可能比浅层网络差的现象
梯度消失或梯度爆炸
梯度消失指每一层的误差梯度小于 1 时，反向传播时网络越深，梯度越趋近于0
反之，梯度爆炸指每一层的误差梯度大于 1 时，反向传播时网路越深，梯度越来越大

如下图所示，20层网络反而比 56层网络的误差更小：
在这里插入图片描述
总结：当网络堆叠到一定深度时，深层网络的效果可能比浅层网络效果差

二、Residual 结构（残差结构）

对于退化问题，ResNet提出了 residual结构（残差结构）来减轻退化问题，下图是使用residual结构的卷积网络，可以看到随着网络的不断加深，效果并没有变差，而是变的更好了。（虚线是train error，实线是test error）
在这里插入图片描述
人为地让神经网络某些层跳过下一层神经元的连接，隔层相连，弱化每层之间的强联系。这种神经网络被称为残差网络 (ResNets)。

残差网络由许多隔层相连的神经元子模块组成，我们称之为残差块 Residual block。单个残差块的结构如下图所示：
在这里插入图片描述
上图中红色部分称为 short cut 或者 skip connection（捷径分支），直接建立 a[ l] 与 a[l+2] 之间的隔层联系。a[l] 直接隔层与下一层的线性输出相连，与 z[l+2] 共同通过激活函数（ReLU）输出 a[l+2]。

由多个残差块组成的神经网络就是残差网络。其结构如下图所示：
在这里插入图片描述
实验表明，这种模型结构对于训练非常深的神经网络效果很好。

ResNet 中的残差结构

实际应用中，残差结构的 short cut 不一定是隔一层连接，也可以中间隔多层，ResNet所提出的残差网络中就是隔多层。
跟 Vgg 网络类似，ResNet也有多个不同层的版本，而残差结构也有两种对应浅层和深层网络：

	ResNet	残差结构
浅层网络	ResNet18/34	BasicBlock
深层网络	ResNet50/101/152	Bottleneck

下图中左侧残差结构称为 BasicBlock，右侧残差结构称为 Bottleneck
在这里插入图片描述
对于深层的 Bottleneck，1×1的卷积核起到降维和升维（特征矩阵深度）的作用，同时可以大大减少网络参数。
如下所示，假设两个残差结构的输入特征和输出特征矩阵的深度都是 256

那么两个残差结构所需的参数为

左侧：3 × 3 × 256 × 256 + 3 × 3 × 256 × 256 = 1 , 179 , 648
右侧：1 × 1 × 256 × 64 + 3 × 3 × 64 × 64 + 1 × 1 × 64 × 256 = 69 , 632

注：CNN参数个数 = 卷积核尺寸×卷积核深度 × 卷积核组数 = 卷积核尺寸 × 输入特征矩阵深度 × 输出特征矩阵深度
所以搭建深层网络时，使用右侧的残差结构更合适

ResNet 中的 short cut

观察下图的 ResNet18层网络，可以发现有些残差块的 short cut 是实线的，而有些则是虚线的。

虚线的 short cut 上通过1×1的卷积核进行了维度处理（特征矩阵在长宽方向降采样，深度方向调整成下一层残差结构所需要的channel）。
在这里插入图片描述
下图是原论文给出的不同深度的ResNet网络结构配置，表中残差块×N 表示将该残差结构重复N次。

注：
对于ResNet50/101/152，conv2_x所对应的一系列残差结构的第一层是虚线残差结构，因为它需要调整输入特征矩阵的channel，将shape从[56, 56, 64] --> [56, 56, 256]。
根据表格可知通过3x3的max pool之后输出的特征矩阵shape应该是[56, 56, 64]，但conv2_x中的实线残差结构期望的输入特征矩阵shape是[56, 56, 256]（因为输入输出特征矩阵shape相同才能将捷径分支输出与主分支输出相加）。

另外需要注意，上面只调整channel维度，高和宽不变，而conv3_x, conv4_x, conv5_x所对应的一系列残差结构的第一层虚线残差结构不仅要调整channel还要将高和宽缩减为原来的一半。