LeNet、AlexNet和VGG都有一个共同的设计模式:通过一系列的卷积层与汇聚层来提取空间结构特征;然后通过全连接层对特征的表征进行处理。 AlexNet和VGG对LeNet的改进主要在于如何扩大和加深这两个模块。 或者,可以想象在这个过程的早期使用全连接层。然而,如果使用了全连接层,可能会完全放弃表征的空间结构。 网络中的网络(NiN)提供了一个非常简单的解决方案:在每个像素的通道上分别使用多层感知机
看一下卷积层和全连接层对于空间结构信息的不同能力
-
卷积层(Convolutional Layers):
- 卷积层通过滑动窗口(卷积核)在输入数据上进行局部连接操作,这种操作能够捕捉到输入数据的空间结构信息。例如,在图像处理中,卷积层可以检测到图像中的边缘、纹理、形状等空间特征。
- 由于卷积层的这种局部感受野特性,它们能够理解输入数据中的空间关系,如物体的位置、方向和相对布局。
-
全连接层(Fully Connected Layers):
- 全连接层则不同,每个神经元与前一层的所有神经元都有连接。在图像数据中使用全连接层时,输入数据的空间维度通常会被展平(flatten)成一个长向量。
- 一旦图像数据被展平,空间维度的信息(如像素的位置)就会丢失,因为全连接层不再考虑输入数据的空间结构。这意味着全连接层无法直接从展平的数据中捕捉到与空间位置相关的特征。
如果在网络的早期阶段就使用全连接层,那么模型可能会失去对输入数据空间结构的表征能力。这是因为全连接层不保留空间信息,而卷积层则能够做到这一点。因此,在处理具有明显空间结构的数据(如图像)时,通常先使用卷积层来提取空间特征,然后再使用全连接层进行分类或其他任务。
实际中,通常会在卷积神经网络末尾使用全连接层,此时网络已经通过卷积层学习到了丰富的空间特征,这个阶段,全连接层可以将这些特征整合起来,用于最终的决策或分类。
NiN的想法是在每个像素位置(针对每个高度和宽度)应用一个全连接层。 如果我们将权重连接到每个空间位置,我们可以将其视为1×1卷积层(如 6.4节中所述),或作为在每个像素位置上独立作用的全连接层。 从另一个角度看,即将空间维度中的每个像素视为单个样本,将通道维度视为不同特征(feature)。
NiN特点:
1.1*1卷积层:
使用1*1卷积层来实现逐像素的全连接操作,有助于在通道维度上整合特征,同时保持空间维度学习,1*1卷积可以看作是对每个像素点的通道进行线性变换,并且可以通过这种方式减少或增加通道数,实现特征降维或升维
2.使用全局平均池化层替代了传统全连接层,减少模型的参数数量,并且使得模型的输出对输入的尺寸变化更加鲁棒
3.减少了参数,减轻过拟合问题,使模型轻量
4.在卷积层之间引入全连接层(通过1*1卷积实现)增强了模型对特征的表达能力,使模型能够捕捉到更复杂的特征组合
NiN的这些设计使得它在处理图像分类任务时非常有效,尤其是在需要保持空间结构信息的同时,还需要强大的特征表达能力的场景中。
1x1卷积层在深度学习网络中有着广泛的应用,尤其是在一些著名的网络架构中,如Network In Network(NiN)、Inception网络、ResNet等