24/10/12 算法笔记 NiN

news2025/4/27 16:12:17

LeNet、AlexNet和VGG都有一个共同的设计模式：通过一系列的卷积层与汇聚层来提取空间结构特征；然后通过全连接层对特征的表征进行处理。 AlexNet和VGG对LeNet的改进主要在于如何扩大和加深这两个模块。或者，可以想象在这个过程的早期使用全连接层。然而，如果使用了全连接层，可能会完全放弃表征的空间结构。 网络中的网络（NiN）提供了一个非常简单的解决方案：在每个像素的通道上分别使用多层感知机

看一下卷积层和全连接层对于空间结构信息的不同能力

卷积层（Convolutional Layers）：
- 卷积层通过滑动窗口（卷积核）在输入数据上进行局部连接操作，这种操作能够捕捉到输入数据的空间结构信息。例如，在图像处理中，卷积层可以检测到图像中的边缘、纹理、形状等空间特征。
- 由于卷积层的这种局部感受野特性，它们能够理解输入数据中的空间关系，如物体的位置、方向和相对布局。
全连接层（Fully Connected Layers）：
- 全连接层则不同，每个神经元与前一层的所有神经元都有连接。在图像数据中使用全连接层时，输入数据的空间维度通常会被展平（flatten）成一个长向量。
- 一旦图像数据被展平，空间维度的信息（如像素的位置）就会丢失，因为全连接层不再考虑输入数据的空间结构。这意味着全连接层无法直接从展平的数据中捕捉到与空间位置相关的特征。

如果在网络的早期阶段就使用全连接层，那么模型可能会失去对输入数据空间结构的表征能力。这是因为全连接层不保留空间信息，而卷积层则能够做到这一点。因此，在处理具有明显空间结构的数据（如图像）时，通常先使用卷积层来提取空间特征，然后再使用全连接层进行分类或其他任务。

实际中，通常会在卷积神经网络末尾使用全连接层，此时网络已经通过卷积层学习到了丰富的空间特征，这个阶段，全连接层可以将这些特征整合起来，用于最终的决策或分类。

NiN的想法是在每个像素位置（针对每个高度和宽度）应用一个全连接层。如果我们将权重连接到每个空间位置，我们可以将其视为1×1卷积层（如 6.4节中所述），或作为在每个像素位置上独立作用的全连接层。从另一个角度看，即将空间维度中的每个像素视为单个样本，将通道维度视为不同特征（feature）。