深度学习-VGG16原理和代码详解

news2025/7/13 3:26:21

在这里插入图片描述

VGG16 原理和代码详解

VGG16 是由牛津大学的 Visual Geometry Group (VGG) 提出的深度卷积神经网络，发表于 2014 年的论文 “Very Deep Convolutional Networks for Large-Scale Image Recognition”。VGG16 是其中的一种结构，由 16 层网络组成，主要用于图像分类任务。

VGG16 结构

VGG16 主要由以下几部分组成：

卷积层 (Convolutional Layers)：在 VGG16 中，所有卷积层使用 3x3 的滤波器，步长为 1，填充为 1，以确保输出的空间分辨率与输入相同。
池化层 (Pooling Layers)：VGG16 使用 2x2 的最大池化层，步长为 2，减少空间维度。
全连接层 (Fully Connected Layers)：最后，网络有三个全连接层，其中前两个有 4096 个节点，最后一个是 1000 个节点（用于 1000 类别分类）。
激活函数 (Activation Functions)：VGG16 使用 ReLU 激活函数。

VGG16 网络可以表示为：

输入: 224x224x3
卷积层1: 两个 64 个滤波器的 3x3 卷积层
最大池化层1: 2x2 最大池化
卷积层2: 两个 128 个滤波器的 3x3 卷积层
最大池化层2: 2x2 最大池化
卷积层3: 三个 256 个滤波器的 3x3 卷积层
最大池化层3: 2x2 最大池化
卷积层4: 三个 512 个滤波器的 3x3 卷积层
最大池化层4: 2x2 最大池化
卷积层5: 三个 512 个滤波器的 3x3 卷积层
最大池化层5: 2x2 最大池化
全连接层1: 4096 个节点
全连接层2: 4096 个节点
全连接层3: 1000 个节点（Softmax 输出）

以下是一个 VGG16 的代码实现，并带有逐句解释：

import tensorflow as tf
from tensorflow.keras import layers, models

# 定义 VGG16 模型
# 导入库：
import tensorflow as tf
from tensorflow.keras import layers, models

# 这部分导入了 TensorFlow 以及 Keras 库中的层和模型模块，方便我们定义神经网络模型。

# 定义 VGG16 模型函数：
def VGG16():
    model = models.Sequential()
    # 这里定义了一个 VGG16 模型的函数 VGG16()，并初始化一个 Sequential 模型，用于按顺序堆叠各层。

    # 第1个卷积块：
    model.add(layers.Conv2D(64, (3, 3), activation='relu', padding='same', input_shape=(224, 224, 3)))
    model.add(layers.Conv2D(64, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2), strides=(2, 2)))
    # 第一个卷积层使用 64 个 3x3 的滤波器，padding='same' 表示输出的尺寸与输入相同。
    # input_shape=(224, 224, 3) 指定输入图像的大小为 224x224x3 (RGB 图像)。
    # 第二个卷积层也使用 64 个 3x3 的滤波器。
    # 最后使用 2x2 的最大池化层，将特征图的尺寸减半。

    # 第2个卷积块：
    model.add(layers.Conv2D(128, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(128, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2), strides=(2, 2)))
    # 同样地，使用两个 128 个 3x3 的卷积层和一个 2x2 的最大池化层。

    # 第3个卷积块：
    model.add(layers.Conv2D(256, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(256, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(256, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2), strides=(2, 2)))
    # 这个卷积块使用了三个 256 个 3x3 的卷积层和一个 2x2 的最大池化层。

    # 第4个卷积块：
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2), strides=(2, 2)))
    # 同样地，使用了三个 512 个 3x3 的卷积层和一个 2x2 的最大池化层。

    # 第5个卷积块：
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2), strides=(2, 2)))
    # 与第4个卷积块相同，使用三个 512 个 3x3 的卷积层和一个 2x2 的最大池化层。

    # 全连接层：
    model.add(layers.Flatten())
    model.add(layers.Dense(4096, activation='relu'))
    model.add(layers.Dense(4096, activation='relu'))
    model.add(layers.Dense(1000, activation='softmax'))
    # 使用 Flatten() 将多维特征图展平为一维。
    # 添加两个全连接层，每层有 4096 个节点，并使用 ReLU 激活函数。
    # 最后一层是输出层，有 1000 个节点，对应 1000 个类别，使用 softmax 激活函数，输出概率分布。

    return model

# 创建和输出模型：
model = VGG16()
model.summary()
# 调用 VGG16() 函数来创建模型实例。
# 使用 model.summary() 来打印模型的结构和参数数量。