1.1 简介
VGG网络,全称为Visual Geometry Group网络,是由牛津大学的Visual Geometry Group和谷歌DeepMind的研究人员共同提出的深度卷积神经网络模型。这一模型因在2014年ILSVRC(ImageNet大规模视觉识别挑战赛)中取得图像分类任务第二名和定位任务第一名的佳绩而声名鹊起,展示了深度在卷积神经网络设计中的重要性。
VGG网络的核心设计理念在于使用多个连续的3x3卷积核来替代较大的卷积核(如5x5或7x7),这样的设计不仅保持了感受野的大小,还有效增加了网络的深度,使得模型能够学习到更加复杂的图像特征。VGG模型有两个常见的变体:VGG16和VGG19,分别包含16层和19层的可学习参数层(不包括池化层和激活函数层),这些层由多个卷积层和三个全连接层组成。
具体来说,VGG16网络结构包含13个卷积层和3个全连接层,而VGG19则在此基础上增加了几个卷积层。这些网络通常接受224x224像素、三通道(RGB)的输入图像,并通过一系列的3x3卷积操作和2x2的最大池化操作逐步降低空间维度,直至最后的全连接层输出1000维向量,对应于ImageNet数据集上的1000个类别。最终,通过Softmax函数转换这些输出为概率分布,以进行分类预测。
VGG网络的出现推动了深度学习领域对网络深度的探索,其简洁而有效的架构原则对后续的深度学习模型设计产生了深远的影响,成为了众多计算机视觉任务的基础模型之一。尽管随着技术的发展,出现了更为高效和高性能的网络(如ResNet、Inception等),但VGG依然是学习卷积神经网络基础和原理的经典案例。
VGG模型提出于论文《Very Deep Convolutional Networks for Large-Scale Visual Recognition》,下面我们就来学习一下这篇论文。
1.2 VGG16和VGG19
VGG16和VGG19是VGG网络的两个著名变体,它们都是由一系列卷积层、最大池化层、以及最后的几个全连接层组成。这两个模型的设计重点在于增加网络的深度,以提高对图像特征的学习能力。下面是VGG16和VGG19的具体构成细节:
VGG16
VGG16模型包含16个可训练的权重层,其中包括13个卷积层(Convolutional Layers)和3个全连接层(Fully Connected Layers,或称 Dense Layers)。其具体结构如下:
- 输入层:接收224x224像素的RGB图像。
- 卷积块:VGG16由五个卷积块组成,每个块后跟着一个最大池化层(Max Pooling Layer)。
- 第一个块包含2个连续的3x3卷积层,步长为1,填充为1(SAME padding)。
- 接下来的四个块各包含3个连续的3x3卷积层。
- 每个卷积层后都使用ReLU作为激活函数。
- 每个卷积块之后是一个2x2、步长为2的最大池化层,用于减少空间维度。
- 全连接层:
- 第一个全连接层有4096个神经元。
- 第二个全连接层同样有4096个神经元。
- 最后一个全连接层有1000个神经元,对应于ImageNet数据集中的1000个分类标签。
- 输出层:使用Softmax函数,将前一层的输出转化为各个类别的概率分布。
VGG19
VGG19相比VGG16,主要区别在于它拥有更多的卷积层,总计19个可训练的权重层,包括16个卷积层和3个全连接层。VGG19的结构与VGG16非常相似,只是在某些卷积块中添加了额外的卷积层,以进一步提升模型的表达能力。
- VGG19的卷积块中,除了第一个块包含2个卷积层外,其余四个块各自包含了4个连续的3x3卷积层,而不是VGG16中的3个,这使得VGG19的深度增加。
- 其余部分,包括最大池化层、全连接层和输出层的配置与VGG16相同。
虽然VGG19比VGG16更深,理论上能学习到更复杂的特征,但这也意味着计算成本和内存消耗更高。在实际应用中,VGG16由于其相对较低的复杂度和较高的性能,常常被用作基准模型或者预训练模型。两者均以其清晰的结构设计和良好的图像识别性能,在深度学习研究和实践中占据重要地位。不过,随着计算资源的进步,更多关注效率的模型(如ResNet系列)在许多场景下已经取代了VGG作为首选模型。
下图为VGG16的模型解释:
VGG16的参数和内存占用情况
前两层的卷积占据了绝大部分的内存,第一层的全连接层占据了绝大部分参数。
1.3 为什么VGG全部使用3x3卷积
VGG网络选择全部使用3x3卷积核的原因主要有以下几点:
-
细粒度特征提取:3x3是能够捕捉到像素八邻域信息的最小尺寸卷积核。这意味着它可以在保留局部空间信息的同时,有效地提取图像中的细节特征。
-
等效感受野与更深层网络:通过堆叠多个3x3卷积层,VGG网络能够以较小的计算成本达到与较大卷积核(如5x5或7x7)相同的有效感受野。例如,两个3x3卷积层堆叠起来,其感受野相当于一个5x5的卷积核,而三个堆叠起来则接近于7x7的感受野。这种设计使网络能够学习到更深层次的抽象特征,而不会显著增加计算负担。
-
计算效率:相比于更大的卷积核,使用多个连续的3x3卷积核在计算上更加高效。例如,一个5x5卷积核的操作量相当于两个3x3卷积核操作量的和减去一个中间层的激活函数操作,总体上减少了参数数量和计算量。
-
模型深度的增加:VGG网络的设计哲学是通过增加网络的深度而非宽度来提高性能。3x3卷积核的小尺寸允许网络设计者轻松地堆叠更多层,进而探索更深的网络结构,这对于提升模型对复杂图像特征的学习能力至关重要。
-
ReLU激活函数的配合:VGG网络每一层卷积之后都使用ReLU激活函数,这有助于缓解梯度消失问题,使网络能够更有效地训练更深的结构。
综上所述,VGG网络全部采用3x3卷积核的设计是出于对特征提取效率、模型复杂度控制、以及深度增加潜力的综合考量,这一策略在当时推动了深度学习领域对网络深度探索的浪潮。
1.4 VGG模型的特点
VGG网络的优点:
- 结构简洁统一:VGG网络结构设计简洁,主要由重复的卷积层和最大池化层构成,易于理解和实现。
- 深度加深提升性能:VGG通过增加网络深度,验证了更深的网络结构能够显著提升模型的识别精度。
- 小卷积核高效特征提取:使用多个3x3的小卷积核代替大卷积核,既减少了参数量,又能保持较大的感受野,有效提取图像特征,同时保持了计算效率。
- 感受野与参数量平衡:通过堆叠小卷积核,VGG在不增加太多参数的情况下,扩大了感受野,有利于捕获更复杂的图像特征。
- ReLU激活函数的使用:所有卷积层之后使用ReLU激活函数,有助于加速模型训练并缓解梯度消失问题。
VGG网络的缺点:
- 计算资源消耗大:VGG网络由于其深度和大量的参数,特别是全连接层中的参数,导致模型在计算资源和内存占用上要求较高。
- 训练时间长:由于模型的复杂性和参数量,VGG网络的训练过程可能比较漫长,特别是在硬件资源有限的情况下。
- 参数量过多:尽管小卷积核减少了参数,但整个模型的参数总量仍然很大,不利于在资源受限环境(如移动设备)上的部署。
- 过拟合风险:尽管深度增加提升了模型的表达能力,但也增加了过拟合的风险,需要更多的数据或正则化手段来缓解。
- 优化难度:较深的网络结构可能导致梯度传播问题,如梯度消失或爆炸,需要精心设计的初始化和学习率策略。
总的来说,VGG网络通过加深网络结构在图像识别任务上取得了显著成效,但其较大的计算需求和参数量限制了在特定场景下的应用,促使后来的研究者发展出更多计算高效且性能强大的网络结构,如残差网络(ResNet)和移动网络(MobileNet)等。
1.5 感受野的作用
感受野是指网络中某一层输出特征图(Feature Map)上的每一个像素点,追溯到输入图像时所覆盖或“感受”到的输入图像区域大小。换句话说,它描述了网络中一个特定神经元的响应与输入数据之间空间上的关联范围。随着网络层次的加深,通过卷积层和池化层的操作,每一层神经元的感受野通常会逐渐扩大,这意味着更高层的神经元能够捕捉到更广阔范围的输入特征,从而学习到更加抽象和全局的图像特征。理解感受野对于设计网络结构、控制模型复杂度以及优化模型性能具有重要意义。
感受野(Receptive Field)在深度学习,尤其是卷积神经网络(CNN)中,扮演着核心角色,其作用主要体现在以下几个方面:
-
特征层次理解:感受野定义了网络中某一层神经元对其输入数据的依赖区域大小。随着网络深度的增加,高层神经元的感受野通常会逐渐扩大,这使得它们能够捕捉到输入数据更广泛的空间上下文信息。因此,感受野帮助网络从底层的局部特征逐步过渡到高层的全局或抽象特征。
-
信息整合:通过调整卷积核大小、步长、填充等超参数,感受野的大小直接影响了网络如何整合局部信息。较大的感受野能够汇总更大范围的特征,有助于识别需要大范围上下文理解的任务,如物体识别中的目标位置和姿态估计。
-
模型设计指导:了解感受野的工作原理对于网络架构设计至关重要。例如,VGG网络通过堆叠多个小卷积核来替代大卷积核,既控制了参数量,又有效扩大了高层特征的感受野,这是基于对感受野原理的深刻理解。
-
性能优化:合理设置感受野可以帮助减少计算量和内存占用,同时维持或提升模型性能。例如,在目标检测或语义分割任务中,感受野大小直接影响到模型对目标细节的捕捉能力,以及对整体场景的理解能力。
-
解决过拟合:感受野的布局和大小还与模型的泛化能力相关。通过控制感受野,可以在一定程度上避免模型过度关注输入数据中的噪声或无关细节,从而有助于减轻过拟合现象。
-
视觉解释:感受野的概念有助于我们直观理解CNN如何逐步构建对输入图像的理解,这对于模型的可视化解释和可解释性研究至关重要。
1.6 迁移学习
迁移学习(Transfer Learning)是一种机器学习方法,其核心思想是利用在一个任务或领域上学到的知识来帮助完成另一个相关但不同的任务或领域的学习。这种方法基于这样一种观察:从一个大型数据集中学到的特征往往对其他相关任务也是有用的,即使这些任务的数据可能较少。
迁移学习的主要优势包括:
-
减少训练时间和计算资源:在许多情况下,预训练模型已经学习到了丰富的特征表示,新任务可以通过微调这些模型来显著加快训练速度,而不是从头开始训练。
-
提高模型性能:尤其是在数据稀缺的新任务中,使用迁移学习可以避免从零开始训练模型可能遇到的过拟合问题,从而提高模型的泛化能力。
-
降低标注成本:对于需要大量标注数据的任务,迁移学习可以通过利用已有的预训练模型来减少对新数据集的标注需求。
迁移学习的常见形式有几种:
-
特征提取:使用预训练模型的前几层作为固定的特征提取器,只训练模型的顶层或新增的部分层以适应新的任务。
-
微调(Fine-tuning):在预训练模型的基础上,对整个模型或部分层进行进一步训练,同时使用新任务的数据,这样可以在保留原有知识的同时,让模型适应新任务的特性。
-
多任务学习:在同一个网络中同时训练多个相关任务,共享一部分表示层,使得各个任务之间可以相互促进学习。
-
域适应:当源任务和目标任务来自不同但相关的域时,迁移学习还包括减少域间差异,使模型能够在新域中更好地泛化。
如下图:对于VGG的迁移学习,我们只需要在最后一层换成我们需要的分类个数就可以,保持之前所有层的模型结构不变,权重也不变(冻结住)。我们就可以把我们在imageNet预训练好的模型用于解决我这个类别的分类问题。
2. pytorch复现
# Author:SiZhen
# Create: 2024/7/7
# Description: pytorch搭建VGG16网络模型
import torch
import torch.nn as nn
from torch.nn import functional as F
class VGG16(nn.Module):
def __init__(self,input_size):
super(VGG16, self).__init__()
#定义网络结构
#block 1
self.conv1 = nn.Sequential(
nn.Conv2d(in_channels=3,out_channels=64,kernel_size=3,padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(in_channels=64,out_channels=64,kernel_size=3,padding=1),
nn.ReLU(inplace=True),
nn.MaxPool2d(2)
)
self.conv2 = nn.Sequential(
nn.Conv2d(64,128,3,padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(128,128,3,padding=1),
nn.ReLU(inplace=True),
nn.MaxPool2d(2)
)
self.conv3 = nn.Sequential(
nn.Conv2d(128,256,3,padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(256,256,3,padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(256,256,3,padding=1),
nn.ReLU(inplace=True),
nn.MaxPool2d(2)
)
self.conv4 = nn.Sequential(
nn.Conv2d(256,512,3,padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(512,512,3,padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(512,512,3,padding=1),
nn.ReLU(inplace=True),
nn.MaxPool2d(2)
)
self.conv5 = nn.Sequential(
nn.Conv2d(512,512,3,padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(512,512,3,padding=1),
nn.ReLU(inplace=True),
nn.Conv2d(512,512,3,padding=1),
nn.ReLU(inplace=True),
nn.MaxPool2d(2)
)
self.fc1 = nn.Linear(7*7*512,4096)
self.fc2 = nn.Linear(4096,4096)
self.fc3 = nn.Linear(4096,1000)
def forward(self,x):
x = self.conv1(x)
x = self.conv2(x)
x = self.conv3(x)
x = self.conv4(x)
x = self.conv5(x)
x = x.view(-1,7*7*512) #铺平
x = self.fc1(x)
x = self.fc2(x)
x = self.fc3(x)
output = F.softmax(x,dim=1)