【图像分类】【深度学习】【Pytorch版本】VggNet模型算法详解

news2025/1/23 13:05:06

【图像分类】【深度学习】【Pytorch版本】VggNet模型算法详解

文章目录

  • 【图像分类】【深度学习】【Pytorch版本】VggNet模型算法详解
  • 前言
  • VggNet讲解
    • 感受野
    • 感受野的计算公式
    • 3x3的卷积核的使用
    • VggNet模型结构
  • VGGnet Pytorch代码
  • 完整代码
  • 总结


前言

Vgg(Visual Geometry Group)是由牛津大学的Simonyan, Karen等人在《Very deep convolutional networks for large-scale image recognition【ICLR-2015】》【论文地址】一文中提出的模型,核心思想是通过使用小尺寸的卷积核(通常为3x3),来代替较大感受野的卷积层,通过重复堆叠多个卷积块来增加网络深度,并通过逐渐减小特征图尺寸和增加特征通道数来扩展网络规模。


VggNet讲解

感受野

感受野(Receptive Field)是指在神经网络中,每个网络层输出的特征图中的一个像素点映射回原始输入图像中的区域大小,网络层越深,其输出特征的元素对应感受野越大。

在卷积神经网络(CNN)和全连接神经网络(FCN)中,感受野的计算和作用存在区别:

  1. 在全连接神经网络中,其输出的每个特征都受到所有输入特征影响,每个神经元都与所有输入特征相连接,全连接层中的每个神经元都可以感知整个输入特征的信息,全连接网络可以对输入数据进行全局建模。

全连接层通常用于网络的最后几层,用于对从卷积层中提取的局部特征进行整合和分类。

  1. 在卷积神经网络中,其输出的特征图(feature map)上的每个像素特征只受到输入特征图上局部区域影响,每个神经元每次只与输入特征图上局部区域相连接,局部区域大小为卷积核的大小,卷积层中的每个神经元只可以感知局部输入特征的信息,因此卷积神经网络需要多层卷积层的堆叠使得网络能够逐渐扩大感受野,从而捕捉到更大范围的特征信息。

卷积层中的每个神经元只能感知输入特征图的局部区域,如绿色特征图的某像素特征(红色方块)在青蓝色特征图上的感受野(红色方框),通过多个神经元的组合,卷积神经网络可以提取输入图像的全局特征,如黄色特征图的像素特征就能完整获取青蓝色特征图的所有信息。这种局部感知的特性使得卷积神经网络在图像处理和计算机视觉任务中表现出色。

感受野的计算公式

卷积神经网络通过大量的卷积层、归一化层、激活层和池化层进行堆叠构成完整的网络结构,而卷积层和池化均会改变特征图的大小,从而实现特征之间的映射和转换,因此卷积核或池化核(kernel_size)、和步长(stride)参数共同决定了输出结果对应的感受野大小。
k n {k_n} kn s n {s_n} sn r n {r_n} rn分别表示第 n n n层的卷积核尺寸、步长和感受野。卷积神经网络的感受野计算公式在表达上有些许的差异,博主给出了不同的公式表达的含义:

  1. 自底向上的方式: r n = r n − 1 + ( k n − 1 ) Π i = 1 n − 1 s i {r_n} = {r_{n - 1}} + ({k_n} - 1)\Pi _{i = 1}^{n - 1}{s_i} rn=rn1+(kn1)Πi=1n1si其中 n ≥ 2 , r 0 = 1 , r 1 = k 1 n \ge 2,{r_0} = 1,{r_1} = k_1 n2,r0=1,r1=k1
  2. 自顶向下的方式: r n = ( r n + 1 − 1 ) s i + k {r_n} = ({r_{n + 1}} - 1){s_i} + k rn=(rn+11)si+k其中 r n = 1 {r_n} = 1 rn=1

博主将通过一个案例详细说明俩种方法的区别,如下图所示,原始图像输入 r 0 = 7 × 7 {r_0}=7×7 r0=7×7,假设共经历3个卷积层:此时三个卷积层的输出依次为 r 1 = 5 × 5 {r_1}=5×5 r1=5×5 r 2 = 3 × 3 {r_2}=3×3 r2=3×3 r 3 = 1 × 1 {r_3}=1×1 r3=1×1

说明俩种方法计算感受野的区别如下表所示:

自底向上自顶向下
n n n个网络层输出的特征图分别在原始图像上的感受野大小 n n n层网络输出的特征图分别在前 n n n层特征图上的感受野大小
r 0 = 1 {r_0}=1 r0=1Conv(3): r 3 = 1 {r_3}=1 r3=1
Conv(1): r 1 = 3 {r_1}=3 r1=3Conv(2): r 2 = ( 1 − 1 ) × 1 + 3 = 3 {r_2}=(1-1)×1+3=3 r2=(11)×1+3=3
Conv(2): r 2 = 3 + ( 3 − 1 ) × 1 = 5 {r_2}=3+(3-1)×1=5 r2=3+(31)×1=5Conv(1): r 1 = ( 3 − 1 ) × 1 + 3 = 5 {r_1}=(3-1)×1+3=5 r1=(31)×1+3=5
Conv(3): r 2 = 5 + ( 3 − 1 ) × 1 = 7 {r_2}=5+(3-1)×1=7 r2=5+(31)×1=7 r 0 = ( 3 − 1 ) × 1 + 5 = 7 {r_0}=(3-1)×1+5=7 r0=(31)×1+5=7

假设都是计算第三个卷积层的输出特征图像素点在原始输入图像上的感受野,二者的大小是一致的。

3x3的卷积核的使用

3x3 卷积核是能够感受到上下、左右、重点的最小的感受野尺寸,论文中提到,堆叠两个3x3的卷积核的感受野等同于1个5x5的卷积核,堆叠三个3x3的卷积核的感受野等同于1个7x7的卷积核,并且使用3x3卷积核替换后可以减少参数。由于感受野相同,3个3x3的卷积,使用了3个非线性激活函数,增加了非线性表达能力。

卷积核尺寸卷积核感受野卷积核参数(假设输入输出channel为C)
3×3 r 1 = 3 {r_1}=3 r1=3 r 2 = 3 + ( 3 − 1 ) × 1 = 5 {r_2}=3+(3-1)×1=5 r2=3+(31)×1=5 r 2 = 5 + ( 3 − 1 ) × 1 = 7 {r_2}=5+(3-1)×1=7 r2=5+(31)×1=73×3×C×C= 9 C 2 9{C^2} 9C2 18 C 2 18{C^2} 18C2 27 C 2 27{C^2} 27C2
5×5 r 1 = 5 {r_1}=5 r1=55×5×C×C= 25 C 2 25{C^2} 25C2> 18 C 2 18{C^2} 18C2
7×7 r 1 = 7 {r_1}=7 r1=77×7×C×C= 49 C 2 49{C^2} 49C2> 27 C 2 27{C^2} 27C2

总而言之,使用3x3卷积核堆叠的形式,既增加了网络层数又减少了参数量。

VggNet模型结构

下图是原论文给出的关于VGGnet模型结构的详细示意图:

注:卷积层的参数卷积层的参数被表示为"卷积场大小-通道数",ReLU激活函数在表中没有显示

与AlexNet⼀样,VggNet可以分为两部分:第⼀部分 (backbone) 主要由卷积层和池化层(汇聚层)组成,第⼆部分由全连接层 (分类器) 组成。

VggNet的亮点说明
小卷积核堆叠多个3×3的卷积核来替代大的卷积核,部分使用1x1卷积核的(C结构网络中),以减少所需参数
小池化核全部为2×2的池化核
更深更宽的网络结构卷积核专注于扩大通道数,池化专注于缩小高和宽,使得模型更深更宽的同时,计算量的增加不是很剧烈
去掉了LRN层LRN浪费了更多的内存和时间并且性能没有太大提升

VGG的预训练权重是使用ImageNet数据集进行训练而来:

# 官方的预训练权重
model_urls = {
    'vgg11': 'https://download.pytorch.org/models/vgg11-bbd30ac9.pth',
    'vgg13': 'https://download.pytorch.org/models/vgg13-c768596a.pth',
    'vgg16': 'https://download.pytorch.org/models/vgg16-397923af.pth',
    'vgg19': 'https://download.pytorch.org/models/vgg19-dcbb9e9d.pth'
}

VGGnet Pytorch代码

backbone部分

# VGGnet的四种网络配置
cfgs = {
    'vgg11': [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
    'vgg13': [64, 64, 'M', 128, 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
    'vgg16': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M'],
    'vgg19': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 256, 'M', 512, 512, 512, 512, 'M', 512, 512, 512, 512, 'M'],
}
def make_features(cfg: list):
    layers = []
    # RGB图像3通道
    in_channels = 3
    for v in cfg:
        # 池化层
        if v == "M":
            # 全部为2×2的池化核
            layers += [nn.MaxPool2d(kernel_size=2, stride=2)]
        else:
            # 卷积层组:conv2d+ReLU
            conv2d = nn.Conv2d(in_channels, v, kernel_size=3, padding=1)
            layers += [conv2d, nn.ReLU(True)]
            in_channels = v
    return nn.Sequential(*layers)

分类器部分

        # 分类器部分:FC+ReLU+Dropout
        self.classifier = nn.Sequential(
            nn.Linear(512*7*7, 4096),
            nn.ReLU(True),
            nn.Dropout(p=0.5),
            nn.Linear(4096, 4096),
            nn.ReLU(True),
            nn.Dropout(p=0.5),
            nn.Linear(4096, num_classes)
        )

完整代码

import torch.nn as nn
import torch
from torchsummary import summary

# 官方的预训练权重
model_urls = {
    'vgg11': 'https://download.pytorch.org/models/vgg11-bbd30ac9.pth',
    'vgg13': 'https://download.pytorch.org/models/vgg13-c768596a.pth',
    'vgg16': 'https://download.pytorch.org/models/vgg16-397923af.pth',
    'vgg19': 'https://download.pytorch.org/models/vgg19-dcbb9e9d.pth'
}

class VGG(nn.Module):
    def __init__(self, features, num_classes=1000, init_weights=False):
        super(VGG, self).__init__()
        # backbone部分
        self.features = features
        # 分类器部分:FC+ReLU+Dropout
        self.classifier = nn.Sequential(
            nn.Linear(512*7*7, 4096),
            nn.ReLU(True),
            nn.Dropout(p=0.5),
            nn.Linear(4096, 4096),
            nn.ReLU(True),
            nn.Dropout(p=0.5),
            nn.Linear(4096, num_classes)
        )
        # 对模型的权重进行初始化操作
        if init_weights:
            self._initialize_weights()

    def forward(self, x):
        # N x 3 x 224 x 224
        x = self.features(x)
        # N x 512 x 7 x 7
        x = torch.flatten(x, start_dim=1)
        # N x 512*7*7
        x = self.classifier(x)
        return x

    def _initialize_weights(self):
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                # Conv2d的权重从均匀分布中随机初始化
                nn.init.xavier_uniform_(m.weight)
                if m.bias is not None:
                    # Conv2d的偏置置0
                    nn.init.constant_(m.bias, 0)
            elif isinstance(m, nn.Linear):
                # FC的权重从均匀分布中随机初始化
                nn.init.xavier_uniform_(m.weight)
                # FC的偏置置0
                nn.init.constant_(m.bias, 0)


def make_features(cfg: list):
    layers = []
    # RGB图像3通道
    in_channels = 3
    for v in cfg:
        # 池化层
        if v == "M":
            # 全部为2×2的池化核
            layers += [nn.MaxPool2d(kernel_size=2, stride=2)]
        else:
            # 卷积层组:conv2d+ReLU
            conv2d = nn.Conv2d(in_channels, v, kernel_size=3, padding=1)
            layers += [conv2d, nn.ReLU(True)]
            in_channels = v
    return nn.Sequential(*layers)


# VGGnet的四种网络配置
cfgs = {
    'vgg11': [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
    'vgg13': [64, 64, 'M', 128, 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
    'vgg16': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M'],
    'vgg19': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 256, 'M', 512, 512, 512, 512, 'M', 512, 512, 512, 512, 'M'],
}

def vgg(model_name="vgg16", **kwargs):
    assert model_name in cfgs, "Warning: model number {} not in cfgs dict!".format(model_name)
    cfg = cfgs[model_name]
    model = VGG(make_features(cfg), **kwargs)
    return model
    
if __name__ == '__main__':
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    model = vgg("vgg16").to(device)
    summary(model, input_size=(3, 224, 224))

summary可以打印网络结构和参数,方便查看搭建好的网络结构。


总结

尽可能简单、详细的介绍了深度可分卷积的原理和卷积过程,讲解了VGGnet模型的结构和pytorch代码。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1176853.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

爱思华宝邮件服务器本地文件包含漏洞

爱思华宝邮件服务器本地文件包含漏洞 免责声明漏洞描述漏洞影响漏洞危害网络测绘Fofa: title"Icewarp web klient" 漏洞复现1. 构造poc2. 读取文件 免责声明 仅用于技术交流,目的是向相关安全人员展示漏洞利用方式,以便更好地提高网络安全意识和技术水平。 任何人不…

mysql主从架构

mysql主从架构是一套非常基础的高可用架构,主要依赖复制技术来实现。 1.复制原理 mysql复制功能主要使用三个线程实现: 1.Binary log dump thread(二进制日志转储线程):当副本连接时发送二进制日志 2.Replication I/O receiver …

glibc 里的线程 id

这里讲的是通过 pthread_create() 函数返回的线程 id,其实就是 glibc 库里维护的线程id,它跟内核维护的线程 id 不一样,pthread_create() 返回的线程 id 并不一定是唯一的。我们看 pthread_create 函数的源码,它最后返回的线程 id…

【数据分享】2000-2020年我国地级市旅游指标(6项指标/Excel格式/Shp格式)

旅游产业的发展情况是一个城市经济和文化影响力的重要指标,我们在很多研究中都会用到旅游相关的数据,之前我们也分享过一些相关数据,比如1978-2020年的中国旅游统计年鉴和2023年14847条的全国A级景区数据(均可查看之前的文章获悉详…

Monarch Mixer:介绍一种性能比Transformer更强的网络架构

六年前,谷歌团队在arXiv上发表了革命性的论文《Attention is all you need》。作为一种优势的机器学习网络架构,Transformer技术迅速席卷全球。Transformer一直是现代基础模型背后的主力架构,并且在不同的应用程序中取得了令人印象深刻的成功…

vue2 集成 - 超图-SuperMap iClient3D for WebGL

1:下载SuperMap iClient3D for WebGL SuperMap iClient3D for WebGL产品包 打开资源目录如下 2:格式化项目中所用的依赖包 开发指南 从超图官网下载SuperMap iClient3D 11i (2023) SP1 for WebGL_CN.zip解压后,将Build目录下的SuperMap3D复制到项目中 \public\static…

Kmeans特征降维方法

文章目录 一、特征降维方法二、数据集介绍三、聚类问题及实现方法四、代码 一、特征降维方法 提取主要特征,忽略次要特征【PCA降维】合并相似特征【特征合并】 PCA主成分提取其实还是会忽略掉一些信息,有时候感觉聚类后的结果并不理想,所以…

非农数据不及预期,美元回落金价触及2000关口

上周五美国非农数据公布,现货黄金短线拉升近16美元,金价突破2000关口最高至2003.55美元/盎司,但随后金价转头回落,最终报收1992.19美元/盎司,涨幅收窄至0.34%。周线级别金价下跌0.61%,金价终止之前连续三周…

助力青少年学习,亚马逊云科技2024年全球人工智能和机器学习奖学金计划正式启动

云未来将以何种方式发展?方向握在意气风发的少年们手中。近日,亚马逊云科技全球人工智能和机器学习(AI和ML)奖学金计划在中国区的首次颁奖以及2024年启动仪式在北京中学正式举行,有45名学子凭借杰出的学业成绩、对人工…

【Linux】简单部署Yearning并结合内网穿透实现公网访问

文章目录 前言1. Linux 部署Yearning2. 本地访问Yearning3. Linux 安装cpolar4. 配置Yearning公网访问地址5. 公网远程访问Yearning管理界面6. 固定Yearning公网地址 前言 Yearning 简单,高效的MYSQL 审计平台 一款MYSQL SQL语句/查询审计工具,为DBA与开…

Centos7上Python克隆与对网页完整截图

有用的话谢谢点赞~ 安装Python3.11 cd /root wget https://www.python.org/ftp/python/3.11.0/Python-3.11.0.tgz tar -xzf Python-3.11.0.tgz yum -y install gcc zlib zlib-devel libffi libffi-devel yum install readline-devel yum install openssl-devel openssl11 ope…

TCP/IP协议群

TCP/IP协议群 什么是TCP/IP协议群 从字面意义上讲,有人可能会认为 TCP/IP 是指 TCP 和 IP 两种协议。实际生活当中有时也确实就是指这两种协议。然而在很多情况下,它只是利用 IP 进行通信时所必须用到的协议群的统称。具体来说,IP 或 ICMP、…

AI:62-基于深度学习的人体CT影像肺癌的识别与分类

🚀 本文选自专栏:AI领域专栏 从基础到实践,深入了解算法、案例和最新趋势。无论你是初学者还是经验丰富的数据科学家,通过案例和项目实践,掌握核心概念和实用技能。每篇案例都包含代码实例,详细讲解供大家学习。 📌📌📌在这个漫长的过程,中途遇到了不少问题,但是…

MMdetection3.x个人笔记

1.在自定义数据集用训练出的权重进行可视化推理 input(jpg文件) model_config 这两个可以不用加前面的形参 然后用 \ 隔开 写上 --weight xx.pth python demo/image_demo.py data/coco_duck/train2017/10640.jpg work_dirs/solov2_r50_fpn_1x_coco/solov2_r50_fpn_1x_coco…

【MATLAB源码-第68期】基于matlab的802.11b 11Mbps CCK调制解调误码率仿真。

操作环境: MATLAB 2022a 1、算法描述 当涉及802.11b无线局域网(Wi-Fi)标准时,CCK(Complementary Code Keying)调制解调技术起着关键作用。下面解释一下CCK在802.11b中的工作原理和特点: 1. 数…

【QT】设置焦点及光标位置

很高兴在雪易的CSDN遇见你 ,给你糖糖 欢迎大家加入雪易社区-CSDN社区云 前言 本文分享Qt中如何设置焦点和光标位置的解决方案,并给出常见的问题解决方案,希望对各位小伙伴有所帮助! 感谢各位小伙伴的点赞+关注,小易会继续努力分享,一起进步! 你的点赞就是我的动力(…

22款奔驰GLE450升级几何多光束大灯 车辆自检等功能

每个大灯配备的84个LED灯可确保提供最佳的道路照明,从而始终确保照明灯能够在需要时准确开启。利用位于风挡玻璃后方的摄像头提供的信息,4个控制单元能够以每秒100次的速度计算出理想的灯光模式 驾驶员能够全神贯注于交通状况,无需频繁切换近…

PyCharm 无法登陆 Codeium 的解决方法

PyCharm 登陆 Codeium PyCharm 无法登陆 Codeium 的问题描述PyCharm 使用 token 登陆 Codeium PyCharm 无法登陆 Codeium 的问题描述 使用 PyCharm 登录 Codeium 时,单击 Login 无反应,单击侧边栏的 Codeium 图标也一直显示连接失败。 PyCharm 使用 to…

0.为什么要学c++高性能部署

1.为什么学 python用于训练和demo,c用来部署,是最好的匹配模式。在实际的项目中,python做产品,尤其是需要多线程的,因为GIL锁的限制,劣势非常大,作为胶水语言,性能也比不上c。总结&a…