秃姐学AI系列之:使用块的网络——VGG

news2025/1/11 23:36:23

目录

VGG

VGG块

VGG架构

总结

模型演变进度

代码实现

QA


VGG

上文讲的 AlexNet 虽然证明了深层神经网络卓有成效,但它没有提供一个通用的模板来指导后续的研究人员设计新的网络。 

与芯片设计中工程师从放置晶体管到逻辑元件再到逻辑块的过程类似,神经网络架构的设计也逐渐变得更加抽象。研究人员开始从单个神经元的角度思考问题,发展到整个层,现在又转向块,重复层的模式。

  • AlexNet 比 LeNet 更深更大得到更好的精度,有人就会想:能不能更大?更深?
  • 就会出现以下三种选项:
    • 更多的全连接层(代价太贵了)
    • 更多的卷积层
    • 将卷积层组合成块

VGG块

其实就是 AlexNet 思路的一个扩展

  • 3 x 3卷积,padding = 1:n层,m通道(两个超参数,且输出通道都为m)
  • 2 x 2最大池化层,stride = 2

核心思想就是用大量的VGG块来堆积成网络 

为什么VGG使用3 x 3而不是5 x 5?

  • 试过,因为5 x 5计算量变大了,所以需要网络浅一些
  • 在同样计算开销的情况下,发现 深但窄 的网络效果更好,即堆更多的3 x 3Conv层

VGG架构

  • 多个VGG块后接全连接层

  • 不同次数的重复块得到不同的架构:VGG-16(3个全连接+13个卷积),VGG-19..... 

 相当于从 AlexNet 较 LeNet 后面新增的结构抽出来构造了块,顶替掉了前面四层不规则的结构

总结

  • VGG使用可复用的卷积块构造网络。不同的VGG模型可通过每个块中卷积层数量和输出通道数量的差异来定义。

  • 块的使用导致网络定义的非常简洁。使用块可以得到不同复杂度的变种网络(之后很多网络都有 高配版 和 低配版)。

  • 在VGG论文中,Simonyan 和 Ziserman 尝试了各种架构。特别是他们发现深层且窄的卷积(即3×3)比较浅层且宽的卷积更有效。

模型演变进度

  • LeNet(1995):2卷积 + 池化层 + 2全连接

  • AlexNet:更大更深LeNet + ReLU + Dropout + 数据增强

  • VGG:更大更深AlexNet(重复的VGG块) 

代码实现

VGG块

import torch
from torch import nn
from d2l import torch as d2l


# 卷积层的数量num_convs、输入通道的数量in_channels 和输出通道的数量out_channels
def vgg_block(num_convs, in_channels, out_channels):
    layers = []
    for _ in range(num_convs):  # 下划线是忽略值,即不需要的值
        layers.append(nn.Conv2d(in_channels, out_channels,
                                kernel_size=3, padding=1))
        layers.append(nn.ReLU())
        in_channels = out_channels
    layers.append(nn.MaxPool2d(kernel_size=2,stride=2))
    return nn.Sequential(*layers)   # 把这些层丢进Sequential里面,*layers是解包,可以理解成把列表layers里面的元素拿出来放在那。其中:*=》list;**=》dict

 VGG网络:原始VGG网络有5个卷积块,其中前两个块各有一个卷积层,后三个块各包含两个卷积层。 第一个模块有64个输出通道,每个后续模块将输出通道数量翻倍,直到该数字达到512。由于该网络使用8个卷积层和3个全连接层,因此它通常被称为VGG-11。

为啥是五层:因为224每次卷积数据量减少一半,最后第五层会得到7,是个奇数哈哈哈

PS:每一层卷积几乎都是:高宽减半,通道数翻倍这个要记住,是个很经典的设计

conv_arch = ((1, 64), (1, 128), (2, 256), (2, 512), (2, 512))

def vgg(conv_arch):
    conv_blks = []
    in_channels = 1
    # 卷积层部分
    for (num_convs, out_channels) in conv_arch:
        conv_blks.append(vgg_block(num_convs, in_channels, out_channels))
        in_channels = out_channels

    return nn.Sequential(
        *conv_blks, nn.Flatten(),
        # 全连接层部分
        nn.Linear(out_channels * 7 * 7, 4096), nn.ReLU(), nn.Dropout(0.5),
        nn.Linear(4096, 4096), nn.ReLU(), nn.Dropout(0.5),
        nn.Linear(4096, 10))

net = vgg(conv_arch)

老样子,观察每个层输出的形状

X = torch.randn(size=(1, 1, 224, 224))
for blk in net:
    X = blk(X)
    print(blk.__class__.__name__,'output shape:\t',X.shape)

QA

训练loss一直降,测试loss从开始起就一点不降,呈水平状是什么原因

①代码写错了

②已经过拟合了 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2064896.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI大模型独角兽 MiniMax 基于 Apache Doris 升级日志系统,PB 数据秒级查询响应

作者:MiniMax 基础架构研发工程师 Koyomi、香克斯、Tinker 导读:早期 MiniMax 基于 Grafana Loki 构建了日志系统,在资源消耗、写入性能及系统稳定性上都面临巨大的挑战。为此 MiniMax 开始寻找全新的日志系统方案,并基于 Apache …

基于Crontab调度,实现Linux下的定时任务执行。

文章目录 引言I 预备知识Crontab的基本组成Crontab的配置文件格式Crontab的配置文件Crontab不可引用环境变量杀死进程命令II Crontab实践案例Crontab工具的使用重启tomcat服务每分钟都打印当前时间到一个文件中30s执行一次III 常见问题并发冗余执行任务&& 和|| 和 ;的区…

ChatGPT 的幻觉有改善吗?

​​​ 在早在 ChatGPT 刚刚问世时(几个月前),我就曾写过一篇文章,描述它愿意(不,是渴望)向用户提供大量虚假信息。这些错误被称为幻觉,这是一个技术术语,强调了 ChatGPT…

安装docker+docker远程连接

docker Docker 是⼀个开源的应⽤容器引擎,可以实现虚拟化,完全采⽤“沙盒”机制,容器之间不会存在任何接⼝。 docker架构 docker核心概念 1. 镜像(images):⼀个⾯向 docker 容器引擎的只读模板,…

89.SAP ABAP数据类型 - 笔记

1.SAP ABAP数据类型 目录 全局类型 标准类型 局部类型 全局类型 数据字典中创建的类型(下图中②) Data Element 是一个数据的类型,包含了这个元素的寓意属性,它包含了一些非结构化的数据对象的技术属性(域&#…

丈夫每次回家打妻子,还在外染上性病,婚后没完整过一个年

丈夫每次回家打妻子,还在外染上性病,婚后没完整过一个年 这是一篇涉离婚纠纷的民事起诉状 (范文点评) 离 婚 起 诉 状 原告:徐某秀,女,现年48岁,汉族,无业&#xff0c…

记录一次SQL 查询 LEFT JOIN 相关优化

记录一次 LEFT JOIN 相关优化 1 环境说明2 sql 在dm库查询用时30秒2.1 sql 语句2.2 sql 执行计划 3 调优数据库参数3.1 使用hint 调整数据库参数3.2 hint 的执行计划 4 永久修改数据库参数5 参数说明6 达梦数据库学习使用列表 1 环境说明 某项目的公文办公系统在生产环境刚部署…

嵌入式学习----网络通信之TCP协议通信

TCP(即传输控制协议):是一种面向连接的传输层协议,它能提供高可靠性通信(即数 据无误、数据无丢失、数据无失序、数据无重复到达的通信) 适用情况: 1. 适合于对传输质量要求较高,以及传输大量数据 的通信。…

系统编程-信号

6 信号与管道 1 目录 6 信号与管道 1 信号 信号的概念 信号的使用 信号的发送 通过函数来实现信号的发送 信号改造函数(重点) 给自己发送信号函数 定时闹钟函数 暂停进程的函数 例题: 代码一: 代码二: 代码分析 -- linux系统下…

ArcGIS热点分析 (Getis-Ord Gi*)——基于地级市尺度的七普人口普查数据的热点与冷点分析

先了解什么是热点分析 ? 热点分析 (Getis-Ord Gi*) 是一种用于空间数据分析的技术,主要用于识别地理空间数据中值的聚集模式,可以帮助我们理解哪些区域存在高值或低值的聚集,这些聚集通常被称为“热点”或“冷点”,Gi* 统计量为…

Docker介绍、docker安装以及实现docker的远程管理

1.Docker介绍 1.Docker介绍 Docker 是⼀个开源的应用容器引擎,可以实现虚拟化,完全采用“沙盒”机制,容器之间不会存在任何接口。 Docker 通过 Linux Container(容器)技术将任意类型的应用进行包装,变成一…

PhotoZoom Pro 9:AI加持让图像放大革命性飞跃 PhotoZoom下载

全球领先的数字图片和图形缩放软件——PhotoZoom Pro 9,现已正式发布!凭借全新的S-Spline Max AI图像缩放技术,PhotoZoom Pro 9在图像放大质量上达到了前所未有的高度。欢迎各位下载和体验最新的9系列版本。 PhotoZoom Pro 9发布 PhotoZoom9…

远端登录基础配置实验

1.作用 方便远程管理,并且传统的console线只能一个用户访问,而远程管理的协议,可以多用户同时登录。 2.基础远程管理方式 Telnet 协议 telnet协议提供了一种通过终端远程登录到服务器的方式,可以远程对设备进行配置和管…

Prometheus 1:安装(Centos7)

1. 同步时间 因Prometheus对时间精度要求高,所以安装前,需要与NTP同步时间: #设置系统显示时区为 亚洲上海 timedatectl set-timezone Asia/Shanghai#同步当地时间 ntpdate -u cn.pool.ntp.org 2. 同步时间后,从官网下载Prometh…

《Web项目跨域请求后端Api设置Cookie失败问题?》

问题描述: 在web项目中跨域请求api时,api登录成功后需要向域名中设置cookie实现在两个域名下共享,但是登录接口返回成功,响应头中也有set-cookie,实际却无法设置到cookie中… web项目访问时的域名https://b.com/ api所…

解决在IIS下typecho访问网址为localhost的问题

如何在IIS下为typecho开启伪静态 布署好typecho发现访问的地址是这样的 默认的访问地址可以看出是一个php的动态页面,通过配置,可以让地址看起来像是一个静态页面。 开启伪静态需要以下两个步骤: 1、增加IIS Rewrite模块重写规则 2、到typ…

牛客网NC1大数加法

因为要计算的是两个很大很大的数,假设计算出来的数据大于整型的最大值,此时就会出现问题。所以要换个方法来解决问题。 我们应该以字符串的形式来读取两个正整数,并且返回二者相加的结果 我们应该从大数的个位开始,逐级的向上相…

海康VisionMaster使用学习笔记13-串口通信

测试工具 协议介绍 串口在VM中的使用 1. RS232信号线定义 2. RS485信号线定义 3. 创建串口连接 4. 测试VM中串口接收数据

Java Programming Examples

Java Programming Examples Example - Environment How to compile a java file? How to debug a java file? How to set classpath? java -cp java -classpathHow to view current classpath? windows C:> echo %CLASSPATH%linux echo $CLASSPATHHow to set dest…

cbsd 设置网络问题留档

cbsd创建或导入虚拟机,网络不通。使用bridge一直不通,后来是通过设立VALENAT才调通的。 cbsd里网卡设置,里面可以设置网络的上一级 默认是auto 这里选bridge1 试试 失败 选tap1 试试 网络还是不通,但是好消息,是能…