深度学习——深度卷积神经网络(AlexNet)

news2025/1/10 20:24:12

深度学习——深度卷积神经网络(AlexNet)

文章目录

  • 前言
  • 一、学习表征
  • 二、AlexNet实现
    • 2.1. 模型设计
    • 2.2. 激活函数
    • 2.3. 容量控制与预处理
    • 2.4. 训练模型
  • 总结


前言

在前面学习了卷积神经网络的基本原理,之后将继续学习现代卷积神经网络架构。而本章将学习其中的AlexNet模型。

参考书:
《动手学深度学习》


一、学习表征

在2012年前,图像特征都是机械地计算出来的。事实上,设计一套新的特征函数、改进结果,并撰写论文是盛极一时的潮流。SIFT 、SURF、HOG(定向梯度直方图)、bags of visual words和类似的特征提取方法占据了主导地位。

有一组研究人员,想法则与众不同:他们认为特征本身应该被学习。此外,他们还认为,在合理地复杂性前提下,特征应该由多个共同学习的神经网络层组成,每个层都有可学习的参数。在机器视觉中,最底层可能检测边缘、颜色和纹理。

事实上,Alex Krizhevsky、Ilya Sutskever和Geoff Hinton提出了一种新的卷积神经网络变体AlexNet。在2012年ImageNet挑战赛中取得了轰动一时的成绩。

AlexNet的更高层建立在这些底层表示的基础上以表示更大的特征,如眼睛、鼻子、草叶等等。而更高的层可以检测整个物体,如人、飞机、狗或飞盘。最终的隐藏神经元(位于全连接层)可以学习图像的综合表示,从而使属于不同类别的数据易于区分

二、AlexNet实现

AlexNet和LeNet的架构非常相似,AlexNet使用了8层卷积神经网络,并以很大的优势赢得了2012年ImageNet图像识别挑战赛。

在这里插入图片描述

AlexNet和LeNet的设计理念非常相似,但也存在显著差异:

  1. AlexNet比相对较小的LeNet5要深得多。AlexNet由八层组成:五个卷积层、两个全连接隐藏层和一个全连接输出层。

  2. AlexNet使用ReLU而不是sigmoid作为其激活函数。

2.1. 模型设计

在AlexNet的第一层,卷积窗口的形状是 11 × 11 11\times11 11×11

由于ImageNet中大多数图像的宽和高比MNIST图像的多10倍以上,因此,需要一个更大的卷积窗口来捕获目标。

第二层中的卷积窗口形状被缩减为 5 × 5 5\times5 5×5,然后是 3 × 3 3\times3 3×3

此外,在第一层、第二层和第五层卷积层之后,加入窗口形状为 3 × 3 3\times3 3×3、步幅为2的最大汇聚层。
而且,AlexNet的卷积通道数目是LeNet的10倍。

在最后一个卷积层后有两个全连接层,分别有4096个输出。

这两个巨大的全连接层拥有将近1GB的模型参数。
由于早期GPU显存有限,原版的AlexNet采用了双数据流设计,使得每个GPU只负责存储和计算模型的一半参数。

2.2. 激活函数

AlexNet将sigmoid激活函数改为更简单的ReLU激活函数。

  1. 一方面,ReLU激活函数的计算更简单,它不需要如sigmoid激活函数那般复杂的求幂运算。
  2. 另一方面,当使用不同的参数初始化方法时,ReLU激活函数使训练模型更加容易。
    当sigmoid激活函数的输出非常接近于0或1时,这些区域的梯度几乎为0,因此反向传播无法继续更新一些模型参数。
    相反,ReLU激活函数在正区间的梯度总是1。

2.3. 容量控制与预处理

AlexNet通过暂退法控制全连接层的模型复杂度,而LeNet只使用了权重衰减。
为了进一步扩充数据,AlexNet在训练时增加了大量的图像增强数据,如翻转、裁切和变色。这使得模型更健壮,更大的样本量有效地减少了过拟合。

代码生成模型架构:

import torch
from torch import nn
from d2l import torch as d2l

net = nn.Sequential(
    #开始使用一个11×11的卷积窗口来捕获对象,同时步幅为4,以减少输出的宽度和高度
    nn.Conv2d(1,96,kernel_size=11,stride=4,padding=1),nn.ReLU(),
    nn.MaxPool2d(kernel_size=3,stride=2),
    #减小卷积窗口,使用填充为2来使输入与输出的高和宽一致,且增大输出通道数
    nn.Conv2d(96,256,kernel_size=5,padding=2),nn.ReLU(),
    nn.MaxPool2d(kernel_size=3,stride=2),
    #使用3个连续的卷积层和较小的卷积窗口
    nn.Conv2d(256,384,kernel_size=3,padding=1),nn.ReLU(),
    nn.Conv2d(384,384,kernel_size=3,padding=1),nn.ReLU(),
    nn.Conv2d(384,256,kernel_size=3,padding=1),nn.ReLU(),
    nn.MaxPool2d(kernel_size=3,stride=2),
    #展平数据,即展开成一个向量
    nn.Flatten(),
    #这里,全连接层的输出数量太多,使用暂退层来缓解过拟合
    nn.Linear(6400,4096),nn.ReLU(),
    nn.Dropout(p=0.5), #有50%的概率在训练过程中将特征随机置为0
    nn.Linear(4096,4096),nn.ReLU(),
    nn.Dropout(p=0.5),
    #最后的输出层,因为我们使用的是Fashion-MNIST,所以类别数为10,而非论文中的1000
    nn.Linear(4096,10)
)

#构造一个高度和宽度都为224的单通道数据,来观察每一层输出的形状
X = torch.randn(1,1,224,224)
for layer in net:
    X = layer(X)
    print(layer.__class__.__name__,"输出形状为:\t", X.shape)


#结果:
Conv2d 输出形状为:	 torch.Size([1, 96, 54, 54])
ReLU 输出形状为:	 torch.Size([1, 96, 54, 54])
MaxPool2d 输出形状为:	 torch.Size([1, 96, 26, 26])
Conv2d 输出形状为:	 torch.Size([1, 256, 26, 26])
ReLU 输出形状为:	 torch.Size([1, 256, 26, 26])
MaxPool2d 输出形状为:	 torch.Size([1, 256, 12, 12])
Conv2d 输出形状为:	 torch.Size([1, 384, 12, 12])
ReLU 输出形状为:	 torch.Size([1, 384, 12, 12])
Conv2d 输出形状为:	 torch.Size([1, 384, 12, 12])
ReLU 输出形状为:	 torch.Size([1, 384, 12, 12])
Conv2d 输出形状为:	 torch.Size([1, 256, 12, 12])
ReLU 输出形状为:	 torch.Size([1, 256, 12, 12])
MaxPool2d 输出形状为:	 torch.Size([1, 256, 5, 5])
Flatten 输出形状为:	 torch.Size([1, 6400])
Linear 输出形状为:	 torch.Size([1, 4096])
ReLU 输出形状为:	 torch.Size([1, 4096])
Dropout 输出形状为:	 torch.Size([1, 4096])
Linear 输出形状为:	 torch.Size([1, 4096])
ReLU 输出形状为:	 torch.Size([1, 4096])
Dropout 输出形状为:	 torch.Size([1, 4096])
Linear 输出形状为:	 torch.Size([1, 10])

手写计算:

在这里插入图片描述

2.4. 训练模型

将AlexNet直接应用于Fashion-MNIST的一个问题是,[Fashion-MNIST图像的分辨率](28×28像素)
(低于ImageNet图像。) 为了解决这个问题,(我们将它们增加到224×224)
(通常来讲这不是一个明智的做法,但在这里这样做是为了有效使用AlexNet架构)

#读取数据集
batch_size = 128
train_iter,test_iter = d2l.load_data_fashion_mnist(batch_size,resize=224)

#训练
lr,num_epochs = 0.01,10
d2l.train_ch6(net,train_iter,test_iter,num_epochs,lr,d2l.try_gpu())

d2l.plt.show()


#结果:
loss 0.328, train acc 0.879, test acc 0.870
26.0 examples/sec on cpu

在这里插入图片描述


总结

AlexNet的架构与LeNet相似,但使用了更多的卷积层和更多的参数来拟合大规模数据集。虽然它已经被更有效的架构所超越,但它是从浅层网络到深层网络的关键一步。
Dropout、ReLU和预处理是提升计算机视觉任务性能的其他关键步骤。

是以圣人不行而知,不见而明,不为而成。

–2023-10-14 进阶篇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1105684.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

上网冲浪发现多处XSS

突然的发现 今天上网冲浪,突然想起来有一种神器,叫废话生成器,之前是在哪里下了个软件玩了一下,然后就给删除了,因为我觉得这个软件不过就是调用了一个web接口实现的,一个网页能解决的事还要我下一个软件。…

PR2023中如何导入字幕

PR中如何导入字幕 方法一: 点开文本,字幕,新建字幕分段(点击右上角…三个点) 键入调整内容 方法二 点开基本图形,编辑,调整,拖动位置。

移动设备管理对企业IT 安全的增强

移动设备管理 (MDM) 是通过定义策略和部署安全控制(如移动应用程序管理、移动内容管理和条件 Exchange 访问)来管理移动设备的过程。 完整的MDM解决方案可以管理在Android,iOS,Windows,macOS&a…

23上半年下午题

针对哔哩哔哩视频做的笔记,源地址在此 点这里 第一大题题目 第一大题解答 前两题比较简单,按照说明仔细填写即可。 第三问可以从以下几个方面入手, 1、上下文数据流图和0层数据流图是否平衡相对应 2、一个加工至少有一个输入和输出流 3、…

灵沐V3.01微信资源类小程序源码-支持流量主

时隔几年,终于推出全新升级版的灵沐V3.01流量主变现小程序 该版本支持微信、QQ和抖音,经过全局的UI设计升级,保持了主打功能——资源下载激励视频变现的特点 此外,我们还新增了Doc文档模式,可适用于文章;…

Linux内核的.config 配置文件和defconfig 配置文件

Linux 内核可以通过输入“make menuconfig”来打开图形化配置界面,menuconfig 是一套图形化的配置工具 一、图形化界面的操作 menuconfig 图形化的配置工具需要 ncurses 库支持。ncurses 库提供了一系列的 API 函数供调用者生成基于文本的图形界面,因此…

数据保护双保险,一文读懂NVMe协议中的Get LBA Status功能

就在前不久,我们发布了全新一代PCIe 5.0企业级NVMe SSD——PBlaze7 7940。与上一代PCIe 4.0产品相比,其综合性能有着超过100%的提升,增添了很多新的功能以满足企业级客户多样化的产品需求。其中一项新的功能便是我们今天谈论的主角——Get LB…

Mysql中日期相关的函数

Mysql中日期相关的函数 时间戳转变成日期datetime格式的函数 FROM_UNIXTIME(时间戳),如下图: 获取datetime类型的月份和年份的函数 month获取月份,如下图: year获取年份,如下图: 给特定日期加一个月…

2023年四川省安全员B证证模拟考试题库及四川省安全员B证理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2023年四川省安全员B证证模拟考试题库及四川省安全员B证理论考试试题是由安全生产模拟考试一点通提供,四川省安全员B证证模拟考试题库是根据四川省安全员B证最新版教材,四川省安全员B证大纲整理…

软件测试基础知识整理(详细版)

一、软件测试概述 1、软件缺陷 软件缺陷:又称之为“Bug”。即计算机软件或程序中存在的某种破坏正常运行能力的问题、错误,或者隐藏的功能缺陷。 缺陷的表现形式: 软件没有实现产品规格说明书所要求的功能模块; 软件中出现了产…

C++对象模型(16)-- 构造函数语义学:临时对象

临时对象是栈上的没有名字的对象,它在源码中是不可见的,是编译器偷偷摸摸在背后干的。 比如下面的代码就会产生临时对象: int i 1;// 这里的 i 会产生临时对象,这里的临时对象是在系统中产生,代码中看不见的 // 首先…

Deep Joint Demosaicking and Denoising

Abstract 去马赛克和去噪是数字成像流程的关键第一阶段,但它们也是一个严重不适定的问题,从单个噪声测量中推断出每个像素的三个颜色值。早期的方法依赖于手工制作的滤波器或先验,并且在硬情况下(例如摩尔纹或薄边缘)…

Bootstrap的导航栏设计相关知识

Bootstrap的导航栏设计相关知识 目录 01-基础知识02-最基本的导航栏设计例子03-带下拉菜单的导航04-在导航栏中添加表单元素05-固定导航栏的位置(如固定到顶部和底部)06-设计导航栏的颜色和文本颜色 01-基础知识 导航栏是网页设计中不可缺少的部分,它是整个网站的…

ABB变频器使用PROFINET IO通信模块时的激活方法

ABB变频器使用PROFINET IO通信模块时的激活方法 ABB传动通讯总线适配器的激活(ACS380): 首先,如下图所示,要采购并安装PROFINET IO总线通信模块(我这里支持3种通信协议,大家在实际使用时,用到哪种就购买哪种即可), 如下图所示,进入参数设置, 如下图所示,进入“完…

如何使用Python抓取PDF文件并自动下载到本地

目录 一、导入必要的库 二、发送HTTP请求并获取PDF文件内容 三、将PDF文件内容写入到本地文件中 四、完整代码示例 五、注意事项 六、错误处理和异常处理 七、进一步优化 总结 在Python中,抓取PDF文件并自动下载到本地需要使用几个不同的库。首先&#xff0…

EV SSL数字证书贵吗

EVSSL证书通常适用于具有高需求的网站和企业,特别是涉及在线交易、金融服务、电子商务平台等需要建立用户信任的场景。大型企业、金融机构、电子商务平台等可以受益于使用EV证书来提升品牌形象和安全性。 申请EVSSL证书(Extended Validation SSL certifi…

复制粘贴(二):操作剪贴板 navigator.clipboard

使用 navigator.clipboard 可以随时获取剪贴板对象&#xff08;也就是说&#xff0c;在 copy/paste 事件外也可以用&#xff09; 但是&#xff0c;此操作必须用户允许&#xff1a; readText readText() 获取剪贴板中的文本内容 <!DOCTYPE html> <html><head&…

java: 错误: 无效的源发行版:17

原因分析&#xff1a; 这个错误表明你的Java开发环境不支持Java 17的源发行版。这可能是因为你的JDK&#xff08;Java Development Kit&#xff09;版本过低&#xff0c;不支持Java 17的特性。 以下是解决此问题的一些步骤&#xff1a; 检查你的JDK版本&#xff1a;在命令行…

java影院管理信息系统设计参考学习

系统设计&#xff1a; 1.1功能结构 为了更好的去理清本系统整体思路&#xff0c;对该系统以结构图的形式表达出来&#xff0c;设计实现该影院系统的功能结构图如下所示&#xff1a; 图1-1 系统总体结构图 1.2数据库设计 1.2.1数据库E/R图 ER图是由实体及其关系构成的图&…

易点易动设备管理系统帮助生产企业提升设备维修效率

在现代制造业中&#xff0c;设备的正常运行对于生产企业的成功至关重要。然而&#xff0c;设备故障和维修工作常常成为生产过程中的瓶颈&#xff0c;影响生产效率和利润。为了解决这个问题&#xff0c;许多企业采用了现代化的设备管理系统&#xff0c;其中易点易动设备管理系统…