深度学习——残差网络(ResNet)笔记

news2024/11/19 7:44:42

残差网络:经常使用的网络之一

1.随着神经网络的不断加深能改进精度吗?

不一定

①蓝色五角星表示最优值,Fi闭合区域表示函数,闭合区域的面积代表函数的复杂程度。在这个区域能够找到一个最优的模型(区域中的一个点表示,该点到最优值的距离衡量模型的好坏) 

②随着函数的复杂度不断增加,函数的区域面积增大。逐渐偏离了原来的区域,并且在这个区域找的最优模型离最优值越来越远。非嵌套函数

③为了解决模型走偏的方法:每一次增加函数的复杂度的区域包含原来函数所在区域嵌套函数,复杂的函数包含复杂度低的函数时,才能确保提高它的精度。

也就是说,增加函数的复杂度只会使函数在原有的面积基础上扩充,不会偏离原本存在的区域

④深度神经网络,新添加的层训练成恒等映射f(x)=x,新模型和原模型同样有效。新模型可能得出更优解来拟合训练数据集,添加层更容易降低训练误差

2.残差网络的核心思想:每个附加层包含原始数据作为其元素之一。

3.残差块

 ①之前增加模型的深度是层层堆叠,残差网络的思想是堆叠层数的同时不会增加模型的复杂度

 ②x 是原始输入,f(x)理想映射(激活函数的输入)

 ③正常块在虚线拟合出理想映射f(x),残差块虚线框拟合出残差映射f(x)-x

 ④残差映射要学习的恒等映射f(x)=x,将残差块虚线w和b设置为0

4.残差块的分类

 ①左边的残差网络的第一种实现,直接将输入加在了叠加层输出上面

 ②右边的残差网络的第二种实现,包含了1*1的卷积,对输入进行了1*1的卷积变换了通道,再叠加再输出上面

 ③残差网络使用了VGG完整的3*3卷积设计

 ④残差块首先有2个相同输出通道的3*3卷积层,每个卷积层后跟着批量归一化ReLu函数。通过跨层数据通路,跳过残差块,将输入直接在最后ReLu激活函数前

 ⑤想要改变通道数,就需要引入额外的1*1卷积层来将输入变化成需要的形状再运算

5.ResNet的架构

 ①高宽减半的ResNet块。第一个卷积层的步幅为2,通过1*1卷积 通道数翻倍

 ②高宽不减半的ResNet块。重复多次,卷积层的步幅为1

【总结】

残差块使得很的网络更容易训练(不管网络多深,有跨层数据通路连接的存在,使得始终能包小的网络。跳转连接的存在,所以会将下层的小网络训练再去训练更深的网络),甚至可以训练一千层网络(内存大,优化算法能够实现)

②残差网络对后来的深度神经网络设计产生了深远影响,无论是卷积网络还是全连接类网络,可以让网络更深。

③学习嵌套函数是神经网络的理想情况,在深层神经网络中,学习另一层作为恒等映射比较容易

④残差映射可以更容易地学习同一函数,例如将权重层中的参数近似为零

⑤利用残差块可以训练出一个有效的深层神经网络:输入可以通过层间的残余连接更快地向前传播

【总结2】ResNet为什么会训练出1000层的模型?

1.ResNet如何避免梯度消失?

将乘法运算变成加法运算

2. 假设有一个预测模型:y = f(x)

x:输入

f(x):表示神经网络模型,10个卷积层

y:输出

W权重更新:(输出 y 中省略了损失函数)η:学习率

 y对w的梯度不能太小,如果太小的话,学习率无论多大都不起作用,并且影响数值的稳定性。

3. y‘ = g( f(x) ) 表示使用堆叠的方式对原有的模型进行加深

 

①比如加的是全连接层,全连接层拟合能力强,真实值和预测值的误差低,因此梯度也低。

假设所加的层的拟合能力比较强,第一项就会变得特别小,乘积的值就会变得特别小,也就是梯度就会变得特别小。

②就只能增大学习率,但可能增大也不是很有用,因为这是靠近底部数据层的更新,如果增加得太大,这样的话可能会导致数值不稳定

③如果中间有一项比较小的话,可能就会导致整个式子的乘积比较小,越到底层的话乘积就越小

4.残差网络:y‘' = f(x) + g( f(x) ) 表示使用残差连接的方式

 

就算第二项的值比较小,但还是有第一项值进行补充。由于跨层数据通路的存在,模型底部的权重也能够获得比较大的梯度,进行更新。

5. 靠近数据端的权重 w 难以训练,但是由于加入了跨层数据通路,所以在计算梯度的时候,上层的loss可以通过跨层连接通路直接快速地传递给下层,所以在一开始,下面的层w也能够拿到比较大的梯度, 进行更新。

 

【代码实现】

import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l


# 残差块  输入通道数  输出通道数 是否使用1*1卷积 步幅
class Residual(nn.Module):  # @save
    def __init__(self, input_channels, num_channels, use_1x1conv=False, strides=1):
        super().__init__()
        # 有2个卷积层  第一个指定stride 第二个不指定
        self.conv1 = nn.Conv2d(input_channels, num_channels,
                               kernel_size=3, padding=1, stride=strides)
        self.conv2 = nn.Conv2d(num_channels, num_channels,
                               kernel_size=3, padding=1)
        if use_1x1conv:  # 使用1*1卷积
            self.conv3 = nn.Conv2d(input_channels, num_channels,
                                   kernel_size=1, stride=strides)
        else:
            self.conv3 = None
        self.bn1 = nn.BatchNorm2d(num_channels)
        self.bn2 = nn.BatchNorm2d(num_channels)

    def forward(self, X):
        Y = F.relu(self.bn1(self.conv1(X)))  # 1卷积层--批量规范---激活
        Y = self.bn2(self.conv2(Y))  # 2卷积层---批量规范层
        if self.conv3:  # 判断有没有1*1卷积
            X = self.conv3(X)
        Y += X
        return F.relu(Y)


# ResNet模型
b1 = nn.Sequential(nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),
                   nn.BatchNorm2d(64), nn.ReLU(),
                   nn.MaxPool2d(kernel_size=3, stride=2, padding=1))


# 调用残差块 输入通道 输出通道 多少个残差块
def resnet_block(input_channels, num_channels, num_residuals,
                 first_block=False):
    blk = []
    for i in range(num_residuals):
        if i == 0 and not first_block:
            blk.append(Residual(input_channels, num_channels,
                                use_1x1conv=True, strides=2))
        else:
            blk.append(Residual(num_channels, num_channels))
    return blk


b2 = nn.Sequential(*resnet_block(64, 64, 2, first_block=True))
b3 = nn.Sequential(*resnet_block(64, 128, 2))
b4 = nn.Sequential(*resnet_block(128, 256, 2))
b5 = nn.Sequential(*resnet_block(256, 512, 2))

net = nn.Sequential(b1, b2, b3, b4, b5,
                    nn.AdaptiveAvgPool2d((1, 1)),
                    nn.Flatten(), nn.Linear(512, 10))


# 训练模型
lr, num_epochs, batch_size = 0.05, 10, 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=96)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/80961.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

「重学JS」带你一文吃透作用域与闭包

前言 学习了这么久前端,发现自己对于基础知识的掌握并没有那么通透,于是打算重新学一遍JS,借用经济学的一句话:JS基础决定能力高度🤦🏻 基础很重要,只有基础好才会很少出 bug,大多数…

二叉树的性质

由于二叉树的结构特殊,会有一系列的数学性质 性质一:对于一棵二叉树,第i层的最大结点数量为 个,比如二叉树的第一层只有一个根结点,而二叉树的第三层可以有 个结点。 性质二:对于一棵深度为k的二叉树&am…

【Python】函数

文章目录1. 函数介绍2. 函数的定义与调用3. 函数参数4. 函数返回值5. 变量作用域6. 函数执行过程7. 链式调用8. 嵌套调用9. 函数递归10. 参数默认值11关键字参数1. 函数介绍 编程中的函数不同于数学中的函数: 数学上的函数,比如 y sin x,x…

Vue快速上门|了解MVVM

1.1、先了解下MVVM VUE是基于MVVM思想实现的,❓那什么是MVVM呢?—— MVVM,是Model-View-ViewModel的缩写,是一种软件架构模式。其核心思想就是分离视图、数据、逻辑,VUE框架解决了数据Model到视图View的双向绑定,我们只关注业务逻辑ViewModel即可,极大的提高的编程效率…

BadUSB超详细制作, 实现CobaltStrike远控上线

前言 在2014年美国黑帽大会上,安全研究人员JakobLell和独立安全研究人员Karsten Nohl展示了他们称为“BadUSB”的攻击方法,这种攻击方法让USB安全和几乎所有和USB相关的设备(包括具有USB端口的电脑)都陷入相当危险的状态 现在的USB设备很多&#xff0c…

高级篇之ENC1当作采集卡使用方案推荐

高级篇之ENC1当作采集卡使用0 背景:1 准备工作2 连接示意图3 配置步骤:3.1 在笔记本电脑上安装NDI4工具3.2 ENC1设备连接3.3 配置电脑的USB网卡的IP地址3.4 配置ENC1设备3.5 打开NDI工具的虚拟输入功能0 背景: HDMI视频采集卡分为内嵌式采集…

【GCC编译优化系列】宏定义名称与函数同名是一种什么骚操作?

作者简介 *架构师李肯(全网同名)**,一个专注于嵌入式IoT领域的架构师。有着近10年的嵌入式一线开发经验,深耕IoT领域多年,熟知IoT领域的业务发展,深度掌握IoT领域的相关技术栈,包括但不限于主流…

​全网最牛的Fiddler系列文章(一):fiddler的介绍及安装​

Fiddler(1):fiddler的介绍及安装 Fiddler简介 Fiddler是比较好用的web代理调试工具之一,它能记录并检查所有客户端与服务端的HTTP/HTTPS请求,能够设置断点,篡改及伪造Request/Response的数据,修改hosts,限…

【UEFI实战】Redfish的BIOS实现1

Redfish的BIOS实现 EDK2提供了Redfish框架,用来实现带外的BIOS配置,其基本框架如下: 通过RedfishPkg中提供的Driver,可以实现BIOS与BMC或者其它的软件进行通信。它主要分为两个部分,分别是Client和Foundation。Client…

[论文解析]DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION

code links:dreamfusion3d.github.io 文章目录OverviewWhat problem is addressed in the paper?What is the key to the solution?What is the main contribution?What can we learn from ablation studies?Potential fundamental flaws; how this w…

MATLB|基于粒子群算法的能源管理系统EMS(考虑光伏、储能 、柴油机系统)

💥💥💥💞💞💞欢迎来到本博客❤️❤️❤️💥💥💥🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清…

原子操作类之18罗汉增强

原子操作类之18罗汉增强 是什么 都是java.util.concurrent.atomic包下的 有红框圈起来的,也有蓝框圈起来的,为什么? 阿里巴巴Java开发手册 为什么说18罗汉增强,却只有16个 再分类 基本类型原子类 AtomicInteger AtomicBoolea…

wpa_supplicant工具移植到嵌入式设备

1、wpa_supplicant源码下载 (1)源码下载地址:http://w1.fi/releases/; (2)本文是以wpa_supplicant-2.6.tar.gz版本进行移植; 2、编译openssl 2.1、确定适配的openssl版本 Optional libraries for EAP-TLS, EAP-PEAP, and EAP-TTLS: - OpenS…

【LeetCode】1827. 最少操作使数组递增

题目描述 给你一个整数数组 nums (下标从 0 开始)。每一次操作中,你可以选择数组中一个元素,并将它增加 1 。 比方说,如果 nums [1,2,3] ,你可以选择增加 nums[1] 得到 nums [1,3,3] 。 请你返回使 nums …

ESXi8.0中NVME硬盘不识别解决方法1,设置直通

目录 1.前言 2.直通设置 3.槽点 1.前言 ESXi8.0删除了很多老版本的硬件的驱动程序,导致NVME1.3及更低协议的固态硬盘均无法被ESXi直接识别正如我手头准备了尚好的服务器专用PM983A却无法识别。本着不折腾先熟悉ESXi8.0的思路另外找了一块盘装了ESXi的系统。本以为…

云原生之使用Docker部署webssh工具sshwifty

云原生之使用Docker部署webssh工具sshwifty一、sshwifty介绍1.sshwifty简介2.shwifty 特点二、检查本地docker环境1.检查docker版本2.检查docker状态三、下载sshwifty镜像四、服务器生成凭证文件五、创建sshwifty容器1.创建部署目录2.创建sshwifty容器3.查看sshwifty容器状态六…

uniapp 之 小程序线上版本一直处于加载状态

前言 最开始小程序都是体验版的,后来应老大需求,把体验版提交审核为正式版本(线上版本), 原本以为版本审核得花费几天时间,没想到它这审核速度挺快的,不到3小时就审核通过了,审核…

[go]汇编语言

文章目录计算机结构常量与变量全局变量常量数组字符串函数参数与返回值goroutineGo汇编程序无法独立使用,必须以Go包的方式组织,同时包中至少要有一个Go语言文件用于指明当前包名等基本包信息。如果Go汇编代码中定义的变量和函数要被其它Go语言代码引用&…

Spark的架构与基本运行流程

Spark的架构与基本运行流程一、Spark中的核心概念二、Spark中的核心架构设计一、Spark中的核心概念 (1)RDD,Spark中最核心的概念就是RDD(Resillient Distributed Dataset,弹性分布式数据集)。换而言之&…

MySQL---事务及锁机制

MySQL之事务以及锁机制 文章目录MySQL之事务以及锁机制事务事务的操作1、开启事务:start Transaction2、提交事务:commit Transaction3、回滚事务:Rollback Transactionset命令事务的特性---ACID事务的隔离级别1.READ UNCOMMITTED 读未提交2.…