深度学习——残差网络(ResNet)笔记

news2026/2/16 1:34:03

残差网络：经常使用的网络之一

1.随着神经网络的不断加深能改进精度吗？

不一定

①蓝色五角星表示最优值，Fi闭合区域表示函数，闭合区域的面积代表函数的复杂程度。在这个区域能够找到一个最优的模型（区域中的一个点表示，该点到最优值的距离衡量模型的好坏）

②随着函数的复杂度不断增加，函数的区域面积增大。逐渐偏离了原来的区域，并且在这个区域找的最优模型离最优值越来越远。非嵌套函数

③为了解决模型走偏的方法：每一次增加函数的复杂度的区域包含原来函数所在区域。嵌套函数，复杂的函数包含复杂度低的函数时，才能确保提高它的精度。

也就是说，增加函数的复杂度只会使函数在原有的面积基础上扩充，不会偏离原本存在的区域

④深度神经网络，新添加的层训练成恒等映射f(x)=x，新模型和原模型同样有效。新模型可能得出更优解来拟合训练数据集，添加层更容易降低训练误差。

2.残差网络的核心思想：每个附加层包含原始数据作为其元素之一。

3.残差块

①之前增加模型的深度是层层堆叠，残差网络的思想是堆叠层数的同时不会增加模型的复杂度

②x 是原始输入，f(x)是理想映射（激活函数的输入）

③正常块在虚线拟合出理想映射f(x),残差块虚线框拟合出残差映射f(x)-x

④残差映射要学习的恒等映射f(x)=x，将残差块虚线w和b设置为0

4.残差块的分类

①左边的残差网络的第一种实现，直接将输入加在了叠加层输出上面

②右边的残差网络的第二种实现，包含了1*1的卷积，对输入进行了1*1的卷积变换了通道，再叠加再输出上面

③残差网络使用了VGG完整的3*3卷积设计

④残差块首先有2个相同输出通道的3*3卷积层，每个卷积层后跟着批量归一化和ReLu函数。通过跨层数据通路，跳过残差块，将输入直接加在最后ReLu激活函数前

⑤想要改变通道数，就需要引入额外的1*1卷积层来将输入变化成需要的形状再运算

5.ResNet的架构

①高宽减半的ResNet块。第一个卷积层的步幅为2，通过1*1卷积通道数翻倍

②高宽不减半的ResNet块。重复多次，卷积层的步幅为1

【总结】

①残差块使得很深的网络更容易训练（不管网络多深，有跨层数据通路连接的存在，使得始终能包含小的网络。跳转连接的存在，所以会将下层的小网络训练好再去训练更深的网络），甚至可以训练一千层网络（内存大，优化算法能够实现）

②残差网络对后来的深度神经网络设计产生了深远影响，无论是卷积网络还是全连接类网络，可以让网络更深。

③学习嵌套函数是神经网络的理想情况，在深层神经网络中，学习另一层作为恒等映射比较容易

④残差映射可以更容易地学习同一函数，例如将权重层中的参数近似为零

⑤利用残差块可以训练出一个有效的深层神经网络：输入可以通过层间的残余连接更快地向前传播

【总结2】ResNet为什么会训练出1000层的模型？

1.ResNet如何避免梯度消失?

将乘法运算变成加法运算

2. 假设有一个预测模型：y = f(x)

①x：输入

②f(x）：表示神经网络模型,如10个卷积层

③y：输出

W权重更新：（输出 y 中省略了损失函数）η：学习率

y对w的梯度不能太小，如果太小的话，学习率无论多大都不起作用，并且影响数值的稳定性。

3. y‘ = g( f(x) ) 表示使用堆叠的方式对原有的模型进行加深

①比如加的是全连接层，全连接层拟合能力强，真实值和预测值的误差低，因此梯度也低。

假设所加的层的拟合能力比较强，第一项就会变得特别小，乘积的值就会变得特别小，也就是梯度就会变得特别小。

②就只能增大学习率，但可能增大也不是很有用，因为这是靠近底部数据层的更新，如果增加得太大，这样的话可能会导致数值不稳定

③如果中间有一项比较小的话，可能就会导致整个式子的乘积比较小，越到底层的话乘积就越小

4.残差网络：y‘' = f(x) + g( f(x) ) 表示使用残差连接的方式

就算第二项的值比较小，但还是有第一项值进行补充。由于跨层数据通路的存在，模型底部的权重也能够获得比较大的梯度，进行更新。

5. 靠近数据端的权重 w 难以训练，但是由于加入了跨层数据通路，所以在计算梯度的时候，上层的loss可以通过跨层连接通路直接快速地传递给下层，所以在一开始，下面的层w也能够拿到比较大的梯度, 进行更新。

【代码实现】

import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l


# 残差块  输入通道数  输出通道数 是否使用1*1卷积 步幅
class Residual(nn.Module):  # @save
    def __init__(self, input_channels, num_channels, use_1x1conv=False, strides=1):
        super().__init__()
        # 有2个卷积层  第一个指定stride 第二个不指定
        self.conv1 = nn.Conv2d(input_channels, num_channels,
                               kernel_size=3, padding=1, stride=strides)
        self.conv2 = nn.Conv2d(num_channels, num_channels,
                               kernel_size=3, padding=1)
        if use_1x1conv:  # 使用1*1卷积
            self.conv3 = nn.Conv2d(input_channels, num_channels,
                                   kernel_size=1, stride=strides)
        else:
            self.conv3 = None
        self.bn1 = nn.BatchNorm2d(num_channels)
        self.bn2 = nn.BatchNorm2d(num_channels)

    def forward(self, X):
        Y = F.relu(self.bn1(self.conv1(X)))  # 1卷积层--批量规范---激活
        Y = self.bn2(self.conv2(Y))  # 2卷积层---批量规范层
        if self.conv3:  # 判断有没有1*1卷积
            X = self.conv3(X)
        Y += X
        return F.relu(Y)


# ResNet模型
b1 = nn.Sequential(nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),
                   nn.BatchNorm2d(64), nn.ReLU(),
                   nn.MaxPool2d(kernel_size=3, stride=2, padding=1))


# 调用残差块 输入通道 输出通道 多少个残差块
def resnet_block(input_channels, num_channels, num_residuals,
                 first_block=False):
    blk = []
    for i in range(num_residuals):
        if i == 0 and not first_block:
            blk.append(Residual(input_channels, num_channels,
                                use_1x1conv=True, strides=2))
        else:
            blk.append(Residual(num_channels, num_channels))
    return blk


b2 = nn.Sequential(*resnet_block(64, 64, 2, first_block=True))
b3 = nn.Sequential(*resnet_block(64, 128, 2))
b4 = nn.Sequential(*resnet_block(128, 256, 2))
b5 = nn.Sequential(*resnet_block(256, 512, 2))

net = nn.Sequential(b1, b2, b3, b4, b5,
                    nn.AdaptiveAvgPool2d((1, 1)),
                    nn.Flatten(), nn.Linear(512, 10))


# 训练模型
lr, num_epochs, batch_size = 0.05, 10, 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=96)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/80961.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！