用pytorch实现Resnet

news2025/4/11 0:22:07

ResNet（Residual Network）是一种深度卷积神经网络架构，由Kaiming He等人于2015年提出。它在计算机视觉领域引起了革命性的变革，使得训练更深的神经网络成为可能，超越了传统网络架构的限制。
ResNet的主要创新在于残差学习的概念。传统神经网络存在梯度消失的问题，即随着梯度在多个层传播，其数值变得指数级小，从而阻碍了学习过程，限制了网络的有效训练深度。

ResNet通过引入跳跃连接或快捷连接来解决这个问题。与直接拟合期望的映射不同，ResNet学习拟合残差映射，即期望输出与输入之间的差异。这些跳跃连接允许梯度直接在多个层之间流动，并缓解了梯度消失的问题。
ResNet的核心构建块是残差块，它由两个卷积层、批归一化和ReLU激活函数组成。残差块接收输入张量，通过这些层，然后将输入张量和卷积层的输出相加。加法操作将原始输入与学到的残差相结合，创建了梯度流的快捷路径。

残差块

residual结构使用了一种shortcut的连接方式，也可理解为捷径。让特征矩阵隔层相加，注意F(X)和X形状要相同，所谓相加是特征矩阵相同位置上的数字进行相加

残差块里首先有2个有相同输出通道数的3*3卷积层。每个卷积层后接一个批量规范化层和ReLU激活函数。然后我们通过跨层数据通路，跳过这2个卷积运算，将输入直接加在最后的ReLU激活函数前。这样的设计要求2个卷积层的输出与输入形状一样，从而使它们可以相加。如果想改变通道数，就需要引入一个额外的1*1卷积层来将输入变换成需要的形状后再做相加运算

import torch
import torch.nn as nn


# Residual Block (Basic Building Block of ResNet)
class ResidualBlock(nn.Module):
    def __init__(self, in_channels, out_channels, stride=1):
        super(ResidualBlock, self).__init__()

        self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.relu = nn.ReLU(inplace=True)
        self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False)
        self.bn2 = nn.BatchNorm2d(out_channels)

        self.shortcut = nn.Sequential()
        if stride != 1 or in_channels != out_channels:
            self.shortcut = nn.Sequential(
                nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(out_channels)
            )

    def forward(self, x):
        residual = x

        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)

        out = self.conv2(out)
        out = self.bn2(out)

        out += self.shortcut(residual)
        out = self.relu(out)

        return out


# ResNet Architecture
class ResNet(nn.Module):
    def __init__(self, num_classes=1000):
        super(ResNet, self).__init__()

        self.in_channels = 64

        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
        self.bn1 = nn.BatchNorm2d(64)
        self.relu = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)

        self.layer1 = self._make_layer(64, 3)
        self.layer2 = self._make_layer(128, 4, stride=2)
        self.layer3 = self._make_layer(256, 6, stride=2)
        self.layer4 = self._make_layer(512, 3, stride=2)

        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))
        self.fc = nn.Linear(512, num_classes)

    def _make_layer(self, out_channels, num_blocks, stride=1):
        layers = []
        layers.append(ResidualBlock(self.in_channels, out_channels, stride))
        self.in_channels = out_channels

        for _ in range(1, num_blocks):
            layers.append(ResidualBlock(out_channels, out_channels))

        return nn.Sequential(*layers)

    def forward(self, x):
        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)
        out = self.maxpool(out)

        out = self.layer1(out)
        out = self.layer2(out)
        out = self.layer3(out)
        out = self.layer4(out)

        out = self.avgpool(out)
        out = torch.flatten(out, 1)
        out = self.fc(out)

        return out


# Create an instance of the ResNet model
model = ResNet(num_classes=1000)

# Print the model architecture
print(model)

ResNet通常由多个堆叠的残差块组成，深度逐渐增加。网络架构包括不同的变体，如ResNet-18、ResNet-34、ResNet-50、ResNet-101和ResNet-152，其中数字表示网络中总层数。较深的变体在图像分类、目标检测和分割等各种计算机视觉任务中表现出更好的性能。
ResNet的一个显著优势是可以训练非常深的网络而不降低性能。它使得可以训练超过100层的网络，同时仍然保持准确性和收敛性。此外，跳跃连接使得轻松实现恒等映射，意味着可以将浅层网络转变为更深的网络而不降低性能。
ResNet对深度学习领域产生了重大影响，并成为各种计算机视觉应用中广泛采用的架构。它的残差学习概念也启发了其他使用跳跃连接的架构的发展，如DenseNet和Highway Networks。