pytorh学习笔记——手写数字识别mnist

news2025/1/17 5:55:10

pytorh学习第二站:手写数字识别

一、训练程序

1、创建脚本框架mnist_demo.py:

import torch
import torchvision.datasets as dataset

# data # 定义数据


# net # 定义网络


# loss # 损失


# optimizer  # 优化


# training  # 训练


# test  # 测试


# save# 保存

2、下载数据集

import torch
import torchvision.datasets as dataset
import torchvision.transforms as transforms

# data # 定义数据
train_data = dataset.MNIST(root='mnist_data',   # 创建数据集
                           train=True,          # 书否训练
                           transform=transforms.ToTensor,    # 转换成tensor
                           download=True)       # 是否下载

# net # 定义网络


# loss # 损失


# optimizer  # 优化


# training  # 训练


# test  # 测试


# save# 保存

        运行脚本,自动下载数据集。

        MNIST数据集是由60000个训练样本和10000个测试样本组成,每个样本都是一张28 * 28像素的灰度手写数字图片。 一共4个文件,训练集、训练集标签、测试集、测试集标签。

文件名称大小内容
train-images-idx3-ubyte.gz9,681 kb55000张训练集,5000张验证集
train-labels-idx1-ubyte.gz29 kb训练集图片对应的标签
t10k-images-idx3-ubyte.gz1,611 kb10000张测试集
t10k-labels-idx1-ubyte.gz5 kb测试集图片对应的标签

3、定义网络

# net # 定义网络
class CNN(torch.nn.Module):
    def __init__(self, channel=32):  # 通道数(channel)指的是卷积层中的滤波器数量。
        # 这个参数对于控制内存使用和训练速度非常重要。
        super(CNN, self).__init__()
        self.channel = channel
        self.conv = torch.nn.Sequential(  # 卷积
            # “torch.nn.Sequential” 是 PyTorch 中的一个容器类,它允许将多个模块按照顺序依次组合起来,形成一个新的模块。这样可以方便地构建神经网络模型,使得模型的定义更加简洁和清晰。
            # 例如,可以使用 “torch.nn.Sequential” 来快速构建一个包含多个卷积层和全连接层的神经网络。
            torch.nn.Conv2d(in_channels=1, out_channels=self.channel, kernel_size=5, stride=1, padding=2),  # 卷积层
            # torch.nn.Conv2d 是 PyTorch 深度学习框架中的一个类,它定义了一个二维卷积层。在神经网络中,卷积层是核心组成部分之一,主要用于执行卷积操作,
            # 这种操作可以通过一组可学习的滤波器(也称为卷积核)来提取输入数据的特征。
            # 具体来说,torch.nn.Conv2d 类接受几个关键参数:
            # in_channels:输入数据的通道数。例如,对于灰度图像,通道数为 1;对于 RGB 彩色图像,通道数为 3。
            # out_channels:输出数据的通道数,也就是卷积层将产生多少个特征图(feature map)。
            # kernel_size:卷积核的大小,通常表示为一个整数或者一个包含两个整数的元组(高度和宽度)。
            # stride:卷积操作的步长,即卷积核在输入数据上移动的间隔。
            # padding:填充大小,用于在输入数据的边缘周围添加额外的像素,以保持输出数据的大小与输入数据相同或按需调整。
            torch.nn.BatchNorm2d(self.channel),  # 归一化
            # torch.nn.BatchNorm2d() 是一个在 PyTorch 框架中定义的二维批量归一化(Batch Normalization)层。
            # 批量归一化是一种用于加速深度神经网络训练过程的技术。它通过对每一批数据进行归一化处理,使得数据的均值为0,方差为1,
            # 从而减少内部协变量偏移(Internal Covariate Shift)。这样做可以使得网络对于初始化权重的敏感度降低,并且允许使用更高的学习率。
            # 在这个上下文中,channel=32表示每个输入样本有32个特征图(feature maps)。
            # 二维批量归一化层通常用在卷积神经网络(CNN)中,用于处理图像数据。由于图像数据通常是二维的(高度和宽度),因此使用 BatchNorm2d
            # 而不是 BatchNorm1d,后者通常用于处理一维数据,如全连接层的输出。
            # 在实际应用中,BatchNorm2d 层通常紧跟在卷积层之后,激活函数之前。它有助于网络更快地收敛,并且可以起到一定的正则化效果,减少过拟合。
            # 总结一下,torch.nn.BatchNorm2d(32) 创建了一个适用于32通道输入数据的二维批量归一化层,这个层可以被添加到神经网络的模型定义中,以提高训练效率和模型性能。
            torch.nn.ReLU(),  # 激活函数
            # orch.nn.ReLU () ReLU(Rectified Linear Unit,修正线性单元)将输入值小于等于 0 的部分置为 0,输入值大于 0 的部分保持不变。
            # 它常用于神经网络中,能够引入非线性,帮助神经网络更好地拟合复杂的数据模式,提高模型的表达能力和性能。
            torch.nn.MaxPool2d(kernel_size=2))  # 池化层
            # torch.nn.MaxPool2d” 是 PyTorch 中的一个模块,用于对输入的二维信号(图像等)进行二维最大池化操作。最大池化通常是在卷积神经网络中用于降低特征图的空间尺寸,
            # 同时保留重要的特征信息,它在一定窗口范围内选取最大值作为输出。例如,对于一个图像特征图,通过 MaxPool2d 可以减少计算量,提高模型的效率和对一些局部特征变化的鲁棒性。

        self.fc = torch.nn.Linear(14 * 14 * 32, 10)  # 全连接
        # 这里的 torch.nn.Linear 是 PyTorch 框架中定义全连接层的类。这个类的构造函数接受两个参数:
        # 第一个参数 14*14*32 表示输入特征的数量。在这个例子中,它是由前面卷积层处理后的特征图大小决定的。
        # 假设经过一系列卷积和池化操作后,每个样本的特征被展平(flatten)成了一个 14x14x32 的三维数组,
        # 那么展平后的一维特征数量就是 14*14*32。
        # 第二个参数 10 表示输出特征的数量,也就是全连接层的神经元数量。在这个例子中,它对应于分类任务中的类别数,
        # 假设这是一个用于手写数字识别的任务,共有 10 个类别(0 到 9)。

    def forward(self, x):  # 前向传播
        x = self.conv(x)   # 之前定义的卷积操作
        x = x.view(x.size()[0], -1)  # reshape
        # view方法主要有以下应用:
        # 一、重塑张量(Tensor)形状
        # 1、基本概念
        # 张量是深度学习中数据的基本表示形式。view方法允许在不改变张量中数据的存储顺序和内容的情况下,改变其维度结构。
        # 例如,一个形状为(batch_size, channels, height, width)的 4D 图像张量可以通过view方法转换为(batch_size, channels * height * width)的 2D 张量,
        # 这在将图像数据展平以便输入到全连接层时非常有用。
        # 2、内存布局
        # view操作是基于张量的存储布局(contiguous memory layout)进行的。如果一个张量的存储不是连续的(例如,经过某些转置操作后),在使用view之前可能需要先调用
        # contiguous方法来确保正确的视图重塑。
        # 3、动态网络架构
        # 在构建动态神经网络结构时,view方法可以根据不同的输入或网络中间状态动态调整张量的形状。例如,在循环神经网络(RNN)的变长输入场景中,输入序列的长度可能是可变的。
        # 通过view方法,可以将输入张量调整为适合网络处理的形状,然后再将处理后的结果重新调整回合适的形状用于后续操作。
        # 4、模型输出调整
        # 在一些深度学习模型中,网络的输出可能需要调整形状以匹配特定的任务要求。例如,在生成对抗网络(GAN)中,生成器的输出可能需要通过view方法调整为与目标图像相同的形状,
        # 以便与真实图像进行比较和计算损失。
        output = self.fc(x)  # 全连接
        return output
cnn = CNN()  # 定义网络
cnn = cnn.cuda()  # 放入GPU

4、训练

# loss # 损失
loss_func = torch.nn.CrossEntropyLoss()  # 损失函数,使用了交叉熵损失函数。常用于分类问题中,衡量模型预测结果与真实标签之间的差异
    # 使模型的预测结果更接近真实标签。

# optimizer  # 优化
optimizer = torch.optim.Adam(cnn.parameters(), lr=0.01)  # 优化器,使用了Adam优化器。Adam是一种自适应学习率方法,可以自动调整学习率,使其适应训练过程。

# training  # 训练
for epoch in range(10):  # 训练会进行 10 次,每次代表一个 “epoch”。“epoch” 通常在机器学习中表示完整遍历一次训练数据集的过程。
    for i, (images, labels) in enumerate(train_loader):  # 遍历训练数据集
        images = images.cuda()  # 将数据放入GPU
        labels = labels.cuda()  # 将标签放入GPU

        optimizer.zero_grad()  # 梯度清零,这一行代码用于清零模型参数的梯度,因为在PyTorch中,
                            # 梯度是在每次反向传播时累加的,所以每次前向传播之前都需要清零梯度。
        outputs = cnn(images)  # 前向传播,将图像数据输入到CNN模型中,得到模型的输出outputs。
        loss = loss_func(outputs, labels)  # 计算损失
        loss.backward()  # 反向传播,计算损失函数对模型参数的梯度
        optimizer.step()  # 优化器更新参数

        if i % 100 == 0:  # 打印训练信息
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch + 1, i * len(images), len(train_loader.dataset),
                100. * i / len(train_loader), loss.item()))

 经过训练后输出如下:

Train Epoch: 10 [0/60000 (0%)]	Loss: 0.011444
Train Epoch: 10 [6400/60000 (11%)]	Loss: 0.014965
Train Epoch: 10 [12800/60000 (21%)]	Loss: 0.032280
Train Epoch: 10 [19200/60000 (32%)]	Loss: 0.055170
Train Epoch: 10 [25600/60000 (43%)]	Loss: 0.019414
Train Epoch: 10 [32000/60000 (53%)]	Loss: 0.010601
Train Epoch: 10 [38400/60000 (64%)]	Loss: 0.016180
Train Epoch: 10 [44800/60000 (75%)]	Loss: 0.005475
Train Epoch: 10 [51200/60000 (85%)]	Loss: 0.046143
Train Epoch: 10 [57600/60000 (96%)]	Loss: 0.067438

5、测试:

加入测试的代码:

# test  # 测试
    loss_test = 0
    correct = 0

    for i, (images, labels) in enumerate(test_loader):  # 遍历测试数据集
        images = images.cuda()  # 将数据放入GPU
        labels = labels.cuda()  # 将标签放入GPU

        outputs = cnn(images)  # 前向传播,将图像数据输入到CNN模型中,得到模型的输出outputs。
        loss_test += loss_func(outputs, labels)  # 计算损失
        _, predicted = outputs.max(1)  # 预测结果
        correct += predicted.eq(labels).sum().item()  # 计算正确率

    print('Test set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)'.format(
        loss_test / len(test_loader.dataset), correct, len(test_loader.dataset),
        100. * correct / len(test_loader.dataset)))

6、保存

# save# 保存
torch.save(cnn, 'model/mnist_cnn.pkl')  # 保存模型参数

完整代码:

import torch
import torchvision.datasets as dataset
import torchvision.transforms as transforms
import torch.utils.data as data_utils


# data # 定义数据
per_batch = 2000  # batch_size指的是在一次迭代中用于训练模型的样本数量
# 定义训练数据集
train_data = dataset.MNIST(root='mnist_data',  # 创建数据集
                           train=True,  # 是否训练
                           transform=transforms.ToTensor(),  # 转换成tensor
                           download=False)  # 是否下载

# 定义测试数据集
test_data = dataset.MNIST(root='mnist_data',  # 创建数据集
                          train=False,  # 是否训练
                          transform=transforms.ToTensor(),  # 转换成tensor
                          download=False)  # 是否下载
# 定义训练数据集的迭代器
train_loader = data_utils.DataLoader(dataset=train_data,  # 定义数据集
                                     batch_size=per_batch,  # 定义batch_size
                                     shuffle=True, )  # 是否打乱

# 定义测试数据集的迭代器
test_loader = data_utils.DataLoader(dataset=test_data,  # 定义数据集
                                    batch_size=per_batch,  # 定义batch_size
                                    shuffle=True, )  # 是否打乱


# net # 定义网络
class CNN(torch.nn.Module):
    def __init__(self, channel=32):  # 通道数(channel)指的是卷积层中的滤波器数量。
        # 这个参数对于控制内存使用和训练速度非常重要。
        super(CNN, self).__init__()
        self.channel = channel
        self.conv = torch.nn.Sequential(  # 卷积
            # “torch.nn.Sequential” 是 PyTorch 中的一个容器类,它允许将多个模块按照顺序依次组合起来,形成一个新的模块。这样可以方便地构建神经网络模型,使得模型的定义更加简洁和清晰。
            # 例如,可以使用 “torch.nn.Sequential” 来快速构建一个包含多个卷积层和全连接层的神经网络。
            torch.nn.Conv2d(in_channels=1, out_channels=self.channel, kernel_size=5, stride=1, padding=2),  # 卷积层
            # torch.nn.Conv2d 是 PyTorch 深度学习框架中的一个类,它定义了一个二维卷积层。在神经网络中,卷积层是核心组成部分之一,主要用于执行卷积操作,
            # 这种操作可以通过一组可学习的滤波器(也称为卷积核)来提取输入数据的特征。
            # 具体来说,torch.nn.Conv2d 类接受几个关键参数:
            # in_channels:输入数据的通道数。例如,对于灰度图像,通道数为 1;对于 RGB 彩色图像,通道数为 3。
            # out_channels:输出数据的通道数,也就是卷积层将产生多少个特征图(feature map)。
            # kernel_size:卷积核的大小,通常表示为一个整数或者一个包含两个整数的元组(高度和宽度)。
            # stride:卷积操作的步长,即卷积核在输入数据上移动的间隔。
            # padding:填充大小,用于在输入数据的边缘周围添加额外的像素,以保持输出数据的大小与输入数据相同或按需调整。
            torch.nn.BatchNorm2d(self.channel),  # 归一化
            # torch.nn.BatchNorm2d() 是一个在 PyTorch 框架中定义的二维批量归一化(Batch Normalization)层。
            # 批量归一化是一种用于加速深度神经网络训练过程的技术。它通过对每一批数据进行归一化处理,使得数据的均值为0,方差为1,
            # 从而减少内部协变量偏移(Internal Covariate Shift)。这样做可以使得网络对于初始化权重的敏感度降低,并且允许使用更高的学习率。
            # 在这个上下文中,channel=32表示每个输入样本有32个特征图(feature maps)。
            # 二维批量归一化层通常用在卷积神经网络(CNN)中,用于处理图像数据。由于图像数据通常是二维的(高度和宽度),因此使用 BatchNorm2d
            # 而不是 BatchNorm1d,后者通常用于处理一维数据,如全连接层的输出。
            # 在实际应用中,BatchNorm2d 层通常紧跟在卷积层之后,激活函数之前。它有助于网络更快地收敛,并且可以起到一定的正则化效果,减少过拟合。
            # 总结一下,torch.nn.BatchNorm2d(32) 创建了一个适用于32通道输入数据的二维批量归一化层,这个层可以被添加到神经网络的模型定义中,以提高训练效率和模型性能。
            torch.nn.ReLU(),  # 激活函数
            # orch.nn.ReLU () ReLU(Rectified Linear Unit,修正线性单元)将输入值小于等于 0 的部分置为 0,输入值大于 0 的部分保持不变。
            # 它常用于神经网络中,能够引入非线性,帮助神经网络更好地拟合复杂的数据模式,提高模型的表达能力和性能。
            torch.nn.MaxPool2d(kernel_size=2))  # 池化层
            # torch.nn.MaxPool2d” 是 PyTorch 中的一个模块,用于对输入的二维信号(图像等)进行二维最大池化操作。最大池化通常是在卷积神经网络中用于降低特征图的空间尺寸,
            # 同时保留重要的特征信息,它在一定窗口范围内选取最大值作为输出。例如,对于一个图像特征图,通过 MaxPool2d 可以减少计算量,提高模型的效率和对一些局部特征变化的鲁棒性。

        self.fc = torch.nn.Linear(14 * 14 * 32, 10)  # 全连接
        # 这里的 torch.nn.Linear 是 PyTorch 框架中定义全连接层的类。这个类的构造函数接受两个参数:
        # 第一个参数 14*14*32 表示输入特征的数量。在这个例子中,它是由前面卷积层处理后的特征图大小决定的。
        # 假设经过一系列卷积和池化操作后,每个样本的特征被展平(flatten)成了一个 14x14x32 的三维数组,
        # 那么展平后的一维特征数量就是 14*14*32。
        # 第二个参数 10 表示输出特征的数量,也就是全连接层的神经元数量。在这个例子中,它对应于分类任务中的类别数,
        # 假设这是一个用于手写数字识别的任务,共有 10 个类别(0 到 9)。

    def forward(self, x):  # 前向传播
        x = self.conv(x)   # 之前定义的卷积操作
        x = x.view(x.size()[0], -1)  # reshape
        # view方法主要有以下应用:
        # 一、重塑张量(Tensor)形状
        # 1、基本概念
        # 张量是深度学习中数据的基本表示形式。view方法允许在不改变张量中数据的存储顺序和内容的情况下,改变其维度结构。
        # 例如,一个形状为(batch_size, channels, height, width)的 4D 图像张量可以通过view方法转换为(batch_size, channels * height * width)的 2D 张量,
        # 这在将图像数据展平以便输入到全连接层时非常有用。
        # 2、内存布局
        # view操作是基于张量的存储布局(contiguous memory layout)进行的。如果一个张量的存储不是连续的(例如,经过某些转置操作后),在使用view之前可能需要先调用
        # contiguous方法来确保正确的视图重塑。
        # 3、动态网络架构
        # 在构建动态神经网络结构时,view方法可以根据不同的输入或网络中间状态动态调整张量的形状。例如,在循环神经网络(RNN)的变长输入场景中,输入序列的长度可能是可变的。
        # 通过view方法,可以将输入张量调整为适合网络处理的形状,然后再将处理后的结果重新调整回合适的形状用于后续操作。
        # 4、模型输出调整
        # 在一些深度学习模型中,网络的输出可能需要调整形状以匹配特定的任务要求。例如,在生成对抗网络(GAN)中,生成器的输出可能需要通过view方法调整为与目标图像相同的形状,
        # 以便与真实图像进行比较和计算损失。
        output = self.fc(x)  # 全连接
        return output
cnn = CNN()  # 定义网络
cnn = cnn.cuda()  # 放入GPU

# loss # 损失
loss_func = torch.nn.CrossEntropyLoss()  # 损失函数,使用了交叉熵损失函数。常用于分类问题中,衡量模型预测结果与真实标签之间的差异
    # 使模型的预测结果更接近真实标签。

# optimizer  # 优化
optimizer = torch.optim.Adam(cnn.parameters(), lr=0.01)  # 优化器,使用了Adam优化器。Adam是一种自适应学习率方法,可以自动调整学习率,使其适应训练过程。

# training  # 训练
for epoch in range(10):  # 训练会进行 10 次,每次代表一个 “epoch”。“epoch” 通常在机器学习中表示完整遍历一次训练数据集的过程。
    for i, (images, labels) in enumerate(train_loader):  # 遍历训练数据集
        images = images.cuda()  # 将数据放入GPU
        labels = labels.cuda()  # 将标签放入GPU

        optimizer.zero_grad()  # 梯度清零,这一行代码用于清零模型参数的梯度,因为在PyTorch中,
                            # 梯度是在每次反向传播时累加的,所以每次前向传播之前都需要清零梯度。
        outputs = cnn(images)  # 前向传播,将图像数据输入到CNN模型中,得到模型的输出outputs。
        loss = loss_func(outputs, labels)  # 计算损失
        loss.backward()  # 反向传播,计算损失函数对模型参数的梯度
        optimizer.step()  # 优化器更新参数

        if i % 100 == 0:  # 打印训练信息
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch + 1, i * len(images), len(train_loader.dataset),
                100. * i / len(train_loader), loss.item()))

# test  # 测试
    loss_test = 0
    correct = 0

    for i, (images, labels) in enumerate(test_loader):  # 遍历测试数据集
        images = images.cuda()  # 将数据放入GPU
        labels = labels.cuda()  # 将标签放入GPU

        outputs = cnn(images)  # 前向传播,将图像数据输入到CNN模型中,得到模型的输出outputs。
        loss_test += loss_func(outputs, labels)  # 计算损失
        _, predicted = outputs.max(1)  # 预测结果
        correct += predicted.eq(labels).sum().item()  # 计算正确率

    print('Test set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)'.format(
        loss_test / len(test_loader.dataset), correct, len(test_loader.dataset),
        100. * correct / len(test_loader.dataset)))



# save# 保存
torch.save(cnn, 'model/mnist_cnn.pkl')  # 保存模型参数

 二、利用保存的模型推理

新建inference.py:

import torch
import torchvision.datasets as dataset
import torchvision.transforms as transforms
import torch.utils.data as data_utils


# net # 定义网络
class CNN(torch.nn.Module):
    def __init__(self, channel=32):  # 通道数(channel)指的是卷积层中的滤波器数量。
        # 这个参数对于控制内存使用和训练速度非常重要。
        super(CNN, self).__init__()
        self.channel = channel
        self.conv = torch.nn.Sequential(  # 卷积
            torch.nn.Conv2d(in_channels=1, out_channels=self.channel, kernel_size=5, stride=1, padding=2),  # 卷积层
            torch.nn.BatchNorm2d(self.channel),  # 归一化
            torch.nn.ReLU(),  # 激活函数
            torch.nn.MaxPool2d(kernel_size=2))  # 池化层

        self.fc = torch.nn.Linear(14 * 14 * 32, 10)  # 全连接

    def forward(self, x):  # 前向传播
        x = self.conv(x)   # 之前定义的卷积操作
        x = x.view(x.size()[0], -1)  # reshape
        output = self.fc(x)  # 全连接
        return output

# data # 定义数据
per_batch = 2000
# 定义训练数据集
train_data = dataset.MNIST(root='mnist_data',  # 创建数据集
                           train=True,  # 是否训练
                           transform=transforms.ToTensor(),  # 转换成tensor
                           download=False)  # 是否下载

# 定义测试数据集
test_data = dataset.MNIST(root='mnist_data',  # 创建数据集
                          train=False,  # 是否训练
                          transform=transforms.ToTensor(),  # 转换成tensor
                          download=False)  # 是否下载

# 定义测试数据集的迭代器
test_loader = data_utils.DataLoader(dataset=test_data,  # 定义数据集
                                    batch_size=per_batch,  # 定义batch_size
                                    shuffle=True, )  # 是否打乱


cnn = torch.load('E:\AI_tset\mnist_demo\model\mnist_cnn.pkl')  # 定义网络
cnn = cnn.cuda()  # 放入GPU




# inference  # 预测
loss_test = 0
correct = 0

for i, (images, labels) in enumerate(test_loader):  # 遍历测试数据集
    images = images.cuda()  # 将数据放入GPU
    labels = labels.cuda()  # 将标签放入GPU

    outputs = cnn(images)  # 前向传播,将图像数据输入到CNN模型中,得到模型的输出outputs。
    _, predicted = outputs.max(1)  # 预测结果
    correct += predicted.eq(labels).sum().item()  # 计算正确率

print('Test set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)'.format(
    loss_test / len(test_loader.dataset), correct, len(test_loader.dataset),
    100. * correct / len(test_loader.dataset)))

运行结果:

Test set: Average loss: 0.0000, Accuracy: 9813/10000 (98%)

三、将网络定义为单独调用的类

1、新建CNN.py ,将之前训练脚本中的网络定义拷贝:

import torch


# net # 定义网络
class CNN(torch.nn.Module):
    def __init__(self, channel=32):  # 通道数(channel)指的是卷积层中的滤波器数量。
        # 这个参数对于控制内存使用和训练速度非常重要。
        super(CNN, self).__init__()
        self.channel = channel
        self.conv = torch.nn.Sequential(  # 卷积
            # “torch.nn.Sequential” 是 PyTorch 中的一个容器类,它允许将多个模块按照顺序依次组合起来,形成一个新的模块。这样可以方便地构建神经网络模型,使得模型的定义更加简洁和清晰。
            # 例如,可以使用 “torch.nn.Sequential” 来快速构建一个包含多个卷积层和全连接层的神经网络。
            torch.nn.Conv2d(in_channels=1, out_channels=self.channel, kernel_size=5, stride=1, padding=2),  # 卷积层
            # torch.nn.Conv2d 是 PyTorch 深度学习框架中的一个类,它定义了一个二维卷积层。在神经网络中,卷积层是核心组成部分之一,主要用于执行卷积操作,
            # 这种操作可以通过一组可学习的滤波器(也称为卷积核)来提取输入数据的特征。
            # 具体来说,torch.nn.Conv2d 类接受几个关键参数:
            # in_channels:输入数据的通道数。例如,对于灰度图像,通道数为 1;对于 RGB 彩色图像,通道数为 3。
            # out_channels:输出数据的通道数,也就是卷积层将产生多少个特征图(feature map)。
            # kernel_size:卷积核的大小,通常表示为一个整数或者一个包含两个整数的元组(高度和宽度)。
            # stride:卷积操作的步长,即卷积核在输入数据上移动的间隔。
            # padding:填充大小,用于在输入数据的边缘周围添加额外的像素,以保持输出数据的大小与输入数据相同或按需调整。
            torch.nn.BatchNorm2d(self.channel),  # 归一化
            # torch.nn.BatchNorm2d() 是一个在 PyTorch 框架中定义的二维批量归一化(Batch Normalization)层。
            # 批量归一化是一种用于加速深度神经网络训练过程的技术。它通过对每一批数据进行归一化处理,使得数据的均值为0,方差为1,
            # 从而减少内部协变量偏移(Internal Covariate Shift)。这样做可以使得网络对于初始化权重的敏感度降低,并且允许使用更高的学习率。
            # 在这个上下文中,channel=32表示每个输入样本有32个特征图(feature maps)。
            # 二维批量归一化层通常用在卷积神经网络(CNN)中,用于处理图像数据。由于图像数据通常是二维的(高度和宽度),因此使用 BatchNorm2d
            # 而不是 BatchNorm1d,后者通常用于处理一维数据,如全连接层的输出。
            # 在实际应用中,BatchNorm2d 层通常紧跟在卷积层之后,激活函数之前。它有助于网络更快地收敛,并且可以起到一定的正则化效果,减少过拟合。
            # 总结一下,torch.nn.BatchNorm2d(32) 创建了一个适用于32通道输入数据的二维批量归一化层,这个层可以被添加到神经网络的模型定义中,以提高训练效率和模型性能。
            torch.nn.ReLU(),  # 激活函数
            # orch.nn.ReLU () ReLU(Rectified Linear Unit,修正线性单元)将输入值小于等于 0 的部分置为 0,输入值大于 0 的部分保持不变。
            # 它常用于神经网络中,能够引入非线性,帮助神经网络更好地拟合复杂的数据模式,提高模型的表达能力和性能。
            torch.nn.MaxPool2d(kernel_size=2))  # 池化层
        # torch.nn.MaxPool2d” 是 PyTorch 中的一个模块,用于对输入的二维信号(图像等)进行二维最大池化操作。最大池化通常是在卷积神经网络中用于降低特征图的空间尺寸,
        # 同时保留重要的特征信息,它在一定窗口范围内选取最大值作为输出。例如,对于一个图像特征图,通过 MaxPool2d 可以减少计算量,提高模型的效率和对一些局部特征变化的鲁棒性。

        self.fc = torch.nn.Linear(14 * 14 * 32, 10)  # 全连接
        # 这里的 torch.nn.Linear 是 PyTorch 框架中定义全连接层的类。这个类的构造函数接受两个参数:
        # 第一个参数 14*14*32 表示输入特征的数量。在这个例子中,它是由前面卷积层处理后的特征图大小决定的。
        # 假设经过一系列卷积和池化操作后,每个样本的特征被展平(flatten)成了一个 14x14x32 的三维数组,
        # 那么展平后的一维特征数量就是 14*14*32。
        # 第二个参数 10 表示输出特征的数量,也就是全连接层的神经元数量。在这个例子中,它对应于分类任务中的类别数,
        # 假设这是一个用于手写数字识别的任务,共有 10 个类别(0 到 9)。

    def forward(self, x):  # 前向传播
        x = self.conv(x)  # 之前定义的卷积操作
        x = x.view(x.size()[0], -1)  # reshape
        # view方法主要有以下应用: 一、重塑张量(Tensor)形状 1、基本概念 张量是深度学习中数据的基本表示形式。view方法允许在不改变张量中数据的存储顺序和内容的情况下,改变其维度结构。 例如,一个形状为(
        # batch_size, channels, height, width)的 4D 图像张量可以通过view方法转换为(batch_size, channels * height * width)的 2D 张量,
        # 这在将图像数据展平以便输入到全连接层时非常有用。 2、内存布局 view操作是基于张量的存储布局(contiguous memory
        # layout)进行的。如果一个张量的存储不是连续的(例如,经过某些转置操作后),在使用view之前可能需要先调用 contiguous方法来确保正确的视图重塑。 3、动态网络架构
        # 在构建动态神经网络结构时,view方法可以根据不同的输入或网络中间状态动态调整张量的形状。例如,在循环神经网络(RNN)的变长输入场景中,输入序列的长度可能是可变的。
        # 通过view方法,可以将输入张量调整为适合网络处理的形状,然后再将处理后的结果重新调整回合适的形状用于后续操作。 4、模型输出调整
        # 在一些深度学习模型中,网络的输出可能需要调整形状以匹配特定的任务要求。例如,在生成对抗网络(GAN)中,生成器的输出可能需要通过view方法调整为与目标图像相同的形状, 以便与真实图像进行比较和计算损失。
        output = self.fc(x)  # 全连接
        return output

2、在训练脚本中调用定义好的网络:

import torch
import torchvision.datasets as dataset
import torchvision.transforms as transforms
import torch.utils.data as data_utils
from CNN import CNN

#  “torch.utils.data”提供了一些用于数据处理和加载的实用工具,比如可以用来创建数据加载器(DataLoader)、对数据集进行分割等操作。
# “torch.utils.data” 中的 “data_utils” 子模块除了可以分割数据集外,还提供了以下一些实用工具:
# 一、数据加载器相关
# 创建数据加载器(DataLoader)时可以设置各种参数,如批次大小(batch_size)、是否随机打乱数据(shuffle)等,方便高效地加载数据进行训练和推理。
# 可以处理不同类型的数据,包括图像、文本、表格数据等,将其转换为适合模型输入的格式。
# 二、数据预处理
# 提供一些常见的数据预处理函数,例如归一化、标准化等操作,以便使数据更适合模型训练。
# 可以对数据进行随机裁剪、旋转等数据增强操作,增加数据的多样性,提高模型的泛化能力。
# 三、数据集管理
# 帮助管理数据集的迭代,确保在训练过程中能够正确地遍历数据集,避免重复或遗漏数据。
# 可以方便地与不同类型的数据集进行交互,包括自定义数据集和常见的公开数据集。

# data # 定义数据
one_batch = 2000  # batch_size指的是在一次迭代中用于训练模型的样本数量
# 定义训练数据集
train_data = dataset.MNIST(root='mnist_data',  # 创建数据集
                           train=True,  # 是否训练
                           transform=transforms.ToTensor(),  # 转换成tensor
                           download=False)  # 是否下载

# 定义测试数据集
test_data = dataset.MNIST(root='mnist_data',  # 创建数据集
                          train=False,  # 是否训练
                          transform=transforms.ToTensor(),  # 转换成tensor
                          download=False)  # 是否下载
# 定义训练数据集的迭代器
train_loader = data_utils.DataLoader(dataset=train_data,  # 定义数据集
                                     batch_size=one_batch,  # 定义batch_size
                                     shuffle=True, )  # 是否打乱

# 定义测试数据集的迭代器
test_loader = data_utils.DataLoader(dataset=test_data,  # 定义数据集
                                    batch_size=one_batch,  # 定义batch_size
                                    shuffle=True, )  # 是否打乱



cnn = CNN()  # 定义网络
cnn = cnn.cuda()  # 放入GPU

# loss # 损失
loss_func = torch.nn.CrossEntropyLoss()  # 损失函数,使用了交叉熵损失函数。常用于分类问题中,衡量模型预测结果与真实标签之间的差异
    # 使模型的预测结果更接近真实标签。

# optimizer  # 优化
optimizer = torch.optim.Adam(cnn.parameters(), lr=0.01)  # 优化器,使用了Adam优化器。Adam是一种自适应学习率方法,可以自动调整学习率,使其适应训练过程。

# training  # 训练
for epoch in range(10):  # 训练会进行 10 次,每次代表一个 “epoch”。“epoch” 通常在机器学习中表示完整遍历一次训练数据集的过程。
    for i, (images, labels) in enumerate(train_loader):  # 遍历训练数据集
        images = images.cuda()  # 将数据放入GPU
        labels = labels.cuda()  # 将标签放入GPU

        optimizer.zero_grad()  # 梯度清零,这一行代码用于清零模型参数的梯度,因为在PyTorch中,
                            # 梯度是在每次反向传播时累加的,所以每次前向传播之前都需要清零梯度。
        outputs = cnn(images)  # 前向传播,将图像数据输入到CNN模型中,得到模型的输出outputs。
        loss = loss_func(outputs, labels)  # 计算损失
        loss.backward()  # 反向传播,计算损失函数对模型参数的梯度
        optimizer.step()  # 优化器更新参数

        if i % 100 == 0:  # 打印训练信息
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch + 1, i * len(images), len(train_loader.dataset),
                100. * i / len(train_loader), loss.item()))

# test  # 测试
    loss_test = 0
    correct = 0

    for i, (images, labels) in enumerate(test_loader):  # 遍历测试数据集
        images = images.cuda()  # 将数据放入GPU
        labels = labels.cuda()  # 将标签放入GPU

        outputs = cnn(images)  # 前向传播,将图像数据输入到CNN模型中,得到模型的输出outputs。
        loss_test += loss_func(outputs, labels)  # 计算损失
        _, predicted = outputs.max(1)  # 预测结果
        correct += predicted.eq(labels).sum().item()  # 计算正确率

    print('Test set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)'.format(
        loss_test / len(test_loader.dataset), correct, len(test_loader.dataset),
        100. * correct / len(test_loader.dataset)))



# save# 保存
torch.save(cnn, 'model/mnist_cnn.pkl')  # 保存模型参数

四、在推理脚本中加入图片显示的功能:

import torch
import torchvision.datasets as dataset
import torchvision.transforms as transforms
import torch.utils.data as data_utils
import cv2

# data # 定义数据
per_batch = 32
# 定义训练数据集
train_data = dataset.MNIST(root='mnist_data',  # 创建数据集
                           train=True,  # 是否训练
                           transform=transforms.ToTensor(),  # 转换成tensor
                           download=False)  # 是否下载

# 定义测试数据集
test_data = dataset.MNIST(root='mnist_data',  # 创建数据集
                          train=False,  # 是否训练
                          transform=transforms.ToTensor(),  # 转换成tensor
                          download=False)  # 是否下载

# 定义测试数据集的迭代器
test_loader = data_utils.DataLoader(dataset=test_data,  # 定义数据集
                                    batch_size=per_batch,  # 定义batch_size
                                    shuffle=True, )  # 是否打乱

cnn = torch.load('E:\AI_tset\mnist_demo\model\mnist_cnn.pkl')  # 定义网络
cnn = cnn.cuda()  # 放入GPU

# inference  # 预测
loss_test = 0
correct = 0

for i, (images, labels) in enumerate(test_loader):  # 遍历测试数据集
    images = images.cuda()  # 将数据放入GPU
    labels = labels.cuda()  # 将标签放入GPU

    outputs = cnn(images)  # 前向传播,将图像数据输入到CNN模型中,得到模型的输出outputs。
    _, predicted = outputs.max(1)  # 预测结果
    correct += predicted.eq(labels).sum().item()  # 计算正确率

    images = images.cpu().numpy()  # 将数据从GPU中取出
    labels = labels.cpu().numpy()  # 将标签从GPU中取出
    predicted = predicted.cpu().numpy()  # 将预测结果从GPU中取出

    for idx in range(per_batch):  # 遍历每一批数据
        image = images[idx]  # 取出图像
        label = labels[idx]  # 取出标签
        predict = predicted[idx]  # 取出预测结果

        print(image.shape)   # 打印图像的shape (1, 28, 28)
        # 由于image的维度是(1, 28, 28),所以需要将维度变成(28, 28, 1),下面两种方法都可以
        # image = image.reshape(28, 28)  # 将图像reshape成28*28的矩阵
        image = image.transpose(1, 2, 0)  # 将图像转置   # (1, 28, 28) -> (28, 28, 1)        
        cv2.imshow('image', image)  # 显示图像
        print('label:{},predict:{}'.format(label, predict))  # 打印标签和预测结果
        cv2.waitKey(0)  # 等待按键

运行结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2214455.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uniapp onPageScroll

子组件有onPageScroll, 首页也要引入onPageScroll, eg: 主页面 sell/detail/index 《子组件》 <script setup> 引入onPageScroll </script> 组件&#xff1a; 引入onPageScroll 别人的比较

智能健康顾问:基于SpringBoot的系统

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统&#xff0c;它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等&#xff0c;非常…

Pytorch——pip下载安装pytorch慢的解决办法

一、找到需要下载的pytorch链接 运行&#xff1a;pip install torch1.11.0cu113 torchvision0.12.0cu113 torchaudio0.11.0 --extra-index-url https://download.pytorch.org/whl/cu113。然后得到&#xff1a; 我这里为&#xff1a;https://download.pytorch.org/whl/cu113/t…

Odin插件基本使用

介绍 Odin Inspector是Unity的一个插件&#xff0c;让您可以享受拥有强大&#xff0c;自定义和用户友好编辑器的所有工作流程优势&#xff0c;而无需编写任何自定义编辑器代码。 安装 需要有对应的unity包或者去官网或者资源商店下载 官方网址 Odin Inspector and Seriali…

DAY47WEB 攻防-PHP 应用文件上传函数缺陷条件竞争二次渲染黑白名单JS 绕过

1、PHP-原生态-文件上传-检测后缀&黑白名单2、PHP-原生态-文件上传-检测信息&类型内容3、PHP-原生态-文件上传-函数缺陷&逻辑缺陷4、PHP-原生态-文件上传-版本缺陷&配置缺陷 文件上传安全指的是攻击者通过利用上传实现后门的写入连接后门进行权限控制的安全问题…

接口中的静态常量在项目中的使用,以及固长列表和变长列表

先来看一段代码 public interface WrapIgnoreList {List<String> KNIFE4J Arrays.asList("/doc.html","/swagger-resources","/swagger-resources/configuration","/v3/api-docs","/v2/api-docs","/webjars/**…

ApplicationContext获取对象时注解丢失问题及 Arthas 验证方法

引言 在使用 Spring 框架时遇到的一个常见问题&#xff1a;通过 ApplicationContext 获取到的对象无法获取到注解。 本文的目的&#xff1a;探讨这个问题的原因&#xff0c;并展示如何使用 Arthas 工具来验证和解决问题。 问题描述 描述具体的问题场景&#xff1a;通过 Appli…

MySQL—关于数据库的CRUD—(增删改查)

文章目录 关于数据库的使用&#xff1a;1. 数据库的背景知识&#xff1a;2. MYSQL数据库软件的使用&#xff08;MYSQL安装的问题在另一篇博客中讲解&#xff09;。&#xff08;1&#xff09;启动MYSQL数据库软件&#xff08;2&#xff09;开始使用数据库程序&#xff1a;1&…

【微信小程序_13_页面配置与网络数据请】

摘要:本文介绍了微信小程序的页面配置与网络数据请求。页面配置文件可对单个页面进行个性化设置,与全局配置冲突时以页面配置为准。网络数据请求有严格限制,包括只能用 HTTPS 接口并添加到信任列表。可通过wx.request()发起 GET 和 POST 请求,能在页面加载时自动请求数据。…

机器学习-决策树详解

决策树 决策树简介 学习目标 1.理解决策树算法的基本思想 2.知道构建决策树的步骤 【理解】决策树例子 决策树算法是一种监督学习算法&#xff0c;英文是Decision tree。 决策树思想的来源非常朴素&#xff0c;试想每个人的大脑都有类似于if-else这样的逻辑判断&#xff…

使用 python 下载 bilibili 视频

本文想要达成的目标为&#xff1a;运行 python 代码之后&#xff0c;在终端输入视频链接&#xff0c;可自动下载高清 1080P 视频并保存到相应文件夹。 具体可分为两大步&#xff1a;首先&#xff0c;使用浏览器开发者工具 F12 获取请求链接相关信息&#xff08;根据 api 接口下…

Java多线程--实现跑马小游戏

线程的实现方式 继承Thread类&#xff1a;void run()方法没有返回值&#xff0c;无法抛异常实现Runnable接口&#xff1a;void run()方法没有返回值&#xff0c;无法抛异常实现Callable接口&#xff1a;V call() throws Exception 返回结果&#xff0c;能够抛异常 实现Callab…

分类预测|基于鹦鹉优化宽度神经网络的数据分类预测Matlab程序 PO-BLS多特征输入多类别输出

分类预测|基于鹦鹉优化宽度神经网络的数据分类预测Matlab程序 PO-BLS多特征输入多类别输出 文章目录 前言分类预测|基于鹦鹉优化宽度神经网络的数据分类预测Matlab程序 PO-BLS多特征输入多类别输出 一、PO-BLS模型PO-BLS&#xff1a;鹦鹉优化宽度神经网络分类预测原理1. 宽度神…

06DSP学习-利用syscfg配置DAC

在做实验的过程中&#xff0c;有些变量(例如逆变器的电压相位、计算过程中的数字量)是没有办法通过示波器观察的&#xff0c;因此需要将数字量转换为模拟量&#xff0c;一般转换成电压。 DSP有三个片上DAC&#xff0c;本篇博客学习如何使用syscfg配置DAC F28379D DAC介绍 TM…

【opencv】以A4纸为参照物测量物体尺寸(包含:偏移纠正,轮廓检测,绘制轮廓函数)

文章目录 测试结果原图python代码ObjectMeasuremetn.pyutils.py测试结果 原图 python代码 ObjectMeasuremetn.py import cv2 import numpy as np import utilswebcam = False path = ../da

记录一次hiveserver2卡死(假死)问题

问题描述 给开发人员开通了个账号&#xff0c;连接hive进行查询&#xff0c;后来发现&#xff0c;hive服务有时候会卡死&#xff0c;查询不了&#xff0c;连不上&#xff08;所有账号/客户端都连不上hive&#xff09;&#xff0c;但在chd里面看监控&#xff0c;服务器资源状态…

SpringBoot 之 配置 RestTemplate + 跳过https 验证

上截图 目录文件结构 在配置文件下创建下面两个文件 文件内容 HttpsClientHttpRequestFactory.java package org.fri.config;import org.apache.http.ssl.SSLContexts; import org.apache.http.ssl.TrustStrategy; import org.springframework.context.annotation.Configur…

用自己的数据集复现YOLOv5

yolov5已经出了很多版本了&#xff0c;这里我以目前最新的版本为例&#xff0c;先在官网下载源码&#xff1a;GitHub - ultralytics/yolov5: YOLOv5 &#x1f680; in PyTorch > ONNX > CoreML > TFLite 然后下载预训练模型&#xff0c;需要哪个就点击哪个模型就行&am…

JavaSE——String类详解

目录 一、String类简介 二、关于字符串拼接的号 三、StringJoiner类——通过连接符拼接字符串 四、String类常用方法详解 五、instanceof关键字 一、String类简介 String是被final修饰的类&#xff0c;不能被继承&#xff0c;因此不能使用匿名内部类。String是一个常量&a…

leetocode二叉树(六)-翻转二叉树

题目 226.翻转二叉树 给你一棵二叉树的根节点 root &#xff0c;翻转这棵二叉树&#xff0c;并返回其根节点。、 示例 1&#xff1a; 输入&#xff1a;root [4,2,7,1,3,6,9] 输出&#xff1a;[4,7,2,9,6,3,1]示例 2&#xff1a; 输入&#xff1a;root [2,1,3] 输出&#x…