基于pytorch实现手写数字识别

news2025/7/13 15:58:29

1，先安装pytorch，在pytorch环境中安装库：

1）进入所安装的pytorch环境，我的是pytorch

所以激活它：

conda activate pytorch

2）使用pip安装numpy,torch,torchvision,matplotlib库

pip install numpy torch torchvision matplotlib

回车安装4个库

2,再将test.py文件用vscode打开，pycharm也行（主要我不怎么会用），这里用vscode展示。

注意右下角环境要选好。

这里我已经测试了两次，最高在0.96左右。

献上源码：

import torch
from torch.utils.data import DataLoader
from torchvision import transforms
from torchvision.datasets import MNIST
import matplotlib.pyplot as plt


class Net(torch.nn.Module):#定义一个NET类，它就是神经网络的主体

    def __init__(self):
        super().__init__()  #四个全连接层
        self.fc1 = torch.nn.Linear(28*28, 64)#输入为28*28的像素尺寸图像
        self.fc2 = torch.nn.Linear(64, 64)
        self.fc3 = torch.nn.Linear(64, 64)#中间三层放了64个节点
        self.fc4 = torch.nn.Linear(64, 10)#输出为10个数字类别
    def forward(self, x):#forward函数定义了前向传播过程，参数x是图像输入
        x = torch.nn.functional.relu(self.fc1(x))#每层连接中我们先做全连接线性计算
        x = torch.nn.functional.relu(self.fc2(x))#再套上一个激活函数torch.nn.functional.relu
        x = torch.nn.functional.relu(self.fc3(x))
        x = torch.nn.functional.log_softmax(self.fc4(x), dim=1)#输出层通过sodtmax归一化，这里的log_softmax是为了提高计算的稳定性。
        return x#在softmax之外又套上了torch.nn.functional.log_softmax对数运算


def get_data_loader(is_train):#导入数据
    to_tensor = transforms.Compose([transforms.ToTensor()])#定义一个tensor，是一个多维数组，中文叫张量
    data_set = MNIST("", is_train, transform=to_tensor, download=True)#下载MNIST数据集,""是下载目录，空表示当前目录，is_train用来决定是导入训练集还是测试集
    return DataLoader(data_set, batch_size=15, shuffle=True)#batch_size=15表示一个批次含15张图片，shuffle=True表示数据是随机打乱的，最后返回数据加载器


def evaluate(test_data, net):#用来评估神经网络的正确率，
    n_correct = 0
    n_total = 0
    with torch.no_grad():
        for (x, y) in test_data:
            outputs = net.forward(x.view(-1, 28*28))#计算神经网络预测值
            for i, output in enumerate(outputs):#对批次结果进行比较，累加正确预测的数量
                if torch.argmax(output) == y[i]:#argmax函数计算数据中最大值的序号也就是预测的手写数字结果
                    n_correct += 1
                n_total += 1
    return n_correct / n_total#返回正确率


def main():

    train_data = get_data_loader(is_train=True)#导入训练集
    test_data = get_data_loader(is_train=False)#导入测试集
    net = Net()#初始化神经网络
    
    print("initial accuracy:", evaluate(test_data, net))#打印初始网络的正确率
    optimizer = torch.optim.Adam(net.parameters(), lr=0.001)#一下几行代码训练神经网络，都是pytorch的固定写法
    for epoch in range(2):#epoch反复训练，提高数据集的利用率，每一个轮次就是一个epoch
        for (x, y) in train_data:
            net.zero_grad()#初始化
            output = net.forward(x.view(-1, 28*28))#正向传播
            loss = torch.nn.functional.nll_loss(output, y)#计算差值，nll_loss是对数损失函数，是为了匹配前面的log_softmax中的对数运算
            loss.backward()#反向误差传播
            optimizer.step()#优化网络参数
        print("epoch", epoch, "accuracy:", evaluate(test_data, net))#每个轮次后打印当前网络的正确率

    for (n, (x, _)) in enumerate(test_data):#训练完成后随机抽取3张图像显示网络预测结果
        if n > 3:
            break
        predict = torch.argmax(net.forward(x[0].view(-1, 28*28)))
        plt.figure(n)
        plt.imshow(x[0].view(28, 28))
        plt.title("prediction: " + str(int(predict)))
    plt.show()


if __name__ == "__main__":
    main()

1，讲解

1）使用MNIST数据集：手写数字图片7万张（训练6万张，测试1万张）。

2）什么是神经网络？