PyTorch深度学习实战(3)—— 小试牛刀:CIFAR-10分类

news2024/11/13 6:42:43

下面尝试从零搭建一个PyTorch模型来完成CIFAR-10数据集上的图像分类任务,步骤如下。

(1)使用torchvision加载并预处理CIFAR-10数据集。

(2)定义网络。

(3)定义损失函数和优化器。

(4)训练网络,并更新网络参数。

(5)测试网络。

1 CIFAR-10数据加载及预处理

CIFAR-10是一个常用的彩色图片数据集,它有10个类别:airplane、automobile、bird、cat、deer、dog、frog、horse、ship和truck。每张图片大小都是$3\times32\times32$,即3通道彩色图片,分辨率为$32\times32$。下面举例说明如何完成图像加载与预处理:

In: import torch as t
    import torchvision as tv
    import torchvision.transforms as transforms
    from torchvision.transforms import ToPILImage
    show = ToPILImage() # 可以把Tensor转成Image,Jupyter可直接显示Image对象In: # 第一次运行程序torchvision会自动下载CIFAR-10数据集,
    # 数据集大小约为100M,需花费一些时间,
    # 如果已经下载好CIFAR-10数据集,那么可通过root参数指定
    
    # 定义对数据的预处理
    transform = transforms.Compose([
            transforms.ToTensor(), # 转为Tensor
            transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)), # 归一化
                                 ])
    # 训练集
    trainset = tv.datasets.CIFAR10(
                        root='./pytorch-book-cifar10/', 
                        train=True, 
                        download=True,
                        transform=transform)
    
    trainloader = t.utils.data.DataLoader(
                        trainset, 
                        batch_size=4,
                        shuffle=True, 
                        num_workers=2)
    
    # 测试集
    testset = tv.datasets.CIFAR10(
                        './pytorch-book-cifar10/',
                        train=False, 
                        download=True, 
                        transform=transform)
    
    testloader = t.utils.data.DataLoader(
                        testset,
                        batch_size=4, 
                        shuffle=False,
                        num_workers=2)
    
    classes = ('plane', 'car', 'bird', 'cat', 'deer', 
               'dog', 'frog', 'horse', 'ship', 'truck')
 
 Out:Files already downloaded and verified
    Files already downloaded and verifiedDataset

对象是一个数据集,可以按下标访问,返回形如(data, label)的数据,举例说明如下:

In: (data, label) = trainset[100]
    print(classes[label])
    
    # (data + 1) / 2目的是还原被归一化的数据
    show((data + 1) / 2).resize((100, 100))Out:ship

Dataloader是一个可迭代对象,它将Dataset返回的每一条数据样本拼接成一个batch,同时提供多线程加速优化和数据打乱等操作。当程序对Dataset的所有数据遍历完一遍后,对Dataloader也完成了一次迭代:

In: dataiter = iter(trainloader)     # 生成迭代器
    images, labels = dataiter.next() # 返回4张图片及标签
    print(' '.join('%11s'%classes[labels[j]] for j in range(4))) 
    show(tv.utils.make_grid((images + 1) / 2)).resize((400,100))

Out:  horse        frog       plane        bird

2 定义网络

拷贝上面的LeNet网络,因为CIFAR-10数据集中的数据是3通道的彩色图像,所以将self.conv1中第一个通道参数修改为3:

In: import torch.nn as nn
    import torch.nn.functional as F
    
    class Net(nn.Module):
        def __init__(self):
            super(Net, self).__init__()
            self.conv1 = nn.Conv2d(3, 6, 5) # 将第一个通道参数修改为3
            self.conv2 = nn.Conv2d(6, 16, 5)  
            self.fc1   = nn.Linear(16 * 5 * 5, 120)  
            self.fc2   = nn.Linear(120, 84)
            self.fc3   = nn.Linear(84, 10) # 类别数为10
    
        def forward(self, x): 
            x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2)) 
            x = F.max_pool2d(F.relu(self.conv2(x)), 2) 
            x = x.view(x.size()[0], -1) 
            x = F.relu(self.fc1(x))
            x = F.relu(self.fc2(x))
            x = self.fc3(x)        
            return x
 
    net = Net()
    print(net)Out:Net(
        (conv1): Conv2d(3, 6, kernel_size=(5, 5), stride=(1, 1))
        (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
        (fc1): Linear(in_features=400, out_features=120, bias=True)
        (fc2): Linear(in_features=120, out_features=84, bias=True)
        (fc3): Linear(in_features=84, out_features=10, bias=True)
    )

3 定义损失函数和优化器

这里使用交叉熵nn.CrossEntropyLoss作为损失函数,随机梯度下降法作为优化器:

In: from torch import optim
    criterion = nn.CrossEntropyLoss() # 交叉熵损失函数
    optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

4 训练网络

所有网络的训练流程都是类似的,也就是不断地执行如下流程。

(1)输入数据。

(2)前向传播、反向传播。

(3)更新参数。

In: for epoch in range(2):  
        running_loss = 0.0
        for i, data in enumerate(trainloader, 0):
            # 输入数据
            inputs, labels = data
            
            # 梯度清零
            optimizer.zero_grad()
            
            # forward + backward 
            outputs = net(inputs)
            loss = criterion(outputs, labels)
            loss.backward()   
            
            # 更新参数 
            optimizer.step()
            
            # 打印log信息
            running_loss += loss.item()
            if i % 2000 == 1999: # 每2000个batch打印一下训练状态
                print('[%d, %5d] loss: %.3f' \
                      % (epoch+1, i+1, running_loss / 2000))
                running_loss = 0.0
    print('Finished Training')
 
 Out:[1,  2000] loss: 2.228
    [1,  4000] loss: 1.890
    [1,  6000] loss: 1.683
    [1,  8000] loss: 1.592
    [1, 10000] loss: 1.513
    [1, 12000] loss: 1.478
    [2,  2000] loss: 1.387
    [2,  4000] loss: 1.368
    [2,  6000] loss: 1.346
    [2,  8000] loss: 1.324
    [2, 10000] loss: 1.300
    [2, 12000] loss: 1.255
    Finished Training

这里仅训练了2个epoch(遍历完一遍数据集称为1个epoch),下面来看看网络有没有效果。将测试图片输入到网络中,计算它的label,然后与实际的label进行比较:

In: dataiter = iter(testloader)
    images, labels = dataiter.next() # 一个batch返回4张图片
    print('实际的label: ', ' '.join(\
                '%08s'%classes[labels[j]] for j in range(4)))
    show(tv.utils.make_grid(images / 2 - 0.5)).resize((400, 100))
 
 Out:实际的label:       cat     ship     ship    plane

接着计算网络预测的分类结果:

In: # 计算图片在每个类别上的分数
    outputs = net(images)
    # 得分最高的那个类
    _, predicted = t.max(outputs.data, 1) 
    
    print('预测结果: ', ' '.join('%5s'% classes[predicted[j]] for j in range(4)))
 
Out:预测结果:    cat  ship  ship  ship

从上述结果可以看出:网络的准确率很高,针对这四张图片达到了75%的准确率。然而,这只是一部分图片,下面再来看看在整个测试集上的效果:

In: correct = 0 # 预测正确的图片数
    total = 0 # 总共的图片数
 
    # 由于测试的时候不需要求导,可以暂时关闭autograd,提高速度,节约内存
    with t.no_grad():
        for data in testloader:
            images, labels = data
            outputs = net(images)
            _, predicted = t.max(outputs, 1) 
            total += labels.size(0)
            correct += (predicted == labels).sum()
    
    print('10000张测试集中的准确率为: %f %%' % (100 * correct // total))

Out:10000张测试集中的准确率为: 52.000000 %

训练结果的准确率远比随机猜测(准确率为10%)好,证明网络确实学到了东西。

5 在GPU上训练

就像把Tensor从CPU转移到GPU一样,模型也可以类似地从CPU转移到GPU,从而加速网络训练:

In: device = t.device("cuda:0" if t.cuda.is_available() else "cpu")
    net.to(device)
    images = images.to(device)
    labels = labels.to(device)
    output = net(images)
    loss= criterion(output,labels)
    
    lossOut:tensor(0.5668, device='cuda:0', grad_fn=<NllLossBackward>)

6 小结

本文给出了一个PyTorch快速入门指南,具体包含以下内容。

  • Tensor:类似NumPy数组的数据结构,它的接口与NumPy的接口类似,可以方便地互相转换。
  • autograd:为Tensor提供自动求导功能。
  • nn:专门为神经网络设计的接口,提供了很多有用的功能,如神经网络层、损失函数、优化器等。
  • 神经网络训练:以CIFAR-10分类为例,演示了神经网络的训练流程,包括数据加载、网络搭建、模型训练及模型测试。

通过本文的学习,可以大概了解PyTorch的主要功能,并能够使用PyTorch编写简单的模型。从下一篇开始,将深入系统地讲解PyTorch的各部分知识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1986915.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

面向服务架构(SOA)介绍

在汽车电子电气架构还处于分布式时代时&#xff0c;汽车软件的开发方式主要是采用嵌入式软件进行开发&#xff0c;而随着汽车智能化程度的加深&#xff0c;更加复杂且多样的功能需求让汽车软件在复杂度上再上一层。在整车的自动驾驶方面&#xff0c;由于未来高阶自动驾驶能力的…

JavaScript constructor原型原型继承

constructor 在 JavaScript 中&#xff0c;构造函数是一种特殊的函数&#xff0c;使用 new 关键字来调用&#xff0c;用于创建对象实例。JavaScript 中的构造函数通常通过 function 关键字定义。 例如&#xff1a; function Person(name, age) {this.name name;this.age a…

C语言预处理:开启编程新境界

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ &#x1f388;&#x1f388;养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; 所属专栏&#xff1a;C语言学习 贝蒂的主页&#xff1a;Betty‘s blog 1. 预处理符号 在C语言中&#xff0c;我们可以通过一些预定义符号查看文件的…

vue中post请求返回二进制流文件下载

1 .调用接口返回的如下图所示,此时看到是一个流文件 2.不管是get请求还是post请求都需要加上 下面这行代码 responseType: "blob", 3.我们自行二次封装的axios可能会导致乱码现象,建议直接用axios调用接口请求 4.关于Excel导出 POI 响应头设置 Content-Type: applica…

Tomcat高可用集群(实例详解)

一.环境准备 虚拟机的版本&#xff1a;VMware-workstation-full-15.5.6-16341506.exe系统镜像版本&#xff1a;CentOS-6.10-x86_64-bin-DVD1.iso&#xff0c;全新安装&#xff0c;桌面版&#xff0c;可上网系统内存大小&#xff1a;1GB系统硬盘大小&#xff1a;20GB连接工具版…

《决胜B端 产品经理升级之路》 知识点总结

什么是b端产品&#xff1f; b端产品是指面向企业或组织的经营管理问题&#xff0c;旨在解决企业规模、成本、效率、品质和风控等方面的产品。这些产品主要帮助企业提高运营效率、降低成本、改善品质和控制风险等。b端产品适用于各种行业和企业类型&#xff0c;可以为企业带来深…

WordPress原创插件:disable-gutenberg禁用古腾堡编辑器和小工具

WordPress原创插件&#xff1a;disable-gutenberg禁用古腾堡编辑器和小工具 disable-gutenberg插件下载:https://download.csdn.net/download/huayula/89616495

【zlm】针对单个设备的音频的编码的设置

目录 结论 原理 测试 结论 为了防止zlm音频配置里设置成opus优先&#xff0c;在国标推流时&#xff0c;调用push时&#xff0c;默认加上codecpcma 如下 https://10.60.100.196:10443/index/api/webrtc?applive&streamtest&typepush&codecpcma 原理 测试 …

ASP.Net Core设置接口根路径的方法

使用asp.net core开发微服务项目&#xff0c;需要给每个服务设置不同的根路径&#xff0c;这样既能使用网关转发请求&#xff0c;又方便对单个服务进行测试&#xff0c;保证请求路径的统一。 设置方法需要使用中间件&#xff0c;在Program.cs添加如下代码 app.UsePathBase(&qu…

量化投资基础(四)之AR、MA、ARMA与ARIMA模型

点赞、关注&#xff0c;养成良好习惯 Life is short, U need Python 量化投资基础系列&#xff0c;不断更新中 1 引言 时间序列经典模型主要有: 自回归模型&#xff08;Auto Regressive&#xff0c;AR&#xff09;移动回归模型&#xff08;Moving Average&#xff0c;MA&…

无线领夹麦克风哪个品牌好,哪款领夹式麦克风性价比高

随着自媒体行业的蓬勃发展&#xff0c;内容创作者对高质量音频设备的需求日益增长。无线领夹麦克风&#xff0c;凭借其便携性、高音质与灵活性&#xff0c;正逐渐成为视频制作、直播互动及日常Vlog记录的标配工具。其兴起不仅反映了创作者对专业录音品质的追求&#xff0c;也体…

Web安全学习

1 计算机网络与协议 1.1 网络基础 1.1.1 计算机通信网的组成 计算机网络由通信子网和资源子网组成。 通信子网&#xff1a;负责数据的无差错和有序传递&#xff0c;其处理功能包括差错控制、流量控制、路由选择、网络互连等。 资源子网&#xff1a;是计算机通信的本地系统环境…

全球油价与棕榈油市场波动

一、油价暴跌与经济衰退担忧 周一&#xff08;8月5日&#xff09;欧盘时段&#xff0c;油价暴跌&#xff0c;两大主要基准油价均下跌逾2%&#xff0c;触及八个月低点。油价的急剧下跌主要是由于人们担心全球最大的石油消费国美国可能陷入衰退。全球疲弱的经济数据加剧了人们对燃…

绿色精益生产新潮流:环保也能成为竞争力!

在当今这个快速变化且竞争激烈的市场环境中&#xff0c;企业面临着前所未有的挑战。为了保持竞争力并实现可持续发展&#xff0c;企业必须不断探索和采用更高效、更灵活的生产管理方式。精益生产&#xff0c;作为一种源自日本丰田汽车公司的生产哲学&#xff0c;凭借其消除浪费…

Animate软件基本概念:组和文本

这里继续介绍Animate软件中的基本概念&#xff0c;组和文本两个概念。 FlashASer&#xff1a;AdobeAnimate2021软件零基础入门教程https://zhuanlan.zhihu.com/p/633230084 FlashASer&#xff1a;实用的各种Adobe Animate软件教程https://zhuanlan.zhihu.com/p/675680471 Fl…

Go - 10. * 值类型和指针类型的差异

目录 一.引言 二.接收者类型 三.代码示例 1.指针接收者 2.值接收者 3.运行结果对比 4.代码修改 5.刨根问底 四.总结 一.引言 go 语言中 func (c *Title) 和 func (c Title) 两个方法的传参差一个 * 号&#xff0c;二者的区别是一个是指针类型&#xff0c;一个是值类型…

scratch水仙花数 2024年6月scratch四级 中国电子学会图形化编程 少儿编程等级考试四级真题和答案解析

目录 scratch水仙花数 一、题目要求 1、准备工作 2、功能实现 二、案例分析 1、角色分析 2、背景分析 3、前期准备 三、解题思路 1、思路分析 2、详细过程 四、程序编写 五、考点分析 六、推荐资料 1、入门基础 2、蓝桥杯比赛 3、考级资料 4、视频课程 5、p…

深度学习入门(一):感知机与输入数据

单层感知机与多层感知机 单层感知机&#xff08;Single-Layer Perceptron&#xff09;和多层感知机&#xff08;Multi-Layer Perceptron&#xff0c;简称MLP&#xff09;是神经网络的基本形式&#xff0c;用于执行各种机器学习任务&#xff0c;包括分类和回归。它们都基于早期…

赚他10个亿...

体育竞技 & 商业价值 虽然昨天遭受了全球黑一&#xff0c;但四年一度的奥运会还是要关注的。 不知道最近大家是否有关注巴黎奥运会&#xff0c;印象深刻的项目又是哪个&#xff1f; 截止于发稿前&#xff0c;目前「金牌榜」上&#xff0c;中国以微弱优势位于第一&#xff0…

CDGA/CDGP数据治理证书:含金量高,职场竞争力提升的明智之选

在当今这个数据驱动的时代&#xff0c;数据已成为企业最宝贵的资产之一&#xff0c;而高效、合规的数据治理则是挖掘数据价值、驱动业务增长的关键。随着企业对数据治理重视程度的不断提升&#xff0c;拥有专业数据治理知识和技能的人才变得尤为稀缺。在此背景下&#xff0c;CD…