numba 入门示例

news2025/1/11 17:03:03

一维向量求和:  C = A + B

在有nv 近几年gpu的ubuntu 机器上,

环境预备:

conda create -name numba_cuda_python3.10 python=3.10
conda activate numba_cuda_python3.10

conda install numba
conda install cudatoolkit
conda install -c nvidia cuda-python
	or   $ conda install nvidia::cuda-python

示例1:源代码

C[i] = A[i] + B[i]

hello_numba_cpu_01.py

import time
import numpy as np
from numba import jit
from numba import njit

def f_py(a, b, c, N):
    for i in range(N):
        c[i] = a[i] + b[i]

@jit
def f_bin(a, b, c, N):
    for i in range(N):
        c[i] = a[i] + b[i]

@njit
def f_pure_bin(a, b, c, N):
    for i in range(N):
        c[i] = a[i] + b[i]


if __name__ == "__main__":
    np.random.seed(1234)
    N = 1024*1024*128
    a_h = np.random.random(N)
    b_h = np.random.random(N)
    c_h1 = np.random.random(N)
    c_h2 = np.random.random(N)
    c_h3 = np.random.random(N)
    f_bin(a_h, b_h, c_h1, N)
    print('a_h  =', a_h)
    print('b_h  =', b_h)
    print('c_h1 =', c_h1)
    #c_h = np.random.random(N)
    #print('c_h =', c_h)
    f_pure_bin(a_h, b_h, c_h2, N)
    print('c_h2 =', c_h2)

    s1 = time.time()
    f_py(a_h, b_h, c_h1, N)
    e1 = time.time()
    print('time   py:',e1 - s1)

    s1 = time.time()
    f_bin(a_h, b_h, c_h2, N)
    e1 = time.time()
    print('time  jit:',e1 - s1)

    s1 = time.time()
    f_pure_bin(a_h, b_h, c_h3, N)
    e1 = time.time()
    print('time njit:',e1 - s1)

    print('c_h1 =', c_h1)
    print('c_h2 =', c_h2)
    print('c_h3 =', c_h3)

运行时间,纯python是26s,jit是0.23s:

 

示例2:源代码

C[i] = A[i] + B[i]

hello_numba_gpu_02.py

import time
import numpy as np
from numba import jit
from numba import njit
from numba import cuda

def f_py(a, b, c, N):
    for i in range(N):
        c[i] = a[i] + b[i]

@jit
def f_bin(a, b, c, N):
    for i in range(N):
        c[i] = a[i] + b[i]

@njit
def f_pure_bin(a, b, c, N):
    for i in range(N):
        c[i] = a[i] + b[i]

@cuda.jit
def f_gpu(a, b, c):
    # like threadIdx.x + (blockIdx.x * blockDim.x)
    tid = cuda.grid(1)
    size = len(c)

    if tid < size:
        c[tid] = a[tid] + b[tid]


if __name__ == "__main__":
    np.random.seed(1234)
#    M = np.random.random([int(4e3)] * 2)
    N = 1024*1024*128
    a_d = cuda.to_device(np.random.random(N))
    b_d = cuda.to_device(np.random.random(N))
    c_d = cuda.device_array_like(a_d)
    print('a_d =', a_d.copy_to_host())
    print('b_d =', b_d.copy_to_host())
    print('c_d =', c_d.copy_to_host())

    a_h = a_d.copy_to_host()
    b_h = b_d.copy_to_host()
    c_h = c_d.copy_to_host()
    f_bin(a_h, b_h, c_h, N)
    print('a_h =', a_h)
    print('b_h =', b_h)
    print('c_h =', c_h)
    c_h = np.random.random(N)
    #print('c_h =', c_h)
    f_pure_bin(a_h, b_h, c_h, N)
    print('c_h =', c_h)

    f_gpu.forall(len(a_d))(a_d, b_d, c_d)
    print('c_d =', c_d.copy_to_host())

    # Enough threads per block for several warps per block
    nthreads = 256
    # Enough blocks to cover the entire vector depending on its length
    nblocks = (len(a_d) // nthreads) + 1
    f_gpu[nblocks, nthreads](a_d, b_d, c_d)
    print('c_d =', c_d.copy_to_host())

    s1 = time.time()
    f_py(a_h, b_h, c_h, N)
    e1 = time.time()
    print('time   py:',e1 - s1)

    s1 = time.time()
    f_bin(a_h, b_h, c_h, N)
    e1 = time.time()
    print('time  jit:',e1 - s1)

    s1 = time.time()
    f_pure_bin(a_h, b_h, c_h, N)
    e1 = time.time()
    print('time njit:',e1 - s1)

    s1 = time.time()
    f_gpu.forall(len(a_d))(a_d, b_d, c_d)
    e1 = time.time()
    print('time gpu1:',e1 - s1)

    s1 = time.time()
    f_gpu[nblocks, nthreads](a_d, b_d, c_d)
    e1 = time.time()
    print('time gpu2:',e1 - s1)

gpu的加速非常明显,N万倍:

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/877976.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java多线程编程中的线程控制:挂起、停止和恢复

Java 线程控制&#xff1a;挂起、停止和恢复 在多线程编程中&#xff0c;对线程进行控制是非常重要的&#xff0c;可以通过挂起、停止和恢复线程来实现对线程的管理。本文将介绍如何使用Java提供的方法对线程进行挂起、停止和恢复操作&#xff0c;以及需要注意的安全性和替代方…

最强自动化测试框架Playwright (27)-跟踪查看器

Playwright Trace Viewer 是一个 GUI 工具&#xff0c;可帮助您在脚本运行后探索记录的 Playwright 跟踪。可以本地打开&#xff0c;也可以在trace.playwright.dev.打开&#xff0c; 录制跟踪文件 使用context.tracing.start进行录制&#xff0c;使用stop方法保存录制文件 b…

【mysql算法】在数据库中储存树形结构

【mysql&算法】在数据库中储存树形结构 【一】常见的使用树的场景【二】方式一&#xff1a;邻接表&#xff08;1&#xff09;方法介绍&#xff08;2&#xff09;优点&#xff08;3&#xff09;缺点&#xff08;4&#xff09;实现案例&#xff1a;生成菜单树结构 【三】方式…

盒子阴影效果与环绕阴影

box-shadow 在前端样式里面&#xff0c;最常见的一中效果之一就是阴影&#xff0c;好的阴影可以瞬间给人一种高端的用户体验&#xff0c;今天简单总结下这个样式的语法与使用方法。 语法 box-shadow的语法其实是比较简单好记的&#xff0c;我们按照最全面的写法来看 x轴偏移…

社区团购商城拼团秒杀接龙分销团长小程序开源版开发

社区团购商城拼团秒杀接龙分销团长小程序开源版开发 功能介绍&#xff1a; 商品管理&#xff1a;增加商品-商品列表-商品分类-商品单/多规格-商品标签 订单管理&#xff1a;订单列表-订单挑选-订单导出-订单打印-批量发货-商品评价 会员管理&#xff1a;会员列表-会员挑选-会员…

1. 基于UDP的TFTP文件传输上传下载完整版本

1&#xff09;tftp协议概述 简单文件传输协议&#xff0c;适用于在网络上进行文件传输的一套标准协议&#xff0c;使用UDP传输 特点&#xff1a; 是应用层协议 基于UDP协议实现 数据传输模式 octet&#xff1a;二进制模式&#xff08;常用&#xff09; mail&#xff1a;…

jenkins 安装nodejs 14

参考&#xff1a; jenkins容器安装nodejs-前端问答-PHP中文网

微服务08-多级缓存

1.什么是多级缓存 传统的缓存策略一般是请求到达Tomcat后,先查询Redis,如果未命中则查询数据库,如图: 存在下面的问题: •请求要经过Tomcat处理,Tomcat的性能成为整个系统的瓶颈 •Redis缓存失效时,会对数据库产生冲击 多级缓存就是充分利用请求处理的每个环节,分…

VB6查表法编解Modbus RTU协议CRC16校验码

Modbus RTU协议CRC16编解码用VB6写起来比较啰嗦&#xff0c;需要做一些简单处理。下面就查表法&#xff0c;贴上源代码&#xff0c;并做一些简要说明。 源程序&#xff0c;对照上面的图看更方便。 Private Sub Command2_Click() Dim I As Integer, J As Integer Dim CRCHi As …

部署lawyer-llama

Git - Downloading PackageGit - Downloading PackageGit - Downloading Package 下载git&#xff0c;wget需要下载一下 &#xff08;GNU Wget 1.21.4 for Windows&#xff09;&#xff0c; Windows中git bash完全可以替代原生的cmd&#xff0c;但是对于git bash会有一些Linu…

HTTP之cookie基础学习

目录 Cookie 什么是Cookie Cookie分类 Cookie版本 Cookie工作原理 Cookie详解 创建cookie cookie编码 cookie过期时间选项 Cookie流程 Cookie使用 会话管理 个性化信息 记录用户的行为 Cookie属性 domain选项 path选项 secure选项 cookie…

【日常积累】RPM包依赖下载及私有yum仓库搭建

概述 某些时候&#xff0c;我们需要下载某个RPM包依赖的依赖。如某些内网环境&#xff0c;就需要自行准备rpm包。可以通过能上互联网的服务器进行相应的rpm包下载&#xff0c;然后在拷贝到相应的服务器安装&#xff0c;或者搭建自己的内容rpm包仓库。 查看*.rpm 包依赖&#…

修改el-tooltip组件的背景色

修改el-tooltip组件的背景色 // 提示气泡的背景色 .el-tooltip__popper{background-color: pink !important; } .popper__arrow {border-top-color: pink !important; } .popper__arrow:after {border-top-color: pink !important; }

基于通达信量化接口会实现自动交易吗?(股票自动下单接口)

通常情况下&#xff0c;在开发股票交易接口时&#xff0c;会包含多个接口功能的研发&#xff0c;因此通达信量化接口可以实现自动化交易。即通过通达信的API接口&#xff08;股票自动下单接口&#xff09;&#xff0c;可以实现与交易所的连接和交互&#xff0c;包括下单、撤单、…

Vue3 引用第三方Swiper内容触摸滑动简单应用

去官网查看更多教程→&#xff1a;Swiper官网 → 点击教程在vue中使用Swiper→ 在Vue中使用Swiper cd 到项目 安装Swiper&#xff1a; cnpm install --save swiper 安装指定版本 cnpm install --save swiper8.1.6 9.4.1 10.1.0…

【CI/CD】Rancher K8s

Rancher & K8s Rancher 和 K8s 的关系是什么&#xff1f;K8s 全称为 Kubernetes&#xff0c;它是一个开源的&#xff0c;用于管理云平台中多个主机上的容器化的应用。而 Rancher 是一个完全开源的企业级多集群 Kubernetes 管理平台&#xff0c;实现了 Kubernetes 集群在混合…

OpenCV图像处理——边缘检测

目录 原理Sobel检测算子方法应用 Laplacian算子Canny边缘检测原理 原理 Sobel检测算子 方法 应用 sobel_x_or_ycv.Sobel(src,ddepth,dx,dy,dst,ksize,scale,delta,borderType)import numpy as np import cv2 as cv import matplotlib.pyplot as pltimgcv.imread(./汪学长的随堂…

Python学习 -- 常用函数与实例详解

在Python编程中&#xff0c;数据转换是一项关键任务&#xff0c;它允许我们在不同数据类型之间自由流动&#xff0c;从而提高代码的灵活性和效率。本篇博客将深入探讨常用的数据转换函数&#xff0c;并通过实际案例为你展示如何巧妙地在不同数据类型之间转换。 数据类型转换函…

红日ATT&CK VulnStack靶场(三)

网络拓扑 web阶段 1.扫描DMZ机器端口 2.进行ssh和3306爆破无果后访问web服务 3.已知目标是Joomla&#xff0c;扫描目录 4.有用的目录分别为1.php 5.configuration.php~中泄露了数据库密码 6.administrator为后台登录地址 7.直接连接mysql 8.找到管理员表&#xff0c;密码加密了…

日常BUG—— SpringBoot项目DEBUG模式启动慢、卡死。

&#x1f61c;作 者&#xff1a;是江迪呀✒️本文关键词&#xff1a;日常BUG、BUG、问题分析☀️每日 一言 &#xff1a;存在错误说明你在进步&#xff01; 一、问题描述 我们调试程序时&#xff0c;需要使用DEBUG模式启动SpringBoot项目&#xff0c; 有时候会发…