我的第一个CUDA程序

我的第一个CUDA程序

news2025/7/5 9:58:56

MatAdd算法

实现两个矩阵对应元素相加

MatAdd算法的GPU实现

CPU端为输入矩阵A和B、输出矩阵C分配空间，并进行初始化
CPU端分配设备端内存，并将A和B传输到GPU上
定义数据和线程的映射关系，并确定线程的开启数量和组织方式

每个线程负责输出矩阵C的一个元素的计算，全局ID为（i，j）的线程计算索引为（i，j）的矩阵元素
当矩阵规模为width*height时，共开启width * height个线程
每个block包含256个线程，采用（16,16）的组织形式

编写计算kernel，完成计算任务
CPU端将计算结果从Device内存拷贝到Host内存

MatAdd算法的GPU实现

内存分配数据传输

开启线程启动kernel 结果返回

GPU kernel

CUDA程序编译

CUDA程序性能测试

使用 CUDA GPU Timers 实际要循环100次求平均值

使用 CPU Timers 实际要循环100次求平均值

MatAdd程序之变一：每个线程处理4个元素

CPU端为输入矩阵A和B、输出矩阵C分配空间，并进行初始化
CPU端分配设备端内存，并将A和B传输到GPU上
定义数据和线程的映射关系，并确定线程的开启数量和组织方式

每个线程负责输出矩阵C的四个元素的计算，全局ID为（i，j）的线程计算索引为（i，4*j~4*j+3）的矩阵元素
当矩阵规模为width*height时，共开启width/4 * height个线程
每个block包含256个线程，采用（16,16）的组织形式

编写计算kernel，完成计算任务
CPU端将计算结果从Device内存拷贝到Host内存

MatAdd程序之变二

矩阵A、B、C都为NxN的方阵，A和B为已知矩阵，C[i][j] = A[i][j] + B[j][i]。

CPU端为输入矩阵A和B、输出矩阵C分配空间，并进行初始化
CPU端分配设备端内存，并将A和B传输到GPU上
定义数据和线程的映射关系，并确定线程的开启数量和组织方式

每个线程负责输出矩阵C的一个元素的计算，全局ID为（i，j）的线程计算索引为（i，j）的矩阵元素
当矩阵规模为width*height时，共开启width * height个线程
每个block包含256个线程，采用（16,16）的组织形式

编写计算kernel，完成计算任务
CPU端将计算结果从Device内存拷贝到Host内存

MatAdd程序之变三

矩阵A、B都为MxN的矩阵，矩阵C为(M/2)*(N/2)的矩阵， A和B为已知矩阵，C[i][j] = A[2*i][2*j] *B[2*i][2*j] + A[2*i][2*j+1] *B[2*i][2*j+1] + A[2*i+1][2*j] *B[2*i+1][2*j] + A[2*i+1][2*j +1] *B[2*i+1][2*j+1] 。 CPU端为输入矩阵A和B、输出矩阵C分配空间，并进行初始化
CPU端分配设备端内存，并将A和B传输到GPU上
定义数据和线程的映射关系，并确定线程的开启数量和组织方式

每个线程负责输出矩阵C的一个元素的计算，全局ID为（i，j）的线程计算索引为（i，j）的矩阵元素
当矩阵规模为(M/2)*(N/2)时，共开启(M/2)*(N/2)个线程,每个线程对应A和B的四个元素
每个block包含256个线程，采用（16,16）的组织形式

编写计算kernel，完成计算任务
CPU端将计算结果从Device内存拷贝到Host内存

异构计算整成为当前计算领域的重点方向
GPGPU是异构计算的主要形式
GPGPU是一款大规模细粒度并行处理器，并行思维是进行GPGPU编程的重要前提
NVIDIA是当前GPGPU领域当之无愧的霸主
GPGPU编程的重点是定义明确的线程和数据间的映射

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2038782.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

EasyX自学笔记3（割草游戏1）

EasyX自学笔记3（割草游戏1）

割草游戏，有玩家（上下左右控制移动）周围围绕子弹，敌人（随机刷新）向玩家靠近，子弹打死敌人，玩家与敌人触碰游戏结束。分析需求 1.有玩家、敌人、子弹三种对象 2.玩家上下左右控制…

阅读更多...

Spring MVC数据绑定和响应学习笔记

Spring MVC数据绑定和响应学习笔记

学习视频:12001 数据绑定_哔哩哔哩_bilibili 目录 1.数据绑定简单数据绑定默认类型数据绑定简单数据类型绑定的概念参数别名的设置 PathVariable注解的两个常用属性 POJO绑定自定义类型转换器 xml方式注解方式数组绑定集合绑定复杂POJO绑定属性为对象类…

阅读更多...

力扣面试经典算法150题：最长公共前缀

力扣面试经典算法150题：最长公共前缀

最长公共前缀今天的题目是力扣面试经典150题中的数组的简单题: 最长公共前缀题目链接：https://leetcode.cn/problems/longest-common-prefix/description/?envTypestudy-plan-v2&envIdtop-interview-150 题目描述编写一个函数来查找字符串数组中的最长公…

阅读更多...

修改OpenSSH服务版本号

修改OpenSSH服务版本号

前言这几年信息安全要求很高，奈何口号响亮掩盖不了我们技术基础依然很低的事实，加上风口烧钱和政绩工程等因素，于是就诞生了一些乱象，其中一个就是安全扫描胡乱标记，这里面的典型就是OpenSSH的漏洞扫描报告。比如&…

阅读更多...

人工智能小车——智能车臂控制平台

人工智能小车——智能车臂控制平台

随着机器人技术的不断发展 ，各行业对机器人应用人才的需求也随之增加，培养符合行业发展需求的机器人技术专业人才成为了高校的重要任务。基本介绍智能车臂控制平台（ZI-AutoRB）是一套用以机器人控制技术学习和研究的软硬件系统。…

阅读更多...

米联客-FPGA程序设计Verilog语法入门篇连载-10 Verilog语法_一般设计规范

米联客-FPGA程序设计Verilog语法入门篇连载-10 Verilog语法_一般设计规范

软件版本：无操作系统：WIN10 64bit 硬件平台：适用所有系列FPGA 板卡获取平台：https://milianke.tmall.com/ 登录“米联客”FPGA社区 http://www.uisrc.com 视频课程、答疑解惑！ 1概述本小节讲解Verilog语法的一般…

阅读更多...

照片回收利器：最新数据恢复软件推荐

照片回收利器：最新数据恢复软件推荐

照片回收利器：最新数据恢复软件推荐在今天的数字化时代，我们将大量珍贵的照片和个人数据存储在电脑、手机和其他设备中。然而，由于各种原因，这些数据可能会意外删除或丢失，这对我们来说是一个巨大的损失。因此&#…

阅读更多...

【Redis】List类型

【Redis】List类型

目录 List列表命令 LPUSH LPUSHX RPUSH RPUSHX LRANGE LPOP RPOP LINDEX LINSERT LLEN lrem ltrim lset 阻塞版本命令 BLPOP BRPOP 内部编码使用场景消息队列分频道的消息队列作为栈或者队列 List列表列表类型是⽤来存储多个有序的字符串&…

阅读更多...

5 大场景上手通义灵码企业知识库 RAG

5 大场景上手通义灵码企业知识库 RAG

大家好，我是通义灵码，你的智能编程助手！最近我又升级啦，智能问答功能全面升级至 Qwen2，新版本在各个方面的性能和准确性都得到了显著提升。此外，行间代码补全效果也全面优化，多种编程语言生成性…

阅读更多...

python-小理和他的猫（赛氪OJ）

python-小理和他的猫（赛氪OJ）

[题目描述] 今天小理又要为他的猫小咪准备好吃的猫粮了，你愿意帮助一下他们么？ 小理现在拥有的金钱数为 N ，有 M 种小咪喜欢的猫粮从左到右排列，已知每种猫粮的价格 ai ，他的购买规则如下： 1.必须按照从左…

阅读更多...

数据结构与算法--图的存储与遍历

数据结构与算法--图的存储与遍历

文章目录回顾提要图的定义和表示图的表示完全图和子图顶点的度路径与回路连通图邻接矩阵权和网邻接表示例深度优先遍历 (DFS)广度优先遍历 (BFS)广度优先遍历过程总结邻接矩阵存储结构邻接表存储结构回顾线索化二叉树：在某种次序遍历过程中创建线索&#xff…

阅读更多...

简单数学运算（c语言）

简单数学运算（c语言）

1.描述 //牛牛最近学会了一些简单的数学运算，例如 //∑i1 ∑i 1 //请你帮他模拟一下这个运算。 （即 1 2 3.... n - 1 n) //输入描述： //输入仅一个正整数 n //输出描述： //请你计算 //∑i1n 2.就是递归函数方法一&#xf…

阅读更多...

40.【C语言】指针（重难点）（E）

40.【C语言】指针（重难点）（E）

目录 13.指针的使用和传址调用 14.数组名的理解 *数组名就是数组首元素的地址 *两个例外 *使用指针访问数组 *一维数组的传参本质往期推荐承接上篇39.【C语言】指针（重难点）（D） 13. 指针的使用和传址调用见29.【C语言】函数系…

阅读更多...

Linux系统编程（9）

Linux系统编程（9）

一、wait函数 1.wait函数 #include <sys/wait.h> pid_t wait(int *status);wait函数有两个作用： 1.获取子进程的退出状态当父进程要获取子进程的退出状态时，子进程里需要使用exit函数（exit（退出状态值）退出…

阅读更多...

10：【stm32】USART与串口通信一：USART(上)

10：【stm32】USART与串口通信一：USART(上)

USART（上） 1、串口通信1.1、简介1.2、数据帧1.2.1、简介1.2.2、校验规则1.2.3、停止位的长度 1.3、异步通信的波特率1.3.1、同步通信1.3.2、异步通信1.3.3、硬件流控 2、USART2.1、简介2.2、工作的原理2.3、相关寄存器 3、标准库编程3.1、编程接口USART_…

阅读更多...

day16-测试自动化之selenium的PO模式

day16-测试自动化之selenium的PO模式

一、PO模式介绍 PO（Page Object）模式是一种在自动化测试中常用的设计模式，将页面的每个元素封装成一个对象，通过操作对象来进行页面的交互。一般分为六个版本，现在大部分企业都用的V4版本，三层结构…

阅读更多...

redis面试（十六）公平锁释放和排队加锁

redis面试（十六）公平锁释放和排队加锁

锁释放 RedissonFairLock.unlockInnerAsync()方法这和加锁的逻辑没有太大区别也就是说在客户端A他释放锁的时候，也会走while true的脚本逻辑，看一下有序集合中的元素的timeout时间如果小于了当前时间，就认为他的那个排队就过期了&#xf…

阅读更多...

Spring自动注册-＜bean＞标签和属性解析

Spring自动注册-＜bean＞标签和属性解析

xml文件中最常见也最核心的就是<bean>,<Import>,<beans>,<alias>标签,关于它们的解析主要是BeanDefinitionParserDelegate类中.<bean>标签的解析最为复杂和重要. <bean>标签 processBeanDefinition(ele, delegate)方法中,主要是是对…

阅读更多...

数据库管理-Redis

数据库管理-Redis

数据库管理-Redis 一、关系型数据库和非关系型数据库1、关系型数据库（Relational Database Management System, RDBMS）：2、非关系型数据库（NoSQL Database Management System）： 二、redis简述 redis是把数据…

阅读更多...

苦WPS云盘已久矣

苦WPS云盘已久矣

主要因为软件更新后，设置位置都会跑到其他地方打开wps客户端后，点击电脑底部任务栏的云朵图标。 2. 找到存储位置后，点击“更换位置”。来自https://www.wps.cn/mlearning/question/detail/id/333165.html

阅读更多...

推荐文章

最新文章