CUDA入门和网络加速学习(二)

news2025/1/15 17:38:46

0. 简介

最近作者希望系统性的去学习一下CUDA加速的相关知识,正好看到深蓝学院有这一门课程。所以这里作者以此课程来作为主线来进行记录分享,方便能给CUDA网络加速学习的萌新们去提供一定的帮助。

1. 基础矩阵乘法

下图是矩阵乘法的示意图,下面我们来看一下在CPU和GPU上是怎么表达的。
在这里插入图片描述
CPU代码示意流程:

// Matrix multiplication on the (CPU) host
void main(){
	define A, B, C
	for i= 0 to M-1 do
		for j = 0 to N-1 do
		/* compute element C(i,j) */
			for k = 0 to K-1 do
				C(i,j) <= C(i,j) + A(i,k) * B(k,j)
			end
		end
	end
}

GPU代码示意流程:

void main(){
	define A_cpu, B_cpu, C_cpuin the CPU memory
	define A_gpu, B_gpu, C_gpuin the GPU memory
	memcopyA_cputo A_gpu
	memcopyB_cputo B_gpu
	dim3 dimBlock(16, 16)
	dim3 dimGrid(N/dimBlock.x, M/dimBlock.y)
	matrixMul<<<dimGrid, dimBlock>>>(A_gpu,B_gpu,C_gpu,K)
	memcopyC_gputo C_cpu
}

__global__ void matrixMul(A_gpu,B_gpu,C_gpu,K){
	temp <= 0
	i<= blockIdx.y* blockDim.y+ threadIdx.y// Row iof matrix C
	j <= blockIdx.x* blockDim.x+ threadIdx.x// Column j of matrix C
	for k = 0 to K-1 do
	accu<= accu+ A_gpu(i,k) * B_gpu(k,j)
	end
	C_gpu(i,j) <= accu
}

在GPU中,一个线程负责计算C中的一个元素,其中A中的每一行从全局内存中载入N次,B中的每一列从全局内存中载入M次。总共的次数为2mnk的读取次数(因为在每一个k处都要从A和B中读取一次,所以要乘二),值得注意的是,可以将多次访问的数据放到共享内存中,减少重复读取的次数,并充分利用共享内存的延迟低的优势
在这里插入图片描述
所以我们可以看到共享内存可以被然被内存访问指令访问,同时拥有更高的速度访问(延迟&吞吐)。在共享内存中存在有两种申请空间方式,静态申请和动态申请,但是共享内存的大小只有几十K,过度使用共享内存会降低程序的并行性,共享内存在使用时候需要注意的是:

  • 使用__shared__关键字,同时有静态申请和动态申请两种方式;
  • 将每个线程从全局索引位置读取元素,将它存储到共享内存之中;
  • 注意数据存在着交叉,应该将边界上的数据拷贝进来;
  • 块内线程同步:__syncthreads()

2. 线程同步函数

上面讲到了__syncthreads()函数,该函数是cuda的内建函数,用于块内线程通信。__syncthreads()函数是对线程进行同步,需要保证的是需要对所有的共享内存需要同步的线程都被同步到,下面是两个示例。
在这里插入图片描述
申请共享内存会存在有两种申请方式:
静态申请

__global__ void staticReverse(int *d, int n) {
	__shared__ int s[64];
	int t = threadIdx.x;
	int tr = n-t-1;
	s[t] = d[t];
	__syncthreads();
	d[t] = s[tr];
}
staticReverse<<<1,n>>>(d_d, n);

…详情请参照古月居

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/85618.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL表的增删查改(上)

作者&#xff1a;~小明学编程 文章专栏&#xff1a;MySQL 格言&#xff1a;目之所及皆为回忆&#xff0c;心之所想皆为过往 前面给大家分享了关于数据库的一些基本的操作&#xff0c;今天分享的是数据库的核心内容&#xff0c;那就是我们常说的增删查改&#xff0c;也是我们数…

达梦数据库,备份目录冲突

问题描述 达梦数据库执行全库备份&#xff0c;BACKUP DATABASE FULL BACKUPSET ‘/data_share/data_back’; 提示备份目录冲突 解决办法 指定的目录必须为一个空目录。 下图&#xff0c;我指定的目录下有一个test文件夹&#xff0c;所以导致失败&#xff0c;把test文件删除m

[附源码]Python计算机毕业设计SSM基于WEB的网上零食销售系统(程序+LW)

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

Python OpenCV中的图像阈值处理

1 前言 上一篇介绍了用C如何对一幅图像进行阈值处理&#xff0c;本篇接着用python来做同样的事情。 图像阈值处理是很多高级算法的底层逻辑之一&#xff0c;比如在做图形检测&#xff0c;轮廓识别时&#xff0c;常常会先对图像进行阈值处理&#xff0c;然后再进行具体的检测或…

FreeRTOS使用 — 合理使用内存 “ 任务中创建任务 ”

前言 在我们学习 RTOS 的过程中&#xff0c;很多朋友都不会遇到内存不够的问题&#xff0c;因为大部分的开发板使用的芯片对学习来说&#xff0c;内存 “足够大” 。所以基本上很多人学会了基本功能&#xff0c;到了实际工作中使用&#xff0c;往往会遇到内存不够的问题&#…

pikachu靶场-10 XXE漏洞

XXE漏洞 概述 XXE -“xml external entity injection” 既"xml外部实体注入漏洞"。 概括一下就是"攻击者通过向服务器注入指定的xml实体内容,从而让服务器按照指定的配置进行执行,导致问题" 也就是说服务端接收和解析了来自用户端的xml数据,而又没有做严…

shell语法总结一(持续补充)

文章目录一、变量1、变量的命名规则2、查看变量3、删除命令4、变量的作用域4.1、局部变量4.2、全局变量4.3、环境变量5、自定义变量6、只读变量二、字符串1、单引号2、双引号&#xff08;用的多&#xff09;3、拼接字符串4、获取字符串的长度5、提取子字符串三、shell数组1、定…

必须掌握的数据库面试问题

一、为什么用自增列作为主键 1、如果我们定义了主键(PRIMARY KEY)&#xff0c;那么InnoDB会选择主键作为聚集索引。 如果没有显式定义主键&#xff0c;则InnoDB会选择第一个不包含有NULL值的唯一索引作为主键索引。 如果也没有这样的唯一索引&#xff0c;则InnoDB会选择内置…

1990-2021年全国各省产业高级化 数据

1990-2021年全国各省产业高级化数据 1、来源为&#xff1a;统计NJ、各省NJ 2、包括&#xff1a;全国31个省份 3、时间&#xff1a;1990-2021年 4、指标包括&#xff1a; 各地区经纬度、第三产业增加值、第二产业增加值、高级化水平 高级化水平第三产业增加值(亿元) / 第二…

HTTP协议【报文格式】

文章目录HTTP协议什么是HTTP协议HTTP协议格式抓包工具的使用HTTP请求URLURL的组成URL encodeHTTP请求的报文格式HTTP响应的报文格式HTTP方法GET方法POST方法POST方法与GET方法的区别请求报头HTTP响应状态码状态码的组成状态码的类别HTTP协议 什么是HTTP协议 HTTP协议即Hyper T…

m基于GA遗传优化的多因素加权竞价博弈频谱分配算法matlab仿真

目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述 假设有M个用户均为MIMO Full Duplex&#xff0c;N个频率&#xff0c;1<N<M&#xff0c;设计算法实现M个用户与N个频率的匹配。 由于在一个MIMO系统中&#xff0c;用户数量M大于可用的频谱个…

web自动化测试入门篇04——selenium+python基础方法封装

&#x1f60f;作者简介&#xff1a;博主是一位测试管理者&#xff0c;同时也是一名对外企业兼职讲师。 &#x1f4e1;主页地址&#xff1a;【Austin_zhai】 &#x1f646;目的与景愿&#xff1a;旨在于能帮助更多的测试行业人员提升软硬技能&#xff0c;分享行业相关最新信息。…

记录一次解决centos不定时触发oom的经历

前言 前一段时间&#xff0c;业务部门的系统不定时的反馈&#xff0c;系统打开不了&#xff0c;提示&#xff1a; 等技术开发同学反应过来去查看业务状态时&#xff0c;服务又恢复了&#xff0c;由于不是核心的业务&#xff0c;并且出问题差不多1分钟左右&#xff0c;没太在意…

【Vue 快速入门系列】todoList案例小总结

文章目录一、案例效果二、项目介绍三、版本更新迭代末、项目素材1.css样式2.html一、案例效果 如下图所示&#xff0c;制作一个这样的记事本&#xff0c;可以使用这个记事本进行数据的存储以及管理&#xff0c;样式是天禹老师写好的我们直接使用就好了&#xff0c;主要在这个小…

[UE][UE5]零基础学习-学习记录1-UE5安装与基本使用方法

[UE5]学习1-UE5安装与基本使用方法写在前面01.作者碎碎念2.UE5安装方法01.UE5需要的电脑配置02.UE5安装方法001.Epic下载002.下载安装UE503.基本使用方法001.创建项目打开现有的项目&#xff1a;002.文件目录结构003.用户界面介绍1).3D画面视窗2).菜单栏3).内容浏览器4).属性面…

关于CM3/CM4位带操作的总结

1.位带操作定义 STM32的存储器映射中的内存区域和外设区域有一段地址空间&#xff08;都是最低1MB&#xff09;是位带区域&#xff0c;跟这个区域相对应的有一段位带别名区域&#xff0c;位带别名区的大小是位带区的32倍&#xff0c;位带别名区的每一个地址都对应位带区域的一个…

C. Hamiltonian Wall edu139 div2

Problem - C - Codeforces 题意是给你一个2*n的网格&#xff0c;让你一笔把所有的B涂满&#xff0c;并且只能涂一次&#xff0c;问你是否可行 分析&#xff1a; 其实分析的时候我想到了转移。每一次的结果是由上一次转移而来&#xff0c;所以如果前后矛盾的话&#xff0c;即…

人工智能:智能语音技术应用场景介绍

❤️作者主页&#xff1a;IT技术分享社区 ❤️作者简介&#xff1a;大家好,我是IT技术分享社区的博主&#xff0c;从事C#、Java开发九年&#xff0c;对数据库、C#、Java、前端、运维、电脑技巧等经验丰富。 ❤️个人荣誉&#xff1a; 数据库领域优质创作者&#x1f3c6;&#x…

虹科QA | SWCF2022 12月6日演讲笔记:C波段卫星与5G之间的干扰排查及解决方案

虹科2022年度SWCF卫星通信与仿真测试研讨会正在进行中。昨日精彩演讲&#xff1a;C波段卫星与5G之间的干扰排查及解决方案&#xff0c;感谢大家的观看与支持&#xff01; 昨晚的直播间收到一些粉丝的技术问题&#xff0c;虹小科汇总了热点问题并请讲师详细解答&#xff0c;在此…

目前UI设计薪资待遇怎么样?工作好找吗?

UI设计的火爆&#xff0c;导致有很多年轻人都愿意投身于这个行业。有很多年轻的朋友都在问&#xff0c;UI设计的薪资待遇怎么样&#xff1f;工作难找吗&#xff1f;本文统一解答一下。 1、UI设计的薪资水平 UI设计的薪资待遇一直很好&#xff0c;学习UI设计之前没有任何相关基础…