Shared memory bank conflicts

news2024/9/27 12:11:53

共享内存和bank:

在CUDA架构中,共享内存是一个非常快速的内存类型,它位于每个线程块内部并为该线程块内的所有线程提供服务。为了实现高吞吐量的访问,共享内存被划分为多个独立的存储区域,称为“banks”。每个bank可以在单个时钟周期内独立地服务一个线程。

Shared memory 共享内存

「CUDA ON ARM」如何避免共享内存 Bank conflict - 知乎 (zhihu.com)icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/538335829在同一个线程块(thread block)中的线程共享一块 Shared memory。Shared memory 被分割为 32 个逻辑块(banks),不同的逻辑块可以被多个线程同时访问。连续的 32-bit 访存被分配到连续的逻辑块(bank)。

例如,声明共享内存 __shared__ float sData[32][32],那么 sData[0][0]sData[1][0]...sData[31][0] 位于 Bank[0]sData[31][0]sData[31][1]...sData[31][31] 位于 Bank[31]

Bank conflict 初探

以下两种情况不会发生 Bank conflict:

  • half-warp/warp 内所有线程访问不同 banks;
  • half-warp/warp 内所有线程读取同一地址(multicast)。

因此,我们的设计原则应当是使得同一个 warp 中的不同线程访问互不相同的 bank 中的数据,使得数据的访问并行执行,而不是串行执行。

如果同一个 warp 中的不同线程将不可避免地访问同一个 bank 中的数据,我们可以使用 Memory Padding 优化 bank 的分割,使得同一个 warp 中的线程访问不同 bank 中的数据。

 

warp:

为提高运行效率,内存块(thread block)中的线程将会按照线程 ID,以 32 个为一组,分割为若干个 warp,每个 warp 将被分配到 32 个 core 上运行。half-warp 用于指代一个 warp 的前半段或者后半段。

共享内存的地址映射方式

GPU shared local memory bank 冲突 - 知乎 (zhihu.com)icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/668474624在共享内存(SLM)中,连续的 4-bytes 被分配到连续的 32个bank中(每一个 bank 存放一个 32-bits 的数据),这就像电影院的座位一样:一列的座位就相当于一个bank,所以每行有32个座位,在每个座位上可以“坐”一个32-bits的数据(或者多个小于32-bits的数据,如4个 char 型的数据,2个 short型的数据, 1 个 Uint32 数据);

正常情况下,我们是按照先坐完一行再坐下一行的顺序来坐座位的,在shared memory中地址映射的方式也是这样的。下图中内存地址是按照箭头的方向依次映射的:

上图中蓝色块 0~31 为 bank 编号。如果你申请一个 int类型 共享内存数组 ,你的每个元素所对应的 bank 编号就是地址偏移量 (也就是数组下标) 对32取余所得的结果,比如大小为1024的一维数组myShMem:

  • myShMem[4]: 对应的bank id为#4 (相应的行偏移量为0)
  • myShMem[31]: 对应的bank id为#31 (相应的行偏移量为0)
  • myShMem[50]: 对应的bank id为#18 (相应的行偏移量为1)
  • myShMem[128]: 对应的bank id为#0 (相应的行偏移量为4)
  • myShMem[178]: 对应的bank id为#18 (相应的行偏移量为5)

Bank id = x % 32 行偏移: x / 32

同时产生 Bank conflict 主要有三种情况: 1)线程访问 bank 的方式产生的冲突,这个比较常见,2)数据类型产生的 bank 冲突,3)访问步长与bank冲突

1. 线程访问 bank 的方式产生的冲突

几种典型的 bank 访问的形式。

1)访问步长(stride)为1,线性访问方式,将每个warp中的线程ID与每个bank的ID一一对应,因此不会产生bank冲突。

2) 交叉的访问,每个线程并没有与bank一一对应,但每个线程都会对应一个唯一的bank,所以也不会产生bank冲突。 

3)访问步长(stride)为2,线性访问方式,造成了线程0与线程16都访问到了bank 0,线程1与线程17都访问到了bank 2...,于是就造成了2路的bank冲突。

 4)8路的bank冲突

5) GPU 广播机制

所有的线程都访问了同一个bank,貌似产生了32路的bank冲突,但是由于广播(broadcast)机制, 当一个warp中的所有线程访问一个bank中的同一个字(word)地址时,就会向所有的线程广播这个字(word)),这种情况并不会发生bank冲突。

6) GPU 多播机制

多播机制(multicast)——当一个warp中的几个线程访问同一个bank中的相同字地址时,会将该字广播给这些线程。这个特性得去查询当前的 GPU 是否支持这个特性。

2. 数据类型产生的 bank 冲突

当每个线程访问一个32-bits大小的数据类型的数据(如int,float)时,不会发生bank冲突。

extern __shared__ int shrd[];
foo = shrd[baseIndex + threadIdx.x]

但是如果每个线程访问一个字节(8-bits)的数据时,会不会发生bank冲突呢?

很明显这种情况会发生bank冲突的,因为四个线程访问了同一个bank,造成了四路bank冲突。同理,如果是short类型(16-bits)也会发生bank冲突,会产生两路的bank冲突,下面是这种情况的两个例子:

1)四路bank冲突

2)二路bank冲突

 

3. 访问步长与bank冲突

通常这样来访问数组:每个线程根据线程编号 tid 与 s 的乘积来访问数组的32-bits字(word):

extern __shared__ float shared[];
float data = shared[baseIndex + s * tid];

按照上面的方式, s 是访问的步长(offset),tid 为 wrap 中的线程号。

1) 那么当 s*tid 是bank的数量 (即32) 的整数倍时 ,(baseIndex + s * tid )% 32 = baseIndex 产生 Bank conflict。

2) 仔细思考你会发现,只有warp的大小(即32)小于等于 32/d 时,才不会有bank冲突,而只有当d等于1时才能满足这个条件。要想让32和s的最大公约数d为1,s必须为奇数。于是,这里有一个显而易见的结论:当访问步长s为奇数时,就不会发生bank冲突。

 NOTE: 不同warp中的线程之间不存在什么bank冲突。--> 原因是,不同 wrap 中线程的 shared local memory 不是同一个 。

CUDA:共享内存总结 - 知乎 (zhihu.com)icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/388823838

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2089409.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

创新微MinewSemi推出基于Nordic nRF54系列芯片 SoC 低功耗蓝牙5.4模组

在物联网技术飞速发展的今天,创新微MinewSemi隆重推出基于Nordic最新nRF54系列芯片SoC的ME54BS01和ME54BS02全新低功耗蓝牙5.4模组。这两款模组的问世,标志着我们在推动物联网设备智能化、高效化道路上的迈出了坚实的一步,展示了对未来技术的…

回归预测|基于卷积神经网络-鲸鱼优化-最小二乘支持向量机的数据回归预测Matlab程序 CNN-WOA-LSSVM

回归预测|基于卷积神经网络-鲸鱼优化-最小二乘支持向量机的数据回归预测Matlab程序 CNN-WOA-LSSVM 文章目录 一、基本原理1. 数据预处理2. 特征提取(CNN)3. 参数优化(WOA)4. 模型训练(LSSVM)5. 模型评估和优…

World of Warcraft [CLASSIC][80][Grandel] Mount with 310% speed

310%速度的坐骑【被感染的始祖幼龙】 永恒之眼(3个) 纳克萨玛斯(9个) 10人副本, 白马 (DPS N)黑马(DPS N)绿马(T N DPS)红马(T …

诚信为金:揭秘好征信的六大黄金标准,并实践守护好它的五大秘籍

什么是好征信,怎么守护它 咱们平时总听人说“征信”,“征信”到底是个什么东西,但很少人能透彻的了解它。它是一个有点神秘但又挺重要的东西,简单说,它就是咱在金融界的一张“身份证”,记录着咱们的信用表…

【C++ Qt day3】

2、设计一个Per类,类中包含私有成员:姓名、年龄、指针成员身高、体重,再设计一个Stu类,类中包含私有成员:成绩、Per类对象p1,设计这两个类的构造函数、析构函数和拷贝构造函数。

【2024 CCF编程能力等级认证(GESP)C++ 】一级大纲

目录 1. 背景2. 考核知识块3. 考核内容3.1 计算机基础知识3.2 集成开发环境3.3 结构化程序设计3.4 程序的基本语句3.5 程序的基本概念3.6 基本运算3.7 基本数据类型4. 考核目标5. 题型分布6. 考试时长7. 认证时间与报名8. 政策与福利9. GESP一级认证形式 1. 背景 官网&#xff…

13.DataLoader 的使用

DataLoader 的使用 dataset:告诉程序中数据集的位置,数据集中索引,数据集中有多少数据(想象成一叠扑克牌)dataloader:加载器,将数据加载到神经网络中,每次从dataset中取数据&#x…

JAVA中的线程池说明二

目录 1.引入 2.参数解释 3.标准库中提供的四个拒绝策略 1.引入 java.util.concurrent 这个包里面放的很多类都是和并发编程(多线程编程)密切相关,这个包简称JUC;今天我们主要来了解Java线程池的相关知识。 2.参数解释 在这里,我们主要讲…

无痛除毛,告别异味,希喂、有哈、小米宠物空气净化器真实测评

养宠在年轻人生活中逐渐成为一种新的潮流,越来越多的人加入到铲屎官的队伍。其中,养宠最多的品类非猫咪莫属,凭借自身可爱的外表收获人们的芳心。同时猫咪也是宠物中掉毛最严重的,漫天的浮毛在家中不断飘散,带来无尽的…

Java——断点调试

一、断点调试简介 Java的断点调试是程序开发中非常重要的一个技术,它允许开发者在程序执行时暂停执行,以便检查变量的状态、观察程序的流程、并定位错误。 1、断点(Breakpoint): 在代码的某一行指定的暂停点。当程序…

个人旅游网(1)——数据库表详解

文章目录 一、数据库表详情1.1 tab_category 表1.2、tab_route 表1.3、tab_route_img 表1.4、tab_user 表1.5、tab_favorite 表1.6、tab_address 表1.7、tab_seller 表1.8、tab_order 表1.9、tab_orderItem 表 一、数据库表详情 该网站是一个旅游网站,为具有出游的需…

C程序设计(潭浩强教授版)精选程序题

目录 (一)顺序程序设计部分 (二)选择程序设计部分 (三)循环程序设计部分 (四)数组处理数据部分 (一)顺序程序设计部分 1. 使用getchar读入两个字符&#xf…

对比 PDAF、CDAF 和 LAAF 自动对焦技术

深入解析相位检测自动对焦(PDAF) 相位检测自动对焦(PDAF,Phase Detection Auto Focus)是一种高效的自动对焦技术,广泛应用于现代数码相机、无反相机和智能手机摄像头中。为了更好地理解 PDAF,我…

C++11中的lambda匿名函数

一、引言 C11中引入的lambda表达式(也称为匿名函数或lambda函数)提供了一种方便且灵活的方式来定义和使用小的匿名函数对象。这些lambda表达式在编写回调函数、操作容器的算法中、或者在需要快速定义和传递一个函数逻辑给另一个函数时特别有用。 二、基…

行得稳,跑得远,美团如何做到长期主义持续发力?

在今天这样一个充满不确定性的时代,最能确定的是什么呢?我们这一代人,有幸成为诸多历史性时刻的亲历者和见证者。在此背景下,越来越多的企业家和经营者开始关注回归经营的本质和实现稳健经营的问题。 企业的稳健经营贯穿于企业的…

联华证券-掌握尾盘买入法的多种策略与实用技巧

尾盘买入法的常见方法与具体技巧 尾盘买入法是指在股票交易日的尾盘时段(通常指收盘前的15-30分钟)进行买入操作的策略。由于尾盘时段能够反映市场全天的交易情况以及主力资金的意图,尾盘买入法在捕捉短线机会方面具有一定的优势。以下是尾盘…

Python编码—掌握Python与Kubernetes:构建高效微服务架构

🌟🌟 欢迎来到我的技术小筑,一个专为技术探索者打造的交流空间。在这里,我们不仅分享代码的智慧,还探讨技术的深度与广度。无论您是资深开发者还是技术新手,这里都有一片属于您的天空。让我们在知识的海洋中…

涨粉20w!AI真人视频转动漫,太好涨粉了,3步学会AI视频转绘!

大家好,我是程序员X小鹿,前互联网大厂程序员,自由职业2年,也一名 AIGC 爱好者,持续分享更多前沿的「AI 工具」和「AI副业玩法」,欢迎一起交流~ 这类视频,流量超大。从去年一直火到了现在。 前有…

dubbo:巧用dubbo的SPI机制实现各类定制功能(六)

文章目录 0. 引言1. dubbo SPI机制1.1 什么是SPI1.2 java的SPI机制1.3 dubbo的SPI机制1.4 dubbo的SPI使用 2. 基于SPI实现定制功能2.1 dubbo的上下文参数2.2 实现权限校验、参数日志等功能2.3 dubbo spi条件激活机制Activate 3. dubbo的SPI与java的SPI有什么区别4. 总结 0. 引言…

机器学习:词向量转换及代码实现

CountVectorizer 是 scikit-learn 库中的一个文本向量化工具,它将文本数据转换为词频特征矩阵。以下是 CountVectorizer 的算法原理和步骤: 原理 文本预处理: 分词:将文本分割成单词或短语(tokens)。小写化…