cuda显存访问耗时

news2026/2/13 15:57:05

背景：

项目中有个数据量大小为5195 * 512 * 128float = 1.268G的显存，发现有个函数调用很耗时，函数里面就是对这个显存进行128个元素求和，得到一个5195 * 512的图像

分析

1. 为什么耗时

直观上感觉这个流程应该不怎么耗时才对，但是写了个demo测试发现

上面代码，统计耗时

需要消耗掉50ms左右（显卡是Quadro P2200）

太恐怖了

2.修改数据类型为int16_t

将数据类型修改为int16_t访问的显存大小降为0.6G左右

降低为上面结果

3.修改数据类型为int8_t

将数据类型修改为int8_t访问的显存大小降为0.3G左右

降低不再明显

3. 修改访问方式

由于显存是按照内存事务一次性加载的，如果按照上面代码进行访问，按照个人理解，32个线程一次加载的内存是不够用的，需要至少32次内存事务才能完成处理，尝试修改代码：

同样是int类型，耗时如下：

结论：

当cuda程序需要访问的显存过大时，将会出现耗时非常严重的问题

参考链接：

cuda 学习之内存层次结构_请说明 register,shared,global 以及 constant 四类 cuda 内存_xukang95的博客-CSDN博客

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/984859.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

TDengine 官网换了新“皮肤”，来看看这个风格是不是你的菜

TDengine 官网换了新“皮肤”，来看看这个风格是不是你的菜

改版升级，不同以“网”！为了更好地服务客户，让大家能够更便捷、清晰地了解我们的产品和功能，我们决定给 TDengine 官网换个新“皮肤”~精心筹备下，新官网终于成功与大家见面啦——https://www.taosdata.com/。TDengine…

阅读更多...

《向量数据库指南》——AI原生向量数据库Milvus Cloud 2.3稳定性

《向量数据库指南》——AI原生向量数据库Milvus Cloud 2.3稳定性

在当今的互联网时代，稳定性是所有系统和应用程序的关键要素。无论是大型数据中心还是个人电脑，稳定性都是保证正常运行和用户体验的基础。在这个背景下，我们来谈谈 Milvus，一个开源的向量数据库，它在 2.1.0 版本中引入了内存多副本的概念。 Milvus 是一个开源的向量数据库…

阅读更多...

9：00面试，9：08就出来了，问的实在有点变态

9：00面试，9：08就出来了，问的实在有点变态

从小厂出来，没想到在另一家公司又寄了。到这家公司开始上班，加班是每天必不可少的，看在钱给的比较多的份上，就不太计较了。没想到8月一纸通知，所有人不准加班，加班费不仅没有了，薪资还要降30%,…

阅读更多...

osgEarth::ElevationQuery的setMaxTilesToCache函数的作用

osgEarth::ElevationQuery的setMaxTilesToCache函数的作用

【引子】 osgEarth::ElevationQuery类用于查询高程，自测效率比较低（大概每个点需要四五十毫秒），成员函数setMaxTilesToCache(int)，之前看说明仍然不是很确认其具体的意义，想尝试设置是否能加速下。看之前的…

阅读更多...

MATLAB实现TopSis优劣解距离法——分析《世界征服者3》将领排名

MATLAB实现TopSis优劣解距离法——分析《世界征服者3》将领排名

问题背景世界征服者3游戏中有150的将领角色，每个将领都有自己的兵种优势、军阶、技能等不同的属性，如何教务客观、综合全面地选拔出其中排名前50的将领？基于TOPSIS优劣解距离法以及聚类算法，给出大家较为客观的排名。一.问题描…

阅读更多...

使用树莓派搭建个人网站，并发布到外网可访问：实用步骤解析

使用树莓派搭建个人网站，并发布到外网可访问：实用步骤解析

文章目录前言使用 Raspberry Pi Imager 安装 Raspberry Pi OS测试 web 站点安装静态样例站点将web站点发布到公网安装 Cpolarcpolar进行token认证生成cpolar随机域名网址生成cpolar二级子域名将参数保存到cpolar配置文件中测试修改后配置文件配置cpolar服务开机自启动前言 …

阅读更多...

Day_81-87 CNN卷积神经网络

Day_81-87 CNN卷积神经网络

目录一. CNN卷积神经网络与传统神经网络的不同 1. 模型图 2. 参数分布情况 3. 卷积神经网络和传统神经网络的层次结构 4. 传统神经网络的缺点： 二. CNN的基本操作 1. 卷积 2. 池化三. CNN实现过程 1. 算法流程图 2. 输入层 3. 卷积层 4. 激活层 5. 池化层 6. 全连…

阅读更多...

LINE自动回复：快速回复提升客服效率

LINE自动回复：快速回复提升客服效率

2023年，LINE在其4个主要市场：对话、日本、台湾和泰国拥有约1.78亿月活跃用户。 LINE不仅是一个通讯软件，更提供广泛的服务，包括语音和视讯通话、群组、发布社交帖子及商务功能。近年来，越来越多的企业在客户服务中使用…

阅读更多...

搭建花店小程序商城的详细步骤

搭建花店小程序商城的详细步骤

首先，你需要找一个专业成熟的小程序商城制作平台。一个优秀的小程序商城制作平台应该具备丰富的行业模板、简便的设计工具和强大的功能模块。在这里，我们推荐乔拓云平台，其后台管理页面友好，设计搭建页面功能齐全，且针…

阅读更多...

画流程图大家都用哪些工具？

流程图工具是一个用于创建图表和图形功能的应用程序。这些流程图工具允许团队成员在绘图软件上合作，制作的流程图可以提供清晰的视觉效果、即时沟通、有效的协调和有效的分析，从而提高设计的工作效率。下面将推荐6个流程图工具，我相信总有一个…

阅读更多...

C高级第2天

C高级第2天

写一个1.sh脚本，将以下内容放到脚本中： 在家目录下创建目录文件，dir 在dir下创建dir1和dir2 把当前目录下的所有文件拷贝到dir1中， 把当前目录下的所有脚本文件拷贝到dir2中把dir2打包并压缩为dir2.tar.xz 再把dir2.tar.xz…

阅读更多...

Vue的props配置项

Vue的props配置项

简介：Vue中的组件模板是可以复用的，但是模板中的数据是可以改变的。props配置项用于解决组件迁移复用时接受和保存传递给组件的数据的问题。 1.如何给组件传递数据？ 答：按照key:value的形式进行传递。 2.如何保存传递给组件的数…

阅读更多...

Vulnhub: Masashi: 1靶机

Vulnhub: Masashi: 1靶机

kali：192.168.111.111 靶机：192.168.111.236 信息收集端口扫描 nmap -A -sC -v -sV -T5 -p- --scripthttp-enum 192.168.111.236查看80端口的robots.txt提示三个文件 snmpwalk.txt内容，tftp服务在1337端口 sshfolder.txt内容&#xff0c…

阅读更多...

鞋店小程序商城开发指南

鞋店小程序商城开发指南

网站制作教程分享！新手也能学会的鞋店自建网站教程在开发鞋店小程序商城时，您可以按照以下步骤进行操作： 1. 浏览器搜索【乔拓云】注册登录账号进入操作后台，找到并点击【商城】中的【去管理】进入商城的后台管理页面。接着&…

阅读更多...

ABAP BP维护客户cl_md_bp_maintain=＞maintain

ABAP BP维护客户cl_md_bp_maintain=＞maintain

ps_head结构如下下面是封装好的form示例 *&---------------------------------------------------------------------* *& Form frm_modify_customer *&---------------------------------------------------------------------* *& text *&--------…

阅读更多...

异步编程 - 07 基于JDK中的Future实现异步编程(下)_当Stream遇见CompletableFuture

异步编程 - 07 基于JDK中的Future实现异步编程(下)_当Stream遇见CompletableFuture

文章目录 JDK8 StreamStream遇见CompletableFuture小结 JDK8 Stream JDK8中提供了流式对数据进行处理的功能，它的出现允许我们以声明式方式对数据集合进行处理。所谓声明式是相对于我们平时所用的命令式编程来说的，使用声明式编程会让我们对业务的表达更…

阅读更多...

意向客户的信息获取到底是怎样的，快来get一下

意向客户的信息获取到底是怎样的，快来get一下

客户信息获取技术真的可以为企业提供精准客源吗？这个渠道到底安不安全，技术到底成不成熟？效果到底如何？下面简单的和大家分析一下。客户信息获取技术是怎样的手机采集引流方面，上量不精准，精准不上量的说…

阅读更多...

《Web安全基础》05. XSS · CSRF · SSRF · RCE

《Web安全基础》05. XSS · CSRF · SSRF · RCE

web 1：XSS1.1：简介1.2：防护与绕过1.2.1：HttpOnly1.2.2：WAF 绕过 1.3：相关资源 2：CSRF3：SSRF4：RCE 本系列侧重方法论，各工具只是实现目标的载体。命令与工具只…

阅读更多...

什么人群适合考PMP？

什么人群适合考PMP？

PMP是不受行业限制的，只要工作涉及到管理，或者想要往管理方面发展，或者想提升自身的能力，那么考PMP绝对是有必要的。像IT、电子、通信、工程、金融、房产、石化、数据管理、军工、航天等几乎涵盖所有。各行各业都会用的到。 PMP证…

阅读更多...

爬虫逆向实战(28)-某税网第一步登录(sm2、sm4、HMacSHA256)

爬虫逆向实战(28)-某税网第一步登录(sm2、sm4、HMacSHA256)

一、数据接口分析主页地址：某税网 1、抓包通过抓包可以发现登录接口是factorAccountLogin 2、判断是否有加密参数请求参数是否加密？ 通过查看载荷模块可以发现有一个datagram 和一个signature加密参数请求头是否加密？ 通过查看“标…

阅读更多...

推荐文章

最新文章