目录
- 前言
- 1. 内存分配
- 总结
前言
杜老师推出的 tensorRT从零起步高性能部署 课程,之前有看过一遍,但是没有做笔记,很多东西也忘了。这次重新撸一遍,顺便记记笔记
本次课程学习精简 CUDA 教程-Driver API 内存分配
课程大纲可见下面的思维导图
1. 内存分配
在这里我们只做一个基本的演示,更多详细的内容我们会在 Runtime API 上讲
使用 Driver API 进行内存分配案例的示例代码如下:
// CUDA驱动头文件cuda.h
#include <cuda.h>
#include <stdio.h>
#include <string.h>
#define checkDriver(op) __check_cuda_driver((op), #op, __FILE__, __LINE__)
bool __check_cuda_driver(CUresult code, const char* op, const char* file, int line){
if(code != CUresult::CUDA_SUCCESS){
const char* err_name = nullptr;
const char* err_message = nullptr;
cuGetErrorName(code, &err_name);
cuGetErrorString(code, &err_message);
printf("%s:%d %s failed. \n code = %s, message = %s\n", file, line, op, err_name, err_message);
return false;
}
return true;
}
int main(){
// 检查cuda driver的初始化
checkDriver(cuInit(0));
// 创建上下文
CUcontext context = nullptr;
CUdevice device = 0;
checkDriver(cuCtxCreate(&context, CU_CTX_SCHED_AUTO, device));
printf("context = %p\n", context);
// 输入device prt向设备要一个100 byte的线性内存,并返回地址
CUdeviceptr device_memory_pointer = 0;
checkDriver(cuMemAlloc(&device_memory_pointer, 100)); // 注意这是指向device的pointer,
printf("device_memory_pointer = %p\n", device_memory_pointer);
// 输入二级指针向host要一个100 byte的锁页内存,专供设备访问。参考 2.cuMemAllocHost.jpg 讲解视频:https://v.douyin.com/NrYL5KB/
float* host_page_locked_memory = nullptr;
checkDriver(cuMemAllocHost((void**)&host_page_locked_memory, 100));
printf("host_page_locked_memory = %p\n", host_page_locked_memory);
// 向page-locked memory 里放数据(仍在CPU上),可以让GPU可快速读取
host_page_locked_memory[0] = 123;
printf("host_page_locked_memory[0] = %f\n", host_page_locked_memory[0]);
/*
记住这一点
host page locked memory 声明的时候为float*型,可以直接转换为device ptr,这才可以送给cuda核函数(利用DMA(Direct Memory Access)技术)
初始化内存的值: cuMemsetD32 ( CUdeviceptr dstDevice, unsigned int ui, size_t N )
初始化值必须是无符号整型,因此需要将new_value进行数据转换:
但不能直接写为:(int)value,必须写为*(int*)&new_value, 我们来分解一下这条语句的作用:
1. &new_value获取float new_value的地址
(int*)将地址从float * 转换为int*以避免64位架构上的精度损失
*(int*)取消引用地址,最后获取引用的int值
*/
float new_value = 555;
checkDriver(cuMemsetD32((CUdeviceptr)host_page_locked_memory, *(int*)&new_value, 1)); //??? cuMemset用来干嘛?
printf("host_page_locked_memory[0] = %f\n", host_page_locked_memory[0]);
// 释放内存
checkDriver(cuMemFreeHost(host_page_locked_memory));
return 0;
}
运行效果如下:
这段代码展示了使用 CUDA Driver API 进行设备内存和页锁定内存的分配、访问和释放操作。
首先,代码创建了一个上下文 context
,然后使用 cuMemAlloc
函数为 GPU 分配了一个 100 字节的线性内存,并返回了内存的地址。接着,使用 cuMemAllocHost
函数为 CPU 分配了一个 100 字节的页锁定内存,该内存可供 GPU 访问。函数中使用了二级指针,并将其转换成了 void**
类型。之后,代码向页锁定内存中存储了一个值。
接下来,代码使用 cuMemsetD32
函数将页锁定内存中的值进行初始化。该函数的第一个参数是设备指针,需要将 host_page_locked_memory
强制转换为 CUdeviceptr
类型。函数的第二个参数是初始化的值,需要进行数据转换,将 float
类型的值转换为无符号整型。
最后,代码使用 cuMemFreeHost
函数释放了页锁定内存的分配。
关于
cuMemsetD32()
函数有以下几点说明:
host page locked memory
声明的时候为float*
类型,可以直接转换为device ptr
,只有转换后才可以送到 cuda 核函数(利用DMA(Direct Memory Access)技术)- 初始化内存的值使用的函数:
cuMemsetD32(CUdeviceptr dstDevice, unsigned int ui, size_t N)
- 初始化值必须是无符号整型,因此需要将 new_value 进行数据转换。但不能直接写 (int)value,必须写 *(int*)&new_value
- &new_value 获取 float new_value 的地址,(int*) 将地址从 float * 转换为 int * 避免 64 位架构上的精度损失,*(int *) 取消引用地址,最后获取引用的 int 值
cuMemset
也可以用于在设备内存中设置值,但它设置的是字节数据(unsigned char),而cuMemsetD32
设置的是 32 位整数数据(unsigned int)
我们注释创建 context 的代码然后再运行下:
可以看到程序报错,提示 context 为空,只有当前上下文存在才能做后续的一些操作,
总结
本次课程主要简单讲了下使用 Driver API 进行内存的分配,演示了设备内存、页锁定内存的分配。
Driver API 的学习到这里就结束了,我们不需要有过多的认识,知道 context 是怎么回事,知道 primary context 是怎么回事就行了。