目录
2. 编译阶段(步骤)
2.1 NVCC预定义宏
2.2 NVCC编译步骤
2.3 NVCC支持的文件后缀
2.4 支持的编译阶段
3. CUDA 编译内幕
2. 编译阶段(步骤)
2.1 NVCC预定义宏
- __NVCC__
在编译C/C++/CUDA源文件时定义
- __CUDACC__
在编译CUDA源文件时定义
- __CUDACC_RDC__
在编译可重定位(relocatable)设备端代码模式时定义(详见6.2章节)
- __CUDACC_EWP__
在可扩展整个程序模式下编译CUDA源文件时定义(详见4.2.3章节)
- __CUDACC_DEBUG__
在指定编译debug版本的CUDA源文件时定义(详见4.2.3章节)
- __CUDACC_RELAXED_CONSTEXPR__
命令行中指定--expt-relaxed-constexpr标志位时定义,详细参阅《cuda C编程指南》
- __CUDACC_EXTENDED_LAMBDA__
命令行中指定--expt-extended-lambda或者--extended-lambda标志位时定义,详细参阅《cuda C编程指南》
- __CUDACC_VER_MAJOR__
随nvcc的major版本定义
- __CUDACC_VER_MINOR__
随nvcc的minor版本定义
- __CUDACC_VER_BUILD__
随nvcc的构建版本定义
2.2 NVCC编译步骤
nvcc的编译由几个不同的逻辑翻译步骤组成,这可以通过nvcc命令行选项来选择。
一个单独的编译阶段,也可以被NVCC分解成几个不同的步骤,这些步骤合并组成一个编译过程。然而,编译取决于nvcc所使用的(nvcc更像一个编译工具的集成者)内部编译套件,这些编译套件会随着CUDA工具套件的更新而改变。因此,在不同的发行版本中,只有统一的整个编译流程是稳定不变的。nvcc提供了一系列命令行选项来展示编译所执行的不同阶段,但这仅仅用作debug使用,不要拷贝并在构建脚本中使用。因为编译的中间结果依赖于特定的nvcc编译工具套件,多版本之间可能不兼容。
实际上,nvcc的编译除了依赖于编译选项,也依赖于输入文件的后缀。通过输入文件后缀确定编译阶段的输入,通过命令行选项确定编译阶段的输出。2.3章节会介绍NVCC支持的文件后缀,2.4章节会介绍NVCC支持的编译阶段。
2.3 NVCC支持的文件后缀
- .cu:cuda源文件,包含了host代码和device代码
- .c:C源文件
- .cc,.cxx,.cpp:C++源文件
- .ptx:ptx中间汇编码文件
- .cubin:cuda设备端可执行二进制码文件(单GPU架构下)
- .fatbin:cuda fat二进制文件,可以包含多个ptx码和cubin码文件
- .o,.obj:对象文件
- .a,.lib:库文件
- .res: 资源文件
- .so:动态库文件
2.4 支持的编译阶段
下表介绍支持的编译阶段和相关的命令行选项,以及不同编译阶段的默认输出文件名称(当不使用--output-file选项时):
Phase | nvcc选项 | 默认输出文件名称 | |
长 | 短 | ||
cuda编译到C/C++源文件 | --cuda | -cuda | x.cpp.ii,x表示源文件名。该输出文件可以通过host编译器进行后续编译,nvcc使用host编译器对.cu文件进行预处理 |
C/C++预处理 | --preprocess | -E | 标准的预处理输出 |
C/C++编译到目标文件 | --compile | -c | x.o(Linux和Mac OS X),x.obj(Windows) |
从cuda源文件生成cubin文件 | --cubin | -cubin | x.cubin |
从ptx中间码生成cubin文件 | --cubin | -cubin | x.cubin |
从cuda源文件生成ptx中间码文件 | --ptx | -ptx | x.ptx |
从源文件,ptx或cubin文件生成fatbin文件 | --fatbin | -fatbin | x.fatbin |
链接生成设备端的可重定位代码 | --device-link | -dlink | a_dlink.obj(Windows)或a_dlink.o(Linux, Mac OS X) |
从设备端可重定位代码生成设备端cubin二进制 | --device-link --cubin | -dlink -cubin | a_dlink.cubin |
从设备端可重定位代码生成fatbin | --device-link --fatbin | -dlink -fatbin | a_dlink.fatbin |
链接生成可执行文件 | 无选项 | a.out(Linux, Mac OS X)或a.exe(Windows) | |
目标文件打成包或库 | --lib | -lib | a.a(Linux, Mac OS X)或a.lib(Windows) |
生成依赖 | --generate-dependencies | -M | 标准的输出 |
生成不包含系统path路径的依赖 | --generate-nonsystem-dependencies | -MM | 标准输出 |
运行可执行文件 | --run | -run | 直接运行编译好的可执行文件,无需指定库路径(LD_LIBRARY_PATH) |
在不指定具体命令行选项的时候,nvcc编译并链接所有输入的文件。
3. CUDA 编译内幕
cuda编译过程如下:
1) 源程序进行设备端(GPU)代码编译前的预处理,预处理后编译成cuda二进制(cubin)和(或)ptx中间码,放到fatbin文件中
2)源程序进行主机端(CPU)代码编译前的预处理,预处理后合入fatbin进去,并转换所有cuda C++扩展语法到标准的C++语法
3)host主机侧编译器编译合并后的代码(标准C++,以及嵌入了fatbin设备端代码)成目标文件。
当主机(端)程序启动(launch)运行设备端(__global__)代码时,cuda运行时系统会检查嵌入的fatbin代码,并获取适合当前GPU运行的fatbin(也就是说其中可以有支持各个不同架构GPU的fabin码嵌入在host程序中 ?)
cuda程序默认是被整体编译的,即设备端代码(C++文件对外暴露的函数和变量等)无法在另外一个文件中被引用。在整体编译模式下,设备代码的链接步长是无影响的。有关整体编译和分开编译,可以参考第6章节。
CUDA编译原理如下:
关于作者:
犇叔,浙江大学计算机科学与技术专业,研究生毕业,而立有余。先后在华为、阿里巴巴和字节跳动,从事技术研发工作,资深研发专家。主要研究领域包括虚拟化、分布式技术和存储系统(包括CPU与计算、GPU异构计算、分布式块存储、分布式数据库等领域)、高性能RDMA网络协议和数据中心应用、Linux内核等方向。
专业方向爱好:数学、科学技术应用
关注犇叔,期望为您带来更多科研领域的知识和产业应用。
内容坚持原创,坚持干货有料。坚持长期创作,关注犇叔不迷路