NVCC
昨天已经安装好了gpu版的pytorch,对于一般的代码应该就可以运行了。但有些代码中需要用到cuda算子,需要配置nvcc环境。对于这个我也没能搞太清楚,网上的说法不一,我使用conda安装pytorch时也安装了cudatoolkit,按照我的理解,这里面应该带着nvcc,虽然没有在全局的path里面,但是在编译的时候应该可以找到这个路径。但事与愿违。
我在conda安装了cudatoolkit还是不能编译。看网上的教程,安装pytorch-cuda似乎可以,但是安装太慢,遂放弃。
我尝试的路径:
-
使用pip安装pytorch
不行,我的理解是没有安装cudatoolkit这个包
- 使用conda安装
这个方法应该是可以的,安装时包里有这个nvcc这个包,但是太慢了,遂放弃
-
尝试安装旧的版本,因为我复现论文的需要,我安装的是
conda install pytorch=1.9.0 torchvision cudatoolkit=11.1 -c pytorch -c nvidia -y
,这里面也有cudatoolkit了,按照我的理解,应该是可以编译cuda算子的,但事与愿违 -
安装cuda,使用
apt install nvidia-cuda-toolkit
,这时候有nvcc了,但是版本太低,好像是9.x版本,遂卸载 -
安装cuda11.6(这里是我操作失误了,我以为是cuda版本高了,然后卸载换成了11.1,这个应该也行)
-
安装cuda11.1(成功的方法)
- 百度搜索cuda11.1,进入nvidia页面
- 选择对应的版本,按照步骤安装
- 安装完成后按照提示加入path
vim ~/.bashrc
在末尾加入
export CUDA_HOME=/usr/local/cuda
export PATH=$PATH:$CUDA_HOME/bin
export LD_LIBRARY_PATH=/usr/local/cuda-11.1/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
执行
source ~/.bashrc
- 输入nvcc --version ,不出意外的话就安装成功了
编译算子
刚开始python setup.py install时,出现错误
depends=ext.depends,
File "/home/lzc/miniconda3/envs/pt/lib/python3.7/site-packages/torch/utils/cpp_extension.py", line 539, in unix_wrap_ninja_compile
with_cuda=with_cuda)
File "/home/lzc/miniconda3/envs/pt/lib/python3.7/site-packages/torch/utils/cpp_extension.py", line 1360, in _write_ninja_file_and_compile_objects
error_prefix='Error compiling objects for extension')
File "/home/lzc/miniconda3/envs/pt/lib/python3.7/site-packages/torch/utils/cpp_extension.py", line 1682, in _run_ninja_build
raise RuntimeError(message) from e
RuntimeError: Error compiling objects for extension_
然后pip了一下ninja就可以了
(此处省略本代码中专有的坑,有两个包作者没提供,不过在issues里面有人找作者要过了,但是安装这个也很麻烦)
经过很长时间的踩坑,终于跑通了,可以进行调试了,终于!
~
配环境真的很折磨人