1、A100运行wiki出错:NVIDIA A100-PCIE-40GB with CUDA capability sm_80 is not compatible with the current PyTorch installation.
The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70.
If you want to use the NVIDIA A100-PCIE-40GB GPU with PyTorch, please check the instructions at https://pytorch.org/get-started/locally/
A100 报错:
参考:
python - 如何将 Pytorch (+cuda) 与 A100 GPU 一起使用?- 堆栈溢出 (stackoverflow.com)
本来打算这样解决,但是不行:( torchvision==0.12.0+cu113是我自己添加的)
pip install torch==1.11.0+cu113 torchvision==0.12.0+cu113 -f https://download.pytorch.org/whl/torch_stable.html
1.1 然后, 我的实际操作——A100安装pytorch2.X版本(失败):
PyTorch
conda activate pya100
nvcc --version
conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch -c nvidia
(这个也是不行)
1.2 继续换一个操作成功了:
写文章-CSDN创作中心 首先把conda这些配置好,然后:
pip install torch==1.11.0+cu113 -f https://download.pytorch.org/whl/torch_stable.html
1.3 安装好pytorch1.11.0+cuda113之后,安装dgl:
把dgl安装包放在这个位置:
然后在root下conda list,就有了。
这里只尝试运行一半:2000个epoch(毕竟一小时4块钱呀,贵啊)
总结:在学校服务器用torch1.12+cuda没问题,但是autoDL服务器就不行。
所以建议autoDL服务器就用作者给定的torch1.11+cuda113+dgl0.9
( autoDL上在3090上用torch2.X的话:
下载torch:
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
下载dgl:
conda install -c dglteam/label/cu117 dgl
学校服务器用pip安装;autoDL服务器用conda安装)
2、学校服务器加2.X版本pytorch
2.1 conda一个环境
2.2 安装pytorch2.X版本
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
2.3 安装dgl:
pip install dgl -f https://data.dgl.ai/wheels/cu118/repo.html