官方参考链接如下,有需要的自取:
Notebook · 计算服务
了解常用的E-shell命令
(1) squeue: 查看目前提交作业的信息
(2) salloc :抢占计算资源命令
salloc -p wzhdtest -N 1 -n 8 --gres=dcu:1
(部分地区有绑卡机制,比如乌镇,核数和卡数的比=8:1)
注:salloc之后如果需要使用dcu ,则需要ssh到相应的计算节点,比如我这里的计算节点是b03r4n14,我就需要ssh b03r4n14
(3) hy-smi :查看DCU利用率
常见问题
<1> 如果想用pip安装相关的工具包,需要注意安装到对应的环境。我这里需要先 source pytorch_env.sh ,然后直接用 pip install xxx 即可。
我pytorch_env.sh 脚本文件中的内容如下:
source ~/.bashrc
conda activate pytorch_1.10
module switch compiler/dtk/22.04.2
LD_LIBRARY_PATH=/public/software/apps/DeepLearning/PyTorch_Lib/lib:/public/software/apps/DeepLearning/PyTorch_Lib/lmdb-0.9.24-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/opencv-2.4.13.6-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/openblas-0.3.7-build/lib:$LD_LIBRARY_PATH
<2> 如果你pip安装失败了,可以考虑三方面原因:
a. 各安装包之间的版本不兼容,可以考虑用pip uninstall 卸载再重新安装相兼容的版本。我曾遇到setuptools 的版本太高(高于60),导致tensorboard安装包安装不上。我将setuptools版本换成56.1.0之后就可以安装成功了。
b. 如果你明明pip install 了相关的安装包,但是运行程序时,却出现找不到module的错误,这个时候你可能就是将安装包安错了环境。比如我使用的是pytorch框架,那么我需要在相应的环境下(pytorch_1.10)安装,而不是(base) 环境下。
c. 如果你用salloc抢占资源,然后又用ssh登录到了相应的计算节点,这时你用pip install 某个安装包失败了。 解决方法是,可以先logout 计算节点,即退出计算结点,回到环境(pytorch_1.10)下再pip install 就可以了。
后续遇到问题会继续更新,感谢关注!!