40系笔记本深度学习、转码生产力(环境配置和简单训练测试)这里写自定义目录标题
- 深度学习环境准备
- CUDA、CUDNN版本问题
- torch版本问题
- 其他软件版本的安装命令
- 训练测试代码地址
- 关于Linux还是Windows的问题
- 结果
博主首发购买了枪神7超竞4080的版本,作为科研狗,必须第一时间测试其生产力。这个其实8号就测试完了,一直忙着没时间写。
深度学习环境准备
最主要的版本问题,参考了试验过的老哥的GitHub issue发言,如下:
那么得到的结论是,torch编译版本≤cuda runtime版本(你装的toolkit版本)≤cuda driver版本(nvidia-smi里看到的)。
CUDA、CUDNN版本问题
从上面额图可以得知,首先从cuda11.8开始,nvidia支持了40系桌面端显卡。而因为40系桌面端也是ada Lovelace架构,应该是通用的,可能会有一些小改动,但保证cuda driver比较新一般都没啥问题。所以cuda,cudnn列表如下:
- cuda 11.8
- cudnn 8.8.0.121 下载和cuda11.8配套的,网站上都有,在archive里
torch版本问题
- torch 1.13.1 选择的是cuda11.7编译的
安装命令是
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
此处推荐下bfsu的conda源。
其他软件版本的安装命令
此处是为了你不激活离线如何安装,下面是列表。如果需要离线就提前下载:
pip install numpy
pip install Pillow-9.4.0-cp39-cp39-win_amd64.whl idna-3.4-py3-none-any.whl urllib3-1.26.14-py2.py3-none-any.whl charset_normalizer-3.0.1-cp39-cp39-win_amd64.whl requests-2.28.2-py3-none-any.whl
pip install "torch-1.13.1+cu117-cp39-cp39-win_amd64.whl" "torchvision-0.14.1+cu117-cp39-cp39-win_amd64.whl" "torchaudio-0.13.1+cu117-cp39-cp39-win_amd64.whl"
pip install PyYAML-6.0-cp39-cp39-win_amd64.whl yacs-0.1.8-py3-none-any.whl
pip install contourpy-1.0.7-cp39-cp39-win_amd64.whl cycler-0.11.0-py3-none-any.whl python_dateutil-2.8.2-py2.py3-none-any.whl packaging-23.0-py3-none-any.whl kiwisolver-1.4.4-cp39-cp39-win_amd64.whl
pip install fonttools-4.38.0-py3-none-any.whl zipp-3.13.0-py3-none-any.whl pyparsing-3.0.9-py3-none-any.whl importlib_resources-5.10.2-py3-none-any.whl
pip install matplotlib-3.7.0-cp39-cp39-win_amd64.whl
pip install scipy-1.10.0-cp39-cp39-win_amd64.whl
pip install imageio-2.25.1-py3-none-any.whl tifffile-2023.2.3-py3-none-any.whl PyWavelets-1.4.1-cp39-cp39-win_amd64.whl networkx-3.0-py3-none-any.whl
pip install termcolor-2.2.0-py3-none-any.whl
pip install scikit_image-0.19.3-cp39-cp39-win_amd64.whl
训练测试代码地址
参考了GitHub上的开源项目simple imagenet test我准备了ILSVRC2012测试集5w张图片。
关于Linux还是Windows的问题
Windows目前是默认开启Dynamic Boost的,在4080上相比在Linux里多了25W的功耗。Linux我搜索过好像也可以支持Dynamic Boost,但算是挖了个坑吧,之后有空弄弄。先稳定下生产力。
结果
上述代码在速度上的测试,为了排除硬盘读写的区别,我将所有脚本和图片都放在了100MB读写的硬盘上。从GPU功耗来看没有什么读写瓶颈。
RTX 4080 Laptop 耗时8min
RTX 1050ti Laptop旧笔记本 耗时1h30min
速度提升巨大。