这是我配环境进行训练的第一个程序,遇到了很多问题,在这里总结一下
首先是配环境
按照官方代码进行配,我跑的是uniformer中的object detection
官方github
在这里我遇到的问题
- 配mmdetection时总是代码有标红错误,注意!object detection项目一定要单独使用pycharm打开,不可以在unifomrer下直接更改object detection部分的代码,会出错。
- mmcv-full版本 他会默认给我们安最新的 ,但是代码里有个限制说max_vision<1.4.1,但是我安装的时1.7.1,只需手动改代码,改成max_vision<=1.7.1就行,简单粗暴。
- 困扰我最大的问题:RuntimeError:nms_impl:implementation for device cuda:0 not found. 百度说可能两个问题导致的 1是 cuda torch mmcv版本不匹配,2可能是mmcv-full的问题,有的人卸载mmcv-full并重装后解决。我先是卸载我的torch2.0版本的,并手动安装合适版本(1.12的)但是并未解决问题。反正一顿捯饬,mmcv-full 卸了装 装了卸 重复了好多遍,最终mmcv-full版本仍然是1.7.2,,torch版本是1.12的,再次运行!!!竟然成功了,这个地方就很迷。可能没删干净东西。
- 训练,最初是运行train.py跑的,后来才发现跑的是单gpu,fake,改变策略,使用 bash ./exp/…/run.sh 去跑,反正还是有些问题,最后使用
这个代码 多gpu跑成功的
tools/dist_train.sh /home/dwed/object_detection/exp/mask_1x_small/config.py 4 --cfg-option model.backbome.pretrained_path=/home/dwe/object_detetion/exp/maskrcnn_1x_small/model_path/mask_rccnn_1x_hybrid_small.pth
work-dirc参数在train.py中直接加入
注意 上面的 等号= 前后一定不要有空格
最终运行成功
配环境 前前后后经历了三天,现在记得的问题就这些,有疑问的可以问。