第一坑
做完训练集,配置要yaml文件后,笔者启动了训练命令
python train.py --data 我的yaml位置 --batch-size 我的每次进行一次反向传播之前需要前向计算的图片张数 --device 我的GPU编号
之后报错
OSError: [WinError 1455] 页面文件太小,无法完成操作。
多次网上冲浪后,发现一个解决方案,小娜里搜索环境变量
进入高级的设置区
性能选项栏再进入高级的虚拟内存更改区
由于我的训练项目在C盘,所以我选择C盘,自定义大小,我的磁盘比较大,给它分配100个G来训练
配置完成后计算机需要重新启动才能生效,重启前请保存好你的所有文件免得造成损失!!
至此,这个坑算是填完了。
第二坑
于是笔者输入了第二次训练命令 ,此时出现了box_loss以及obj_loss均为nan的情况,真是馹勒苟了。
经过大佬指点,我们需要打开train.py对其进行修改,查到语句
amp = check_amp(model) # check AMP
的所在位置
将这个语句替换成
amp = False
如图
这个坑就填上了,具体啥原因我也不明白,待日后深入研究了。。。
训练
笔者进行第三次训练
可以看到已经正常运行了
打开cmd输入查看训练效果命令
tensorboard --logdir=./runs/train/exp
最后是“exp”是因为我这是对应的训练目录下的最后一个文件夹,也就是正常训练的
如果你不是第一次训练,请修改至最后一个文件夹名称
运行该命令后会自动打开一个网页让我们对训练情况进行实时预览
至此,今天爬坑小作文圆满结束,期待下一次巨坑来袭