Bug记录: CUDA error: device-side assert triggered
在接触AIGC算法的过程中偶尔会遇到这样的bug:RuntimeError: CUDA error: device-side assert triggered
return torch._C._cuda_synchronize()
RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
通常来说,是由于数组越界而引发的该问题,但是直接在gpu上运行,就只会报上面的错,导致初次见到这个bug的时候,难以定位。
个人尝试的一种行之有效的方式是:使用cpu运行,即可定位到数组越界的位置,比如下图所示: