用nvidia-smi查看GPU的状态时,能耗pwr显示为ERR!
解决方式:
以下代码查看具体的报错:
dmesg -l err
如果有:
NVRM:***说明硬件问题,需要更换
如果无错误,则参考如下:
1. 将你的工作站或者服务器报错的显卡放置到温度低的地方.如果你没有动服务器硬件的权限,继续往下。
2. 设置持久化模式
sudo nvidia-smi -pm 1
3. 调整运行功率,保证最大功率时候的温度不会超过75C
sudo nvidia-smi -pl 200 -i 1 # 最高250,指定运行的1卡最高功率为200,从而降低发热
sudo nvidia-smi -pl 200 -i 3
其它参考:
Nvidia GPU风扇和电源显示ERR! 解决办法 - 走看看
NVIDIA-SMI Shows ERR! 显卡出现错误!_瞧不死的AI的博客-CSDN博客_nvidia-smi 出来很慢 显示err!