在Ubuntu 22.04 LTS系统中,已安装配置好CUDA 12.4、cuDNN 9.1.1以及PyTorch环境
export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
在PyTorch深度学习框架训练调用多GPU时,提示
indexSelectLargeIndex: block: [x, 0, 0], thread: [x, 0, 0] Assertion `srcIndex < srcSelectDimSize` failed.
对于Intel平台的超微主板,
1.可以在BIOS的“Advanced” >> “Chipset Configuration” >> “North Bridge” >> “IIO Configuration” >> “Intel VT for Directed I/O (VT-d)”中关闭。(现场是关闭Intel VT for Directed I/O (VT-d))
2.同时关闭ACS Control。
BIOS参数调整后,深度学习训练正常调用多GPU。
说明:
本文档所提供的指引和参考主要基于特定实践设备的操作经验。由于不同设备在硬件配置、软件版本、使用场景等方面可能存在差异,因此,当您在使用其他设备时,所遇到的问题可能与此文档所述有所不同。尽管如此,大部分设备的安装方法和基本步骤仍然保持相似。
请务必根据您所使用的设备的具体说明书和官方指导进行操作,以确保设备的正确安装和使用。如果在安装或使用过程中遇到任何问题,建议您查阅相关设备的官方支持文档或联系设备的售后服务团队以获取专业帮助。
再次强调,本文档仅供参考,不保证完全适用于所有系统。任何基于本文档进行的操作,需自行承担相应风险。