AMD ROCm™ installation — ROCm Blogs
注意: 本文之前是 AMD 实验笔记博客系列的一部分。
AMD ROCm™ 是第一个面向 HPC/超大规模级 GPU 计算的开源软件开发平台。AMD ROCm™ 将 UNIX 的选择权、极简主义和模块化软件开发哲学引入 GPU 计算领域。有关更多信息,请参阅 AMD 的开源 GPU 计算平台和ROCm 信息门户页面。
关于 ROCm 安装的更详细信息,请访问在 Linux 上部署 ROCm页面。
在没有明确理解相关组件和安装流程的情况下,安装 AMD ROCm™ 软件包可能会遇到困难。本文将介绍如何在支持 AMD GFX9 架构的 AMD GPU 卡的工作站上安装 ROCm。后续的博客将讨论在其他环境(如 Docker 容器、Linux LXC 或完整的 HPC 安装)中安装 ROCm。
网站 https://rocm.docs.amd.com 包含 ROCm 的发布、支持和 API 文档的链接。请参阅安装指南和硬件/软件支持指南,了解 ROCm V 5.7 版本支持的软件和硬件。本篇文章将基于 Ubuntu 22.04 操作系统和 AMD MI (MI210, MI250 等) 系列 GPU 卡。完整的安装过程记录在安装指南中。
AMD ROCm™ 是支持使用 AMD CDNA 和 RDNA GPU 架构的 GPU 的 ROCm 开源软件平台的品牌名称。该平台包括驱动程序、库运行时以及开发工具。
本文将描述三种安装选项:
1. 使用 AMD 提供的脚本安装 ROCm。
2. 在一个系统上支持多个 ROCm 版本。
3. 使用 Ubuntu 的 apt-get 安装 ROCm。
选项1
AMD 提供了适用于特定操作系统和 ROCm 版本的安装脚本。每种操作系统和 ROCm 的组合下,脚本的名称和下载位置可能不同,因此请检查[安装页面](ROCm installation for Linux — ROCm installation (Linux))以获取您特定组合的信息。我们使用的是 Ubuntu 22.04 并安装 ROCm 5.7.1,发现脚本名称为 amdgpu-install_5.7.50701-1_all。
sudo apt update
wget https://repo.radeon.com/amdgpu-install/5.7.1/ubuntu/jammy/amdgpu-install_5.7.50701-1_all.deb
sudo apt install ./amdgpu-install_5.7.50701-1_all.deb
一旦提取了 amdgpu-install 脚本,就可以用它来安装内核代码、库和开发代码。对于典型的 HPC 环境,HIP、ROCm 和内核驱动应该足够了:
sudo amdgpu-install --usecase=hiplibsdk,rocm,dkms
可以安装其他库,且可用的用例列表可以使用以下命令查看:
sudo amdgpu-install --list-usecase
ROCm 代码默认安装在 /opt/rocm。您可以运行以下命令验证 ROCm 是否安装成功:
/opt/rocm/bin/rocminfo
并检查软件是否检测到显卡。支持的 GPU 卡型号将以“GFX9”开头。
选项2
如果已经安装了ROCm,可以删除旧版本并安装新版本。或者,可以在保留旧版本的同时安装其他版本。安装额外的版本会创建一个多版本系统,因此需要谨慎确保环境变量中的路径正确。例如,当前的`/opt/rocm`可能会变为`/opt/rocm-5.4.0`或`/opt/rocm-5.3.2`,具体取决于已安装的ROCm版本。
要删除所有旧版本,可以使用以下命令:
sudo amdgpu-uninstall --rocmrelease=all
AMD为特定的操作系统和ROCm版本提供了安装脚本。脚本名称和下载位置可能会因操作系统和ROCm版本的不同而有所差异,因此请查看如何安装页面以获取特定组合的信息。我们使用的是Ubuntu 22.04并安装ROCm 5.7.1,发现脚本名为amdgpu-install_5.7.50701-1_all。
sudo apt update
wget https://repo.radeon.com/amdgpu-install/5.7.1/ubuntu/jammy/amdgpu-install_5.7.50701-1_all.deb
sudo apt install ./amdgpu-install_5.7.50701-1_all.deb
提取amdgpu-install脚本后,可用于安装内核代码、库和开发者代码。以下步骤将安装内核驱动代码版本5.7.1,并安装版本5.7.0和5.7.1的库。对于典型的HPC环境,HIP和ROCm库就足够了:
sudo amdgpu-install --usecase=hiplibsdk,rocm,dkms --rocmrelease=5.7.1
sudo amdgpu-install --usecase=hiplibsdk,rocm --rocmrelease=5.7.0 --no-dkms
sudo amdgpu-install --usecase=hiplibsdk,rocm --rocmrelease=5.7.1 --no-dkms
可以安装其他库,使用以下命令可以查看可用的用例列表:
sudo amdgpu-install --list-usecase
ROCm代码默认安装到`/opt/rocm`。你可以通过运行以下命令来验证ROCm是否安装成功:
/opt/rocm-5.7.1/bin/rocminfo
并检查软件是否检测到了显卡。支持的GPU卡型号将以“GFX9”开头。
选项3
虽然AMD提供了特定操作系统和ROCm版本的安装脚本,但该脚本最终还是会使用操作系统的标准安装软件来安装软件。在Ubuntu的情况下,脚本将使用`apt-get`来安装ROCm。完整的`apt-get`过程可以在[如何安装页面](https://rocm.docs.amd.com/en/latest/deploy/linux/os-native/install.html)上找到。以下步骤将使用自定义版本的`apt-get`命令来安装ROCm 5.4。
确定要安装的ROCm软件位置以及HIP和相关的ROCm软件:
export ROCM_REPO_BASEURL="https://repo.radeon.com/rocm/apt/5.7.1/"
export ROCM_REPO_COMP="ubuntu"
export ROCM_REPO_BUILD="main"
echo "deb [arch=amd64 trusted=yes] ${ROCM_REPO_BASEURL} ${ROCM_REPO_COMP} ${ROCM_REPO_BUILD}" > /etc/apt/sources.list.d/rocm.list
sudo apt-get update
DEBIAN_FRONTEND=noninteractive apt-get install -y \
libdrm-amdgpu* \
initramfs-tools \
libtinfo* \
initramfs-tools \
rocm-llvm \
rocm-hip-runtime \
rocm-hip-sdk \
roctracer-dev
要找到其他可以使用`apt-get`安装的ROCm组件的列表,可以使用`apt-cache`:
apt-cache search rocm
ROCm代码默认安装到`/opt/rocm`。你可以通过运行以下命令来验证ROCm是否已安装:
/opt/rocm/bin/rocminfo
并检查软件是否检测到显卡。受支持的GPU卡将以“GFX9”开头。
注意:不建议混合使用`apt-get`和`amdgpu-install`方法。请选择其中一种方法来安装ROCm。
作者感谢Rajat Arora和Asitav Mishra的有帮助的评审和建议。如果你有任何问题或意见,请在GitHub[讨论区](https://github.com/ROCm/rocm-blogs/discussions)上联系我们。