NVIDIA H100 GPU 上的机密计算,实现安全可信的 AI
文章目录
- 前言
-
- 1. 使用硬件虚拟化的 NVIDIA 机密计算
- 2. 跨硬件、固件和软件保护 AI
- 3. NVIDIA H100 GPU 的硬件安全性
- 4. 在机密计算模式下运行 NVIDIA H100 GPU
- 5. NVIDIA Hopper H100 机密计算为可信 AI 带来的优势
- 6. 虚拟机上基于硬件的安全性和隔离
- 7. 设备认证的可验证性
- 8. 无需更改应用程序代码
- 9. 通过机密计算加速计算性能
- 10. 使用适用于 NVIDIA H100 的早期访问机密计算保护 AI 工作负载
前言
硬件虚拟化是将虚拟机 (VM) 中的工作负载与物理硬件以及彼此隔离的有效方法。这提供了更高的安全性,尤其是在多租户环境中。然而,带内攻击、侧信道攻击和物理攻击等安全风险仍可能发生,从而损害数据和应用程序的机密性、完整性或可用性。
直到最近,保护数据还仅限于动态数据(例如在 Internet 上移动负载)和静态数据(例如存储介质加密)。然而,使用中的数据仍然容易受到攻击。
NVIDIA Confidential Computing 提供了一种解决方案,用于安全地处理正在使用的数据和代码,防止未经授权的用户访问和修改。在运行 AI 训练或推理时,数据和代码必须受到保护。输入数据通常包括个人身份信息 (PII) 或企业机密,而经过训练的模型是非常有价值的知识产权 (IP)。机密计算是保护 AI 模型和数据的理想解决方案。
NVIDIA 处于机密计算的最前沿,与 CPU 合作伙伴、云提供商和独立软件供应商 (ISV) 合作,以确保从传统的加速工作负载到机密加速工作负载的转变是平稳和透明的。
NVIDIA H100 Tensor Core GPU是有史以来第一款引入机密计算支持的 GPU。它可以在虚拟化环境中使用,无论是使用传统 VM 还是在 Kubernetes 部署中使用,使用 Kata 在 microVM 中启动机密容器。
本文重点介绍具有机密计算的传统虚拟化工作流。
1. 使用硬件虚拟化的 NVIDIA 机密计算
根据机密计算联盟 (Confidential Computing Consortium) 的说法,机密计算是指通过在基于硬件的、经过证明的可信执行环境 (TEE) 中执行计算来保护使用中的数据。
NVIDIA H100 GPU 符合这一定义,因为它的 TEE 锚定在片上硬件信任根 (RoT) 中。当 GPU 在 CC-On 模式下启动时,GPU 会为代码和数据启用硬件保护。信任链通过以下方式建立:
- GPU 启动序列,具有安全且经过测量的启动
- 安全协议和数据模型 (SPDM) 会话,用于安全地连接到 CPU TEE 中的驱动程序
- 生成一组加密签名的度量值,称为证明报告。
机密计算环境的用户可以检查认证报告,并且只有在认证报告有效且正确时才能继续。
2. 跨硬件、固件和软件保护 AI
NVIDIA 在每一代 GPU 中不断提高其 GPU 的安全性和完整性。自 NVIDIA Volta V100 Tensor Core GPU 以来, NVIDIA 一直在设备上运行的固件上提供 AES 身份验证。此身份验证可确保您可以相信启动固件既未损坏,也未被篡改。
通过 NVIDIA Tur