k3s中使用GPU资源

news2026/2/11 5:13:12

前提是已经安装了nvidia驱动

一、安装nvidia-container-toolkit（推荐）

#复制一份docker配置文件,以防被覆盖
cp /etc/docker/daemon.json /etc/docker/daemon.json.bak
#安装NVIDIA Container Toolkit
 apt-get install nvidia-container-toolkit

二、配置容器运行时
#nvidia-ctk命令将会修改/etc/docker/daemon.json文件以便Docker可以使用nvidia容器运行时

nvidia-ctk runtime configure --runtime=docker

#实际上,上面nvidia-ctk命令是往/etc/docker/daemon.json文件追加了如下参数
"runtimes": {
"nvidia": {
"args": [],
"path": "nvidia-container-runtime"
}
}

三、修改docker默认运行时

docker要使用nvidia运行时才能正常使用gpu,但是k8s中kubelet需要调用docker,所以要将docker默认运行时设置为nvidia.

#查看当前docker默认运行时
docker info | grep -i 'Default Runtime'

#修改docker默认运行时，在daemon.json文件中添加默认运行时

vim /etc/docker/daemon.json

{
    "default-runtime": "nvidia",		#设置默认运行时
    "runtimes": {
        "nvidia": {
            "args": [],
            "path": "nvidia-container-runtime"
        }
    }
}

四、重启dockers，并确认默认运行时生效

 systemctl restart docker
docker info | grep -i 'Default Runtime'

五、k3s安装nvidia-device-plugin插件(在master节点上安装)

#在master节点上安装
#k8s中要识别gpu资源，需要安装nvidia-device-plugin插件,注册分配gpu主要由device-plugin插件完成
#官网:https://github.com/NVIDIA/k8s-device-plugin
wget https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.14.1/nvidia-device-plugin.yml
#vim nvidia-device-plugin.yml #该文件存在hostpath的卷,确认kubelet的安装路径正确
kubectl apply -f nvidia-device-plugin.yml
kubectl  get pod -n kube-system  | grep nvidia-device-plugin

在master节点上查看

六、pod中使用GPU

只需要下载能识别GPU的基础镜像,使用该基础镜像启动容器，使用该基础镜像pod中不需要配置 resources: limits: nvidia.com/gpu: 1 中也能正常识别GPU

docker pull nvidia/cuda:12.2.0-base-ubuntu22.04

参考链接：k8s中如何使用gpu、gpu资源讲解、nvidia gpu驱动安装_kubernetes 查看节点 gpu-CSDN博客

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2094472.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

k3s中使用GPU资源

相关文章

Python 数据分析笔记— Numpy 基本操作（上）

如何通过住宅代理进行高效SSL检查

[Leetcode 47][Medium]-全排列 II-回溯(全排列问题)

Kotaemon：开源的RAG UI

【再回顾面向对象】，关键字Satic、final

AcWing 902. 最短编辑距离

文心快码前端工程师观点分享：人机协同新模式的探索之路（一）

mysql基础练习题 1082.销售分析1 （力扣）

[数据集][目标检测]玉米病害检测数据集VOC+YOLO格式6000张4类别

提升学术写作效率：ChatGPT的70个必知技巧！

Java 入门指南：Java 并发编程 —— ReentrantLock 实现悲观锁（Pessimistic Locking）

内存管理篇-17解开页表的神秘面纱-下

您应该使用哪个矢量数据库？选择最适合您需求的数据库

中国文化艺术孙溟展浅析《绛帖》

双硬盘双系统怎么装?双硬盘双系统安装教程(win7+win10双系统)

个人旅游网(2.1)——使用阿里云在springboot项目中发送短信

操作系统面试真题总结（三）

8月31复盘日记

FastAPI+Vue3零基础开发ERP系统项目实战课 20240831上课笔记路径参数

基于卷积神经网络的磨削平板类零件擦伤检测