Docker核心技术:Docker原理之Cgroups

news2024/9/20 7:46:24

云原生学习路线导航页(持续更新中)

本文是 Docker核心技术 系列文章:Docker原理之Cgroups,其他文章快捷链接如下:

  • 应用架构演进
  • 容器技术要解决哪些问题
  • Docker的基本使用
  • Docker是如何实现的
    • Docker核心技术:Docker原理之Namespace
    • Docker核心技术:Docker原理之Cgroups(本文)
    • Docker核心技术:Docker原理之Union文件系统

4.4.Cgroups:资源管控

4.4.1.Cgroups是什么

在这里插入图片描述

  • Cgroups是谷歌Borg系统内部做资源管控的,后来将之提供到了Linux Kernel中

  • Linux内核中,Cgroups实现

    • 在一个task中,还有另外一个属性 cgroups

    在这里插入图片描述

4.4.2.Cgroups工作机制

在这里插入图片描述

  • Cgroups实际上就是一个文件系统,在Linux的 /sys/fs/cgroup

  • Cgroup本身又有很多的子系统,包括cpu子系统 /sys/fs/cgroup/cpu、memory子系统 /sys/fs/cgroup/memory等等,每个子系统中又包括各种配置文件,配置子系统的参数

    • 比如cpu子系统中,包含多个配置文件,负责控制cpu绝对值、cpu相对值、cpu limit等等

    • 如果想要控制一个进程的cpu绝对值,就修改cgroup目录下相应的文件,就可以立即做到cpu的限额

      在这里插入图片描述

  • 如果是容器,每个容器都有自己的cgroup

  • 【🌟】cgroups的结构:树形结构

    • /sys/fs/cgroup
      • cpu子系统
        • 当前子系统的cpu配置文件
        • 每个目录:又是关联到cpu子系统 的 子系统,目录内部又会包含当前子系统的cpu配置文件
      • memory子系统

4.4.3.Cgroups包含哪些子系统

在这里插入图片描述

4.4.4.Cgroups CPU子系统

  • cpu子系统下,有很多配置,常用的配置文件如下:
    • cpu.shares:设置cpu的相对值
      • 假设一个主机有3个CPU,创建了2个cgroup
      • Cgroup1 中 cpu.shares 写512,cgroup2 中 cpu.shares写1024
      • 意味着,这两个cgroup,可以按照 512: 1024=1: 2 的比例分摊cpu的时间,即Cgroup1 会分到1个CPU、Cgroup2 会分到2个CPU
      • 不过1:2只是一个相对值,如果Cgroup2 中压根没有进程,则 Cgroup1中的进程,就可以使用超过1个CPU
    • cpu.cfs_period_us、:cpu.cfs_quota_us:相互配合,设置cpu的绝对值
      • cpu.cfs_period_us:控制cpu时间周期的长度,默认是10万,100000
      • cpu.cfs_quota_us:控制当前cgroup能拿到一个cpu时间周期的多少。
        • 默认是-1,即不限制当前cgroups下进程可使用的cpu绝对值
        • 可如果你设置 cpu.cfs_period_us为 10万,cpu.cfs_quota_us为 1万,则表示 当前cgroup中的进程,一共可以得到 1万/10万=0.1个CPU
        • 这是一个绝对值,当前cgroup下的 所有进程 占用cpu的总时间,不可超过0.1个CPU时间
    • cpuacct.usage:进行cgroup及其子cgroup下的,cpu使用情况的统计分析,可用做监控
      在这里插入图片描述

4.4.5.拓展:Linux中多个进程如何共享cpu时间片

4.4.5.1.Linux内核的调度器
  • Linux Kernel 2.6.23 以后,默认的是CFS(Completely Fair Scheduler)完全公平调度器

4.4.5.2.CFS调度器

4.4.5.3.vruntime红黑树
  • 进程初始化时,为进程初始化它的vruntime值,插入树中,最小值放在左边,最大值放右边
  • 每次进程调度,都拿最左边的那个进程去运行。
  • 每次调度之后,时钟周期会为被调度进程重新计算一遍vruntime,公式:vruntime=实际运行时间*1024/进程权重
    • 进程权重相当于cpu_share的那个比例值
    • 被调度的进程,vruntime会一直涨;未被调度的进程,vruntime就不会变
    • 当被调度的进程,vruntime不再是最小的了,红黑树结构就会发生变化,将下次应该调度的进程放在最左边
  • 按照这样的模式,就可以 按照进程权重的设置,为每个进程分配 公平的cpu时间

4.4.5.4.CFS进程调度在Linux Kernel中的实现
  • 感兴趣的可以深入

4.4.6.Cgroup Memory子系统

  • memory子系统下,有很多配置,常用的配置文件如下:

    • memory.soft_limit_in_bytes:内存软限制
    • memory.limit_in_bytes:内存硬限制,进程使用超过就会OOM
    • memory.oom_control:当发生OOM时,对进程执行什么操作,默认是 kill 进程。memory.oom_control中默认包含3个值:
      • oom_kill_disable 0:该参数表示是否禁用 OOM 杀死进程的功能。如果值为 0,则表示未禁用,即允许内核在 OOM 事件发生时杀死进程以释放内存。如果值为 1,则表示已禁用,即内核不会杀死进程
      • under_oom 0:该参数表示是否处于 OOM 状态。如果值为 0,则表示系统当前未处于 OOM 状态。如果值为 1,则表示系统当前处于 OOM 状态
      • oom_kill 0:该参数表示是否已经执行了 OOM 杀死进程的操作。如果值为 0,则表示尚未执行 OOM 杀死进程的操作。如果值为 1,则表示已经执行了 OOM 杀死进程的操作

4.4.7.Cgroup CPU 子系统练习

  • 练习:使用Cgroups控制进程的资源开销

  • 进入主机的 /sys/fs/cgroup/cpu目录下,mkdir cpudemo

    • 相当于我们创建了一个新的cgroup,并将其与 CPU 子系统相关联
    • linux会自动为cpudemo目录中,创建cpu的各种配置文件

    在这里插入图片描述

  • 准备一个死循环的程序,用来占用cpu资源

    • 该程序会吃掉两个cpu
    package main
    
    func main(){
      // 协程1:死循环会吃掉一个cpu
      go func(){
        for {
        }
      }()
      // 主协程:死循环也会吃掉一个cpu
      for {
        
      }
    }
    
  • 将上面的程序写入一个main.go,然后build一下

    [root@VM-226-235-tencentos ~/zgy/code/test_cpu]# go build main.go 
    [root@VM-226-235-tencentos ~/zgy/code/test_cpu]# ls
    main  main.go
    
  • 在终端前台执行一下这个程序,终端会卡住,因为是死循环,没有任何输出

    在这里插入图片描述

  • 另外打开一个终端,使用top命令查看现在的cpu使用情况

    • 可以看到,main程序果然吃掉了2个CPU
    • main程序的pid为:19963

  • 现在我们去cpudemo cgroup下,为这个进程设置CPU限额

    [root@VM-226-235-tencentos /sys/fs/cgroup/cpu/cpudemo]# cd /sys/fs/cgroup/cpu/cpudemo
    
    # 将main程序的pid,写入cgroup.procs,表示将main进程加入这个cgroup控制
    [root@VM-226-235-tencentos /sys/fs/cgroup/cpu/cpudemo]# echo 19963 > cgroup.procs
    [root@VM-226-235-tencentos /sys/fs/cgroup/cpu/cpudemo]# cat cgroup.procs
    19963
    
    # 使用绝对值控制cpu使用额度,cpu.cfs_period_us默认是10万,向cpu.cfs_quota_us写入1万,则main进程的cpu额度将会被限制在0.1个CPU
    [root@VM-226-235-tencentos /sys/fs/cgroup/cpu/cpudemo]# echo 10000 > cpu.cfs_quota_us
    [root@VM-226-235-tencentos /sys/fs/cgroup/cpu/cpudemo]# cat cpu.cfs_period_us
    100000
    [root@VM-226-235-tencentos /sys/fs/cgroup/cpu/cpudemo]# cat cpu.cfs_quota_us
    10000
    
  • 再次top查看 main进程的cpu使用,果然被限制在0.1附近

    在这里插入图片描述

  • 可以用同样的方法,将cpu.cfs_quota_us值改成1.5万,则cpu将会被限制在0.15个

    在这里插入图片描述

  • 删除子系统

    • 注意,直接使用rm是删不掉cgroup子系统的

    • 需要先安装cgroup-tools的工具,然后执行cgdelete命令,才可以删除子系统

      # ubuntu下用apt,centos下用yum
      apt install cgroup-tools
      cd /sys/fs/cgroup/cpu
      cgdelete cpu:cpudemo
      

4.4.8.Cgroup Memory子系统练习

在这里插入图片描述

  • 进入主机的 /sys/fs/cgroup/memory目录下,mkdir memorydemo

    • 相当于我们创建了一个新的cgroup,并将其与 Memory 子系统相关联
    • linux会自动为memorydemo目录中,创建memory的各种配置文件
      在这里插入图片描述
  • 准备一个死循环的程序,用来占用memory资源。

    • 程序效果:

      • 该程序每隔1分钟就申请100MB内存,并将其填充为字符 ‘A’。共申请10次,最多申请1000MB。

      • 可以通过 watch 命令,定期执行给定的命令并显示其输出,监视内存使用情况

        watch 'ps -aux | grep malloc | grep -v grep'
        
        1. watch 命令:watch 是一个 Linux 命令,用于定期执行给定的命令并显示其输出。
        2. ps aux 命令:ps 是一个用于查看当前运行进程的命令。aux 选项用于显示所有用户的所有进程,并以紧凑的格式显示进程的信息。
        3. grep malloc 命令:grep 是一个用于在文本中搜索指定模式的命令。在这里,它用于过滤出包含 “malloc” 字符串的行,即查找正在运行的进程中使用 malloc 函数进行内存分配的进程。
        4. grep -v grep 命令:-v 选项用于反向匹配,即排除包含 “grep” 字符串的行。这是为了避免在结果中显示 grep 命令本身的进程。
      • 然后我们通过修改cgroup下的配置文件,将该进程的内存使用量,限制在100MB,超过时会OOM。

      在这里插入图片描述

    • 创建一个main.go文件

      package main
      
      //#cgo LDFLAGS:
      //char* allocMemory();
      import "C"
      import (
      	"fmt"
      	"time"
      )
      
      func main() {
      	// only loop 10 times to avoid exhausting the host memory
      	holder := []*C.char{}
      	for i := 1; i <= 10; i++ {
      		fmt.Printf("Allocating %dMb memory, raw memory is %d\n", i*100, i*100*1024*1025)
      		// hold the memory, otherwise it will be freed by GC
      		holder = append(holder, (*C.char)(C.allocMemory()))
      		time.Sleep(time.Minute)
      	}
      }
      
    • 创建一个 malloc.c 文件

      #include <stdlib.h>
      #include <stdio.h>
      #include <string.h>
      
      #define BLOCK_SIZE (100*1024*1024)
      char* allocMemory() {
          char* out = (char*)malloc(BLOCK_SIZE);
          memset(out, 'A', BLOCK_SIZE);
          return out;
      }
      
    • 创建一个Makefile

      build:
      	CGO_ENABLED=1 GOOS=linux CGO_LDFLAGS="-static" go build
      
  • 程序写完,make build一下

    [root@VM-226-235-tencentos ~/zgy/code/test_mem]# go mod init example.com/memory-test
    [root@VM-226-235-tencentos ~/zgy/code/test_mem]# go mod tidy
    [root@VM-226-235-tencentos ~/zgy/code/test_mem]# make build
    [root@VM-226-235-tencentos ~/zgy/code/test_mem]# ls
    go.mod  main.go  Makefile  malloc.c  memory-test
    
  • 在终端前台执行一下这个程序,终端会卡住,因为进程每次循环都会sleep 1min

    在这里插入图片描述

  • 另外打开一个终端,使用 watch 'ps -aux | grep malloc | grep -v grep' 命令查看现在的 malloc 内部的进程情况

    • 可以看到,有一个进程memory-test,果然malloc了100MB的内存
    • memory-test进程的pid为:13433

    在这里插入图片描述

  • 现在我们去memorydemo cgroup下,为这个进程设置Memory限额

    [root@VM-226-235-tencentos /sys/fs/cgroup/memory/memorydemo]# cd /sys/fs/cgroup/memory/memorydemo
    
    # 将memory-test进程的pid,写入cgroup.procs,表示将 memory-test 进程加入这个cgroup控制
    [root@VM-226-235-tencentos /sys/fs/cgroup/cpu/cpudemo]# echo 13433 > cgroup.procs
    [root@VM-226-235-tencentos /sys/fs/cgroup/cpu/cpudemo]# cat cgroup.procs
    13433
    
    # 向 memory.limit_in_bytes 写入 104960000,大约是100MB
    [root@VM-226-235-tencentos /sys/fs/cgroup/cpu/cpudemo]# echo 104960000 > memory.limit_in_bytes
    [root@VM-226-235-tencentos /sys/fs/cgroup/cpu/cpudemo]# cat memory.limit_in_bytes
    104960000
    
  • 在程序执行的终端可以看到,进程已经被kill掉了,因为申请内存超过了100MB,被执行OOM了。默认的OOM策略就是kill process

    在这里插入图片描述

4.4.9.kubernetes Pod的cgroup怎么查看

  • 方法一:进入pod内部查看
    • 进入pod内部,在 /sys/fs/cgroup下面,可以看到当前pod的所有 cgroup设置
    • 比如 /sys/fs/cgroup/cpu 中,cpu.cfs_period_us、cpu.cfs_quota_us 就以绝对值的方式,设置了pod的 cpu limit
    • 再比如,在 /sys/fs/cgroup/memory 中,memory.limit_in_bytes 就设置了pod的 memory limit
  • 方法二:在pod所在主机上查看
    • 进入主机的 /sys/fs/cgroup,每一个子系统中,都有一个kubepods的目录,里面存储着所有pod的cgroup
    • kubepods里面,还有一个burstable目录,这就是所有pod cgroup的存储位置
    • 比如,查看一个pod的cpu cgroup,就应该进入:/sys/fs/cgroup/cpu/kubepods/burstable/podxxxx-xxxx/
      • 其中 podxxxx-xxxx 表示pod的uid,可以使用kubectl get pods podxxx -oyaml找到

4.4.10.kubelet启动时,报错cgroup driver不一致

在这里插入图片描述

  • 因此,启动kubelet时,有时会报错:cgroup driver不一致,kubelet启动失败。原因如下:

    • kubelet默认使用 systemd 作为 cgroup driver
    • 如果你本地还装了docker,且docker默认使用的是 cgroupfs 作为 cgroup driver。
    • 二者cgroup driver不同,kubelet出于保护,会禁止启动
  • 解决方法:将docker的cgroup driver改成和kubelet一样,比如将docker的cgroup driver改成systemd,操作如下:

    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1945675.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

扭蛋机潮玩小程序搭建,扭蛋机行业的创新

在当下潮玩市场中&#xff0c;扭蛋机具有盲盒的未知性和惊喜体验感&#xff0c;商品丰富&#xff0c;并且价格相对低廉&#xff0c;获得了极高的人气。年轻人开始对扭蛋机逐渐“上头”&#xff0c;为了扭到喜欢的商品不断地进行复购下单&#xff0c;在这场随机性的扭蛋游戏中&a…

Java语言程序设计——篇七(1)

&#x1f33f;&#x1f33f;&#x1f33f;跟随博主脚步&#xff0c;从这里开始→博主主页&#x1f33f;&#x1f33f;&#x1f33f; 继承 类的继承实战演练 方法覆盖实战演练 &#x1f351;super关键字实战演练 调用父类的构造方法 类的继承 通过类的继承方式&#xff0c;可以…

【Qt】QWidget核心属性相关API

目录 一. enabled——是否可用 二. geometry——几何位置 window frame 三. windowTitle——窗口标题 四. windowIcon——窗口图标 ​qrc文件 五. windowOpacity——透明度 六. cursor——光标 自定义光标 七. font——字体 八. toolTip——提示栏 九. focusPolic…

git免密推送代码至仓库gitee/github 常用命令

代码托管 gitee github gitclone 1 生成/添加SSH公钥 ssh-keygen -C "***qq.com"2 gitee添加公钥 查看公钥 cat ~/.ssh/id_rsa.pub然后再gitee添加 3 验证 gitee ssh -T gitgitee.comgithub ssh -T gitgithub.comgitclone&#xff1a;无法测试&#xff0c…

MSSQL注入前置知识

简述 Microsoft SQL server也叫SQL server / MSSQL&#xff0c;由微软推出的关系型数据库&#xff0c;默认端口1433 常见搭配C# / .net IISmssql mssql的数据库文件 数据文件&#xff08;.mdf&#xff09;&#xff1a;主要的数据文件&#xff0c;包含数据表中的数据和对象信息…

Vue3可媲美Element Plus Tree组件开发之append节点

在前面的章节&#xff0c;我们完成了可媲美Element Plus Tree组件的基本开发。通过实现各种计算属性&#xff0c;tree数据状态变化引起的视图更新被计算属性所接管了&#xff0c;无需我们再手动做各种遍历、查找以及手动监听操作&#xff0c;这样后续开发高级功能变得易如反掌啦…

插入和选择排序

1.1直接插入排序 void InsertSort(int* a, int n) {for (int i 1; i < n - 1; i) {//i的范围要注意的&#xff0c;防止指针越界int end i;int tmp a[end 1];while (end>0) {if (tmp< a[end]) {a[end 1] a[end];//小于就挪动&#xff0c;虽然会覆盖后面空间的值…

Qt Creator平台编译snmp++

声明 &#xff1a;本文的大部分资源参考自文章&#xff0c;编译snmp的方法我也是在这里学习的&#xff0c;结合自己的需求&#xff0c;做了snmp和Agent的混合编译。需要了解更多的详情可以点击链接去看原文&#xff0c;我总结了自己的编译过程&#xff0c;并写下此文作为一个回…

Springboot+vue自制可爱英语日记系统-XD动画测试版

目录 项目背景与愿景 项目流程 需求分析 设计之美 技术实现 部署策略 未来展望 项目寄语 项目预览 项目页面展现 引导页(3张) 首页 日记模块 日记模块-写日记 信箱模块 回收箱模块 前端开发 前端开发概述 关键技术选型 开发流程 后端开发 后端开发概述 …

【算法/训练】:动态规划

一、路径类 1. 字母收集 思路&#xff1a; 1、预处理 对输入的字符矩阵我们按照要求将其转换为数字分数&#xff0c;由于只能往下和往右走&#xff0c;因此走到&#xff08;i&#xff0c;j&#xff09;的位置要就是从&#xff08;i - 1&#xff0c; j&#xff09;往下走&#x…

C++笔记3:基类指针delete子类对象的内存泄漏问题

根据《effective C》第7章所述&#xff0c;new的一个子类对象赋值给基类指针delete的时候为了防止子类的析构函数没有调用要在基类的析构函数加上virtual 关键字&#xff1a; #include <stdint.h> #include <iostream> #include <iomanip> #include <vec…

零代码实现GIS视效提升,一键添加体积云体积雾

在三维GIS开发中&#xff0c;场景的真实感和高效性始终是用户的核心需求。为此&#xff0c;山海鲸可视化提供了完美的解决方案。这款免费可视化工具不仅支持多种GIS影像协议&#xff08;TMS、WMS、WMTS等&#xff09;&#xff0c;还可以一键添加体积云和体积雾效果&#xff0c;…

FastGPT 知识库搜索测试功能解析(一)

本文以 FastGPT 知识库的搜索测试功能为入口,分析 FastGPT 的知识检索流程。 一、搜索功能介绍 1.1 整体介绍 搜索测试功能包含三种类型:语义检索、全文检索、混合检索。 语义检索:使用向量进行文本相关性查询,即调用向量数据库根据向量的相似性检索; 全文检索:使用…

Axure软件新功能解析与应用技巧分享

Axure是一种用于创建原型和交互设计的软件工具&#xff0c;广泛应用于操作界面。&#xff08;UI&#xff09;和客户体验&#xff08;UX&#xff09;为了展示和测试应用程序、网站或其他数据产品的性能和操作界面&#xff0c;设计帮助产品经理、设计师和开发者制作具有交互性的原…

17.jdk源码阅读之LinkedBlockingQueue

1. 写在前面 LinkedBlockingQueue 是 Java 并发包中的一个重要类&#xff0c;常用于生产者-消费者模式等多线程编程场景。上篇文章我们介绍了ArrayBlockingQueue&#xff0c;并且与LinkedBlockingQueue做了简单的对比&#xff0c;这篇文章我们来详细分析下LinkedBlockingQueue…

RAS--APEI 报错解析流程(2)

RAS--APEI 报错解析流程(1) 除了APEI 中除了GHES会记录错误&#xff0c;在Post过程中的错误通常是通过BERT Table汇报 1.BERT Boot Error Record Table is used to report unhandled errors that occurred in a previous boot&#xff0c;it is reported as a ‘one-time polle…

一文弄懂JVM类加载器与双亲委派机制

类的加载器完成类的加载环节中的装载阶段的工作&#xff08;通过一个类的全限定名来获取该类的二进制字节流&#xff0c;且这个动作在虚拟机**外部实现**&#xff0c;即开发者可以决定如何去获取所需的类&#xff09;&#xff0c;且**不会影响后续的链接和初始化阶段&#xff0…

《算法笔记》总结No.10——链表

从第10期破例插叙一期单链表的实现&#xff0c;这个东东相当重要&#xff01;考研的同学也可以看&#xff1a;相较于王道考研的伪码不太相同&#xff0c;专注于可以运行。如果是笔试中的伪码&#xff0c;意思正确即可~ 注&#xff1a;博主之前写过一个版本的顺序表和单链表的C实…

谷粒商城实战笔记-56~57-商品服务-API-三级分类-修改-拖拽功能完成

文章目录 一&#xff0c;56-商品服务-API-三级分类-修改-拖拽功能完成二&#xff0c;57-商品服务-API-三级分类-修改-批量拖拽效果1&#xff0c;增加按钮2&#xff0c;多次拖拽一次保存完整代码 在构建商品服务API中的三级分类修改功能时&#xff0c;拖拽排序是一个直观且高效的…

Linux:Linux权限

目录 1. Linux权限的概念 2. Linux权限管理 2.1 文件访问者的分类 2.2 文件类型和访问权限 2.2.1 文件类型 2.2.2 基本权限 2.3 文件权限值的表示方法 2.4 文件访问权限的相关设置方法 2.4.1 chmod 2.4.2 chown 2.4.3 chgrp 2.4.4 umask 3. file指令 4. Linux目…