DEVOPS: 集群伸缩原理

news2025/1/11 7:45:03

概述

  • 阿里云 K8S 集群的一个重要特性,是集群的节点可以动态的增加或减少
  • 有了这个特性,集群才能在计算资源不足的情况下扩容新的节点,同时也可以在资源利用
    率降低的时候,释放节点以节省费用
  • 理解实现原理,在遇到问题的时候,我们就可以高效地排查并定位原因
  • 我们的讨论基于1.12.6 版本

节点增加原理

  • 阿里云 K8S 集群可以给集群增加节点的方式有,添加已有节点,集群扩容,和自动伸缩
  • 其中,添加已有节点又可分为手动添加已有节点和自动添加已有节点
  • 节点的增加涉及到的组件有,节点准备,弹性伸缩(ESS),管控,Cluster Autoscaler 以及调度器

手动添加已有节点

  • 节点准备,其实就是把一个普通的 ECS 实例,安装配置成为一个 K8S 集群节点的过程
  • 这个过程仅靠一条命令就可以完成,这条命令使用 curl 下载 attach_node.sh 脚本
  • 然后以 openapi token 为参数,在 ECS 上运行
  • curl http:///public/pkg/run/attach//attach_node.sh | bash -s – --openapi-token
    • 这里 token 是一个对的 key,而 value 是当前集群的基本信息
    • 阿里云 K8S集群的管控,在接到手动添加已有节点请求的时候
    • 会生成这个对,并把 key 作为token 返回给用户
    • 这个 token(key)存在的价值,是其可以让 attach_node.sh 脚本
    • 以匿名身份在 ECS 上索引到集群的基本信息(value)
    • 而这些基本信息,对节点准备至关重要
  • 总体上来说,节点准备就做两件事情,读和写,读即数据收集,写即节点配置
  • 这里的读写过程,绝大部分都很基础,大家可以通过阅读脚本来了解细节
  • 唯一需要特别说明的是,kubeadm join 把节点注册到 Master 的过程
  • 此过程需要新加节点和集群 Master 之间建立互信
  • 一边,新加节点从管控处获取的 bootstrap token
    • 与 openapi token 不同,此token 是 value 的一部分内容
    • 实际上是管控通过可信的途径从集群 Master 上获取的
    • 新加节点使用这个 bootstrap token 连接 Master
    • Master 则可通过验证这个 bootstrap token 来建立对新加节点的信任
  • 另一边,新加节点以匿名身份从 Master kube-public 命名空间中获取集群cluster-info
    • cluster-info 包括集群 CA 证书,和使用集群 bootstrap token 对这个 CA 做的签名
    • 新加节点使用从管控处获取的 bootstrap token
    • 对 CA 生成 b 新的签名,然后将此签名与 cluster-info 内签名做对比
    • 如果两个签名一致,则说明cluster-info 和 bootstrap token 来自同一集群
    • 新加节点因为信任管控,所以建立对 Master 的信任

自动添加已有节点

  • 自动添加已有节点,不需要人为拷贝黏贴脚本到 ECS 命令行来完成节点准备的过程
  • 管控使用了 ECS userdata 的特性,把类似以上节点准备的脚本,写入ECS userdata
  • 然后重启 ECS 并更换系统盘。当 ECS 重启之后,会自动执行 Userdata 里边的脚本
  • 来完成节点添加的过程。这部分内容,大家其实可以通过查看节点 userdata 来确认

!/bin/bash

mkdir -p /var/log/acs
curl http:///public/pkg/run/attach/1.12.6-aliyun.1/attach_node.sh | bash
-s -- --docker-version --token --endpoint --cluster-dns > /var/log/acs/init.log
  • 这里我们看到,attach_node.sh 的参数,与前一节的参数有很大的不同
  • 其实这里的参数,都是前一节 value 的内容,即管控创建并维护的集群基本信息
  • 自动添加已有节点省略了通过 key 获取 value 的过程

集群扩容

  • 集群扩容与以上添加已有节点不同,此功能针对需要新购节点的情形
  • 集群扩容的实现,在添加已有节点的基础上,引入了弹性伸缩 ESS 组件
  • ESS 组件负责从无到有的过程,而剩下的过程与添加已有节点类似
  • 即依靠 ECS userdata 脚本来完成节点准备
  • 下图是管控通过 ESS 从无到有创建 ECS 的过程

自动伸缩

  • 前边三种方式是需要人为干预的伸缩方式,而自动伸缩的本质不同
  • 是它可以在业务需求量增加的时候,自动创建 ECS 实例并加入集群
  • 为了实现自动化,这里引入了另外一个组件 Cluster Autoscaler
  • 集群自动伸缩包括两个独立的过程
  • 其中第一个过程,主要用来配置节点的规格属性,包括设置节点的用户数据
  • 这个用户数据和手动添加已有节点的脚本类似,不同的地方在于,其针对自动伸缩这种场景,增加了一些专门的标记
  • attach_node.sh 脚本会根据这些标记,来设置节点的属性

!/bin/sh

curl http:///public/pkg/run/attach/1.12.6-aliyun.1/attach_node.sh | bash -s -- --openapi-token --ess true --labels k8s.io/cluster-autoscaler=true,workload_type=cpu,k8s.aliyun.com=true
  • 而第二个过程,是实现自动增加节点的关键
  • 这里引入了一个新的组件 Autoscaler,它以 Pod 的形式运行在 K8S 集群中
  • 理论上来说,我们可以把这个组件当做一个控制器
  • 因为它的作用与控制器类似,基本上还是监听 Pod 状态
  • 以便在 Pod 因为节点资源不足而不能被调度的时,去修改 ESS 的伸缩规则来增加新的节点
  • 这里有一个知识点,集群调度器衡量资源是否充足的标准,是“预订率”,而不是“使用率”
  • 这两者的差别,类似酒店房价预订率和实际入住率:
    • 完全有可能有人预订了酒店
    • 但是并没有实际入住
  • 在开启自动伸缩功能的时候,我们需要设置缩容阈值,就是“预订率”的下线
  • 之所以不需要设置扩容阈值。是因为 Autoscaler 扩容集群
  • 依靠的是 Pod 的调度状态:当 Pod 因为节点资源“预订率”太高无法被调度的时候 Autoscaler 就会扩容集群

节点减少原理

  • 与增加节点不同,集群减少节点的操作只有一个移除节点的入口
  • 但对于用不同方法加入的节点,其各自移除方式略有不同
  • 首先,通过添加已有节点加入的节点,需要三步去移除:
    • 管控通过 ECS API 清楚 ECS userdata;
    • 管控通过 K8S API 从集群中删除节点;
    • 管控通过 ECS Invoke-Command 在 ECS 上执行 kubeadm reset 命令清理节点
  • 其次,通过集群扩容加入的节点,则在上边的基础上,增加了断开 ESS 和 ECS 关系的操作,此操作由管控调用 ESS API 完成
  • 最后,经过 Cluster Autoscaler 动态增加的节点,则在集群 CPU 资源“预订率”降低的时候,由 Cluster Autoscaler 自动移除释放
  • 其触发点是 CPU“预订率”,即上图写 Metrics 的原因

总结

  • 总体上来说,K8S 集群节点的增加与减少,主要涉及四个组件,分别是 Cluster
    Autoscaler,ESS,管控以及节点本身(准备或清理)
  • 根据场景不同,我们需要排查不同的组件
    • 其中 Cluster Autoscaler 是一个普通的 Pod,其日志的获取和其他Pod 无异
    • ESS 弹性伸缩有其专门的控制台
    • 我们可以在控制台排查其伸缩配置、伸缩规则等相关子实例日志和状态
    • 而管控的日志,可以通过查看日志功能来查看
  • 最后,对于节点的准备与清理,其实就是排查对应的脚本的执行过程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2230648.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

git 删除远程不存在本地命令却能看到的分支

要删除远程不存在但本地却能看到的分支&#xff0c;你可以按照以下步骤操作&#xff1a; 删除本地分支&#xff1a; 如果你确定要删除的分支已经没有用处&#xff0c;可以使用以下命令来删除本地分支&#xff1a; git branch -d <branch-name>这里的 <branch-name>…

《Python游戏编程入门》注-第4章6

《Python游戏编程入门》的“轮询鼠标”内容介绍了通过轮询鼠标实现实时显示鼠标位置和按键状态的游戏。 1 游戏介绍 实时显示鼠标位置和按键状态的游戏如图1所示。 图1 实时显示鼠标位置和按键状态 从图1中可以看到&#xff0c;游戏界面主要分为上下两部分。其中&#xff0c…

ENNSP中ACL的实验配置

ACL&#xff1a;访问控制列表 1访问控制----在路由器的入或者出的接口上&#xff0c;匹配流量&#xff0c;之后产生动作---允许或拒绝 2.定义感兴趣流量-----帮助其他软件抓流量 访问控制的匹配规则&#xff1a; 拓扑图如下 基础配置 基础配置弄好后&#xff0c;随便p…

C++设计模式结构型模式———装饰模式

文章目录 一、引言二、装饰器模式三、总结 一、引言 装饰模式是一种结构型设计模式&#xff0c; 允许你通过将对象放入包含行为的特殊封装对象中来为原对象绑定新的行为。 该模式展现出了运行时的一种扩展能力&#xff0c;以及比继承更强大和灵活的设计视角和设计能力&#x…

第7章 内容共享

第 7 章 内容共享 bilibili学习地址 github代码地址 本章介绍Android不同应用之间共享内容的具体方式&#xff0c;主要包括&#xff1a;如何利用内容组件在应用之间共享数据&#xff0c;如何使用内容组件获取系统的通讯信息&#xff0c;如何借助文件提供器在应用之间共享文件…

分布式锁(redisson,看门狗,主从一致性)

目录 分布式锁一&#xff1a;基本原理和实现方式二&#xff1a;分布式锁的实现1&#xff1a;分布式锁的误删问题2&#xff1a;解决误删问题 三&#xff1a;lua脚本解决多条命令原子性问题调用lua脚本 四&#xff1a;Redisson1&#xff1a;redisson入门2&#xff1a;redisson可重…

Java实战项目-基于SpringBoot+Vue的二手车交易系统的研究与实现

博主介绍&#xff1a;✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;…

JVM学习总结:类的加载篇

本文是学习尚硅谷宋红康老师主讲的尚硅谷JVM精讲与GC调优教程的总结&#xff08;文末有链接&#xff09; 本篇可能被问到的问题&#xff1a; 类的加载过程类加载器 自定义类的加载器、ClassLoader双亲委派机制&#xff0c;破坏此机制的例子 类的加载过程&#xff08;生命周期…

CSS例子: 横向排列的格子

效果 HTML <view class"content"><view class"item" v-for"item of 5">{{item}}</view></view> CSS .content {height: 100vh;display: flex;flex-direction: row; flex-wrap: wrap;align-content: flex-start;backgro…

ElementUI el-form表单多层数组的校验

问题描述 提示&#xff1a;这里描述项目中遇到的问题&#xff1a; ElementUI el-form表单多层数组的校验 页面效果&#xff1a; 数据结构&#xff1a; addform: {code: ,type: ,value: ,state: 1,remark: ,fieldList: [{fieldCode: ,resolverEntities: [{resolverType: , re…

房贷利率定价调整机制变更的一点理解

个人理解&#xff1a; 1、已知2024年第三季度全国新发放商业性个人住房贷款加权平均利率为3.33%。 而2024年7月、8月、9月的5年期以上LPR数据分别如下&#xff1a; - 7月20日调整后&#xff0c;5年期以上LPR为3.75%&#xff1b; - 8月的5年期以上LPR与7月相同&#xff0c;…

设计模式讲解01-建造者模式(Builder)

1. 概述 建造者模式也称为&#xff1a;生成器模式 定义&#xff1a;建造者模式是一种创建型设计模式&#xff0c;它允许你将创建复杂对象的步骤与表示方式相分离。 解释&#xff1a;建造者模式就是将复杂对象的创建过程拆分成多个简单对象的创建过程&#xff0c;并将这些简单…

[MySQL]DQL语句(一)

查询语句是数据库操作中最为重要的一系列语法。查询关键字有 select、where、group、having、order by、imit。其中imit是MySQL的方言&#xff0c;只在MySQL适用。 数据库查询又分单表查询和多表查询&#xff0c;这里讲一下单表查询。 基础查询 # 查询指定列 SELECT * FROM …

C/C++语言基础--C++模板与元编程系列三(变量模板、constexpr、萃取等…………)

本专栏目的 更新C/C的基础语法&#xff0c;包括C的一些新特性 前言 模板与元编程是C的重要特点&#xff0c;也是难点&#xff0c;本人预计将会更新10期左右进行讲解&#xff0c;这是第三期&#xff0c;讲变量模板、constexpr、萃取等知识&#xff1b;C语言后面也会继续更新知…

leetcode155:最小栈

设计一个支持 push &#xff0c;pop &#xff0c;top 操作&#xff0c;并能在常数时间内检索到最小元素的栈。 实现 MinStack 类: MinStack() 初始化堆栈对象。void push(int val) 将元素val推入堆栈。void pop() 删除堆栈顶部的元素。int top() 获取堆栈顶部的元素。int get…

探秘机器学习算法:智慧背后的代码逻辑

1、 线性回归 线性回归是预测连续变量的一种简单而有效的方法。其数学模型假设因变量 y 与自变量 x 之间存在线性关系&#xff0c;用公式表示为&#xff1a; ​ Python代码实现 import numpy as np from sklearn.linear_model import LinearRegression import matplotlib.…

Spring中@Import和@ComponentScan注解差异

首先我们定义两个类 进行Component扫描 返回结果 进行Import导入 返回 结果 可以看 我们在对该类的所有bean加载没有任何问题 结果一致 但神奇的地方在于此时 我们把Tiger类头的Component注解去掉 ComponentScan注解无法识别Tiger中的Lion Bean 删掉Component 再进行ComonentS…

Ceph 学习指南 集群部署【 cephadm 】

文章目录 引言初识 Server SANServer SAN 和传统存储对比 Ceph 概述Ceph 的架构设计Ceph 的特点Ceph 块存储Ceph 文件系统Ceph 对象存储Ceph 介绍 Ceph 集群部署配置 aliyun 源配置时间同步配置 hosts 文件安装 docker配置免密登录ceph 集群部署ceph1 配置安装 python3安装 cep…

(JVM)在JVM中,类是如何被加载的呢?本篇文章就带你认识类加载的一套流程!

在讲类加载前&#xff0c;需要先了解一下方法区、堆和直接内存三块内存区域的运行模式 1. 方法区 JVM中的方法去是所有线程中共享的一块区域 它存储了跟类相关的信息 方法区 会在虚拟机被启动时创建。它逻辑上是堆的组成部分 它在不同的jvm厂商中存在的位置可能会不同&…

【Arduino】一分钟快速在vs code 编译开发Arduino

下载Arduino 对于一些开发者来说&#xff0c;Arduino开发较为不方便&#xff0c;不管从代码的阅读性、开发效率等等方面&#xff0c;vs code都要优于Arduino IDE开发&#xff0c;而且vs code开发可以使用插件&#xff0c;比如一些AI代码插件&#xff0c;可以加快开发速率&#…