Kubernetes集群维护—备份恢复与升级

news2025/1/4 9:44:53

Etcd数据库备份与恢复

需要先安装etcd备份工具

yum install etcd -y

按不同安装方式执行不同备份与恢复

kubeadm部署方式：

备份：

ETCDCTL_API=3 etcdctl  snapshot save snap.db  --endpoints=https://127.0.0.1:2379  --cacert=/etc/kubernetes/pki/etcd/ca.crt  --cert=/etc/kubernetes/pki/etcd/server.crt  --key=/etc/kubernetes/pki/etcd/server.key

恢复：

1、先暂停kube-apiserver和etcd容器 mv /etc/kubernetes/manifests /etc/kubernetes/manifests.bak mv /var/lib/etcd/ /var/lib/etcd.bak 
2、恢复 ETCDCTL_API=3 etcdctl  snapshot restore snap.db  --data-dir=/var/lib/etcd 
3、启动kube-apiserver和etcd容器 mv /etc/kubernetes/manifests.bak /etc/kubernetes/manifests

二进制部署方式：

备份：

ETCDCTL_API=3 etcdctl \ snapshot save snap.db \ --endpoints=https://192.168.31.71:2379 \ --cacert=/opt/etcd/ssl/ca.pem \ --cert=/opt/etcd/ssl/server.pem \ --key=/opt/etcd/ssl/server-key.pem

恢复：

1、先暂停kube-apiserver和etcd systemctl stop kube-apiserver systemctl stop etcd mv /var/lib/etcd/default.etcd /var/lib/etcd/default.etcd.bak 
2、在每个节点上恢复 ETCDCTL_API=3 etcdctl snapshot restore snap.db \ --name etcd-1 \ --initial-cluster="etcd-1=https://192.168.31.71:2380,etcd2=https://192.168.31.72:2380,etcd-3=https://192.168.31.73:2380" \ --initial-cluster-token=etcd-cluster \ --initial-advertise-peer-urls=https://192.168.31.71:2380 \ --data-dir=/var/lib/etcd/default.etcd 
3、启动kube-apiserver和etcd systemctl start kube-apiserver systemctl start etcd

K8s集群版本升级

注意事项：

• 升级前必须备份所有组件及数据，例如etcd

• 千万不要跨多个小版本进行升级，例如从1.16升级到1.19

• 在测试环境经过多次演练，实操，才能上生产环境

升级管理节点：

1、查找最新版本号

yum list --showduplicates kubeadm

2、升级kubeadm

yum install -y kubeadm-1.23.0-0

3、驱逐node上的pod，且不可调度

kubectl drain k8s-master --ignore-daemonsets

4、检查集群是否可以升级，并获取可以升级的版本（升级计划）

kubeadm upgrade plan

5、执行升级（按照升级计划给出的版本作为参考进行升级）

kubeadm upgrade apply v1.23.0

6、升级kubelet和kubectl

yum install -y kubelet-1.23.0-0 kubectl-1.23.0-0

7、重启kubelet

systemctl daemon-reload
systemctl restart kubelet

8、取消不可调度，重新上线

kubectl uncordon k8s-master

升级工作节点：

1、升级kubeadm

yum install -y kubeadm-1.23.0-0

2、驱逐node上的pod，且不可调度

kubectl drain k8s-node1 --ignore-daemonsets

3、升级kubelet配置

kubeadm upgrade node

4、升级kubelet和kubectl

yum install -y kubelet-1.23.0-0 kubectl-1.23.0-0

5、重启kubelet

systemctl daemon-reload
systemctl restart kubelet

6、取消不可调度，重新上线

kubectl uncordon k8s-node1

K8s集群节点正确下线流程

维护某个节点或者删除节点， 正确流程如下：
1、获取节点列表
kubectl get node
2、驱逐节点上的Pod并设置不可调度（cordon）
kubectl drain <node_name> --ignore-daemonsets
3、 设置可调度或者移除节点
kubectl uncordon <node_name>
kubectl delete node <node_name>

K8s集群故障排查

应急处理流程

排查思路

K8s 故障排查：案例1

故障现象：

kubectl get node节点处于NotReady

排查思路：

查看kubelet和docker服务是否正常

分析kubelet日志

K8s 故障排查：案例2

故障现象：

Pod运行不正常

排查思路：

• 根据Pod状态假设：

https://kubernetes.io/zh/docs/concepts/workloads/pods/pod-lifecycle/

• 查看资源详情：

kubectl describe TYPE/NAME

• 查看容器日志：

kubectl logs TYPE/NAME [-c CONTAINER]

K8s 故障排查：案例3

故障现象：

互联网用户无法访问应用（Ingress或者Service无法访问）

排查思路：

• Pod正常工作吗？

• Service是否关联Pod？

• Service指定target-port端口是否正确？

• 如果用名称访问， DNS是否正常工作？

• kube-proxy正常工作吗？是否正常写iptables规则？

• CNI网络插件是否正常工作？

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/354348.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

Kubernetes集群维护—备份恢复与升级

Etcd数据库备份与恢复

kubeadm部署方式：

二进制部署方式：

K8s集群版本升级

注意事项：

升级管理节点：

K8s集群故障排查

应急处理流程

排查思路

K8s 故障排查：案例1

K8s 故障排查：案例2

K8s 故障排查：案例3

相关文章

知其然更要知其所以然，聊聊SQLite软件架构

spring的了解以及项目构建

特征归一化(Normalization)和Batch Normalization的理解

创建基于Vue2.0开发项目的两种方式

PGLBox全面解决图训练速度、成本、稳定性、复杂算法四大问题！

Dubbo学习笔记2

网络安全-信息收集- 谷歌浏览器插件收集信息，谷歌hacking搜索语法-带你玩不一样的搜索引擎

图解LeetCode——剑指 Offer 28. 对称的二叉树

quartz使用及原理解析

瑞典军事研究：从认知心理学的视角探讨军事创新进程

SpringBoot3集成TDengine自适应裂变存储

Python没有指针怎么实现链表？

考研复试机试 | C++ | 尽量不要用python,很多学校不支持

sni第三种模式复现、幽灵猫网络抓包方式复现、所有漏洞复现

Django框架之模型视图-URLconf

ChatGPT时代，别再折腾孩子了

开源云真机平台——Sonic应用实践

2月18日绿健简报，星期六，农历正月廿八

C语言结构体复习总结

找工作必看，用Python爬取数据分析岗位信息并可视化分析

Kubernetes集群维护—备份恢复与升级

Etcd数据库备份与恢复

kubeadm部署方式：

二进制部署方式：

K8s集群版本升级

注意事项：

升级管理节点：

K8s集群故障排查

应急处理流程

排查思路

K8s 故障排查： 案例1

K8s 故障排查： 案例2

K8s 故障排查： 案例3

相关文章

K8s 故障排查：案例1

K8s 故障排查：案例2

K8s 故障排查：案例3