监控Kubernetes集群证书过期时间的三种方案

news2025/1/10 1:57:36

前言

Kubernetes 中大量用到了证书, 比如 ca证书、以及 kubelet、apiserver、proxy、etcd等组件,还有 kubeconfig 文件。

如果证书过期,轻则无法登录 Kubernetes 集群,重则整个集群异常。

为了解决证书过期的问题,一般有以下几种方式:

  1. 大幅延长证书有效期,短则 10年,长则 100 年;
  2. 证书快过期是自动轮换,如 Rancher 的 K3s,RKE2 就采用这种方式;
  3. 增加证书过期的监控,便于提早发现证书过期问题并人工介入

本次主要介绍关于 Kubernetes 集群证书过期的监控,这里提供 3 种监控方案:

  1. 使用 Blackbox Exporter 通过 Probe 监控 Kubernetes apiserver 证书过期时间;
  2. 使用 kube-prometheus-stack 通过 apiserver 和 kubelet 组件监控获取相关证书过期时间;
  3. 使用 enix 的 x509-certificate-exporter监控集群所有node的 /etc/kubernetes/pki/var/lib/kubelet 下的证书以及 kubeconfig 文件

方案一: Blackbox Exporter 监控 Kubernetes apiserver 证书过期时间

Blackbox Exporter 用于探测 HTTPS、HTTP、TCP、DNS、ICMP 和 grpc 等 Endpoint。在你定义 Endpoint 后,Blackbox Exporter 会生成指标,可以使用 Grafana 等工具进行可视化。Blackbox Exporter 最重要的功能之一是测量 Endpoint 的可用性。

当然, Blackbox Exporter 探测 HTTPS 后就可以获取到证书的相关信息, 就是利用这种方式实现对 Kubernetes apiserver 证书过期时间的监控.

配置步骤

  1. 调整 Blackbox Exporter 的配置, 增加 insecure_tls_verify: true, 如下:
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0jGNeWG7-1670467610201)(https://pic-cdn.ewhisper.cn/img/2022/08/25/8efb2e4ec9b4185a7b9b3d514fad268b-clip_image002.jpg)]

  2. 重启 blackbox exporter: kubectl rollout restart deploy ...

  3. 增加对 Kubernetes APIServer 内部端点https://kubernetes.default.svc.cluster.local/readyz的监控.

    1. 如果你没有使用 Prometheus Operator, 使用的是原生的 Prometheus, 则需要修改 Prometheus 配置文件的 configmap 或 secret, 添加 scrape config, 示例如下:

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dt83M6s4-1670467610202)(https://pic-cdn.ewhisper.cn/img/2022/08/25/a809d3078ab45890b94e09e94b840f23-20220825165118.png)]

    2. 如果在使用 Prometheus Operator, 则可以增加如下 Probe CRD, Prometheus Operator 会自动将其转换并 merge 到 Prometheus 中.

apiVersion: monitoring.coreos.com/v1
kind: Probe
metadata:
  name: kubernetes-apiserver
spec:
  interval: 60s
  module: http_2xx
  prober:
    path: /probe
    url: monitor-prometheus-blackbox-exporter.default.svc.cluster.local:9115
  targets:
    staticConfig:
      static:
      - https://kubernetes.default.svc.cluster.local/readyz

最后, 可以增加 Prometheus 告警 Rule, 这里就直接用 Prometheus Operator 创建 PrometheusRule CRD 做示例了, 示例如下:

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  name: prometheus-blackbox-exporter
spec:
  groups:
  - name: prometheus-blackbox-exporter
    rules:
    - alert: BlackboxSslCertificateWillExpireSoon
      expr: probe_ssl_earliest_cert_expiry - time() < 86400 * 30
      for: 0m
      labels:
        severity: warning
    - alert: BlackboxSslCertificateWillExpireSoon
      expr: probe_ssl_earliest_cert_expiry - time() < 86400 * 14
      for: 0m
      labels:
        severity: critical
    - alert: BlackboxSslCertificateExpired
      annotations:
        description: |-
          SSL certificate has expired already
            VALUE = {{ $value }}
            LABELS = {{ $labels }}
        summary: SSL certificate expired (instance {{ $labels.instance }})
      expr: probe_ssl_earliest_cert_expiry - time() <= 0
      for: 0m
      labels:
        severity: emergency

效果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0cF3IWph-1670467610203)(https://pic-cdn.ewhisper.cn/img/2022/08/25/f4a89d9e40b2d02cd92b1a159aac2884-20220825165659.png)]

方案二: kube-prometheus-stack 通过 apiserver 和 kubelet 组件监控证书过期时间

这里可以参考我的文章:Prometheus Operator 与 kube-prometheus 之二 - 如何监控 1.23+ kubeadm 集群, 安装完成后, 开箱即用.

开箱即用内容包括:

  1. 抓取 apiserver 和 kubelet 指标;(即 serviceMonitor)
  2. 配置证书过期时间的相关告警; (即 PrometheusRule)

这里用到的指标有:

  1. apiserver
    1. apiserver_client_certificate_expiration_seconds_count
    2. apiserver_client_certificate_expiration_seconds_bucket
  2. kubelet
    1. kubelet_certificate_manager_client_expiration_renew_errors
    2. kubelet_server_expiration_renew_errors
    3. kubelet_certificate_manager_client_ttl_seconds
    4. kubelet_certificate_manager_server_ttl_seconds

监控效果

对应的 Prometheus 告警规则如下:

证书过期时间相关 PrometheusRule

方案三: 使用 enix 的 x509-certificate-exporter

监控手段

该 Exporter 是通过监控集群所有node的指定目录或 path 下的证书文件以及 kubeconfig 文件来获取证书信息.

如果是使用 kubeadm 搭建的 Kubernetes 集群, 则可以监控如下包含证书的文件和 kubeconfig:

watchFiles:
- /var/lib/kubelet/pki/kubelet-client-current.pem
- /etc/kubernetes/pki/apiserver.crt
- /etc/kubernetes/pki/apiserver-etcd-client.crt
- /etc/kubernetes/pki/apiserver-kubelet-client.crt
- /etc/kubernetes/pki/ca.crt
- /etc/kubernetes/pki/front-proxy-ca.crt
- /etc/kubernetes/pki/front-proxy-client.crt
- /etc/kubernetes/pki/etcd/ca.crt
- /etc/kubernetes/pki/etcd/healthcheck-client.crt
- /etc/kubernetes/pki/etcd/peer.crt
- /etc/kubernetes/pki/etcd/server.crt
watchKubeconfFiles:
- /etc/kubernetes/admin.conf
- /etc/kubernetes/controller-manager.conf
- /etc/kubernetes/scheduler.conf

安装配置

编辑 values.yaml:

kubeVersion: ''
extraLabels: {}
nameOverride: ''
fullnameOverride: ''
imagePullSecrets: []
image:
  registry: docker.io
  repository: enix/x509-certificate-exporter
  tag:
  pullPolicy: IfNotPresent
psp:
  create: false
rbac:
  create: true
  secretsExporter:
    serviceAccountName:
    serviceAccountAnnotations: {}
    clusterRoleAnnotations: {}
    clusterRoleBindingAnnotations: {}
  hostPathsExporter:
    serviceAccountName:
    serviceAccountAnnotations: {}
    clusterRoleAnnotations: {}
    clusterRoleBindingAnnotations: {}
podExtraLabels: {}
podAnnotations: {}
exposePerCertificateErrorMetrics: false
exposeRelativeMetrics: false
metricLabelsFilterList: null
secretsExporter:
  enabled: true
  debugMode: false
  replicas: 1
  restartPolicy: Always
  strategy: {}
  resources:
    limits:
      cpu: 200m
      memory: 150Mi
    requests:
      cpu: 20m
      memory: 20Mi
  nodeSelector: {}
  tolerations: []
  affinity: {}
  podExtraLabels: {}
  podAnnotations: {}
  podSecurityContext: {}
  securityContext:
    runAsUser: 65534
    runAsGroup: 65534
    readOnlyRootFilesystem: true
    capabilities:
      drop:
        - ALL
  secretTypes:
    - type: kubernetes.io/tls
      key: tls.crt
  includeNamespaces: []
  excludeNamespaces: []
  includeLabels: []
  excludeLabels: []
  cache:
    enabled: true
    maxDuration: 300
hostPathsExporter:
  debugMode: false
  restartPolicy: Always
  updateStrategy: {}
  resources:
    limits:
      cpu: 100m
      memory: 40Mi
    requests:
      cpu: 10m
      memory: 20Mi
  nodeSelector: {}
  tolerations: []
  affinity: {}
  podExtraLabels: {}
  podAnnotations: {}
  podSecurityContext: {}
  securityContext:
    runAsUser: 0
    runAsGroup: 0
    readOnlyRootFilesystem: true
    capabilities:
      drop:
        - ALL
  watchDirectories: []
  watchFiles: []
  watchKubeconfFiles: []
  daemonSets:
    cp:
      nodeSelector:
        node-role.kubernetes.io/master: ''
      tolerations:
        - effect: NoSchedule
          key: node-role.kubernetes.io/master
          operator: Exists
      watchFiles:
        - /var/lib/kubelet/pki/kubelet-client-current.pem
        - /etc/kubernetes/pki/apiserver.crt
        - /etc/kubernetes/pki/apiserver-etcd-client.crt
        - /etc/kubernetes/pki/apiserver-kubelet-client.crt
        - /etc/kubernetes/pki/ca.crt
        - /etc/kubernetes/pki/front-proxy-ca.crt
        - /etc/kubernetes/pki/front-proxy-client.crt
        - /etc/kubernetes/pki/etcd/ca.crt
        - /etc/kubernetes/pki/etcd/healthcheck-client.crt
        - /etc/kubernetes/pki/etcd/peer.crt
        - /etc/kubernetes/pki/etcd/server.crt
      watchKubeconfFiles:
        - /etc/kubernetes/admin.conf
        - /etc/kubernetes/controller-manager.conf
        - /etc/kubernetes/scheduler.conf
    nodes:
      watchFiles:
        - /var/lib/kubelet/pki/kubelet-client-current.pem
        - /etc/kubernetes/pki/ca.crt
rbacProxy:
  enabled: false
podListenPort: 9793
hostNetwork: false
service:
  create: true
  port: 9793
  annotations: {}
  extraLabels: {}
prometheusServiceMonitor:
  create: true
  scrapeInterval: 60s
  scrapeTimeout: 30s
  extraLabels: {}
  relabelings: {}
prometheusPodMonitor:
  create: false
prometheusRules:
  create: true
  alertOnReadErrors: true
  readErrorsSeverity: warning
  alertOnCertificateErrors: true
  certificateErrorsSeverity: warning
  certificateRenewalsSeverity: warning
  certificateExpirationsSeverity: critical
  warningDaysLeft: 30
  criticalDaysLeft: 14
  extraLabels: {}
  alertExtraLabels: {}
  rulePrefix: ''
  disableBuiltinAlertGroup: false
  extraAlertGroups: []
extraDeploy: []

通过 Helm Chart 安装:

helm repo add enix https://charts.enix.io
helm install x509-certificate-exporter enix/x509-certificate-exporter

通过这个 Helm Chart 也会自动安装:

  • ServiceMonitor
  • PrometheusRule

其监控指标为:

  • x509_cert_not_after

监控效果

该 Exporter 还提供了一个比较花哨的 Grafana Dashboard, 如下:

x509 Exporter Grafana Dashboard

Alert Rules 如下:

x509 Exporter Prometheus Rule

总结

为了监控 Kubernetes 集群的证书过期时间, 我们提供了 3 种方案, 各有优劣:

  1. 使用 Blackbox Exporter 通过 Probe 监控 Kubernetes apiserver 证书过期时间;
    1. 优势: 实现简单;
    2. 劣势: 只能监控 https 的证书;
  2. 使用 kube-prometheus-stack 通过 apiserver 和 kubelet 组件监控获取相关证书过期时间;
    1. 优势: 开箱即用, 安装 kube-prometheus-stack 后无需额外安装其他 exporter
    2. 劣势: 只能监控 apiserver 和 kubelet 的证书;
  3. 使用 enix 的 x509-certificate-exporter监控集群所有node的 /etc/kubernetes/pki/var/lib/kubelet 下的证书以及 kubeconfig 文件
    1. 优势: 可以监控所有 node, 所有 kubeconfig 文件, 以及 所有 tls 格式的 secret 证书, 如果要监控 Kubernetes 集群以外的证书, 也可以如法炮制; 范围广而全;
    2. 需要额外安装: x509-certificate-exporter, 对应有 1 个 Deployment 和 多个 DaemonSet, 对 Kubernetes 集群的资源消耗不少.

可以根据您的实际情况灵活进行选择.

🎉🎉🎉

📚️参考文档

  • 如何使用 Blackbox Exporter 监控 URL? - 东风微鸣技术博客 (ewhisper.cn)
  • Prometheus Operator 与 kube-prometheus 之二 - 如何监控 1.23+ kubeadm 集群 - 东风微鸣技术博客 (ewhisper.cn)
  • x509-certificate-exporter/deploy/charts/x509-certificate-exporter at master · enix/x509-certificate-exporter (github.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/71296.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

关于“堆”,看看这篇文章就够了(附堆的两种应用场景)

… &#x1f4d8;&#x1f4d6;&#x1f4c3;本文已收录至&#xff1a;数据结构 | C语言 更多知识尽在此专栏中!文章目录&#x1f4d8;前言&#x1f4d8;正文&#x1f4d6;认识堆&#x1f4d6;实现堆&#x1f4c3;结构&#x1f4c3;入堆&#x1f4c3;出堆&#x1f4c3;建堆算法…

新Crack:Neodynamic ZPLPrinter SDK for .NET Standard

适用于 .NET Standard V4.0.22.1206 的 Neodynamic ZPLPrinter Emulator SDK 添加对带有自定义字体设置的 ^BC 命令的支持。2022 年 12 月 7 日 - 16:03新版本特征 添加了对带有自定义字体设置的 ^BC 命令的支持。关于 Neodynamic ZPLPrinter Emulator SDK for .NET Standard 使…

在r语言中使用GAM(广义相加模型)进行电力负荷时间序列分析

广义相加模型&#xff08;GAM&#xff1a;Generalized Additive Model&#xff09;&#xff0c;它模型公式如下&#xff1a;有p个自变量&#xff0c;其中X1与y是线性关系&#xff0c;其他变量与y是非线性关系&#xff0c;我们可以对每个变量与y拟合不同关系&#xff0c;对X2可以…

动态规划入门

一、基本思想 一般来说&#xff0c;只要问题可以划分成规模更小的子问题&#xff0c;并且原问题的最优解中包含了子问题的最优解&#xff0c;则可以考虑用动态规划解决。动态规划的实质是分治思想和解决冗余&#xff0c;因此&#xff0c;动态规划是一种将问题实例分解为更小的、…

JAVA SCRIPT设计模式--结构型--设计模式之FlyWeight享元模式(11)

JAVA SCRIPT设计模式是本人根据GOF的设计模式写的博客记录。使用JAVA SCRIPT语言来实现主体功能&#xff0c;所以不可能像C&#xff0c;JAVA等面向对象语言一样严谨&#xff0c;大部分程序都附上了JAVA SCRIPT代码&#xff0c;代码只是实现了设计模式的主体功能&#xff0c;不代…

知识图谱-KGE-语义匹配-双线性模型(打分函数用到了双线性函数)-2014 :MLP

Knowledge Vault & MLP 【paper】 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion 【简介】 本文是谷歌的研究者发表在 KDD 2014 上的工作&#xff0c;提出了一套方法用于自动挖掘知识&#xff0c;并构建成大规模知识库 Knowledge Vault&…

【Linux】期末复习

文章目录1. 认识Linux系统2. Shell命令3. VI编辑器的使用4. Shell脚本编程5. 实验部分1. 认识Linux系统 Linux特点 完全免费开发性多用户、多任务丰富的网络功能可靠安全、性能稳定支持多种平台 2.Linux系统的组成 内核Shell应用程序文件系统 3.Linux版本 Linux版本由形如x1.x2…

(00)TCL脚本运行环境介绍

(00)TCL脚本运行环境介绍 01-TCL简介 02-TCL编辑器 03-TCL运行环境 04-TCL文件 05-结语 (01)TCL简介 Tcl 语言的全称 Tool Command Language,即工具命令语言。这种需要在 EDA 工具中使用的相当之多,或者说几乎每个 EDA 工具都支持 Tcl 语言。所以对于 IC 专业的…

Android Gradle 学习笔记(三)语言和命令

Gradle 支持使用 Groovy DSL 或 Kotlin DSL 来编写脚本。所以在学习具体怎么写脚本时&#xff0c;我们肯定会考虑到底是使用 Kotlin 来写还是 Groovy 来写。 不一定说你是 Kotlin Android 开发者就一定要用 Kotlin 来写 Gradle&#xff0c;我们得判断哪种写法更适合项目、更适…

Kubernetes那点事儿——日志管理

K8s日志管理前言一、日志二、K8s应用日志标准输出应用日志收集1、emptyDir挂载收集2、边车容器收集前言 程序运行中输出的日志默认暂存在Pod中&#xff0c;当Pod销毁重建时&#xff0c;日志也会丢失。所以需要一些持久化的方法保存程序日志。 一、日志 K8s系统日志 kubelet组件…

如何使用 rust 写内核模块

近年来&#xff0c;Rust 语言以内存安全、高可靠性、零抽象等能力获得大量开发者关注&#xff0c;而这些特性恰好是内核编程中所需要的&#xff0c;所以我们看下如何用rust来写Linux内核模块。01Rust 与内核模块Aliware虽然 Rust 支持已经在 LinuxKernel6.1 版本合并到主线了&a…

酷开科技不断革新,引领营销新动向

不管渠道如何变迁&#xff0c;不管场景如何碎片化、多样化&#xff0c;只要家庭文明不解体&#xff0c;只要我们的审美不发生颠覆性变迁&#xff0c;家庭大屏就会是主要营销战场。 随着行业软硬件技术的更迭&#xff0c;智能化OTT终将打通互联网消费场景&#xff0c;带动智能电…

Linux 文件与目录

我们知道Linux的目录结构为树状结构&#xff0c;最顶级的目录为根目录 /。 其他目录通过挂载可以将它们添加到树中&#xff0c;通过解除挂载可以移除它们。 在开始本教程前我们需要先知道什么是绝对路径与相对路径。 绝对路径&#xff1a; 路径的写法&#xff0c;由根目录 /…

186:vue+openlayers 小汽车移动轨迹动画,带开始、暂停、结束控制键

第186个 点击查看专栏目录 本示例的目的是介绍演示如何在vue+openlayers中实现轨迹动画,这里设置了小汽车开始,暂停,结束等的控制键,采用了线段步长位置获取坐标来定位点的方式来显示小车的动态。 直接复制下面的 vue+openlayers源代码,操作2分钟即可运行实现效果; 注意…

全国计算机等级考试-Python

计算机二级python 一、 题型及分值分布1. 单选题共40道&#xff0c;1到10题为公共基础知识&#xff0c;11到40题是python相关的知识&#xff0c;比如数据结构与算法、python基础知识。 每道题1分&#xff0c;共40分&#xff1b;2. 基础编程题共3道&#xff0c;题目会…

DocArray 和 Redis 联手,让推荐系统飞起来

在DocArray中使用Redis后端&#xff0c;基于向量相似性搜索可以快速搭建一个实时商品推荐系统。现在&#xff0c;跟上我们的脚步&#xff0c;一起了解搭建系统的关键步骤&#xff0c;并且深入了解推荐的原理吧&#xff01;推荐系统会根据用户画像、历史行为&#xff08;如购买、…

人工智能和数据分析成为 2023 年最大的计划投资

©网络研究院 到 2023 年&#xff0c;新兴技术系统将继续投资和发展&#xff0c;人工智能将引领私营公司计划利用的技术。 IT 分析公司 Info-Tech Research Group 对 2023 年的新行业预测进行了详细说明&#xff0c;预计私营部门公司将继续在其日常业务运营中采用更先进…

科普篇|法治宣传线上答题活动小程序界面功能全介绍

科普篇|法治宣传线上答题活动小程序界面功能全介绍 为深入学习贯彻二十大精神&#xff0c;努力使尊法学法守法用法在全社会蔚然成风&#xff0c;切实推动全民法治宣传教育深入开展&#xff0c;xx举办全民法治宣传线上答题活动。 第一、主界面展示 ①标题、主题、单位名称落款…

数据结构与算法之《二叉树》详解

标题&#xff1a;二叉树的思路及代码实现 作者&#xff1a;Ggggggtm 寄语&#xff1a;与其忙着诉苦&#xff0c;不如低头赶路&#xff0c;奋路前行&#xff0c;终将遇到一番好风景 文章目录 一、树的概念及结构 二、二叉树的概念及结构 2、1 二叉树的概念 2、2 二叉树的特点 2、…

机器学习之单变量线性回归

1、线性回归基础概念&#xff1a; 回归模型&#xff1a;regression model数据集&#xff1a;包含feature&#xff08;输入变量&#xff09;和与之对应的target&#xff08;输出变量&#xff09;训练集&#xff1a;training set输入数据&#xff1a;x&#xff08;feature or in…