【Kubernetes 企业项目实战】02、基于 Prometheus 和 K8s 构建智能化监控告警系统（下）

一、可视化 UI 界面 Grafana 的安装和配置

1.1 Grafana 介绍

1.2 安装 Grafana

1.3 Grafana 界面接入 Prometheus数据源

1）登录 grafana

2）配置 grafana 界面

3）导入的监控模板

二、kube-state-metrics 组件

2.1 kube-state-metrics 是什么？

2.2 安装 kube-state-metrics 组件

1）创建 sa 并对 sa 授权

2）安装 kube-state-metrics 组件

3）创建 service

4）导入监控模板

本此安装 Grafana 所用资料文件下载地址：https://download.csdn.net/download/weixin_46560589/87378820

一、可视化 UI 界面 Grafana 的安装和配置

1.1 Grafana 介绍

Grafana 是一个跨平台的开源的度量分析和可视化工具，可以将采集的数据可视化的展示，并及时通知给告警接收方。它主要有以下六大特点：

展示方式：快速灵活的客户端图表，面板插件有许多不同方式的可视化指标和日志，官方库中具有丰富的仪表盘插件，比如热图、折线图、图表等多种展示方式；
数据源：Graphite、InfluxDB、OpenTSDB、Prometheus、Elasticsearch、CloudWatch 和KairosDB 等；
通知提醒：以可视方式定义最重要指标的警报规则，Grafana 将不断计算并发送通知，在数据达到阈值时通过 Slack、PagerDuty 等获得通知；
混合展示：在同一图表中混合使用不同的数据源，可以基于每个查询指定数据源，甚至自定义数据源；
注释：使用来自不同数据源的丰富事件注释图表，将鼠标悬停在事件上会显示完整的事件元数据和标记。

1.2 安装 Grafana

# 安装 Grafana 需要的镜像 heapster-grafana-amd64_v5_0_4.tar.gz，把镜像上传到 k8s 的工作节点 node1 和 node2 上，手动解压：
[root@k8s-node1 ~]# docker load -i heapster-grafana-amd64_v5_0_4.tar.gz 
[root@k8s-node2 ~]# docker load -i heapster-grafana-amd64_v5_0_4.tar.gz 

[root@k8s-master1 prometheus]# vim grafana.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: monitoring-grafana
  namespace: kube-system
spec:
  replicas: 1
  selector:
    matchLabels:
      task: monitoring
      k8s-app: grafana
  template:
    metadata:
      labels:
        task: monitoring
        k8s-app: grafana
    spec:
      containers:
      - name: grafana
        image: k8s.gcr.io/heapster-grafana-amd64:v5.0.4
        imagePullPolicy: IfNotPresent
        ports:
        - containerPort: 3000
          protocol: TCP
        volumeMounts:
        - mountPath: /etc/ssl/certs
          name: ca-certificates
          readOnly: true
        - mountPath: /var
          name: grafana-storage
        env:
        - name: INFLUXDB_HOST
          value: monitoring-influxdb
        - name: GF_SERVER_HTTP_PORT
          value: "3000"
          # The following env variables are required to make Grafana accessible via
          # the kubernetes api-server proxy. On production clusters, we recommend
          # removing these env variables, setup auth for grafana, and expose the grafana
          # service using a LoadBalancer or a public IP.
        - name: GF_AUTH_BASIC_ENABLED
          value: "false"
        - name: GF_AUTH_ANONYMOUS_ENABLED
          value: "true"
        - name: GF_AUTH_ANONYMOUS_ORG_ROLE
          value: Admin
        - name: GF_SERVER_ROOT_URL
          # If you're only using the API Server proxy, set this value instead:
          # value: /api/v1/namespaces/kube-system/services/monitoring-grafana/proxy
          value: /
      volumes:
      - name: ca-certificates
        hostPath:
          path: /etc/ssl/certs
      - name: grafana-storage
        emptyDir: {}
---
apiVersion: v1
kind: Service
metadata:
  labels:
    # For use as a Cluster add-on (https://github.com/kubernetes/kubernetes/tree/master/cluster/addons)
    # If you are NOT using this as an addon, you should comment out this line.
    kubernetes.io/cluster-service: 'true'
    kubernetes.io/name: monitoring-grafana
  name: monitoring-grafana
  namespace: kube-system
spec:
  # In a production setup, we recommend accessing Grafana through an external Loadbalancer
  # or through a public IP.
  # type: LoadBalancer
  # You could also use NodePort to expose the service at a randomly-generated port
  # type: NodePort
  ports:
  - port: 80
    targetPort: 3000
  selector:
    k8s-app: grafana
  type: NodePort

[root@k8s-master1 prometheus]# kubectl apply -f grafana.yaml 

# 查看 grafana 是否创建成功
[root@k8s-master1 prometheus]# kubectl get pods -n kube-system -l task=monitoring
NAME                                  READY   STATUS    RESTARTS   AGE
monitoring-grafana-7948df75d9-bkwpv   1/1     Running   0          2m32s

1.3 Grafana 界面接入 Prometheus数据源

# 查看 grafana 前端的 service
[root@k8s-master1 prometheus]# kubectl get svc -n kube-system | grep grafana
monitoring-grafana   NodePort    10.111.28.42   <none>        80:30871/TCP             4m54s

1）登录 grafana

在浏览器访问：192.168.78.143:30871

2）配置 grafana 界面

开始配置 grafana 的 web 界面：

选择 Create your first data source

配置好后，点击左下角 Save & Test，出现如下 Data source is working，说明 prometheus 数据源成功的被 grafana 接入了：

3）导入的监控模板

监控模板官方下载地址：Dashboards | Grafana Labs

点击左侧 "+" 号下面的 Import

选择 Upload json file

选择一个本地的 json 文件(可以在官网中下载），我们选择的是 node_exporter.json 这个文件：

注：Name 后面的名字是 node_exporter.json 定义的。

Prometheus 后面需要变成 Prometheus，然后再点击 Import，就可以出现如下界面：

再导入一个 docker_rev1.json 监控模板，步骤和上面导入 node_exporter.json 步骤一样，导入之后显示如下：

4）如果 Grafana 导入 Prometheusz 之后，发现仪表盘没有数据，如何排查

打开 grafana 界面，找到仪表盘对应无数据的图标

Edit 之后出现如下

container_cpu_user_seconds_total 就是 grafana 上采集的 cpu 的使用率，需要到prometheus ui 界面看看采集的指标是否是 container_cpu_user_seconds_total

如果在 prometheus ui 界面输入 container_cpu_user_seconds_total 没有数据，那就看看 prometheus 采集的数据是否有 container_cpu_user_seconds_total，怎么看呢？

二、kube-state-metrics 组件

2.1 kube-state-metrics 是什么？

kube-state-metrics 通过监听 API Server 生成有关资源对象的状态指标，比如 Node、Pod，需要注意的是 kube-state-metrics 只是简单的提供一个 metrics 数据，并不会存储这些指标数据，所以我们可以使用 Prometheus 来抓取这些数据然后存储，主要关注的是业务相关的一些元数据，比如 Pod、副本状态等；调度了多少个 replicas ？现在可用的有几个？多少个 Pod 是running/stopped/terminated 状态？Pod 重启了多少次？我有多少 job 在运行中等。

2.2 安装 kube-state-metrics 组件

1）创建 sa 并对 sa 授权

[root@k8s-master1 prometheus]# vim kube-state-metrics-rbac.yaml
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: kube-state-metrics
rules:
- apiGroups: [""]
  resources: ["nodes", "pods", "services", "resourcequotas", "replicationcontrollers", "limitranges", "persistentvolumeclaims", "persistentvolumes", "namespaces", "endpoints"]
  verbs: ["list", "watch"]
- apiGroups: ["extensions"]
  resources: ["daemonsets", "deployments", "replicasets"]
  verbs: ["list", "watch"]
- apiGroups: ["apps"]
  resources: ["statefulsets"]
  verbs: ["list", "watch"]
- apiGroups: ["batch"]
  resources: ["cronjobs", "jobs"]
  verbs: ["list", "watch"]
- apiGroups: ["autoscaling"]
  resources: ["horizontalpodautoscalers"]
  verbs: ["list", "watch"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: kube-state-metrics
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: kube-state-metrics
subjects:
- kind: ServiceAccount
  name: kube-state-metrics
  namespace: kube-system

[root@k8s-master1 prometheus]# kubectl apply -f kube-state-metrics-rbac.yaml

2）安装 kube-state-metrics 组件

# 安装 kube-state-metrics 组件需要的镜像 kube-state-metrics_1_9_0.tar.gz，上传到 k8s 各个工作节点，手动解压：
[root@k8s-node1 ~]# docker load -i kube-state-metrics_1_9_0.tar.gz 
[root@k8s-node2 ~]# docker load -i kube-state-metrics_1_9_0.tar.gz 

[root@k8s-master1 prometheus]# vim kube-state-metrics-deploy.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: kube-state-metrics
  namespace: kube-system
spec:
  replicas: 1
  selector:
    matchLabels:
      app: kube-state-metrics
  template:
    metadata:
      labels:
        app: kube-state-metrics
    spec:
      serviceAccountName: kube-state-metrics
      containers:
      - name: kube-state-metrics
        image: quay.io/coreos/kube-state-metrics:v1.9.0
        imagePullPolicy: IfNotPresent
        ports:
        - containerPort: 8080

[root@k8s-master1 prometheus]# kubectl apply -f kube-state-metrics-deploy.yaml 

# 查看 kube-state-metrics 是否部署成功
[root@k8s-master1 prometheus]# kubectl get pods -n kube-system -l app=kube-state-metrics
NAME                                  READY   STATUS    RESTARTS   AGE
kube-state-metrics-57794dcf65-brv7p   1/1     Running   0          17s

3）创建 service

[root@k8s-master1 prometheus]# vim kube-state-metrics-svc.yaml
apiVersion: v1
kind: Service
metadata:
  annotations:
    prometheus.io/scrape: 'true'
  name: kube-state-metrics
  namespace: kube-system
  labels:
    app: kube-state-metrics
spec:
  ports:
  - name: kube-state-metrics
    port: 8080
    protocol: TCP
  selector:
    app: kube-state-metrics

[root@k8s-master1 prometheus]# kubectl apply -f kube-state-metrics-svc.yaml 

# 查看 service 是否创建成功
[root@k8s-master1 prometheus]# kubectl get svc -n kube-system | grep kube-state-metrics
kube-state-metrics   ClusterIP   10.107.115.220   <none>        8080/TCP                 34s

4）导入监控模板

在 grafana web 界面导入 Kubernetes Cluster (Prometheus)-1577674936972.json 和 Kubernetes cluster monitoring (via Prometheus) (k8s 1.16)-1577691996738.json 文件。

导入 Kubernetes Cluster (Prometheus)-1577674936972.json 文件：