监控⽂档
随着信息技术的迅速发展及其在商业和工业环境中的广泛应用,系统的可靠性成为了组织的生存之本。Site Reliability Engineering(SRE)作为一种实践的结合体,广泛地用于确保和提升软件系统的可靠性。其中,它的一个重要组成部分是制定和监控服务的关键性能指标(Service Level Indicators, SLIs)、服务水平目标(Service Level Objectives, SLOs)以及服务等级协议(Service Level Agreements, SLAs)。本文旨在深入介绍监控文档中的各要素,探讨监控工具的应用,以及阐述监控建设的方法和最佳实践,以实现高效的服务运维和故障应急。
目录
1 SRE的监控体系... 2
1.1 SLI(Service Level Indicator)... 3
1.2 SLO(Service Level Objective)... 3
1.3 SLA(Service Level Agreement)... 3
2 监控⼯具使⽤... 4
2.1 Prometheus. 4
2.2 BPC. 4
2.3 RMS. 4
2.4 业务监控平台... 5
2.5 听云... 6
2.6 Zabbix. 6
2.7 F5. 7
2.8 EM平台... 7
2.9 ELK大数据日志... 7
3 监控建设... 8
3.1 监控分层... 8
3.1.1 业务层.... 8
3.1.2 链路层.... 8
3.1.3 应⽤监控.... 8
3.1.4 系统监控.... 9
3.1.5 监控可视化.... 9
3.1.6 告警管理.... 10
3.2 监控指标套餐... 11
3.2.1 业务指标套餐.... 11
3.2.2 环境(可⽤性)指标套餐.... 12