企业级IT应用运维监控层次架构设计

企业基本都有自己的IT系统，而每个IT系统都有自己的监控系统。

企业级的IT应用监控架构是一种综合性的解决方案，涉及到很多层级和相应的工具。随着企业IT系统的规模和复杂程度的不断增加，监控和管理系统也面临着越来越大的挑战。

大家有时在建立监控时，不知道从何处入手；有时建立监控系统后，发现很多的盲点无法监控到。

本文将分享IT应用运维监控的基本原理、通用监控体系和应用场景、监控平台设计、智能监控的实现方法等方面的内容，以期对企业 IT 系统的监控和管理提供一定的帮助。

1．监控原理

企业级 IT 应用运维监控架构的基本原理是通过收集、存储、分析和展示各种监控数据，对企业 IT 系统进行全面的监控和管理。其中，监控数据包括系统、网络、应用等各种指标数据、事件数据和日志数据等，可以通过各种数据采集器进行收集。

收集到的数据可以存储在分布式数据库、NoSQL 数据库或者数据仓库等存储系统中，并通过数据分析和处理，将其转化为可视化的监控指标，并通过仪表盘、图表、报表等形式进行展示。

同时，还可以通过警报系统对监控数据进行实时监测和告警，以及通过自动化运维等手段对 IT 系统进行自动化管理和优化。

2．监控层次

一般来说，有IT系统的地方都必须有监控，不同企业IT系统分布不一样。有的企业有大量的边缘系统，比如：电脑，工控机等；有的企业有自己的IDC机房，而自己的IT系统建立在IDC机房内；有的企业把自己的IT系统建立在公有云上；又有的企业建立的混合云架构，IDC机房和公有云兼而有之。

IT监控系统是依附在之上的，对于边缘系统，有类似于IOT的物联网监控系统；IDC机房有网络设备的监控系统（这一般由网络供应商提供）；公有云上的系统由云商提供完整的监控系统；如果有混合云的架构，那就需要由监控系统建设团队把云上云下的监控系统做融合提供统一的监控。

以上的这些监控是从系统角度进行分类的，做的是系统监控，而本文讨论的是，如何从应用运维的角度来进行层次划分。

2.1 APIs监控

APIs（应用程序编程接口）监控，又称为前端监控，是指对APIs的使用情况、性能、安全性等进行实时监控和管理的过程。通常包括：

A. 使用情况监控：监控APIs的调用情况、使用频率、错误率等，以便了解APIs的使用情况和流量状况。

B. 性能监控：监控APIs的响应时间、延迟、吞吐量等性能指标，以便及时发现APIs的性能问题和瓶颈。

C. 安全监控：监控APIs的安全性，包括身份验证、授权、访问控制等，以保护APIs免受安全威胁。

D. 错误监控：监控APIs的错误情况，包括错误类型、错误代码、错误频率等，以便及时发现和解决APIs的错误问题。

2.2 应用层监控

应用层监控是指对应用程序的性能、可用性、安全性等进行实时监控和管理的过程。通常包括：

A. 应用性能监控：监控应用程序的性能指标，包括请求响应时间、吞吐量、错误率饱和率等黄金四指标，以便及时发现应用程序的性能问题和瓶颈。

B. 可用性监控：监控应用程序的可用性，包括应用程序的运行状态、访问次数、错误率等，以保证应用程序的正常运行和可用性。

C. 安全监控：监控应用程序的安全性，包括应用程序的防火墙、入侵检测、安全事件等，以保护应用程序免受安全威胁，一般这是由安全团队负责，运维人员较少涉及。

D. 日志管理：收集、分析和可视化应用程序的日志信息，以帮助用户快速发现和解决应用程序问题和异常情况。

为了实现应用层监控，相对应的工具和平台：

A. 应用性能监控工具：通过监控应用程序的性能指标，以帮助用户快速发现应用程序的性能问题和瓶颈。

B. 可用性监控工具：通过监控应用程序的运行状态和访问次数，以保证应用程序的正常运行和可用性。

C. 安全监控工具：和APIs的监控类似，主要由漏洞扫描工具，入侵检测系统等工具构成，比如应用新上线的代码中使用了一个第三方的工具，此工具有后门漏洞，就会被监控到。

D. 日志管理工具：通过收集、分析和可视化应用程序的日志信息，以帮助用户快速发现和解决应用程序问题和异常情况。

2.3 资源层监控

资源层监控是指对计算机系统的各种资源（如CPU、内存、磁盘、网络等）进行实时监控和管理的过程，这个不仅包括服务器，还包括容器，而对于容器集群，由于有了水平扩展的资源调度，所以还包括容器的数量及其状态的监控。

2.4 链路层监控

链路层监控是指对分布式系统中各个组件、模块之间的交互过程进行实时监控和管理的过程。链路层监控可以帮助用户快速发现和解决应用程序的问题和瓶颈，提高应用程序的可靠性和性能。

2.5 后端监控

后端监控是指对应用程序后端（如数据库、缓存、消息队列等）进行实时监控和管理的过程。数据库监控是后端监控中的一个重要部分，主要是对数据库的性能、可用性和安全性进行监控和管理，以保证应用程序的正常运行和稳定性。

后端监控的也包括，性能监控、可用性监控、安全监控、日志监控等同应用层监控类似的监控。

在公有云大行其道的今天，越来越多的企业把后端（数据库，redis等）迁移到了公有云端，这些指标公有云都会提供，我们所要做的是把这些指标从公有云上引入到本地展示。

2.6 业务监控

业务监控是指对应用程序的业务功能进行实时监控和管理的过程，主要关注应用程序的业务流程和业务指标，以保证应用程序的业务功能的正常运行和业务价值的实现。

2.7 运维能力的监控

SLA（Service Level Agreement）、SLO（Service Level Objective）和 SLI（Service Level Indicator）是衡量运维能力指标的重要指标。SLA 是一种衡量客户服务质量的协议，SLO 和SLO是一种衡量所运维的系统可靠性是否达标的指标。