可观测的三大基础度量遥测数据是 Trace、Metric、Log (链路、指标、日志)
OpenTelemetry
围绕度量遥测数据构建可视化产品,看板、仪表盘、大屏/大盘与监控告警。
目标
- 提升服务稳定性
- 提高资源利用率,降低云成本(降本)
- 业务梳理与架构治理
度量维度
Supported Metrics and Meters
时间区间:一天/每天
机器资源
/actuator/metrics
- 【CPU】CPU使用量,使用率最大值<5%,迁移接口,调整资源配置(合理区间:[20, 40]%) ✅
- 【内存】内存使用量,最大值、平均值<1GB,合并应用,调整资源配置 ✅
- 【磁盘】日志事件数,JVM监控
- 【网络】TCP连接数,Socket句柄,文件描述符数inode,超过一定阈值,连接泄露风险
- 【网络】TCP连接状态统计,TIME_WAIT、CLOSE_WAIT
- 【JVM】YoungGC次数,很频繁,1秒1次,潜在风险点 ✅
- 【JVM】YoungGC耗时,耗时>100ms,潜在风险点 ✅
- 【JVM】FullGC次数,数量>1,潜在风险点 ✅
- 【JVM】FullGC耗时,耗时>1s,潜在风险点 ✅
- 【线程】线程数,数量>1000,CPU上下文切换频繁,潜在风险点 ✅
- 【线程】线程池饱和策略拒绝的线程数,数量>0,线程池满了,潜在风险点 ✅
应用资源
/actuator/metrics
- 【DB】数据源的连接数,使用率>80%,连接被打满风险 ✅
- 【Cache】缓存客户端的连接数,使用率>80%,连接被打满风险
- 【Search】ElasticSearch客户端的查询队列,使用率>80%,连接被打满风险
- 【HTTP】HTTP客户端的连接数,数量>600,连接泄露风险
- 【MQ】消息堆积数量,业务延迟风险
业务视角
日同比、周环比
- 【接口】入口接口的请求数,总量<10w,迁移接口 ✅
- 【接口】入口接口的错误数,错误率>5%,潜在风险点 ✅
- 【接口】入口接口的平均响应时间,平均耗时>1s,慢接口(与三方HTTPS交互除外) ✅
- 【应用】应用的请求数,排行榜,总量<10w,合并应用 ✅
- 【应用】应用的错误数,排行榜
- 【应用】应用的响应时间,排行榜
链路追踪
- 【Trace】应用依赖的出入度,数量排行榜,业务逻辑交互复杂,业务架构治理 ✅
- 【Trace】应用接口数量 ✅
- 【Trace】接口依赖的出入度
- 【Span】Span跨度条数,数量排行榜,业务依赖复杂
- 【Span】Span跨度异常数,数量排行榜,接口潜在风险
实施路径
三步走
- 【一期】构建机器资源和应用资源度量维度的排行榜单
- 一季度
- 【二期】构建业务视角的排行榜单
- 二季度
- 【三期】构建链路追踪的排行榜单
- 三季度
参考
应用实时监控服务ARMS
查看监控详情(新版)
应用详情
应用概览
应用拓扑
应用分层分优先级展示
应用优先级:P0、P1、P2、P3