netdata保姆级面板介绍
- 基本介绍
- 部署流程
- 下载安装指令
- 选择设置KSM
- 为什么要启用 KSM?
- 如何启用 KSM?
- 验证 KSM 是否启用
- 注意事项
- 检查端口启动状态
- netdata和grafana的区别
- Netdata
- Grafana
- netdata各指标介绍
- 总览
- system overview栏
- 仪表盘
- 1. CPU
- 2. Load
- 3. Disk
- 4. RAM
- 5. Swap
- 6. Network
- 7. Processes
- 8. Interrupts
- 9. Softirqs
- 10. Entropy
- memory栏
- 1. System
- 2. Slab
- 3. Kernel
- 4. Memory Deduper
- cpus栏
- 1. Utilization
- 2. Interrupts
- 3. Softirqs
- firewall栏
- 1. netfilter
- disks栏
- 1. sda
- IPv4 Networking栏
- 1. TCP
- 2. UDP
- 3. Packets
- 4. Errors
- 5. Fragments
- 6. Broadcast
- 7. Multicast
- Network Interfaces栏
- 1. ens33
- Applications栏
- 1. CPU
- 2. Disk
- 3. Mem
- 4. Processes
- 5. Swap
- 6. Net
- postfix栏
- 1. queue
- Netdata Monitoring栏
- 1. Netdata
- 2. proc.internal
- 3. tc.helper
- 4. apps.plugin
- 5. charts.d
- Example Charts栏
基本介绍
Netdata 是一个开源的实时性能监测工具,主要用于系统和应用程序的实时监控,实时监控系统资源使用情况,如 CPU、内存、磁盘 I/O等,能够提供高分辨率的监控数据,并以直观的图表形式展示,方便轻松地诊断和解决性能问题
-
实时监控:
高分辨率数据:Netdata 提供毫秒级的数据更新频率,使得监控数据异常精准和实时
低资源占用:在运行时占用资源极低,不影响系统的正常运行 -
自动化运维:
自动发现监控目标:能够自动检测并监控系统上运行的服务和应用程序
无需配置文件:大多数情况下,系统会自动配置,减少用户的操作负担 -
可视化界面:
直观的图表:提供丰富的图表和图形界面,能够直观地展示系统状态和性能指标
多维视图:支持通过不同维度查看数据,如时间维度、应用维度等 -
插件系统:
广泛的应用支持:通过插件机制,支持监控各种系统和应用程序,包括但不限于数据库、Web 服务器、容器等
动态更新:用户可以通过扩展插件功能,监控自定义服务或数据 -
健康监测:
告警系统:内置强大的告警系统,能够在条件满足时自动发送告警通知
灵活配置:告警规则和条件可以灵活配置,适应不同场景的监控需求 -
安装和使用简便:
一键安装:提供简单的安装脚本,方便快速部署
用户友好:Web 界面直观且美观,易于上手
部署流程
下载安装指令
yum install zlib-devel gcc make git autoconf autogen automake pkgconfig
cd /usr/local/src/
wget http://firehol.org/download/netdata/releases/v1.0.0/netdata-1.0.0.tar.gz
tar -xf netdata-1.0.0.tar.gz
cd netdata-1.0.0
./netdata-installer.sh
选择设置KSM
安装过程中提示的这段信息是关于 Kernel Same-page Merging (KSM) 的建议,KSM 是一种内核特性,能够在内核中合并相同内容的内存页,从而减少内存使用量,对于像 Netdata 这样的监控工具,启用 KSM 可以在一定程度上减少内存消耗
为什么要启用 KSM?
- 内存节省:KSM 可以合并相同的内存页,从而减少内存使用量,Netdata 通常会使用相当多的内存来存储各种监控数据,启用 KSM 可以帮助节省 20-60% 的内存
- 性能优化:通过减少内存使用,系统的整体性能也有所提升,特别是在内存资源受限的环境中
如何启用 KSM?
根据提示,可通过以下命令来启用 KSM:
- 启用 KSM:
echo 1 > /sys/kernel/mm/ksm/run
- 设置 KSM 轮询间隔:
echo 1000 > /sys/kernel/mm/ksm/sleep_millisecs
验证 KSM 是否启用
可通过以下命令来检查 KSM 是否已经启用:
cat /sys/kernel/mm/ksm/run
如果输出为 1,则表示 KSM 已经启用
注意事项
- 性能影响:虽然 KSM 可以节省内存,但也会带来一定的性能开销,特别是在高负载系统上,如果系统资源充足,可以根据实际情况选择是否启用 KSM
- 配置持久化:这些命令是临时设置的,重启系统后会失效,如果希望 KSM 在重启后仍然保持启用状态,可以将这些命令添加到系统的启动脚本中,例如 /etc/rc.d/rc.local或者使用systemctl 创建一个自启动服务
检查端口启动状态
netstat -lntp | grep 19999
netdata和grafana的区别
Netdata
专注于实时性能监控的工具,提供高分辨率的系统指标数据,自动发现和健康监测功能,适用于快速部署和实时监控
- 实时性能监控:Netdata 专注于实时性能监控,能够提供高分辨率(毫秒级)的系统指标数据
- 自动发现:能够自动检测并监控系统上运行的服务和应用程序,减少用户操作负担
- 健康监测:内置告警系统,能够根据设定的规则发送告警通知
Grafana
功能强大的数据可视化平台,支持从多种数据源提取数据进行可视化展示,适合复杂的监控场景和高级用户
- 数据可视化:Grafana 主要是一个数据可视化平台,支持从各种数据源(如 Prometheus、InfluxDB、Elasticsearch 等)提取数据进行可视化展示
- 灵活查询:支持复杂的查询和数据聚合,适用于复杂的监控场景
- 告警与通知:虽然 Grafana 也支持告警,但它通常依赖于外部数据源的告警功能
netdata各指标介绍
总览
system overview栏 :cpu、load、disk、ram、swap、network、processes、interrupts、softirqs、entropy
memory栏: system、slab、kernel、memory deduper
cpus栏: utilization、interrupts、softirqs
firewall栏: netfilter
disks栏: sda
IPv4 Networking栏: tcp、udp、packets、errors、fragments、broadcast、multicast
Network Interfaces栏: ens33
Applications栏: cpu、disk、mem、processes、swap、net
postfix栏: queue
Netdata Monitoring栏: netdata、proc.internal、tc.helper、apps.plugin、charts.d
Example Charts栏: random
system overview栏
netdata 的 System Overview 栏提供了系统各个关键指标的实时监控数据
仪表盘
从左到右分别是:free swap、disk read、disk write、cpu、ipv4 inbound、ipv4 outbound、available RAM
- 系统中可用的交换空间量 (Free Swap):交换空间是当物理内存(RAM)不足时用于暂存内存数据的硬盘空间,Free Swap 显示当前未被使用的交换空间量占比,free swap 值越小表明系统内存紧张
- 磁盘读取的数据速率 (Disk Read):Disk Read 为当前系统从磁盘读取数据的速率,通常以 KB/s 或 IO 操作数(IOPS)为单位,值越大表示系统正在执行大量的读取操作,可能是由于应用程序或用户请求
- 磁盘写入的数据速率 (Disk Write):Disk Write 为当前系统向磁盘写入数据的速率,通常以 KB/s为单位, Disk Write 值越大表示系统正在积极地向磁盘写入数据,可能是由于数据记录、日志写入或应用程序的输出
- CPU 的使用情况 (CPU):CPU 指标通常显示系统中 CPU 的利用率,通常以百分比表示,反映了 CPU 在执行用户进程、系统进程及空闲状态中所耗用的时间
- 进入系统的 IPv4 网络流量 (IPv4 Inbound):IPv4 Inbound 显示当前流入服务器的网络数据流量,有助于了解系统正在处理的流入请求量
- 出系统的 IPv4 网络流量 (IPv4 Outbound):IPv4 Outbound 显示当前流出服务器的网络数据流量,这个指标帮助监测系统发出的网络流量,可以用来评估应用程序的网络活动
- 可用的物理内存量 (Available RAM):Available RAM 显示当前系统中未被使用的物理内存(RAM)量占比,包括可以迅速调度的缓存和缓冲区,从系统性能的角度来看,RAM越大越好,因为它确保了运行应用程序和系统服务时的流畅性
1. CPU
CPU 部分显示了系统的 CPU 使用情况
- user(用户模式):CPU 在用户模式下执行应用程序的时间比例,表示应用程序的运行时间
- system(系统模式):CPU 在内核模式下执行系统调用的时间比例,表示内核操作的运行时间
- nice:CPU 执行 Nice 级别进程的时间比例,Nice 级别用于调整进程的优先级
- iowait(等待 I/O):CPU 等待 I/O 操作完成的时间比例
- softtirq(软件中断):CPU 处理软件中断的时间比例
2. Load
Load 部分显示了系统的平均负载,通常以 1 分钟、5 分钟和 15 分钟为单位
- 1min:过去 1 分钟的系统平均负载
- 5min:过去 5 分钟的系统平均负载
- 15min:过去 15 分钟的系统平均负载
负载表示系统中正在运行和等待运行的进程数量,理想情况下,这个值应该小于或等于 CPU 核心的数量
3. Disk
Disk 部分显示了磁盘的 I/O 活动情况
- 读写速率 (in/out):表示每秒读取或写入的数据量,通常以 kilobytes/s(千字节每秒)表示
4. RAM
RAM 部分显示了系统内存的使用情况
- used (已用内存):系统当前使用的内存量
- buffer (缓存):用于存储临时数据的内存
- cache (缓存):用于缓存文件系统数据以加快访问的内存
- free (空闲内存):当前未使用的内存量
5. Swap
Swap 部分显示了系统的交换空间使用情况,交换空间用于在物理内存不足时存储内存数据
- used (已用交换空间):当前使用的交换空间量
- free (空闲交换空间):当前未使用的交换空间量
6. Network
Network 部分显示了网络接口的活动情况
- 接收流量 (received):表示网络接口接收的数据量,通常以 kilobytes/s 表示
- 发送流量 (sent):表示网络接口发送的数据量,通常以 kilobytes/s 表示
7. Processes
Processes 部分显示了系统中进程的活动情况
- 运行中的进程数量 (running):表示当前正在运行的进程数量
- 创建的进程总数 (started):显示自系统启动以来已经启动的进程数量,此数字会随着时间增加
- 当前活动的进程数量 (active):表示一段时间内有活动的进程数量,通常是指在监控周期内有执行任务的进程
- 上下文切换的数量 (switches):上下文切换是 CPU 在不同进程之间切换执行的过程
- 表示时间调度的抖动(jitter):Jitter 指的是进程调度延迟的变化,通常表示调度相对不规律的情况,高 Jitter 值表明系统调度延迟不稳定,影响实时性能和应用的响应能力
8. Interrupts
Interrupts 部分显示了系统中断的统计数据
- 硬件中断 (interrupts):表示系统处理的硬件中断数量,单位每秒
9. Softirqs
Softirqs 部分显示了系统软中断的统计数据
- 与定时器相关的软中断数量 (TIMER):TIMER 表示系统中由定时器驱动的软中断数量,通常用于处理定时任务,比如调度进程,定时器软中断的数量增长意味着系统在处理大量需要定时的操作
- 网络发送相关的软中断数量 (NET_TX):NET_TX 软中断处理网络数据包发送相关操作,高NET_TX 数量通常表示网络繁忙,系统正在积极发送数据包
- 网络接收相关的软中断数量 (NET_RX):NET_RX 软中断处理网络数据包接收相关操作,高NET_RX 数量通常表明系统正在接收大量网络数据,表示网络流量较大
- 块设备相关的软中断数量 (BLOCK):BLOCK 软中断用于处理与磁盘 I/O 相关的操作,这包括数据传输和请求处理等,高的 BLOCK 数量表示有较多的磁盘活动
- 任务处理相关的软中断数量 (TASKLET):TASKLET 是 Linux 中的一种机制,用于处理软中断和延迟任务,TASKLET 用于实现轻量级的延迟任务调度,高的 TASKLET 数量表示有较多的延迟任务正在被调度或执行
- 引用计数相关的软中断数量 (RCU):RCU 是种高效的并发数据结构更新机制,通常用于内核中,RCU 软中断数量的增加表示系统正在处理需要稳定数据返回的情况,高 RCU 数量影响性能
10. Entropy
Entropy 部分显示了系统的熵池状态
- 可用熵 (Available Entropy):表示系统中可用的熵量,熵用于随机数生成,是安全性和加密操作的关键资源
memory栏
memory栏可获得关于系统整体内存使用情况、内核内存占用、Slab缓存的使用情况及内存去重的效率等多方面的深入洞察,有助于识别潜在的性能问题、调整内存管理策略,和通过优化达到更好的资源使用效率
1. System
表示整个系统的内存使用情况,System 指标显示了物理内存的总体使用情况,包括已用内存、空闲内存、缓存和缓冲区等,通常,System的内存使用情况可以分为Memory Page Faults (mem.pgfaults) 中的 minor和 Committed(Allocated) Memory (mem.committed) 中的Committed_AS
- Memory Page Faults:Page Faults(页错误) 是指 CPU 在访问内存页时,发现所需的页面不在物理内存中,从而导致的中断
- Minor Page Faults:表示轻微的页错误数量, 反映应用程序对内存的访问模式,值越大表明有较高的内存映射调用
- Committed:指已提交的内存量,也就是操作系统为某个进程分配的内存量,这表示已经保障并分配给应用程序使用的内存
Committed_AS: - 意义:表示应用程序所承诺的内存量
- 解释:
- Committed_AS 反映了实际申请的内存的最大量,包括分配的和未分配但承诺的内存,操作系统需要保证这些已承诺的内存可以被实际使用,尽管这部分内存可能还未完全被实际分配给物理内存(也就是可能部分存在于交换分区或尚未使用的空间中)
- 当检查该指标时,可以了解进程的内存使用水平,如果 Committed_AS 偏高,意味着某些进程正在申请大量内存,而这些内存虽然未全部使用,但系统确保可以随时提供给这些进程
2. Slab
内核使用的 slab 分配器的内存,Slab是一种内存管理机制,主要用于内核中的对象管理,该机制通过预分配固定大小的缓存区来优化对象分配,减少内存分配的开销,Slab 指标显示用于slab 缓存的内存量
包括但不限于:
- reclaimable(可回收的):可回收的 slab 缓存量
- unreclaimable(不可回收的):不可回收的 slab 缓存量
Slab 占用的内存通常用于存储内核对象,如进程控制块(PCB)、文件句柄、网络缓冲区等
3. Kernel
表示操作系统内核使用的内存,Kernel指标跟踪内核自身使用的内存,包括内核数据结构和代码、模块以及其他在内核空间运行的组件所需的内存,这个指标可帮助监控内核的内存占用情况,如果Kernel 的内存使用过高,表示有大量的内核对象被创建,或有潜在的内存泄漏
- Dirty(标记为“脏”的内存大小):Dirty pages 是指被修改的内存页,尚未被写回到磁盘,这些页面是“脏”的,因为它们存储了不同于磁盘上当前版本的数据,如果 dirty 页的数量过高,表明系统面临较高的写入压力
- Slab(内核对象分配的内存):Slab 的高使用率意味着内核中有许多对象被创建和保留,会影响系统的整体内存使用状况
- KernelStack(内核堆栈的内存使用量):是每个内核线程或进程在内核空间中使用的栈空间,每个内核线程或进程都需分配一定量的内核堆栈以执行内核代码,过高的使用量指示有许多内核线程正在活动或请求处理
- PageTables(用于管理进程页表的内存):Page Tables 是操作系统用于跟踪虚拟内存和物理内存之间映射的数据结构,如果该指标的值较高,表示系统中有大量的进程,或每个进程有较大的虚拟内存需求
- Vmalloced(用于管理进程页表的内存):Page Tables 是操作系统用于跟踪虚拟内存和物理内存之间映射的数据结构
4. Memory Deduper
内存去重的相关信息,是种优化技术,用于重新利用重复的数据,从而减少内存占用,通常在虚拟化环境下使用,如KVM/QEMU,当多个虚拟机使用相同的内存页时,Deduplication 会将这些重复的页合并,减少整体内存需求,MemoryDeduper 显示内存去重所释放的内存量,可用于评估去重技术对系统内存使用的影响
- Saved(通过内存去重机制节省的内存量):高 Saved 数值表示内存的去重效果显著,系统因此节省了大量内存资源
- Savings(内存去重机制的节省潜力):Savings 值越高,意味着去重技术可以释放出更多的内存资源
- Shared(当前共享的内存页数量):共享页的数量越多,表示内存去重的效果越好,因为相同的内存被多个进程共享,从而减少了总的内存使用量
- Unshared(未共享的内存页数量):显示的是当前未被共享的内存页数量,这些页面的内容是唯一的,没有在其他进程中被共享
- Sharing(正处于共享处理中的内存页数量):数值增加意味着当前有大量内存页被检测和处理为共享状态
- Volatile(临时的内存页数量):临时内存不参与去重,因为它们随时可能发生变化,监控 Volatile 页面可以了解那些频繁变动的内存使用情况
- To Scan(待扫描的内存页数量):这个指标反映了内存去重机制的扫描工作负载,越多的“To Scan”页面意味着内存去重机制需要处理更多的页面
- Offered(已提交给去重处理机制的内存页数量):该指标可了解去重机制的输入量,以及它需要处理的页面数量
cpus栏
Utilization 提供了 CPU 使用情况的全面视图,用于了解 CPU 在不同任务和模式下的使用情况;Interrupts监控硬件设备与 CPU 的交互频率,过高的中断数则需要优化硬件或软件配置;Softirqs 用于了解内核在处理后台任务和服务时的表现,高Softirq 数表明后台任务负载较重,需要进一步优化
1. Utilization
表示 CPU 的利用率,Utilization 指标显示了CPU 在一段时间内被使用的百分比,反映 CPU 处理任务的时间占比
- User(用户空间进程的 CPU 使用率):包括普通程序和系统进程的用户空间处理时间
- System(内核空间的 CPU 使用率):包括系统调用、内核线程和其他内核活动
- Nice(高优先级(niced)进程的 CPU 使用率):Nice 值较高的进程会获得更多的 CPU 时间
- Iowait(等待 I/O 操作完成的 CPU 使用率):表示 CPU 因 I/O 操作而空闲的时间
- Softirq(软中断处理的 CPU 使用率):软中断由内核触发,用于处理后台任务和服务
2. Interrupts
表示硬中断的数量,硬中断是由硬件设备触发的事件,如网络数据包到达、磁盘读写完成等
3. Softirqs
表示软中断的数量,软中断是由内核触发的事件,用于处理后台任务和服务,通常比硬中断处理的优先级低
- TIMER:定时器软中断,用于处理定时任务
- NET_TX:网络发送软中断
- NET_RX:网络接收软中断
- BLOCK:块设备操作软中断
- TASKLET:用于运行特定任务的软中断
- RCU: 引用计数相关的软中断数量
firewall栏
可以监控与 Linux 内核网路过滤框架 Netfilter 相关的各种指标,Netfilter 是 Linux内核中实现防火墙(iptables)功能的机制,允许用户配置和控制网络流量的过滤
1. netfilter
Active Connections(当前活动的连接数量): 表示目前系统中正在进行的活动连接的总数, 这个指标可解系统当前的负载情况以及网络连接的活跃程度
New Connections(新建立的连接数量): 通常用于监控流量峰值和连接创建的频率
Connections(总连接数量): 表示所有连接的总数,包括活动的和已关闭的连接, 这个值可以用来评估连接状态和流量的整体趋势
New(新连接状态): 表示哪些连接是新建立的
Ignore(被忽略的连接数量): 表示因为某些原因(例如被过滤或未匹配到特定规则)未被处理的连接数量
Inserted(成功插入到连接追踪表中的连接数量): 较高的数字表明连接追踪正在正常工作
Deleted(从连接追踪表中删除的连接数量): 通常是这些连接已结束或者超时
Delete List(待删除的连接列表数量): 该指标表示在连接追踪机制中待从列表中删除的连接数量
Created(创建的连接数量): 表示在特定时间段内由防火墙或连接追踪机制创建的连接数,通常表示新会话的建立
ICMP Error(ICMP 错误消息数量): 表示生成和发送的 Internet 控制消息协议(ICMP)错误消息总数,可帮助跟踪出现连接问题的流量
Insert Failed(插入连接追踪表失败的连接数量): 显示尝试添加到连接追踪表中但未成功的连接数量,较多的插入失败通常会指示出内存不足或者连接追踪表已满
Drop(丢弃的数据包数量): 表示根据防火墙规则丢弃的网络数据包数量,通常是因为不符合安全策略的流量
Early Drop(早期丢弃的数据包数量): 表示在连接处理的早期阶段被丢弃的数据包,通常是因为未能满足最基本的审查条件
Searched(搜索连接追踪表的总次数): 指在处理连接时搜索连接追踪表以找到状态和数据的总次数,通常用于评估连接追踪的效率
Found(在连接追踪表中找到匹配连接的数量): 表示在搜索连接追踪表时成功找到的连接数目,反映了处理连接时的成功率
disks栏
可以查看有关磁盘(例如 sda)的各种性能指标,这些指标有助于监控磁盘的使用情况、性能和健康状态
1. sda
Read Bytes(读取的字节总数): 表示从磁盘读取的数据总字节数,可以用于评估磁盘的读取性能
Write Bytes(写入的字节总数): 表示写入到磁盘的数据总字节数,提供了磁盘写入性能的一种度量
Utilization(磁盘利用率): 表示磁盘忙碌的百分比,指示磁盘在特定时间段内的使用情况,如果值接近 100%,说明磁盘处于高负载状态
Backlog(I/O 请求的积压数量): backlog 指标显示当前未处理并等待处理的 I/O 请求数量,这个值反映了磁盘的处理能力和负载情况
IPv4 Networking栏
可监控各种与网络协议相关的性能指标,特别是TCP、UDP、数据包(Packets)、错误(Errors)、碎片(Fragments)、广播(Broadcast)和多播(Multicast)这些指标提供了IPv4 网络流量监测的多维视角,可以用于分析网络性能、识别潜在问题和优化网络配置,通过监控 TCP 和 UDP的连接状态、数据包的流量、错误的数量以及碎片与广播的数据,可获得对网络运行状态的深入了解,确保网络的高效和稳定
1. TCP
TCP 相关的网络统计信息
- Connections:当前活动的 TCP 连接数
- received:每秒接受的包数
- sent:每秒发送的包数
2. UDP
UDP 相关的网络统计信息
- Received:通过 UDP 接收到的数据包数量
- Sent:通过 UDP 发送的数据包数量
- Errors:由于错误导致未能成功接收或发送的 UDP 数据包
3. Packets
网络中传输的数据包总数,包括所有协议的数据包(TCP、UDP、ICMP 等)用于了解网络流量总量和活跃程度
4. Errors
网络错误总数
5. Fragments
碎片包的数量,碎片过多会影响数据传输的效率,并可能导致数据包丢失
6. Broadcast
广播包的数量,过多的广播数据包可能会导致网络拥塞
7. Multicast
多播包的数量,监控这一指标可以帮助评估多播流量的使用情况和性能
Network Interfaces栏
提供了对 ens33网络接口性能的全面监控,通过监控这些参数,可评估网络接口的健康状况、流量情况和潜在问题,确保网络的正常运行和高效数据传输
1. ens33
Applications栏
可监控各种应用程序的关键性能指标,包括 CPU 使用率、磁盘 I/O、内存使用、进程状态、交换空间使用情况以及网络流量
1. CPU
CPU 使用率,显示应用程序在 CPU 上的占用情况
- User Time:应用程序在用户模式下占用的时间
- System Time:应用程序在内核模式下占用的时间
- Total CPU Time:应用程序使用的总 CPU 时间,包括用户时间和系统时间
- 高 CPU 使用率表明应用程序正在密集计算,或者存在性能瓶颈
2. Disk
磁盘 I/O,显示应用程序在磁盘上的读写操作情况,即应用程序的磁盘活动
- Read Operations:应用程序发起的磁盘读操作次数
- Write Operations:应用程序发起的磁盘写操作次数
- Total Operations:应用程序发起的总磁盘操作次数,包括读和写
- 高磁盘 I/O可能表明应用程序频繁访问磁盘数据,影响整体系统性能
3. Mem
内存使用情况,包括物理内存和虚拟内存
- 高内存使用会导致系统内存不足,引发性能问题或交换空间的使用增加
4. Processes
显示应用程序的进程状态,包括活动进程数量等
5. Swap
显示应用程序使用交换空间的情况,即应用程序的虚拟内存和物理内存之间的交换活动
- 频繁的交换活动可能表明物理内存不足,影响系统性能
6. Net
网络流量,显示应用程序的网络活动情况,即应用程序在网络上的发送和接收流量
- 高网络流量表明应用程序正在进行大量的网络通信,影响网络性能和带宽使用
postfix栏
通过监控 Postfix的邮件队列指标,可全面了解邮件系统的性能、处理状态和潜在问题,这有助于提高邮件传递的效率,并及时发现和解决可能影响邮件投递的故障
1. queue
可监控与邮件传输代理(MTA)Postfix 相关的各种性能指标,主要关注邮件队列的状态和相关指标
Size(邮件队列的当前大小): 表示当前在 Postfix 邮件队列中待处理的邮件数量,较大的队列大小表明存在邮件发送延迟或后端系统处理速度较慢
Netdata Monitoring栏
其中的netdata、proc.internal、tc.helper、apps.plugin和charts.d提供了对系统性能、网络状态和应用程序运行情况的全面监控能力,可根据这些指标参数及时发现潜在问题,优化系统配置,确保系统的稳定运行和高效性能,同时,charts.d的自定义功能还为用户提供了灵活的监控方案定制能力,以满足不同场景下的监控需求
1. Netdata
- CPU使用率: 显示Netdata自身进程使用的CPU百分比
- 网络流量: 展示Netdata进程占用的内存大小
2. proc.internal
- CPU上下文切换: 记录系统CPU上下文切换的次数,包括自愿和非自愿切换
3. tc.helper
- TC CPU Usage :该指标用于监控与 Traffic Control 相关的 CPU 使用情况,即 Netdata 为处理流量控制规则而消耗的 CPU 资源
- TC Script Execution :该指标用于监控流量控制脚本的执行时间,通常指的是在处理流量控制规则时执行的相关脚本消耗的时间
4. apps.plugin
- Apps Plugin CPU:用于监控由Netdata Apps Plugin跟踪的应用程序或进程的CPU使用情况
- Apps Plugin Files:该指标用于监控由Netdata Apps Plugin跟踪的应用程序或进程的文件使用情况,包括打开的文件数、文件描述符等
5. charts.d
是一个自定义图表目录,可根据需要创建自定义的监控图表,用来监控Netdata中特定插件的执行效率,通过分析平均、最大和最小执行时间来发现是否存在插件运行不畅、效率低下的问题
- Execution time for example plugin:用于监控示例名为 chartsd_example 插件的执行时间
Example Charts栏
示例图表,用于演示如何使用Netdata监测随机生成的数据,包含一些具有随机性质的数据指标
整理不易 如果觉得有帮助,可以打赏下^ _ ^