发现高CPU使用率进程
首先,我们需要编写一个Shell脚本来发现系统中CPU使用率最高的进程。以下是一个简单的脚本示例:
#!/bin/bash
# 设置 CPU 使用率的阈值,一般设置90;这里是demo,所以用30
CPU_THRESHOLD=30
# 获取占用 CPU 最高的进程 ID
HIGH_CPU_PID=$(ps -eo pid,pcpu --sort=-pcpu | grep -v '^ PID' | sed -n 2p | awk '{print $1}')
# 获取该进程的 CPU 使用率
HIGH_CPU_USAGE=$(ps -p $HIGH_CPU_PID -o %cpu= | awk '{print int($1)}')
# 检查 CPU 使用率是否超过阈值
if [ "$HIGH_CPU_USAGE" -ge "$CPU_THRESHOLD" ]; then
echo "进程 ID $HIGH_CPU_PID 占用 CPU $HIGH_CPU_USAGE%,超过阈值 $CPU_THRESHOLD%"
echo "终止进程 $HIGH_CPU_PID"
# kill -9 $HIGH_CPU_PID # 生产环境要注意,不要直接kill进程,可以抛出告警或打到日志。
else
echo "所有进程的 CPU 使用率都在正常范围内。"
fi
脚本解析
-
设置阈值:脚本开始时定义了一个变量
CPU_THRESHOLD
,用于设置CPU使用率的警戒线。在这个示例中,我们设置为30%。 -
获取高CPU使用率进程ID:使用
ps
命令列出所有进程及其CPU使用率,并按使用率降序排序。然后,通过grep
、sed
和awk
命令提取CPU使用率最高的进程ID。 -
获取进程CPU使用率:对上一步获取的进程ID使用
ps
命令,提取其CPU使用率。 -
判断和输出:使用
if
语句判断该进程的CPU使用率是否超过设定的阈值,并输出相应的信息。
处理高CPU使用率进程
在发现高CPU使用率的进程后,我们需要决定如何处理它。
在生产环境中,直接终止进程可能会导致数据丢失或其他问题,因此我们需要谨慎行事。
处理策略
-
记录日志:在脚本中添加日志记录功能,记录高CPU使用率的进程信息,以供后续分析。
-
发送告警:可以通过邮件、短信或其他方式发送告警,通知系统管理员。
-
分析原因:在采取任何行动之前,分析高CPU使用率的原因,可能是代码问题、资源争用或其他因素。
-
优雅地终止进程:如果确定需要终止进程,应使用
kill
命令的优雅终止选项(如SIGTERM
),给予进程清理资源的机会。 -
优化和调整:根据分析结果,对系统或应用程序进行优化和调整,以避免类似问题的再次发生。