项目场景:
这台云服务器主要是我学习在用,也不是很大,2核2g3M40G硬盘。
在这台服务器上,我主要使用了docker并且把所有的东西,都通过docker安装,比如MySQL,redis, elasticsearch。
问题描述
我正在配置MySQL的binlog,配置完成之后,突然就开始高负载,内存和cpu都跑满了。
因为是第一次遇到,所以经验不足。
解决过程描述:
一般这种跑满的情况,因为我是自己用的服务器,MySQL和redis就算对外开放也设置的有密码。所以我个人认为,要么就是MySQL出了问题,要么就是有人对服务器进行攻击。但是我目前还不清楚是哪个原因。
9点多的时候,服务器爆满
我使用的阿里云服务器,阿里云服务器有更详细的服务器监控功能,我傻傻的不知道。
看到爆满之后,我首先使用了1panel尝试关闭MySQL,但是因为爆满了,动都动不了,后面我又尝试使用命令行来关,但是也是关不掉。
这个时候,我就立即进行了重启,并尝试重新连接,但是还是连接不上去。
之后,我就认为是MySQL出了问题,没有太多关注服务器,就一直尝试连接服务器,偶然的能连上了,但是很卡,因为我认为是MySQL出了问题,并且我的全部东西都在docker上,我就开始尝试关闭MySQL。输入docker ps,过了有十几分钟才有反应,找到了MySQL对应的id,就输入对应stop命令,就开始等,希望他有反应,又等了二十多分钟,还是没有反应。
在等了二十多分钟之后,我打开了阿里云的监控,我才发现CPU的爆满的,内存是爆满的,网络有两个高峰,连接也就几个高的峰的,硬盘的运行也异常。这个时候,就觉得不正常,再次重启,马上尝试连接,连进去了。这个时候就想去找什么占用了服务器资源。
首先输入了ps -ef ,没有找到
然后输入mem,没有这个命令
然后输入了top,发现java占用资源很高。
到这个时候,我就真的挺懵的,因为我不记得我在服务器上安装了java,并且还有多个java。
然后我就让kimi生成找到cpu占用最高的进程ps -eo pid,ppid,comm,%cpu --sort=-%cpu
到这个时候,服务器就又卡起来了,那没事,重启,再重新连接。
在重启的间隙,我在想我应该怎么解决。
首先,想到的是1panel,因为我的东西都是通过1panel安装,就想先关了1panel,然后我又想到我所有的东西,都在docker上, 就决定直接先试试关1panel,1panel关了没有用就关MySQL,关MySQL没用就关docker。
重启好了,马上重连,还是先找的最大占用的进程,因为真的太卡了,我就想能不能先把这些java给kill掉,然后就开始kill,但是kill之后,java又重新出现了,并且占用比之前还高
于是我的就再次kill,并趁着不卡,关闭1panel,但是无济于事。
于是就再次,重启,重连,ps找到java对应的pid,kill,然后就直接关闭docker。顿时,所有的异常就都下来了。下面就是监控,整个过程全部的图。
cpu使用率
内存使用率
系统负载
实例云磁盘读写BPS
实例云盘IOPS
公网带宽
内网带宽
ECS同时连接数
解决方案:
真的要熟悉linux的常见的操作,我突发的时候就很懵,linux的一些操作我都很久没看了,还好现在有chatGPT之类的能很快的帮我找到相关命令。
然后如果数据相关的是通过docker下到服务器的,docker的相关操作也要熟练、不然你就会在紧急情况下,去百度,去GPT就很狼狈。
下面我总结我当时用到的命令。
linux
查看资源的使用情况
查看进程使用cpu的前几名
1panel的关闭命令
kill掉相关进程,后面的数字是pid
关闭docker
docker
docker stop ed