周一开发反馈在本地电脑上连接impala失败,怀疑是服务问题。测试后发现服务正常,故障也恢复了,就没追究,第二天又出现相似的故障。服务依然正常。怀疑是网络问题。联系网络同事排查。telnet通。网络负载也不是很高,搁置了一会之后再次恢复正常。第三天再次出现,决定排查一下
首先调整了一下haproxy后端的impala数量。不然太多了无从排查。手动访问后报错
SASL message (LDAP): Password verification failed
一个密码错误的相关报错。于是在本地测试 ,发现确实连不上了,但是之前密码是正确的,手动登陆了一下kerberos账户
报错Clients credentials have been revoked while getting initial credentials
这个报错是账户被锁的。
于是命令行登入 kadmin.local
getprinc 用户名 ,查看用户数据密码错误次数是否超过5次,如果是,证明账户被锁
Failed password attempts 的值大于5
账户被锁,输入命令modprinc -unlock 用户名,进行解锁
然后一切就正常了。但是为什么会发生这种事呢
继续排查kerberos
查看krb5kdc的日志
verify failure:Preauthentication failed AS REQ (4 etypes {18 17 16 231) 172.20.15.163:
PREAUTH FAILED:
发现在那个时间之前有密集的登陆报错。应该就是这里刷的密码错误次数,就是这个172.20.15.163搞的
登录上去查看了一下。这机器是测试的服务器 。开发人员对于报错看的不多。所以登录失败也没管,定时任务挂了就挂在那。导致了这次的故障。更换了新的keytab后解决