一、背景
KfES 实例不同节点,会出现隔断时间告警,需要kill后恢复。
二、排查
排查是es 2.3.0低版本的bug,LRUQueryCache 初始化后一直在占用着内存没有释放。
2.1 ES 版本
2.2 内存占用情况
2.3 ES 源码
2.4 社区经验
elasticsearch2.3.0 IndicesQueryCache LRUQueryCache
https://github.com/elastic/elasticsearch/issues?page=1&q=LRUQueryCache
https://github.com/elastic/elasticsearch/issues/57400
https://issues.apache.org/jira/browse/LUCENE-7652
https://github.com/elastic/elasticsearch/issues/22742
三、解决
短期取消缓存。
长期升级 ES 版本。