elasticsearch7.17 terms聚合性能提升90%+

news2026/2/16 18:35:47

背景

ES7 相比于 ES6 有多个层面的优化，对于开源的ES而言，升级是必经之路。

ES的使用场景非常多，在升级过程中可能会遇到非预期的结果；

比如之前文章提到的典型案例：ES7.17版本terms查询性能问题

ES7.17版本terms查询性能问题_es terms查询慢 profile-CSDN博客

接下来再分析一个升级之后聚合性能下降的case；

场景

1. 按照标准最佳实践进行改造（分片控制在20G左右，term/terms查询使用keyword类型...）

2. 集群从ES6.8.5 升级到 ES7.17.5

3. 异常：升级后性能骤降

avg 100ms -> 400ms

特定聚合查询 400ms -> 1500ms

4. 通过 profile ，以及实际测试，耗时主要是在聚合

分析

1. 性能下降，随之而来的还有CPU升高

2. 通过 arthas 工具采集火焰图

可以看到和global_ordinals全局序数相关；（查询/聚合时临时构建全局序数）

3. 针对全局序数，一般是2种优化手段

方案一：不使用序数 "execution_hint": "map"

注：只有在聚合时基数较小的情况下适用，否则容易OOM；（即字段整体数据基数较小；或者聚合时需要带有查询条件，查询条件筛选后用于聚合的字段数据基数比较小）

"aggregations": {
    "agg_count": {
      "terms": {
        "field": "xxxxID",
        "execution_hint": "map",
        "size": 2,
        "min_doc_count": 1,
        "shard_min_doc_count": 0,
        "show_term_doc_count_error": false,
        "order": [
          {
            "_key": "asc"
          }
        ]
      }
    }
  }

方案二：在查询之前提前创建好全局序数 "eager_global_ordinals": true，将全局序数的构建转移到索引（写数据）阶段，保证查询的效率

PUT xxxx/_mapping
{
  "properties": {
    "xxxxxID":{
      "type": "keyword",
      "eager_global_ordinals": true
    }
  }
}

结论

1. 使用方案一，"execution_hint": "map"，性能大幅提升

1600ms -> 10ms （没有pageCache时候是40ms左右）

注：POST xxxx/_cache/clear 只能清理ES本身的缓存，无法清理pageCache

然后check一下terms聚合使用的字段的基数

POST xxxxx/_search
{
  "query": {
    "match_all": {}
  },
  "size": 0,
  "aggs": {
    "count_aggs": {
      "cardinality": {
        "field": "xxxxID"
      }
    }
  }
}

整个索引，该字段的基数为 8kw，如果聚合不带任何条件就会消耗大量内存；

如果聚合都带查询条件，那么该方案适用，并且性能提升 90%+；

2. 方案二需要重建索引，理论查询性能也会大幅提升，此处暂无测试数据

PUT xxxx/_mapping
{
  "properties": {
    "xxxxxID":{
      "type": "keyword",
      "eager_global_ordinals": true
    }
  }
}

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1481105.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

elasticsearch7.17 terms聚合性能提升90%+

背景

场景

分析

结论

相关文章

服务端向客户端推送数据的实现方案

maven项目导入mysql依赖

【代码随想录python笔记整理】第十六课 · 出现频率最高的字母

RV1126芯片概述

【王道数据结构】【chapter8排序】【P371t5】

2024腾讯云服务器8888元代金券领取、主机价格表新鲜出炉！

遥感影像处理（ENVI+ChatGPT+python+ GEE）处理高光谱及多光谱遥感数据

【vue3】命令式组件封装，message封装示例；（函数式组件？）

【JVM】JVM相关机制

php 支持mssqlserver

用HTML5的＜canvas＞元素实现刮刮乐游戏

【Spring】spring中怎么解决循环依赖的问题

探讨javascript的程序性能

杭电OJ 2045 不容易系列之(3)—— LELE的RPG难题 C++

七通道NPN 达林顿管GC2003，专为符合标准 TTL 而制造，最高工作电压 50V，耐压 80V

构造pop链

csv大数值不显示E科学计算法的解决方案

分割回文串复原IP地址子集递增子序列

【报名指南】2024年第九届数维杯数学建模挑战赛报名全流程图解

「算法」常见位运算总结