Elasticsearch bucket_script、bucket_selector、bucket

1、实战问题

POST test-002/_bulk
{"index":{"_id":1}}
{"name": "张三","city": "beijing"}
{"index":{"_id":2}}
{"name": "李四","city": "beijing"}
{"index":{"_id":3}}
{"name": "王五","city": "shanghai"}
{"index":{"_id":4}}
{"name": "赵六","city": "shanghai"}

请教老师，上面的是我在es保存的数据，想写一个dsl，求出来 beijing 占比 50%， shanghai 占比 50%。

死磕Elasticsearch知识星球 https://t.zsxq.com/0bqpcJiLL

2、问题分析

类似问题，样例数据单看计算不复杂，“beijing” 2 个，“上海” 2 个，“beijing”占比: 2/(2+2) = 50%; "shanghai"同样计算，占比 50%。

业务层面，建议获取到分桶聚合结果后，直接代码求解百分比效率更高。

仅就上面数据解释如下，两个步骤搞定。

第一步：基于city 字段分桶聚合。

POST test-002/_search
{
  "size": 0,
  "aggs": {
    "city_aggs": {
      "terms": {
        "field": "city",
        "size": 10
      }
    }
  }
}

获取结果如下截图所示。

第二步：业务代码层面（python或Java或其他），直接来个除法搞定。

如上，才是效率最高的方案，尤其数据量巨大的业务场景。

问题来了，我就想让 Elasticsearch 搞定计算，怎么办？

我们需要在刚才分桶聚合的基础上，获取桶内“beijing”、“shanghai”的值，然后做除法。

这里的除法本质会用到 Elasticsearch Pipeline 子聚合 bucket_script 的概念。

讲到这里，有必要再把聚合梳理一遍。

3、聚合详解

3.1 聚合全局认知

聚合分类

核心分为三大类：

（1）Bucket 分桶聚合

通俗举例：开篇示例，按照“city”分桶，“beijing”一桶、“shanghai”一桶。

协议分桶聚合饼图

时间走势聚合示意图

（2）Metrics 指标聚合

通俗举例：求一组数据中的最大值；求一组数的平均值。

（3）Pipeline子聚合（基于聚合的聚合）

通俗举例：以B站视频为例，首先按年度统计每年最大观看量视频，然后再统计观看量最大视频所在的年份（基于聚合再聚合）。

如果基础概念还有点模糊，推荐阅读：基于儿童积木玩具图解 Elasticsearch 聚合。

3.2 Pipeline子聚合全局认知

子聚合核心又可以分为两类：

parent 子聚合
sibling 子聚合

子聚合分类

分类的依据更通俗讲是语法规则的不同。

4、Pipeline子聚合详解

为了更清楚的说明两者的不同，重构了样例数据如下。

####重构后的样例数据
DELETE test-002
PUT test-002
{
  "mappings": {
    "properties": {
      "sale_data": {
        "type": "date",
        "format": "yyyy-MM-dd"
      },
      "sale_count": {
        "type": "long"
      },
      "name": {
        "type": "keyword"
      },
      "city": {
        "type": "keyword"
      }
    }
  }
}

POST test-002/_bulk
{"index":{"_id":1}}
{"name":"张三","city":"beijing","sale_date":"2023-01-08","sale_count":100}
{"index":{"_id":2}}
{"name":"李四","city":"beijing","sale_date":"2023-01-18","sale_count":5000}
{"index":{"_id":3}}
{"name":"王五","city":"shanghai","sale_date":"2022-11-08","sale_count":300}
{"index":{"_id":4}}
{"name":"赵六","city":"shanghai","sale_date":"2022-12-28","sale_count":1000}

4.1 sibling 子聚合举例

需求描述：按照月份统计每个月的总销量，并获取月总销量最大的月份？
需求拆解：

（1）按照月份统计：使用 bucket 分桶聚合的date_histogram时间走势直方图聚合实现。

（2）每个月的总销量：在按照月份统计的基础上进行嵌套聚合，借助Metric指标聚合的sum实现。

（3）获取月总销量最大的月份：使用 Pipeline 子聚合的 Max_bucket 实现。

最终实现：

POST test-002/_search
{
  "size": 0,
  "aggs": {
    "sales_per_month": {
      "date_histogram": {
        "field": "sale_date",
        "calendar_interval": "month"
      },
      "aggs": {
        "sales": {
          "sum": {
            "field": "sale_count"
          }
        }
      }
    },
    "max_monthly_sales": {
      "max_bucket": {
        "buckets_path": "sales_per_month > sales"
      }
    }
  }
}

4.2 parent 子聚合举例

需求描述：文章开头，求“beijing”、“shanghai”的各占百分比？
需求拆解：

（1）按照 city 分桶：获取“beijing”、“shanghai”的 bucket 分桶聚合结果。

（2）计算百分比：借助 “bucket_script” 脚本子聚合实现。

这里实现层面不简单是上面的两步就可以完成。

核心原因在于：bucket_script 是 “parent”类型的子聚合，进一步说，它需要嵌套在外层聚合的里面，外层聚合就相当于它的“parent”，新加的子聚合相当于“child”。

外层怎么加，这个类似咱们之前的实现：图解：Elasticsearch 8.X 如何求解环比上升比例？

需要借助 filters 过滤聚合整出一个全量数据集，然后在此基础上统计分桶、桶内数据量，并借助 bucket_script 实现百分比。

具体实现如下：

POST test-002/_search
{
  "size": 0,
  "aggs": {
    "all_datas": {
      "filters": {
        "filters": {
          "all_dates_no_process": {
            "match_all": {}
          }
        }
      },
      "aggs": {
        "bucket_by_city": {
          "terms": {
            "field": "city",
            "size": 10
          }
        },
        "counts_of_city": {
          "value_count": {
            "field": "city"
          }
        },
        "bj_percents": {
          "bucket_script": {
            "buckets_path": {
              "bj_count": "bucket_by_city['beijing']>_count",
              "all_counts": "counts_of_city"
            },
            "script": "params.bj_count / params.all_counts"
          }
        },
        "sh_percents": {
          "bucket_script": {
            "buckets_path": {
              "sh_count": "bucket_by_city['shanghai']>_count",
              "all_counts": "counts_of_city"
            },
            "script": "params.sh_count / params.all_counts"
          }
        }
      }
    }
  }
}

不常用参数：bucket_by_city['beijing']>_count 含义如下：

获取“beijing”桶下的count计数结果。