Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景?

news2024/10/2 16:15:10

1、实战问题

POST test-002/_bulk
{"index":{"_id":1}}
{"name": "张三","city": "beijing"}
{"index":{"_id":2}}
{"name": "李四","city": "beijing"}
{"index":{"_id":3}}
{"name": "王五","city": "shanghai"}
{"index":{"_id":4}}
{"name": "赵六","city": "shanghai"}

请教老师, 上面的是我在es保存的数据, 想写一个dsl, 求出来 beijing 占比 50%, shanghai 占比 50%。

死磕Elasticsearch知识星球 https://t.zsxq.com/0bqpcJiLL

2、问题分析

类似问题,样例数据单看计算不复杂,“beijing” 2 个,“上海” 2 个,“beijing”占比: 2/(2+2) = 50%; "shanghai"同样计算,占比 50%。

业务层面,建议获取到分桶聚合结果后,直接代码求解百分比效率更高。

仅就上面数据解释如下,两个步骤搞定。

  • 第一步:基于city 字段分桶聚合。

POST test-002/_search
{
  "size": 0,
  "aggs": {
    "city_aggs": {
      "terms": {
        "field": "city",
        "size": 10
      }
    }
  }
}

获取结果如下截图所示。

bc41246aefe08d08c264943056e6572b.png

第二步:业务代码层面(python或Java或其他),直接来个除法搞定。

如上,才是效率最高的方案,尤其数据量巨大的业务场景。

问题来了,我就想让 Elasticsearch 搞定计算,怎么办?

我们需要在刚才分桶聚合的基础上,获取桶内“beijing”、“shanghai”的值,然后做除法。

这里的除法本质会用到 Elasticsearch Pipeline 子聚合 bucket_script 的概念。

讲到这里,有必要再把聚合梳理一遍。

3、聚合详解

3.1 聚合全局认知

4a4a96bb0a8ec78ae03c716ae3758afb.png

聚合分类

核心分为三大类:

(1)Bucket 分桶聚合

通俗举例:开篇示例,按照“city”分桶,“beijing”一桶、“shanghai”一桶。

655192c3e25632fd76eaa4fd9c50d7f8.png

协议分桶聚合饼图

64a7411ee27f72b1d5535db6f6784b57.png

时间走势聚合示意图

(2)Metrics 指标聚合

通俗举例:求一组数据中的最大值;求一组数的平均值。

(3)Pipeline子聚合(基于聚合的聚合)

通俗举例:以B站视频为例,首先按年度统计每年最大观看量视频,然后再统计观看量最大视频所在的年份(基于聚合再聚合)。

如果基础概念还有点模糊,推荐阅读:基于儿童积木玩具图解 Elasticsearch 聚合。

3.2 Pipeline子聚合全局认知

子聚合核心又可以分为两类:

  • parent 子聚合

  • sibling 子聚合

764c89278df57f7171b0a6d75c41f578.png 子聚合分类

分类的依据更通俗讲是语法规则的不同。

4、Pipeline子聚合详解

为了更清楚的说明两者的不同,重构了样例数据如下。

####重构后的样例数据
DELETE test-002
PUT test-002
{
  "mappings": {
    "properties": {
      "sale_data": {
        "type": "date",
        "format": "yyyy-MM-dd"
      },
      "sale_count": {
        "type": "long"
      },
      "name": {
        "type": "keyword"
      },
      "city": {
        "type": "keyword"
      }
    }
  }
}

POST test-002/_bulk
{"index":{"_id":1}}
{"name":"张三","city":"beijing","sale_date":"2023-01-08","sale_count":100}
{"index":{"_id":2}}
{"name":"李四","city":"beijing","sale_date":"2023-01-18","sale_count":5000}
{"index":{"_id":3}}
{"name":"王五","city":"shanghai","sale_date":"2022-11-08","sale_count":300}
{"index":{"_id":4}}
{"name":"赵六","city":"shanghai","sale_date":"2022-12-28","sale_count":1000}

4.1 sibling 子聚合举例

  • 需求描述:按照月份统计每个月的总销量,并获取月总销量最大的月份?

  • 需求拆解:

(1)按照月份统计:使用 bucket 分桶聚合的date_histogram时间走势直方图聚合实现。 

(2)每个月的总销量:在按照月份统计的基础上进行嵌套聚合,借助Metric指标聚合的sum实现。 

(3)获取月总销量最大的月份:使用 Pipeline 子聚合的 Max_bucket 实现。

最终实现:

POST test-002/_search
{
  "size": 0,
  "aggs": {
    "sales_per_month": {
      "date_histogram": {
        "field": "sale_date",
        "calendar_interval": "month"
      },
      "aggs": {
        "sales": {
          "sum": {
            "field": "sale_count"
          }
        }
      }
    },
    "max_monthly_sales": {
      "max_bucket": {
        "buckets_path": "sales_per_month > sales"
      }
    }
  }
}
0731182631989e16187f45d83bb86a71.png

4.2 parent 子聚合举例

  • 需求描述:文章开头,求“beijing”、“shanghai”的各占百分比 ?

  • 需求拆解:

(1)按照 city 分桶:获取“beijing”、“shanghai”的 bucket 分桶聚合结果。

(2)计算百分比:借助 “bucket_script” 脚本子聚合实现。

这里实现层面不简单是上面的两步就可以完成。

核心原因在于:bucket_script 是 “parent”类型的子聚合,进一步说,它需要嵌套在外层聚合的里面,外层聚合就相当于它的“parent”,新加的子聚合相当于“child”。

外层怎么加,这个类似咱们之前的实现:图解:Elasticsearch 8.X 如何求解环比上升比例?

需要借助 filters 过滤聚合整出一个全量数据集,然后在此基础上统计分桶、桶内数据量,并借助 bucket_script 实现百分比。

具体实现如下:

POST test-002/_search
{
  "size": 0,
  "aggs": {
    "all_datas": {
      "filters": {
        "filters": {
          "all_dates_no_process": {
            "match_all": {}
          }
        }
      },
      "aggs": {
        "bucket_by_city": {
          "terms": {
            "field": "city",
            "size": 10
          }
        },
        "counts_of_city": {
          "value_count": {
            "field": "city"
          }
        },
        "bj_percents": {
          "bucket_script": {
            "buckets_path": {
              "bj_count": "bucket_by_city['beijing']>_count",
              "all_counts": "counts_of_city"
            },
            "script": "params.bj_count / params.all_counts"
          }
        },
        "sh_percents": {
          "bucket_script": {
            "buckets_path": {
              "sh_count": "bucket_by_city['shanghai']>_count",
              "all_counts": "counts_of_city"
            },
            "script": "params.sh_count / params.all_counts"
          }
        }
      }
    }
  }
}

不常用参数:bucket_by_city['beijing']>_count 含义如下:

获取“beijing”桶下的count计数结果。

c035173c8d197fcff6d2f925da956db6.png

折叠图如下图所示,parent 类别的含义由此而来。

12b2fd0c73ff6903a8f1b94a2562a36f.png

最终百分比结果如下:

f41a29855c4074b688516708ccbef0c4.png

至此,开篇问题求解完毕。

5、bucket_script、bucket_selector、bucket_sort 的定义和应用场景?

  • Bucket selector选择子聚合:对聚合的结果执行进一步的筛选和运算。

  • Bucket script 脚本子聚合:在聚合的结果上执行脚本运算,以生成新的聚合结果。

  • Bucket sort 排序子聚合:用聚合结果的任意字段进行排序,并返回一个排序后的桶列表。

这三类都属于 parent 类型的子聚合。子聚合的核心是对前置聚合结果的二次聚合,所以,只有业务需求有对聚合结果再聚合的场景才考虑子聚合。

bucket_script 是一种特殊的子聚合功能,它允许我们在聚合的桶中执行脚本。

应用举例:可以使用脚本来计算每个桶的平均值、百分比(如本文示例)、环比及标准差等。

bucket_selector 是一种特殊的子聚合功能,它允许我们选择某些桶并对其进行子聚合。

应用举例:可以使用选择器选择某些桶并统计它们的总和。

bucket_sort 是一种排序功能,它允许我们按指定顺序对桶进行排序。

应用举例:可以按照每个桶的计数进行排序,以便查看最频繁的项目。

在实际应用场景中,可以根据需要选择使用上述功能中的一个或多个。

应用举例:可以对某个字段的值进行分组,然后使用 bucket_sort 对分组后的桶进行排序,并使用bucket_script在桶中执行脚本,最后使用bucket_selector选择某些桶并对其进行聚合。

这样,我们可以对业务数据进行多层次的分析和统计功能。

6、小结

由百分比的问题引申出聚合分类,由聚合分类引申出Pipeline 子聚合的两个子类型:parent、sibling(兄弟)的区别,更进一步引申出bucket_script、bucket_selector、bucket_sort的定义和应用场景。为后续类似问题提供参考。

926ae19b96565fa5a31687bb41f80134.png

推荐视频解读:

参考

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations.html

推荐阅读

  1. 全网首发!从 0 到 1 Elasticsearch 8.X 通关视频

  2. 重磅 | 死磕 Elasticsearch 8.X 方法论认知清单(2022年国庆更新版)

  3. 如何系统的学习 Elasticsearch ?

  4. 2023,做点事

  5. 图解:Elasticsearch 8.X 如何求解环比上升比例?

4733e8352e9a4354749f3b76e3577585.jpeg

更短时间更快习得更多干货!

和全球 1800+ Elastic 爱好者一起精进!

476b82e405ebe144da9a36086b92fec3.gif

比同事抢先一步学习进阶干货!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/337841.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

简信CRM:医疗健康行业数字化解决方案

随着社会群体健康意识提升、用户消费习惯变化、新冠疫情冲击等因素,人们对于个人和公共安全健康问题就越发重视,而且已经逐渐从对“病”的被动治疗转变为对“健康”的主动管理,医疗健康行业呈现出一片火热的趋势。但医疗健康行业的情况比较复…

idekCTF 2022 比赛复现

Readme 首先 []byte 是 go 语言里面的一个索引,比如: package mainimport "fmt"func main() {var str string "hello"var randomData []byte []byte(str)fmt.Println(randomData[0:]) //[104 101 108 108 111] }上面这串代码会从…

Java程序运行机制

Java语言既具有编译型语言的特征,又具有解释型语言的特征,Java程序要经过先编译后解释两个阶段。高级语言的运行机制📍编译型语言使用专门的编译器,针对特定的平台(移植性差),将高级语言的源代码…

情人节有哪些数码好物值得送礼?情人节实用性强的数码好物推荐

转瞬间,情人节快到了,大家还在为送什么礼物而烦恼?在这个以科技为主的时代,人们正在享受着科技带来的便利,其中,数码产品也成为了日常生活中必不可少的存在。接下来,我来给大家推荐几款比较实用…

大数据框架之Hadoop:入门(四)Hadoop运行模式

Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。 Hadoop官方网站:http://hadoop.apache.org/ 4.1本地运行模式 4.1.1官方Grep案例 1.创建在hadoop文件夹下面创建一个input文件夹 [roothdp101 hadoop]# mkdir input2.将Hadoop的xml配…

SpringBoot整合Druid数据源(实行监控功能)

在上篇文章中分析了数据连接池(Durid)在应用中可以做到资源重用,提升系统响应速度,避免数据库连接遗漏。它除了是一个高性能数据库连接池之外,更是一个自带监控的数据库连接池 JDDC与Druid 1Druid是什么 Apache Drui…

tui-swipe-action组件上的按钮点击后有阴影的解决方法

大家好,我是雄雄,欢迎关注微信公众号:雄雄的小课堂。 目录 前言问题描述问题解决前言 一直未敢涉足电商领域,总觉得这里面的道道很多,又是支付、又是物流的,还涉及到金钱,所以我们所做的项目,一直都是XXXX管理系统,XXX考核系统,移动端的也是,XX健康管理平台…… 但…

SLAM中坐标轴旋转及ros的接口解释

读完几个loam算法,满篇的坐标轴旋转,还是手写的(作者,用eigen写不好嘛。。。),我滴天适应了好久…,今天就总结一下坐标轴旋转问题。 一、首先,我们看一下ros中关于欧拉角旋转的函数:setRPY、set…

C++展开模板参数包、函数参数包-(lambda+折叠表达式)

开门见山 以下代码可展开模板参数包和展开函数参数包。 // lambda折叠表达式(需C17) #include <iostream> using namespace std;// 1.展开模板参数包 template<typename ...T> void Func1() {([]() {cout << typeid(T).name() << endl;}(), ...);// …

姿态估计端到端新方案 | DirectMHP:用于全范围角度2D多人头部姿势估计

前言 现有的头部姿势估计主要集中在具有预先检测到的正面头部的单个人&#xff0c;这依赖于单独训练的面部检测器&#xff0c;不能很好地泛化到完整的视点。在本文中&#xff0c;作者关注全范围 MPHPE 问题&#xff0c;并提出了一个名为 DirectMHP 的直接端到端简单基线&#x…

怎么给笔记本电脑外接两台显示器?

我们在办公室会看见不少同事的电脑不止一台显示器&#xff0c;多屏确实可以提高工作效率。有的游戏党也会选择给电脑外接显示器&#xff0c;带来绝佳的体验。 不过要怎么把将外部显示器连接到笔记本电脑上&#xff1f;驱动人生在这里教给大家给笔记本外接显示器的做法。 一、…

TensorFlow CNN 卷积神经网络实现人脸性别检测 完整教程 附完整代码

本文主要是实现了根据人脸识别性别的卷积神经网络,并对卷积过程中的提取特征进行了可视化.

HydroD 实用教程(二)有限元模型

目 录一、前言二、模型种类三、单元类型四、FEM文件五、参考文献一、前言 SESAM &#xff08;Super Element Structure Analysis Module&#xff09;是由挪威船级社&#xff08;DNV-GL&#xff09;开发的一款有限元分析&#xff08;FEA&#xff09;系统&#xff0c;它以 GeniE、…

【Linux command 09】tcpdump 命令

tcp一款sniffer工具&#xff0c;是Linux上的抓包工具&#xff0c;嗅探器语法tcpdump (选项)选项-c&#xff1a; 指定要抓取的包数量。注意&#xff0c;是最终要获取这么多个包。例如&#xff0c;指定"-c 10"将获取10个包&#xff0c;但可能已经处理了100个包&#xf…

激光slam学习笔记2--激光点云数据结构特点可视化查看

背景&#xff1a;不同厂商的激光点云结果存在一定差异&#xff0c;比如有些只有xyz&#xff0c;有些包含其他&#xff0c;如反光率、时间戳、ring等。如何快速判断是个值得学习的点 概要&#xff1a;对于rosbag类型的激光点云&#xff0c;介绍使用rviz快速查看点云结构特点 如…

JavaWeb--MySQL高级

MySQL高级1 约束1.1 概念1.2 分类1.3 非空约束1.4 唯一约束1.5 主键约束1.6 默认约束1.7 检查约束1.8 外键约束1.8.1 概述1.8.2 语法2 数据库设计2.1 数据库设计简介2.2 表关系(一对多)2.3 表关系(多对多)2.4 表关系(一对一)3 多表查询3.1 内连接查询3.2 外连接查询3.3 子查询3…

技能树基础——17四平方和(拉格朗日定理,嵌套循环)

题目&#xff1a;四平方和定理&#xff0c;又称为拉格朗日定理&#xff1a;每个正整数都可以表示为至多4个正整数的平方和。如果把0包括进去&#xff0c;就正好可以表示为4个数的平方和。比如&#xff1a;5 0^ 2 0^ 2 1^ 2 2^27 1^ 2 1^ 2 1^ 2 2^2 &#xff08;^符号表…

微服务项目【服务调用分布式session共享】

nginx动静分离 第1步&#xff1a;通过SwitchHosts新增二级域名&#xff1a;images.zmall.com 第2步&#xff1a;将本次项目的所有静态资源js/css/images复制到nginx中的html目录下 第3步&#xff1a;在nginx的核心配置文件nginx.conf中新增二级域名images.zmall.com访问映射…

h2database源码解析-表和索引

目录表索引MVPrimaryIndexMVDelegateIndexMVSecondaryIndex索引更新表 h2使用类MVTable表示数据库表&#xff0c;h2的表数据是基于主键排列的&#xff0c;这种表也叫做主键索引表。这也就意味着表必须有主键&#xff0c;如果没有主键&#xff0c;h2会自动生成一个主键_ROWID_&…

在Linux和Windows上编译datax-web-ui源码

记录&#xff1a;375场景&#xff1a;在CentOS 7.9操作系统上&#xff0c;使用apache-maven-3.8.7安装编译datax-web-ui源码。在Windows上操作系统上&#xff0c;使用apache-maven-3.8.7编译datax-web-ui源码。版本&#xff1a;JDK 1.8 node-v14.17.3 npm-6.14.13datax-web-ui开…