elasticsearch 聚合 : 指标聚合、桶聚合、管道聚合解析使用总结

news2024/9/23 7:22:59
❃博主首页 : <码到三十五>
☠博主专栏 : <mysql高手> <elasticsearch高手> <源码解读> <java核心> <面试攻关>
♝博主的话 : <搬的每块砖,皆为峰峦之基;公众号搜索(码到三十五)关注这个爱发技术干货的coder,一起筑基>

目录

      • 一、聚合查询概述
      • 二、聚合查询类型
        • Metric Aggregations(指标聚合)
        • Bucket Aggregations(桶聚合)
        • Pipeline Aggregations(管道聚合)
      • 三、聚合查询应用
      • 四、doc_values 与 fielddata
        • exact value字段
        • 分词字段
        • doc_values与fielddata的性能权衡
          • Doc Values
          • Fielddata
      • 五、multi-fields(多字段)
      • 六、聚合查询示例
        • Terms 分桶聚合
        • Date Histogram 直方图聚合
        • Range 范围聚合
        • Nested 嵌套聚合
        • Pipeline 管道聚合
        • Derivative(导数聚合)
        • Cumulative Sum(累计和聚合)
        • Moving Average(移动平均聚合)
        • Bucket Script(桶脚本聚合)
        • Filters 过滤器聚合
      • 七、聚合排序
      • 八、优化建议

一、聚合查询概述

Elasticsearch中的聚合查询是一种功能强大的数据分析工具,它能够提供从索引中提取和计算有关数据的复杂统计信息的能力。聚合查询不仅可以帮助用户理解和分析数据中的趋势和模式,还能在业务决策中发挥关键作用。聚合查询支持多种类型,包括指标聚合、桶聚合和管道聚合,每一种都有其特定的应用场景和使用方法。

二、聚合查询类型

在这里插入图片描述

Metric Aggregations(指标聚合)
  • 概述:指标聚合返回基于字段值的度量结果,如总和、平均值、最小值、最大值等。这些度量结果可以直接用于分析数据中的特定指标。

  • 常用类型:
    Sum:计算字段的总和。
    Avg:计算字段的平均值。
    Min/Max:查找字段的最小值和最大值。
    Stats:提供包括count、sum、min、max和avg在内的多种统计信息。

  • 应用场景举例:销售数据的总销售额和平均订单金额分析、用户行为的平均访问时长和最大访问深度分析等。

在这里插入图片描述

Bucket Aggregations(桶聚合)
  • 概述:桶聚合类似于SQL中的GROUP BY操作,它将文档分组到不同的桶中,并对每个桶中的文档进行聚合计算。桶聚合可以基于字段值、时间间隔或数值范围进行分组。

  • 常用类型:
    Terms:根据字段的值将文档分配到不同的桶中,常用于分析文本字段的不同取值及其分布情况。
    Date Histogram:根据日期字段的值,将文档按时间间隔(如天、周、月等)分组到桶中,适用于时间序列数据的分析。
    Range:根据定义的范围将文档分配到不同的桶中,适用于分析数值字段在特定范围内的文档数量。

  • 应用场景举例:按作者分组的博客文章数量统计、按月份统计的销售记录分析、按价格区间统计的产品数量等。

在这里插入图片描述

Pipeline Aggregations(管道聚合)
  • 概述:管道聚合以其他聚合的结果作为输入,并对其进行进一步的处理或计算。这种聚合类型允许用户对聚合结果进行复杂的转换和分析。

  • 常用类型:
    Avg Bucket:计算每个桶的平均值,通常用于对分组数据进行平均值分析。
    Sum Bucket:计算每个桶的总和,适用于对分组数据进行求和操作。
    Max/Min Bucket:找出所有桶中的最大值或最小值,有助于识别分组数据中的极端情况。

  • 应用场景举例:在按月份统计的销售记录中找出平均销售额最高的月份、分析不同价格区间产品的销售额总和等。

在这里插入图片描述

三、聚合查询应用

  • 与查询语句结合:聚合查询通常与查询语句结合使用,可以在满足特定条件的文档集合上进行聚合操作。通过查询语句过滤出符合条件的文档集合,然后对这些文档进行聚合分析,可以得到更加准确和有用的结果。
  • 嵌套聚合:Elasticsearch支持嵌套聚合,即在一个聚合内部可以包含其他聚合。通过嵌套聚合,用户可以构建复杂的查询和分析逻辑,满足各种复杂的数据分析和统计需求。

四、doc_values 与 fielddata

在 Elasticsearch 中,聚合操作主要依赖于 doc_values 或 fielddata 来进行。用于聚合的字段可以是精确值字段(如keyword类型)或分词字段(如text类型)。这两类字段在聚合查询时的处理方式有所不同。

exact value字段

精确值字段通常用于存储不需要分词和全文搜索的数据,如用户ID、产品类别等。对于这类字段,Elasticsearch默认使用doc_values数据结构来支持高效的聚合、排序和统计操作。doc_values以列式存储格式在磁盘上保存字段值,并在需要时加载到JVM堆内存中进行计算。由于doc_values直接在磁盘上操作,因此性能通常很高,且适用于大规模数据集。

分词字段

分词字段(如text类型)通常用于存储需要分词和全文搜索的文本数据。对于这类字段,Elasticsearch默认不启用fielddata,因为fielddata会将字段值加载到堆内存中,导致在处理大数据集时容易引发内存溢出(OOM)问题。然而,有时我们确实需要在分词字段上执行聚合操作(例如,按产品名称分组统计销售数据)。在这种情况下,有几种解决方案可供选择:

  1. 使用.keyword子字段:在定义字段映射时,可以为text字段添加一个.keyword子字段。这个子字段不会被分词器处理,而是作为一个完整的字符串存储。通过使用该子字段进行聚合操作,可以获得更准确的结果,同时避免启用fielddata带来的性能问题。

  2. 更新映射启用fielddata:如果你确实需要在text字段上启用fielddata(虽然不推荐),可以通过更新字段映射来实现。但请注意,这样做可能会导致内存消耗过大,特别是在处理大数据集时。因此,在启用fielddata之前,请务必评估其对系统性能的影响,并考虑其他可能的解决方案。

doc_values与fielddata的性能权衡

在Elasticsearch中,聚合操作主要依赖于doc_values或fielddata来访问文档中的字段值。了解这两种数据结构的差异和适用场景,有助于优化聚合查询的性能。

Doc Values
  • 优势:适用于精确值字段和数字类型字段,提供高效的聚合、排序和统计操作。由于直接在磁盘上操作,性能通常很高。
  • 适用场景:大多数精确值字段默认启用doc_values,无需额外配置。
Fielddata
  • 优势:支持复杂的文本分析和聚合操作,允许对分词字段进行聚合查询。
  • 劣势:需要占用大量堆内存资源,处理大数据集时容易引发OOM问题。默认情况下,Elasticsearch禁用了对text字段的fielddata访问。
  • 适用场景:在确实需要在text字段上执行聚合查询,且系统资源允许的情况下,可以考虑启用fielddata。但请务必谨慎评估其对性能的影响。

总之, 对于精确值字段,利用doc_values可以获得高效且准确的聚合结果;对于分词字段,通过添加.keyword子字段或使用其他解决方案来避免启用fielddata带来的性能问题。通过合理配置字段映射和选择聚合查询策略,可以充分发挥Elasticsearch在数据分析领域的强大功能。

五、multi-fields(多字段)

  • 描述:在Elasticsearch中,一个字段可以被定义为multi-fields类型,这意味着同一份数据可以被索引为不同类型的字段。通过为text字段添加keyword子字段,用户可以在保留全文搜索功能的同时,为精确值搜索、排序和聚合操作提供支持。
  • 使用建议:对于需要进行聚合操作的text字段,强烈建议在索引设计阶段添加keyword子字段,并使用该子字段进行聚合操作。这样可以避免在text字段上启用Fielddata带来的性能问题,并提高聚合查询的效率和准确性。

六、聚合查询示例

Terms 分桶聚合

示例场景:统计每个作者写了多少篇文章,并按文章数量降序排序。
查询语句:

POST /blog/_search
{
  "size": 0,
  "aggs": {
    "articles_per_author": {
      "terms": {
        "field": "author.keyword",
        "size": 10,
        "order": { "_count": "desc" }
      }
    }
  }
}
Date Histogram 直方图聚合

示例场景:分析每月的销售记录数量。
查询语句:

POST /sales/_search
{
  "size": 0,
  "aggs": {
    "sales_over_time": {
      "date_histogram": {
        "field": "sale_date",
        "calendar_interval": "month",
        "format": "yyyy-MM"
      }
    }
  }
}
Range 范围聚合

示例场景:分析不同价格区间的产品数量。
查询语句:

post /products/_search
{
  "size": 0,
  "aggs": {
    "price_ranges": {
      "range": {
        "field": "price",
        "ranges": [
          { "to": 100 },
          { "from": 100, "to": 500 },
          { "from": 500 }
        ]
      }
    }
  }
}
Nested 嵌套聚合

示例场景:分析每个订单中不同产品的平均价格。
假设数据:一个订单可以有多个产品,每个产品都有一个价格。
查询语句:

POST /orders/_search
{
  "size": 0,
  "aggs": {
    "orders": {
      "nested": {
        "path": "products"
      },
      "aggs": {
        "avg_price_per_order": {
          "avg": {
            "field": "products.price"
          }
        }
      }
    }
  }
}
Pipeline 管道聚合

示例场景:在按月份统计的销售记录中找出销售额最高的月份,并计算该月的平均销售额。
查询语句:

POST /sales/_search
{
  "size": 0,
  "aggs": {
    "sales_over_time": {
      "date_histogram": {
        "field": "sale_date",
        "calendar_interval": "month"
      },
      "aggs": {
        "total_sales": {
          "sum": {
            "field": "amount"
          }
        },
        "top_sales_month": {
          "top_hits": {
            "sort": [
              { "total_sales": { "order": "desc" } }
            ],
            "size": 1
          }
        },
        "avg_sales_top_month": {
          "avg_bucket": {
            "buckets_path": "total_sales"
          }
        }
      }
    }
  }
}
Derivative(导数聚合)

示例场景:分析销售数据的变化趋势,计算销售额的日增长率。
查询语句:

POST /sales/_search
{
  "size": 0,
  "aggs": {
    "sales_over_time": {
      "date_histogram": {
        "field": "sale_date",
        "calendar_interval": "day"
      },
      "aggs": {
        "total_sales": {
          "sum": {
            "field": "amount"
          }
        },
        "sales_derivative": {
          "derivative": {
            "buckets_path": "total_sales"
          }
        }
      }
    }
  }
}

我们首先按天对销售数据进行分组,并计算每天的总销售额。然后,我们使用derivative管道聚合来计算销售额的日增长率。

Cumulative Sum(累计和聚合)

示例场景:计算销售数据的累计和,展示销售额的累计增长情况。
查询语句:

POST  /sales/_search
{
  "size": 0,
  "aggs": {
    "sales_over_time": {
      "date_histogram": {
        "field": "sale_date",
        "calendar_interval": "month"
      },
      "aggs": {
        "total_sales": {
          "sum": {
            "field": "amount"
          }
        },
        "cumulative_sales": {
          "cumulative_sum": {
            "buckets_path": "total_sales"
          }
        }
      }
    }
  }
}

我们按月对销售数据进行分组,并计算每月的总销售额。然后,我们使用cumulative_sum管道聚合来计算销售额的累计和。

Moving Average(移动平均聚合)

示例场景:分析销售数据的移动平均线,以平滑数据波动并识别趋势。
查询语句:

POST /sales/_search
{
  "size": 0,
  "aggs": {
    "sales_over_time": {
      "date_histogram": {
        "field": "sale_date",
        "calendar_interval": "day"
      },
      "aggs": {
        "total_sales": {
          "sum": {
            "field": "amount"
          }
        },
        "moving_avg_sales": {
          "moving_avg": {
            "buckets_path": "total_sales",
            "window": 7  // 计算7天的移动平均
          }
        }
      }
    }
  }
}

我们按天对销售数据进行分组,并计算每天的总销售额。然后,我们使用moving_avg管道聚合来计算7天的移动平均销售额。

Bucket Script(桶脚本聚合)

示例场景:计算每个销售桶中不同产品的销售额占比。
查询语句(假设每个销售桶中按产品分组):

POST  /sales/_search
{
  "size": 0,
  "aggs": {
    "sales_by_product": {
      "terms": {
        "field": "product.keyword"
      },
      "aggs": {
        "total_sales": {
          "sum": {
            "field": "amount"
          }
        },
        "sales_percentage": {
          "bucket_script": {
            "buckets_path": {
              "thisSales": "total_sales",
              "totalSales": "_sum"  // 假设外层还有一个求和聚合来计算总销售额
            },
            "script": "params.thisSales / params.totalSales * 100"
          }
        }
      }
    },
    "total_sales": {
      "sum": {
        "field": "amount"
      }
    }
  }
}

bucket_script引用了两个buckets_path,其中_sum是Elasticsearch中的一个特殊变量,它引用了当前聚合上下文中所有桶的总和。这个示例假设外层还有一个求和聚合来计算所有产品的销售总额。然后,我们计算每个产品销售额占总销售额的百分比。

Filters 过滤器聚合

示例场景:分析不同分类产品的销售情况。
查询语句:

POST /products/_search
{
  "size": 0,
  "aggs": {
    "sales_by_category": {
      "filters": {
        "filters": {
          "electronics": { "term": { "category": "electronics" }},
          "books": { "term": { "category": "books" }},
          "other": { "match_all": {} }
        }
      },
      "aggs": {
        "total_sales": {
          "sum": {
            "field": "price"
          }
        }
      }
    }
  }
}

我们使用了filters聚合来按产品分类过滤文档,并在每个过滤器内部使用sum聚合来计算总销售额。

七、聚合排序

  • 基于count排序:通过聚合的_count字段对桶进行排序,可以展示销售量最高或最低的产品、访问量最大的网页等。
  • 基于key排序:对于Terms聚合,可以使用_key字段对桶的键(即分组字段的值)进行排序。这有助于按字母顺序或数值顺序展示分组数据。

八、优化建议

  • 避免不必要的大聚合:对于大数据集,执行复杂的聚合操作可能会消耗大量计算资源并影响性能。因此,建议根据实际需求合理设计聚合查询,避免执行不必要的大聚合操作。
  • 缓存聚合结果:对于频繁执行的聚合查询,可以考虑使用Elasticsearch的缓存功能来缓存聚合结果。这样可以减少重复计算的开销并提高查询性能。
  • 合理设计索引和映射:根据查询需求和数据特点,合理设计索引和映射是优化聚合查询性能的关键。例如,选择适当的字段类型和属性、合理设置分片数和副本数等。
  • 监控和分析:定期监控和分析Elasticsearch的性能指标和日志可以帮助及时发现和解决潜在的性能问题。通过监控聚合查询的执行时间、内存使用情况等指标,可以评估聚合查询的性能并进行相应的优化调整。

关注以下公众号获取更多深度内容,纯干货 !

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1934120.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FedAvg的简单实现(详解)

对于联邦学习正在学习中&#xff0c;下文中若有错误出现&#xff0c;望指正 介绍 本文在简单实现联邦平均算法时&#xff0c;使用客户-服务器架构&#xff0c;其基本流程是&#xff1a; 1、server初始化模型参数&#xff0c;所有clients将这个初始模型下载到本地 2、clien…

RK3568笔记三十六:LED驱动开发(设备树)

若该文为原创文章&#xff0c;转载请注明原文出处。 记录使用设备树编写一个简单的 LED 灯驱动程序 一、编程思路 程序编写的主要内容为添加 LED 灯的设备树节点、在驱动程序中使用 of 函数获取设备节点中的 属性&#xff0c;编写测试应用程序。 • 首先向设备树添加 LED 设备…

Python基础语法篇(下)+ 数据可视化

Python基础语法&#xff08;下&#xff09; 数据可视化 一、函数&#xff08;一&#xff09;函数的定义&#xff08;二&#xff09;函数的调用和传参 二、文件操作&#xff08;一&#xff09;文件读取和写入&#xff08;二&#xff09;文件对象及方法&#xff08;三&#xff09…

探寻大模型回答9.9和9.11犯错的根本原因

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

WinOS下获取dll中的方法列表

开发的Windows应用程序的安装环境从Win11 23H2切换到24H2时&#xff0c;出现获取电源模式不正确的问题&#xff0c;通过debug代码发现获取电源模式的方法是走的方法编号。由于Win11 24H2中增加了对外提供的方法&#xff0c;而增加的方法放在方法列表中间&#xff0c;导致其后面…

生成式AI的未来:对话的艺术与代理的实践

生成式 AI 的发展方向&#xff0c;是 Chat 还是 Agent&#xff1f; 随着生成式AI技术的不断进步&#xff0c;关于其未来发展方向的讨论也愈发激烈。究竟生成式AI的未来是在对话系统&#xff08;Chat&#xff09;中展现智慧&#xff0c;还是在自主代理&#xff08;Agent&#x…

图片太大怎么压缩变小?交给这4个方法就能行

在钱塘江畔&#xff0c;一场罕见的“蝴蝶潮”翩然而至&#xff0c;不仅带来了自然奇观&#xff0c;也预示着好运的降临。然而&#xff0c;当我们将这份美好瞬间分享给更多人时&#xff0c;却遇到了一个小小难题——高分辨率的照片占据了大量的存储空间&#xff0c;上传至社交平…

访问控制系列

目录 一、基本概念 1.客体与主体 2.引用监控器与引用验证机制 3.安全策略与安全模型 4.安全内核 5.可信计算基 二、访问矩阵 三、访问控制策略 1.主体属性 2.客体属性 3.授权者组成 4.访问控制粒度 5.主体、客体状态 6.历史记录和上下文环境 7.数据内容 8.决策…

推荐3款堪称神器的工具软件,实用强大颜值高,你不能错过

Flameshot Flameshot是一款功能强大且易于使用的开源屏幕截图软件&#xff0c;广泛应用于Linux、Windows和macOS等平台。它不仅支持图形界面&#xff08;GUI&#xff09;操作&#xff0c;还提供命令行接口&#xff08;CLI&#xff09;&#xff0c;使得用户可以根据自己的需求选…

SPINDILOMETER:用于多导睡眠图的睡眠纺锤波模型

摘要 通过对近年来睡眠脑电(EEG)信号分析方法的研究&#xff0c;本文提出了一种可集成到多导睡眠图(PSG)设备中的SPINDILOMETER模型&#xff0c;以供PSG电生理信号研究人员、临床睡眠医生和技术人员使用。为此&#xff0c;通过分析PSG中的脑电信号&#xff0c;开发了一个测量睡…

Qt界面假死原因

创建一个播放器类&#xff0c;继承QLabel&#xff0c;在播放器类中起一个线程用ffmpeg取流解码&#xff0c;将解码后的图像保存到队列&#xff0c;在gui线程中调用update()刷新显示。 当ffmpeg打开视频流失败后调用update()将qlabel刷新为黑色&#xff0c;有一定概率会使得qla…

【踩坑日记】【教程】嵌入式 Linux 通过 nfs 下载出现 T T T T [Retry count exceeded: starting again]

文章目录 1 本篇文章解决的问题2 问题解决原理3 问题环境4 开启 ubuntu-20.04 的 nfs24.1 确认 nfs2 是否已经开启4.2 开启 nfs2 5 卸载 iptables5.1 卸载 iptables5.2 禁用 ufw5.3 尝试重新下载 6 原理分析6.1 nfs2 开启部分6.2 卸载 iptables 部分 7 后记7.1 拓扑结构一7.2 拓…

2024辽宁省数学建模B题【钢铁产品质量优化】原创论文分享

大家好呀&#xff0c;从发布赛题一直到现在&#xff0c;总算完成了2024 年辽宁省大学数学建模竞赛B题钢铁产品质量优化完整的成品论文。 本论文可以保证原创&#xff0c;保证高质量。绝不是随便引用一大堆模型和代码复制粘贴进来完全没有应用糊弄人的垃圾半成品论文。 B题论文…

C++ 几何计算库

代码 #include <iostream> #include <list> #include <CGAL/Simple_cartesian.h> #include <CGAL/AABB_tree.h> #include <CGAL/AABB_traits.h> #include <CGAL/AABB_segment_primitive.h> #include <CGAL/Polygon_2.h>typedef CGAL…

数学建模(1)

论文&#xff1a;做流程图 论文查重不能高于30% 论文 分模块备战 摘要不能超过一页的四分之三 数学建模的六个步骤: 【写作】---学术语言 团队练题

【hadoop大数据集群 2】

【hadoop大数据集群 2】 文章目录 【hadoop大数据集群 2】1. 虚拟机克隆2. 时间同步3. 环境变量配置、启动集群、关闭集群 1. 虚拟机克隆 克隆之后一定要重新生成新虚拟机唯一的MAC地址和UUID等&#xff0c;确保新虚拟机与源虚拟机在网络拓扑中不发生冲突。 注意1.生成新的MA…

新华三H3CNE网络工程师认证—VLAN使用场景与原理

通过华三的技术原理与VLAN配置来学习&#xff0c;首先介绍VLAN&#xff0c;然后介绍VLAN的基本原理&#xff0c;最后介绍VLAN的基本配置。 一、传统以太网问题 在传统网络中&#xff0c;交换机的数量足够多就会出现问题&#xff0c;广播域变得很大&#xff0c;分割广播域需要…

借力Jersey,铸就卓越RESTful API体验

目录 maven 创建 jersey 项目 运行 支持返回 json 数据对象 1. 引言 在当今数字化时代&#xff0c;API&#xff08;应用程序编程接口&#xff09;已成为连接不同软件系统和服务的桥梁。RESTful API以其简洁、轻量级和易于理解的特点&#xff0c;成为了API设计的首选标准。本…

甲骨文面试题【动态规划】力扣377.组合总和IV

给你一个由 不同 整数组成的数组 nums &#xff0c;和一个目标整数 target 。请你从 nums 中找出并返回总和为 target 的元素组合的个数。 题目数据保证答案符合 32 位整数范围。 示例 1&#xff1a; 输入&#xff1a;nums [1,2,3], target 4 输出&#xff1a;7 解释&#x…

C语言:键盘录入案例

主要使用了scanf&#xff1b; scanf的使用方法和注意事项&#xff1a; 1.作用&#xff1a; 用于接收键盘输入的数据并赋值给对应的变量 2.使用方式; scanf("占位符",&变量名); 3.注意事项; 占位符后面的的变量要对应 第一个参数中不写换行 案例1&#xf…