Elasticsearch:通过动态修剪实现更快的基数聚合

news2024/12/30 3:34:45

作者:Adrien Grand

Elasticsearch 8.9 通过支持动态修剪(dynamic pruning)引入了基数聚合加速。 这种优化需要满足特定的条件才能生效,但一旦实现,通常会产生惊人的结果。 我们观察到,通过此更改,一些基数聚合的运行速度提高了 1,000 倍。

例如,计算由 Elastic Kubernetes 集成监控的 Kubernetes 部署的唯一值数量可受益于此优化:

POST metrics-*/_search
{
  "query": { // giving an example query, but any query would work
    "bool": {
      "filter": [
        { "range": { "@timestamp": { "gte": "now-1d/h" } } },
        { "match": { "data_stream.dataset": "kubernetes.pod" } }
      ]
    }
  },
  "size": 0,
  "track_total_hits": false,
  "aggs": {
    "deployment_count": {
      "cardinality": {
        "field": "​​kubernetes.deployment.name"
      }
    }
  }
}

 

它是如何工作的?

动态修剪是使用索引结构动态减少运行查询时需要评估的匹配集的过程。 例如,如果你查询按时间戳降序排序的前 10 个事件,开始评估匹配项,并找到 10 个时间戳在过去一小时内的命中,那么你可以在时间戳字段上动态引入过滤器以忽略超过的事件一小时前:他们没有机会进入前十名。

对基数聚合的优化遵循类似的想法:一旦看到一个值,以后就没有必要再次查看该值,因为它不会影响该字段的唯一值的计数。 因此,在查询评估期间,基数集成会自动在 disjunctive 查询上引入一个过滤器,该过滤器仅匹配迄今为止尚未见过的值。 当收集具有新值的文档时,这些值将从析取中删除。

例如,假设你正在计算具有两个唯一值的字段的基数:a 和 b。 下表列出了查询中的所有匹配项,其中第一列中与查询匹配的 Lucene 文档 ID 以及第二列中与此文档 ID 关联的值。

Doc IDValue
3b
10b
12a
19b
30a

当开始评估查询时,Elasticsearch 会隐式地将 a OR b 上的过滤器添加到主查询中。 看到第一个匹配项后,文档 ID 3,值 b 不需要再次看到,因此过滤器将转变为仅匹配值 a 的更具选择性的过滤器。 这有助于节省对 doc ID 10 的评估,因为它也有 b 作为值,并直接跳转到下一个以 a 为值的文档:doc ID 12。此时,a 已从过滤器中删除,Elasticsearch 知道评估更多匹配是没有意义的,因为它已经看到了该字段的所有唯一值。 这有助于节省评估文档 ID 19 和 30。

此优化的第一阶段(动态引入过滤器)已经有助于显着减少查询需要评估的文档数量,从而加快查询评估速度。 但是,当查询在看到所有唯一值时退出时,第二阶段会触发最惊人的加速,因为它可以帮助跳过索引的大多数文档。 请注意,第二阶段并不总是发生,具体取决于查询 —— 某些值可能只存在于与查询不匹配的文档中。

什么时候开始生效?

Disjunctive 查询不能很好地随着子句数量的变化而扩展,因此这种优化的主要限制是它只能在基数相对较小的字段上工作。 因此,Elasticsearch 仅对唯一值不超过 1,024 个的段(segments)启用此优化。

此外,这种优化仅支持关键字字段,以利用它们使用倒排索引进行索引的事实,并且它们的文档值给我们每个段的唯一值的数量。

最后,基数聚合必须是唯一的聚合,并且位于聚合树的顶层。

结论

此优化针对 Elastic Kubernetes 集成的仪表板进行了评估,它显着加快了仪表板加载时间,尤其是在处理大量数据时。 特别是,本博客介绍中共享的示例查询的延迟减少了 90%。 我们希望您能享受加速带来的乐趣!

Elastic 8.9 中还有哪些新功能? 查看 8.9 公告帖子以了解更多信息。

原文:Achieve faster cardinality aggregations via dynamic pruning | Elastic Blog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/806793.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

向量vector与sort()

运行代码&#xff1a; //向量与sort() #include"std_lib_facilities.h" //声明Item类 struct Item {string name;int iid;double value;friend istream& operator>>(istream& is, Item& ii);friend ostream& operator<<(ostream& o…

阿里 120W 年薪架构师力荐 750 页微服务架构深度解析笔记

前言 当前&#xff0c;微服务架构在国内正处于蓬勃发展的阶段&#xff0c;无论是大型互联网公司还是传统的 IT 企业&#xff0c;纷纷采用微服务架构构建系统。 在过去几年里&#xff0c;DevOps、云原生、面向演进式架构等理念已经深入人心&#xff0c;围绕微服务生态也出现了…

导致内存泄漏的因素及解决方式

导致内存泄漏的因素 一、全局变量 因为全局变量不被js垃圾回收机制所回收&#xff0c;所以在使用全局变量时要小心。避免在想使用局部变量因为疏忽导致该变量流失到全局&#xff0c;如未声明变量&#xff0c;却直接对其进行赋值&#xff0c;就会导致该变量在全局创建&#xf…

Python Numpy入门基础(一)创建数组

入门基础&#xff08;一&#xff09; 创建数组 1- np.array() 参数众多&#xff0c;初学时只要关注基本用法。 array(...)array(object, dtypeNone, *, copyTrue, orderK, subokFalse, ndmin0,likeNone)Create an array.Parameters----------object : array_likeAn array, …

CAN通信协议

CAN 物理电平 以高速CAN为例 有电压差&#xff08;2.5V&#xff09;为显性&#xff0c;逻辑0无电压差为隐性&#xff0c;逻辑1 帧结构 SOF 恒为显性&#xff0c;逻辑0 仲裁段 当有多个设备发送数据&#xff0c;产生总线冲突时&#xff0c;来判断一个先后顺序由于总线是线与…

重学C++系列之友元

一、什么是友元 在C中&#xff0c;为了提高程序的效率&#xff0c;在一些场景下&#xff0c;引入友元&#xff0c;但同时类的封装性就会被破坏。 二、怎么实现友元 友元关键字&#xff08;friend&#xff09; // 在类中声明另一个类的成员函数来做为友元函数 // 以关键字&…

golangd\pycharm-ai免费代码助手安装使用gpt4-免费使用--[推荐]

golangd-ai免费代码助手安装使用,pycharm可以使用&#xff0c;估计只要是xx的ide都是可以使用这个插件 目前GPT4以及gpt的大规模使用&#xff0c;如何快速掌握以及在ide中快速使用的办法&#xff0c;今天安装一款golangd编辑器的插件已经使用 一、安装以及使用 1.在golangd中…

texshop mac中文版-TeXShop for Mac(Latex编辑预览工具)

texshop for mac是一款可以在苹果电脑MAC OS平台上使用的非常不错的Mac应用软件&#xff0c;texshop for mac是一个非常有用的工具&#xff0c;广泛使用在数学&#xff0c;计算机科学&#xff0c;物理学&#xff0c;经济学等领域的合作&#xff0c;这些程序的标准tetex分布特产…

PKG内容查看工具:Suspicious Package for Mac安装教程

Suspicious Package Mac版是一款Mac平台上的查看 PKG 程序包内信息的应用&#xff0c;Suspicious Package Mac版支持查看全部包内全部文件&#xff0c;比如需要运行的脚本&#xff0c;开发者&#xff0c;来源等等。 suspicious package mac使用简单&#xff0c;只需在选择pkg安…

Druid连接池与Mybatis-Plus非Spring环境整合:报错异常:NoClassDefFoundError

最近在搞一个Netty与扫描枪通信项目;通过调研框架使用Mybatis-PlusDruid作为获取数据库数据,结果整合报了个错,顺便记录下: 一&#xff0c;配置文件: driverClassNamecom.mysql.cj.jdbc.Driver urljdbc:mysql://127.0.0.1:3306/xxxxxxx?useUnicodetrue&characterEncodin…

SQL编译优化原理

最近在团队的OLAP引擎上做了一些SQL编译优化的工作&#xff0c;整理到了语雀上&#xff0c;也顺便发在博客上了。SQL编译优化理论并不复杂&#xff0c;只需要掌握一些关系代数的基础就比较好理解&#xff1b;比较困难的在于reorder算法部分。 文章目录 基础概念关系代数等价 j…

面试 | 校招字符串相关高频算法题汇总【C++实现】

文章目录 1、反转字符串2、反转字符串||3、字符串最后一个单词的长度4、找字符串中第一个只出现一次的字符5、仅仅反转字母6、验证一个字符串是否是回文7、反转字符串中的单词【⭐】&#xff08;1&#xff09;移除给出字符串中的多余空格&#xff08;2&#xff09;反转整个字符…

Linux下安装VirtualBox虚拟机

1. 简介 VirtualBox是一款强大的x86和AMD64/Intel64虚拟化产品&#xff0c;适用于企业和家庭。VirtualBox不仅是为企业客户提供的一款功能丰富、高性能的产品&#xff0c;它也是根据GNU通用公共许可证(GPL)版本3条款作为开放源码软件免费提供的唯一专业解决方案。有关VirtualBo…

Modbus TCP使用例程

一、Modbus介绍 关于Modbus的介绍可参考前面的文章<modbus tcp协议介绍及分析>和<modbus rtu通信格式测试解析>这2篇文章。 二、Agile Modbus软件包介绍 Agile Modbus软件包的链接地址&#xff1a; https://gitee.com/RT-Thread-Mirror/agile_modbus Agile Modbus的…

Day46 算法记录| 动态规划 13(子序列)

这里写目录标题 300.最长递增子序列 674. 最长连续递增序列718. 最长重复子数组 300.最长递增子序列 视频解析&#xff1a; 第一层for循环遍历每一个元素&#xff0c; ------- 第二层for循环找到当前元素前面有几个小于该值的元素 结尾需要统计最多的个数 class Solution {pu…

如何有效地使用ChatGPT写小说讲故事?

​构思故事情节&#xff0c;虽有趣但耗时&#xff0c;容易陷入写作瓶颈。ChatGPT可提供灵感&#xff0c;帮你解决写作难题。要写出引人入胜的故事&#xff0c;关键在于抓住八个要素——主题、人物、视角、背景、情节、语气、冲突和解决办法。 直接给出故事模板&#xff0c;你可…

无线温湿度信息收集点模块的组成和工作状态及编程与组网建议

在传感技术与物联网的不断发展下&#xff0c;无线温湿度信息收集点模块作为一种重要的终端设备&#xff0c;被广泛应用于各个领域。本文将详细介绍该模块的组成和工作状态&#xff0c;并给出编程和组网的建议。 一、组成 该无线温湿度信息收集点模块由以下几个核心组成部分构成…

Banana Pi BPI-KVM – 基于 Rockchip RK3568 SoC 的 KVM over IP 解决方案

Banana Pi 已经开始开发基于 Rockchip RK3568 SoC 的 BPI-KVM 盒&#xff0c;但它不是迷你 PC&#xff0c;而是 KVM over IP 解决方案&#xff0c;旨在远程控制另一台计算机或设备&#xff0c;就像您在现场一样&#xff0c;例如能够打开和关闭连接的设备、访问 BIOS 等。 商业…

vagrant centos7 根目录扩容

目录 1 创建 centos7 虚拟机 2 扩容根目录 我知道的扩容方式有两种&#xff1a;1 直接扩容分区 &#xff1b;2 扩容逻辑卷。 我没找到为根目录设置到逻辑卷的方法&#xff0c;所以使用直接扩容分区。 1 创建 centos7 虚拟机&#xff0c; vagrant up vagrant ssh 查看磁盘…

Git-分支管理

文章目录 1.分支管理2.合并冲突3.合并模式4.补充 1.分支管理 Git分支管理是指在Git版本控制系统中&#xff0c;使用分支来管理项目的不同开发线路和并行开发的能力。通过分支&#xff0c;开发者可以在独立的环境中进行功能开发、bug修复等工作&#xff0c;而不会影响到主分支上…