ElasticSearch 与 OpenSearch:拉开性能差距

news2024/10/6 2:31:45

Elasticsearch 与 OpenSearch:扩大性能差距

对于任何依赖快速、准确搜索数据的组织来说,强大、快速且高效的搜索引擎是至关重要的元素。对于开发人员和架构师来说,选择正确的搜索平台可以极大地影响您的组织提供快速且相关结果的能力。在我们全面的性能测试中,Elasticsearch® 成为明智的选择。 Elasticsearch 比 OpenSearch 快 40%--140%,同时使用更少的计算资源。 image1

在本文中,我们将在六个主要领域对 Elasticsearch 8.7 和 OpenSearch 2.7(测试时两者的最新版本)进行性能比较:文本查询、排序、日期直方图、范围和术语,包括资源利用率。我们的目标是提供公平、实用的技术见解,帮助您做出明智的决策,无论您是优化现有系统还是设计新系统。此比较还旨在清楚地突出 Elasticsearch 和 OpenSearch 之间的性能差异,表明两者完全不同。

我们将首先回顾性能比较的结果,然后是我们的测试方法和测试环境。

1. 结果

使用 t-test 检验对性能比较结果(重点关注请求的 p90(第 90 个百分位数))进行交叉验证,以确保两种解决方案之间的延迟测量存在统计差异。针对每种查询类型计算相对变化(以百分比表示)。我们还使用箱线图显示 100% 请求的延迟分布,箱线图显示最小值、最大值、中值、平均值和异常值。实际的方框显示了下四分位数和上四分位数,其中分别有 25% 和 75% 的观测值落在其中。通过这种方式,我们可以了解这些值的实际分布情况。

image2
image2

1.1 文本查询 --- 速度提高 76%

"显示包含 jane@doe.com 的所有数据。"

image3
image3

Elasticsearch 表现出了显着的领先优势,执行文本查询的速度比 OpenSearch 快 76% 。

文本查询是全文搜索的基础和关键,而全文搜索是 Elasticsearch 的主要功能。文本字段查询允许用户搜索文本数据中的特定短语、单个单词甚至单词的一部分。用户能够通过文本数据执行复杂的搜索------它增强了整体搜索体验并支持广泛的应用程序和解决方案。

1.2 排序

"先给我看看最贵的产品。"

image4
image4

在对简单文本查询结果进行排序时,Elasticsearch 的性能比 OpenSearch 高出惊人的 140%。此外,Elasticsearch 的时间戳、关键字和数字排序查询的执行时间分别加快了 24%、97% 和 53%。

排序是按特定顺序(例如字母顺序、数字顺序或时间顺序)排列数据的过程。排序对于基于特定条件的搜索结果非常有用,可确保向客户呈现最相关的结果。这是增强用户体验并提高搜索过程整体效率的重要功能。

1.3 日期直方图

"向我显示所有数据的及时排序的条形图。"

image5
image5

对于日期直方图聚合,Elasticsearch 比 OpenSearch 快 81%,展示了其强大能力。处理时间的加速有利于根据时间序列数据生成有序条形图。

日期直方图聚合可用于通过将基于时间的数据划分为间隔或存储桶来聚合和分析数据。此功能使用户能够可视化并更好地了解一段时间内的趋势、模式和异常情况。

1.4 范围

"仅显示 0 至 25 之间的产品价格。"

image6
image6

Elasticsearch 在范围查询方面快了 40%,在范围聚合方面快了 68%。

在测试或关键字字段上搜索范围查询是性能和可扩展性的另一个核心参数。范围查询对于根据给定字段中的特定值范围过滤搜索结果非常有用。此功能允许用户缩小搜索结果范围并快速找到更多相关信息。

更快的构面创建至关重要,因为它涉及根据特定属性将数据分类为组(构面),然后在每个组内执行汇总操作。此过程通过提供电子商务应用程序中经常使用的数据的结构化视图,使分析、过滤和可视化变得更加容易。

1.5 术语

"根据一起购买的产品对数据进行分组。"

image7
image7

Elasticsearch 展示了其优越性,与 OpenSearch 相比,术语查询速度快 108%,复合术语聚合速度快 103%。这些优势使 Elasticsearch 成为涉及数据分组和过滤的任务的更有吸引力的选择。

Elasticsearch 中的"重要术语"聚合会自动排除常见或不感兴趣的术语,例如停用词("and"、"the"、"a")或结果中索引中频繁出现的术语。这是基于对索引数据中的术语频率和分布的统计分析。

1.6 资源利用率

Elasticsearch 不仅在各种与搜索相关的任务中表现优于 OpenSearch,而且还被证明具有更高的资源效率。默认情况下,OpenSearch 对数据流使用 best_speed 编解码器(优先考虑查询速度而不是存储效率),而 Elasticsearch 使用 _best_compression_。使用默认的开箱即用设置,Elasticsearch 使用的磁盘空间减少了 37%,并且当在两者上使用 _best_compression_(用于此基准测试的编解码器)时,Elasticsearch 的空间效率仍然提高了 13%。

1.7 时间序列数据流 (TSDS)

我们更进一步,将数据重新索引到时间序列数据流中,从而进一步压缩数据 - 平均文档大小从 218 kb 下降到 124 kb,减少了 **54.8%**,如下表所示。

image8
image8

点击图片可查看完整电子表格

1.8 第三方验证

我们的性能测试方法和结果已经过 TechTarget 的 Enterprise Strategy Group(一家受人尊敬的第三方供应商)的独立[验证]{.underline}[1]。 Tech Target 企业战略组 ESG 的验证增加了我们的调查结果的可信度和公正性,确保测试方法和后续结果保持最高的准确性和完整性标准。他们的验证重申了我们比较的稳健性和可靠性,使您能够根据我们的基准测试结果做出明智的决定。

2. 测试方法

2.1 我们如何得出这些结果

[本着公平、精确比较]{.underline}[2] Elasticsearch 和 OpenSearch 的精神,我们创建了两个等效的 5 节点集群,每个集群配备 32GB 内存、8 个 CPU 核心、每个节点 300GB 磁盘。对于每个产品,我们提取随机生成的相同 1TB 日志文件,其中包含 22 个字段(更多详细信息如下)。

测试是在单独的 Kubernetes 节点池中完成的,确保每个产品都有专用资源。我们遵循 Elasticsearch 和 OpenSearch 的最佳实践,包括在发起查询之前强制合并索引以及防止缓存请求影响的策略,从而确保测试结果的完整性。

image9
image9

为了保证 Elasticsearch 和 OpenSearch 比较的透明度,我们将完整的基准测试流程作为开源项目提供。可在此处访问的存储库[包括]{.underline}[3]用于配置 Kubernetes 集群的 Terraform 配置以及用于创建 Elasticsearch 和 OpenSearch 集群的 Kubernetes 清单。此外,存储库中还提供了基准测试中使用的查询。

您不仅可以测试自己,还可以使用此存储库进行自己的调查并提高 Elasticsearch 项目的性能。

2.2 我们测试了什么

我们在 Elasticsearch 和 OpenSearch 之间进行的测试是在关键使用领域进行的,包括:

搜索 - 具有典型搜索栏的电子商务用例

可观察性------大量系统遥测数据,例如日志、指标和应用程序跟踪

安全------安全事件实时分析

即将进行的比较将深入分析每个平台在这些领域的表现,包括文本查询、排序、数据直方图、范围和术语。

2.3 数据集和摄取

[使用该开源工具]{.underline}[4]生成了 1TB 数据集,然后将其上传到 GCP 存储桶。 Logstash (®)用于将 GCP 存储桶中的数据集提取到 Elasticsearch 和 OpenSearch 中。存储库中还包含生成类似数据集的说明,以防您想要复制基准测试。

各字段组成的所有日志如下表所示。除@timestamp 之外,所有事件的值都是随机的,@timestamp 是按事件顺序且唯一的。

相关:[我们如何在 Elasticsearch 8.6、8.7 和 8.8 中加速数据摄取]{.underline}[5]

image10
image10

点击图片可查看完整电子表格

3. 基准测试

总共考虑了五个关键领域的 35 种查询类型,总计 387,000 个请求。在 100 个预热查询之后,每个查询类型执行 100 次,每个查询重复该过程 50 次。

[Rally 是 Elastic]{.underline}[6] (®)开发的开源工具,用于 Elasticsearch 和 Elastic Stack 的其他组件的基准测试和性能测试。它允许用户针对 Elasticsearch 集群模拟各种类型的工作负载,例如索引和搜索,并以可重复的方式测量其性能。虽然 Rally 是由 Elastic 开发的,主要是为了对 Elasticsearch 进行基准测试而设计的,但它是一个灵活的工具,可以适应与 OpenSearch 一起使用。

Elastic [每晚运行基准测试]{.underline}[7],以确保 Elasticsearch 中的任何新代码的性能与昨天一样或更好。我们还使用自己的机器学习来识别性能异常或资源利用效率低下。我们以透明和公开的方式提供性能和尺寸测试,以使使用我们产品的每个人受益。值得注意的是,其他人不提供此功能,这可以帮助用户随着时间的推移监控他们感兴趣的变化。

4. 结论:Elasticsearch --- 明显的胜利者

考虑到各种测试的结果,很明显 Elasticsearch 始终优于 OpenSearch。无论是处理简单查询、对数据进行排序、生成直方图、处理术语或范围查询,甚至是资源优化,Elasticsearch 都处于领先地位。

在选择搜索引擎平台时,企业应优先考虑速度、效率和低资源利用率------这些都是 Elasticsearch 所擅长的属性。这使得它成为依赖快速准确搜索结果的组织的一个令人信服的选择。无论您是对搜索结果进行排序的电子商务平台、识别威胁的安全分析师,还是仅仅需要有效观察关键应用程序,Elasticsearch 都在此次比较中成为明显的领导者。

原文链接:https://www.elastic.co/cn/blog/elasticsearch-opensearch-performance-gap

原文作者:George Kobar,[8]Ugo Sangiorgi[9]

发布时间:2023 年 8 月 8 日

参考资料
[1]

[验证]{.underline}: https://www.elastic.co/cn/maximizing-search-application-performance

[2]

[本着公平、精确比较]{.underline}: https://github.com/elastic/elasticsearch-opensearch-benchmark

[3]

[包括]{.underline}: https://github.com/elastic/elasticsearch-opensearch-benchmark

[4]

[使用该开源工具]{.underline}: https://github.com/elastic/elastic-integration-corpus-generator-tool

[5]

[我们如何在 Elasticsearch 8.6、8.7 和 8.8 中加速数据摄取]{.underline}: https://www.elastic.co/cn/blog/data-ingestion-elasticsearch

[6]

[Rally 是 Elastic]{.underline}: https://github.com/elastic/rally

[7]

[每晚运行基准测试]{.underline}: https://elasticsearch-benchmarks.elastic.co/

[8]

George Kobar,: https://www.elastic.co/cn/blog/author/george-kobar

[9]

Ugo Sangiorgi: https://www.elastic.co/cn/blog/author/ugo-sangiorgi

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1646439.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

小红书图片文案编辑生成图文工具

在小红书上,种草图文的变现通常涉及以下几个步骤: 1. **建立影响力**:首先,你需要通过持续发布高质量的内容,积累粉丝和影响力。你的内容应该围绕特定的领域或主题,比如时尚、美妆、美食或旅行&#xff0c…

JavaScript中的事件模型

JavaScript中的事件模型分为:事件和事件流、原始事件、标准事件和IE事件。 事件与事件流 JavaScript中的事件,可以理解为HTML文档或者浏览器中发生的一种交互操作,让网页有互动的功能。常见的事件就是加载事件、鼠标事件和自定义事件。 因…

一键安装Halo DB

说明 这里说的一键其实分了好几步,是我将安装步骤分解。你可以把它们放在一个shell中或者串起来就是一键了。 易景科技的数据库 羲和 (Halo DB) 我之前的一位朋友(章晨曦)创立的数据库公司。以前看他朋友圈说他做数…

【C语言刷题系列】移除元素

目录 一、问题描述 二、解题思路 三、源代码 个人主页: 倔强的石头的博客 系列专栏 :C语言指南 C语言刷题系列 一、问题描述 二、解题思路 在C语言中,原地移除数组中所有等于特定值的元素并返回新长度的问题可以通过双指针法…

pytest教程-36-钩子函数-pytest_collection_start

领取资料,咨询答疑,请➕wei: June__Go 上一小节我们学习了pytest_unconfigure钩子函数的使用方法,本小节我们讲解一下pytest_collection_start钩子函数的使用方法。 pytest_collection_start(session) 是一个 pytest 钩子函数,…

25 JavaScript学习:var let const

JavaScript全局变量 JavaScript中全局变量存在多种情况和定义方式,下面详细解释并提供相应的举例: 使用var关键字声明的全局变量: var globalVar "我是全局变量";未使用var关键字声明的变量会成为全局变量(不推荐使用&…

Celery(分布式任务队列)入门学习笔记

Celery 的简单介绍 用 Celery 官方的介绍:它是一个分布式任务队列; 简单,灵活,可靠的处理大量消息的分布式系统; 它专注于实时处理,并支持任务调度。 Celery 如果使用 RabbitMQ 作为消息系统的话,整个应用体系就是下…

状压dp 理论例题 详解

状压dp 四川2005年省选题:互不侵犯 首先我们可以分析一下,按照我们普通的思路,就是用搜索,枚举每一行的每一列,尝试放下一个国王,然后标记,继续枚举下一行 那么,我们的时间复杂度…

什么是X电容和Y电容?

先补充个知识: 一、什么是差模信号和共模信号 差模信号:大小相等,方向相反的交流信号;双端输入时,两个信号的相位相差180度 共模信号:大小相等。方向相同。双端输入时,两个信号相同。 二、安规…

嵌入式5-6QT

1> 思维导图 2> 自由发挥应用场景,实现登录界面。 要求:尽量每行代码都有注释。 #include "mywidget.h"MyWidget::MyWidget(QWidget *parent): QWidget(parent) {//设置标题this->setWindowTitle("MYQQ");//设置图标this…

5月6号作业

申请该结构体数组,容量为5,初始化5个学生的信息 使用fprintf将数组中的5个学生信息,保存到文件中去 下一次程序运行的时候,使用fscanf,将文件中的5个学生信息,写入(加载)到数组中去,并直接输出学…

PyTorch机器学习实现液态神经网络

大家好,人工智能的发展催生了神经网络这一强大的预测工具,这些网络通过数据和参数优化生成预测,每个神经元像逻辑回归门一样工作。结合反向传播技术,模型能够根据损失函数来调整参数权重,实现自我优化。 然而&#xf…

题目:排序疑惑

问题描述: 解题思路: 做的时候没想到,其实这是以贪心题。我们可以每次排最大的区间(小于n,即n-1大的区间),再判断是否有序 。因此只需要分别判断排(1~n-1)和(…

算法学习:二分查找

🔥 引言 在现代计算机科学与软件工程的实践中,高效数据检索是众多应用程序的核心需求之一。二分查找算法,作为解决有序序列查询问题的高效策略,凭借其对数时间复杂度的优越性能,占据着算法领域里举足轻重的地位。本篇内…

open 函数到底做了什么

使用设备之前我们通常都需要调用 open 函数,这个函数一般用于设备专有数据的初始化,申请相关资源及进行设备的初始化等工作,对于简单的设备而言,open 函数可以不做具体的工作,你在应用层通过系统调用 open 打开设备…

Unity 修复Sentinel key not found (h0007)错误

这个问题是第二次遇到了,上次稀里糊涂的解决了,也没当回事,这次又跑出来了,网上找的教程大部分都是出自一个人。 1.删除这个路径下的文件 C:\ProgramData\SafeNet Sentinel,注意ProgramData好像是隐藏文件 2.在Windows…

04-19 周五 GitHub actions-runner 程序解释

04-19 周五 GitHub actions-runner 程序解释 时间版本修改人描述2024年4月19日17:26:17V0.1宋全恒新建文档 简介 本文主要描述了actions-runner-linux-x64-2.315.0.tar.gz这个github actions CI所需要的客户端安装包的重要文件和内容信息。有关GitHub actions 的配置&#xff…

利用matplotlib和networkx绘制有向图[显示边的权重]

使用Python中的matplotlib和networkx库来绘制一个有向图,并显示边的权重标签。 1. 定义了节点和边:节点是一个包含5个节点的列表,边是一个包含各个边以及它们的权重的列表。 2. 创建了一个有向图对象 G。 3. 向图中添加节点和边。 4. 设置了…

Elasticsearch:如何使用 Java 对索引进行 ES|QL 的查询

在我之前的文章 “Elasticsearch:对 Java 对象的 ES|QL 查询”,我详细介绍了如何使用 Java 来对 ES|QL 进行查询。对于不是很熟悉 Elasticsearch 的开发者来说,那篇文章里的例子还是不能单独来进行运行。在今天的这篇文章中,我来详…

外贸企业邮箱是什么?做外贸企业邮箱哪个好?

外贸企业邮箱是什么?外贸企业在进行跨国沟通时必不可少的工具就是外贸企业邮箱,外贸企业邮箱需要具备的条件就是海外邮件抵达率高、安全稳定、多语言沟通。而我们又怎么选择一个适合的外贸企业邮箱呢?小编今天带您一起了解。 一、外贸企业邮…