Elasticsearch 8.X 性能优化参考 —— 筑梦之路

news2025/1/15 16:52:22

Elasticsearch 是实现用户无缝搜索体验的关键工具。它通过提供快速、准确和相关的搜索结果,彻底改变了用户与应用程序的互动方式。然而,要确保 Elasticsearch 部署达到最佳性能,就必须关注关键指标,并对诸如索引、缓存、查询、搜索以及存储等各种组件进行优化。

通用优化

 1. 选用合适的硬件配置

Elasticsearch是一个内存密集型应用程序,因此使用足够内存的硬件非常重要。此外,建议使用固态硬盘(SSD)作为存储设备,因为它们可以显著提高索引和搜索性能。

尽管 SSD 的 I/O 性能优于传统硬盘,但如果 Elasticsearch 集群中的节点数量较多,I/O 性能仍然可能成为瓶颈。为了保证性能,可以采取一些优化措施,如使用 RAID 配置、合理的磁盘划分和负载均衡等。

RAID级别优点缺点适用场景
RAID 0高I/O性能,实现并行读写无冗余,磁盘故障可能导致数据丢失性能敏感型应用,可接受数据恢复时间
RAID 1数据冗余,磁盘故障时数据不丢失写入性能不如RAID 0数据安全性和可靠性较高的应用
RAID 5数据冗余,一定程度的I/O性能优势写入性能不如RAID 0需要在性能和数据安全性之间取得平衡的应用
RAID 10结合RAID 0和RAID 1的优点,高I/O性能和数据冗余需要更多磁盘,成本较高既需要保证性能又需要保证数据安全性的应用

 2. 规划索引策略

Elasticsearch设计用于处理大量数据,但需要考虑如何索引这些数据。这包括需要多少分片和副本,数据将如何索引,以及如何处理更新和删除。

1)分片数量

选择合适数量的分片以实现水平扩展和负载均衡。

默认情况下,每个索引有 1 个主分片。根据数据量和节点数量调整分片数量。尽量避免使用过多分片,因为每个分片都需要额外的资源和开销。

2)副本数量

增加副本数量以提高搜索性能和系统容错能力,但要辩证看,后文会详细解读。

默认情况下,每个分片有 1 个副本。根据负载和可用性需求调整副本数量。

3) 数据索引策略 

使用基于时间的索引生命周期管理策略(ILM)以提高查询性能和降低资源消耗。例如,为每天、每周或每月的数据创建一个新索引。

选择合适的字段类型和分析器。优化映射以减少存储空间和提高查询性能。

使用 Index Templates 自动应用映射和设置。

4) 更新和删除处理

使用 Update API 更新文档,避免删除和重新索引整个文档。

合理使用 Elasticsearch 的版本控制特性。

考虑使用 Index Lifecycle Management (ILM) 自动管理索引的生命周期。根据具体业务需求和场景,灵活调整上述建议以优化 Elasticsearch 集群性能

3. 优化查询

Elasticsearch是一个功能强大的搜索引擎,但要确保查询性能优化。这包括尽可能使用过滤器而不是查询,并使用分页限制返回结果的数量。 

1) 使用过滤器而不是查询

  • 提高查询速度:过滤器不计算相关性得分。

  • 结果可被缓存:相同过滤条件直接获取结果。

 2) 使用分页限制返回结果数量

  • 降低计算和传输负担:提高查询性能。

  • 注意深度分页可能导致性能问题:考虑使用 search_after 参数。

4. 保持Elasticsearch版本更新

Elasticsearch是一个活跃的项目,定期发布新版本以修复错误并提供新功能。保持版本更新至关重要,以利用这些改进并避免已知问题。 

5. 做好监控

Elasticsearch 提供了各种监控工具,如Elasticsearch Head、Kibana monitoring(优先推荐)插件,可用于监控集群的健康和性能。需要密切关注磁盘使用情况、CPU和内存使用情况以及搜索请求的数量。 

写入(索引化)优化建议 

1. 使用批量请求

Elasticsearch的批量API允许在单个API调用中执行多个索引/删除操作。这大大提高了索引速度。如果请求中的一个失败,顶层错误标志将设置为true,并在相关请求下报告错误详细信息。 

 使用 Elasticsearch 的批量 API 的原因:

  1. 提高性能

减少网络开销和连接建立时间,提高索引速度。

      2. 减少资源消耗

降低服务器和客户端资源消耗,提高系统效率和吞吐量。

      3. 错误处理

灵活且可控的错误处理方式,即使部分操作失败,其他操作仍可继续执行。

使用批量 API 可实现高效的数据索引和删除操作,同时提高系统的稳定性和可靠性。

 2. 使用多线程客户端索引数据

单个线程发送批量请求无法充分利用Elasticsearch集群的索引能力。

通过多线程或多进程发送数据,将有助于利用集群的所有资源,降低每个fsync的成本,提高性能。

3. 增加刷新间隔(index.refresh_interval)

Elasticsearch中默认的刷新间隔为1秒,但如果搜索流量很小,可以增加此值以优化索引速度。 

4. 使用自动生成的ID

在索引具有显式ID的文档时,Elasticsearch需要检查是否已经存在具有相同ID的文档,这是一项代价高昂的操作。

使用自动生成的ID可以跳过此检查,使索引更快。

 

5. index.translog.sync_interval

此设置控制translog何时提交到磁盘,无论写操作如何。默认值为5秒,但不允许使用小于100毫秒的值。

官方文档地址:

https://www.elastic.co/guide/en/elasticsearch/reference/current/index-modules-translog.html

6. 避免大型文档

大型文档会给网络、内存使用和磁盘带来压力,导致索引速度缓慢,影响邻近搜索和高亮显示。

高亮处理推荐 fvh 高亮方式

 7. 显式设置映射

Elasticsearch可以动态创建映射,但并不适用于所有场景。显式设置(strict)映射将有助于确保最佳性能。

 

显式设置映射的优势

  1. 准确的字段类型

确保查询和聚合操作正确性。

     2.优化存储和性能

降低存储空间,提高查询性能。

     3.避免不必要的映射更新

减少映射更新操作和性能开销。

8. 避免使用嵌套Nested类型

 

虽然嵌套类型在某些场景下很有用,但它们也带来了一定的性能影响:

  1. 查询速度较慢

与查询非嵌套文档中的普通字段相比,查询嵌套字段速度较慢。

这是因为嵌套字段的查询需要执行额外的处理步骤,例如过滤器和关联。这可能导致较低的查询性能,特别是在处理大量数据时。

     2. 额外的减速

在检索匹配嵌套字段的文档时,Elasticsearch 需要对嵌套层文档进行关联。这意味着它需要将嵌套文档与其外层文档匹配,以确定哪些文档实际上包含匹配的嵌套字段。这个过程可能导致额外的性能开销,尤其是在查询结果集很大时。

为了避免嵌套类型带来的性能影响,可以考虑使用以下方法:

  • 扁平化数据结构(俗成大宽表):尽可能将嵌套字段转换为扁平化的数据结构,例如使用多个普通字段表示原本的嵌套字段。

  • 使用关键词类型(keyword类型):对于具有固定集合值的字段,可以使用关键词类型进行索引,以提高查询速度。

  • 使用 join 类型(父子关联类型):在某些场景下,可以使用 join 类型替代嵌套类型。

但请注意,join 类型也可能导致性能问题,尤其是在需要频繁修改文档关系时。

 查询和搜索优化建议

1. 尽可能使用 filter 而不是 query

  • query 子句用于回答“这个文档与这个子句的匹配程度如何?

  • filter(过滤器)子句用于回答“这个文档是否与这个子句匹配?” Elasticsearch只需要回答“是”或“否”。它不需要为过滤器子句计算相关性得分,而且过滤器结果可以被缓存

2. 增加刷新间隔

增加刷新间隔有助于减少段数量,降低搜索的IO成本。

而且,一旦刷新发生并且数据发生变化,缓存就会失效。增加刷新间隔可以使Elasticsearch更有效地利用缓存

3. 辩证的看待增加副本数量对检索性能的影响

 直接给出企业级测试结论——副本数对检索性能的影响非正相关。也就是说:不是副本越多,检索性能越高。

增加副本数量的优势

  1. 负载均衡

分散查询请求负载,实现负载均衡。

     2.高可用性

提高集群的可用性和容错能力。

     3.并行处理

加快查询速度,提高吞吐量。

注意:增加副本数量会消耗额外的存储空间和计算资源。需根据需求和资源限制权衡副本数量。

4. 仅检索必要字段

如果文档很大,且仅需要几个字段,请使用stored_fields仅检索所需字段,而不是所有字段。 

5. 避免通配符查询

通配符查询可能会很慢且耗资源。最好尽量避免使用它们。

替代方案:Ngram分词、设置 wildcard 数据类型。

6. 使用节点查询缓存

过滤器上下文中使用的查询结果将缓存在节点查询缓存中,以便快速查找。

过滤器上下文查询结果缓存的优势

  1. 缓存命中率

过滤器查询具有较高的缓存命中率,常在多个查询中重复使用。

    2.节省计算资源

缓存结果减少重复计算,节省资源。

   3.提高查询速度

缓存加速查询,特别是复杂或数据量大的过滤器查询。

   4.并发查询效果更好

节点查询缓存在高并发场景下发挥作用,提高性能。

注意:需平衡缓存使用与内存消耗。对于频繁变更或低缓存命中率的查询,缓存效果可能有限。

 7. 使用分片查询缓存

可以通过将“index.requests.cache.enable”设置为true来启用分片查询缓存。

设置参考如下:

PUT /my-index-000001
{
  "settings": {
    "index.requests.cache.enable": false
  }
}

8. 使用索引模板

 索引模板可以帮助自动将设置和映射应用于新索引

使用索引模板的优势

  1. 一致性

确保新索引具有相同的设置和映射,实现集群一致性。

     2.简化操作

自动应用预定义的设置和映射,减少手动配置。

     3.易于扩展

快速创建具有相同配置的新索引,便于集群扩展。

    4.版本控制和更新

实现模板版本控制,确保新索引使用最新配置。

性能优化建议

 1. 活动分片应与CPU成比例

活动分片=主分片+副本分片数之和。

活动分片与 CPU 成比例的原因

  1. 并行处理

更多活动分片提高并行处理能力,加速查询和索引请求。与 CPU 核心数成比例确保充分利用 CPU 资源。

    2. 避免资源竞争

将活动分片与 CPU 核心数成比例,避免多分片竞争同一 CPU 核心,提高性能。

    3.负载均衡

成比例的活动分片数有助于在多节点间分散请求,避免单节点资源瓶颈。

    4.性能优化

与 CPU 核心数成比例的分片数根据可用计算资源为分片分配处理能力,优化查询和索引操作。

注意:实际部署需考虑其他因素,如内存、磁盘和网络资源等。

如前所述,为了提高写入密集型用例的性能,应将刷新间隔增加到较大的值(例如,30秒),并增加主分片以将写请求分发到不同节点。对于读取密集型用例,增加副本分片以在副本之间平衡查询/搜索请求会有所帮助。

2. 如果查询具有日期范围 filter 过滤器,请按日期组织数据

对于日志或监控场景,按每日、每周或每月组织索引并按指定日期范围获取索引列表可以提高性能

Elasticsearch只需要查询较小的数据集,而不是整个数据集,而且在数据过期时缩小/删除旧索引会很容易。

负面案例:之前有客户超大规模(100TB)以上的数据没有日期格式字段或者出现字段格式不规范的问题。

3. 如果查询具有过滤字段且其值可枚举,则将数据分割成多个索引

如果我们的查询中包含可枚举的过滤字段(例如,地区),则可以通过将数据分割成多个索引来提高查询性能。

例如,如果数据包含来自美国、欧洲和其他地区的记录,并且经常使用“region”过滤查询,那么可以将数据分割成三个索引,每个索引包含一组地区的数据。

这样,当执行带有过滤子句“region”的查询时,Elasticsearch 只需要在包含该地区数据的索引中搜索,从而提高查询性能。

其他建议

1.  索引状态管理

定义自定义管理策略以自动执行常规任务,并将其应用于索引和索引模式。例如,可以定义一项策略,使索引在30天后进入只读状态,然后在90天后将其删除。

ILM(索引生命周期管理)是 Elasticsearch 的一项功能,可自动化索引的管理和维护,具有以下好处:

  • 简化索引管理:自动化索引的生命周期管理,包括索引的创建、更新、删除和存档,减轻管理员的负担。

  • 提高性能:自动优化索引设置,包括调整分片大小、缩小索引和删除过期数据等,有助于提高查询性能和减少存储空间的使用。

  • 降低成本:自动归档和删除过期数据,降低存储成本,减少管理员的工作量和时间成本。

  • 更好的可扩展性:根据需要自动调整索引设置和存储策略,使索引更好地适应不断增长和变化的数据。

使用 ILM 可以让索引管理变得更简单、更可靠。

  1. 干货 | Elasticsearch 索引生命周期管理 ILM 实战指南

  2. Elasticsearch ILM 索引生命周期管理常见坑及避坑指南

2.  快照生命周期管理

SLM(快照生命周期管理)是 Elasticsearch 的一项功能,可自动化快照的管理和维护,具有以下好处:

  • 简化快照管理:自动化快照的生命周期管理,包括创建、管理、删除和清理快照,减轻管理员的负担。

  • 提高效率:自动化快照的创建、管理、删除和清理,提高管理效率。

  • 减少存储成本:自动删除无用的快照,降低存储成本。

  • 更好的可扩展性:根据需要自动调整快照设置和存储策略,使快照更好地适应不断增长和变化的数据。

使用 SLM 可以让快照管理变得更简单、更可靠,提高管理效率和降低存储成本。

3. 用好监控

为了监视Elasticsearch集群的性能并检测任何潜在问题,应该定期跟踪以下指标

  • 集群健康状况节点和分片:监控集群中节点的数量以及分片及其分布。

  • 搜索性能:请求延迟和速率 - 跟踪搜索请求的延迟以及每秒搜索请求的数量。

  • 索引性能:刷新时间和合并时间 - 监控刷新索引所需的时间以及合并段所需的时间。

  • 节点利用率:线程池 - 监控每个节点上线程池的使用情况,例如索引池。

总结

遵循这些最佳实践,可以确保Elasticsearch部署性能高、可靠且可扩展。

请记住,Elasticsearch是一个功能强大的搜索和分析引擎,可以快速并近乎实时地处理大量数据,但是要充分利用它,需要计划、优化和监控部署。

以上建议仅供参考,实操环节以 Elasticsearch 官方文档和自己集群的性能测试结论为准。没有普适的优化建议,只有适合自己的优化才是最好的优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/589683.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

monorepo 项目 Unable to resolve path to module ‘xxx‘.eslintimport/no-unresolved

同事问了一个问题,他现在参加了一个项目,这个项目是个monorepo 项目。 也就是多包管理、前后端一起都是js 写的。 问题 后端express 项目里配置的路径别名,eslint 不认识,报错。 Unable to resolve path to module /app/Prisma.e…

Phaser笔记-鼠标点击获取坐标键盘控制sprite

代码如下: import phaser;class PlayGame extends Phaser.Scene {constructor() {super("PlayGame");}preload() {this.load.spritesheet(run, assets/_Run.png, {frameWidth: 120, frameHeight: 80});this.load.spritesheet(idle, assets/_Idle.png, {f…

GEE:对Sentinel-2遥感影像进行处理,水体提取与可视化

作者:CSDN _养乐多_ 本文介绍了通过Google Earth Engine平台,并使用哨兵数据提取水体掩膜的方法和代码。通过裁剪和去除云等处理步骤,最终得到具有水体掩膜的影像,并进行可视化和导出。这种方法基于归一化水体指数(N…

MIT 6.S081 (BOOK-RISCV-REV1)教材第一章内容

MIT 6.S081 教材第一章内容 引言第一章 操作系统接口进程和内存I/O和文件描述符管道文件系统真实世界 引言 MIT 6.S081 2020 操作系统 本文为MIT 6.S081课程第一章教材内容翻译加整理。 本课程前置知识主要涉及: C语言(建议阅读C程序语言设计—第二版)RISK-V汇编推荐阅读: 程…

JavaScript 数据透视表 DHTMLX Pivot Crack

DHTMLX Pivot JavaScript 数据透视表 - 强大的数据汇总和报告 使用我们的高速 JavaScript/HTML5 Pivot 组件可视化您的复杂数据,从而提高您的商业智能。 它可以帮助您以方便的方式汇总大型数据集。 主要特征 纯 JavaScript 库,可轻松与任何服务器端集成…

Linux安装Mysql8,过程详细(离线安装mysql)

因公司需要,需要在服务器上安装一个mysql,但是机器没有外网权限,所以记录一下安装过程,供大家参考。 官网下载安装包 地址:https://dev.mysql.com/downloads/ 如图示,选择MySQL Community Server 如图示&a…

git新手将网页设计代码提交到github上

以下是将代码提交到Github上的一些步骤。如果中途遇到问题或不会的需要我帮忙,可以文章底部联系我。 1. 创建Github账户 首先,您需要在Github上注册一个账户。 如果您已经有账户了,请跳过这一步。 2. 创建一个新的repository 在您的Githu…

格式化数字的实用命令:numfmt

在 Linux 系统中,numfmt 是一个用于格式化数字的实用工具。它可以将数字转换为不同的表示方式,如十进制、二进制、字节单位等。本文将详细介绍 numfmt 命令的使用方法,并提供一些适合初学者的示例。 Numfmt 命令语法 numfmt 命令的基本语法如…

搭建stm32电机控制代码框架(四)——单路PWM生成

STM32中单路PWM的生成一般是基于某一个通用定时器,本次小实验选取TIM2通用定时器,选择PA5作为PWM端口输出。配置步骤如下: 第一步:配置外部晶振与基本的时钟,如下图所示。 (1)选择外部晶振 &a…

关于java k8s容器环境中的jvm配置与优化

1. 前言 环境 版本 备注 k8s v1.22 配置cpu/mem limit、健康/就绪检查 openjdk 8 openjdk version "1.8.0_342" k8s容器化(docker)环境更好的解决了 java app 运行环境的封装问题。但存在着一些限制,比如 Java 并不能发现…

流马平台连接数据库

新增数据库配置 在环境管理处对于环境下新增数据库配置 编辑SQL 在用例管理-步骤编辑-逻辑控件处添加前置SQL,编辑SQL 选择数据库名称,查询语句,填写要保存的变量名,并在下方填写查询语句 示例从user表中取出username和passwo…

Semi-supervised Learning(半监督学习)

目录 Introduction Why semi-supervised learning help? Semi-supervised Learning for Generative Model Supervised Generative Model Semi-supervised Generative Model Low-density Separation Assumption Self Training Entropy-based Regularization(基…

docker启动MYSQL8并挂载数据目录

1.创建需要docker挂载的数据目录 mkdir -p /datah/mydata/mysql/conf mkdir -p /datah/mydata/mysql/data mkdir -p /datah/mydata/mysql/log mkdir -p /datah/mydata/mysql/mysql-files 2. 在目录下面 /datah/mydata/mysql/conf 创建配置文件 my.cnf [client] default-charact…

VH6501使用

目录 1.VH6501接口介绍 2.使用场景 2.1当VH6501作为硬件接口卡作通信/监测使用时,使用CH1的任意接口与总线连接即可 2.2针对单节点干扰时,使用CH1的任意接口与被测节点连接即可 2.3针对多节点干扰时,需要通过CH1的两个接口将VH6501串联到…

C++ ---- 模板

目录 泛型编程 函数模板 函数模板语法 模板使用 函数模板原理 函数模板的实例化 隐式实例化 显示实例化 模板参数的匹配原则 类模板 类模板的定义语法 类模板的实例化 非类型模板参数 类模板的特化 全特化 半特化(部分特化) 两个参数偏…

排查Javascript内存泄漏案例(一)

Chrome DevTools里的Performance面板和Memory面板可以用来定位内存问题。 如何判断应用发生内存泄漏? 为了证明螃蟹的听觉在腿上,一个专家捉了只螃蟹并冲它大吼,螃蟹很快就跑了。然后捉回来再冲它吼,螃蟹又跑了。最后专家把螃蟹的…

浅谈 ChatGPT —— 现代巴别塔

theme: nico 一、用 ChatGPT 一搜就到你这了 ChatGPT 在去年 11 月发布以后,上线 5 天后就有了 100 万用户,上线两个月后已有上亿用户,可谓一炮而红。起初我对 ChatGPT 是没有什么感知的,我单纯认为人工智能还没有发展到完全超越人…

数字经济等相关概念与官方文档

一、数字经济 数字经济,作为一个内涵比较宽泛的概念,凡是直接或间接利用数据来引导资源发挥作用,推动生产力发展的经济形态都可以纳入其范畴。在技术层面,包括大数据、云计算、物联网、区块链、人工智能、5G通信等新兴技术。在应…

美食菜谱类APP小程序开发功能有哪些?

想要开发出一款靠谱好用的美食菜谱APP小程序系统,需要具备哪些基本功能呢? 1、视频教学。对于美食的教学教学方法最直接受用的就是视频教学,用户浏览起来更加方便而且可以直接跟着视频操作,效果更佳。用户也可以自己拍摄制…

JVM垃圾回收篇之相关概念和算法

垃圾回收相关概念 什么是垃圾 垃圾就是指在运行程序中没有任何指针指向的对象,这个对象就是需要被回收掉的垃圾,如果不及时进行清理,越积越多就会导致内存溢出. 为什么需要GC 不进行回收,早晚会导致内存溢出,Java自动管理垃圾回收,不需要开发人员手动干预,这就有可能导致开…