ElasticSearc写入查询性能优化总结

news2025/1/9 13:41:32

文章目录

  • 前言
    • 1、bulk批量写入
    • 2、多线程写入
    • 3、修改索引刷新时间
    • 4、修改merge参数以及线程数
    • 6、index buffer
    • 7、磁盘间的任务均衡
    • 8、Mapping优化
      • 8.1、自动生成docID(避免ES对自定义ID验证的操作)
      • 8.2、调整字段Mapping
      • 8.3、调整_source字段
      • 8.4、禁用_all
      • 8.5、禁用Norms
      • 8.6、index_options设置
    • 9、优化存储
  • 总结


前言

ES 的默认配置,是综合了数据可靠性、写入速度、搜索实时性等因素。实际使用时,我们需要根据公司要求,进行偏向性的优化。


对于写入优化,综合来说,可以考虑以下几个方面来提升写索引的性能:

  • 加大 Translog Flush ,目的是降低 Iops、Writeblock
  • 增加 Index Refresh 间隔,目的是减少 Segment Merge 的次数
  • 调整 Bulk 线程池和队列
  • 优化节点间的任务分布
  • 优化 Lucene 层的索引建立,目的是降低 CPU 及 IO

1、bulk批量写入

  1. 如果业务场景支持将一批数据聚合起来,一次性写入Elasticsarch,那么尽量采用bulk的方式,bulk批量写入的速度远高于一条一条写入大量document的速度。
  2. 并不是bulk size越大越好,而是根据写入数据量具体来定的,因为越大的bulk size会导致内存压力过大。
  3. Bulk 默认设置批量提交的数据量不能超过 100M。数据条数一般是根据文档的大小和服务器性能而定的,但是单次批处理的数据大小应从
    5MB~15MB 逐渐增加,当性能没有提升时,把这个数据量作为最大值,计算公式为:

一次bulk写入的数据量大小=一次bulk批量写入的文档数*每条数据量的大小。

2、多线程写入

  1. 单线程发送bulk请求是无法最大化Elasticsearch集群写入的吞吐量的。如果要利用集群的所有资源,就需要使用多线程并发将数据bulk写入集群中。多线程并发写入同时可以减少每次底层磁盘fsync的次数和开销。
  2. 一旦发现ES返回了TOO_MANY_REQUESTS的错误,JavaClient也就是EsRejectedExecutionException。此时说明Elasticsearch已经达到了一个并发写入的最大瓶颈了。推荐使用CPU核数的2倍线程数。

3、修改索引刷新时间

为了提高索引性能,Elasticsearch 在写入数据时候,采用延迟写入的策略,即数据先写到内存中,默认情况下索引的refresh_interval为1秒,当超过默认 1 秒 (index.refresh_interval)会进行一次写入操作,就是将内存中 segment 数据刷新到操作系统中,这意味着数据写1秒后就可以被搜索到,所以这就是为什么 Elasticsearch 提供的是近实时搜索功能,而不是实时搜索功能,每次索引的 refresh 会产生一个新的 lucene 段,这会导致频繁的 segment merge 行为。
当然像我们目前的场景对数据延迟要求不高的话,我们可以通过延长 refresh 时间间隔,可以有效的减少 segment 合并压力,提供索引速度。
甚至,在进行全量索引时,可以将 refresh 次数临时关闭,即 index.refresh_interval 设置为 -1,数据导入成功后再打开到正常模式,比如 30s。
以bvd_entity索引为例,我们最终调整修改索引刷新时间间隔为180s:

curl -XPUT --tlsv1.2 --negotiate -k -v -u : "https://192.168.1.101:24100/bvd_entity/_settings" -H 'Content-Type: application/json' -d' 
{ 
    "refresh_interval": "180s" 
}'

4、修改merge参数以及线程数

Elasticsearch写入数据时,refresh刷新会生成1个新的segment,segments会按照一定的策略进行索引段合并merge。merge的频率对写入和查询的速度都有一定的影响,如果merge频率比较快,会占用较多的IO,影响写入的速度,但同时segment个数也会比较少,可以提高查询速度。所以merge频率的设定需要根据具体业务去权衡,同时保证写入和查询都相对快速。Elasticsearch默认使用TieredMergePolicy,可以通过参数去控制索引段合并merge的频率:

1).参数“index.merge.policy.floor_segment”,Elasticsearch避免产生很小的segment,小于这个阀值的所有的非常小的segment都会merge直到达到这个floor的size,默认是2MB。
2).参数“index.merge.policy.max_merge_at_once”,一次最多只merge多少个segments,默认是10。
3).参数“index.merge.policy.max_merged_segment”,超过多大size的segment不会再做merge,默认是5g。
4).参数“index.merge.policy.segment_per_tier”默认为10,表示每个tier允许的segment个数,注意这个值要大于等于“index.merge.policy.max_merge_at_once”值,否则这个值会先于最大可操作数到达,就会立刻做merge,这样会造成频繁merge。
5).参数“ index.merge.scheduler.max_thread_count
”,单个shard上可能同时合并的最大线程数。默认会启动 Math.max(1, Math.min(4,
Runtime.getRuntime().availableProcessors() / 2))
个线程进行merge操作,适用于SSD固态硬盘。但是如果硬盘是机械硬盘,很容易出现IO阻塞,将线程数设置为1。

一般情况下,通过调节参数index.merge.policy.max_merge_at_onceindex.merge.policy.segment_per_tier去控制merge的频率。

参数修改好处坏处
提高“index.merge.policy.max_merge_at_once”和“index.merge.policy.segment_per_tier”参数值提升indexing速度减少了segment merge动作的发生,意味着更多的segments,会降低searching速度
降低“index.merge.policy.max_merge_at_once”和“index.merge.policy.segment_per_tier”参数值Segments更少,即能够提升searching速度更多的segments merge操作,会花费更多系统资源(CPU/IO/RAM),会降低indexing速度

修改参数命令如下示例:

curl -XPUT --tlsv1.2 --negotiate -k -v -u : "https://ip:httpport/myindex-001/_settings?pretty" -H 'Content-Type: application/json' -d' 
{ 
     "merge":{ 
         "scheduler":{ 
            "max_thread_count" : "1" 
         }, 
         "policy":{ 
              "segments_per_tier" : "20", 
              "max_merge_at_once": "20""floor_segment" : "2m", 
              "max_merged_segment" : "5g" 
         } 
      } 
}'

5、事务日志translog调整
translog写入了一份全量的数据,它有点像MysSQL中的binlog(记录所有数据库表结构变更(例如CREATE、ALTER TABLE…)以及表数据修改(INSERT、UPDATE、DELETE…)的二进制日志),用来保证异常情况下的数据安全。这是因为,我们把数据写到磁盘后,还要调用fsync才能把数据刷到磁盘中,如果不这样做在系统掉电的时候就会导致数据丢失。在ES 2.x开始,默认情况下,translog的持久化策略为:每个请求都“flush”。
对应配置:
index.translog.durability:request
以bvd_entity索引为例,我们的事物日志调整为:

curl -XPUT --tlsv1.2 --negotiate -k -v -u : "https://ip:httpport/bvd_entity/_settings" -H 'Content-Type: application/json' -d' 
{ 
        "translog" : {
          "flush_threshold_size" : "1g",--当translog的大小达到此值时会进行一次flush操作
          "sync_interval" : "180s",--设置刷盘时间为180s
          "durability" : "async" --设置translog策略为异步
        },
}'

6、index buffer

indexing buffer 在为doc建立索引时使用,当缓冲满时会刷入磁盘,生成一个新的segment,这是除了refresh_interval 刷新索引外,另一个生成新segment的机会。每个shard有自己的indexing buffer,下面的这个buffer大小的配置需要除以这个节点上索引shard的数量:

indices.memory.index_buffer_size 默认是整个堆空间的10%
indices.memory.min_index_buffer_size 默认48MB
indices.memory.max_index_buffer_size 默认无限制

在执行大量的索引操作时,indices.memory.index_buffer_size的默认设置可能不够,这和可用堆内存,单节点上的shard数量相关,可以考虑适当增大该值。

7、磁盘间的任务均衡

ES 在分配shard的时候,落到各个磁盘的shard可能并不均匀,这种不均匀可能导致某些磁盘繁忙,对写入性能会产生一定的影响。
为了让各个实例上的分片均匀分布,添加如下参数,设置每个索引在单个实例上的分片个数,如下所示为每个索引在每个实例上的分片为2个。

curl -XPUT --tlsv1.2 --negotiate -k -u : "https://ip:httpport/myindex/_settings?pretty' -H 'Content-Type:application/json' -d '
{
 "index.routing.allocation.total_shards_per_node":"2"
}'

8、Mapping优化

8.1、自动生成docID(避免ES对自定义ID验证的操作)

分析 es 写入流程可以知道,写入 doc 时如果是外部指定了 id,es 会先尝试读取原来doc的版本号, 判断是否需要更新,使用自动生成 doc id 可以避免这个环节。

8.2、调整字段Mapping

  • 减少不必要的字段数量
  • 将不需要建立索引字段的index属性设置为not_analyzed或no。对字段不分词或不建立索引,减少相应的操作,特别是binary类型
  • 减少字段内容长度
  • 使用不同的分析器(analyzer),不同分析器之间的运算复杂度也不相同

8.3、调整_source字段

_source”字段包含在索引时传递的原始JSON文档正文。该“_source”字段本身不被索引(因此是不可搜索的),但它被存储,以便在执行撷取请求时可以返回,例如get或search。
虽然很方便,但是“_source”字段确实在索引中有不小的存储开销。因此,可以使用如下方式禁用:

curl -XPUT --tlsv1.2 --negotiate -k -u : 'https://ip:httpport/tweets?pretty' -H 'Content-Type: application/json' -d'
{
   "mappings": {
          "tweet": {
               "_source": {
                       "enabled": false
                 }
           }
     }
}'

在禁用_source 字段之前请注意:如果_source字段不可用,则不支持以下功能:

  • update,update_by_query,reindex APIs.
  • 高亮
  • 将索引从一个Elasticsearch索引reindex(重索引)到另一个索引的能力,以便更改映射或分析,或将索引升级到新的主要版本。
  • 通过查看索引时使用的原始文档来调试查询或聚合的能力。
  • 潜在的未来可能会自动修复索引损坏的能力。

所以,一般真实场景下,这个字段不会被禁用。

8.4、禁用_all

_all字段中包含所有字段分词后的关键词,作用是可以搜索的时候不指定特定字段,从所有字段所有中减少,如果我们明确知道要检索哪些字段,就可以选择将这个字段禁用,否则会额外增加索引存储开销。

8.5、禁用Norms

Norms用于在搜索时计算doc的评分,如果不需要评分,则可以将其禁用:

"title":{"type":"string","norms":{"enabled":false}}

8.6、index_options设置

index_options用于控制在建立倒排索引过程中,哪些内容会被添加到倒排索引中,例如:

"index_options" : "docs" ,
  # 4个可选参数
  # docs(索引文档号),
  # freqs(文档号 + 词频),
  # positions(文档号 + 词频 + 位置,通常用来距离查询),
  # offsets(文档号 + 词频 + 位置 + 偏移量,通常被使用在高亮字段)

优化这些设置可以一定程度上降低索引过程中的计算任务,接收CPU占用率。

9、优化存储

ES 是一种密集使用磁盘的应用,在段合并的时候会频繁操作磁盘,所以对磁盘要求较高,当磁盘速度提升之后,集群的整体性能会大幅度提高。
磁盘的选择,提供以下几点建议:

  1. 使用 SSD。就像其他地方提过的,他们比机械磁盘优秀多了。
  2. 使用 RAID 0。条带化 RAID 会提高磁盘 I/O,代价显然就是当一块硬盘故障时整个就故障了。不要使用镜像或者奇偶校验 RAID
    因为副本已经提供了这个功能。
  3. 另外,使用多块硬盘,并允许 Elasticsearch 通过多个 path.data 目录配置把数据条带化分配到它们上面,如下所示:
    path.data:/path/to/data1,/path/to/data2。
  4. 不要使用远程挂载的存储,比如 NFS 或者 SMB/CIFS。这个引入的延迟对性能来说完全是背道而驰的。

总结

通过上面优化手段,博主亲测优化效率:

  • 优化后,每秒写入速度从900+ 提升到每秒2.9万左右,截图如下:
    在这里插入图片描述
  • 查询性能,由原来的8.4秒,降低到2秒,为了不涉密截图不能放

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/192571.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Elasticsearch学习-父子文档

elasticsearch父子文档处理 join 一、背景二、需求三、前置知识四、实现步骤 1、创建 mapping2、添加父文档数据3、添加子文档4、查询文档 1、根据父文档id查询它下方的子文档2、has_child返回满足条件的父文档3、has_parent返回满足父文档的子文档 五、Nested Object 和 joi…

docker部署vue

1: 创建 Dockerfile 文件 配置一下内容: # 设置基础镜像,这里使用最新的nginx镜像,前面已经拉取过了 FROM nginx # 将dist文件中的内容复制到 /usr/share/nginx/html/ 这个目录下面 COPY dist/ /usr/share/nginx/html/ 2: 安装nginx …

物联网平台的产品架构

一、物联网介绍1. 概述物联网( IoT ,Internet of things )即“万物相连的互联网”,是互联网基础上的延伸和扩展的网络,将各种信息传感设备与互联网结合起来而形成的一个巨大网络,实现在任何时间、任何地点&…

LeetCode 热题 HOT 100 -- Java 题解

LeetCode 热题 HOT 100 --Java 题解1. 两数之和2. 两数相加3. 无重复字符的最长子串4. 寻找两个正序数组的中位数1. 两数之和 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下…

【信管10.3】风险定量分析及应对监控

风险定量分析及应对监控通过前三个过程,我们已经有了风险登记册,也就是一个所有识别出来的风险情况。然后可以通过定性风险分析来进行分类和排序。接下来我们要继续通过定量,也就是数据的手段来继续完善风险登记册。只有有了详尽的风险登记册…

我对KMP算法的简单理解

我对KMP算法的简单理解 前言:字符串匹配问题 问题概述: “字符串A是否为字符串B的子串?如果是,出现在B的什么位置?”这个问题就是字符串匹配问题。字符串A称为模式串(zs),字符串B称为主串(ss)。 其中&a…

C++ 深入理解模板实现多态思想

文章目录前言一、模板与多态基础1.模板2.多态二、模板实现多态三、实际应用前言 对C/C学习感兴趣的可以看看这篇文章噢:C/C教程 最近有时间,便用WTL写了一个兼具群聊、单聊以及传输文件的聊天软件,过几天应该就能更新到 C/C教程系列 中了 …

EasyGBS+EasyNVS技术方案,如何实现对多现场国标视频平台的统一管理?

一、平台能力 1)EasyGBS EasyGBS国标视频云服务平台支持无缝、完整接入内网或者公网的国标设备,在输出上,实现全平台、全终端输出。EasyGBS可将GB/T28181设备/平台推送的PS流转成ES流,并提供RTSP、RTMP、FLV、HLS、WebRTC等多种…

使用shell进行简单操作

目录 1、shell实现乘法表的打印 2、shell判定成绩等级 3、循环创建用户 1、shell实现乘法表的打印 要求:嵌套循环实现9*9乘法表(两种方式) 创建脚本文件:vim mcl.sh #!/bin/bash ######################### #File name:mcl.s…

idea插件及插件使用方法

CamelCase (下划线转驼峰) 使用快捷键:altshiftu。 按住altshift再不停的按U,会把选中内容的单词的下划线转驼峰转大写等,不停的转换。 Maven Helper Maven助手 安装之后再次打开pom文件,文件左下角会多出一个视图。 切换到"…

软件测试基础(三) 之 软件的生命周期

软件的生命周期一、软件的生命周期简述软件的生命周期中最早可能是客户,可能是产品的一个想法阶段,然后再到后来的一个需求阶段,再到开发人员去进行编码,去进行自己的自测,再提到软件测试人员进行综合测试,…

C语言之初识指针

前言 🎈个人主页:🎈 :✨✨✨初阶牛✨✨✨ 🐻推荐专栏: 🍔🍟🌯 c语言初阶 🔑个人信条: 🌵知行合一 🍉本篇简介:>:介绍c语言中的新知识—指针有关的知识. 金句分享: ✨知…

大数据舆情监控流程,TOOM大数据舆情监控范围

大数据舆情监控是一种通过大数据技术,分析社会舆情信息,掌握舆情动态的方法。它利用大数据的存储和处理能力,对海量的网络舆情数据进行收集、清洗、分析、呈现,帮助企业和机构了解公众的想法和评价,掌握舆情动态&#…

【正点原子FPGA连载】第三十一章Linux内核定时器实验 摘自【正点原子】DFZU2EG_4EV MPSoC之嵌入式Linux开发指南

1)实验平台:正点原子MPSoC开发板 2)平台购买地址:https://detail.tmall.com/item.htm?id692450874670 3)全套实验源码手册视频下载地址: http://www.openedv.com/thread-340252-1-1.html 第三十一章Linux…

【Linux】多线程详解(中)

🎇Linux: 博客主页:一起去看日落吗分享博主的在Linux中学习到的知识和遇到的问题博主的能力有限,出现错误希望大家不吝赐教分享给大家一句我很喜欢的话: 看似不起波澜的日复一日,一定会在某一天让你看见坚持…

哈希表的概念(散列表)

一、基本概念 散列表特点 : 数据元素的关键字与存储地址直接相关 通过哈希函数建立“关键字”与“存储地址”的联系 若不同的关键字通过散列函数映射到同一个值,则称它们为 “同义词” 通过散列函数确定的位置已经存放了其他元素,则称这种…

今日题目分享(两个维度的思考,双指针/动态规划,b站视频讲解)

先直接上连接 941有效的山脉数组 845数组中的最长山脉 2100适合打劫银行的日子. 2420找到所有好下标. 什么是两个维度? 这里是从代码随想录里面学习到的思考方式,开门见山地说,就是两个方面去考虑题目,比如,要求第…

vue前端框架应用案例(二)实现简单的SPA应用

目录路由使用步骤案例效果案例目录结构App.vueAbout.vueHome.vueindex.jsmain.jsindex.html本博客参考尚硅谷官方课程,详细请参考 【尚硅谷bilibili官方】 本博客以vue2作为学习目标(请勿混淆v2与v3的代码规范,否则可能出现报错&#xff09…

docker搭建nacos集群

一、先搭建MySQL主从模式 Nacos使用delby作为内嵌数据库,在使用集群作为部署方式时,内嵌数据库无法保持数据同步与数据一致,故一般使用外接MySQL数据库的方式保存配置文件。使用一主一从的方式搭建,实现主从复制与读写分离。 1.…

线缆也可能是静电危害的罪魁祸首?

众所周知,几乎所有的电子元器件都是对静电敏感的,如果处理不当,将恶化元器件的性能,甚至造成彻底损坏。在低温干燥的环境中,极易产生静电,当然静电主要还是通过摩擦产生的。除了我们所熟知的静电产生的原因…