Elasticsearch:实用指南

news2024/7/6 17:36:04

我们将更多地讨论使用 Elasticsearch 的最佳实践。这些做法是一般性建议,可以应用于任何用例。 让我们开始吧。

Bulk Requests

批量 API 使得在单个 API 调用中执行许多索引/删除操作成为可能。 这可以大大增加索引速度。 每个子请求都是独立执行的,因此一个子请求的失败不会影响其他子请求的成功。 如果任何请求失败,顶级错误标志设置为 true,错误详细信息将在相关请求下报告。

索引数据的多线程客户端

发送批量请求的单个线程不太可能最大化 Elasticsearch 集群的索引容量。 为了使用集群的所有资源,你应该从多个线程或进程发送数据。 除了更好地利用集群的资源之外,这应该有助于降低每次 fsync 的成本。 索引数据和事务日志都会定期刷新到磁盘。 多线程数据越多,同步到磁盘的数据越多,减少I/O,提高性能。

index.refresh_interval

默认情况下,Elasticsearch 每秒定期刷新索引,但仅限于在过去 30 秒内收到一个或更多搜索请求的索引。如果你没有搜索流量或搜索流量很少(例如,每一次搜索请求少于一个),这是最佳配置 5 分钟)并希望优化索引速度。 此行为旨在在不执行搜索的默认情况下自动优化批量索引。 为了选择退出此行为,请明确设置刷新间隔。 另一方面,如果你的索引遇到常规搜索请求,则此默认行为意味着 Elasticsearch 将每 1 秒刷新一次你的索引。 如果你有能力增加文档被索引和文档变为可搜索之间的时间量,将 index.refresh_interval 增加到一个更大的值,例如 30s,可能有助于提高索引速度,同时也允许有一定的搜索行为。如果你在索引的时候,完全不考虑有搜索数据的可能,你可以直接把这个刷新间隔设置为 -1。

自动生成 IDs

当索引一个具有显式 id 的文档时,Elasticsearch 需要检查同一个分片中是否已经存在具有相同 id 的文档,这是一个代价高昂的操作,并且随着索引的增长而变得更加昂贵。 通过使用自动生成的 ID,ElasticSearch 可以跳过此检查,从而加快索引速度。

index.translog.sync_interval

这个参数决定了 translog 被 fsync 到磁盘并提交的频率,与写操作无关。 默认为 5 秒。 不允许小于 100 毫秒的值。

index.translog.flush_threshold_size

Translog 存储所有尚未安全地持久化在 Lucene 中的操作(即,不是 Lucene 提交点的一部分)。 尽管这些操作可用于读取,但如果分片停止且必须恢复,则需要重放这些操作。 此设置控制这些操作的最大总大小,以防止恢复时间过长。 一旦达到最大大小,就会发生刷新,生成一个新的 Lucene 提交点。 默认为 512 MB。

大文件

大型文档会给网络、内存使用和磁盘带来更多压力。 索引大型文档可以使用一定数量的内存,该内存量是文档原始大小的倍数。 邻近搜索(例如短语查询)和突出显示也变得更加昂贵,因为它们的成本直接取决于原始文档的大小。

显式设置索引映射

Elasticsearch 可以动态创建映射,但它可能不适合所有场景。 例如,Elasticsearch 5.x 中默认的字符串字段映射都是 “keyword” 和 “text” 类型。 在很多情况下是不必要的。

Index Mapping — Nested Types

与父文档中的字段相比,对嵌套字段的查询速度较慢。 匹配嵌套字段的检索增加了额外的减速。 一旦更新包含嵌套字段的文档的任何字段,无论是否更新嵌套字段,所有底层 Lucene 文档(父文档及其所有嵌套子文档)都需要标记为已删除和重写。 除了减慢我们的更新速度之外,这样的操作还会产生垃圾,以便稍后通过段合并进行清理。

Index Mapping

禁用 _all 字段将所有其他字段的值连接到一个字符串中。 它比其他字段需要更多的 CPU 和磁盘空间。 大多数用例不需要 _all 字段。 你可以使用 copy_to 参数连接多个字段。 _all 字段在 Elasticsearch 6.0 及更高版本中默认禁用。 要禁用早期版本中的 _all 字段,请将 enabled 设置为 false。

使用索引模板

索引模板定义分片数量、副本和映射等设置,你可以在创建新索引时自动应用这些设置。 Elasticsearch 根据与索引名称匹配的索引模式将模板应用于新索引。

使用副本实现可扩展性和弹性

Elasticsearch 旨在始终可用并根据你的需求进行扩展。 它通过自身的分布式设计来做到这一点。 你可以向集群添加节点以增加容量,Elasticsearch 会自动将你的数据和查询负载分布到所有可用节点上。 为了使 Elasticsearch 具有高可用性,其索引需要具备适当的容错能力。 这可以使用副本分片来实现。 副本分片是主分片的副本。 副本提供数据的冗余副本,以防止硬件故障并增加处理读取请求(如搜索或检索文档)的能力。

分片大小

分片是幕后的 Lucene 索引,它使用文件句柄、内存和 CPU 周期。 ES 中索引的默认分片策略是 5 个主分片和一个副本。 选择多个分片的目的是在集群中的所有数据节点上均匀分布一个索引。 但是,这些碎片不应该太大或太多。 一个好的经验法则是尝试将分片大小保持在 10–50 GB 之间。 大分片会使 Elasticsearch 难以从故障中恢复,但由于每个分片都使用一定量的 CPU 和内存,因此拥有太多小分片会导致性能问题和内存不足错误。

在多个数据节点中保持索引的分片数,这些节点具有相同的大小并跨节点分布

通过模板设置主分片计数,将每个主分片的最大容量设定为 50GB(日志分析)或最大 30GB(搜索用例)。数据节点之间的分片分配将根据 2 个重要规则进行。

相同索引的主分片副本分片不会分配在同一个数据节点上。

根据节点上可用的分片数量或均衡集群中所有节点中每个索引的分片数量,将分片放置在节点上。 另请注意,可能会有较大的分片分配给某些节点而较小的分片分配给其他节点。 建议索引的分片数(主+副本)应该是数据节点数的倍数。 比方说,你有一个 4 节点的集群,索引的总分片(主 + 副本)应该是 4 或 8 或 12 等。这确保数据在节点之间均匀分布。

索引生命周期管理

如果你要处理时间序列数据,则不想将所有内容连续转储到单个索引中。 取而代之的是,你可以定期将数据滚动到新索引,以防止数据过大而又缓慢又昂贵。 随着索引的老化和查询频率的降低,你可能会将其转移到价格较低的硬件上,并减少分片和副本的数量。

要在索引的生命周期内自动移动索引,可以创建策略来定义随着索引的老化对索引执行的操作。 索引生命周期策略在与 Beats 数据发件人一起使用时特别有用,Beats 数据发件人不断将运营数据(例如指标和日志)发送到 Elasticsearch。 当现有索引达到指定的大小或期限时,你可以自动滚动到新索引。 这样可以确保所有索引具有相似的大小,而不是每日索引,其大小可以根 beats 数和发送的事件数而有所不同。

让我们通过动手操作场景跳入索引生命周期管理(Index cycle management: ILM)。 本文章将利用你可能不熟悉的ILM独有的许多新概念。 我们先用一个示例来展示。本示例的目标是建立一组索引,这些索引将封装来自时间序列数据源的数据。 我们可以想象有一个像Filebeat这样的系统,可以将文档连续索引到我们的书写索引中。 我们希望在索引达到 50 GB,或文档的数量超过10000,或已在30天前创建索引后对其进行 rollover,然后在90天后删除该索引。

按日期组织索引数据

对于大多数日志记录或监控用例,我们可以将索引组织为每天、每周或每月,然后我们可以得到一个指定日期范围的索引列表。 Elasticsearch 只需要查询较小的数据集而不是整个数据集。 此外,当数据过期时,收缩/删除旧索引也很容易。我们可以参考文章 “Elasticsearch:使用 ingest pipeline 来管理索引名称” 来管理索引名称。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/622939.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Elasticsearch8.6.0安装

Elasticsearch 8.5.0 安装 Elasticsearch 简介Elasticsearch 8.6.0 安装创建网络拉取镜像运行镜像设置密码修改kibana配置绑定ES代码绑定:手动绑定: 配置ik分词器扩展词词典停用词词典 Elasticsearch 简介 Elasticsearch(ES) 是一…

Redis搭建分片集群

一、什么是Redis分片集群 1、概念 Redis分片集群是用于将Redis的数据分布在多个Redis节点上的分布式系统。通过分片集群,可以将数据分成多个部分,并将每个部分存储在不同的节点上,以便实现Redis的高可用性和高性能。 2、Redis分片集群原理…

写字楼里的「连接」智慧,撬起万亿新赛道

【潮汐商业评论/原创】 对于新入职的Cherry来说,在新公司上班的体验也是全新的。 每天上班,尚不熟悉的她可以在互动屏的指导下精准找到目的地。办公室的温度、湿度和空气质量,会随着天气条件和人员的密集程度相应调整。休息时Cherry抬头就能…

nc/netcat使用

目录 一、前言1.netcat是什么2.netcat有什么用 二、netcat的使用1.程序文件2.作为HTTP客户端3.作为HTTP服务端4.文件传输 三、问题与思考四、小结 一、前言 1.netcat是什么 netcat是一个基于命令行的网络调试和开发工具。对于windows和linux操作系统中都有适配的程序包,程序文…

AcWing算法提高课-1.3.13机器分配

宣传一下算法提高课整理 <— CSDN个人主页&#xff1a;更好的阅读体验 <— 本题链接&#xff08;AcWing&#xff09; 点这里 题目描述 总公司拥有 M M M 台 相同 的高效设备&#xff0c;准备分给下属的 N N N 个分公司。 各分公司若获得这些设备&#xff0c;可以为…

Linux - 第24节 - Linux高级IO(三)

1.Reactor模式 1.1.Reactor模式的定义 Reactor反应器模式&#xff0c;也叫做分发者模式或通知者模式&#xff0c;是一种将就绪事件派发给对应服务处理程序的事件设计模式。 1.2.Reactor模式的角色构成 Reactor主要由以下五个角色构成&#xff1a; 角色解释Handle&#xff08;句…

LVS-DR负载群集的优势和部署实例(我们都会在各自喜欢的事情里变得可爱)

文章目录 一、DR模式数据包流向分析二、DR模式的特点三、DR模式中需要解决的问题问题1解决方式 问题2解决方式 四、LVS-DR部署实例1.配置NFS共享存储器2.配置节点web服务&#xff08;两台的配置相同&#xff09;3.配置LVS负载调度器 一、DR模式数据包流向分析 1.Client 客户端…

【Hello MySQL】数据库基础

目录 1. 什么是数据库 2. 主流数据库 3. MySQL的基本使用 3.1 MySQL安装 3.2 连接 MySQL 服务器 3.3 退出 MySQL 服务器 3.4 服务器&#xff0c;数据库&#xff0c;表关系 3.5 MySQL的配置 4. MySQL架构 5. SQL分类 6. 存储引擎 6.1 存储引擎 6.2 查看存储引擎 6.3 存储引擎对…

Vue.js 中的 $nextTick 方法是什么?有什么作用?

Vue.js 中的 $nextTick 方法是什么&#xff1f; 在 Vue.js 中&#xff0c;$nextTick 方法是一个非常有用的工具&#xff0c;它可以让我们在下一个 DOM 更新周期之前执行回调函数。这个方法可以用于很多场景&#xff0c;比如在 Vue 实例数据改变之后&#xff0c;立即获取更新后…

肠道重要菌属——Dorea菌,减肥过敏要重视它?

谷禾健康 认识 Dorea菌 Dorea菌属于厚壁菌门毛螺菌科&#xff0c;广泛存在于人体肠道内&#xff0c;谷禾数据显示该菌在人群的检出率超89%。该菌最早也是从人体粪便中分离出来。 “Dorea” 目前没有一个确定的译名&#xff0c;Dorea是以法国微生物学家 Joel Dor 的名字命名&…

进入流程化管理不再是奢望,开源快速开发框架助你梦想成真!

在数字化进程快速发展的今天&#xff0c;流程化管理是企业做强做大的重要一步。如何实现流程化管理&#xff1f;如何实现数字化发展目标&#xff1f;这些问题都是值得每一个企业深思的重要课题。开源快速开发框架是一种快速帮助企业提质增效的平台软件&#xff0c;可以让每一个…

使用gcc展示完整的编译过程(gcc预处理模式、编译模式、汇编模式、连接模式)

最近在了解 clang/llvm 的时候突然发现一件事&#xff1a;gcc是一个工具集合&#xff0c;包含了或者调用将程序源代码转换成可执行程序文件的所有工具&#xff0c;而不只是简单的编译器。这帮助我对“编译器”有了更深刻的理解&#xff0c;所以写下本文作为记录。 关于“编译器…

如何用Web服务组件IIS免费搭建站点,并实现外网远程访问?

作为一名程序猿&#xff0c;经常会有搭建网站的需求&#xff0c;或被朋友要求帮忙着搭建网站&#xff0c;但是如果将网站建设在个人电脑或公司的服务器上&#xff0c;面临的问题是&#xff0c;没有公网IP或屏蔽了外网的80端口&#xff0c;在外网环境下就无法直接内网的网站&…

chatgpt赋能python:将一行数变成列——Python简单实现

将一行数变成列——Python简单实现 在数据处理时&#xff0c;我们常常会遇到将一行的数据转换成列的情况&#xff0c;例如将多个数据在Excel表格中拆分为不同的列。这时候&#xff0c;Python可以帮助我们快速实现这个功能。 什么是Python&#xff1f; Python是一种高级&…

linux ubi文件系统加载失败“too large reserved_peds”

今天要升级linux根文件系统ubi&#xff0c;结果简单打包工作&#xff0c;就有一个始终不正确&#xff0c;花了不少时间&#xff0c;总算搞明白了。 我使用了两个打包脚本&#xff0c;脚本1是一个整个系统打包脚本&#xff0c;脚本2是一个专门给文件系统打包的脚本。 脚本1的部…

Vue框架和Axios实战:音乐播放器项目-歌手信息列表

Vue框架和Axios实战&#xff1a;音乐播放器项目-歌手信息列表 歌手信息一栏用于展示当前比较火热的歌手信息列表&#xff0c;首先我们创建静态热门歌手信息模型组件SingerList.vue&#xff0c;主要用于存放公共歌手列表信息&#xff0c;代码如下&#xff1a; 接着将歌手信息列表…

【前端 - HTML】第 5 课 - 表格标签

欢迎来到博主 Apeiron 的博客&#xff0c;祝您旅程愉快 &#xff01; 时止则止&#xff0c;时行则行。动静不失其时&#xff0c;其道光明。 目录 1、缘起 2、基本用法 3、表格结构标签 4、合并单元格 5、总结 1、缘起 在 HTML 中的表格标签 用于创建和展示数据表格。通过…

CAM, Grad-CAM, Grad-CAM++可视化CNN方式的代码实现和对比

当使用神经网络时&#xff0c;我们可以通过它的准确性来评估模型的性能&#xff0c;但是当涉及到计算机视觉问题时&#xff0c;不仅要有最好的准确性&#xff0c;还要有可解释性和对哪些特征/数据点有助于做出决策的理解。模型专注于正确的特征比模型的准确性更重要。 理解CNN…

【数据结构】排序篇

排序 一、排序的概念和应用1.1、排序的概念1.2、排序的应用1.3、常见的排序算法 二、插入排序2.1、直接插入排序2.2、希尔排序3.1.直接选择排序3.2、堆排序 四、交换排序4.1、冒泡排序4.2、快速排序4.2.1、hoare版本4.2.2、挖坑法4.2.3、前后指针版本4.2.4、快排非递归&#xf…

图结构的原理

引言 胡图图:“我成为电脑砖家(人们都在我吧上评论电脑配置).,按理说我应该开一家图图计算机研究科技公司…”! 于小美:“没错,图图应该开一家公司 来扩展你的专业知识” 何壮壮:“厉害是厉害 ,要不要大哥来帮帮你(至于钱,好说:月薪2万)…” 图图:“你狮子大开口! ,那你还是当…