【面试题】数据底层原理:Elasticsearch写入流程解析

news2025/1/12 2:43:14

在这里插入图片描述

前言:本篇博客将介绍Elasticsearch的数据底层原理,涉及数据写入的过程以及相关概念。我们将深入探讨buffer、translog、refresh、commit、flush和merge等核心概念,帮助您更好地理解Elasticsearch的数据存储机制。
在这里插入图片描述

写入数据的基本过程

在这里插入图片描述

Elasticsearch是一个分布式搜索引擎,数据写入的基本过程如下:

  1. 数据首先被写入buffer,此时数据在buffer中是无法被搜索到的。同时,数据也会被写入translog日志文件,以实现数据的持久化。

  2. 当buffer快要写满或经过一定时间后,会执行refresh操作,将buffer中的数据刷新到一个新的segment文件中。这个刷新的过程实际上是将数据先写入操作系统缓存(os cache)中。每隔1秒钟,Elasticsearch将buffer中的数据写入一个新的segment文件,因此每秒钟会产生一个新的segment文件。如果buffer中没有数据,则不会执行refresh操作,仅会创建一个空的segment文件。只有当数据被刷新到os cache中,才能被搜索到。

  3. 一旦数据进入os cache,该segment文件中的数据就可以被搜索引擎提供给外部使用。

  4. 以上过程会不断重复进行,新的数据不断进入buffer和translog,并被写入一个又一个新的segment文件。每次refresh操作完成后,buffer会被清空,而translog保留。随着数据写入的推进,translog的大小会越来越大。当translog达到一定长度时,会触发commit操作。

  5. 在commit操作中,首先将buffer中的现有数据刷新到os cache中,然后清空buffer。

  6. 接下来,将一个commit point写入磁盘文件,其中包含了该commit point对应的所有segment文件。

  7. 最后,强制将os cache中的所有数据通过fsync操作刷写到磁盘文件中。
    在这里插入图片描述

Translog日志文件的作用

Translog日志文件的作用是在执行commit操作之前,将数据写入专门的日志文件。无论数据是停留在buffer还是os cache中,都是存储在内存中的。一旦机器宕机,内存中的数据将会丢失。

为了防止数据丢失,需要将数据对应的操作写入translog日志文件。在机器重启时,Elasticsearch会自动读取translog日志文件中的数据,并恢复到内存的buffer和os cache中。
在这里插入图片描述

Commit操作和Flush操作

Commit操作是指:

  1. 写入commit point,用于标识该commit point所对应的所有segment文件。
  2. 将os cache中的数据通过fsync操作强制刷写到磁盘文件。
  3. 清空translog日志文件。

Flush操作是对应commit操作的全过程。通过手动执行Flush操作,可以将os cache中的数据通过fsync操作强制刷写到磁盘文件中,并记录一个commit point,同时清空translog日志文件。
在这里插入图片描述

删除操作和更新操作

  • 删除操作:在执行commit操作时,会生成一个.del文件,其中标识某个文档为已删除状态。搜索时,根据.del文件可以知道该文档已被删除。
  • 更新操作:将原始文档标识为已删除状态,然后写入新的数据。
    在这里插入图片描述

Segment文件的管理与Merge操作

  • 每次refresh操作会产生一个新的segment文件,因此默认情况下,每秒钟会创建一个新的segment文件。随着时间推移,segment文件会越来越多。为了优化性能,Elasticsearch会定期执行merge操作。

  • Merge操作将多个segment文件合并为一个,并压缩数据以减少磁盘空间的使用。合并后的segment文件可以提高搜索性能,减少磁盘的随机访问。

  • Merge操作分为两个阶段:合并(Merge)和删除(Delete)。

    • 合并阶段:将多个segment文件合并为一个新的segment文件。在合并的过程中,相同文档ID的数据将会被合并为最新版本,删除标记将会被应用。合并操作会减少segment文件的数量,提高搜索性能。

    • 删除阶段:在合并后的segment文件中,已被标记为删除的数据将会被真正地删除,释放磁盘空间。

  • Merge操作是一个耗时的过程,会占用CPU和磁盘IO资源。为了避免对搜索性能产生负面影响,Elasticsearch会在后台异步执行Merge操作。

  • Merge操作的频率和合并策略可以通过配置进行调整,以满足不同场景的需求。

这就是Elasticsearch数据写入的底层原理。通过理解这些核心概念,您可以更好地管理和优化Elasticsearch集群的性能和存储空间使用。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1548407.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【牛客】【刷题节】美团2024届秋招笔试第一场编程真题

1.小美的外卖订单【简单题】 题意理解: 这道题是简单题,主要是一个逻辑实现和判断的问题。但是简单题一般喜欢加一点小障碍,所以读题的时候就要比较注意一些约束条件。就比如这道题:过了15/20个测试用例,出现error, 当…

蓝桥杯小白月赛3.23

题目描述&#xff1a; AC代码&#xff1a; #include <iostream> #include<cstring> #include<algorithm>using namespace std;const int N 2e510; string str[N]; //写上&会速度更快一些 bool cmp(const string &s1,const string &s2) {//例…

金色传说:SAP-PP-CO01/CO02生产订单释放时增强:检查并显示下层组件在不合格库存地库存

文章目录 需求场景一、实现的效果二、实现步骤1.创建自建表2.增强代码 三、重磅福利 需求场景 计划员释放订单时,如果下层组件在不合格库存中有库存时,应先确认不合格库存地库存是否可用,已避免重复生产和库存积压. 因此,提出此需求: 在生产订单下达(释放)时,要提示下层组件在…

七段码(蓝桥杯)

文章目录 七段码题目描述答案&#xff1a;80分析编程求解&#xff1a;有多种方法方法一&#xff1a;状态压缩枚举构图&#xff08;以二极管为顶点&#xff09;DFS判断连通代码方法二&#xff1a;bfs 七段码 题目描述 小蓝要用七段码数码管来表示一种特殊的文字。 上图给出了…

python和Vue开发的RBAC用户角色权限管理系统

后端框架&#xff1a;python的FastAPI作为后端服务和python-jose作为JWT认证 前端框架&#xff1a;Vue3构建页面和Vue Router作为路由管理&#xff0c;Pinia作为数据存储&#xff0c;Vite作为打包工具 可以实现菜单控制和路由控制&#xff0c;页面里面有按钮权限控制&#xf…

css预处理器scss的使用如何全局引入

目录 scss 基本功能 1、嵌套 2、变量 $ 3、mixin 和 include 4、extend 5、import scss 在项目中的使用 1、存放 scss 文件 2、引入 variables 和 mixins 2-1、局部引入 2-2、全局引入 3、入口文件中引入其他文件 项目中使用 css 预处理器&#xff0c;可以提高 cs…

输入与输出

输入(Scanner类) Scanner是java5的新特性&#xff0c;在java.util包里&#xff0c;可以完成用户输入。步骤&#xff1a; 导入java.util包&#xff1b;构造Scanner对象&#xff0c;参数为u标准输入流System.in&#xff1b;使用next()方法系列接收数据 nextBoolean()接收一个布…

P6学习:解析P6 WBS-工作分解结构的原则

前言 WBS&#xff0c;及Work Breakdown Structure&#xff0c;中文工作分解结构&#xff0c;是总结工作阶段的项目的层次结构分解。 WBS 就像项目的大纲——它将项目分解为特定的可交付成果或阶段。 然后将活动添加到这些层中以创建项目计划的时间表。 WBS 使用流程会有所不…

【SpringBoot整合系列】SpringBoot3.x整合Swagger

目录 产生背景官方解释&#xff1a;作用SpringBoot3整合Swagger注意事项swagger3 常用注解SpringBoot3.x整合Swagger1.创建工程(jdk:17,boot:3.2.4)2.引入pom依赖3.application.yml添加配置4.添加swagger3.0配置5.控制器层(Controller)6.模型层(Model)7.启动并测试【Get请求接口…

任务管理工具Trello体验如何?一文揭秘

Trello是一款高效的协作与工作管理应用&#xff0c;这里我们将详细介绍Trello的功能、特点、优劣势、价格、定价、发展历程、使用场景以及使用技巧等等。 一、Trello 是什么 Trello是一款高效的协作与工作管理应用&#xff0c;设计用于跟踪团队项目、凸显当前活动任务、指派责…

IHO S-100系列产品标准

1 什么是S-100? S-100《通用海道测量数据模型》是国际海道测量组织(IHO)推出的新一代海上空间地理信息国际标准,旨在克服传统S-57数字海道测量数据传输标准的局限。这一标准不仅兼容了更为丰富的数据类型,如影像与栅格数据、时变数据等,还摒弃了固定的编码格式要求,采用…

推荐5款测试数据生成工具!

一个成功、有效的测试策略由下面几个基本部分组成&#xff1a;完整的测试覆盖率、最小化的环境影响和健壮的测试数据。 其中测试数据尤其重要&#xff0c;其质量直接关系到测试的有效性。可以把测试数据看作是保持测试引擎运行的燃料——高质量的测试数据有助于确保测试执行的…

苹果App Store上架工具介绍

文章目录 摘要引言正文1. Xcode2. [appuploder](https://www.applicationloader.net/)3. [克魔助手](https://keymob.com/) 4.[ipa guard](https://www.ipaguard.com/)总结参考资料 摘要 苹果App Store作为iOS应用程序的主要分发渠道&#xff0c;上架应用程序需要遵守规定和通…

2024消息预知在线客服系统

新增消息预知&#xff0c;消息撤回&#xff0c;消息已读未读&#xff0c; 修复需要刷新才能收到消息 修复客户来源地址 修复消息提示音 修复桌面推送提醒 要求服务器环境&#xff1a; 宝塔面板 &#xff0c;Nginx1.16-1.18&#xff0c;7.2.23<php<7.3&#xff08;因…

Python神器!WEB自动化测试集成工具 DrissionPage

案例 跟踪商品价格&#xff0c;降价自动推送消息到微信 咱买不起还等不起吗&#xff1f; from DrissionPage import * import re from time import sleep import csv import os import datetime#写入时间 p MixPage() p.get(http://xxxxxxx) #快快买网址 p.to_ifram…

Netty学习——源码篇7 Pipeline的事件传播机制1 备份

上篇&#xff1a;Netty学习——源码篇6 Pipeline设计原理 已经知道AbstractChannelHandlerContext中有Inbound和Outbound两个boolean变量&#xff0c;分别用于识别Context所对应的Handler的类型。 1、Inbound为true时&#xff0c;表示其对应的ChannelHandler是ChannelInboundHa…

【深入日志打印】log.error(“你好{}“, “世界“, e);只有一个占位符是否会打印后面多出的参数呢?(详细跟进源码讲解调试分析)

文章目录 【深入日志打印】log.error(“你好{}“, “世界“, e)&#xff1b;只有一个占位符是否会打印后面多出的参数呢&#xff1f;&#xff08;详细跟进源码讲解调试分析&#xff09;测试代码执行结果调试分析其他样例探讨 【深入日志打印】log.error(“你好{}“, “世界“, …

【电能管理】电力物联网仪表/多功能电表/无线计量/多回路计量/分项计量/终端感知设备/全电量参数测量/正反向有功无功测量

什么是物联网电表&#xff01;&#xff01;&#xff01; 安科瑞薛瑶瑶18701709087 物联网电表是智能电表的一种&#xff0c;可以用无线通信方式来操控&#xff0c;除了拥有电度表的有点以外&#xff0c;还可以把硬件和软件联合起来发挥更大的作用。 物联网电表主要用于计量低…

UOS、Linux下的redis的详细部署流程(适用于内网)

提示&#xff1a;适用于Linux以及UOS等内外网系统服务器部署。 文章目录 一.上传离线包二.部署基本环境三.解压并安装redis四.后台运行redis五.uos系统可能遇到的问题六.总结 一.上传离线包 1.自己去Redis官网下载适配自己部署系统的redis安装包。 2.通过文件传输工具&#xf…

微信平台会员卡应用源码系统 带完整的安装代码包以及搭建教程

在移动互联网时代&#xff0c;消费者对于便捷、个性化的服务需求日益增长。微信会员卡作为一种创新的营销方式&#xff0c;不仅能为消费者提供便捷的会员服务&#xff0c;还能帮助商家更好地管理会员信息&#xff0c;提升营销效果。然而&#xff0c;许多商家由于缺乏技术支持&a…