ElasticSearch的数据存储及写入原理

news2024/11/24 19:30:43

数据存储

数据存储介绍

        Elasticsearch 是面向文档型数据库,一条数据在这里就是一个文档。 为了方便大家理解,我们将 Elasticsearch 里存储文档数据和关系型数据库 MySQL 存储数据的概念进行一个类比。

 注意:Types 的概念已经被逐渐弱化, Elasticsearch 6.X 中,一个 index 下已经只能包含一个type, Elasticsearch 7.X 中, Type 的概念已经被删除了。可以理解为一个索引就是一个数据集。

数据存储形式

{
    "_index": "shopping",
    "_type": "_doc",
    "_id": "1",
    "_version": 1,
    "_seq_no": 1,
    "_primary_term": 1,
    "found": true,
    "_source": {
        "title": "小米手机",
        "category": "小米",
        "images": "http://www.gulixueyuan.com/xm.jpg",
        "price": 3999
    }
}

注意:id可以自己指定,可以理解为Mysql中的主键,不指定会自动生成。

数据写入原理

写入流程

  1. 数据先写入内存 buffer,在 buffer 里的时候数据是搜索不到的;同时将数据写入 translog 日志文件。
  2. 每隔 1 秒钟或者buffer 快满了,es 将 buffer 中的数据写入一个新的 segment file ,每秒钟会产生一个新的segment file ,这个 segment file 中就存储最近 1 秒内 buffer 中写入的数据

  3. 将内存segment file刷写到系统缓存(os cache),此时可以数据可以被搜索到(refresh),并且会清空buffer,translog 保留

  4. 随着这个过程推进,translog 会变得越来越大。当 translog 足够大或者到达30分钟的时候,就会触发 commit 操作。

  5. commit 操作发生第一步,就是将 buffer 中现有数据 refresh 到 os cache 中去,清空 buffer。然后,将一个 commit point 写入磁盘文件,里面标识着这个 commit point 对应的所有 segment file ,同时强行将 os cache 中目前所有的数据都 fsync 到磁盘文件中去。最后清空现有 translog 日志文件,重启一个 translog,此时 commit 操作完成。

  6. 当磁盘中的segment文件太多的时候,es会自动定期的将相思的segment合并成一个大的segment,并且会根据 .del 文件,来实现物理删除

总结

        数据先写入内存 buffer,然后每隔 1s,将数据 refresh 到 os cache,到了 os cache 数据就能被搜索到(所以我们说es 是准实时的, es 从写入到能被搜索到,中间有 1s 的延迟)。每隔 5s,将数据写入 translog 文件(这样如果机器宕机,内存数据全没,最多会有 5s 的数据丢失),translog 大到一定程度,或者默认每隔 30mins,会触发 commit 操作,将缓冲区的数据都 flush 到 segment file 磁盘文件中。

translog日志文件的作用

        在执行 commit 操作之前,数据要么是停留在 buffer 中,要么是停留在 os cache 中,无论是 buffer 还是 os cache 都是内存,一旦这台机器死了,内存中的数据就全丢了。所以需要将数据对应的操作写入一个专门的日志文件 translog 中,一旦此时机器宕机重启的时候,es 会自动读取 translog 日志文件中的数据,恢复到内存 buffer 和 os cache 中去。

注意:translog 其实也是先写入 os cache 的,默认每隔 5 秒刷一次到磁盘中去,所以默认情况下,可能有 5 秒的数据会仅仅停留在 buffer 或者 translog 文件的 os cache 中,如果此时机器挂了,会丢失 5 秒钟的数据。但是这样性能比较好,最多丢 5 秒的数据。也可以将 translog 设置成每次写操作必须是直接 fsync 到磁盘,但是性能会差很多。

refresh操作和flush操作的对比

refresh操作:数据从Segment File到os cache这个过程被称为refresh。

flush操作:es默认每隔30分钟会将os cache中的数据刷入磁盘同时清空translog日志文件,因此此时内存中的segments已经写入到磁盘中,就不需要translog来保障数据安全了,这个过程叫flush。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/89486.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

上海亚商投顾:沪指全天窄幅震荡 大消费板块再掀涨停潮

上海亚商投顾前言:无惧大盘大跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪沪指全天窄幅震荡,创业板指高开低走。医药股大幅分化,新华制药6连板,股价创出历…

软件测试丨单元测试框架怎么搭?新版的Junit5有哪些神奇之处?

单元测试(unit testing),是指对软件中的最小可测试单元进行检查和验证。 总的来说,单元就是人为规定的最小的被测功能模块。单元测试是在软件开发过程中要进行的最低级别的测试活动,软件的独立单元将在与程序的其他部…

12306接口采集

铁路客户服务中心https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date2022-12-22&leftTicketDTO.from_stationCQW&leftTicketDTO.to_stationETW&purpose_codesADULT请求头 Accept: */* Accept-Language: zh-CN,zh;q0.9 Cache-Control: no-cach…

高并发编程之JUC 三大辅助类和读写锁

7 JUC 三大辅助类 JUC 中提供了三种常用的辅助类,通过这些辅助类可以很好的解决线程数量过 多时 Lock 锁的频繁操作。这三种辅助类为: • CountDownLatch: 减少计数• CyclicBarrier: 循环栅栏• Semaphore: 信号灯 下面我们分别进行详细的介绍和学习…

JavaScript基础之循环

1、循环 1.1、for循环 语法结构: for(初始化变量; 条件表达式; 操作表达式 ){//循环体 } 名称作用初始化变量通常被用于初始化一个计数器,该表达式可以使用 var 关键字声明新的变量,这个变量帮我们来记录次数。条件表达式用于确定每一次循…

Java on Azure Tooling 11月更新|远程调试支持与 App Settings 增强

作者:Jialuo Gan Program Manager, Developer Division at Microsoft 排版:Alan Wang 大家好,欢迎回到11月的 Java on Azure Tooling 的更新。在这次更新中,我们将引入对 Azure Spring Apps 和 Azure Function Apps 的远程调试支持…

MySql补充知识点

这里写自定义目录标题1、sql语句查询表结构信息(1)查询某库某表的字段、数据类型、字段注释(2)查询某库的所有表名、表注释(3)查询库下所有表名、表注释、所有字段名、数据类型、字段注释(4)查询某个表在哪个库2、MySQL操作符(1)Union(2)having、on、where的区别having、whereo…

虚拟化与云计算技术硬核内幕

这种将物理硬件分配给多个使用者的技术,叫做“时分复用”。计算机操作系统的任务调度模块,实质上提供的就是将CPU以“时分复用”的方式给不同任务使用的机制。 那么,如果在虚拟化系统中,也利用时分复用机制,将一个物理…

Pspice——Source用法的汇总

信号源(Source)的用法 库所在位置:…CAPTURE\LIBRARY\PSPICE\SOURCE.OLB 模拟信号源列表 信号源 类型 用法 适用场景 VAC/IAC 交流 电压源/电流源 VDC/IDC 直流 电压源/电流源 直流特性分析、瞬态分析 VEXP/IEXP 指数 电压…

MVCC 多版本并发控制

Multi-Version Concurrency Control 多版本并发控制,MVCC 是一种并发控制的方法, 一般在数据库管理系统中,实现对数据库的并发访问;在编程语言中实现事务内存。 实现原理 放在中间件的用户进程通过tcp/ip连接到服务器上 服务器给…

ssm+Vue计算机毕业设计校园学生管理系统(程序+LW文档)

ssmVue计算机毕业设计校园学生管理系统(程序LW文档) 项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技…

FENeRF: Face Editing in Neural Radiance Fields翻译

论文地址 代码地址 摘要: 以前的肖像生成方法大致分为两类:2D GAN和3D感知GAN。2D GAN可以生成高保真的肖像,但具有低的视觉一致性。3D感知GAN方法可以保持视觉一致性,但其生成的图像不具有局部可编辑性。为了克服这些限制,我们…

Java Timer(定时器)

概述: Timer是一种定时器工具,用来在一个后台线程计划执行指定任务。它可以安排任务“执行一次”或者定期“执行多次”。 然而在实际的开发过程当中,经常需要一些周期性的操作,比如每5分钟执行某一操作等。对于这…

【AI理论学习】Graph Embedding理论介绍及5种算法演示(DeepWalk)

Graph Embedding理论介绍及5种算法演示1.图数据结构2.图表示学习3.Graph Embedding3.1 DeepWalk算法DeepWalk算法理论DeepWalk 核心代码参考资料1.图数据结构 在现实世界中,网络只是互连节点的集合。为了表示这种类型的网络,我们需要一个与之相似的数据…

SDV进入新阶段,如何让智能汽车应用开发变得更容易?

软件定义汽车加速到来,基于域控制器架构的车型大规模量产,从域控架构到中央集成式架构,跨域融合已经成为明显趋势。 高工智能汽车研究院发布《2023-2025年智能网联产业趋势报告》显示,今年1-10月,智驾域控制器前装搭载…

【Kafka】Kafka 简介 || CentOS7 安装 Kafka || SpringBoot整合 Kafka 方式

最近的精神状态真的不是很好,刚刚脱离🐏羊的苦海,收获了很多吧,任何经历都是我们成长的关键。本文是我 Kafka 入门部分的一个笔记,大家如果有有疑问的地方可以评论区或者私信我,我看见了都会回复的。最后&a…

安卓玩机搞机技巧综合资源-----手机隐藏拍照录像 取证软件 寻找隐藏摄像头 【十六】

接上篇 安卓玩机搞机技巧综合资源------如何提取手机分区 小米机型代码分享等等 【一】 安卓玩机搞机技巧综合资源------开机英文提示解决dm-verity corruption your device is corrupt. 设备内部报错 AB分区等等【二】 安卓玩机搞机技巧综合资源------EROFS分区格式 小米红…

计算机网络学习笔记(V):传输层

目录 1 传输层概述 1.1 功能 1.2 两种协议 1.TCP 2.UDP协议 1.3 传输层的寻址与端口 2 UDP协议 2.1 特点 2.2 首部格式 2.3 UDP检验 3 TCP协议 3.1 TCP协议 1.特点 2.报文段首部格式 3.2 TCP连接管理 1.连接建立 2.TCP连接释放 3.3 TCP可靠传输 1.校验 2.序…

java+MySQL 基于ssm的视频播放网站

随着现代视频播放网站管理的快速发展,可以说视频播放网站管理已经逐渐成为现代视频播放网站管理过程中最为重要的部分之一。但是一直以来我国传统的视频播放网站管理并没有建立一套完善的行之有效的视频播放网站管理系统,传统的视频播放网站管理已经无法适应高速发展,无论是从效…

中小型水库雨水情测报平台有哪些功能?水库雨水情数据孪生安全监测系统

平升电子中小型水库雨水情测报平台/雨水情监测及视频监控解决方案/水库雨水情数据孪生安全监测系统统辅助水利管理部门实现水库雨水情信息“全要素、全量程、全覆盖”自动测报。系统具备水库水位、雨量、现场图像/视频等水文信息采集、传输、处理及预警广播等功能,有…