一文轻松图解搞懂Elasticsearch原理!

news2024/12/29 10:00:27

ES 的集群模式和 kafka 很像,kafka 又和 redis 的集群模式很像。总之就是相互借鉴!

不管你用没用过 ES,今天我们一起聊聊它。就当扩展大家的知识广度了!

认识倒排索引

「正排索引 VS 倒排索引:」

正排索引 VS 倒排索引

「倒排索引包括两个部分:」

  • 单词词典(Term Dictionary):记录所有文档的单词,记录单词到倒排列表的关联关系

    单词词典一般比较大,可以通过 B+ 树 或 哈希拉链法实现,以满足高性能的插入与查询

  • 倒排列表(Posting List):记录了单词对应的文档结合,由倒排索引项(Posting)组成:

    • 文档 ID

    • 词频 TF:该单词在文档中出现的次数,用于相关性评分

    • 位置(Position):单词在文档中分词的位置。用于语句搜索(Phrase Query

    • 偏移(Offset):记录单词的开始结束位置,实现高亮显示

倒排索引

ElasticSearch 的倒排索引:」

  • ElasticSearch 的 JSON 文档中的每个字段,都有自己的倒排索引

  • 可以针对某些字段不做索引

    • 优点:节省存储空间

    • 缺点:字段无法被搜索

分布式架构原理

「分片 shard:一个索引可以拆分成多个 shard 分片。」

  • 主分片 primary shard:每个分片都有一个主分片。

  • 备份分片 replica shard:主分片写入数据后,会将数据同步给其他备份分片。

将 ES 集群部署在 3个 机器上(esnode1esnode2esnode3):

「创建个索引,分片为 3 个,副本数设置为 1:」

PUT /sku_index/_settings
{
    "settings": {
        "number_of_shards" : 3,
        "number_of_replicas": 1
    }
}

响应:
{
  "acknowledged" : true
}

分布式架构原理

ES 集群中有多个节点,会自动选举一个节点为 master 节点,如上图的 esnode2节点:」

  • 主节点(master):管理工作,维护索引元数据、负责切换主分片和备份分片身份等。

  • 从节点(node):数据存储。

「集群中某节点宕机:」

  • 主节点宕机:会重新选举一个节点为 主节点。

  • 从节点宕机:由 主节点,将宕机节点上的 主分片身份转移到其他机器上的 备份分片上。

写入数据的工作原理

「写单个文档所需的步骤:」

  1. 客户端选择一个 Node 发送请求,那么这个 Node 就称为 「协调节点(Coorinating Node)」

  2. Node 使用文档 ID 来确定文档属于分片 0,通过集群状态中的内容路由表信息获知分片0 的主分片在 Node1 上,因此将请求转发到 Node1 上。

  3. Node1 上的主分片执行写操作。如果写入成功,则将请求并行转发到 Node3 的副分片上,等待返回结果。

    当所有的副分片都报告成功,Node1 将向 Node (协调节点)报告成功。

写入数据的工作原理

Tips:客户端收到成功响应时,意味着写操作已经在主分片和所有副分片都执行完成。」

写数据底层原理

写数据底层原理

「写操作可分为 3 个主要操作:」

  1. **写入新文档:**这时候搜索,是搜索不到。

    • 将数据写入内存

    • 将这操作写入 translog 文件中

  2. **refresh 操作:**默认每隔 1s ,将内存中的文档写入文件系统缓存(filesystem cache)构成一个 segment

    这时候搜索,可以搜索到数据。

    • 1s 时间:ES 是近实时搜索,即数据写入 1s后可以搜索到。」

  3. **flush 操作:**默认每隔 30 分钟 或者 translog 文件 512MB ,将文件系统缓存中的 segment 写入磁盘,并将 translog 删除。

translog 文件:」来记录两次 flush(fsync) 之间所有的操作,当机器从故障中恢复或者重启,可以根据此还原

  • translog 是文件,存在于内存中,如果掉电一样会丢失。

  • 「默认每隔 5s 刷一次到磁盘中」

读取数据的工作原理

「读取文档所需的步骤:」

  1. 客户端选择一个 Node 发送请求,那么这个 Node 就称为 「协调节点(Coorinating Node)」

  2. Node 使用文档 ID 来确定文档属于分片 0,通过集群状态中的内容路由表信息获知分片0 有 2 个副本数据(一主一副),会使用随机轮询算法选择出一个分片,这里将请求转发到 Node1

  3. Node1 将文档返回给 NodeNode 将文档返回给客户端。

读取数据的工作原理

「在读取时,文档可能已经存在于主分片上,但还没有复制到副分片,这种情况下:」

  • 读请求命中副分片时,可能会报告文档不存在。

  • 读请求命中主分片时,可能成功返回文档。

搜索工作原理

「搜索数据过程:」

  1. 客户端选择一个 Node 发送请求,那么这个 Node 就称为 「协调节点(Coorinating Node)」

  2. Node 协调节点将搜索请求转发到所有的 分片(shard):主分片 或 副分片,都可以。

  3. query 阶段」:每个分片 shard 将自己的搜索结果(文档 ID)返回给协调节点,由协调节点进行数据的合并、排序、分页等操作,产出最终结果。

  4. fetch 阶段」:由协调节点根据 文档 ID 去各个节点上拉取实际的文档数据。

搜索工作原理

**举个栗子:**有 3 个分片,查询返回前 10 个匹配度最高的文档

  1. 每个分片都查询出当前分片的 TOP 10 数据

  2. 「协调节点」 将 3 * 10 = 30 的结果再次排序,返回最终 TOP 10 的结果。

删除/更新数据底层原理

  • 「删除操作」commit 的时候会生成一个 .del 文件,里面将某个 doc标识为 deleted 状态,那么搜索的时候根据 .del 文件就知道这个 doc 是否被删除了。

  • 「更新操作」:就是将原来的 doc 标识为 deleted 状态,然后新写入一条数据。

「底层逻辑是:」

  • Index Buffer 每次 refresh 操作,就会产生一个 segment file。(默认情况:1秒1次)

  • 定制执行 merge 操作:将多个 segment file 合并成一个,同时将标识为 deleted 的 doc 「物理删除」,将新的 segment file 写入磁盘,最后打上 commit point 标识所有新的 segment file

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/113364.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【PyTorch深度学习项目实战100例】—— 基于FastText实现情感二分类任务 | 第78例

前言 大家好,我是阿光。 本专栏整理了《PyTorch深度学习项目实战100例》,内包含了各种不同的深度学习项目,包含项目原理以及源码,每一个项目实例都附带有完整的代码+数据集。 正在更新中~ ✨ 🚨 我的项目环境: 平台:Windows10语言环境:python3.7编译器:PyCharmPy…

【Pandas入门教程】如何重塑表格布局

如何重塑表格布局 来源:Pandas官网:https://pandas.pydata.org/docs/getting_started/intro_tutorials/index.html 笔记托管:https://gitee.com/DingJiaxiong/machine-learning-study 文章目录如何重塑表格布局导包数据准备【1】对表行进行排…

3.11.1、虚拟局域网 VLAN 概述

以太网交换机工作在数据链路层(也包括物理层) 使用一个或多个以太网交换机互连起来的交换式以太网,其所有站点都属于同一个广播域。 随着交换式以太网规模的扩大,广播域相应扩大。 巨大的广播域会带来很多弊端: 广播风暴难以管理和维护潜在…

LVGL学习笔记2 - 对象

目录 1. 创建对象 2. 设置大小 3. 设置位置 4. 设置对齐方式 5. 对象的父子关系 6. 其他 前面的例子中,一个矩形创建都是用到obj的函数,obj即是指对象。LVGL的基本要素是对象,实现了屏幕上组件的基本属性,包括大小、坐标、父…

SQLite数据库-学生管理系统(2.0)

SQLite数据库-学生管理系统 1.要求 布局文件 --------View层Activity文件---------Controller层Helper文件:建立数据库和表,版本更新Dao层:对数据库表中数据增删改查操作Entity:数据库在项目中的类,主要用于定义与数据…

短视频创业:大部分人都误解了豆荚的作用,掌握正确方法你就悟了

短视频,豆荚是避不过的功能,那么豆荚的作用和要不要投豆荚呢? 对于一般人来说,可能会觉得那投豆荚就是向买粉丝、买播放量、买数据的这么一个付费工具 对于一个专业的短视频运营来说,它其实是一个撬动自然流量的工具…

GROMACS模拟分析-自由能形貌图的绘制

自由能形貌(free energy landscape,FEL)表征了模拟过程中蛋白质的自由能变化。自由能形貌图一般通过两个描述体系特征的量来进行绘制,例如RMSD和Rg,也有文献中用主成分分析PC1和PC2绘制。本文以RMSD和Rg两个特征量绘制…

C++ 实现字符串查找 KMP算法

前言 众所周知,字符串查找的应用范围非常广,网页上有各式各样的浏览器搜索,再到编程需要的vsCode或vsStudio都自带了搜索功能;一个查找算法的优劣可以直接影响用户的搜索体验如何但鉴于暴力搜索算法的O(m * n)复杂度,…

精选测试面试题

一、Web自动化测试 1.Selenium中hidden或者是display = none的元素是否可以定位到? 不能,可以写JavaScript将标签中的hidden先改为0,再定位元素 2.Selenium中如何保证操作元素的成功率?也就是说如何保证我点击的元素一定是可以…

图文并茂的介绍用word生成一个很智能的目录

文章目录前期准备设置各级目录的字体样式准备一个新的页面(装目录)大工告成!作为一名程序员,写代码自然是我们的强项,除了写写代码使用计算机的能力也渐渐成为了考察我们的指标,今天我们介绍一个办公小技巧…

【图神经网络】Pytorch图神经网络库——PyG异构图学习

PyG异构图学习举个例子创建异构图Utility函数异构图Transformations创建异构图神经网络自动转换GNN模型使用异构卷积包装器部署现有的异构算子异构图采样参考资料大量真实世界数据集存储为异构图,这促使Pytorch Geometric(PyG)中引入专门的功…

Java项目:Springboot实现的一个简单博客管理系统

作者主页:源码空间站2022 简介:Java领域优质创作者、Java项目、学习资料、技术互助 文末获取源码 项目介绍 本项目为前后台管理系统,包括博主与游客两种角色; 博主角色包含以下功能: 博主登录,发博客,博主可以删除博客…

使用yolov5 v7.0进行实例分割

1. 介绍 U版yolov5最新推出了v7.0版本,新增了基于yolov5进行实例分割的代码。作者提到yolov5 v7.0实现的实例分割是超越了所有的SOTA模型的效果,是目前为止速度和精度最高的。 2. 代码的使用 2.1 Setup 克隆GitHub仓库,安装依赖项,检查PyTorch和GPU。 git clone http…

GEO芯片数据分析更新(补富集分析与WGCNA)

GEO数据挖掘,表达芯片分析 举例:王同学近期拟通过生物信息学相关软件与数据库来探讨女性非抽烟者的非小细胞肺癌预后相关的显著性基因及潜在的治疗靶点,他在NCBI上查询到了1套芯片数据GSE19804。请帮助他完成该项目的设计与分析。 上一篇博…

Linux系统基础——内核初始化

内核初始化 特此说明: 刘超的趣谈linux操作系统是比较重要的参考资料,本文大部分内容和所有图片来源于这个专栏。 1 背景知识 BootLoader阶段后,cpu从实模式转换成保护模式。有了更强的寻址能力后,内核也已经加载到内存了,系统内…

2. 做一个极简 UI 库之Toast 组件

效果 API 设计 先设计好了 API 写起来代码才不会犯迷糊 Toast(message: string; otherParams?: ToastParams): ToastReturninterface ToastParams {time?: number;appendTo?: string | HTMLElement;dangerouslyUseHTMLString?: boolean; }interface ToastReturn {close():v…

Node.js - Express

文章目录目标一、初识 Express1、Express 简介(1)什么是 Express(2)进一步理解 Express(3)Express 能做什么2、Express 的基本使用(1)安装(2)创建基本的 Web …

认识 Fuchsia OS

认识 Fuchsia OS 1 说明背景 1.1 基本信息 开发者: Google编程语言: C、C、Rust、Go、Python、Dart内核: Zircon运作状态: 当前源码模式: 开放源代码初始版本: 2016年8月15日支持的语言: 英语支持平台: ARM64、X86-64内核类别: 微内核 基于能力 实时操作系统许可证: BSD 3 c…

node.js+uni计算机毕设项目高校迎新管理小程序(程序+小程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流 项目运行 环境配置: Node.js Vscode Mysql5.7 HBuilderXNavicat11VueExpress。 项目技术: Express框架 Node.js Vue 等等组成,B/S模式 Vscode管理前后端分离等…

【2023 AR元宇宙过圣诞!】《Merry Meta Christmas》

啥也不说了,先看最终效果 3D场景资源、EasyAR_Plugin、图片与安卓App资源均已上传,点击该处下载 一、前言 圣诞节的真正含义是为了纪念耶稣诞生,象征着团圆美满,万物复苏,日子变得愈发美好 2021年是元宇宙的元年&…