Elasticsearch 入门到精通-Elasticsearch核心倒排索引数据结构

news2024/12/29 11:33:14

Elasticsearch 简介

Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。Elasticsearch 建立在全文搜索引擎 Apache Lucene™ 基础上,通过 Lucene 的倒排索引技术实现比关系型数据库更快的过滤,从而很方便的使大量数据具有搜索、分析和探索的能力。

毫无疑问,Elasticsearch的底层核心是倒排索引。 Elasticsearch通过扩展服务器集群的方式,将数据以文档的形式,FST压缩的方式,分布式实时存储;同时为文件每一个字段添加倒排索引,通过倒排索引以及skip list 和 bitset 三种数据结构实现实时分布式分析和快速搜索的功能。

Elasticsearch 数据存储

先说Elasticsearch的文件存储,Elasticsearch是面向文档型数据库,一条数据在这里就是一个文档,用JSON作为文档序列化的格式,比如下面这条学生数据:

{
    "stuName":"Rose",
    "age":18,
    "gender":"Male",
    "resume":"I am gooding at studying",
    "tuition":26800.00,
    "hobbies":["sleep","games"],
    "address":{
        "province":"JiangSu",
        "city":"NanJing",
        "district":"YuHua"
    }
}

如果用传统的关系型数据库比如说mysql来存储上述这条数据时,我们能够想到的是去建立一张student表,表中有stuName,age,tuition,hobbies,address字段等,而在Elasticsearch里这就是一个记录student类型的文档,所有的字段类型都存在于这个文档的索引里。这里有一份简易的将Elasticsearch和关系型数据术语对照表:

Elasticsearch和传统的数据库一样,索引、类型、文档、字段都是一对多的关系。Elasticsearch数据交互可以通过HTTP的Restful请求方式直接请求,也可以通过java API请求。值得注意的是,Elasticsearch主要用来查询,因为其每一个字段都有倒排索引这种需要大量的储存空间,我刚开始接触Elasticsearch的事实增删改,如果不实用shell脚本的话,要一条一条的执行,增删改的效率很低,不如传统的数据库。事实上,现在市场的主流就是Elasticsearch与传统数据库公用,Elasticsearch用来查询,传统的用来增删改,Elasticsearch连接数据库和客户端搜索引擎的桥梁。

倒排索引

Elasticsearch倒排索引的精髓:

倒排索引压缩储存空间,减少磁盘读取次数;严格储存结构,节省搜索时间。

简单的来说,Elasticsearch将磁盘里的东西尽量搬进内存,减少磁盘随机读取次数(同时也利用磁盘顺序读特性),结合各种奇技淫巧的压缩算法,用极其苛刻的态度使用内存。

Elasticsearch能够通过倒排索引来达到实时、高效的搜索是怎么实现的呢?下面我从时间和空间的概念来谈谈倒排索引的原理。

倒排索引的空间结构是什么样的?

首先根据上述例子拿出stuName,age,gender字段的来说:

student类型的文档上层school对应着一个索引的index为1:

PUT http://192.168.1.1:9200/school

student类型的文档对应着一个index:

| ID | stuName| age| gender |
| -- |--------|----| -------| 
| 1  | Rose   | 24 | Male   |
| 2  | John   | 24 | Female |
| 3  | Bill   | 29 | Female |

stuName:

| stuName| Posting List|
|--------|-------------| 
| Rose   |     1       | 
| John   |     2       |  
| Bill   |     3       | 

age:

| Term | Posting List |
| ---- |------------- |
| 24   |     [1,2]   |
| 29   |       3     |

gender:

|  Term  | Posting List |
| ------ |--------------|
| Female |      1       |
|  Male  |    [2,3]     |

如上所述,student所在的school索引index,student每个文档dictionary,student的每个字段Posting List都建立了索引。用一张图表示如下:

Posting List

Posting List是Elasticsearch中为每个字段field自动提供的索引集合,比方说24,29 这些叫做 term,而 [1,2] 就是 posting list。Posting list 就是一个 int 的数组,存储了所有符合某个 term 的文档 id。

Term Dictionary

Elasticsearch中为了能够快速的找到某个term,也就是我们经常用某个字段来快速查询,为了实现这一功能,Term Dictionary就产生了。Term Dictionary的实现底层就是B+Tree,使用二分法进行查询term, logN 次磁盘查找效率,就像字典查询一样,首字母是什么,就先检索什么,然后再看第二个字母是什么,检索第二个字母,…,一直到检索到这个term为止。

Term Index

由于磁盘随机读的存在,就必须将一部分数据存在缓存内存中,但是Term Dictionary磁盘存储空间的巨大,又不能将Term Dictionary完整的放到内存里。因此就有了Term Index,它就像字典里一个更大的章节一样,每个大的章节再对应着多个小的章节Term Dictionary,这样就能实现速的找到某个term。

Term Index、Term Dictionary和Posting List个关系

如下图 所示:“A”, “to”, “tea”, “ted”, “ten”, “i”, “in”, 和 “inn” 这些单词是如何储存在Elasticsearch里的呢?Term Index就像一棵倒挂的树一样,它就是这棵树的根节点,也就是这本字典;Term Dicitionary是根节点的子节点,存放着“t”、“A”、“i”,也就是所储存单词的前缀;然后Posting List就是相同前缀的单词(term)集合,里面装着我们要检索的单词(term)。因此通过 term index能够快速精确的检索到我们所需要的term

如下图所示,关系型数据库如Mysql 只有 term dictionary 这一层,是以 b-tree 排序的方式存储在磁盘上的。检索一个 term 需要若干次的 random access 的磁盘操作。而 Elasticsearch 在 term dictionary 的基础上添加了 term index 来加速检索,term index 以树的形式缓存在内存中。从 term index 查到对应的 term dictionary 的 block 位置之后,再去磁盘上找 term,大大减少了磁盘的 random access 次数。

倒排索引的时间概念是怎么节省的?

B-Tree+整体分区快速查找

上面说到Elasticsearch中的 term dictionary不同于关系型数据库的term dicitionary的结构B-Tree那样,将所存储的数据按照某种规则进行排序储存于磁盘里,然后通过二分法去查找某个term,这样能够达到log N的查询效率;而Elasticsearch中先把 term dictionary分为相同大小的块,然后递归去把每个块分成相同大小的块,进行快速查找。

举个例子,对于1-16这组数据进行快速查找其中的某个值:

B-Tree二分法:

如图所示B-Tree二分法查找7这个数,需要4次方能查出来。同样的查找1和16也需要4次才能查找出来。

B-Tree+整体分区法

如图所示B-Tree+整体分区法查找7的时候,只需3次就能找到,相当于“三分法”一样比二分法更加的有效率,但是如果数据每次“三分”时都处于中间,那就无形的增加了判断次数(这种做法,拿要检索的值7和中间块的两头6和11比较),但是这只是极少的数据而已,在海量的数据面前,这数据更是微不足道,所以根据二八定律,它基本上能满足搜索更快的需求。这种是将块或者区域作为一个整体的思想来实现快速搜索,有一点像希尔排序一样,虽然检索效率不稳定,但是能够解决大部分的数据效率问题,就等于实现了整个数据的效率问题。

更为重要的是,Elasticsearch中不仅term dictionary实现了倒排索引,而且term index也采用了这种倒排索引,这就相当于又套了一层B-Tree+整体分区法,效率提高了一个档次。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/189909.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue插槽之插槽的用法及作用域插槽详解

目录前言一,插槽的基本使用1.1 引出插槽1.2 插槽的基本使用1.3 默认插槽1.4 插槽样式二,具名插槽2.1 引出具名插槽2.2 具名插槽的使用三,template标签3.1 引出template标签3.2 template标签的使用四,作用域插槽4.1 引出作用域插槽…

C语言小题,有3个学生的信息,放在结构体数组中,要求输出全部学生的信息。(指向结构体数组的指针)

前言: 此篇是针对 指向结构体数组的指针 方面的练习。 解题思路: 用指向结构体变量的指针来处理: (1)声明结构体类型 struct Student ,并定义结构体数组,同时使之初始化; &#xff…

【Rust】9. 常见集合

9.1 Vector 9.1.1 创建 vector vector 只能储存相同类型的值!创建空的 vector:Vec::new()创建有值的 vector:vec! 宏 9.1.2 向 vector 中添加元素 9.1.3 读取 vector 的元素 索引语法:当引用一个不存在的元素时 Rust 会造成 pa…

设计模式-软件设计原则

目录 3.软件设计原则 3.1 开闭原则 3.2 里氏代换原则 3.3 依赖倒转原则 3.4 接口隔离原则 3.5 迪米特法则 3.6 合成复用原则 3.软件设计原则 在软件开发中,为了提高软件系统的可维护性和可复用性,增加软件的可扩展性和灵活性,程序员要…

【QT5 定时器练习-笔记-样例讲解-实现方式>>>(1)定时器事件方式和(2)定时器绑定函数】

QT5 -定时器简单应用-样例讲解-实现方式1-定时器事件方式1、前言2、实验环境3、定时器实现方式说明-以及效果3、操作步骤-(1)定时器事件方式(1)建立工程(2)拉控件布局(3)代码部分编写…

《深入浅出计算机组成原理》学习笔记 Day16

冒险和预测(一)1. 超长流水线的缺点2. 冒险和分支预测参考1. 超长流水线的缺点 增加流水线的深度,在同主频下,其实就是降低了 CPU 的性能。 一个 Pipeline Stage,就需要一个时钟周期。如果我们把任务分成 31 个阶段&…

2014年408专业算法题

文章目录0 结果1 题目2 思路附录0 结果 1 题目 2 思路 二叉树的带权路径长度(WPL)的计算方法有两种: 1,定义:WPL所有叶结点的权值Wi∗该结点深度Di求和WPL所有叶结点的权值W_i*该结点深度D_i求和WPL所有叶结点的权值…

如何管理IC研发过程产生的bug

一款芯片的研发过程中总是伴随着bug、bug和bug,研发线上各端的IC工程师也是全程在debug、debug和debug,直到最终的GDSII文件交给Founry工厂加工,全程都是为了保证芯片最终能够安全保质的tape-out成功。由此可见,bug的跟踪管理是至…

【数据结构】题解:二叉树的非递归遍历

【数据结构】题解:二叉树的非递归实现 文章目录【数据结构】题解:二叉树的非递归实现一、问题描述二、递归实现三、非递归实现3.1 前序遍历3.2 中序遍历3.3 后序遍历一、问题描述 二叉树的前序遍历,非递归迭代实现 ,二叉树的前序遍…

Synology群晖小技巧之百度网盘远程下载同步

🎈 作者:互联网-小啊宇 🎈 简介: CSDN 运维领域创作者、阿里云专家博主。目前从事 Kubernetes运维相关工作,擅长Linux系统运维、开源监控软件维护、Kubernetes容器技术、CI/CD持续集成、自动化运维、开源软件部署维护…

[HCTF 2018]WarmUp1

http://ca039961-2ebb-4acd-8107-ece077539106.node4.buuoj.cn:81/ 按F12查看源码 根据提示访问source.php 分析源码,搞懂其中几个函数 mb_strpos() :返回要查找的字符串在要检查的字符串中首次出现的位置 mb_strpos (haystack ,needle) //haystack&…

AVS3变换系数编码:SRCC

AVS3摒弃了HEVC和AVS2中的基于CG(Coefficient Group)的变换系数编码方式,使用基于扫描区域的变换系数编码方法Scan Region-based Coefficient Coding(SRCC)。在基于块的预测变换混合编码框架里,当一个块完成预测、变换和量化后会获得相应的变换系数&…

盘点2022十大热门编程语言(上)

全球知名代码托管平台 GitHub发布的2022年GitHub Octoverse年度报告公布了全球最流行的十大编程语言,其中JavaScript蝉联第一,Python位列次席。 编程是技术革新的核心,对于所有的编程开发人员来说,对世界范围内编程语言发展和趋势…

APP UI自动化测试思路总结

pythonappium自动化测试系列就要告一段落了,本篇博客咱们做个小结。 首先想要说明一下,APP自动化测试可能很多公司不用,但也是大部分自动化测试工程师、高级测试工程师岗位招聘信息上要求的,所以为了更好的待遇,我们还…

算法该不该刷?如何高效刷算法?

一、算法该不该刷?最近有小伙伴向我咨询一个问题,就是算法该不该刷,该如何刷算法呢?这个问题可谓太大众化了,只要你去某乎、某度搜索一下相关的解答,会有无数种回答,可见这个问题困扰了多少学习…

Ruoyi-Cloud框架学习-【08 前端、后端服务打包】

后端打包部署 在ruoyi项目的bin目录下执行package.bat打包Web工程,生成war/jar包文件。 然后会在各个项目下生成target文件夹、包含war或jar 提示 不同模块版本会生成在ruoyi/ruoyi-xxxx模块下target文件夹 部署工程文件 1、jar部署方式 使用命令行执行&#xf…

docker学习(三):docker镜像分层原理及本地镜像推送到阿里云或私服

文章目录前言docker镜像分层加载原理docker镜像commit操作产生新镜像本地镜像发布到阿里云将本地镜像推送到私有库前言 大家好,这是我学习docker系列的笔记文章,目标是掌握docker,为后续学习K8s做准备。本文记录了docker镜像分层加载的原理,…

DSP_TMS320F28377D_使用定时器实现<获取代码块运算时间>的功能

前言 给大家拜个晚年,此博客是2023年的第一篇博客,希望在2023年我与各位大佬共同进步。以前在STM32上实现过相关的功能,链接如下: STM32_使用定时器实现<获取代码块运算时间>的功能_江湖上都叫我秋博的博…

发表计算机 SCI 论文有多难? - 易智编译EaseEditing

发表SCI论文的对本科生来说点难度,一般论文的水平是这样:普刊<核心<SCI。 不同的专业都可以发SCI,只是影响因子高低不用而已,有的领域分值高,有的偏低。 就是说不同领域SCI期刊,影响…

液晶12864显示图片

液晶12864简介12864是128*64点阵液晶模块的点阵数简称。基本参数1、低电源电压(VDD:3.0~5.5V)。2、显示分辨率:12864 点。3、内置汉字字库,提供8192 个1616 点阵汉字。4、内置128 个168 点阵字符。5、2MHZ时钟频率。6、显示方式&a…