es中索引那些事

es中索引那些事

news2026/3/29 21:02:33

0、前言

在了解倒排索引之前先理解下索引的作用：

查询数据的时候，最耗时的操作并不是CPU计算，也不是内存聚合，而是去磁盘将文档查到并拉取回来的过程。我们都知道在磁盘IO的过程中，顺序读写效率高于随机读写，磁盘的查找次数也决定最终的响应时间。在使用索引的过程中，我们将数据按照指定方式顺序存放好，然后利用各种数据结构(b树、b+树、倒排索引)等来减少我们查询数据的次数，提高定位和获取数据的效率，这就是索引的作用。

1、什么是倒排索引

简单点说普通索引是key找value，那倒排索引就是value找key。

比如mysql的结构是这样的

id	name	sex
1	李三	男

在es倒排索引里是这样的：其中term称为词项，是经过分词器处理后的结果；docId是文档id，根据文档id来获取当前文档的内容。

Term	docId
李三	1
男	1

在ES中将所有的词项通过字典顺序排列好后存储起来，这个数据结构叫词项字典(Term Directory)。实际业务中每一个词项并不只存在一个文档中，而是关联一个文档id的列表，ES中称为Posting List(关联文档ID的列表)。并且ES将词项的前缀(Term Index)拿出，构建了一个FST（相当于Term Directory的index）

因为查索引是磁盘随机IO，而将词项字典抽出来一个词项索引树，放在内存中从而大大增加IO效率。并且词项字典是分区存放，利用公共前缀进行压缩，可以做到更节省空间。

2.联合索引查询

mysql中使用索引查询时，只会使用单一索引进行查询，而es中使用倒排索引查询则是取每个词项中对应的文档list做交集处理。

而es对交集的处理有两种方式：跳表、bitset

什么是跳表

将一个有序链表level0，挑出其中几个元素到level1及level2，每个level越往上，选出来的指针元素越少，查找时依次从高level往低查找。这种链表加多级索引的结构，就叫做跳表。

跳表方式

以下取出两个索引的文档id集合，取其交集，如果tab1的跳表如上图所示有一个level1索引，那么取交集过程就为（短找长）

>tab2:2，tab1没有跳过;tab2:24，tab1通过1-18检索没有跳过

->tab2:25, tab1通过1-18-25检索有，id=25存入结果集

->tab2:27, tab1跳过，重复，直到找到37，id=37写入结果集。

如果没有跳表找30这样的元素需要1-3-5-8-18-25-30，而有跳表则只需要1-18-25-30。

Tab1：

1

3

5

8

18

25

30

33

37

Tab2：

2

24

25

27

29

31

33

bitset方式

一个list为[1,3,5,6]，另一个为[1,4,6,7]

那么两个list对应的bitset

bit位	1	2	3	4	5	6	7
List1	1	0	1	0	1	1	0
List2	1	0	0	1	0	1	1
List1&List2结果	1	0	0	0	0	1	0

通过&两个list的bit位可以得到1和6的文档id符合要求，最终返回1、6的文档数据

3.倒排索引结构压缩

倒排索引结构压缩中结构压缩的方式有两种：Frame Of Reference 和 Roaring Bitmap 。

Frame Of Reference

该压缩方式是进行做差压缩存储bit位，来节省存储空间。

例：这样一个PostingList：[1,3,13,101,105,108,255,256,257]

将这个做差后，按bit存：[1,2,10,88,4,3,147,1,1]

然后分到不同的block里面（跳表方式）：[1,2,10],[88,4,3],[147,1,1]

在分到不同的block的同时计算每一个block中数据所占用的最大位数，如第一个block中10是当前block中最大的数据，以最大的数据为基准，算出占用的bit大小，2*3<10<2*4,取4bit。

而这个block中有3个元素，则是3*占用最大的bit=3*4=12bit，/8转换为字节Byte,一个Byte放不下，需要2Byte。

计算出多个block中所占用的总Byte=2+3+3=8Byte，共节省了36-8=28Byte

Roaring Bitmap

根据高16位（2*16=65536）把PostingList切分成不同的block，这时每个block中的每个值最大为65535（2*16-1）,16bit占两个Byte。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/653727.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

JavaWeb学习路线（4）——请求响应与分层解耦

JavaWeb学习路线（4）——请求响应与分层解耦

一、概述二、请求 （一）概念： 全名为HttpServletRequest，其目标是获取请求数据。 （二）简单请求： web端发送基本数据类型数据到服务器进行处理。 1、获取方式 （1）原…

阅读更多...

ESP32学习之JSON,和接入心知天气

ESP32学习之JSON,和接入心知天气

注意：手机热点或者网络不能开5.0GHz频段和WIFI6，不然ESP32连不上心知天气账号（免费版即可），网站：心知天气 - 高精度气象数据 - 天气数据API接口 - 行业气象解决方案 (seniverse.com) V3的用户手册-天气实…

阅读更多...

【业务功能篇29】Assert断言

【业务功能篇29】Assert断言

业务场景： 当我们需要对一个接口方法验证是，在单元测试中，主要用于程序代码的调试或测试阶段基本的使用就是assert condition，当 condition 为 true，就继续往下运行；当 condition 为 false，就抛…

阅读更多...

MySQL - 第2节 - MySQL库的操作

MySQL - 第2节 - MySQL库的操作

1.创建数据库创建数据库的SQL如下： CREATE DATABASE [IF NOT EXISTS] db_name [[DEFAULT] CHARSETcharset_name] [[DEFAULT] COLLATEcollation_name];说明： • SQL中大写的表示关键字，[ ]中代表的是可选项。 • CHARSET用于指定数据库所采用…

阅读更多...

「实在RPA·证券数字员工」革新证券数字化现状

「实在RPA·证券数字员工」革新证券数字化现状

2022年1月《金融科技发展规划（2022——2025年）》提出“十四五”时期金融科技发展愿景，明确了金融科技发展的指导思想和4个基本原则、6个发展目标，确定了8项重点任务和5项保障措施，进一步明确金融科技发展方向。近年来&…

阅读更多...

ADB WIFI 链接

ADB WIFI 链接

ADB WiFi链接手机必须在同一网络下（本人用的台式机网线手机连路由器WIFI） 1.先确认USB数据线是否成功链接了手机 adb devices不管前面设备是什么名字，但是后面必须为device状态才算链接成功了，offline状态是不行的有些没开启…

阅读更多...

Linux Debian Jenkins快速搭建配置并运行

Linux Debian Jenkins快速搭建配置并运行

Jenkins安装参考Debian Jenkins Packageshttps://pkg.origin.jenkins.io/debian-stable/ 加Key curl -fsSL https://pkg.jenkins.io/debian-stable/jenkins.io-2023.key | sudo tee \/usr/share/keyrings/jenkins-keyring.asc > /dev/null 加仓库 echo deb [signed-by/u…

阅读更多...

什么是远程工具，远程工具推荐

什么是远程工具，远程工具推荐

在当今数字化时代，远程工作正在变得越来越普遍。这种趋势不仅使企业管理更加便利，节省了时间和资源，同时也使员工更加自由和灵活。许多远程工作都需要使用到远程工具。本文将对远程工具进行简介和阐述。什么是远程工具远程工具是一种数字…

阅读更多...

类与对象知识总结+封闭类+const+this指针 C++程序设计与算法笔记总结（三）北京大学郭炜

类与对象知识总结+封闭类+const+this指针 C++程序设计与算法笔记总结（三）北京大学郭炜

//C程序到C程序的翻译 class CCar { public: int price; void SetPrice(int p); }; void CCar::SetPrice(int p) { price p; } int main() { CCar car; car.SetPrice(20000); return 0; }struct CCar { int price; }; void SetPrice(struct CCar * this, int p) { this-&g…

阅读更多...

【ROS】URDF：统一机器人描述格式（XML）

【ROS】URDF：统一机器人描述格式（XML）

1、简述统一机器人描述格式（URDF）是描述机器人模型的 XML 文件，支持Xacro（XML宏），使用Xacro来引用已经存在的XML块，创建更短且可读的XML文件。 2、初始URDF描述文件 URDF描述文件为XML格式&…

阅读更多...

测试左移-快速玩转Debug

测试左移-快速玩转Debug

目录背景学习的意义玩转 Debug 一、基本介绍二、断点设置三、启动调试四、调试技巧定位问题总结背景一段代码的问题产生阶段可以分为：编译期和运行时编译期的代码可以由工具（idea、eclipse）在程序编码过程中提示错误…

阅读更多...

面对对象。

面对对象。

1.类： 类：是对象共同特征的描述。对象：是真实存在的具体实例。先设计类，才能创建对象并使用。 pulic class 类名{1.成员变量（代表属性，一般是名词）2.成员方法（代表行为&#x…

阅读更多...

达梦主备守护集群相关概念和基本原理介绍

达梦主备守护集群相关概念和基本原理介绍

DM数据守护一主一备或一主多备是一种集成化的高可用、高性能数据库解决方案，是数据库异地容灾的首选方案。通过部署 DM 数据守护，可以在硬件故障（如磁盘损坏）、自然灾害（地震、火灾）等极端情况下&#xff0…

阅读更多...

思科交换机与路由器基础命令（一）

思科交换机与路由器基础命令（一）

作者：Insist-- 个人主页：insist--个人主页作者会持续更新网络知识和python基础知识，期待你的关注目录一、Cisco交换机的命令行模式： 1、用户模式 2、特权模式 3、全局配置模式 4、接口模式 5、退回命令二、帮助机制 …

阅读更多...

20. 算法之回溯算法

20. 算法之回溯算法

1. 概念回溯算法实际上一个类似枚举的深度优先搜索尝试过程，主要是在搜索尝试过程中寻找问题的解，当发现已不满足求解条件时，就“回溯”返回（也就是递归返回），尝试别的路径。回溯的处理思想&#xff0c…

阅读更多...

必备：音乐的魅力，一边听歌一边练习英语！

必备：音乐的魅力，一边听歌一边练习英语！

音乐是一种跨越语言和文化的艺术形式，能够带给我们无限的感动和快乐。下面是我推荐的一些好听的英文歌曲，希望大家喜欢。这首歌是英国歌手Ed Sheeran的代表作之一，曲调轻快，旋律优美，歌词简单易懂，非常容…

阅读更多...

搞懂mysql事物隔离级别

搞懂mysql事物隔离级别

事物是为交易而生事物的英文单词 TRANSACTION,就是交易的意思. 交易和事物是一个东西. mysql的事物的4种隔离级别 mysql的事物隔离级设计的一点也不高级隔离级别只是一个很烧脑的概念,并不是什么高大上的技术. RU,全称read-uncommitted, 中文翻译:读未提交,能够读到未提交…

阅读更多...

static关键字在C语言中的作用

static关键字在C语言中的作用

static关键字有三个主要作用： 1.修饰全局变量 2.修饰函数 3.修饰局部变量 (1)首先是修饰全局变量，就是变量只能在本文件中使用，不能在其他文件中使用代码示例：vi 1.c vi 2.c 编译：gcc 1.c 2.c -o main ./main …

阅读更多...

指定数组的维度，返回由随机数构成的数组numpy.random.ranf()

指定数组的维度，返回由随机数构成的数组numpy.random.ranf()

【小白从小学Python、C、Java】【计算机等考500强证书考研】【Python-数据分析】指定数组的维度， 返回由随机数构成的数组 numpy.random.ranf() 选择题以下说法错误的是? import numpy as np print("【执行1】np.random.ranf()") print(np.random.ra…

阅读更多...

Redis整合jedis 学习

Redis整合jedis 学习

前言 redis简单来讲是内存数据库，因为是将数据存放到内存，因此读写速率高快(传统数据库，不是先从内存转到硬存，慢) 1.jedis连接Redis redis是java操作redis的客户端，通过他我们能通过java语句操控redis。 jedis对于…

阅读更多...

推荐文章

最新文章