es中索引那些事

news2024/12/19 23:50:59

0、前言

在了解倒排索引之前先理解下索引的作用:

查询数据的时候,最耗时的操作并不是CPU计算,也不是内存聚合,而是去磁盘将文档查到并拉取回来的过程。我们都知道在磁盘IO的过程中,顺序读写效率高于随机读写,磁盘的查找次数也决定最终的响应时间。在使用索引的过程中,我们将数据按照指定方式顺序存放好,然后利用各种数据结构(b树、b+树、倒排索引)等来减少我们查询数据的次数,提高定位和获取数据的效率,这就是索引的作用。

1、什么是倒排索引

简单点说普通索引是key找value,那倒排索引就是value找key。

比如mysql的结构是这样的

idnamesex
1李三

在es倒排索引里是这样的:其中term称为词项,是经过分词器处理后的结果;docId是文档id,根据文档id来获取当前文档的内容。

TermdocId
李三1
1

在ES中将所有的词项通过字典顺序排列好后存储起来,这个数据结构叫词项字典(Term Directory)。实际业务中每一个词项并不只存在一个文档中,而是关联一个文档id的列表,ES中称为Posting List(关联文档ID的列表)。并且ES将词项的前缀(Term Index)拿出,构建了一个FST(相当于Term Directory的index)

 因为查索引是磁盘随机IO,而将词项字典抽出来一个词项索引树,放在内存中从而大大增加IO效率。并且词项字典是分区存放,利用公共前缀进行压缩,可以做到更节省空间。

2.联合索引查询

mysql中使用索引查询时,只会使用单一索引进行查询,而es中使用倒排索引查询则是取每个词项中对应的文档list做交集处理。

而es对交集的处理有两种方式:跳表、bitset

什么是跳表

将一个有序链表level0,挑出其中几个元素到level1及level2,每个level越往上,选出来的指针元素越少,查找时依次从高level往低查找。这种链表加多级索引的结构,就叫做跳表

 跳表方式

以下取出两个索引的文档id集合,取其交集,如果tab1的跳表如上图所示有一个level1索引,那么取交集过程就为(短找长)

>tab2:2,tab1没有跳过;tab2:24,tab1通过1-18检索没有跳过

->tab2:25, tab1通过1-18-25检索有,id=25存入结果集

->tab2:27, tab1跳过,重复,直到找到37,id=37写入结果集。

如果没有跳表找30这样的元素需要1-3-5-8-18-25-30,而有跳表则只需要1-18-25-30。

Tab1:

13581825303337

Tab2:

2242527293133

bitset方式

一个list为[1,3,5,6],另一个为[1,4,6,7]

那么两个list对应的bitset

bit位1234567
List11010110
List21001011
List1&List2结果1000010

 通过&两个list的bit位可以得到1和6的文档id符合要求,最终返回1、6的文档数据

3.倒排索引结构压缩

倒排索引结构压缩中结构压缩的方式有两种:Frame Of Reference 和 Roaring Bitmap 。

Frame Of Reference

该压缩方式是进行做差压缩存储bit位,来节省存储空间。

例:这样一个PostingList:[1,3,13,101,105,108,255,256,257]

将这个做差后,按bit存:[1,2,10,88,4,3,147,1,1]

然后分到不同的block里面(跳表方式):[1,2,10],[88,4,3],[147,1,1] 

在分到不同的block的同时计算每一个block中数据所占用的最大位数,如第一个block中10是当前block中最大的数据,以最大的数据为基准,算出占用的bit大小,2*3<10<2*4,取4bit。

而这个block中有3个元素,则是3*占用最大的bit=3*4=12bit,/8转换为字节Byte,一个Byte放不下,需要2Byte。

计算出多个block中所占用的总Byte=2+3+3=8Byte,共节省了36-8=28Byte

 Roaring Bitmap

根据高16位(2*16=65536)把PostingList切分成不同的block,这时每个block中的每个值最大为65535(2*16-1),16bit占两个Byte。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/653727.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JavaWeb学习路线(4)——请求响应与分层解耦

一、概述 二、请求 &#xff08;一&#xff09;概念&#xff1a; 全名为HttpServletRequest&#xff0c;其目标是获取请求数据。 &#xff08;二&#xff09;简单请求&#xff1a; web端发送基本数据类型数据到服务器进行处理。 1、获取方式 &#xff08;1&#xff09;原…

ESP32学习之JSON,和接入心知天气

注意&#xff1a;手机热点或者网络不能开5.0GHz频段和WIFI6&#xff0c;不然ESP32连不上 心知天气账号&#xff08;免费版即可&#xff09;&#xff0c;网站&#xff1a;心知天气 - 高精度气象数据 - 天气数据API接口 - 行业气象解决方案 (seniverse.com) V3的用户手册-天气实…

【业务功能篇29】Assert断言

业务场景&#xff1a; 当我们需要对一个接口方法验证是&#xff0c;在单元测试中&#xff0c;主要用于程序代码的调试或测试阶段 基本的使用就是assert condition&#xff0c;当 condition 为 true&#xff0c;就继续往下运行&#xff1b;当 condition 为 false&#xff0c;就抛…

MySQL - 第2节 - MySQL库的操作

1.创建数据库 创建数据库的SQL如下&#xff1a; CREATE DATABASE [IF NOT EXISTS] db_name [[DEFAULT] CHARSETcharset_name] [[DEFAULT] COLLATEcollation_name];说明&#xff1a; • SQL中大写的表示关键字&#xff0c;[ ]中代表的是可选项。 • CHARSET用于指定数据库所采用…

「实在RPA·证券数字员工」革新证券数字化现状

2022年1月《金融科技发展规划&#xff08;2022——2025年&#xff09;》提出“十四五”时期金融科技发展愿景&#xff0c;明确了金融科技发展的指导思想和4个基本原则、6个发展目标&#xff0c;确定了8项重点任务和5项保障措施&#xff0c;进一步明确金融科技发展方向。近年来&…

ADB WIFI 链接

ADB WiFi链接手机 必须在同一网络下&#xff08;本人用的台式机网线手机连路由器WIFI&#xff09; 1.先确认USB数据线是否成功链接了手机 adb devices不管前面设备是什么名字&#xff0c;但是后面必须为device状态才算链接成功了&#xff0c;offline状态是不行的 有些没开启…

Linux Debian Jenkins快速搭建配置并运行

Jenkins安装 参考Debian Jenkins Packageshttps://pkg.origin.jenkins.io/debian-stable/ 加Key curl -fsSL https://pkg.jenkins.io/debian-stable/jenkins.io-2023.key | sudo tee \/usr/share/keyrings/jenkins-keyring.asc > /dev/null 加仓库 echo deb [signed-by/u…

什么是远程工具,远程工具推荐

在当今数字化时代&#xff0c;远程工作正在变得越来越普遍。这种趋势不仅使企业管理更加便利&#xff0c;节省了时间和资源&#xff0c;同时也使员工更加自由和灵活。许多远程工作都需要使用到远程工具。本文将对远程工具进行简介和阐述。 什么是远程工具 远程工具是一种数字…

类与对象知识总结+封闭类+const+this指针 C++程序设计与算法笔记总结(三) 北京大学 郭炜

//C程序到C程序的翻译 class CCar { public: int price; void SetPrice(int p); }; void CCar::SetPrice(int p) { price p; } int main() { CCar car; car.SetPrice(20000); return 0; }struct CCar { int price; }; void SetPrice(struct CCar * this, int p) { this-&g…

【ROS】URDF:统一机器人描述格式(XML)

1、简述 统一机器人描述格式&#xff08;URDF&#xff09;是描述机器人模型的 XML 文件&#xff0c;支持Xacro&#xff08;XML宏&#xff09;&#xff0c;使用Xacro来引用已经存在的XML块&#xff0c;创建更短且可读的XML文件。 2、初始URDF描述文件 URDF描述文件为XML格式&…

测试左移-快速玩转Debug

目录 背 景 学习的意义 玩 转 Debug 一、基本介绍 二、断点设置 三、启动调试 四、调试技巧 定 位 问 题 总 结 背 景 一段代码的问题产生阶段可以分为&#xff1a;编译期和运行时 编译期的代码可以由工具&#xff08;idea、eclipse&#xff09;在程序编码过程中提示错误…

面对对象。

1.类&#xff1a; 类&#xff1a;是对象共同特征的描述。 对象&#xff1a;是真实存在的具体实例。 先设计类&#xff0c;才能创建对象并使用。 pulic class 类名{1.成员变量&#xff08;代表属性&#xff0c;一般是名词&#xff09;2.成员方法&#xff08;代表行为&#x…

达梦主备守护集群相关概念和基本原理介绍

DM数据守护一主一备或一主多备是一种集成化的高可用、高性能数据库解决方案&#xff0c;是数据库异地容灾的首选方案。通过部署 DM 数据守护&#xff0c;可以在硬件故障&#xff08;如磁盘损坏&#xff09;、自然灾害&#xff08;地震、火灾&#xff09;等极端情况下&#xff0…

思科交换机与路由器基础命令(一)

作者&#xff1a;Insist-- 个人主页&#xff1a;insist--个人主页 作者会持续更新网络知识和python基础知识&#xff0c;期待你的关注 目录 一、Cisco交换机的命令行模式&#xff1a; 1、用户模式 2、 特权模式 3、 全局配置模式 4、 接口模式 5、退回命令 二、帮助机制 …

20. 算法之回溯算法

1. 概念 回溯算法实际上一个类似枚举的深度优先搜索尝试过程&#xff0c;主要是在搜索尝试过程中寻找问题的解&#xff0c;当发现已不满足求解条件时&#xff0c;就“回溯”返回&#xff08;也就是递归返回&#xff09;&#xff0c;尝试别的路径。 回溯的处理思想&#xff0c…

必备:音乐的魅力,一边听歌一边练习英语!

音乐是一种跨越语言和文化的艺术形式&#xff0c;能够带给我们无限的感动和快乐。下面是我推荐的一些好听的英文歌曲&#xff0c;希望大家喜欢。 这首歌是英国歌手Ed Sheeran的代表作之一&#xff0c;曲调轻快&#xff0c;旋律优美&#xff0c;歌词简单易懂&#xff0c;非常容…

搞懂mysql事物隔离级别

事物是为交易而生 事物的英文单词 TRANSACTION,就是交易的意思. 交易和事物是一个东西. mysql的事物的4种隔离级别 mysql的事物隔离级设计的一点也不高级 隔离级别只是一个很烧脑的概念,并不是什么高大上的技术. RU,全称read-uncommitted, 中文翻译:读未提交,能够读到未提交…

static关键字在C语言中的作用

static关键字有三个主要作用&#xff1a; 1.修饰全局变量 2.修饰函数 3.修饰局部变量 (1)首先是修饰全局变量&#xff0c;就是变量只能在本文件中使用&#xff0c;不能在其他文件中使用 代码示例&#xff1a;vi 1.c vi 2.c 编译&#xff1a;gcc 1.c 2.c -o main ./main …

指定数组的维度,返回由随机数构成的数组numpy.random.ranf()

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 指定数组的维度&#xff0c; 返回由随机数构成的数组 numpy.random.ranf() 选择题 以下说法错误的是? import numpy as np print("【执行1】np.random.ranf()") print(np.random.ra…

Redis整合jedis 学习

前言 redis简单来讲是内存数据库&#xff0c;因为是将数据存放到内存&#xff0c;因此读写速率高快(传统数据库&#xff0c;不是先从内存转到硬存&#xff0c;慢) 1.jedis连接Redis redis是java操作redis的客户端&#xff0c;通过他我们能通过java语句操控redis。 jedis对于…