从根上理解elasticsearch(lucene)查询原理(1)-lucece查询逻辑介绍

news2024/11/27 21:04:53

大家好,我是蓝胖子,最近在做一些elasticsearch 慢查询优化的事情,通常用分析elasticsearch 慢查询的时候可以通过profile api 去分析,分析结果显示的底层lucene在搜索过程中使用到的函数调用。所以要想彻底弄懂elasticsearch慢查询的原因,还必须将lucene的查询原理搞懂,今天我们就先来介绍下lucene的查询逻辑的各个阶段。

lucene 查询过程分析

先放上一张查询过程的流程图,下面的分析其实都是对这张图的更详细的介绍。

未命名文件 (2).jpg

lucene的查询可以大致分为4个阶段,重写查询,创建查询weight对象,创建scorer对象准备计分,进行统计计分。

简单解释下这4个阶段;

1, 重写查询语句( rewrite query )

lucene提供了比较丰富的外部查询类型,像wildcardQuery,MatchQuery等等,但它们最后都会替换为比较底层的查询类型,例如wildcardQuery会被重写为MultiTermsQuery。

2, 创建查询weight对象( createWeight )

Query对象创建的权重对象, lucece的每个查询都会计算一个该查询占用的权重值,如果是不需要计分的,则权重值是一个固定常量,得到的文档结果是根据多个查询的权重值计算其得分的。下面是Weight 对象涉及的方法,

Pasted image 20231207173540.png

其中,scorer(LeafReaderContext context) 方法是个抽象方法,需要子类去实现的。

public abstract Scorer scorer(LeafReaderContext context) throws IOException;

方法返回的scorer对象拥有遍历倒排列表和统计文档得分的功能,下面会讲到实际上weight对象是创建BulkScore进行计分的,但BulkScore内部还是通过score对象进行计分。

Pasted image 20231207175531.png

再详细解释下Scorer对象中比较重要的方法;

  • iterator() 方法返回的DocIdSetIterator 对象提供了遍历倒排列表的能力。如下是DocIdSetIterator 涉及的方法,其中docID()是为了返回当前遍历到的倒排列表的文档id,nextDoc()则是将遍历指针移动到下一个文档,并且返回文档id,advance 用于移动遍历指针。

Pasted image 20231207180951.png

  • twoPhaseIterator 方法提供对文档二次精准匹配的能力,比如在matchPhrase查询中,不但要查出某个词,还要求查出的词之间相对顺序不变,那么这个相对顺序则是通过twoPhaseIterator的matches方法去进行判断。

Pasted image 20231207180839.png

3, 创建bulkScorer对象( weight.bulkScore)

weight 对象会调用BulkScore方法创建BulkScorer对象,bulkScorer 内部首先调用的是scorer抽象方法(需要由weight子类去实现的方法),得到的scorer对象再拿去构建DefaultBulkScorer 对象,所以说,实际上最后计分的还是通过scorer对象进行计分的。

public BulkScorer bulkScorer(LeafReaderContext context) throws IOException {  
  
  Scorer scorer = scorer(context);  
  if (scorer == null) {  
    // No docs match  
    return null;  
  }  
  
  // This impl always scores docs in order, so we can  
  // ignore scoreDocsInOrder:  
  return new DefaultBulkScorer(scorer);  
}

bulkScorer类有如下方法,一个是提供对段所有文档进行计分,一个是可以在段的某个文档id范围内进行计分。

Pasted image 20231207181829.png

4, 进行统计计分

最后则是通过collector对象进行统计,这里提到了collecor对象,它其实是作为了上述bulkScorer的score方法参数传入的,在bulkScore.score方法内部,遍历文档时,对筛选出的文档会通过调用collector.collect(doc)方法进行收集,在collect方法内部,则是调用scorer对象对文档进行打分。

Pasted image 20231207175514.png
完整的搜索流程如下

public <C extends Collector, T> T search(Query query, CollectorManager<C, T> collectorManager)  
    throws IOException {  
  final C firstCollector = collectorManager.newCollector();  
  // 重写查询对象
  query = rewrite(query, firstCollector.scoreMode().needsScores());  
  // 调用indexSearch的createWeight方法,本质上还是调用的Query的createWeight方法
  final Weight weight = createWeight(query, firstCollector.scoreMode(), 1);  
  return search(weight, collectorManager, firstCollector);  
}

// 简化了代码,保留了主流程,调用scorer.score 进行计分。
protected void search(List<LeafReaderContext> leaves, Weight weight, Collector collector){
	// 得到每个segment段的收集器,源代码是可以在线程池中同时对几个segment进行搜索的,这里省略了。
	leafCollector = collector.getLeafCollector(ctx);
	BulkScorer scorer = weight.bulkScorer(ctx);
	// 将收集器作为buklScore.score参数传入,对文档进行计分。
	scorer.score(leafCollector, ctx.reader().getLiveDocs());
	leafCollector.finish();
}

未命名文件 (2).jpg

profile api 返回结果分析

理清楚了lucene的搜索逻辑,我们再来看看通过profile api返回的各个阶段耗时是统计的哪段逻辑。

在使用elasticsearch 的profile api 时,会返回如下的统计阶段

Pasted image 20231208133407.png

如果不了解源码可能会对这些统计指标比较疑惑,结合刚才对lucece 源码的了解来看下几个比较常见的统计指标。

next_doc 是取倒排链表中当前遍历到的文档id,并且把遍历的指针移动到下一个文档id消耗的时长。

score 是weight.scorer方法创建的score对象,进行文档计分的操作时消耗的时长。

match 是 twoPhaseIterator进行二次匹配判断时消耗的时长。

advance 是直接将遍历的指针移动到特定文档id处消耗的时长。

build_score 是weight对象在通过weight.scorer方法创建score对象时所耗费的时长。

create_weight 是query对象在调用其自身createWeight方法创建weight对象时耗费的时长。

set_min_competitive_score,compute_max_score,shallow_advance 我也还没彻底弄懂它们用到的所有场景,这里暂不做分析。

这里还要注意的一点是,像布尔查询是结合了多个子查询的结果,它内部会构造特别的scorer对象,比如ConjunctionScorer 交集scorer,它的next_doc 方法则是需要对其子查询的倒排链表求交集,所以你在用profile api 分析时,可能会看到布尔查询的next_doc 耗时较长,而其子查询耗时较长的逻辑则是advance,因为倒排列表合并逻辑会有比较多的advance移动指针的动作。

profile api 的实现原理

最后,我再来谈谈elasticsearch 是如何实现profile 的,lucene的搜索都是通过IndexSearcher对象来执行的,IndexSearcher在调用query对象自身的rewrite 方法重写query后,会调用IndexSearcher 的createWeight 方法来创建weight对象(本质上底层还是使用的query的createWeight方法)。

elasticsearch 继承了IndexSearcher ,重写了createWeight,在原本weight对象的基础上,封装了一个profileWeight对象。以下是关键代码。

public Weight createWeight(Query query, ScoreMode scoreMode, float boost) throws IOException {  
    if (profiler != null) {  
        // createWeight() is called for each query in the tree, so we tell the queryProfiler  
        // each invocation so that it can build an internal representation of the query        // tree        QueryProfileBreakdown profile = profiler.getQueryBreakdown(query);  
        Timer timer = profile.getNewTimer(QueryTimingType.CREATE_WEIGHT);  
        timer.start();  
        final Weight weight;  
        try {  
            weight = query.createWeight(this, scoreMode, boost);  
        } finally {  
            timer.stop();  
            profiler.pollLastElement();  
        }  
        return new ProfileWeight(query, weight, profile);  
    } else {  
        return super.createWeight(query, scoreMode, boost);  
    }  
}

基于文章开头的lucene查询逻辑分析,可以知道,scorer对象最后也是通过weight对象的scorer方法得到的,所以创建出来的profileWeight的scorer方法通用也对返回的scorer对象封装了一层,返回的是profileScorer对象。

public Scorer scorer(LeafReaderContext context) throws IOException {  
    ScorerSupplier supplier = scorerSupplier(context);  
    if (supplier == null) {  
        return null;  
    }  
    return supplier.get(Long.MAX_VALUE);  
}  
  
@Override  
public ScorerSupplier scorerSupplier(LeafReaderContext context) throws IOException {  
    final Timer timer = profile.getNewTimer(QueryTimingType.BUILD_SCORER);  
    timer.start();  
    final ScorerSupplier subQueryScorerSupplier;  
    try {  
        subQueryScorerSupplier = subQueryWeight.scorerSupplier(context);  
    } finally {  
        timer.stop();  
    }  
    if (subQueryScorerSupplier == null) {  
        return null;  
    }  
  
    final ProfileWeight weight = this;  
    return new ScorerSupplier() {  
  
        @Override  
        public Scorer get(long loadCost) throws IOException {  
            timer.start();  
            try {  
                return new ProfileScorer(weight, subQueryScorerSupplier.get(loadCost), profile);  
            } finally {  
                timer.stop();  
            }  
        }  
  
        @Override  
        public long cost() {  
            timer.start();  
            try {  
                return subQueryScorerSupplier.cost();  
            } finally {  
                timer.stop();  
            }  
        }  
    };  
}

剩下的就好办了,在profileScore对象里对scorer对象的原生方法前后加上时间统计即可对特定方法进行计时了。比如下面代码中profileScore的advanceShallow方法。

public int advanceShallow(int target) throws IOException {  
    shallowAdvanceTimer.start();  
    try {  
        return scorer.advanceShallow(target);  
    } finally {  
        shallowAdvanceTimer.stop();  
    }  
}

总结

通过本篇文章,应该可以对lucene的查询过程有了大概的了解,但其实对于elasticsearch的慢查询分析还远远不够,因为像布尔查询,wilcard之类的比较复杂的查询,我们还得弄懂,它们底层是究竟如何把一个大查询分解成小查询的。才能更好的弄懂查询耗时的原因,所以在下一节,我会讲解这些比较常见的查询类型的内部重写和查询逻辑。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1295979.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[JSMSA_CTF] 2023年12月练习题 pwn

一开始没给附件&#xff0c;还以为是3个盲pwn结果&#xff0c;pwn了一晚上没出来&#xff0c;今天看已经有附件了。 pwn1 在init_0里使用mallopt(1,0) 设置global_max_fast0 任何块释放都会进入unsort在free函数里没有清理指针&#xff0c;有UAF将v6:0x100清0&#xff0c;便于…

ResNeXt(2017)

文章目录 Abstract1. Introductionformer workour work 2. Related Work多分支卷积网络分组卷积压缩卷积网络Ensembling 3. Method3.1. Template3.2. Revisiting Simple Neurons3.3. Aggregated Transformations3.4. Model Capacity 4. Experiment 原文地址 源代码 Abstract 我…

vuepress-----18、图片缩放

图片引入两种方式 地址 # 图片缩放插件 # 实战 md文件引入图片 <img class"zoom-custom-imgs" :src"$withBase(/favicon.ico)" alt"favicon">安装配置插件 vuepress/medium-zoom: {selector: img.zoom-custom-imgs,},效果展示

LVS-DR+Keepalived+动静分离实验

架构图 解释一下架构&#xff0c;大概就是用Keepalived实现两台DR服务器的LVS负载均衡&#xff0c;然后后端服务器是两台Nginx服务器两台Tomcat服务器并且实现动静分离这个实验其实就是把 LVS-DRKeepalived 和 动静分离 给拼起来&#xff0c;真的是拼起来&#xff0c;两个部分…

MVCC是什么

程序员的公众号&#xff1a;源1024&#xff0c;获取更多资料&#xff0c;无加密无套路&#xff01; 最近整理了一波电子书籍资料&#xff0c;包含《Effective Java中文版 第2版》《深入JAVA虚拟机》&#xff0c;《重构改善既有代码设计》&#xff0c;《MySQL高性能-第3版》&…

关于什么是 JVM

关于什么是 JVM&#xff0c;看看普通⼈和⾼⼿的回答。 普通人 JVM 就是 Java 虚拟机&#xff0c;是⽤来运⾏我们平时所写的 Java 代码的。优点是它会 ⾃动进⾏内存管理和垃圾回收&#xff0c;缺点是⼀旦发⽣问题&#xff0c;要是不了解 JVM 的运⾏ 机制&#xff0c; 就很难…

网工内推 | 外企、合资公司急招网工,国内外旅游,健身年卡

01 深圳市耐施菲信息科技有限公司 招聘岗位&#xff1a;网络工程师 职责描述&#xff1a; 1、负责项目的计划、实施、过程管控、项目验收等工作&#xff1b; 2、负责大型项目设备实施、安装调试等售后维护工作&#xff1b; 3、分析、设计网络拓扑结构、配置H3C、华为等交换机…

扁平的MutableList元素每隔若干元素一组装入新MutableList,Kotlin

扁平的MutableList元素每隔若干元素一组装入新MutableList&#xff0c;Kotlin fun main(args: Array<String>) {val array arrayOf("a", "b", "c", "d", "e", "f", "g", "h", "i…

Linux设置root初始密码

目录 一、Linux系统中普通用户和特权用户&#xff08;root&#xff09; 二、Linux系统中设置root初始密码 一、Linux系统中普通用户和特权用户&#xff08;root&#xff09; windows 系统中有普通用户和特权用户&#xff0c;特权用户是 administer&#xff0c;普通用户可以…

Qt练习题

1.使用手动连接&#xff0c;将登录框中的取消按钮使用qt4版本的连接到自定义的槽函数中&#xff0c;在自定义的槽函数中调用关闭函数 将登录按钮使用qt5版本的连接到自定义的槽函数中&#xff0c;在槽函数中判断ui界面上输入的账号是否为"admin"&#xff0c;密码是否…

个人信息展示网站需求分析报告

目录 一. 概述1.1 设计目的1.2 术语定义 二. 需求分析三. 系统功能需求3.1 功能总览3.2 业务流程图1.系统用例图2.系统流程 四.开发技术4.1 技术组成 五.界面及运行环境1.用户界面2.运行环境 一. 概述 1.1 设计目的 兴趣使然。将知识点综合运用。CSDN有功能限制&#xff0c;因…

【LeetCode】692. 前K个高频单词

692. 前K个高频单词 描述示例解题思路及事项思路一思路二 描述 给定一个单词列表 words 和一个整数 k &#xff0c;返回前 k 个出现次数最多的单词。 返回的答案应该按单词出现频率由高到低排序。如果不同的单词有相同出现频率&#xff0c; 按字典顺序 排序 示例 示例1 输…

基于YOLOv7算法和Caltech数据集的高精度行人目标检测识别系统(PyTorch+Pyside6+YOLOv7)

摘要&#xff1a;基于YOLOv7算法和Caltech数据集的高精度行人目标检测系统可用于日常生活中检测与定位行人目标&#xff0c;此系统可完成对输入图片、视频、文件夹以及摄像头方式的目标检测与识别&#xff0c;同时本系统还支持检测结果可视化与导出。本系统采用YOLOv7目标检测算…

宁盾统一身份中台助力某集团公司实现统一身份认证和管理(如泛微OA、微软AD)

某集团公司是一家以钢铁为主业&#xff0c;涉足互联网金融、文化健康、智慧城市、现代物流等多领域的大型现代化企业集团。创业发展已有三十余年&#xff0c;拥有员工人数超万人&#xff0c;为了提升管理效率&#xff0c;同时实现国产化创新和数字化转型&#xff0c;公司采用了…

大一python题库及答案,大一python期末必考题

大家好&#xff0c;小编来为大家解答以下问题&#xff0c;大一python题库及答案&#xff0c;大一python期末必考题&#xff0c;今天让我们一起来看看吧&#xff01; 本篇文章给大家谈谈大一python题库及答案&#xff0c;以及大一python期末必考题&#xff0c;希望对各位有所帮助…

排序算法-插入/希尔排序

1 插入排序 1.1基本思想&#xff1a; 直接插入排序是一种简单的插入排序法&#xff0c;其基本思想是&#xff1a;把待排序的记录按其关键码值的大小逐个插入到一个已经排好序的有序序列中&#xff0c;直到所有的记录插入完为止&#xff0c;得到一个新的有序序列 。 1.2直…

Si24R03—低功耗 SOC 芯片(集成RISC-V内核+2.4GHz无线收发器)

Si24R03是一款高度集成的低功耗SOC芯片&#xff0c;其集成了基于RISC-V核的低功耗MCU和工作在2.4GHz ISM频段的无线收发器模块。 MCU模块具有低功耗、Low Pin Count、宽电压工作范围&#xff0c;集成了13/14/15/16位精度的ADC、LVD、UART、SPI、I2C、TIMER、WUP、IWDG、RTC等丰…

12月8日作业

题目&#xff1a; 使用手动连接&#xff0c;将登录框中的取消按钮使用qt4版本的连接到自定义的槽函数中&#xff0c;在自定义的槽函数中调用关闭函数 将登录按钮使用qt5版本的连接到自定义的槽函数中&#xff0c;在槽函数中判断ui界面上输入的账号是否为"admin"&am…

【超详细教程】FL Studio 21中文破解版,让你的音乐制作更出彩啦!

嗨小仙女们&#xff01;今天小助理要跟大家分享一个超赞的消息&#xff01;你们知道吗&#xff0c;FL Studio 21中文破解版终于来啦&#xff01; FL Studio 21是一款超级火爆的音乐制作软件&#xff0c;不仅功能强大&#xff0c;而且操作简单&#xff0c;适合各种水平的音乐制…

Python Django-allauth: 构建全面的用户身份验证系统

更多资料获取 &#x1f4da; 个人网站&#xff1a;ipengtao.com Django-allauth是一个功能强大的Django插件&#xff0c;旨在简化和定制Web应用程序中的用户身份验证和管理。本文将深入介绍Django-allauth的核心功能、基本用法以及实际应用场景&#xff0c;通过丰富的示例代码…