详细描述一下Elasticsearch搜索的过程?

news2025/1/17 4:06:58

大家好,我是锋哥。今天分享关于【详细描述一下Elasticsearch搜索的过程?】面试题。希望对大家有帮助;

详细描述一下Elasticsearch搜索的过程?

Elasticsearch 的搜索过程是其核心功能之一,允许用户对存储在 Elasticsearch 中的文档进行快速高效的查询。搜索过程涉及多个阶段,从接收查询请求到返回搜索结果,每个阶段都经过精细的设计,以实现高性能和高效的查询。下面将详细描述 Elasticsearch 搜索的各个步骤。

1. 接收查询请求

  • 用户发起搜索请求,通常是通过 HTTP 协议发送的 RESTful 请求。查询请求可以是一个简单的匹配查询,也可以是复杂的多条件查询。
  • 查询请求一般如下:
    GET /my_index/_search
    {
      "query": {
        "match": {
          "title": "Elasticsearch Basics"
        }
      }
    }
    
     上述请求表示在 my_index 索引中查找 title 字段中包含 "Elasticsearch Basics" 的文档。

2. 路由和分片选择

  • 与索引文档时类似,Elasticsearch 需要确定查询请求将要作用的具体分片。这个过程由路由机制完成。
  • Elasticsearch 默认使用文档的 _id 字段通过哈希算法来路由查询到具体的分片。但在查询时,通常是基于索引和查询内容来选择分片。
  • 如果查询是跨多个分片的,Elasticsearch 会决定哪些分片需要参与查询。例如,如果你查询一个索引中的所有文档,所有的分片都会参与查询。

3. 选择搜索的分片

  • 如果请求没有指定特定的分片,Elasticsearch 会选择所有相关的分片。每个索引都有多个分片,分片分布在不同的节点上。
  • 搜索请求会被发送到所有包含该索引的分片。每个分片会在本地执行搜索。

4. 分片级查询(Shard-Level Search)

  • 每个参与查询的分片都会单独处理查询请求。Elasticsearch 中每个分片都是一个独立的 Lucene 索引,因此搜索过程在每个分片内部是独立进行的。

  • 在分片级别,Elasticsearch 会执行以下操作:

    • 解析查询:首先,Elasticsearch 会解析查询请求,决定使用何种查询类型,如 matchtermrange 等。
    • 分析查询:如果查询中包含文本字段(如 match 查询),则会使用与索引时相同的分析器对查询进行分析,将查询文本分解为一组词条。
    • 倒排索引查询:然后,查询通过倒排索引(Inverted Index)来检索相关文档。倒排索引将每个词条映射到包含该词条的文档 ID 列表。
  • 分片级查询的过程通常是高效的,因为每个分片的搜索操作都在本地进行,避免了跨节点的数据传输。

5. 聚合与排序(如果有的话)

  • 如果查询中包含了聚合(如 aggregations)或者排序(sort)要求,那么 Elasticsearch 会在分片级别先对结果进行排序和聚合。
  • 对于聚合,Elasticsearch 会计算分片内部的聚合结果。例如,如果你使用 terms 聚合,它会按词条分组统计每个分片内出现的频次。
  • 排序通常在分片内进行,但如果查询跨多个分片且涉及排序,Elasticsearch 需要在所有分片的搜索结果返回后进行排序合并。

6. 从分片返回文档结果

  • 每个分片完成查询后,都会返回一组相关文档的结果,以及相关的排序和聚合数据。
  • 返回的数据通常包括文档的 _id、得分(score)、字段值、以及可能的聚合结果。
  • 返回的文档中,可能还包含 _source 字段,它表示文档的原始 JSON 数据。

7. 跨分片聚合与合并

  • 如果查询跨多个分片,Elasticsearch 会在所有分片完成查询后合并这些结果:
    • 聚合合并:如果查询中包含聚合操作,Elasticsearch 会在各个分片级别计算局部聚合结果,然后将它们合并成全局聚合结果。
    • 排序合并:对于带排序的查询,Elasticsearch 会对所有分片的查询结果进行合并,选择前 N 个相关的文档,然后返回给用户。
    • 去重:在某些情况下,Elasticsearch 会去除重复的文档,确保每个文档只出现一次。

8. 计算相关性得分(Relevance Score)

  • Elasticsearch 会为每个文档计算一个得分,表示该文档与查询的相关性。得分是基于 TF-IDF(词频-逆文档频率)和 BM25 等算法计算的。
  • 得分越高,文档与查询的相关性越强。
  • 例如,在 match 查询中,文档的得分会根据其包含查询词的频率、查询词的权重、以及文档中其他词的频率来进行计算。
  • 计算得分的过程会考虑词条在文档中的出现频率、文档的长度以及查询词在整个索引中的稀有程度。

9. 合并搜索结果并返回

  • Elasticsearch 收集所有分片的查询结果后,会根据查询要求对这些结果进行合并(如排序、去重、聚合等)。
  • 最终,Elasticsearch 会将文档的 _id、得分、_source 数据等作为结果返回给用户,通常以 JSON 格式。

响应格式通常如下:

{
  "took": 1,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 2,
      "relation": "eq"
    },
    "max_score": 1.0,
    "hits": [
      {
        "_index": "my_index",
        "_id": "1",
        "_score": 1.0,
        "_source": {
          "title": "Elasticsearch Basics",
          "content": "Elasticsearch is a distributed search engine."
        }
      },
      {
        "_index": "my_index",
        "_id": "2",
        "_score": 0.8,
        "_source": {
          "title": "Advanced Elasticsearch",
          "content": "Elasticsearch supports advanced search features."
        }
      }
    ]
  }
}

10. 缓存机制

  • 为了加速后续的查询,Elasticsearch 会使用缓存机制,缓存一些常见的查询和过滤操作。特别是 查询缓存 和 字段数据缓存(fielddata)可以显著提高查询性能。
  • 对于重复的查询,Elasticsearch 会直接从缓存中返回结果,而无需重新执行完整的搜索过程。

总结

Elasticsearch 搜索过程的步骤如下:

  1. 接收查询请求:解析查询请求,确定目标索引和查询条件。
  2. 路由和选择分片:根据查询条件决定哪些分片需要参与查询。
  3. 分片级查询:在每个分片上执行查询,分析查询并通过倒排索引检索相关文档。
  4. 聚合和排序:在分片级别处理聚合和排序操作。
  5. 合并分片结果:合并多个分片返回的结果,包括排序、聚合和去重等操作。
  6. 计算相关性得分:根据查询结果计算每个文档的相关性得分。
  7. 返回最终结果:返回查询结果,包括文档内容、得分和聚合数据。

通过这些步骤,Elasticsearch 能够在大规模数据集上快速进行分布式搜索,提供高效的查询性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2243858.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FPGA理论基础1一一一简单的硬件知识

FPGA理论基础一一一简单的硬件知识 文章目录 FPGA理论基础一一一简单的硬件知识一、BANK1.1、BANK01.2、BANK141.3、MGTBANK二、上电时序三 认识命名规则 一、BANK 7系列的FPGA中,BANK分为HPBank、HRBank、HDBank;但并不是一个FPGA中会同时包含HP/HR/HDBank HP(Hi…

【Mysql】函数---控制流函数

1、if逻辑判断语句 格式 解释 if(expr,v1,v2) 如果表达式expr成立,返回结果v1,否则返回v2 ifnull(v…

【Java企业级开发技术】【MyBatis入门程序】上机实验

Java企业级开发技术-MyBatis入门程序-上机实验 1 实验目的 掌握Mybatis环境配置熟悉Mybatis基本开发流程能够开发简单的入门程序 2 实验内容 创建1个学生(student)表,包括学号(num),姓名(name),年龄(age),通过Mybatis框架实现如下数据库访…

python之sklearn--鸢尾花数据集之数据降维(PCA主成分分析)

python之sklearn–鸢尾花数据集之数据降维(PCA主成分分析) sklearn库:Scikit - learn(sklearn)是一个用于机器学习的开源 Python 库。它建立在 NumPy、SciPy 和 matplotlib 等其他科学计算库之上,为机器学习的常见任务提供了简单…

已解决-idea创建Maven项目卡死,一动不动

先说原因: idea创建maven项目时要从中央仓库下载archetype-catalog.xml(文件较大,14.8M)导致卡住 所以一种解决方案是,手动将这个文件下载到本地的仓库目录下即可解决 文件下载地址: 链接:https://pan.baidu.com/s/1…

vulhub之log4j

Apache Log4j Server 反序列化命令执行漏洞(CVE-2017-5645) 漏洞简介 Apache Log4j是一个用于Java的日志记录库,其支持启动远程日志服务器。Apache Log4j 2.8.2之前的2.x版本中存在安全漏洞。攻击者可利用该漏洞执行任意代码。 Apache Log4j 在应用程序中添加日志记录最…

基于Springboot+Vue的农产品销售系统 (含源码数据库)

1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能 这个系…

Ascend C算子性能优化实用技巧05——API使用优化

Ascend C是CANN针对算子开发场景推出的编程语言,原生支持C和C标准规范,兼具开发效率和运行性能。使用Ascend C,开发者可以基于昇腾AI硬件,高效的实现自定义的创新算法。 目前已经有越来越多的开发者使用Ascend C,我们…

矩阵论在深度学习中的应用

摘要: 本文深入探讨了矩阵论在深度学习领域的广泛应用。首先介绍了深度学习中数据表示和模型结构与矩阵的紧密联系,接着详细阐述了矩阵论在神经网络训练算法优化、卷积神经网络(CNN)、循环神经网络(RNN)及其…

表格的选择弹窗,选中后返显到表格中

项目场景: 提示:这里简述项目相关背景: 表格的下拉框可以直接显示选项,那如果选择框不是下拉的,而是弹窗,那么在表格中如何返显呢? 问题描述 如上图所示,点击表格中的选择&#xf…

HCIP --OSI七层参考模型回顾、TCP/UDP协议复习

目录 一、OSI 二、重要的三个协议报头格式 名词注解 MTU 封装 解封装 PDU ARP DNS TCP/IP与OSI的区别 三、数据包转发过程 四、获取目标ip地址方式 五、获取目标mac地址方式 六、交换机的工作原理 七、TCP/UDP TCP(Transmission Control Protocol&a…

【深度学习|目标跟踪】DeepSort 详解

DeepSort详解 1、Sort回顾2、DeepSort的状态向量3、DeepSort的外观特征4、DeepSort的track状态5、DeepSort的代价矩阵以及门控矩阵6、DeepSort的级联匹配 1、Sort回顾 查看这篇博客 2、DeepSort的状态向量 Sort中的卡尔曼滤波使用的目标的状态向量是一个7维的向量&#xff0c…

无人机在森林中的应用!

一、森林资源调查 无人机可以利用遥感技术快速获取所需区域高精度的空间遥感信息,对森林图斑进行精确区划。相较于传统手段,无人机调查具有低成本、高效率、高时效的特点,尤其在地理环境条件不好的区域,调查人员无法或难以到达的…

【WPF】Prism学习(七)

Prism Dependency Injection 1.注册类型(Registering Types) 1.1. Prism中的服务生命周期: Transient(瞬态):每次请求服务或类型时,都会获得一个新的实例。Singleton(单例&#xf…

.NET6 WebApi第1讲:VSCode开发.NET项目、区别.NET5框架【两个框架启动流程详解】

一、使用VSCode开发.NET项目 1、创建文件夹,使用VSCode打开 2、安装扩展工具 1>C# 2>安装NuGet包管理工具,外部dll包依靠它来加载 法1》:NuGet Gallery,注意要启动科学的工具 法2》NuGet Package Manager GUl&#xff0c…

【Homework】【7】Learning resources for DQ Robotics in MATLAB

阻尼伪逆使系统在任务空间奇异性方面具有一定的鲁棒性 阻尼伪逆 阻尼伪逆是SVD(奇异值分解)逆矩阵的一种有趣替代方法,它使系统在任务空间奇异性方面具有一定的鲁棒性。其主要思想是对任意(可能为奇异的)矩阵 B ∈ …

新一代API开发工具,让API调试更快 更简单

新一代API开发工具 代理调试 请求测试一站式解决方案 Reqable Fiddler Charles Postman, 让API调试更快 🚀 更简单 👌 直接上下载地址 根据系统,下载对应的版本即可 https://reqable.com/zh-CN/download/

详细解析STM32 GPIO引脚的8种模式

目录 一、输入浮空(Floating Input):GPIO引脚不连接任何上拉或下拉电阻,处于高阻态 1.浮空输入的定义 2.浮空输入的特点 3.浮空输入的应用场景 4.浮空输入的缺点 5.典型配置方式 6.注意事项 二、输入上拉(Inpu…

对于 unix 系统管理员来说,了解 VIM 有多重要?

对于 Unix 系统管理员来说,掌握 VIM 的重要性不言而喻。VIM 作为 Unix 系统中默认的文本编辑器,几乎在所有 Unix 系统中都预装,这使得系统管理员必须熟练使用它来编辑配置文件、编写脚本等。 VIM 强大的功能和灵活性,使得它能够满…

containerd使用

一、ctr命令 1.查看命名空间 ctr namespace ls 2.查看特定命名空间镜像 ctr -n k8s.io images ls 3.查看特定命名空间容器 ctr -n k8s.io container ls 注意:该项与docker不同,container查看容器是所有的容器无论有没有启动,只要创建了的…