elasticsearch是如何进行搜索的?

news2024/12/26 11:50:57

请求与转发

  1. 协调节点确定参与搜索的目标索引,及其通过分片路由表确定分片
  2. 对索引所在分片中选择任意节点
  3. 并发请求多个分片的副本分片

副本选择策略

副本选择主要考虑

  • 分片健康状态:选择状态为 green 或 yellow 的副本
  • 节点负载情况:避免查询集中到少数节点
  • 响应时间与性能指标:选择最快的副本以降低响应时间

本地文档查询

  1. 分词:将查询条件进行分词和标准化

    例如,当查询条件是 “北京烤鸭很美味”,经过分词后可能会被分成 “北京”“烤鸭”“很”“美味” 等词项,这样便于后续依据这些词项去倒排索引中查找匹配的文档。

  2. segment并发查询

    1. 词项(term)查找:通过倒排索引快速定位匹配文档

      倒排索引保存了每个文档中字段的词项及其对应文档 ID 列表,比如要查找包含 “烤鸭” 这个词项的文档,就可以通过倒排索引迅速定位到有哪些文档 ID 对应的文档包含该词。

    2. 计算文档评分:根据查询条件计算文档的相关性得分(如 TF-IDF、BM25)

      以 TF - IDF 为例,如果文档中某个词出现的频率高(词频高),但在整个语料库(索引中的所有文档集合)中该词比较少见(逆文档频率高),那么这个词所在的文档相关性得分就会相对较高。例如,在一个美食相关的索引中,如果 “全聚德烤鸭” 这个词在某篇介绍全聚德的文档中多次出现,而在其他文档中很少出现,那这篇文档在以 “烤鸭” 为查询词时相关性得分就会比较高。

  3. 分片级别结果收集与排序

    分片会从它的所有 Segment 中收集匹配的文档,并按相关性排序

  4. 返回查询结果:返回

    • 匹配文档的元信息(文档ID、分数等)
    • 排序字段值
    • 聚合中间结果

Segment

segment是底层储存的基本单元,每个分片就是由多个segment组成。是一个不变的、独立的倒排索引,储存了文档的字段、倒排表、储存字段以及其他索引元数据

  • 倒排索引:保存每个文档中字段的词项及其对应文档ID列表,用于快速搜索
  • 储存字段:包含文档实际数据,用于返回结果
  • 词典:包含字段所有唯一的词和元数据(如词频、位置)
  • 评分信息:保存每个词与文档的评分数据,用于计算相关性得分
  • 删除标记:用于标记哪些文档已被删除等相关状态管理

文档内容获取

  1. 协调节点对所有分片返回的文档ID和分数进行合并、排序
  2. 根据文档ID再次请求分片获取文档完整内容
  3. 返回查询的文档内容给客户端

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2253064.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

生态环境一体化智慧监管平台

在数字化和智能化的浪潮中,生态环境保护与治理正迎来革命性的变化。生态环境一体化智慧监管平台的建设,不仅响应了这一趋势,而且为中国式现代化的生态治理提供了新的解决方案。本文将深度分析该平台的建设内容,探讨其在推动生态文…

基于PyTorch框架的线性回归实现指南

目录 ​编辑 1. 线性回归基础 2. PyTorch环境搭建 3. 数据准备 4. 定义线性回归模型 5. 损失函数和优化器 6. 训练模型 7. 评估模型 8. 结论 线性回归是统计学和机器学习中最基本的预测模型之一,它试图找到输入特征和输出结果之间的线性关系。在深度学习框…

重生之我在异世界学编程之C语言:深入指针篇(下)

大家好,这里是小编的博客频道 小编的博客:就爱学编程 很高兴在CSDN这个大家庭与大家相识,希望能在这里与大家共同进步,共同收获更好的自己!!! 目录 题集(1)指针笔试题1&a…

【HarmonyOS】鸿蒙应用地理位置获取,地理名称获取

【HarmonyOS】鸿蒙应用地理位置获取,地理名称获取 一、前言 首先要理解地理专有名词,当我们从系统获取地理位置,一般会拿到地理坐标,是一串数字,并不是地理位置名称。例如 116.2305,33.568。 这些数字坐…

SimpleLive1.7.5 |适配手机和TV,聚合抖B虎鱼四大直播

SimpleLive是一款聚合多个直播平台的应用程序,内置虎牙、斗鱼、哔哩哔哩及抖音直播。提供无广告体验,支持弹幕显示调整、夜间模式切换等功能。用户无需登录即可关注不同平台的主播并查看其直播状态。 大小:14M 下载地址: 百度网…

泷羽sec:shell作业

⼀、⽤Shell写⼀个计算器 #!/bin/bash read -p "请输入表达式(格式为 操作数1 运算符 操作数2,如 5 3):" expression a1$(echo $expression | awk {print $1}) a2$(echo $expression | awk {print $2}) a3$(echo …

ETL工具观察:ETLCloud与MDM是什么关系?

一、什么是ETLCloud ETLCloud数据中台是一款高时效的数据集成平台,专注于解决大数据量和高合规要求环境下的数据集成需求。 工具特点 1.离线与实时集成:支持离线数据集成(ETL、ELT)和变更数据捕获(CDC)实…

轻NAS系统CasaOS设备安装小雅超集结合内网穿透实现自由访问海量资源

文章目录 前言1. 本地部署AList2. AList挂载网盘3. 部署小雅alist3.1 Token获取3.2 部署小雅3.3 挂载小雅alist到AList中 4. Cpolar内网穿透安装5. 创建公网地址6. 配置固定公网地址 前言 本文主要介绍如何在安装了轻NAS系统CasaOS的小主机中部署小雅AList,并使用A…

MATLAB 最小二乘点云拟合球 (89)

MATLAB 最小二乘点云拟合球 (89) 一、算法介绍二、算法实现1.代码2.结果这是缘,亦是最美的相见 一、算法介绍 球面拟合算法是一种通过数学方法将一组三维点(通常在三维空间中分布)拟合到一个理想的球形表面上。这个过程通常涉及使用最小二乘法来最小化实际数据点与拟合的…

【分页查询】.NET开源 ORM 框架 SqlSugar 系列

💥 .NET开源 ORM 框架 SqlSugar 系列 🎉🎉🎉 【开篇】.NET开源 ORM 框架 SqlSugar 系列【入门必看】.NET开源 ORM 框架 SqlSugar 系列【实体配置】.NET开源 ORM 框架 SqlSugar 系列【Db First】.NET开源 ORM 框架 SqlSugar 系列…

WebStorm快捷键保持跟Idea一致

修改连续行局部多选 在WebStorm中同时按下ctrl alt s; 选择KeyMap 输入Column Selection Mode选择快捷键, 右键选择Add Mouse Shortcut 按下alt 鼠标左键 如果出现占用的情况,直接删除其他使用该快捷键的地方即可; 修改跨行局部多选 在…

好书推荐《LangChain大模型AI应用开发实践》

Hi大家好,我是码银~ 今天我要给大家带来一本特别的书籍推荐——《LangChain大模型AI应用开发实践》。如果你对人工智能、自然语言处理或者正在寻找一种高效构建AI应用的方法,那么这本书绝对不容错过。 这本书是由哔哩哔哩知名UP主【老陈打码】&#xff0…

python使用openpyxl处理excel

文章目录 一、写在前面1、安装openpyxl2、认识excel窗口 二、基本使用1、打开excel2、获取sheet表格3、获取sheet表格 尺寸4、获取单元格数据5、获取区域单元格数据6、sheet.iter_rows()方法7、修改单元格的值8、向表格中插入行数据9、实战:合并多个excel 三、获取E…

Spire.PDF for .NET【页面设置】演示:旋放大 PDF 边距而不改变页面大小

PDF 页边距是正文内容和页面边缘之间的空白。与 Word 不同,PDF 文档中的页边距不易修改,因为 Adobe 不提供任何功能供用户自由操作页边距。但是,您可以更改页面缩放比例(放大/压缩内容)或裁剪页面以获得合适的页边距。…

SpringMVC:参数传递之日期类型参数传递

环境准备和参数传递请见:SpringMVC参数传递环境准备 日期类型比较特殊,因为对于日期的格式有N多中输入方式,比如: 2088-08-182088/08/1808/18/2088… 针对这么多日期格式,SpringMVC该如何接收,它能很好的处理日期类…

驱动篇的开端

准备 在做之后的动作前,因为win7及其以上的版本默认是不支持DbgPrint(大家暂时理解为内核版的printf)的打印,所以,为了方便我们的调试,我们先要修改一下注册表 创建一个reg文件然后运行 Windows Registr…

Spring 那些事【2】SpringCache 简介及应用?

一、简介 SpringCache 是Spring 提供的一整套的缓存解决方案,他不是具体的缓存实现,它只提供了一整套的接口和代码规范、配置、注解等,用于整合各种缓存方案。 Spring 从 3.1 开始定义了 org.springframework.cache.Cache 和 org.springfra…

C语言:指针与数组

一、. 数组名的理解 int arr[5] { 0,1,2,3,4 }; int* p &arr[0]; 在之前我们知道要取一个数组的首元素地址就可以使用&arr[0],但其实数组名本身就是地址,而且是数组首元素的地址。在下图中我们就通过测试看出,结果确实如此。 可是…

2023年04-至今:宏图一号L2级系统几何校正影像(1、3、5m)

目录 简介 摘要 代码 网址推荐 机器学习 2023年04-至今:宏图一号L2级系统几何校正影像(1、3、5m) 简介 作为航天宏图“女娲星座”建设计划的首发卫星,航天宏图-1号可获取0.5米-5米的分辨率影像,具备高精度地形测…

挑战用React封装100个组件【009】

Hello,大家好,今天我挑战的组件是这样的! 欢迎大家把项目拉下来使用哦! 项目地址: https://github.com/hismeyy/react-component-100 今天还是用到了react-icons。这里就不过多介绍啦,大家可以在前面的挑战…