Elasticsearch:解锁深度匹配,运用Elasticsearch DSL构建闪电般的高效模糊搜索体验

news2025/4/19 12:44:10

目录

Elasticsearch查询分类

叶子查询

全文检索查询

match查询

multi_match查询

精确查询

term查询

range查询

复杂查询

bool查询简单应用

bool查询实现排序和分页

bool查询实现高亮

场景分析

问题思考

解决方案

 search_after方案(推荐)

point in time方案

方案比较


Elasticsearch查询分类

Elasticsearch的查询可以分为两大类:

叶子查询(Leaf query clauses):一般是在特定的字段里查询特定值,属于简单查询,很少单独使用。

复合查询(Compound query clauses):以逻辑方式组合多个叶子查询或者更改叶子查询的行为方式。

叶子查询

全文检索查询

用分词器对用户输入搜索条件先分词,得到词条,然后再利用倒排索引搜索词条。

match查询

可以以一个分词,例如"GB"得到所有name中带“GB”的数据

# match查询所有
GET /items/_search
{
  "query": {
    "match": {
      "name": "GB"
    }
  }
}

实现效果如下:(总共有17条数据中name有“GB”)

multi_match查询

match类似的还有multi_match,区别在于可以同时对多个字段搜索,而且多个字段都要满足,语法示例:

GET /items/_search
{
  "query": {
    "multi_match": {
      "query": "电脑",
      "fields": ["name", "category"]
    }
  }
}

实现效果如下:(即name和brand都必须带“电脑”)

精确查询

不对用户输入搜索条件分词,根据字段内容精确值匹配。但只能查找keyword、数值、日期、boolean类型的字段。

term查询

# term查询所有
GET /items/_search
{
  "query": {
   "term": {
     "brand": {
       "value": "Dell"
     }
   }
  }
}

实现效果如下:(不在对搜索条件分词)

range查询


# range查询所有
GET /items/_search
{
  "query": {
   "range": {
     "price": {
       "gte": 10000,
       "lte": 200000
     }
   }
  }
}

实现效果如下:(对price范围查询: 10000<查询值<200000)

复杂查询

bool查询简单应用

GET /items/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "name": "GB"
          }
        }
      ],
      "filter": [
        {
          "term": {
            "brand": "Apple"
          }
        },
        {
          "range": {
            "price": {
              "gte": 100000,
              "lte": 2000000
            }
          }
        }
      ]
    }
  }
}

实现效果如下:(name中要有“GB”,brand中有“Apple”,且100000<查询值<2000000)

bool查询实现排序和分页


GET /items/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "price": {
        "order": "desc"
      },
      "sold": {
        "order": "asc"
      }
    }
  ],
  "from": 0,
  "size": 5
}

实现效果解读:查询所有数据,先以price降序排序,price相同,以sold升序排序,一页五条。

bool查询实现高亮

我们在百度,京东搜索时,关键字会变成红色,比较醒目,这叫高亮显示。

事实上elasticsearch已经提供了给搜索关键字加标签的语法,无需我们自己编码。

GET /items/_search
{
  "query": {
    "match": {
      "name": "手机"
    }
  },
  "highlight": {
    "fields": {
      "name": {}
    }
  }
}

实现效果如下:(给手机加上了<em>标签)

场景分析

问题思考

  1. elasticsearch的数据一般会采用分片存储,也就是把一个索引中的数据分成N份,存储到不同节点上。这种存储方式比较有利于数据扩展,但给分页带来了一些麻烦。
  2. 比如一个索引库中有100000条数据,分别存储到4个分片,每个分片25000条数据。现在每页查询10条,查询第99页。
  3. 实现思路来分析,肯定是将所有数据排序,找出前1000名,截取其中的990~1000的部分。但问题来了,我们如何才能找到所有数据中的前1000名呢?
  4. 要知道每一片的数据都不一样,第1片上的第900~1000,在另1个节点上并不一定依然是900~1000名。所以我们只能在每一个分片上都找出排名前1000的数据,然后汇总到一起,重新排序,才能找出整个索引库中真正的前1000名。

解决方案

 search_after方案(推荐)

search_after提供了一种基于上一次查询结果中最后一个文档的排序值来“继续”下一页的方式。这要求每次查询都必须带上前一次查询结果中的排序值,从而避免了深度分页的问题。

GET /_search
{
    "size": 10,
    "query": {
        "match": {
            "title": "elasticsearch"
        }
    },
    "search_after": [123456], // 上一个查询结果中的排序值
    "sort": [
        {"_id": "desc"}
    ]
}

point in time方案

从Elasticsearch 7.10版本开始引入的point in time功能,提供了比scroll(一个过时的方案,官方弃用)更灵活的方式来遍历结果集。与scroll不同,point in time不会自动关闭搜索上下文,而是需要显式地关闭它,这样可以在一定程度上减少资源消耗。

POST /my-index/_pit?keep_alive=1m
{}

GET /_search
{
    "size": 10,
    "query": {
        "match": {
            "title": "elasticsearch"
        }
    },
    "pit": {
        "id": "wmx3UmRBY1VnVUJqQlNvMzZQRVhBQT09LS1RY1hZRkRBPT0=",
        "keep_alive": "1m"
    },
    "sort": [{"_id": "asc"}]
}

方案比较

search_after 是解决前端深度分页的最佳选择,因为它效率高且易于实现。(简单)

point in time 提供了更细粒度的控制,特别适合长时间运行的数据处理任务,并有助于优化资源管理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2310023.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决局域网访问Dify却仅显示nginx页面的问题

为什么dify在本机可以正常访问&#xff0c;局域网通过ip访问却只看到欢迎使用nginx的提示&#xff0c;如果访问服务器ip/apps则直接提示404 Not Found。这是怎么回事该如何解决呢&#xff1f;文章中将一步步解决这些问题。 前言 之前在服务器部署了dify&#xff0c;也在服务器…

从小米汽车召回看智驾“命门”:智能化时代 — 时间就是安全

2025年1月&#xff0c;小米因车辆“授时同步异常”召回3万余辆小米SU7&#xff0c;成为其造车历程中的首个重大安全事件。 从小米SU7召回事件剖析&#xff0c;授时同步何以成为智能驾驶的命门&#xff1f; 2024年11月&#xff0c;多名车主反馈SU7标准版的智能泊车辅助功能出现…

OpenAI 最后一代非推理模型:OpenAI 发布 GPT-4.5预览版

最后一代非推理大模型 在人工智能领域&#xff0c;OpenAI 一直以其创新的技术和卓越的产品引领着行业的发展。近期&#xff0c;OpenAI 正式发布了 GPT-4.5 研究预览版。不仅如此&#xff0c;官方还宣称 GPT-4.5 被定位为 “最后一代非推理模型”&#xff0c;这一消息再次引起了…

ioday2----->标准io函数

思维导图&#xff1a; 练习&#xff1a; 1将当前的时间写入到time. txt的文件中&#xff0c;如果ctrlc退出之后&#xff0c;在再次执行支持断点续写 1.2022-04-26 19:10:20 2.2022-04-26 19:10:21 3.2022-04-26 19:10:22 //按下ctrlc停止&#xff0c;再次执行程序 4.2022…

C++第六节:stack和queue

本节目标&#xff1a; stack的介绍与使用queue的介绍与使用priority_queue的介绍与使用容器适配器模拟实现与结语 1 stack&#xff08;堆&#xff09;的介绍 stack是一种容器适配器&#xff0c;专门用在具有后进先出操作的上下文环境中&#xff0c;只能从容器的一端进行元素的插…

华宇“ITSS咨询服务标准助力政务服务区块链解决方案设计”案例成功入选ITSS典型应用案例库

近日&#xff0c;华宇“ITSS咨询服务标准助力政务服务区块链解决方案设计”案例经专家评审后成功入选由全国信息技术标准化技术委员会信息技术服务分技术委员会和中国电子工业标准化技术协会信息技术服务分会&#xff08;以下简称“ITSS分会”&#xff09;联合组织建立的“信息…

从0到1构建AI深度学习视频分析系统--基于YOLO 目标检测的动作序列检查系统:(0)系统设计与工具链说明

文章大纲 系统简介Version 1Version2环境摄像机数据流websocket 发送图像帧RTSP 视频流树莓派windows消息队列参考文献项目地址提示词系统简介 Version 1 Version2 环境 # 配置 conda 源 # 配置conda安装源 conda config --add channels https://mirrors.tuna.tsinghua.edu.c…

串口通讯基础

第1章 串口的发送和接收过程 1.1 串口接收过程 当上位机给串口发送(0x55)数据时&#xff0c;MCU的RX引脚接受到&#xff08;0x55&#xff09;数据&#xff0c;数据(0x55)首先进入移位寄存器。数据全部进入移位寄存器后&#xff0c;一次将&#xff08;0x55&#xff09;全部搬运…

WebP2P技术在嵌入式设备中的应用:EasyRTC音视频通话SDK如何实现高效通信?

在数字化时代&#xff0c;实时通信技术&#xff08;RTC&#xff09;与人工智能&#xff08;AI&#xff09;的融合正在重塑各个行业的交互方式。从在线教育到远程医疗&#xff0c;从社交娱乐到企业协作&#xff0c;RTC的应用场景不断拓展。然而&#xff0c;传统的RTC解决方案往往…

Windows 使用 Docker + WSL2 部署 Ollama(AMD 显卡推理)搭建手册‌

Windows 使用 Docker WSL2 部署 Ollama&#xff08;AMD 显卡推理&#xff09;搭建手册‌ ‌手册目标‌ 在 Windows 11 上通过 ‌Docker WSL2‌ 调用 AMD 显卡运行 Ollama 推理服务。 实现 ‌低延迟、高性能的本地模型推理‌&#xff0c;同时不影响 Windows 正常使用。 标记…

视频提取硬字幕,字幕擦除,字幕翻译工具推荐

背景 最近有一些视频短剧资源&#xff0c;要提取视频中的硬字幕&#xff0c;并把中文字幕翻译成为英文&#xff0c;找了好些工具&#xff0c;都不是特别的理想。偶然间发现个平台&#xff0c; 灵犀AI&#xff0c;平台上介绍是主打视频硬字幕提取&#xff0c;擦除&#xff0c;多…

table 拖拽移动

表格拖拽 Sortable.js中文网|配置 <!-- 教务处 --><template><div class"but"><el-button click"mergeAndPrintArrays()" type"primary">保存数据</el-button><el-button click"restoration()" t…

快速高效使用——阿里通义万相2.1的文生图、文生视频功能

前言&#xff1a;你仅需提供简单的几个提示词&#xff0c;即可快速高效帮你生成更为丰富的提示词并生成满意的图片或者视频。无论是为了创作艺术作品、设计商业宣传素材&#xff0c;还是满足个人兴趣爱好等&#xff0c;都能快速将脑海中的想法转化为逼真的图片或生动的视频。 目…

厦门大学第3弹:DeepSeek大模型及其企业应用实践(150页PPT,企业人员的大模型宝典)

本报告由厦门大学大数据教学团队制作&#xff0c;由林子雨副教授主讲&#xff0c;旨在为企业人员提供一份关于大模型技术及其应用的科普资料。从大模型的基本概念出发&#xff0c;详细介绍了其发展历程、分类方式以及与人工智能的关系&#xff0c;重点探讨了大模型在企业中的多…

Qt显示一个hello world

一、显示思路 思路一&#xff1a;通过图形化方式&#xff0c;界面上创建出一个控件显示。 思路二&#xff1a;通过编写C代码在界面上创建控件显示。 二、思路一实现 点开 Froms 的 widget.ui&#xff0c;拖拽 label 控件&#xff0c;显示 hello world 即可。 qmake 基于 .…

[LeetCode]day33 150.逆波兰式求表达值 + 239.滑动窗口最大值

逆波兰式求表达值 题目链接 题目描述 给你一个字符串数组 tokens &#xff0c;表示一个根据 逆波兰表示法 表示的算术表达式。 请你计算该表达式。返回一个表示表达式值的整数。 注意&#xff1a; 有效的算符为 ‘’、‘-’、‘*’ 和 ‘/’ 。 每个操作数&#xff08;运…

线代[9]|线性代数主要内容及其发展简史(任广千《线性代数的几何意义》的附录1)

文章目录 向量行列式矩阵线性方程组二次型 向量 向量又称为矢量&#xff0c;最初应用与物理学。很多物理量如力、速度、位移以及电场强度、磁感应强度等等都是向量。大约公元前350年前&#xff0c;古希腊著名学者亚里士多德就知道了力可以表示成向量&#xff0c;两个力的组合作…

FFmpeg-chapter3和chapter4-读取视频流(原理篇和实战篇)

ffmpeg网站&#xff1a;About FFmpeg 1 库介绍 &#xff08;1&#xff09;libavutil是一个包含简化编程函数的库&#xff0c;包括随机数生成器、数据结构、数学例程、核心多媒体实用程序等等。 &#xff08;2&#xff09;libavcodec是一个包含音频/视频编解码器的解码器和编…

音频3A测试--AEC(回声消除)测试

一、测试前期准备 一台录制电脑:用于作为近段音源和收集远端处理后的数据; 一台测试设备B:用于测试AEC的设备; 一个高保真音响:用于播放设备B的讲话; 一台播放电脑:用于模拟设备A讲话,和模拟设备B讲话; 一台音频处理器(调音台):用于录制和播放数据; 测试使用转接线若…

Unity插件-Mirror使用方法(一)Mirror介绍

目录 一、使用介绍 二、插件介绍 1、简述 2、核心功能与特点 基于组件的高层抽象 服务器-客户端架构 序列化与同步 可扩展性与灵活性 跨平台支持 社区与生态 3、典型应用场景 4、基本使用示例 安装 设置 NetworkManager 同步变量与 RPC 5、优缺点对比 6、为什…