ES入门三:全文搜索Api实践

news2024/10/5 16:31:58

ES是一个强大的搜索引擎,它提供了非常丰富的数据检索Api来满足用户各种各样的需求。我们今天要介绍的是部分非常基础的全文搜索Api,这部分Api我们会在日常使用中经常用到。

在我们查询一些文本内容的时候,一般不会做精确匹配,一来性能开销大,而来意义也不大
image.png
其实在我们写入数据的时候,系统会使用分词器把文本数据进行分词,并且统计每个词语出现的次数信息,

如上图,当我们检索文本数据的时候,会使用同样的分词器对检索内容进行分词,然后与文本内容匹配,根据统计信息给每个词语打分,最好根据公式算出相关性评分(内容相似度),并且返回相关性最高的TopN个文档返回用户

ES支持全文索引的Api主要有以下几个:

  • match:匹配查询可以处理全文本,精确字段(日前、数字等)
  • match phrase(短语):短语匹配会将检索内容分词,这些词语必须全部出现在检索内容中,并且顺序必须一致,默认情况下这些词必须连续
  • match phrase prefix:与match phrase类似,但最后一个词项会作为前缀,并且匹配这个词项开头的任何词语
  • multi match:通过multi match可以在多个字段上执行相同的查询语句

## match(匹配查询) 匹配查询可以处理全文本、精确字段(日期、数字等)
![image.png](https://img-blog.csdnimg.cn/img_convert/ba22499d015f17b53c13f3e2ea82d653.png)
返回结果:
![image.png](https://img-blog.csdnimg.cn/img_convert/302dc3003ab56bc3b6d91a6641b5e7ab.png)
从结果可以看到 匹配到了id为3和为1的文档,这两个文档都含有“linux”或者“architecture”

在进行全文本字段检索的时候,match Api提供了operator和minimum_should_match参数:

  • opeartor:参数可以为“or”或者“and”来控制检索词项间的关系,默认值为“or”。所以上面例子中,只要书名中含有“linux”或者“architecture”的文档都可以匹配上
  • minimum_should_match:可以指定词项的最少匹配个数,其实可以指定为具体某个数字,但因为我们无法预估索引内容的词项数量,一般将其设置为一个百分比

image.png
返回结果:
image.png

match phrase(短语匹配)

简单来说,短语匹配会检索内容进行分词,这些分词必须全部出现在检索内容中,并且顺序必须一致,默认情况下这些词都必须连续
image.png
返回结果:
image.png
如上实例,查询书名中带有“linux kernel”短语的书本。在默认情况下,当我们搜索书名中带有“linux architecture”的时候,是无法命中文档的,因为没有书本的名字带有这个短语。这个时候可以使用stop参数来指定词项间的距离差值,即两个词项中可以含有多少个其他不相关的词语,stop默认是0
image.png
这里的stop如果为0,是没有数据的, 如果为1,返回数据为:
image.png

match phrase prefix(短语前缀匹配)

match phrase prefix与match phrase类似,但最后一个词项会作为前缀,并且匹配这个词项开头的任何词语。可以使用max_expansions参数来控制最后一个词项的匹配数量,词参数默认值值为50
image.png
返回结果:
image.png
image.png
我们可以通过设置max_expansions来限制最后一个词项的匹配个数为2。也就是说max_expansions=2的话,每个分片最多匹配2个文档,如果有3个分片,最多返回6个匹配的文档

一般来说,match_phrase_prefix api可以实现比较粗糙的自动建议功能,但要实现自动建议的功能,可以使用 Suggest Api

multi match

multi-match Api构建在match查询的基础上,可以允许在多个字段上执行相同的查询
image.png
如上示例,fields参数是一个列表,里面的元素是需要查询的字段名称。Fields中的值既可以支持以通配符方式匹配文档字段,又可以支持提升字段的权重。如 "nam" 就是使用了通配符匹配的方式,其可以匹配到书名(name)字段。而 “intro^2” 就是对书本简介字段(intro)的相关性评分乘以 2,其他字段不变。*

multi-match Api还提供了多种类型来设置其执行方式:

  1. best_fields:默认的类型
  2. most_fields: 会执行match查询并且将所有与查询匹配的文档作为结果返回
  3. phrase: 在 fields 中的每个字段上均执行 match_phrase 查询,并将最佳匹配字段的评分作为结果返回
  4. phrase_prefix:在fields中的字段上均执行 match_phrase_prefix查询,并将最佳匹配字段的评分作为结果返回
  5. cross_fields:它将所有字段当成一个大字段,并在每个字段中查询每个词,例如当需要查询英文人名的时候,可以将first_name和last_name两个字段组合作为full_name来查询
  6. bool_prefix:在每个字段上创建一个match_bool_prefix查询,并且合并每个字段的评分作为评分结果

上述的几种类型,无法就是在设置算分的方式和匹配文档的方式不一样,可以使用“type”字段来指定这些类型,以best_fiels为例,其示例如下:
image.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1492191.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Docker Compose实战指南:让容器管理变得简单而强大

🧨个人主页:明明跟你说过 🚩欢迎🎗️点赞😸关注❤️分享 😸希望本文能够对您有所帮助,如果本文有不足之处,或您有更好的建议、见解,欢迎在评论区留下您的看法&#xff0c…

界面控件DevExpress WinForms 2024产品路线图预览(一)

DevExpress WinForm拥有180组件和UI库,能为Windows Forms平台创建具有影响力的业务解决方案。DevExpress WinForm能完美构建流畅、美观且易于使用的应用程序,无论是Office风格的界面,还是分析处理大批量的业务数据,它都能轻松胜任…

用Java在Spring Boot项目中,如何传递来传递一个对象(多个参数??

前言: 在前面我们已经了解到,Spring Boot项目中,可以传递一个参数,或者多个参数,但是,随着参数的增加,咱们总不能每增加一个参数,就重新写一段代码吧??这样显…

剑指offer》15--二进制中1的个数[C++]

1. 题目描述 输入一个整数&#xff0c;输出该数二进制表示中 1 的个数。 2. 解题思路 如果对负数直接右移&#xff0c;会导致最高位一直补1&#xff0c;最终变成0xFFFF死循环。 常规做法&#xff1a; 3. 代码实现 #include<iostream> #include<vector> using…

Express学习(一)

Express Express简介 什么是Express 官方给出的概念&#xff1a;Express是基于Node.js平台&#xff0c;快速、开放、极简的web开发框架。 通俗的理解&#xff1a;Express的作用和Node.js内置的http模块类似&#xff0c;是专门用来创建Web服务器的。进一步理解Express 不使用E…

GIS之深度学习10:运行Faster RCNN算法

&#xff08;未完成&#xff0c;待补充&#xff09; 获取Faster RCNN源码 &#xff08;开源的很多&#xff0c;论文里也有&#xff0c;在这里不多赘述&#xff09; 替换自己的数据集&#xff08;图片标签文件&#xff09; &#xff08;需要使用labeling生成标签文件&#xf…

Spring MVC 面试题及答案整理,最新面试题

Spring MVC中的DispatcherServlet是什么&#xff0c;它如何工作&#xff1f; DispatcherServlet是Spring MVC中的核心组件&#xff0c;负责协调不同的请求处理器。它的工作流程包括&#xff1a; 1、请求接收&#xff1a; 接收HTTP请求&#xff0c;并将其转发到相应的处理器。…

14:Hadoop数据分析|节点管理|搭建NFS网关服务

数据分析&#xff5c;节点管理&#xff5c;搭建NFS网关服务 HDFS文件系统的使用调用Hadoop集群分析数据Hadoop集群的维护增加修复节点删除节点 搭建NFS网关服务创建账户并授权在nfsgw上运行网关服务NFSGW测试 HDFS文件系统的使用 访问文件系统的两种方式&#xff1a; web页面…

Java Swing游戏开发学习8

内容来自RyiSnow视频讲解 上一节提到的bug&#xff0c;不知道有没有人发现&#xff1f; 在播放音乐和音效的时候使用的是同一个clip对象&#xff0c;播放背景音乐在前&#xff0c;后续播放音效&#xff0c;clip对象就被覆盖了&#xff0c;因此导致调用停止播放背景音乐的时候&a…

大厂大面积裁员,计算机专业还香吗?

对比大部分专业&#xff0c;计算机专业肯定还是香的啊 近些年&#xff0c;随着计算机行业薪资的提高&#xff0c;成为了热门专业。 还有不少人通过考研转向计算机类的专业&#xff0c;足见其还是很香的。 计算机类考研需要准备的内容很多&#xff0c;其中408是必考的科目&am…

PyTorch搭建LeNet神经网络

函数的参数 1、PyTorch Tensor的通道排序 [batch, channel, height, width] batch: 要处理的一批图像的个数 channel: 通道数&#xff08;一般是R G B 三个通道&#xff09; height: 图像的高度 width: 图像的宽度 2.Conv 2d 卷积层的参数 [in_channels, out_channels, ke…

从零开始学习PX4源码2(PX4姿态误差计算)

目录 文章目录 目录摘要1.源码1.1源码路径1.2源码程序1.3源码功能 2.源码分析 摘要 本节主要记录PX4姿态误差计算过程&#xff0c;欢迎批评指正。 1.源码 1.1源码路径 PX4-Autopilot/src/modules/mc_att_control/AttitudeControl/AttitudeControl.cpp1.2源码程序 matrix::…

JetBrains TeamCity 身份验证绕过漏洞(CVE-2024-27198)

免责声明&#xff1a;文章来源互联网收集整理&#xff0c;请勿利用文章内的相关技术从事非法测试&#xff0c;由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失&#xff0c;均由使用者本人负责&#xff0c;所产生的一切不良后果与文章作者无关。该…

从零开始在kitti数据集上训练yolov5

0.准备工作 0.1 在kitti官网下载kitti数据集 KITTI官网&#xff1a;https://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark2d 只需要下载图片和标签 解压后应该有一个training和和testing文件夹&#xff0c;training文件夹下应该有一个image_2文件夹和一个…

(vue)适合后台管理系统开发的前端框架

(vue)适合后台管理系统开发的前端框架 1、D2admin 开源地址&#xff1a;https://github.com/d2-projects/d2-admin 文档地址&#xff1a;https://d2.pub/zh/doc/d2-admin/ 效果预览&#xff1a;https://d2.pub/d2-admin/preview/#/index 开源协议&#xff1a;MIT 2、vue-el…

通过Apple Configurator 2导出iOS ipa包

通过Apple Configurator 2导出iOS ipa包 安装Apple Configurator 2 从Mac AppStore安装Apple Configurator 2 下载ipa 准备工作&#xff1a; 1、 电脑已经安装了Apple Configurator 2 2、 手机已经安装了目标软件 3、 Apple 账号已经下载过目标软件 打开后连接设备&#xf…

Node.js安装及环境配置详细教程

一、下载Node.js安装包 官网下载链接[点击跳转] 建议下载LTS版本&#xff08;本教程不适用于苹果电脑&#xff09; 二 、安装Node.js 2.1 下载好安装包后双击打开安装包&#xff0c;然后点击Next 2.2 勾选同意许可后点击Next 2.3 点击Change选择好安装路径后点击Next&#…

基于springboot实现在线考试系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现在线考试系统演示 摘要 时代在变化&#xff0c;科技技术以无法预测的速度在达到新的高度&#xff0c;并且被应用于社会生活的各个领域&#xff0c;随着生活的加快&#xff0c;也使很多潜在的点逐渐突显出来&#xff0c;社会对于人才的要总是非常迫切的&…

Claude 3 模型发布,压力来到OpenAI这边了~

Anthropic 发布了 Claude 3 系列&#xff0c;包含了三款模型 各具特色&#xff0c;旨在为用户提供更智能、更快速、更高效的选择&#xff0c;可以说是是迄今为止最快、最强大的人工模型&#xff01; Anthropic 一度是 OpenAI 最强力的竞争对手&#xff01; 随着 Claude3 的发…

优优嗨聚集团:美团代运营服务,商家增长的新引擎

在当今数字化时代&#xff0c;线上平台已成为商家拓展业务、提升品牌影响力的重要渠道。美团作为国内领先的本地生活服务平台&#xff0c;拥有庞大的用户群体和丰富的商业资源。然而&#xff0c;对于许多商家而言&#xff0c;如何在美团平台上进行有效运营&#xff0c;实现业务…