探索 Elasticsearch 8.X Terms Set 检索的应用与原理

news2024/12/28 5:59:42

1、Terms Set 检索简介

Terms Set查询是Elasticsearch中一种强大的查询类型,主要用于处理多值字段中的文档匹配。

其核心功能在于,它可以检索至少匹配一定数量给定词项的文档,其中匹配的数量可以是固定值,也可以是基于另一个字段的动态值。这种查询方式在处理具有多个属性、分类或标签的复杂数据时非常有用。

2、Terms Set 检索产生背景

Terms Set查询是Elasticsearch 6.1版本中引入的新功能。在6.1版本之前,Elasticsearch提供了多种查询类型,但在处理多值字段时,用户可能需要编写更复杂的查询或使用脚本来实现特定的匹配条件。

引入Terms Set查询的主要目的是为了简化这类场景下的查询处理。使用Terms Set查询,用户可以轻松地找到至少匹配一定数量给定词项的文档,同时支持基于其他字段或脚本动态计算匹配数量。这种查询方式在处理具有多个属性、分类或标签的复杂数据时非常有用。

3、Terms Set 检索应用场景

Terms Set查询在处理多值字段和特定匹配条件时非常有用。

以下是一些常见的应用场景:

标签系统

在具有标签系统的应用中,如博客、社交媒体或新闻网站,用户可能会为内容(如文章、帖子或产品)分配多个标签。使用Terms Set查询,可以找到至少具有一定数量给定标签的内容。这对于筛选和推荐功能非常有用。

搜索引擎

在搜索引擎中,用户可能会输入多个关键词来查找相关内容。使用Terms Set查询,可以根据文档与给定关键词的匹配程度对结果进行排序。例如,可以找到至少匹配用户输入关键词一半数量的文档。

电子商务

在电子商务应用中,产品可能具有多个属性,如颜色、尺寸或品牌。使用Terms Set查询,可以找到同时满足多个属性条件的产品。例如,可以找到至少具有2个指定颜色和3个指定尺寸的产品。

文档管理系统

在文档管理系统中,文档可能具有多个分类或标签。使用Terms Set查询,可以根据文档的分类或标签匹配程度进行筛选。例如,可以找到与给定分类或标签至少匹配一定数量的文档。

技能匹配

在招聘或求职应用中,候选人可能具有多个技能。使用Terms Set查询,可以找到至少具有一定数量给定技能的候选人。这对于筛选和推荐合适的候选人非常有用。总之,Terms Set查询在处理具有多个属性、分类或标签的复杂数据时非常有用。通过灵活地设置匹配数量条件,可以轻松地找到满足特定要求的文档。

4、Terms Set 检索的工作原理

Terms Set查询的基本语法如下:

{
  "query": {
    "terms_set": {
      "<字段名>": {
        "terms": ["<词项1>", "<词项2>", ...],
        "minimum_should_match_field": "<匹配数量字段名>",
        "minimum_should_match_script": {
          "source": "<脚本>"
        }
      }
    }
  }
}

Terms Set查询的工作原理可以分为以下几个步骤:

  • 指定要查询的字段名,这个字段通常是一个多值字段,如数组或集合。

  • 提供一组词项,用于在指定字段中进行匹配。

  • 设置匹配数量的条件,可以有两种方式(二者不可兼得,只能选择其中一个):

    • 通过 minimum_should_match_field 参数指定一个包含匹配数量的字段名。

    • 使用 minimum_should_match_script 参数提供一个脚本,该脚本可以动态计算匹配数量。

  • Elasticsearch会检索匹配给定词项数量要求的文档,并将它们作为查询结果返回。

5、Terms Set 检索应用示例

假设我们有一个电影数据库,每部电影都有多个标签。现在,我们希望找到同时具有一定数量给定标签的电影。

以下是一个使用Terms Set查询的例子:

5.1 数据准备

首先,创建一个名为movies的索引:

PUT movies
{
  "mappings": {
    "properties": {
      "title": {
        "type": "text"
      },
      "tags": {
        "type": "keyword"
      },
      "tags_count": {
        "type": "integer"
      }
    }
  }
}

然后,向索引中添加一些电影数据:

POST /movies/_bulk
{"index":{"_id":1}}
{"title":"电影1","tags":["喜剧","动作","科幻"],"tags_count":3}
{"index":{"_id":2}}
{"title":"电影2","tags":["喜剧","爱情","家庭"],"tags_count":3}
{"index":{"_id":3}}
{"title":"电影3","tags":["动作","科幻","喜剧"],"tags_count":3}

5.2 使用Terms Set 检索电影

现在,我们希望找到至少具有2个给定标签("喜剧"、"动作"和"科幻")的电影。我们可以使用Terms Set查询来实现这个需求:

基于minimum_should_match_field 检索

GET /movies/_search
{
  "query": {
    "terms_set": {
      "tags": {
        "terms": ["喜剧", "动作", "科幻"],
        "minimum_should_match_field": "tags_count"
      }
    }
  }
}

上述代码使用 terms_set 查询,在名为 movies 的索引中检索满足动态匹配数量要求的电影,匹配数量由 tags_count 字段决定,查询标签包括"喜剧"、"动作"和"科幻"。返回结果如下,文档1被召回。

e181be0036475f0d659f7d13a87435c2.png

再看如下的检索。

基于minimum_should_match_script 检索

GET /movies/_search
{
  "query": {
    "terms_set": {
      "tags": {
        "terms": [
          "喜剧",
          "动作",
          "科幻"
        ],
        "minimum_should_match_script": {
          "source": "doc['tags_count'].value * 0.7"
        }
      }
    }
  }
}

如上检索从名为 movies 的索引中检索至少匹配给定标签("喜剧"、"动作"和"科幻")总数70%数量要求的电影,匹配数量由自定义脚本doc['tags_count'].value * 0.7动态计算。“_id”为1和“_id”为3的两个文档被召回。

fe11f768e185511596fb2360dac9e507.png

6、小结

Terms Set查询是Elasticsearch中一种非常强大的查询方式,适用于处理具有多个属性、分类或标签的复杂数据。

通过灵活地设置匹配数量条件,我们可以轻松地找到满足特定要求的文档。

然而,需要注意的是,使用Terms Set查询时可能会遇到性能问题,特别是在处理大量数据时。为了提高查询性能,可以考虑对数据进行预处理,例如使用聚类算法将标签分组,然后根据分组查询文档。

推荐阅读

  1. 全网首发!从 0 到 1 Elasticsearch 8.X 通关视频

  2. 重磅 | 死磕 Elasticsearch 8.X 方法论认知清单

  3. 如何系统的学习 Elasticsearch ?

  4. 2023,做点事

30caa489725722e70ecc245df3ef22b0.jpeg

更短时间更快习得更多干货!

和全球 近2000+ Elastic 爱好者一起精进!

f9f1206dc1cf417cd9722cd49af6609c.gif

抢先一步学习进阶干货!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/508414.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

快速排序、希尔排序、归并排序、堆排序、插入排序、冒泡排序、选择排序(递归、非递归)C语言详解

1.排序的概念及其运用 1.1排序的概念 排序&#xff1a;所谓排序&#xff0c;就是使一串记录&#xff0c;按照其中的某个或某些关键字的大小&#xff0c;递增或递减的排列起来的操作。 稳定性&#xff1a;假定在待排序的记录序列中&#xff0c;存在多个具有相同的关键字的记录&…

postman 的 console 窗口,助力 http 请求错误时的问题排查

postman 是个很不错的 http 请求测试工具&#xff0c;有时我们使用它发送 http 请求&#xff0c;但是因为各种原因&#xff0c;导致请求失败&#xff0c;没有 response 返回&#xff0c;可能只有一个状态码&#xff0c;这让我们排查起来非常困难&#xff0c;比如下图所示&#…

GitLab + Jenkins 实现持续集成CI

1 软件版本 2 基础环境安装 2.1 docker 安装 yum install -y docker-ce-20.10.16 systemctl start docker && systemctl enable docker docker version 2.2 docker-compose 安装 curl -L https://get.daocloud.io/docker/compose/releases/download/1.29.2/docker-c…

虚拟化无法开启

虚拟化无法开启 开启虚拟机&#xff0c;突然出现以下报错&#xff1a; 此主机支持 Intel VT-x&#xff0c;但 Intel VT-x 处于禁用状态。 如果已在 BIOS/固件设置中禁用 Intel VT-x&#xff0c;或主机自更改此设置后从未重新启动&#xff0c;则 Intel VT-x 可能被禁用。 (1…

modbus 协议地址

modbus 仿真软件 modbus slave: 用作 modbus 服务器(也叫做modbus从站), 通常用于仿真PLC设备.modbus poll: 用作 modbus 客户端(也叫做modbus主站), 用于仿真上位机程序, 通常使用它在现场验证PLC设备的modbus通讯是否OK 理解 modbus 寻址 modbus 分4个数据区, 实际因为第4区可…

【Redis】Redis 高性能IO模型原理

前言 在面试的时候遇到Redis肯定会问&#xff0c;Redis单线程为什么那么快呀&#xff1f;你可以说下你对IO多路复用的机制嘛。但是仔细一想Redis真的是单线程在运行处理嘛&#xff0c;其实这个单线程主要指的Redis的网络IO和键值对读写是由一个线程来完成的&#xff0c;Redis在…

深度学习—卷积神经网络简单理论及实践

卷积神经网络 传统意义上的多层神经网络只有输入层、隐藏层和输出层。其中隐藏层的层数根据需要而定&#xff0c;没有明确的理论推导来说明到底多少层合适。 卷积神经网络CNN&#xff0c;在原来多层神经网络的基础上&#xff0c;加入了更加有效的特征学习部分&#xff0c;具…

Docker 安装 elasticsearch、kibana、ik

一、安装elasticsearch 1. 拉取 elasticsearch 镜像 docker pull elasticsearch:7.6.2 2. 创建 elasticsearch 容器 docker run --name elasticsearch7.6.2 -d -e ES_JAVA_OPTS"-Xms512m -Xmx512m" --net host -e "discovery.typesingle-node" -p 92…

SpringCloud踩坑系列:Mybatis的Mapper报错

500错误&#xff0c; 报错信息如下&#xff1a; org.apache.ibatis.binding.BindingException: Invalid bound statement (not found): org.cyf.serviceDriverUser.mapper.DriverUserMapper.select1 at org.apache.ibatis.binding.MapperMethod$SqlCommand.<init>(M…

判断两个时间段是否有交集

判断两个时间段是否有交集 前言&#xff1a;项目中遇到了类似会议室预约的时间段被占用&#xff0c;预约车辆时间段被占用等。 start&#xff1a;预约开始时间。 end&#xff1a;预约结束时间。 思考&#x1f914;&#xff1a; 那几种情况&#xff0c;可以正常预约&#x…

部署harbor私有镜像仓库

环境&#xff1a;所有机器都是centos7.4 一、部署harbor镜像仓库 机器IP&#xff1a;10.0.0.9 harbor服务器 1.下载harbor压缩包到服务器/root目录下[rootharbor~]#wget https://ghproxy.com/https://github.com/goharbor/harbor/releases/download/v2.5.3/harbor-offline-i…

【云计算•云原生】7.play with kubernetes在线实验环境

文章目录 1.play with kubernetes介绍2.搭建多节点nginx示例 1.play with kubernetes介绍 play with kubernetes网站链接 https://labs.play-with-k8s.com/每次登录提供4小时在线实验环境&#xff0c;最多可以开5个节点 2.搭建多节点nginx示例 点击左边的ADD NEW INSTANCE之…

网络路径下倾斜模型生产流程-倾斜生产

网络路径下倾斜模型生产流程-倾斜生产 全部控制点完成刺点后&#xff0c;检查无误后&#xff0c;点击Submit aerotriangulation。 选择使用控制点进行空三。 此时&#xff0c;将影像色彩平衡设置为Enabled&#xff0c;Position和Rotation设置为Compute。点击Submit开始空三。 …

知识管理工具,你选择语雀、Baklib、Notion还是FlowUs?

随着信息技术的不断发展&#xff0c;人们对于笔记软件的需求也越来越高。笔记软件可以帮助我们记录生活中的点滴&#xff0c;整理工作中的思路&#xff0c;提高工作效率和生活品质。然而&#xff0c;市面上的笔记软件种类繁多&#xff0c;选择一款适合自己使用的笔记软件也成为…

国产仪器 1763卫星帆板电源阵列模拟器

1763卫星帆板电源阵列模拟器用于解决卫星电源系统研制、航天器模拟供电系统测试等帆板电源阵列及二次供电设备的测量和分析&#xff0c;解决电源分系统功能验证、现场试验等无法使用真实的帆板电源等带来的难题&#xff0c;用于卫星或卫星测试系统以及太阳能逆变器中模拟太阳电…

【数据结构】Treap树堆

Treap树堆 Treap是一种平衡化二叉搜索树&#xff0c;在键值key满足二叉搜索树的前提下&#xff0c;增加了priority是满足堆序的条件。可以证明&#xff0c;如果priority的随机的&#xff0c;那么Treap的期望深度是 O ( l o g N ) O(logN) O(logN)&#xff0c;也就是说大部分操…

29从零开始学Java之如何正确创建Java里的类?

作者&#xff1a;孙玉昌&#xff0c;昵称【一一哥】&#xff0c;另外【壹壹哥】也是我哦 千锋教育高级教研员、CSDN博客专家、万粉博主、阿里云专家博主、掘金优质作者 前言 在上一篇文章中&#xff0c;壹哥给大家介绍了面向对象和面向过程的概念&#xff0c;并介绍了两者的区…

【MySQL】数据库的基本操作三:增删改查进阶

目录 &#x1f31f;一、数据库约束 &#x1f308;1、Null约束&#xff1a;创建表时&#xff0c;可以指定某列不能为空。 &#x1f308;2、Unique约束&#xff1a;唯一约束 &#x1f308;3、Default约束&#xff1a;默认值约束 &#x1f308;4、Primary Key&#xff1a;主键…

@RefreshScope 动态刷新机制

前言 一般在项目中&#xff0c;我们集成Nacos做统一配置管理&#xff0c;同时配置支持动态刷新&#xff0c;项目中都会用到RefreshScope注解&#xff0c;这里和大家一起看看RefreshScope实现动态刷新的原理。 Scope注解 RefreshScope 能实现动态刷新全仰仗着Scope 这个注解&…

Matlab进阶绘图第19期—三角气泡热图

三角气泡热图&#xff0c;顾名思义&#xff0c;就是仅保留气泡热图数据矩阵的上三角或下三角部分。 三角气泡热图简单明了&#xff0c;通过不同颜色、不同大小的圆形表示数据的大小&#xff0c;可以更加直观地对矩阵数据进行可视化表达。 本文使用自制的tribubbleheatmap小工…