【Elasticsearch】 Intervals Query

news2025/2/1 0:16:58

Elasticsearch Intervals Query

返回基于匹配术语的顺序和接近度的文档。

intervals 查询使用 匹配规则,这些规则由一小组定义构建而成。这些规则然后应用于指定 field 中的术语。

这些定义生成覆盖文本中术语的最小间隔序列。这些间隔可以进一步由父源组合和过滤。

以下 intervals 查询返回包含 my favorite food(没有任何间隔),后跟 hot watercold porridge 的文档。查询应用于 my_text 字段。

这个查询将匹配 my_text 值为 my favorite food is cold porridge,但不匹配 when it's cold my favorite food is porridge

JSON复制

POST _search
{
  "query": {
    "intervals" : {
      "my_text" : {
        "all_of" : {
          "ordered" : true,
          "intervals" : [
            {
              "match" : {
                "query" : "my favorite food",
                "max_gaps" : 0,
                "ordered" : true
              }
            },
            {
              "any_of" : {
                "intervals" : [
                  { "match" : { "query" : "hot water" } },
                  { "match" : { "query" : "cold porridge" } }
                ]
              }
            }
          ]
        }
      }
    }
  }
}

Intervals 查询的顶级参数

<field>

(必需,规则对象)您希望搜索的字段。

此参数的值是一个规则对象,用于基于匹配术语、顺序和接近度匹配文档。

有效的规则包括:

  • match

  • prefix

  • wildcard

  • regexp

  • fuzzy

  • range

  • all_of

  • any_of

match 规则参数

match 规则匹配分析过的文本。

  • query

    • (必需,字符串)您希望在提供的 <field> 中找到的文本。

  • max_gaps

    • (可选,整数)匹配术语之间的最大位置数。超过此距离的术语不被视为匹配。默认值为 -1

    • 如果未指定或设置为 -1,则匹配没有宽度限制。如果设置为 0,术语必须相邻。

  • ordered

    • (可选,布尔值)如果为 true,匹配术语必须按指定顺序出现。默认值为 false

  • analyzer

    • (可选,字符串)用于分析 query 中术语的分析器。默认值为顶级 <field> 的分析器。

  • filter

    • (可选,间隔过滤规则对象)可选的间隔过滤器。

  • use_field

    • (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级 <field>。术语使用此字段的搜索分析器进行分析。这允许您跨多个字段进行搜索,就像它们是同一个字段一样;例如,您可以将相同的文本索引到词干和非词干字段中,并搜索词干标记附近的非词干标记。

prefix 规则参数

prefix 规则匹配以指定字符集开头的术语。此前缀可以扩展以匹配最多 indices.query.bool.max_clause_count 搜索设置术语。如果前缀匹配更多术语,Elasticsearch 将返回错误。您可以在字段映射中使用 index-prefixes 选项来避免此限制。

  • prefix

    • (必需,字符串)您希望在顶级 <field> 中找到的术语的起始字符。

  • analyzer

    • (可选,字符串)用于规范化 prefix 的分析器。默认值为顶级 <field> 的分析器。

  • use_field

    • (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级 <field>

wildcard 规则参数

wildcard 规则使用通配符模式匹配术语。此模式可以扩展以匹配最多 indices.query.bool.max_clause_count 搜索设置术语。如果模式匹配更多术语,Elasticsearch 将返回错误。

  • pattern

    • (必需,字符串)用于查找匹配术语的通配符模式。

    • 此参数支持两个通配符操作符:

      • ?,匹配任何单个字符

      • *,匹配零个或多个字符,包括空字符

  • analyzer

    • (可选,字符串)用于规范化 pattern 的分析器。默认值为顶级 <field> 的分析器。

  • use_field

    • (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级 <field>

regexp 规则参数

regexp 规则使用正则表达式模式匹配术语。此模式可以扩展以匹配最多 indices.query.bool.max_clause_count 搜索设置术语。如果模式匹配更多术语,Elasticsearch 将返回错误。

  • pattern

    • (必需,字符串)用于查找匹配术语的正则表达式模式。

    • 避免使用通配符模式,如 .*.*?+。这可能会增加找到匹配术语所需的迭代次数,并降低搜索性能。

  • analyzer

    • (可选,字符串)用于规范化 pattern 的分析器。默认值为顶级 <field> 的分析器。

  • use_field

    • (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级 <field>

fuzzy 规则参数

fuzzy 规则匹配与提供的术语相似的术语,编辑距离由 Fuzziness 定义。如果模糊扩展匹配的术语超过 indices.query.bool.max_clause_count 搜索设置术语,Elasticsearch 将返回错误。

  • term

    • (必需,字符串)要匹配的术语。

  • prefix_length

    • (可选,整数)创建扩展时保持不变的起始字符数。默认值为 0

  • transpositions

    • (可选,布尔值)指示编辑是否包括两个相邻字符的换位(ab → ba)。默认值为 true

  • fuzziness

    • (可选,字符串)允许匹配的最大编辑距离。参见 Fuzziness 以获取有效值和更多信息。默认值为 auto

  • analyzer

    • (可选,字符串)用于规范化 term 的分析器。默认值为顶级 <field> 的分析器。

  • use_field

    • (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级 <field>

range 规则参数

range 规则匹配包含在提供范围内的术语。此范围可以扩展以匹配最多 indices.query.bool.max_clause_count 搜索设置术语。如果范围匹配更多术语,Elasticsearch 将返回错误。

  • gt

    • (可选,字符串)大于:匹配大于提供术语的术语。

  • gte

    • (可选,字符串)大于或等于:匹配大于或等于提供术语的术语。

  • lt

    • (可选,字符串)小于:匹配小于提供术语的术语。

  • lte

    • (可选,字符串)小于或等于:匹配小于或等于提供术语的术语。

all_of 规则参数

all_of 规则返回跨多个其他规则组合的匹配项。

  • intervals

    • (必需,规则对象数组)要组合的规则数组。所有规则必须在文档中生成匹配项,整体源才能匹配。

  • max_gaps

    • (可选,整数)匹配术语之间的最大位置数。规则生成的间隔超过此距离的不被视为匹配。默认值为 -1

  • ordered

    • (可选,布尔值)如果为 true,规则生成的间隔应按指定顺序出现。默认值为 false

  • filter

    • (可选,间隔过滤规则对象)用于过滤返回间隔的规则。

any_of 规则参数

any_of 规则返回其子规则生成的任何间隔。

  • intervals

    • (必需,规则对象数组)要匹配的规则数组。

  • filter

    • (可选,间隔过滤规则对象)用于过滤返回间隔的规则。

filter 规则参数

filter 规则基于查询返回间隔。有关示例,请参见过滤器示例。

  • after

    • (可选,查询对象)返回跟随 filter 规则间隔的间隔的查询。

  • before

    • (可选,查询对象)返回在 filter 规则间隔之前发生的间隔的查询。

  • contained_by

    • (可选,查询对象)返回被 filter 规则间隔包含的间隔的查询。

  • containing

    • (可选,查询对象)返回包含 filter 规则间隔的间隔的查询。

  • not_contained_by

    • (可选,查询对象)返回不被 filter 规则间隔包含的间隔的查询。

  • not_containing

    • (可选,查询对象)返回不包含 filter 规则间隔的间隔的查询。

  • not_overlapping

    • (可选,查询对象)返回不与 filter 规则间隔重叠的间隔的查询。

  • overlapping

    • (可选,查询对象)返回与 filter 规则间隔重叠的间隔的查询。

  • script

    • (可选,脚本对象)返回匹配文档的脚本。此脚本必须返回布尔值 truefalse

示例

以下查询包含一个 filter 规则。它返回包含 hotporridge 且两者之间不超过 10 个位置的文档,且两者之间没有 salty

JSON复制

POST _search
{
  "query": {
    "intervals" : {
      "my_text" : {
        "match" : {
          "query" : "hot porridge",
          "max_gaps" : 10,
          "filter" : {
            "not_containing" : {
              "match" : {
                "query" : "salty"
              }
            }
          }
        }
      }
    }
  }
}

脚本过滤器

您可以使用脚本根据间隔的起始位置、结束位置和内部间隔数过滤间隔。以下 filter 脚本使用 interval 变量及其 startendgaps 方法:

JSON复制

POST _search
{
  "query": {
    "intervals" : {
      "my_text" : {
        "match" : {
          "query" : "hot porridge",
          "filter" : {
            "script" : {
              "source" : "interval.start > 10 && interval.end < 20 && interval.gaps == 0"
            }
          }
        }
      }
    }
  }
}

注意事项

  • 最小化间隔

    • intervals 查询始终最小化间隔,以确保查询可以在线性时间内运行。这有时会导致意外结果,特别是在使用 max_gaps 限制或过滤器时。例如,考虑以下查询,搜索 hot porridge 中包含的 salty

    JSON复制

    POST _search
    {
      "query": {
        "intervals" : {
          "my_text" : {
            "match" : {
              "query" : "salty",
              "filter" : {
                "contained_by" : {
                  "match" : {
                    "query" : "hot porridge"
                  }
                }
              }
            }
          }
        }
      }
    }
    • 此查询不会匹配包含 hot porridge is salty porridge 的文档,因为 hot porridge 的匹配查询返回的间隔仅覆盖此文档中的前两个术语,这些术语不与覆盖 salty 的间隔重叠。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2289099.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

YOLOv8源码修改(4)- 实现YOLOv8模型剪枝(任意YOLO模型的简单剪枝)

目录 前言 1. 需修改的源码文件 1.1添加C2f_v2模块 1.2 修改模型读取方式 1.3 增加 L1 正则约束化训练 1.4 在tensorboard上增加BN层权重和偏置参数分布的可视化 1.5 增加剪枝处理文件 2. 工程目录结构 3. 源码文件修改 3.1 添加C2f_v2模块和模型读取 3.2 添加L1正则…

后端token校验流程

获取用户信息 前端中只有 await userStore.getInfo() 表示从后端获取数据 在页面中找到info对应的url地址&#xff0c;在IDEA中查找 这里是getInfo函数的声明&#xff0c;我们要找到这个函数的使用&#xff0c;所以点getInfo() Override public JSONObject getInfo() {JSO…

Ansible自动化运维实战--通过role远程部署nginx并配置(8/8)

文章目录 1、准备工作2、创建角色结构3、编写任务4、准备配置文件&#xff08;金甲模板&#xff09;5、编写变量6、编写处理程序7、编写剧本8、执行剧本Playbook9、验证-游览器访问每台主机的nginx页面 在 Ansible 中&#xff0c;使用角色&#xff08;Role&#xff09;来远程部…

C语言自定义数据类型详解(二)——结构体类型(下)

书接上回&#xff0c;前面我们已经给大家介绍了如何去声明和创建一个结构体&#xff0c;如何初始化结构体变量等这些关于结构体的基础知识。下面我们将继续给大家介绍和结构体有关的知识&#xff1a; 今天的主题是&#xff1a;结构体大小的计算并简单了解一下位段的相关知识。…

Maven的单元测试

1. 单元测试的基本概念 单元测试&#xff08;Unit Testing&#xff09; 是一种软件测试方法&#xff0c;专注于测试程序中的最小可测试单元——通常是单个类或方法。通过单元测试&#xff0c;可以确保每个模块按预期工作&#xff0c;从而提高代码的质量和可靠性。 2.安装和配…

Jetson Xavier NX 安装 CUDA 支持的 PyTorch 指南

本指南将帮助开发者完成在 Jetson Xavier NX 上安装 CUDA 支持的 PyTorch。 安装方法 在 Jetson 上安装 Pytorch 只有两种方法。 一种是直接安装他人已经编译好的 PyTorch 轮子&#xff1b;一种是自己从头开始开始构建 PyTorch 轮子并且安装。 使用轮子安装 可以从我的 Gi…

GWO优化GRNN回归预测matlab

灰狼优化算法&#xff08;Grey Wolf Optimizer&#xff0c;简称 GWO&#xff09;&#xff0c;是一种群智能优化算法&#xff0c;由澳大利亚格里菲斯大学的 Mirjalii 等人于 2014 年提出。该算法的设计灵感源自灰狼群体的捕食行为&#xff0c;核心思想在于模拟灰狼社会的结构与行…

Unity 粒子特效在UI中使用裁剪效果

1.使用Sprite Mask 首先建立一个粒子特效在UI中显示 新建一个在场景下新建一个空物体&#xff0c;添加Sprite Mask组件&#xff0c;将其的Layer设置为UI相机渲染的UI层&#xff0c; 并将其添加到Canvas子物体中&#xff0c;调整好大小&#xff0c;并选择合适的Sprite&#xff…

【大厂AI实践】OPPO:大规模知识图谱及其在小布助手中的应用

导读&#xff1a;OPPO知识图谱是OPPO数智工程系统小布助手团队主导、多团队协作建设的自研大规模通用知识图谱&#xff0c;目前已达到数亿实体和数十亿三元组的规模&#xff0c;主要落地在小布助手知识问答、电商搜索等场景。 本文主要分享OPPO知识图谱建设过程中算法相关的技…

C# 添加、替换、提取、或删除Excel中的图片

在Excel中插入与数据相关的图片&#xff0c;能将关键数据或信息以更直观的方式呈现出来&#xff0c;使文档更加美观。此外&#xff0c;对于已有图片&#xff0c;你有事可能需要更新图片以确保信息的准确性&#xff0c;或者将Excel 中的图片单独保存&#xff0c;用于资料归档、备…

赛博算卦之周易六十四卦JAVA实现:六幺算尽天下事,梅花化解天下苦。

佬们过年好呀~新年第一篇博客让我们来场赛博算命吧&#xff01; 更多文章&#xff1a;个人主页 系列文章&#xff1a;JAVA专栏 欢迎各位大佬来访哦~互三必回&#xff01;&#xff01;&#xff01; 文章目录 #一、文化背景概述1.文化起源2.起卦步骤 #二、卦象解读#三、just do i…

iperf 测 TCP 和 UDP 网络吞吐量

注&#xff1a;本文为 “iperf 测网络吞吐量” 相关文章合辑。 未整理去重。 使用 iperf3 监测网络吞吐量 Tom 王 2019-12-21 22:23:52 一 iperf3 介绍 (1.1) iperf3 是一个网络带宽测试工具&#xff0c;iperf3 可以擦拭 TCP 和 UDP 带宽质量。iperf3 可以测量最大 TCP 带宽…

内外网文件摆渡企业常见应用场景和对应方案

在如今的企业环境中&#xff0c;内外网文件摆渡的需求越来越常见&#xff0c;也变得越来越重要。随着信息化的不断推进&#xff0c;企业内部和外部之间的数据交换越来越频繁&#xff0c;如何安全、高效地进行文件传输成了一个关键问题。今天&#xff0c;咱就来聊聊内外网文件摆…

论文阅读(十五):DNA甲基化水平分析的潜变量模型

1.论文链接&#xff1a;Latent Variable Models for Analyzing DNA Methylation 摘要&#xff1a; 脱氧核糖核酸&#xff08;DNA&#xff09;甲基化与细胞分化密切相关。例如&#xff0c;已经观察到肿瘤细胞中的DNA甲基化编码关于肿瘤的表型信息。因此&#xff0c;通过研究DNA…

Android View 的事件分发机制解析

前言&#xff1a;当一个事件发生时&#xff08;例如触摸屏幕&#xff09;&#xff0c;事件会从根View&#xff08;通常是Activity的布局中的最顶层View&#xff09;开始&#xff0c;通过一个特定的路径传递到具体的View&#xff0c;这个过程涉及到三个关键的阶段&#xff1a;事…

内容检索(2025.01.30)

随着创作数量的增加&#xff0c;博客文章所涉及的内容越来越庞杂&#xff0c;为了更为方便地阅读&#xff0c;后续更新发布的文章将陆续在此汇总并附上原文链接&#xff0c;感兴趣的小伙伴们可持续关注文章发布动态&#xff01; 博客域名&#xff1a;http://my-signal.blog.cs…

【25美赛A题-F题全题目解析】2025年美国大学生数学建模竞赛(MCM/ICM)解题思路|完整代码论文集合

我是Tina表姐&#xff0c;毕业于中国人民大学&#xff0c;对数学建模的热爱让我在这一领域深耕多年。我的建模思路已经帮助了百余位学习者和参赛者在数学建模的道路上取得了显著的进步和成就。现在&#xff0c;我将这份宝贵的经验和知识凝练成一份全面的解题思路与代码论文集合…

新鲜速递:DeepSeek-R1开源大模型本地部署实战—Ollama + MaxKB 搭建RAG检索增强生成应用

在AI技术快速发展的今天&#xff0c;开源大模型的本地化部署正在成为开发者们的热门实践方向。最火的莫过于吊打OpenAI过亿成本的纯国产DeepSeek开源大模型&#xff0c;就在刚刚&#xff0c;凭一己之力让英伟达大跌18%&#xff0c;纳斯达克大跌3.7%&#xff0c;足足是给中国AI产…

H264原始码流格式分析

1.H264码流结构组成 H.264裸码流&#xff08;Raw Bitstream&#xff09;数据主要由一系列的NALU&#xff08;网络抽象层单元&#xff09;组成。每个NALU包含一个NAL头和一个RBSP&#xff08;原始字节序列载荷&#xff09;。 1.1 H.264码流层次 H.264码流的结构可以分为两个层…

【PyTorch】6.张量形状操作:在深度学习的 “魔方” 里,玩转张量形状

目录 1. reshape 函数的用法 2. transpose 和 permute 函数的使用 4. squeeze 和 unsqueeze 函数的用法 5. 小节 个人主页&#xff1a;Icomi 专栏地址&#xff1a;PyTorch入门 在深度学习蓬勃发展的当下&#xff0c;PyTorch 是不可或缺的工具。它作为强大的深度学习框架&am…