Elasticsearch中的基本全文搜索和过滤

news2025/4/18 2:47:54

Elasticsearch中的基本全文搜索和过滤

知识点参考: https://www.elastic.co/guide/en/elasticsearch/reference/current/full-text-filter-tutorial.html#full-text-filter-tutorial-range-query


1. 索引设计与映射

  • 多字段类型(Multi-Fields)

    • 文本字段默认映射为text​(全文搜索)和keyword​(精确过滤)子字段。
    • 示例:title​字段同时支持全文搜索(title​)和精确过滤(title.keyword​)。
    • 作用:兼顾灵活搜索与高效过滤。
  • 字段类型选择

    • text​:用于全文检索(如标题、描述)。
    • keyword​:用于精确匹配或聚合(如分类、标签)。
    • date​:日期类型(指定格式yyyy-MM-dd​)。
    • float​:浮点数(如评分rating​)。
  • 分析器(Analyzer)

    • 默认使用standard​分析器(分词、转小写、去停用词)。
    • 影响索引和搜索时的文本处理逻辑。

2. 全文搜索技术

  • **match​查询**:

    • 基础全文搜索,默认OR​逻辑匹配分词后的词项。

    • 支持参数:

      • operator​:切换AND​逻辑(需所有词项匹配)。
      • minimum_should_match​:控制最少匹配词项数(如2/3​)。
  • **multi_match​查询**:

    • 跨多字段搜索(如同时搜索title​、description​、tags​)。
    • 字段加权:通过^​符号提升字段权重(如title^3​)。
    • 示例:优先匹配标题中的关键词。

3. 精确过滤方法

  • **term​查询**:

    • 精确匹配未经分析的字段值(必须使用.keyword​子字段)。
    • 示例:{"term": {"category.keyword": "Breakfast"}}​。
  • **range​查询**:

    • 数值或日期范围过滤。
    • 参数:gte​(≥)、lte​(≤)、gt​(>)、lt​(<)。
    • 示例:过滤评分≥4.5的食谱。

4. 组合查询(Bool Query)

  • 逻辑子句

    • must​:所有条件必须满足(贡献相关性得分)。
    • should​:至少满足一个条件(提升得分)。
    • must_not​:排除匹配条件(不贡献得分)。
    • filter​:过滤条件(不计算得分,性能优化)。
  • 典型场景

    • 必须包含vegetarian​标签 + 评分≥4.5 + 非甜点类别。
    • 示例:复合过滤与搜索条件组合。

5. 性能优化与最佳实践

  • 过滤优于查询

    • 使用filter​上下文避免相关性计算,提升性能。
  • 字段设计规范

    • ignore_above​:限制keyword​字段长度(默认256字符)。
    • 避免长文本使用keyword​类型(节省存储)。
  • 分析器选择

    • 根据业务需求定制(如中文需ik​分词器)。

6. 高级应用方向

  • 相关性调优

    • 使用function_score​自定义评分公式。
    • 字段长度归一化(norms​参数)。
  • 近似匹配

    • match_phrase​(短语匹配)。
    • fuzzy​查询(容错拼写)。
  • 聚合分析(Aggregations)

    • 统计分类分布、评分分布等。

关键命令速查

# 创建索引
PUT /cooking_blog

# 批量导入数据
POST /cooking_blog/_bulk?refresh=wait_for

# 基本全文搜索
GET /_search { "match": { "description": "fluffy pancakes" } }

# 多字段加权搜索
GET /_search { "multi_match": { "query": "curry", "fields": ["title^3", "description"] } }

# 复合布尔查询
GET /_search { "bool": { "must": [...], "should": [...] } }

掌握这些知识点可快速实现 精准搜索+高效过滤 的复杂需求,适用于电商、内容平台、日志分析等场景.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2332445.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ISP--Demosaicking

文章目录 前言算法解释简单的线性插值代码实现 色差法和色比法基于方向加权的方法RB缺失的G通道的插值RB缺失的BR的插值G缺失的BR的插值代码实现 基于边缘检测的方法计算缺失的G计算缺失的RB值/计算缺失的G值 前言 人眼之所以有能感受到自然界的颜色&#xff0c;是因为人眼的感…

国标GB28181协议EasyCVR视频融合平台:5G时代远程监控赋能通信基站安全管理

一、背景介绍 随着移动通信行业的迅速发展&#xff0c;无人值守的通信基站建设规模不断扩大。这些基站大多建于偏远地区&#xff0c;周边人迹罕至、交通不便&#xff0c;给日常的维护带来了极大挑战。其中&#xff0c;位于空旷地带的基站设备&#xff0c;如空调、蓄电池等&…

模拟-与-现实协同训练:基于视觉机器人操控的简单方法

25年3月来自 UT Austin、Nvidia、UC Berkeley 和纽约大学的论文“Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation”。 大型现实世界机器人数据集在训练通才机器人模型方面拥有巨大潜力&#xff0c;但扩展现实世界人类数据收集既耗时又耗资…

WRS-PHM电机智能安康系统:为浙江某橡胶厂构筑坚实的生产防线

以行业工况为背景 一、顾客工厂的背景 浙江某橡胶厂以电机为中心生产设备必须连续平稳运行。但由于缺乏有效的故障预警体系&#xff0c;电机故障就像潜伏着的“不定时炸弹”,不但不时地造成生产流程的中断&#xff0c;也使对生产进行管理异常艰难&#xff0c;对持续安全生产提…

将 CrewAI 与 Elasticsearch 结合使用

作者&#xff1a;来自 Elastic Jeffrey Rengifo 学习如何使用 CrewAI 为你的代理团队创建一个 Elasticsearch 代理&#xff0c;并执行市场调研任务。 CrewAI 是一个用于编排代理的框架&#xff0c;它通过角色扮演的方式让多个代理协同完成复杂任务。 如果你想了解更多关于代理…

Spring 的 IoC 和 DI 详解:从零开始理解与实践

Spring 的 IoC和 DI 详解&#xff1a;从零开始理解与实践 一、IoC&#xff08;控制反转&#xff09; 1、什么是 IoC&#xff1f; IoC 是一种设计思想&#xff0c;它的核心是将对象的创建和管理权从开发者手中转移到外部容器&#xff08;如 Spring 容器&#xff09;。通过这种…

ZYNQ笔记(四):AXI GPIO

版本&#xff1a;Vivado2020.2&#xff08;Vitis&#xff09; 任务&#xff1a;使用 AXI GPIO IP 核实现按键 KEY 控制 LED 亮灭&#xff08;两个都在PL端&#xff09; 一、介绍 AXI GPIO (Advanced eXtensible Interface General Purpose Input/Output) 是 Xilinx 提供的一个可…

实操(环境变量)Linux

环境变量概念 我们用语言写的文件编好后变成了程序&#xff0c;./ 运行的时候他就会变成一个进程被操作系统调度并运行&#xff0c;运行完毕进程相关资源被释放&#xff0c;因为它是一个bash的子进程&#xff0c;所以它退出之后进入僵尸状态&#xff0c;bash回收他的退出结果&…

Word / WPS 页面顶部标题 段前间距 失效 / 不起作用 / 不显示,标题紧贴页眉 问题及解决

问题描述&#xff1a; 在 Word 或者 WPS 里面&#xff0c;如果不是新的一节&#xff0c;而是位于新的一页首行时&#xff0c;不管怎么设置段前间距&#xff0c;始终是失效的&#xff0c;实际段前间距一直是零。 解决方案&#xff1a; 查询了很多方案均无法解决问题&#xff…

Linux自行实现的一个Shell(15)

文章目录 前言一、头文件和全局变量头文件全局变量 二、辅助函数获取用户名获取主机名获取当前工作目录获取最后一级目录名生成命令行提示符打印命令行提示符 三、命令处理获取用户输入解析命令行执行外部命令 四、内建命令添加环境变量检查和执行内建命令 五、初始化初始化环境…

在 Q3D 中提取汇流条电感

汇流条排简介和设计注意事项 汇流条排是用于配电的金属导体&#xff0c;在许多应用中与传统布线相比具有设计优势。在设计母线排时&#xff0c;必须考虑几个重要的因素&#xff1a; 低电感&#xff1a;高频开关内容会导致无功损耗&#xff0c;从而降低效率电容&#xff1a;管…

MySQL:事务的理解

一、CURD不加控制&#xff0c;会有什么问题 &#xff08;1&#xff09;因为&#xff0c;MySQL里面存的是数据&#xff0c;所以很有可能会被多个客户访问&#xff0c;所以mysqld可能一次会接受到多个关于CURD的请求。&#xff08;2&#xff09;且mysql内部是采用多线程来完成数…

python 基础:句子缩写

n int(input()) for _ in range(n):words input().split()result ""for word in words:result word[0].upper()print(result)知识点讲解 input()函数 用于从标准输入&#xff08;通常是键盘&#xff09;读取用户输入的内容。它返回的是字符串类型。例如在代码中…

Ruoyi-vue plus 5.2.2 flowble 结束节点异常错误

因业务要求&#xff0c; 我在结束节点的结束事件中&#xff0c;制作了一个归档的事件&#xff0c;来执行一个业务。 始终都会报错&#xff0c; 错误信息 ${archivTemplateListener} did not resolve to an implementation of interface org.flowable.engine.delegate.Execution…

Sublime Text使用教程(用Sublime Text编写C语言程序)

Sublime Text 是一款当下非常流行的文本编辑器&#xff0c;其功能强大&#xff08;提供有众多的插件&#xff09;、界面简洁、还支持跨平台使用&#xff08;包括 Mac OS X、Linux 和 Windows&#xff09;。 在程序员眼中&#xff0c;Sublime Text 不仅仅是一个文本编辑器&…

【1】k8s集群管理系列--包应用管理器之helm

一、helm概述 Helm核心是模板&#xff0c;即模板化K8s YAML文件。 通过模板实现Chart高效复用&#xff0c;当部署多个应用时&#xff0c;可以将差异化的字段进行模板化&#xff0c;在部署时使用-f或 者–set动态覆盖默认值&#xff0c;从而适配多个应用 helm工作流程&#xf…

Mysql表的操作(2)

1.去重 select distinct 列名 from 表名 2.查询时排序 select 列名 from 表名 order by 列名 asc/desc; 不影响数据库里面的数据 错误样例 &#xff1a; 但结果却有点出乎意料了~为什么会失败呢&#xff1f; 其实这是因为书写的形式不对&#xff0c;如果带了引号&#xff0c;…

智能物联网网关策略部署

实训背景 某智慧工厂需部署物联网网关&#xff0c;实现以下工业级安全管控需求&#xff1a; 设备准入控制&#xff1a;仅允许注册MAC地址的传感器接入&#xff08;白名单&#xff1a;AA:BB:CC:DD:EE:FF&#xff09;。协议合规性&#xff1a;禁止非Modbus TCP&#xff08;端口…

Java学习总结-线程池

线程池是什么&#xff1f; 线程池就是一个可以复用线程的技术。 假若不用线程池的问题&#xff1a;创建新线程开销很大&#xff0c;不能来一个任务就就创建一个新线程。 如何创建线程池对象&#xff1f; 方法一&#xff1a;使用ExecutorService的实现类ThreadPoolExecutor创…

基于CNN-BiLSTM-GRU的深度Q网络(Deep Q-Network,DQN)求解移动机器人路径规划,MATLAB代码

一、深度Q网络&#xff08;Deep Q-Network&#xff0c;DQN&#xff09;介绍 1、背景与动机 深度Q网络&#xff08;DQN&#xff09;是深度强化学习领域的里程碑算法&#xff0c;由DeepMind于2013年提出。它首次在 Atari 2600 游戏上实现了超越人类的表现&#xff0c;解决了传统…