二十五、DSL查询文档(全文检索查询、精确查询、地理查询、复合查询)

news2024/11/29 22:29:11

目录

一、全文检索查询

1、match查询

语法:

2、multi_match查询

语法:

3、match和mult_match的区别

二、精确查询

1、term查询:

语法:

2、range查询:(范围查询)

语法:

三、地理查询

1、geo_bounding_box查询:

语法:

2、geo_distance查询:

语法:

四、复合查询

1、fuction score:

(1)词条频率

(2)TF-IDF算法

(3)BM25算法

2、总结

五、Function Score Query

1、bool查询


一、全文检索查询

1、match查询

全文检索查询的一种,会对用户输入内容分词,然后去倒排索引库检索。

语法:
GET /indexName/_search
{
  "query": {
    "match": {
      "FIELD": "TEXT"
    }
  }
}

2、multi_match查询

 与match查询类似,只不过允许同时查询多个字段。

语法:
GET /indexName/_search
{
  "query": {
    "multi_match": {
      "query": "TEXT",
      "fields": ["FIELD1","FIELD2"]
    }
  }
}

3、match和mult_match的区别

  • match:根据一个字段查询
  • multi_match:根据多个字段查询,参与查询字段越多,查询性能越差

二、精确查询

精确查询一般是查找keyword、数值、日期、boolean等类型字段。所以不会对搜索条件分词

1、term查询:

根据词条精确匹配,一般搜索keyword类型、数值类型、布尔类型、日期类型字段

value中的值要确保和文档中的一模一样

语法:
GET /indexName/_search
{
  "query": {
    "term": {
      "FIELD": {
        "value": "VALUE"
      }
    }
  }
}

2、range查询:(范围查询)

根据数值范围查询,可以是数值、日期的范围

gte表示范围下限lte表示范围上限

gt表示大于而不等于lt表示小于而不等于;

语法:
GET /indexName/_search
{
  "query": {
    "range": {
      "FIELD": {
        "gte": 10,
        "lte": 20
      }
    }
  }
}

三、地理查询

1、geo_bounding_box查询:

查询geo_point值落在某个矩形范围的所有文档

语法:
GET /indexName/_search
{
  "query": {
    "geo_bounding_box":{
      "FIELD":{
        "top_left":{
          "lat":31.1,
          "lon":121.5
        },
        "bottom_right":{
          "lat":30.9,
          "lon":121.7
        }
      }
    }
  }
}

2、geo_distance查询:

查询到指定中心点小于某个距离值的所有文档

语法:
GET /indexName/_search
{
  "query": {
    "geo_distance":{
      "distance":"15km",
      "FIELD":"31.21.121.5"
    }
  }
}

四、复合查询

复合查询可以将其它简单查询组合起来,实现更复杂的搜索逻辑。

1、fuction score:

算分函数查询,可以控制文档相关性算分,控制文档排名。

(1)词条频率

例子:

“你你你你你,是是是,我我我我,的的,谁”,一共有15个字。

“你”的频率是 \frac{1}{3} ,”是“的频率是 \frac{1}{5} 。

频率越高,分数越高,搜索结果越靠前。

(2)TF-IDF算法

例子:

若我要搜索钢铁侠,在搜索结果中,一共有三个文档:

《你是钢铁侠》

《我是钢铁下》

《都是钢铁虾》

其中”钢铁“出现了三次,而文档个数是三次,它的逆文档频率就是 \log1 = 0,分数也就是0,

所以”钢铁“就不代表权重了,而”侠“字只出现了一次,所以它的权重大,此搜索结果也就靠前。

(3)BM25算法

BM25是一种用于信息检索的算法,它是基于词频和文档长度的统计方法,用于计算查询与文档之间的相关性得分。BM25算法是一种改进的TF-IDF算法,它考虑了文档长度的影响,以及对于一些高频词汇的惩罚。BM25算法的公式如下:

score(D,Q) = ∑(i=1 to n) IDF(qi) * ((k+1)*f(qi,D))/(f(qi,D)+k*(1-b+b*(|D|/avgdl)))

其中,D表示文档,Q表示查询,qi表示查询中的第i个词,f(qi,D)表示文档D中qi出现的频率,|D|表示文档D的长度,avgdl表示所有文档的平均长度,IDF(qi)表示逆文档频率,k和b是两个可调参数。

BM25算法的优点是可以处理长文档和短文档,而且对于高频词汇的处理也比较合理。但是,BM25算法的计算复杂度较高,需要对所有文档进行扫描和计算,因此在大规模数据集上的应用需要考虑效率问题。

2、总结

五、Function Score Query

1、bool查询

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1253761.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何看待 2023 OPPO 开发者大会?潘塔纳尔进展如何?AndesGPT 有哪些亮点?

在2023年11月16日举行的OPPO开发者大会(ODC23)上,OPPO带来了全新ColorOS 14、全新互联网服务生态以及健康服务进展,这些新动态中有许多值得关注的地方。 1、全新ColorOS 14: 效率提升:ColorOS 14通过一系列…

Linux常用命令——bg命令

在线Linux命令查询工具 bg 用于将作业放到后台运行 补充说明 bg命令用于将作业放到后台运行,使前台可以执行其他任务。该命令的运行效果与在指令后面添加符号&的效果是相同的,都是将其放到系统后台执行。 在Linux系统中执行某些操作时候&…

文件属性和路径

文件属性 我们先补充一个知识: 任何新建的文件刚开始都是在磁盘上的 假设我们在文件夹中新建一个1.txt文本文档,他的大小是0KB,但是不能说明这个文件不占用磁盘空间 文件由 文件属性文件内容 组成,这里只能说明文件内容是空 文件…

rvc使用教程入门

推荐配置: GPU显卡:RTX 3060 8G CPU:lntel十二代酷睿i5或锐龙7000系以上 内存:32G RAM以上 操作系统:Windows_10系统 or Windows_11系统 注:目前AMD和英特尔的显卡延迟会比较高,建议英伟达RTX20系以上显卡使用 使用之前建议关闭GPU加速计划 操作方式:开始菜单输入图形设…

Redis-Redis 高并发分布式锁

集群分布式场景高并发 1.negix配置代理和路由 高并发场景超卖问题 1.使用原生redis控制超卖时(若是商品,则可以将商品id作为锁对象),会遇到的问题 问题一:若直接使用:将获取锁的对象和设置的超时的时间分开,则不能控…

虚拟机可ping树莓派树莓派无法ping虚拟机 的解决办法

问题描述 在学习交叉编译的过程中,发现了树莓派无法ping通虚拟机的问题。所以我尝试了各种ping,发现: 虚拟机可以ping通树莓派和主机树莓派可以ping通主机主机可以ping通树莓派和虚拟机唯独树莓派没法ping通虚拟机 尝试各种方法后找到一种…

Docker Swarm总结+Jenkins安装配置与集成(4/4)

博主介绍:Java领域优质创作者,博客之星城市赛道TOP20、专注于前端流行技术框架、Java后端技术领域、项目实战运维以及GIS地理信息领域。 🍅文末获取源码下载地址🍅 👇🏻 精彩专栏推荐订阅👇🏻…

Python中zip()函数用法解析

打包 zip() 函数是 Python 中一个非常有用的函数,它用于将多个可迭代对象组合成一个元组序列,依次将来自每个可迭代对象的元素打包在一起。 基本的语法是 zip(iterable1, iterable2, ...),其中 iterable1, iterable2, ... 是要合并的可迭代…

python游戏开发pygame初步

文章目录 安装和示例移动物体优化 安装和示例 顾名思义,PyGame就是用来做游戏的Python库,提供了许多游戏开发功能,如图像处理、音频播放、事件处理、碰撞检测等等。从这个角度来说,pygame不仅是一个游戏库,同时也是一…

【代码】基于量子粒子群算法(QPSO)优化LSTM的风电、负荷等时间序列预测算法matlab

程序名称:基于量子粒子群算法(QPSO)优化LSTM的风电、负荷等时间序列预测算法 实现平台:matlab 代码简介:代码是基于QPSO-LSTM的负荷、光伏、风电等时间序列预测,MATLAB编写。包含LSTM(长短时记…

leetcode刷题详解四

25. K 个一组翻转链表 这道题本质上还是用的反转前n个链表的思想。 具体细节如下: 先调用一次函数,使用一个newHead接受返回值,这个是为了方便最后函数的返回。 调用reverseN这个函数的时候,要标记反转这段链表的前置节点和后置节…

基于C#实现三元组

我们知道矩阵是一个非常强大的数据结构,在动态规划以及各种图论算法上都有广泛的应用,当然矩阵有着不足的地方就是空间和时间复杂度都维持在 N2 上,比如 1w 个数字建立一个矩阵,在内存中会占用 1w*1w1 亿的类型空间,这…

Hadoop实践指南:揭秘HDFS元数据并解析案例

1.什么是元数据 元数据(Metadata),描述数据的数据(data about data)。 1.1 HDFS元数据 元数据:关于文件或目录的描述信息,如文件所在路径、文件名称、文件类型等等,这些信息称为文…

二进制数据转换成十六进制表示 binascii.hexlify()

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 二进制数据转换成十六进制表示 binascii.hexlify() 选择题 binascii.hexlify()参数的数据类型可以是? import binascii number 11 byte_data number.to_bytes() hex_data bin…

NX二次开发UF_CURVE_ask_conic_data 函数介绍

文章作者:里海 来源网站:https://blog.csdn.net/WangPaiFeiXingYuan UF_CURVE_ask_conic_data Defined in: uf_curve.h int UF_CURVE_ask_conic_data(tag_t conic, UF_CURVE_conic_t * conic_data ) overview 概述 Reads the data from the conic ar…

SSF-CNN:空间光谱融合的卷积光谱图像超分网络

SSF-CNN: SPATIAL AND SPECTRAL FUSION WITH CNN FOR HYPERSPECTRAL IMAGE SUPER-RESOLUTION 文章目录 SSF-CNN: SPATIAL AND SPECTRAL FUSION WITH CNN FOR HYPERSPECTRAL IMAGE SUPER-RESOLUTION简介解决问题网络框架代码实现训练部分运行结果 简介 ​ 本文提出了一种利用空…

基于STC12C5A60S2系列1T 8051单片读写掉电保存数据IIC总线器件24C02多字节并显示在液晶显示器LCD1602上应用

基于STC12C5A60S2系列1T 8051单片多字节读写掉电保存数据IIC总线器件24C02多字节并显示在液晶显示器LCD1602上应用 STC12C5A60S2系列1T 8051单片机管脚图STC12C5A60S2系列1T 8051单片机I/O口各种不同工作模式及配置STC12C5A60S2系列1T 8051单片机I/O口各种不同工作模式介绍IIC通…

pytorch分布式训练

1 基本概念 rank:进程号,在多进程上下文中,我们通常假定rank 0是第一个进程或者主进程,其它进程分别具有1,2,3不同rank号,这样总共具有4个进程 node:物理节点,可以是一个…

Java游戏之王者荣耀

首先创建类: 游戏运行结果如下: GameFrame类 所需图片: GameObject类 Turret类 所需图片: TurretBlue类 TurretRed类 Champion类 所需图片: 单个: move包: ChampionDaji类 所需图片: Minio…