【开源社区】Elasticsearch(ES)中空值字段 null_value 及通过exists查找非空文档

news2024/9/22 9:43:29

文章目录

  • 0、声明
  • 1、问题描述
  • 2、问题剖析
    • 2.1 NULL或者空值类型有哪些
    • 2.2 案例讲解:尝试检索值为 `null` 的字段
    • 2.3 解决思路
  • 3、使用 null_value 的诸多坑(避免生产事故)
    • 3.1 null_value 替换的是索引,并不会直接替换源数据
    • 3.2 不支持 Text 类型
    • 3.2 null_value 的值必须可以隐式类型转换为当前字段类型
    • 3.4 BUG
  • 4、如何查询字段值非空或者不为 null 的文档?

0、声明

本文所述问题和解决方案基于 Elasticsearch 7.17.3 版本,具体问题可能会随着版本的变化有所不同,如有疑问请联系作者。

1、问题描述

null 值是个麻烦的问题,在业务系统中经常有如下场景:

  • 检索值为 null'' 的文档(数据记录)
  • 判断某字段是否存在

本文主要解决在 ES 中如何处理空只或者 NULL 值,如检索值为空的文档,如何存储空值或 NULL 值等。

2、问题剖析

2.1 NULL或者空值类型有哪些

  • "NULL"(字符串,不区分大小写)
  • null
  • ' '(空白符)
  • ''(空值)

2.2 案例讲解:尝试检索值为 null 的字段

首先添加一个名为 null_value_index 的测试索引,将上述类型的值分别创建一条数据出来,然后查看检索结果,如下所示:

PUT null_value_index
{
  "mappings": {
    "properties": {
      "null_field": {
        "type": "keyword"
      }
    }
  }
}
 
PUT null_value_index/_bulk
{"index":{"_id":1}}
{"null_field":null}
{"index":{"_id":2}}
{"null_field":"null"}
{"index":{"_id":3}}
{"null_field":""}
{"index":{"_id":4}}
{"null_field":" "}
{"index":{"_id":5}}
{"null_field":[]}
 
GET null_value_index/_search

1、尝试检索值为null的文档:

POST null_value_index/_search
{
  "query": {
    "term": {
      "null_field": null
    }
  }
}

执行结果如下:

{
  "error" : {
    "root_cause" : [
      {
        "type" : "illegal_argument_exception",
        "reason" : "field name is null or empty"
      }
    ],
    "type" : "illegal_argument_exception",
    "reason" : "field name is null or empty"
  },
  "status" : 400
}

发现不支持直接搜索值为 null 的字段,搜索值为 [] 也是一样

2、那么尝试搜索其他几种空值呢?

POST null_value_index/_search
{
  "query": {
    "terms": {
      "null_field": [
        "",
        " "
      ]
    }
  }
}

执行结果:

{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 0,
      "relation" : "eq"
    },
    "max_score" : null,
    "hits" : [ ]
  }
}

结果:没有匹配任何文档,说明不论是检索''还是' '都检索不到任何文档
分析:在全文检索中,空值本来就会被作为停用词处理,在分词过程中就会被“干掉”,即便我们使用 term 做精准查询,不会被分词,空值也不会被创建索引,因此无法匹配到任何结果,这一点不同于关系数据库。
3、那么搜索"null"值呢?


POST null_value_index/_search
{
  "query": {
    "term": {
      "null_field": "null"
    }
  }
}

查询结果:

{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 0.2876821,
    "hits" : [
      {
        "_index" : "null_value_index",
        "_type" : "_doc",
        "_id" : "2",
        "_score" : 0.2876821,
        "_source" : {
          "null_field" : "null"
        }
      }
    ]
  }
}

为什么搜索字符串就有值了呢?很简单,这就是一个普通的搜索,跟空值没有任何关系,这本质上跟搜索 "test_value"没有任何区别。

2.3 解决思路

那么这有什么意义呢?

其实这给我们提供了一个思路,如果我们想搜索空值字段,只需要在数据写入的时候,把空值字段给他一个默认值就行了

ES 为我们提供了一个 null_value 参数,在定义字段的时候,可以声明在遇到 null 值或其他空值的时候,将其替换为指定的值,

注意null_value 替换的是分词后的结果,源数据并不受影响,这一点后面会详细讲述

代码示例:

DELETE null_value_index
PUT null_value_index
{
 "mappings": {
   "properties": {
     "null_field": {
       "type": "keyword",
       "null_value": "NULL"
     }
   }
 }
}
PUT null_value_index/_bulk
{"index":{"_id":1}}
{"null_field":null}
{"index":{"_id":2}}
{"null_field":"NULL"}
{"index":{"_id":3}}
{"null_field":""}
{"index":{"_id":4}}
{"null_field":" "}
{"index":{"_id":5}}
{"null_field":[]}

上述代码在创建 Mapping 的时候,显式的声明 null_value 参数,其值为当 null_field 字段遇到null值的时候的替换值,也就是说 null_value 的值配置什么,这个字段原本的null值就会被替换成什么。

因此上述例子中 _id:1 的数据的值就会被替换,而其他数据不受到影响,因此当执行以下查询时,返回结果应该为 _id: 1_id: 2 两条结果。


GET null_value_index/_search
{
  "query": {
    "term": {
      "null_field": "NULL"
    }
  }
}

执行结果:

"hits" : [
  {
    "_index" : "null_value_index",
    "_type" : "_doc",
    "_id" : "1",
    "_score" : 0.6931471,
    "_source" : {
      "null_field" : null
    }
  },
  {
    "_index" : "null_value_index",
    "_type" : "_doc",
    "_id" : "2",
    "_score" : 0.6931471,
    "_source" : {
      "null_field" : "NULL"
    }
  }
]

3、使用 null_value 的诸多坑(避免生产事故)

3.1 null_value 替换的是索引,并不会直接替换源数据

解释:当 null_value 生效发生替换行为时,其替换的并不是源数据(_source_data)而是索引数据,简单来说,就是当你执行 GET null_value_index/_search 时,是看不到任何源数据的变化的。

示例

测试数据:

DELETE null_value_index
PUT null_value_index
{
  "mappings": {
    "properties": {
      "null_field": {
        "type": "keyword",
        "null_value": "Elastic"
      }
    }
  }
}

PUT null_value_index/_bulk
{"index":{"_id":1}}
{"null_field":null}

执行查询:

GET null_value_index/_search

返回结果:

"hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 1.0,
    "hits" : [
      {
        "_index" : "null_value_index",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 1.0,
        "_source" : {
          "null_field" : null
        }
      }
    ]
  }

可以看到,源数据中的 null 并未被直接替换,这是因为 null_value 替换的并不是源数据,而是索引数据,也就是说,当我们通过 term:"Elastic" 是可以检索到上面的文档的,替换的值对我们是不可见的。

在这里插入图片描述

3.2 不支持 Text 类型

作为 ES 中最常用的类型,text 类型是不支持设置 null_value 参数的,如过添加次参数会出现以下错误:
在这里插入图片描述
报错可以看出:text 类型不支持配置 null_value 参数

分析原因:推测是因为 text 类型是用于全文检索,会被分词,通常使用 match 检索 text 字段,而此时源数据和搜索词都会被分词,如果给出了 null_value,ES 就不知道应不应该给这个 null_value 的值分词了,null_value 替换的原本就是索引数据,如果分词可能会影响搜索结果的准确性,使用户得到意想不到的结果,但是如果部分词又违背了 text 类型的设计理念和规则,因此选择了不支持。

引申理解:其实非常建议官方添加对 text 类型对 null_value 类型的支持,因为用户只需要设置一个不会被分词的 null_value 值就可以了,比如"elastic"、"null"这样的词。因为这个问题实在是给广大 elastic 爱好者带来了很大的麻烦。

解决方案:鉴于在业务场景中,经常有 “查询结果 不为空 或不为 null " 这样的需求,针对此问题,文末将给出解决方案。

3.2 null_value 的值必须可以隐式类型转换为当前字段类型

官方的解释是需要设置成和当前字段相同的类型,原文如下:
在这里插入图片描述
注意官方文档说的必须是 the same data type as the field,实际上只要是可以隐式类型转换转换就可以,比如字段类型为 long 而 null_value 的配置值为 "1" 或者1 在语法上都是完全没问题的。
在这里插入图片描述
可以看到,不管是创建 Mapping 还是写入数据,都是没有问题的,而且不影响 null_value 的正常功能。

但需要注意的是,如果 typelong 类型,那么 null_value 的值给了一个 "elastic" 这样的值是不行的。

3.4 BUG

请看如下示例:

DELETE null_value_index
PUT null_value_index
{
  "mappings": {
    "properties": {
      "null_field": {
        "type": "short",
        "null_value": 1
      }
    }
  }
}

PUT null_value_index/_bulk
{"index":{"_id":1}}
{"null_field":null}
{"index":{"_id":2}}
{"null_field":""}
{"index":{"_id":3}}
{"null_field":[]}

基于以上数据,执行如下查询,请各位思考,返回的结果应该是什么


GET null_value_index/_search
{
  "query": {
    "term": {
      "null_field": {
        "value": 1
      }
    }
  }
}

按照官方对 null_value 的解释,返回结果应只为 doc2(_id: 1)的数据,然而 doc2(_id: 1)也被召回了,这显然是不正常的。
在这里插入图片描述

注意,""值是不被 null_value 替换的,这一点当我们把字段类型换成 keyword 的时候,就可以得到验证:
在这里插入图片描述

4、如何查询字段值非空或者不为 null 的文档?

推荐阅读:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1997176.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LVS(Linux Virtual Server)详解

LVS(Linux Virtual Server)是一个用于负载均衡的开源软件项目,旨在通过集群技术实现高性能、高可用的服务器系统。它运行在Linux操作系统上,并且可以利用内核级的资源来提高性能和稳定性。 思维导图 LVS的工作原理 LVS主要基于Ne…

IDEA 2022.1.4用前需知

目录 一、配置国内源 二、正确再次创建新项目方式 IDEA 2022.1.4下载地址 一、配置国内源 1、查看本地仓库地址 2、设置国内源-添加Setting.xml文件内容 3、修改目录(考虑到当前硬盘空间大小,英文目录名) 1)创建你要移动过去…

xCat部署及分发操作系统

一、环境准备 此次安装部署均在VMware虚拟机上运行。系统采用通用稳定的centos7系统,移植到其他(linux)系统应该问题不大。软件服务器的VMware虚拟机的创建部分就跳过了. 1.1服务器的配置 IP主机名配置备注192.168.11.10master4C/8G/60GXcat/DNS/DHCP/NTP/TFTP192.168.11.11n…

【超音速专利 CN109636858A】锂电池涂布图像采集标定方法、系统、设备及存储介质

申请号CN201811276578.4公开号(公开)CN109636858A申请日2018.10.30申请人(公开)广州超音速自动化科技股份有限公司(超音速人工智能科技股份有限公司)发明人(公开)赵兵锁(张); 张俊峰(张); 梁土伟 相关术语…

读零信任网络:在不可信网络中构建安全系统14流量信任

1. 流量信任 1.1. 网络流的验证和授权是零信任网络至关重要的机制 1.2. 零信任并非完全偏离已知的安全机制,传统的网络过滤机制在零信任网络中仍然扮演着重要的角色 2. 加密和认证 2.1. 加密和认证通常是紧密相关的,尽管其目的截然不同 2.1.1. 加密提…

Spring Boot - 开启log-request-details详细记录调测Controller接口

文章目录 概述实现详细日志输出1. 调整日志级别2. 示例接口3. 启用请求详细信息日志 注意事项 概述 在Spring Boot项目中,调试Controller接口的请求和响应信息可以极大地帮助开发人员排查问题并确保应用程序的安全性和性能。 实现详细日志输出 1. 调整日志级别 …

在LabVIEW中高效读取大型CSV文件的方法

当尝试使用“读取分隔的电子表格VI”从大型CSV文件(数百MB)中读取数据时,可能会遇到内存已满错误。这是因为该VI会一次性读取整个文件并将其转换为数值数组,导致占用大量内存。 解决方案 可以使用“从文本文件VI读取”来部分读取…

Acrel-1000DP分布式光伏监控系统在光伏并网系统的实际应用分析-安科瑞 蒋静

摘要:为实现“双碳目标”即中国明确提出的2030年“碳达峰”与2060年“碳中和”目标。推动节能减排、实现经济可持续发展,我国采取了一系列方案和行动。其中就包括能源绿色低碳转型行动:大力发展新能源,‌推动煤电节能降碳&#xf…

golang 条件语句中有多条件时多条件的执行顺序和执行效率问题总结 -- if else条件语句 多条件时执行顺序为从左到右

在golang的 条件语句中有多个执行条件时,go的执行顺序为从左到右依次执行, 如果多个条件是 && 条件与的关系,则执行条件的顺序就与程序的效率密切相关, if else 的多个条件示例: func TestOrderTest(t *testi…

监听器——监听着我们WEB项目中的域对象

监听器 ——它监听着我们WEB项目中的域对象 何时被创建被销毁 ServlertContextListener——它监听ServletContext对象的创建和销毁 contextInitialized 创建的时候会调用 Tomcat启动时调用 contextDestroyed销毁的时候自动会调用的方法 Tomcat终止 这两个方法中携带的参数S…

C# Unity 面向对象补全计划 七大原则 之 迪米特法则(Law Of Demeter )难度:☆☆☆ 总结:直取蜀汉

本文仅作学习笔记与交流,不作任何商业用途,作者能力有限,如有不足还请斧正 本系列作为七大原则和设计模式的进阶知识,看不懂没关系 请看专栏:http://t.csdnimg.cn/mIitr,查漏补缺 1.迪米特法则(…

hue无法执行批处理作业解决方案

在执行批处理作业的时候,报作业为FAILED状态 查看执行的过程中发现:oozie的问题。 提示hdfs的/user/oozie/share/lib目录不存在,原因是因为没有安装oozie的共享库 解决方案: 点击oozie角色,操作中点击安装oozie共享库…

使用pycharm下载requests库时出现Error loading package list:Connect timed out

问题: 这个问题可能是由于网络连接不稳定导致的。您可以尝试以下方法来解决: 检查您的网络连接是否正常,尝试重新连接并重试。 检查您的防火墙设置,确保允许PyCharm访问Internet。 尝试更改PyCharm的HTTP代理设置,…

【C语言篇】字符和字符串以及内存函数详细介绍与模拟实现(下篇)

文章目录 前言字符串函数strstr的使用和模拟实现strtok函数的使用strerror函数的使用 内存函数memcpy使用和模拟实现memmove使用和模拟实现memset函数的使用memcmp函数的使用 前言 本篇接上一篇: 字符和字符串以及内存函数详细介绍(上篇) 字…

WPF参考做的TextBox圆角,并且水印文字操作

1.首先进行 转换器操作&#xff08;获取当前Textbox Text是否为空或者空格&#xff09; / // <summary>/// 非空验证转换器/// </summary>#region String IsNullOrEmptypublic class IsNullOrEmptyConverter : IValueConverter{public object Convert(object valu…

Linux云计算 |【第二阶段】NETWORK-DAY4

主要内容&#xff1a; NAT 原理与配置&#xff08;私有IP地址、静态NAT转换、Easy IP&#xff09;、VRRP解析&#xff08;主路由器、备份路由器、虚拟路由器、优先级&#xff09; 一、NAT概述 NAT 网络地址转换&#xff08;Network Address Translation&#xff09;是一种网络…

提高PDF电子书的分辨率

解决方法出处 1. 安装ImageMagick brew install imagemagick brew install ghostscript2. 按流程进行 convert -density 600 your_pdf_filename.pdf output-%02d.jpg convert output*.jpg -normalize -threshold 80% final-%02d.jpg convert final*.jpg my_new_highcontras…

MySQL | 行锁——记录锁、间隙锁 、临键锁、插入意向锁

1、InnoDB中的行锁 行锁&#xff08;Row Lock&#xff09; 也称为记录锁&#xff0c;顾名思义&#xff0c;就是锁住某一行&#xff08;某条记录row&#xff09;。需要注意的是&#xff0c;MySQL服务器层并没有实现行锁机制&#xff0c;行级锁只在存储引擎层实现。 优点&#x…

秒懂Linux之进程调度与切换

目录 一.进程的切换 二.进程的调度 基本走向 调度算法 一.进程的切换 进程在运行的时候并非是放在cpu上让其全部跑完&#xff0c;而是基于时间片&#xff08;比如每1ms就切换一个进程&#xff09;进行轮转进行的~ 竞争性: 系统进程数目众多&#xff0c;而CPU资源只有少量&…

解决端口号被占用问题

第一种&#xff1a; 最简单有效的方法&#xff0c;重启一下电脑&#xff0c;占用此端口的程序就会释放端口。 第二种&#xff1a; 使用命令找到占用端口的程序&#xff0c;把它关闭。 1、打开运行窗口输入&#xff1a;CMD &#xff0c;进入命令窗口。 2、输入&#xff1a;n…