文章目录
- 0、声明
- 1、问题描述
- 2、问题剖析
- 2.1 NULL或者空值类型有哪些
- 2.2 案例讲解:尝试检索值为 `null` 的字段
- 2.3 解决思路
- 3、使用 null_value 的诸多坑(避免生产事故)
- 3.1 null_value 替换的是索引,并不会直接替换源数据
- 3.2 不支持 Text 类型
- 3.2 null_value 的值必须可以隐式类型转换为当前字段类型
- 3.4 BUG
- 4、如何查询字段值非空或者不为 null 的文档?
0、声明
本文所述问题和解决方案基于 Elasticsearch 7.17.3 版本,具体问题可能会随着版本的变化有所不同,如有疑问请联系作者。
1、问题描述
null 值是个麻烦的问题,在业务系统中经常有如下场景:
- 检索值为
null
或''
的文档(数据记录) - 判断某字段是否存在
本文主要解决在 ES 中如何处理空只或者 NULL 值,如检索值为空的文档,如何存储空值或 NULL 值等。
2、问题剖析
2.1 NULL或者空值类型有哪些
"NULL"
(字符串,不区分大小写)null
' '
(空白符)''
(空值)
2.2 案例讲解:尝试检索值为 null
的字段
首先添加一个名为 null_value_index
的测试索引,将上述类型的值分别创建一条数据出来,然后查看检索结果,如下所示:
PUT null_value_index
{
"mappings": {
"properties": {
"null_field": {
"type": "keyword"
}
}
}
}
PUT null_value_index/_bulk
{"index":{"_id":1}}
{"null_field":null}
{"index":{"_id":2}}
{"null_field":"null"}
{"index":{"_id":3}}
{"null_field":""}
{"index":{"_id":4}}
{"null_field":" "}
{"index":{"_id":5}}
{"null_field":[]}
GET null_value_index/_search
1、尝试检索值为null
的文档:
POST null_value_index/_search
{
"query": {
"term": {
"null_field": null
}
}
}
执行结果如下:
{
"error" : {
"root_cause" : [
{
"type" : "illegal_argument_exception",
"reason" : "field name is null or empty"
}
],
"type" : "illegal_argument_exception",
"reason" : "field name is null or empty"
},
"status" : 400
}
发现不支持直接搜索值为 null
的字段,搜索值为 []
也是一样
2、那么尝试搜索其他几种空值呢?
POST null_value_index/_search
{
"query": {
"terms": {
"null_field": [
"",
" "
]
}
}
}
执行结果:
{
"took" : 0,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 0,
"relation" : "eq"
},
"max_score" : null,
"hits" : [ ]
}
}
结果:没有匹配任何文档,说明不论是检索''
还是' '
都检索不到任何文档
分析:在全文检索中,空值本来就会被作为停用词处理,在分词过程中就会被“干掉”,即便我们使用 term 做精准查询,不会被分词,空值也不会被创建索引,因此无法匹配到任何结果,这一点不同于关系数据库。
3、那么搜索"null"
值呢?
POST null_value_index/_search
{
"query": {
"term": {
"null_field": "null"
}
}
}
查询结果:
{
"took" : 0,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 1,
"relation" : "eq"
},
"max_score" : 0.2876821,
"hits" : [
{
"_index" : "null_value_index",
"_type" : "_doc",
"_id" : "2",
"_score" : 0.2876821,
"_source" : {
"null_field" : "null"
}
}
]
}
}
为什么搜索字符串就有值了呢?很简单,这就是一个普通的搜索,跟空值没有任何关系,这本质上跟搜索 "test_value"没有任何区别。
2.3 解决思路
那么这有什么意义呢?
其实这给我们提供了一个思路,如果我们想搜索空值字段,只需要在数据写入的时候,把空值字段给他一个默认值就行了
ES 为我们提供了一个 null_value
参数,在定义字段的时候,可以声明在遇到 null
值或其他空值的时候,将其替换为指定的值,
注意: null_value
替换的是分词后的结果,源数据并不受影响,这一点后面会详细讲述
代码示例:
DELETE null_value_index
PUT null_value_index
{
"mappings": {
"properties": {
"null_field": {
"type": "keyword",
"null_value": "NULL"
}
}
}
}
PUT null_value_index/_bulk
{"index":{"_id":1}}
{"null_field":null}
{"index":{"_id":2}}
{"null_field":"NULL"}
{"index":{"_id":3}}
{"null_field":""}
{"index":{"_id":4}}
{"null_field":" "}
{"index":{"_id":5}}
{"null_field":[]}
上述代码在创建 Mapping 的时候,显式的声明 null_value
参数,其值为当 null_field
字段遇到null
值的时候的替换值,也就是说 null_value
的值配置什么,这个字段原本的null
值就会被替换成什么。
因此上述例子中 _id:1
的数据的值就会被替换,而其他数据不受到影响,因此当执行以下查询时,返回结果应该为 _id: 1
和 _id: 2
两条结果。
GET null_value_index/_search
{
"query": {
"term": {
"null_field": "NULL"
}
}
}
执行结果:
"hits" : [
{
"_index" : "null_value_index",
"_type" : "_doc",
"_id" : "1",
"_score" : 0.6931471,
"_source" : {
"null_field" : null
}
},
{
"_index" : "null_value_index",
"_type" : "_doc",
"_id" : "2",
"_score" : 0.6931471,
"_source" : {
"null_field" : "NULL"
}
}
]
3、使用 null_value 的诸多坑(避免生产事故)
3.1 null_value 替换的是索引,并不会直接替换源数据
解释:当 null_value 生效发生替换行为时,其替换的并不是源数据(_source_data)而是索引数据,简单来说,就是当你执行 GET null_value_index/_search
时,是看不到任何源数据的变化的。
示例:
测试数据:
DELETE null_value_index
PUT null_value_index
{
"mappings": {
"properties": {
"null_field": {
"type": "keyword",
"null_value": "Elastic"
}
}
}
}
PUT null_value_index/_bulk
{"index":{"_id":1}}
{"null_field":null}
执行查询:
GET null_value_index/_search
返回结果:
"hits" : {
"total" : {
"value" : 1,
"relation" : "eq"
},
"max_score" : 1.0,
"hits" : [
{
"_index" : "null_value_index",
"_type" : "_doc",
"_id" : "1",
"_score" : 1.0,
"_source" : {
"null_field" : null
}
}
]
}
可以看到,源数据中的 null 并未被直接替换,这是因为 null_value 替换的并不是源数据,而是索引数据,也就是说,当我们通过 term:"Elastic"
是可以检索到上面的文档的,替换的值对我们是不可见的。
3.2 不支持 Text 类型
作为 ES 中最常用的类型,text 类型是不支持设置 null_value 参数的,如过添加次参数会出现以下错误:
报错可以看出:text 类型不支持配置 null_value 参数
分析原因:推测是因为 text
类型是用于全文检索,会被分词,通常使用 match 检索 text
字段,而此时源数据和搜索词都会被分词,如果给出了 null_value,ES 就不知道应不应该给这个 null_value 的值分词了,null_value 替换的原本就是索引数据,如果分词可能会影响搜索结果的准确性,使用户得到意想不到的结果,但是如果部分词又违背了 text 类型的设计理念和规则,因此选择了不支持。
引申理解:其实非常建议官方添加对 text 类型对 null_value
类型的支持,因为用户只需要设置一个不会被分词的 null_value 值就可以了,比如"elastic"、"null"
这样的词。因为这个问题实在是给广大 elastic 爱好者带来了很大的麻烦。
解决方案:鉴于在业务场景中,经常有 “查询结果 不为空 或不为 null
" 这样的需求,针对此问题,文末将给出解决方案。
3.2 null_value 的值必须可以隐式类型转换为当前字段类型
官方的解释是需要设置成和当前字段相同的类型,原文如下:
注意官方文档说的必须是 the same data type as the field
,实际上只要是可以隐式类型转换转换就可以,比如字段类型为 long
而 null_value 的配置值为 "1"
或者1
在语法上都是完全没问题的。
可以看到,不管是创建 Mapping 还是写入数据,都是没有问题的,而且不影响 null_value 的正常功能。
但需要注意的是,如果 type
是 long
类型,那么 null_value
的值给了一个 "elastic"
这样的值是不行的。
3.4 BUG
请看如下示例:
DELETE null_value_index
PUT null_value_index
{
"mappings": {
"properties": {
"null_field": {
"type": "short",
"null_value": 1
}
}
}
}
PUT null_value_index/_bulk
{"index":{"_id":1}}
{"null_field":null}
{"index":{"_id":2}}
{"null_field":""}
{"index":{"_id":3}}
{"null_field":[]}
基于以上数据,执行如下查询,请各位思考,返回的结果应该是什么
GET null_value_index/_search
{
"query": {
"term": {
"null_field": {
"value": 1
}
}
}
}
按照官方对 null_value
的解释,返回结果应只为 doc2(_id: 1)
的数据,然而 doc2(_id: 1)
也被召回了,这显然是不正常的。
注意,""
值是不被 null_value
替换的,这一点当我们把字段类型换成 keyword
的时候,就可以得到验证:
4、如何查询字段值非空或者不为 null 的文档?
推荐阅读: