ElasticSearch DSL查询、排序、分页的原理及语法

1. DSL查询分类和基本语法

ElasticSearch提供了基于Json的DSL来定义查询，常见的查询类型包括：
• 查询所有：查询出所有数据，一般测试用，一般不是查出所有，一次性查询20条。例如 match_all
• 全文检索(full text)查询：利用分词器对用户输入内容分词，然后去倒排索引中匹配，例如：
match_query、mutil_match_query
• 精确查询：根据精确词条查找数据，一般查找keyword、数值、日期、boolean等类型字段。例如：
ids、range(数字或者日期范围)、term(具体的某一个数字);
• 地理(geo)查询：根据经纬度查询。例如：
geo_diatance、geo_bounding_box
• 复合查询，复合查询可以将上述各种查询条件组合几来，合并查询条件，例如：
bool、function_score。

2. DSL全文检索查询语句

会对用户输入内容分词，常用于搜索框搜索。
match:根据一个字段查询，会对用户输入内容分词，然后去倒排索引库检索，语法：

GET/indexName/_search{
"query":{
     "match"{   #  查询方式，全文检索
        "FIELD":"TEXT"  # 字段：查询文本
            }
        }
}

multi_match:根据多个字段查询，参与查询字段越多，查询性能越差，语法：

Get/indexName/_search
{
"query":{
    "multi_match":{
        "query": "text",
        "fields": ["field1", "field2"]
            }
      }
}

如果想要查询多个字段，建议使用match，将多个字段使用copy to的方式拷贝到一个字段中去，创建一个新的字段名。

3. DSL精确查询语句

精确查询一般是查找keyword、数值、日期、boolean等类型字段，所以不会对搜索条件分词，常见的有：
term:根据词条精确值查询，语法如下：

Get/indexName/_search
{
    "query":{
        "term"{
           "FIELD"{
               "value": "value"
            }
        }
    }
}

range:根据值范围查询，例如根据日期，数值类型查询，语法如下：

Get/indexName/_search
{
  “query”:{
    "range":{
      "FIELD":{
          "gte": 10,
          "lte": 20
        }
      }
   }
}

4 .DSL地理查询语句

根据经纬度查询。常见得场景有：
• 携程：搜索我附近的酒店。
• 滴滴：搜索我附近的滴滴。
• 微信：收缩我附近的人。
地理查询的方式有很多总，如下：
• geo_bounding_box:查询geo_point 值落在某个矩形范围的所有文档，语法如下：

GET /indexName/search
{
      "query":{
          "geo_bounding_box":{
                  "FIELD":{
                      "top_left":{
                          "lat": 31.1,
                          "lon": 121.5
                  }，
                      "bottom_right":{
                         "lat": 30.9,
                         "lon": 121.7
                 }
              }
          }
      }
}

top_left 和bottom_right代表地图上的两个点，以两个点为准，画出一个矩形，查询的是在矩形范围内的文档，如下图所示：
在这里插入图片描述
geo_distance:查询到指定中心点小于某个距离值的所有文档，语法如下：

GET /indexName/_search
{
   "query":{
        "geo_distance":{
                "distance:"15km",    ## 距离
                "FIELD": "31.21,121.5"   ## 中心点
               }
        }
}

如下图所示，查询的就是以31.21，121.5为中心点，小于15Km范围内的所有文档，适合用于查询附近的人的场景：
在这里插入图片描述

5. DSL复合查询

复合查询：可以将其他简单查询组合起来，实现更加复杂的搜索逻辑。

5.1 function score

算分函数查询，可以控制文档相关性算分，控制文档排名。例如，当我们利用match查询时，文件结果会根据与搜索词条的关联度打分，返回结果时按照分值降序排列。
如下图所示，我们搜索 “虹桥如家”,结果如下,会发现包含虹桥如家的分数最高，排在最前面。
在这里插入图片描述

打分的算法如下图所示：
在这里插入图片描述
ES中使用的是BM25算法，BM25算法相对于TF-IDF算法的优势就是，随着词频不断增加，相关性算分不会无限增加，而TF-IDF算法随着词频不断增加，相关性算分会不断无限增加,如下图所示：

总结：ES中的相关性打分算法在ES5.0之前采用的是TF-IDF，会随着词频增加而越来越大，在ES5.0之后，采用BM25,会随着词频增加而不断增大，但增长曲线会趋于水平。
上面介绍了ES的相关性打分，但是我们可以根据需求修改文档的相关性算分，人为控制排名，根据新得到的算分排序，就需要讲解function score query

5.2 复合查询- function score query

语法：

GET /hotel/_search
{
  "query":{
    "function score":{
      "query":{"match":{"all":"外滩"}}, ## 原始查询条件，搜索文档并根据相关性打分(query score)
      "functions":[
               {
                  "filter": {"term":{"id":"1"}},  ## 过滤条件，复合条件的文档才会被重新算分，例如这里是id为1的会重新算分
                  "weight": 10  
                  ## 算分函数，算分函数的结果称为function score,将来会与query score 运算，得到新的算分，常见的算分函数有
                  ## 1.weight:给一个常量值，作为函数结果（function score）;
                  ## 2.field_value_factor:用文档中的某个字段值作为函数结果；
                  ## 3. random_score:随机生成一个值，作为函数结果；
                  ## 4. script_socre:自定义计算公式，公式结果作为函数结果
               }
             ],
           "boost mode":"multiply"
           ## 加权模式，定义function score与query score的运算方式，包括：
           ## 1.multiply:两者相乘。默认就是这个；
           ## 2.replace:用function score 替换 query score;
           ## 3.其他：sum、avg、max、min。
       }
    }
 }

案例：给“如家”这个品牌的酒店排名靠前一些。我们需要考虑function score的三要素：
• 哪些文档需要算分加权？这里就是对应的filter,品牌为如家的需要过滤。
• 算分函数是什么？这里我们可以选择weight算分函数。
• 加权模式是什么？这里对应的就是boost_mode，我们可以选择multiply。
查询语句如下：

GET /hotel/_search
{
 "query":{"
   function_score":{
     "query":{//..·},
     "functions":[ // 算分函数
       "filter":{ // 满足的条件，品牌必须是如家
         "term":{
           "brand":"如家"
           }
         },
       "weight":2 // 算分权重为2
       }
     },
    "boost_mode": "sum"
    }
  }
}

4.5.3 复合查询-Boolean Query

复合查询中的布尔查询是一个或多个查询子句的组合。子句的组合方式有：
• must:必须匹配每个子查询，类似“与”;
• should:选择性匹配子查询，类似“或”;
• must_not : 必须不匹配，不参与算分，类似 “非”;
• filter:必须匹配，不参与算分。
案例，如下图所示：
在这里插入图片描述

6. DSL搜索结果处理

6.1 排序

ES支持对搜索结果的排序，默认是根据相关度算分来排序。一旦指定自己的排序字段，ES就放弃相关度算分，查询的效率也会提升。可以排序的字段类型有：keyword类型、数值类型、地理坐标类型、日期类型等。
keyword类型、数值类型、日期类型排序语法：

GET /indexName/_search
{
"query":{
    "match_all":{}
    },
"sort":[
   {
    "FIELD1": "desc"//排序字段和排序方式ASC、DESC
    },
    {
    "FIELD2": "asc"//排序字段和排序方式ASC、DESC
     }
    ]
  }

根据地理坐标排序语法：

GET /indexName/search
{
 "query":{
   "match_all":{}
  }，
 "sort":[
  {
   "_geo_distance" :{
           "FIELD1":"纬度，经度",
            "order" : "asc",
            "unit" :"km"
          }
       }
    ]
}

6.2 分页

ES默认情况下只返回top 10条数据。而如果要查询更多数据就需要修改分页参数了。
ES中通过修改from 、size参数来控制要返回的分页结果，语法如下：

GET /hotel/_search
{
  "query": {
     "match_all": {}
   }，
   "from":990，## 分页开始的位置，默认为0；
   "size":10，## 期望获取的文档总数
   "sort":[
         {"price": "asc"}
    ]
}

ES分页使用虽然跟mysql很像，只需要指定from,size即可，但原理和mysql存在较大的差异，ES分页的原理采用的是一种逻辑分页，假如现在
需要查990到1000的文档数据，如下图所示，ES会查出从0-1000的所有数据，然后截出990-1000的文档数据：
在这里插入图片描述
上面这种截取方式对于单个节点的ES是没有问题的，但是在实际情况下，为了能够存储更多的数据，那么ES是会进行集群部署的，一旦进行集群，ES就会对文档数据进行拆分，放到不同的机器上，如下图所示：
在这里插入图片描述
ES是分布式的，所以会面临深度分页的问题，例如现在按照price字段排序后，获取from = 990, size = 10的数据，那么就会获取0到1000的文档数据，然后截取，但是现在有多个ES集群部署了，如果只是截取某一台0-1000数据文档的10条数据那么就存在问题。ES集群情况下分页截取的原理如下：
• 首先在每个集群数据分片上都排序并查询前1000条文档；
• 然后将所有节点的结果聚合，在内存中重新排序选出前1000条文档；
• 最后从这1000条中，选取从990开始的10条文档。

如果搜索页数过深，或者结果集(from+size)越大，对内存和CPU的消耗也越高。因此ES设定结果集查询的上限是10000，一旦超过10000，就会报错，一般我们在实际情况中，从业务层面就限定查询不能超过10000条，如果实际的业务就要查询超过10000条，ES提供了两种解决办法：
• search after:分页时需要排序，原理是从上一次的排序字段后的末尾值开始，走位查询条件，查询下一页数据，分页只能往后翻，不能往前翻。官方推荐使用的方式；
• scroll:原理将排序数据形成快照，保存在内存，对内存消耗非常大。官方已经不推荐使用。

总结：
from + size:
• 优点:支持随机翻页；
• 缺点:深度分页问题，默认查询上限(from+size)是10000场景；
• 百度、京东、谷歌、淘宝这样的随机翻页搜索。
after search :
• 优点:没有查询上限(单次查询的size不超过10000)；
• 缺点:只能向后逐页查询，不支持随机翻页；
• 场景:没有随机翻页需求的搜索，例如手机向下滚动翻页。
scroll:
• 优点:没有查询上限(单次查询的size不超过10000)；
• 缺点:会有额外内存消耗，并且搜索结果是非实时的
• 场景:海量数据的获取和迁移。从ES7.1开始不推荐，建议用 aftersearch方案。

6.3 高亮

就是在搜索结果中把搜索关键字突出显示。
原理如下:
• 将搜索结果中的关键字用标签标记出来
• 在页面中给标签添加css样式
语法如下：

GET /hotel/_search
{
  "query":{
    "match" :{
      "FIELD": "TEXT"
    }
 },
"highlight": {
 "fields":{ ## 指定要高亮的字段
  "FIELD":{
    "pre_tags": "<em>", ## 用来标记高亮字段的前置标签
    "post_tags":"</em>” ## 用来标记高亮字段的后置标签
    }
   }
  }
 }