ElasticSearch核心之DSL查询语句实战

在这里插入图片描述

什么是DSL？

Elasticsearch提供丰富且灵活的查询语言叫做DSL查询(Query DSL),它允许你构建更加复杂、强大的查询。 DSL(Domain Specific Language特定领域语言)以JSON请求体的形式出现。目前常用的框架查询方法什么的底层都是构建DSL语句实现的，所以你必须掌握DSL。
例如：

GET book/_search
{
  "query": {
    "match": {
      "name": "活着"
    }
  }
}

准备测试数据

请参考我的另一篇文章：https://blog.csdn.net/IndexMan/article/details/140611813
#精确查询
也就是term查询不会分析查询条件，只有当词条和查询字符串完全匹配时才匹配，也就是精确查找，比如数字，日期，布尔值或 not_analyzed 的字符串(未经分析的文本数据类型)：
GET /article_doc/_doc/1815982664109314052

请求

{
  "query": {
    "term": {
      "category": "技术"
    }
  }
}

响应

{
  "_index": "article_doc",
  "_type": "_doc",
  "_id": "1815982664109314052",
  "_version": 1,
  "_seq_no": 4,
  "_primary_term": 1,
  "found": true,
  "_source": {
    "author": "华为",
    "category": "技术",
    "content": "就在昨天，华为正式官宣自研编程语言 「仓颉」 正式诞生！！！\r\n\r\n华为，作为全球领先的信息与通信技术（ICT）解决方案提供商，以“仓颉”编程语言的诞生，再次引领了技术革新的潮流，为智能时代的软件开发定义了新的艺术。",
    "createTime": "2024-07-24 13:29:41",
    "id": "1815982664109314052",
    "readCount": 1,
    "title": "华为自研编程语言“仓颉”正式发布"
  }
}

terms查询：terms 跟 term 有点类似，但 terms 允许指定多个匹配条件。如果某个字段指定了多个值，那么文档需要一起去做匹配：

{
  "query": {
    "terms": {
      "category": [ "技术","管理"]
    }
  }
}

全文查询

顾名思义，全文查询会分析查询条件，先将查询条件进行分词，然后查询，求并集。

区别于term，match的区别是：match是经过analyer分词器分词的，也就是说，文档首先被分析器给处理了。根据不同的分析器，分析的结果也稍显不同，然后再根据分词结果进行匹配。term则不经过分词，它是直接去倒排索引中查找了精确的值了。

match 查询的主要用法：

match_all：查询所有，无条件；太简单不再演示！
match：返回所有匹配到的数据
match_phrase：短语查询，在match的基础上进一步查询词组，可以指定slop分词间隔。

{
  "query": {
    "match_phrase": {
      "content": {
        "query": "中国"
      }
    }
  }
}

match_phrase_prefix：前缀查询，根据短语中最后一个词组做前缀匹配，可以应用于搜索提示，但注意和max_expanions搭配。
multi_match：多字段查询，使用相当的灵活，可以完成match_phrase和match_phrase_prefix的工作。

post /article_doc/_search

请求

{
  "query": {
    "match": {
      "content": "技术"
    }
  }
}

响应

{
  "took": 11,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 1,
      "relation": "eq"
    },
    "max_score": 3.3864474,
    "hits": [
      {
        "_index": "article_doc",
        "_type": "_doc",
        "_id": "1815982664109314052",
        "_score": 3.3864474,
        "_source": {
          "author": "华为",
          "category": "技术",
          "content": "就在昨天，华为正式官宣自研编程语言 「仓颉」 正式诞生！！！\r\n\r\n华为，作为全球领先的信息与通信技术（ICT）解决方案提供商，以“仓颉”编程语言的诞生，再次引领了技术革新的潮流，为智能时代的软件开发定义了新的艺术。",
          "createTime": "2024-07-24 13:29:41",
          "id": "1815982664109314052",
          "readCount": 1,
          "title": "华为自研编程语言“仓颉”正式发布"
        }
      }
    ]
  }
}

多字段查询

{
  "query": {
    "multi_match": {
      "query": "中国",
      "fields": ["title","content"]
    }
  }
}

排序查询

例如，按照文章阅读数降序排序：

{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "readCount": {
        "order": "desc"
      }
    }
  ]
}

范围查询

range 过滤允许我们按照指定范围查找一批数据，范围操作符包含：

gt：大于，相当于关系型数据库中的 >
gte：大于等于，相当于关系型数据库中的 >=
lt：小于，相当于关系型数据库中的 <
lte：小于等于，相当于关系型数据库中的 <=

例如，查询文章阅读数大于5的文章列表：

{
  "query": {
    "range": {
      "readCount": {
        "gt": 5
      }
    }
  }
}

分页查询

{
  "query": {
    "match_all": {}
  },
  "from": 0,
  "size": 5
}

高亮查询

{
  "query": {
    "match": {
      "content": "智能"
    }
  },
  "highlight": {
    "fields": {
      "content": {
        "pre_tags": "<b class='key' style='color:red'>",
        "post_tags": "</b>"
      }
    }
  }
}

{
  "took": 32,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 3,
      "relation": "eq"
    },
    "max_score": 1.2924489,
    "hits": [
      {
        "_index": "article_doc",
        "_type": "_doc",
        "_id": "1815982664109314052",
        "_score": 1.2924489,
        "_source": {
          "author": "华为",
          "category": "技术",
          "content": "就在昨天，华为正式官宣自研编程语言 「仓颉」 正式诞生！！！\r\n\r\n华为，作为全球领先的信息与通信技术（ICT）解决方案提供商，以“仓颉”编程语言的诞生，再次引领了技术革新的潮流，为智能时代的软件开发定义了新的艺术。",
          "createTime": "2024-07-24 13:29:41",
          "id": "1815982664109314052",
          "readCount": 1,
          "title": "华为自研编程语言“仓颉”正式发布"
        },
        "highlight": {
          "content": [
            "华为，作为全球领先的信息与通信技术（ICT）解决方案提供商，以“仓颉”编程语言的诞生，再次引领了技术革新的潮流，为<b class='key' style='color:red'>智能</b>时代的软件开发定义了新的艺术。"
          ]
        }
      },
      {
        "_index": "article_doc",
        "_type": "_doc",
        "_id": "1815982664180617221",
        "_score": 0.9935417,
        "_source": {
          "author": "狸花猫",
          "category": "人工智能",
          "content": "在信息时代，Web 页面成为我们与世界交互的重要窗口。如今，AI 程序的出现，为 Web 页面带来了新的变革。通过在 Web 页面上实现图片识别，我们即将迈入一个更加智能与便捷的时代。它将赋予网页全新的能力，使其能够理解图片的内容，为用户带来前所未有的体验。让我们一同踏上这充满无限可能的探索之旅。\n\n作者：睡着学\n链接：https://juejin.cn/post/7359084330121789452\n来源：稀土掘金\n著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。",
          "createTime": "2024-07-24 13:29:41",
          "id": "1815982664180617221",
          "readCount": 3,
          "title": "AI 赋能００７　ｊａｃｋ　 Web 页面，图像识别超越想象"
        },
        "highlight": {
          "content": [
            "通过在 Web 页面上实现图片识别，我们即将迈入一个更加<b class='key' style='color:red'>智能</b>与便捷的时代。它将赋予网页全新的能力，使其能够理解图片的内容，为用户带来前所未有的体验。让我们一同踏上这充满无限可能的探索之旅。"
          ]
        }
      },
      {
        "_index": "article_doc",
        "_type": "_doc",
        "_id": "1815982664180617220",
        "_score": 0.85687244,
        "_source": {
          "author": "kimi",
          "category": "人工智能",
          "content": "今年，随着各大GLM模型的开源和算力的提升，尤其是最近比较火热的月之暗面的Kimi 模型，AI应用场景中的各种智能体如雨后春笋般涌现。许多同学们纷纷表达了加入AI应用的学习和测试的愿望，然而各大模型提供商所提供的API的免费tokens在数量和其他方面都存在着不同的限制，这给我们这些白嫖党带来了一定的不便。今天，在GitHub上，我发现了这个名为kimi-free-api的项目，它为我们学习和测试使用GLM模型提供了极大的便利。\n\n作者：修己xj\n链接：https://juejin.cn/post/7357546247848427558\n来源：稀土掘金\n著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。",
          "createTime": "2024-07-22 13:29:41",
          "id": "1815982664180617220",
          "readCount": 10,
          "title": "免费使用Kimi的API接口，kimi-free-api真香"
        },
        "highlight": {
          "content": [
            "今年，随着各大GLM模型的开源和算力的提升，尤其是最近比较火热的月之暗面的Kimi 模型，AI应用场景中的各种<b class='key' style='color:red'>智能</b>体如雨后春笋般涌现。"
          ]
        }
      }
    ]
  }
}

布尔查询

bool 查询可以用来合并多个条件查询结果的布尔逻辑，它包含以下操作符：

must：多个查询条件必须完全匹配，相当于关系型数据库中的且 and
should：至少有一个查询条件匹配，相当于关系型数据库中的或 or
must_not：多个查询条件的相反匹配，相当于关系型数据库中的非 not
filter：过滤满足条件的数据。

range：条件筛选范围，上面讲过了

{
  "query": {
    "bool": {
      "should": [
        {
          "match": {
            "title": "智能"
          }
        },
        {
          "match": {
            "content": "智能"
          }
        }
      ]
    }
  }
}

聚合查询

我们平时在使用Elasticsearch时，更多会用到聚合操作，它类似SQL中的group by操作。ES的聚合查询一定是先查出结果，然后对结果使用聚合函数做处理，常用的操作有：avg：求平均、max：最大值、min：最小值、sum：求和等。

在ES中聚合分为指标聚合和分桶聚合：

指标聚合：指标聚合对一个数据集求最大、最小、和、平均值等

{
  "query": {
    "match_all": {}
  },
  "aggs": {
    "avg_read": {
      "avg": {
        "field": "readCount"
      }
    }
  },
  "_source": [
    "id",
    "readCount"
  ]
}

响应

{
  "took": 5,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 10,
      "relation": "eq"
    },
    "max_score": 1,
    "hits": [
      {
        "_index": "article_doc",
        "_type": "_doc",
        "_id": "1815982662364483586",
        "_score": 1,
        "_source": {
          "id": "1815982662364483586",
          "readCount": 0
        }
      },
      {
        "_index": "article_doc",
        "_type": "_doc",
        "_id": "1815982664109314049",
        "_score": 1,
        "_source": {
          "id": "1815982664109314049",
          "readCount": 1
        }
      },
      {
        "_index": "article_doc",
        "_type": "_doc",
        "_id": "1815982664109314050",
        "_score": 1,
        "_source": {
          "id": "1815982664109314050",
          "readCount": 2
        }
      },
      {
        "_index": "article_doc",
        "_type": "_doc",
        "_id": "1815982664109314052",
        "_score": 1,
        "_source": {
          "id": "1815982664109314052",
          "readCount": 1
        }
      },
      {
        "_index": "article_doc",
        "_type": "_doc",
        "_id": "1815982664109314053",
        "_score": 1,
        "_source": {
          "id": "1815982664109314053",
          "readCount": 5
        }
      },
      {
        "_index": "article_doc",
        "_type": "_doc",
        "_id": "1815982664180617218",
        "_score": 1,
        "_source": {
          "id": "1815982664180617218",
          "readCount": 6
        }
      },
      {
        "_index": "article_doc",
        "_type": "_doc",
        "_id": "1815982664180617219",
        "_score": 1,
        "_source": {
          "id": "1815982664180617219",
          "readCount": 0
        }
      },
      {
        "_index": "article_doc",
        "_type": "_doc",
        "_id": "1815982664180617220",
        "_score": 1,
        "_source": {
          "id": "1815982664180617220",
          "readCount": 10
        }
      },
      {
        "_index": "article_doc",
        "_type": "_doc",
        "_id": "1815982664109314051",
        "_score": 1,
        "_source": {
          "id": "1815982664109314051",
          "readCount": 3
        }
      },
      {
        "_index": "article_doc",
        "_type": "_doc",
        "_id": "1815982664180617221",
        "_score": 1,
        "_source": {
          "id": "1815982664180617221",
          "readCount": 3
        }
      }
    ]
  },
  "aggregations": {
    "avg_read": {
      "value": 3.1
    }
  }
}

分桶聚合：除了有聚合函数外，还可以对查询出的数据进行分组group by，再在组上进行游标聚合。

{
  "size": 0,
  "query": {
    "match_all": {}
  },
  "aggs": {
    "age_group": {
      "terms": {
        "field": "category"
      }
    }
  }
}

响应：

{
  "took": 208,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 10,
      "relation": "eq"
    },
    "max_score": null,
    "hits": []
  },
  "aggregations": {
    "age_group": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "人工智能",
          "doc_count": 3
        },
        {
          "key": "技术",
          "doc_count": 2
        },
        {
          "key": "经济",
          "doc_count": 2
        },
        {
          "key": "生活",
          "doc_count": 1
        },
        {
          "key": "管理",
          "doc_count": 1
        },
        {
          "key": "面试",
          "doc_count": 1
        }
      ]
    }
  }
}