Spring Boot 整合 分布式搜索引擎 Elastic Search 实现 数据聚合

news2025/1/12 7:00:02

文章目录

  • ⛄引言
  • 一、数据聚合
    • ⛅简介
    • ⚡聚合的分类
  • 二、DSL实现数据聚合
    • ⏰Bucket聚合
    • ⚡Metric聚合
  • 三、RestAPI实现数据聚合
    • ⌚业务需求
    • ⏰业务代码实现
  • ✅效果图
  • ⛵小结

⛄引言

本文参考黑马 分布式Elastic search

Elasticsearch是一款非常强大的开源搜索引擎,具备非常多强大功能,可以帮助我们从海量数据中快速找到需要的内容

本篇文章将讲解 Elastic Search 如何实现数据聚合,以及 在项目实战中如何通过数据聚合实现业务需求并完成功能。

一、数据聚合

⛅简介

以下为官方 解释:

聚合可以进行各种组合以构建复杂的数据汇总。

可以看作是在一组文档上建立分析信息的工作单元,统计一些文档集。聚合可以将一些独立的功能单元可以被混合在一起来满足你的需求,是一种单独的语法
kibana的可视化看板就是非常经典的聚合功能的体现

简单的来说:

聚合 可以让我们极其方便的实现对数据的统计、分析、运算。例如:

  • 什么品牌的手机最受欢迎?
  • 这些手机的平均价格、最高价格、最低价格?
  • 这些手机每月的销售情况如何?

实现这些统计功能的比数据库的sql要方便的多,而且查询速度非常快,可以实现实时搜索效果

聚合就是类似于垃圾分类,干湿分离,每个桶中装不同的数据。

⚡聚合的分类

聚合主要分为三大类:

  • 桶(Bucket) 聚合:用来对文档做分组
    • TermAggregation:按照文档字段值分组,例如按照品牌值分组、按照国家分组
    • Date Histogram:按照日期阶梯分组,例如一周为一组,或者一月为一组
  • 度量(Metric) 聚合:用以计算一些值,比如:最大值、最小值、平均值等
    • Avg:求平均值
    • Max:求最大值
    • Min:求最小值
    • Stats:同时求max、min、avg、sum等
  • 管道(pipeline) 聚合:其它聚合的结果为基础做聚合

注意: 参加聚合的字段必须是keyword、日期、数值、布尔类型

二、DSL实现数据聚合

例如:要统计所有数据中的酒店品牌有几种,其实就是按照品牌对数据分组。此时可以根据酒店品牌的名称做聚合,也就是Bucket聚合

⏰Bucket聚合

语法如下:

GET /hotel/_search
{
  "size": 0,  // 设置size为0,结果中不包含文档,只包含聚合结果
  "aggs": { // 定义聚合
    "brandAgg": { //给聚合起个名字
      "terms": { // 聚合的类型,按照品牌值聚合,所以选择term
        "field": "brand", // 参与聚合的字段
        "size": 20 // 希望获取的聚合结果数量
      }
    }
  }
}

结果如图:

在这里插入图片描述

聚合结果进行数据排序

默认情况下,Bucket聚合会统计Bucket内的文档数量,记为 count,并且按照 _count降序排序

我们可以指定 order属性,自定义聚合的排序方式:

GET /hotel/_search
{
  "size": 0, 
  "aggs": {
    "brandAgg": {
      "terms": {
        "field": "brand",
        "order": {
          "_count": "asc" // 按照_count升序排列
        },
        "size": 20
      }
    }
  }
}

在这里插入图片描述

限定聚合范围

默认情况下,Bucket聚合是对索引库的所有文档做聚合,但真实场景下,用户会输入搜索条件,因此聚合必须是对搜索结果聚合。那么聚合必须添加限定条件。

我们可以限定要聚合的文档范围,只要添加query条件即可:

GET /hotel/_search
{
  "query": {
    "range": {
      "price": {
        "lte": 200 // 只对200元以下的文档聚合
      }
    }
  }, 
  "size": 0, 
  "aggs": {
    "brandAgg": {
      "terms": {
        "field": "brand",
        "size": 20
      }
    }
  }
}

在这里插入图片描述

⚡Metric聚合

我们对酒店按照品牌分组,形成了一个个桶。现在我们需要对桶内的酒店做运算,获取每个品牌的用户评分的min、max、avg等值。

这就要用到Metric聚合了,例如stat聚合:就可以获取min、max、avg等结果。

语法如下:

GET /hotel/_search
{
  "size": 0, 
  "aggs": {
    "brandAgg": { 
      "terms": { 
        "field": "brand", 
        "size": 20
      },
      "aggs": { // 是brands聚合的子聚合,也就是分组后对每组分别计算
        "score_stats": { // 聚合名称
          "stats": { // 聚合类型,这里stats可以计算min、max、avg等
            "field": "score" // 聚合字段,这里是score
          }
        }
      }
    }
  }
}

这次的score_stats聚合是在 brandAgg 的聚合内部嵌套的子聚合。因为我们需要在每个桶分别计算

另外,我们还可以给聚合结果做个排序,例如按照每个桶的酒店平均分做排序:

在这里插入图片描述

聚合小结

aggs代表聚合,与query同级,此时query的作用是

  • 限定聚合的的文档范围

聚合必须的三要素:

  • 聚合名称
  • 聚合类型
  • 聚合字段

聚合可配置属性有:

  • size:指定聚合结果数量
  • order:指定聚合结果排序方式
  • field:指定聚合字段

三、RestAPI实现数据聚合

API语法

聚合条件与query条件同级别,因此需要使用request.source()来指定聚合条件。

聚合条件的语法:

在这里插入图片描述

聚合的结果也与查询结果不同,API也比较特殊。不过同样是JSON逐层解析:

在这里插入图片描述

⌚业务需求

需求:在搜索页面的品牌、城市等信息不应该是在页面写死,而是通过聚合索引库中的酒店数据得来的

在这里插入图片描述

需求分析:

目前,页面的城市列表、星级列表、品牌列表都是写死的,并不会随着搜索结果的变化而变化。但是用户搜索条件改变时,搜索结果会跟着变化。

例如:用户搜索“天安门”,那搜索的酒店肯定是在虹桥附近,因此,城市只能是上海,此时城市列表中就不应该显示其他城市信息了。

也就是说,搜索结果中包含哪些城市,页面就应该列出哪些城市;搜索结果中包含哪些品牌,页面就应该列出哪些品牌。

如何得知搜索结果中包含哪些品牌?如何得知搜索结果中包含哪些城市?

使用聚合功能,利用Bucket聚合,对搜索结果中的文档基于品牌分组、基于城市分组,就能得知包含哪些品牌、哪些城市了。

因为是对搜索结果聚合,因此聚合是限定范围的聚合,也就是说聚合的限定条件跟搜索文档的条件一致。

查看浏览器可以发现,前端其实已经发出了这样的一个请求:

在这里插入图片描述

因此,返回的类型应该是以下

在这里插入图片描述

结果是一个Map结构:

  • key是字符串,城市、星级、品牌、价格
  • value是集合,例如多个城市的名称

⏰业务代码实现

HotelController中添加一个方法,遵循下面的要求:

  • 请求方式:POST
  • 请求路径:/hotel/filters
  • 请求参数:RequestParams,与搜索文档的参数一致
  • 返回值类型:Map<String, List<String>>

代码:

    @PostMapping("filters")
    public Map<String, List<String>> getFilters(@RequestBody RequestParams params){
        return hotelService.getFilters(params);
    }

这里调用了IHotelService中的getFilters方法,尚未实现。

IHotelService中定义新方法:

Map<String, List<String>> filters(RequestParams params);

HotelService中实现该方法:

@Override
public Map<String, List<String>> filters(RequestParams params) {
    try {
        // 1.准备Request
        SearchRequest request = new SearchRequest("hotel");
        // 2.准备DSL
        // 2.1.query
        buildBasicQuery(params, request);
        // 2.2.设置size
        request.source().size(0);
        // 2.3.聚合
        buildAggregation(request);
        // 3.发出请求
        SearchResponse response = client.search(request, RequestOptions.DEFAULT);
        // 4.解析结果
        Map<String, List<String>> result = new HashMap<>();
        Aggregations aggregations = response.getAggregations();
        // 4.1.根据品牌名称,获取品牌结果
        List<String> brandList = getAggByName(aggregations, "brandAgg");
        result.put("品牌", brandList);
        // 4.2.根据品牌名称,获取品牌结果
        List<String> cityList = getAggByName(aggregations, "cityAgg");
        result.put("城市", cityList);
        // 4.3.根据品牌名称,获取品牌结果
        List<String> starList = getAggByName(aggregations, "starAgg");
        result.put("星级", starList);

        return result;
    } catch (IOException e) {
        throw new RuntimeException(e);
    }
}

private void buildAggregation(SearchRequest request) {
    request.source().aggregation(AggregationBuilders
                                 .terms("brandAgg")
                                 .field("brand")
                                 .size(100)
                                );
    request.source().aggregation(AggregationBuilders
                                 .terms("cityAgg")
                                 .field("city")
                                 .size(100)
                                );
    request.source().aggregation(AggregationBuilders
                                 .terms("starAgg")
                                 .field("starName")
                                 .size(100)
                                );
}

private List<String> getAggByName(Aggregations aggregations, String aggName) {
    // 4.1.根据聚合名称获取聚合结果
    Terms brandTerms = aggregations.get(aggName);
    // 4.2.获取buckets
    List<? extends Terms.Bucket> buckets = brandTerms.getBuckets();
    // 4.3.遍历
    List<String> brandList = new ArrayList<>();
    for (Terms.Bucket bucket : buckets) {
        // 4.4.获取key
        String key = bucket.getKeyAsString();
        brandList.add(key);
    }
    return brandList;
}

✅效果图

在这里插入图片描述

⛵小结

以上就是【Bug 终结者】对 Spring Boot 整合 分布式搜索引擎 Elastic Search 实现 搜索、分页与结果过滤 的简单介绍,ES搜索引擎无疑是最优秀的分布式搜索引擎,使用它,可大大提高项目的灵活、高效性! 技术改变世界!!!

如果这篇【文章】有帮助到你,希望可以给【Bug 终结者】点个赞👍,创作不易,如果有对【后端技术】、【前端领域】感兴趣的小可爱,也欢迎关注❤️❤️❤️ 【Bug 终结者】❤️❤️❤️,我将会给你带来巨大的【收获与惊喜】💝💝💝!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/938568.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

洁净区环境监测如何操作?

洁净区环境监测 如何操作 洁净区洁净等级划分为&#xff1a; A级&#xff1a;指高风险操作区&#xff0c;如&#xff1a;灌装、放置胶塞桶、敞口安瓿瓶、敞口西林瓶的区域及无菌装配或连接操作的区域。通常用层流操作台&#xff08;罩&#xff09;来维持该区的环境状态。 B级…

【算法与数据结构】404、LeetCode左叶子之和

文章目录 一、题目二、解法三、完整代码 所有的LeetCode题解索引&#xff0c;可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、解法 思路分析&#xff1a;思路比较简单&#xff0c;遍历所有节点然后判断该节点是否为左叶子节点&#xff0c;如果是&#xff0c…

【React学习】—React中的事件绑定(八)

【React学习】—React中的事件绑定&#xff08;八&#xff09; 一、原生JS <body><button id"btn1">按钮1</button><button id"btn2">按钮2</button><button onclick"demo()">按钮3</button><scr…

华为云服务器以编译方式安装mysql(附带常见报错解决方案)

文章内容较长&#xff0c;请参考目录进行操作。 目录 1、检测系统是否自带mysql 2、下载MySQL 3、安装MySQL 4、环境变量配置 5、下载/升级依赖 1&#xff09;定位问题 2&#xff09;解决问题 gcc版本过低&#xff1a; 使用devtoolset来升级gcc版本 1)安装 centos-re…

实例045 使用任意组件拖动窗体

实例说明 通常将鼠标按住窗口的标题栏才能够拖动窗口&#xff0c;但是&#xff0c;在没有窗口标题栏的情况下如何拖动窗体呢&#xff1f;本例将会利用窗口中的控件拖动窗口&#xff0c;将鼠标放在按钮上然后按住鼠标左键移动鼠标即可拖动窗体。实例效果如图1.46所示。 技术要点…

​什么是502 bad gateway 报错和解决办法

什么是502 bad gateway 报错 简单来说 502 是报错类型代码 bad gateway 错误的网关。是Web服务器作为网关或代理服务器时收到无效的响应。 用我们的口语说就是运行网站的服务器暂时挂了(不响应)。 产生错误的原因 1.连接超时 我们向服务器发送请求 由于服务器当前链接太多&am…

vue三级市区联动

默认返回值格式&#xff1a;all:code、name都返回 name:只返回name code:只返回code&#xff0c;level&#xff1a;可设置显示层级 1&#xff1a; 省 2&#xff1a; 省、市 3&#xff1a; 省、市、区 v-model 默认值 可以是 name: [ "天津市", "天津市",…

Datatable:Python数据分析提速高手,飞一般的感觉!

1 前言 Datatable是一个Python库&#xff1a; 详细介绍大家可以去官网查看&#xff1a; https://datatable.readthedocs.io/en/latest/?badgelatest Datatable的有点包括&#xff1a; 高效的多线程算法 Memory-thrifty 内存映射磁盘上的数据集 本地C实现 完全开源 Da…

iTunes怎么备份?1招教你轻松搞定

相比于苹果手机的iCloud备份&#xff0c;使用iTunes备份具有以下优点&#xff1a;1、备份容量不受限制&#xff1b;2、备份后的文件就像普通文档一样&#xff0c;可以随时进行查看和管理。本文将为大家介绍itunes怎么备份、如何对备份进行加密以及怎么删除备份的方法&#xff0…

nginx配置keepalive长连接

nginx之keepalive详解与其配置_keepalive_timeout_恒者走天下的博客-CSDN博客 为什么要有keepalive? 因为每次建立tcp都要建立三次握手&#xff0c;消耗时间较长&#xff0c;所以为了减少tcp建立连接需要的时间&#xff0c;就可以设置keep_alive长连接。 nginx中keep_alive对…

Java:Map集合的三种遍历方式和常见案例

Map集合的遍历方式 方式一&#xff1a;键找值 遍历方式二&#xff1a;键值对 遍历方式三&#xff1a;Lambda表达式 Map集合的常见案例 需求 某个班级80名学生&#xff0c;现在需要组织秋游活动&#xff0c;班长提供了四个景点依次是(A、B、C、D),每个学生只能选择一个景点&am…

阿里云CDN缓存预热与刷新以及常见的故障汇总

文章目录 1.为CDN缓存的文件增加过期时间2.CDN缓存预热配置3.CDN缓存刷新配置4.常见故障 CDN缓存预热指的是主动将要缓存的文件推送到全国各地的CDN边缘加速器上&#xff0c;减少回源率&#xff0c;提供命中率。 缓存刷新指的是后期上传了同名的文件&#xff0c;之前的缓存已经…

常见前端面试之VUE面试题汇总十

28. Vuex 和 localStorage 的区别 &#xff08;1&#xff09;最重要的区别 vuex 存储在内存中 localstorage 则以文件的方式存储在本地&#xff0c;只能存储字符串类型的 数据&#xff0c;存储对象需要 JSON 的 stringify 和 parse 方法进行处理。 读 取内存比读取硬盘速度要…

LVGL学习 stm32f407-board-lvgl v8.3移植

LVGL学习 stm32f407-board-lvglv8.3移植 移植过程有问题&#xff0c;请参考正点原子的教程或者视频 硬件平台 STM32F407ZGT6核心板3.2寸屏幕 LVGL LVGL&#xff08;Light and Versatile Graphics Library&#xff09;是一个免费的开源图形库&#xff0c;提供创建具有易 于…

知识学爆——日常开发中的疑问

1.为什么说刷新页面vuex的数据会丢失 刷新页面vuex的数据会丢失属于正常现象&#xff0c;因为JS的数据都是保存在浏览器的堆栈内存里面的&#xff0c;刷新浏览器页面&#xff0c;以前堆栈申请的内存被释放&#xff0c;这就是浏览器的运行机制&#xff0c;那么堆栈里的数据自然就…

用NeRFMeshing精确提取NeRF网络中的3D网格

准确的 3D 场景和对象重建对于机器人、摄影测量和 AR/VR 等各种应用至关重要。 NeRF 在合成新颖视图方面取得了成功&#xff0c;但在准确表示底层几何方面存在不足。 推荐&#xff1a;用 NSDT编辑器 快速搭建可编程3D场景 我们已经看到了最新的进展&#xff0c;例如 NVIDIA 的…

解析代理IP在跨境电商和社媒营销中的关键作用

跨境电商和社媒营销领域的从业者深知&#xff0c;代理IP的价值愈发凸显。在推广营销的过程中&#xff0c;频繁遇到因IP关联而封禁账号的情况&#xff0c;或因使用不安全IP而导致异常问题。 这些问题促使人们开始高度重视代理IP的作用。但实际上&#xff0c;代理IP究竟是何物&a…

从C语言到C++_35(异常)C++异常的使用+异常体系+异常优缺点

目录 1. 异常的基本使用 1.1 异常的概念 1.2 异常的抛出和匹配原则 1.3 函数调用链中异常栈展开匹配原则 1.4 异常的重新抛出 1.5 异常的安全问题 1.6 C98和C11的异常规范 2. 自定义异常体系 2.1 异常继承体系 2.2 异常体系中的重新抛出 3. C标准库的异常体系 4. C…

每天一分享#读up有感#——云原生——持续学习

今日话题&#xff0c;云原生&#xff0c;看到两位大佬&#xff0c;就一起做下学习记录&#xff0c;爱了爱了。 江湖有缘&#xff0c;江湖见 https://blog.csdn.net/jks212454?typeblog 时间周期 第一篇文章&#xff1a;2021.04.17 粗略算&#xff0c;大佬不到2年就十万了…

YOLO目标检测——水果蔬菜数据集下载分享

水果蔬菜数据集共同90000图片&#xff0c;131类别分别存放在不同文件中&#xff0c;可应用于果蔬分类和种类识别等等 数据集点击下载&#xff1a;YOLO水果蔬菜数据集90000图片131类别.rar