Elasticsearch 实战应用:高效搜索与数据分析

news2024/11/14 5:32:37

在大数据和实时数据分析的背景下,Elasticsearch 作为一个开源的分布式搜索引擎,凭借其强大的查询能力、实时性能以及高可扩展性,成为了各种应用场景中不可或缺的工具。从网站搜索到日志分析,Elasticsearch 在搜索、日志聚合、数据监控和大数据分析中得到了广泛应用。

本文将带你深入了解 Elasticsearch 的基本原理,并结合实际案例展示如何在企业应用中使用 Elasticsearch,帮助你更好地掌握这一强大的工具。

1. 什么是 Elasticsearch?

Elasticsearch 是一个基于 Apache Lucene 的开源分布式搜索和分析引擎。它能够提供实时的全文搜索、分布式数据存储和分析功能。Elasticsearch 具有以下几个核心特点:

  • 全文搜索:可以对大量文本数据进行快速的全文搜索。
  • 分布式架构:可以水平扩展,支持大规模数据存储和查询。
  • 实时性:支持近实时数据的搜索和分析,查询结果非常迅速。
  • 高可扩展性:无论数据量如何增长,Elasticsearch 都能保持高效的查询性能。

2. Elasticsearch 架构基础

在了解 Elasticsearch 的实战应用之前,首先需要理解它的基本架构。Elasticsearch 使用了 节点索引文档分片副本 等概念,下面简要介绍:

  • 节点(Node):Elasticsearch 集群中的一台机器称为节点。节点之间通过网络互相通信,协同工作。
  • 集群(Cluster):一个 Elasticsearch 集群由多个节点组成,所有节点共享数据和处理请求。
  • 索引(Index):索引是存储和搜索文档的核心单位。在 Elasticsearch 中,数据以 JSON 格式存储在文档中,并组织成索引。
  • 文档(Document):文档是索引中的一条数据记录,是由字段组成的 JSON 数据。文档是 Elasticsearch 中进行搜索和查询的基本单元。
  • 分片(Shard):索引可以分为多个分片,以实现数据的分布式存储。每个分片都可以在集群中的不同节点上存储。
  • 副本(Replica):为了提高容错性和查询性能,Elasticsearch 会为每个分片创建一个副本。

3. Elasticsearch 实战应用案例

下面我们将通过几个常见的应用场景来展示如何在实际开发中使用 Elasticsearch。

3.1. 网站搜索功能

在许多网站中,搜索功能是用户体验的核心。Elasticsearch 提供了快速的全文搜索和精确匹配功能,非常适合用来实现网站搜索。假设我们要在一个电商网站中实现商品搜索功能。

3.1.1. 创建索引

首先,我们需要为商品数据创建索引,定义商品的字段,例如商品名称、描述、价格等。

 

PUT /products
{
  "mappings": {
    "properties": {
      "name": {
        "type": "text"
      },
      "description": {
        "type": "text"
      },
      "price": {
        "type": "float"
      },
      "category": {
        "type": "keyword"
      }
    }
  }
}

 

在这个索引中,namedescription 字段是 text 类型,意味着它们会进行分词处理以支持全文搜索。price 字段是 float 类型,用于存储价格,category 字段是 keyword 类型,适用于精确匹配查询。

3.1.2. 索引文档

接下来,向 Elasticsearch 中添加商品数据文档。

 

POST /products/_doc/1
{
  "name": "Apple iPhone 13",
  "description": "The latest iPhone with 5G support",
  "price": 999.99,
  "category": "smartphones"
}

POST /products/_doc/2
{
  "name": "Samsung Galaxy S21",
  "description": "Flagship smartphone with AMOLED display",
  "price": 799.99,
  "category": "smartphones"
}

 

3.1.3. 搜索功能

在搜索框中,用户输入关键词,Elasticsearch 将根据输入内容返回相关商品。例如,用户搜索 "iPhone" 时,Elasticsearch 会对商品名称和描述字段进行全文搜索。

 

GET /products/_search
{
  "query": {
    "match": {
      "name": "iPhone"
    }
  }
}

 

这个查询将返回所有名称中包含 "iPhone" 的商品。Elasticsearch 会对 name 字段进行分词匹配,找到相关商品。

3.2. 日志分析与聚合

Elasticsearch 的强大功能之一是日志分析。通过 Elasticsearch,企业可以将应用程序和系统的日志数据集中存储,并进行实时分析。比如,我们可以用 Elasticsearch 来分析 Web 服务器的访问日志。

3.2.1. 创建日志索引

假设我们正在收集 Web 服务器的访问日志,每一条日志包含 IP 地址、请求时间、HTTP 方法、请求路径、响应状态码等信息。

 

PUT /logs
{
  "mappings": {
    "properties": {
      "ip": {
        "type": "ip"
      },
      "timestamp": {
        "type": "date"
      },
      "method": {
        "type": "keyword"
      },
      "path": {
        "type": "text"
      },
      "status": {
        "type": "integer"
      }
    }
  }
}

 3.2.2. 索引日志数据

 

POST /logs/_doc/1
{
  "ip": "192.168.1.1",
  "timestamp": "2024-11-06T08:00:00",
  "method": "GET",
  "path": "/home",
  "status": 200
}

3.2.3. 日志聚合与分析

可以通过 Elasticsearch 提供的聚合功能对日志进行统计分析。比如,我们可以计算不同状态码的请求数量:

GET /logs/_search
{
  "size": 0,
  "aggs": {
    "status_codes": {
      "terms": {
        "field": "status"
      }
    }
  }
}

这个查询会返回每个状态码的请求数量,从而帮助分析网站的健康状况,检查错误页面的发生情况。

3.3. 数据监控与告警

Elasticsearch 也常用于实时监控和告警。例如,可以监控应用程序的性能数据或服务器的健康状态。当数据超出预设的阈值时,触发告警。

3.3.1. 创建监控数据索引

假设我们正在监控服务器的 CPU 使用率,创建一个索引记录服务器的资源使用情况。

PUT /server_metrics
{
  "mappings": {
    "properties": {
      "timestamp": {
        "type": "date"
      },
      "cpu_usage": {
        "type": "float"
      }
    }
  }
}

3.3.2. 索引资源数据

POST /server_metrics/_doc/1
{
  "timestamp": "2024-11-06T08:30:00",
  "cpu_usage": 85.5
}

 

3.3.3. 查询与告警

通过聚合分析,我们可以定期检查 CPU 使用率,如果超过 80% 时触发告警。

 

GET /server_metrics/_search
{
  "size": 0,
  "aggs": {
    "high_cpu_usage": {
      "avg": {
        "field": "cpu_usage"
      }
    }
  }
}

如果查询结果超过 80%,系统就会触发告警。

4. 总结

Elasticsearch 是一个非常强大且灵活的工具,它不仅可以用于网站搜索,还能应用于日志分析、实时监控、数据聚合等多种场景。无论是需要快速全文搜索,还是需要对大量数据进行复杂分析,Elasticsearch 都能提供高效的解决方案。通过结合案例中的实际操作,可以帮助你更好地理解 Elasticsearch 的应用,并在实际开发中灵活运用它来解决各种数据管理和查询的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2239949.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

化工防爆巡检机器人:在挑战中成长,为化工安全保驾护航

随着全球能源需求的不断攀升,化工行业的安全性与高效性愈发受到关注。化工设施规模巨大,而且其中多数存在高风险因素,像是易燃易爆化学物质、高温环境、有毒有害物质以及高压设备等。仅2023年,国内危化品事故就多达652起&#xff…

【数字图像处理+MATLAB】对图片进行伽马校正(Gamma Correction):使用幂律变换公式进行伽马变换

引言 伽马校正(Gamma Correction)是一种用于图像处理的技术,主要用于调整图像的亮度或对比度。其基本原理是对图像的每一个像素应用一个非线性变换,以更好地适应人眼的视觉感知。在数字图像处理中,伽马校正通常用于调…

scala 迭代更新

在Scala中,迭代器(Iterator)是一种用于遍历集合(如数组、列表、集合等)的元素而不暴露其底层表示的对象。迭代器提供了一种统一的方法来访问集合中的元素,而无需关心集合的具体实现。 在Scala中&#xff0c…

部署zabbix遇到问题: cannot find a valid baseurl for repo:centos-sclo-rh/x86 64 怎么解决 ?

安装 Zabbix 前端包,提示cannot find a valid baseurl for repo:centos-sclo-rh/x86 64 安装zabbix前端包 # yum install zabbix-web-mysql-scl zabbix-apache-conf-scl 解决办法: 原因是:CentOS7的SCL源在2024年6月30日停止维护…

SpringBoot(十九)创建多模块Springboot项目(完整版)

之前我有记录过一次SpringBoot多模块项目的搭建,但是那一次只是做了一个小小的测试。只是把各模块联通之后就结束了。 最近要增加业务开发,要将目前的单模块项目改成多模块项目,我就参照了一下我上次搭建的流程,发现总是有报错。上次搭建的比较顺利,很多细枝末节也没有仔细…

基于Python的智能无人超市管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

什么是量化交易

课程大纲 内容初级初识量化,理解量化 初识量化 传统量化和AI量化的区别 量化思想挖掘 量化思想的挖掘及积累技巧 量化代码基础: python、pandas、SQL基础语法 金融数据分析 常用金融分析方式 常用因子分析方式 数据分析实战练习 回测及交易引擎 交易引擎…

xcode-select: error: tool ‘xcodebuild‘ requires Xcode, but active developer

打开 .sh 文件所在的终端窗口,执行终端命令:sh 文件名.sh,出现如下错误: 解决办法:

PETR/PETRv2/StreamPETR论文阅读

1. PETR PETR网络结构如下,主要包括image-backbone,3D Coordinates Generator,3D Position Encoder,transformer Decoder四个模块。 把N 个视角的图像输入到骨干网络中以提取 2D 多视图特征。在 3D 坐标生成器中,首先…

除了 Postman,还有什么好用的 API 调试工具吗

尽管 Postman 拥有团队协作等实用特性,其免费版提供的功能相对有限,而付费版的定价可能对小团队或个人开发者而言显得偏高。此外,Postman 的访问速度有时较慢,这可能严重影响使用体验。 鉴于这些限制,Apifox 成为了一…

程序员做自媒体,你所不了解的提词器,原来还有这么多大用处

程序猿的出路,不只是外卖员! 你或许以为提词器只是个“背词神器”?实际上,它的应用范围早已超出你的想象。从直播到会议,从视频拍摄到户外采访,每一种场景都有对应的提词神器,帮你提升效率、避…

DeBiFormer实战:使用DeBiFormer实现图像分类任务(二)

文章目录 训练部分导入项目使用的库设置随机因子设置全局参数图像预处理与增强读取数据设置Loss设置模型设置优化器和学习率调整策略设置混合精度,DP多卡,EMA定义训练和验证函数训练函数验证函数调用训练和验证方法 运行以及结果查看测试完整的代码 在上…

JS 实现WebSocket通讯和什么是WebSocket

WebSocket 介绍: WebSocket 是一种网络传输协议,可在单个 TCP 连接上进行全双工通信。它允许服务器主动向客户端推送信息,客户端也能实时接收服务器的响应。 客户端 这里实现了将input内的内容发送给客户端,并将接收到的服务器的…

前端 JS面向对象 继承

目录 一、ES5通过prototype来继承 二、ES6 class实现 一、ES5通过prototype来继承 const Person{eyes:2,head:1}function Woman(){}Woman.prototypePersonconst ladynew Woman()console.log(lady)function Man(){}Man.prototypePersonconst mannew Man()console.log(man) 打…

三菱FX5UPLC以太网Socket通信功能Passive开放的程序示例

Passive开放的通信流程如下所示。 参数设置 示例程序中使用的参数设置如下所示。 [CPU模块】 导航窗口↔[参数]↔[模块型号]↔[模块参数]-[以太网端口]-[基本设置]-[对象设备连接配置设置]↔[详细设置]→[以太网配置(内置以太网端口)]画面 【以太网模块】 [导航]中「参数]→[模…

UniApp 应用、页面与组件的生命周期详解

UniApp 应用、页面与组件的生命周期详解 在uni-app中包含了 应用生命周期、页面生命周期、和组件生命周期&#xff08; Vue.js的&#xff09;函数。 应用生命周期 应用生命周期仅可在App.vue中监听&#xff0c;在其它页面监听无效。 <script>export default {onLaunc…

Optimism掀起发链热潮,还有哪些发链 平台值得关注?

继电子巨头索尼在OP上发布L2 Soneium之后&#xff0c;10月29日&#xff0c;再质押协议巨头Swell宣布迁移至Optimism超级链&#xff0c;通过OP Stack构建Rollup加入OP生态系统。据DeFilama数据显示&#xff0c;Swell的TVL最高曾超过30亿美元&#xff0c;目前为13.4亿美元&#x…

0. 0:《跟着小王学Python·新手》

《跟着小王学Python新手》系列 《跟着小王学Python》 是一套精心设计的Python学习教程&#xff0c;适合各个层次的学习者。本教程从基础语法入手&#xff0c;逐步深入到高级应用&#xff0c;以实例驱动的方式&#xff0c;帮助学习者逐步掌握Python的核心概念。通过开发游戏、构…

如何优化Kafka消费者的性能

要优化 Kafka 消费者性能&#xff0c;你可以考虑以下策略&#xff1a; 并行消费&#xff1a;通过增加消费者组中的消费者数量来并行处理更多的消息&#xff0c;从而提升消费速度。 批量消费&#xff1a;配置 fetch.min.bytes 和 fetch.max.wait.ms 参数来控制批量消费的大小和…

Golang | Leetcode Golang题解之第556题下一个更大元素III

题目&#xff1a; 题解&#xff1a; func nextGreaterElement(n int) int {x, cnt : n, 1for ; x > 10 && x/10%10 > x%10; x / 10 {cnt}x / 10if x 0 {return -1}targetDigit : x % 10x2, cnt2 : n, 0for ; x2%10 < targetDigit; x2 / 10 {cnt2}x x2%10 -…