Elasticsearch概念及ELK安装

news2024/11/18 18:25:44

1、Elasticsearch是什么

它是elastic技术栈中的一部分。完整的技术栈包括:

  • Elasticsearch:用于数据存储、计算和搜索

  • Logstash/Beats:用于数据收集

  • Kibana:用于数据可视化

整套技术栈被称为ELK,经常用来做日志收集、系统监控和状态分析等

2、Elasticearch的安装步骤

拉取镜像命令:docker pull elasticsearch:7.12.1

创建容器命令:

docker run -d \
  --name es \
  -e "ES_JAVA_OPTS=-Xms512m -Xmx512m" \
  -e "discovery.type=single-node" \
  -v es-data:/usr/share/elasticsearch/data \
  -v es-plugins:/usr/share/elasticsearch/plugins \
  --privileged \
  --network hm-net \
  -p 9200:9200 \
  -p 9300:9300 \
  elasticsearch:7.12.1

安装完成后,访问9200端口,即可看到响应的Elasticsearch服务的基本信息:

3、Kibana的安装步骤

拉取镜像命令:docker pull kibana:7.12.1

创建容器命令:

docker run -d \
--name kibana \
-e ELASTICSEARCH_HOSTS=http://es:9200 \
--network=hm-net \
-p 5601:5601  \
kibana:7.12.1

安装完成后,直接访问5601端口,即可看到控制台页面:

 4、IK分词器的安装

ik下载地址:https://release.infinilabs.com/

在下面这个目录下载与你Elasticearch版本一致的zip,解压到无中文的目录下

使用命令查看之前安装的Elasticsearch容器的plugins数据卷目录

docker volume inspect es-plugins

 应该是这个目录/var/lib/docker/volumes/es-plugins/_data,将刚刚解压的ik文件夹上传到这个目录下

最后重启es容器

重启es容器:docker restart es

 测试

访问kibana的dev tools进行测试

 IK分词的ik_max_word:最细粒度切分

我们使用IK分词的智能语义切分

5、为什么要学习Elasticearch?

之所以学习Elasticearch是因为他有独特的搜索引擎,可以对海量数据达到最适配的内容查找

倒排索引

倒排索引中有两个非常重要的概念:

  • 文档(Document):用来搜索的数据,其中的每一条数据就是一个文档。例如一个网页、一个商品信息

  • 词条(Term):对文档数据或用户搜索数据,利用某种算法分词,得到的具备含义的词语就是词条,例如"今天天气还不错"这样一个简单的句子就可以分为今天,天气,天天,还 ,不错,错等等这样的词条。

每一条数据是一个文档,

创建表,每行数据包括词条、词条所在文档id、位置等信息

这些文档会有唯一标识,当使用分词器后,该文档就是这些词条的集合

6、Elasticearch的处理流程

流程描述:

1)用户输入条件"华为手机"进行搜索。

2)对用户输入条件分词,得到词条:华为手机

3)拿着词条在倒排索引中查找(由于词条有索引,查询效率很高),即可得到包含词条的文档id:1、2、3

4)拿着文档id到正向索引中查找具体文档即可(由于id也有索引,查询效率也很高)。

7、Elasticearch的基础概念

文档(Document)

在Elasticsearch中,文档是信息的基本单位,类似于关系数据库中的一行记录。每个文档由一个唯一的ID标识,并存储为JSON对象。文档可以包含多个字段,每个字段都有其数据类型和值。

例如,一个文档可能代表一个用户的个人信息,包括姓名、年龄、电子邮件地址等字段。

字段(Field)

字段是文档中的单个数据项,类似于关系数据库中的列。每个字段都有其名称和数据类型,例如字符串、整数、日期或地理坐标等。

文本字段(Text Field):用于全文搜索的非结构化文本数据。

关键词字段(Keyword Field):用于结构化内容,如精确匹配的标签或标识符。

数值字段(Numeric Field):用于存储数值数据,包括整数和浮点数。

日期字段(Date Field):用于存储日期和时间。、

索引(Index)

索引是文档的集合,类似于关系数据库中的数据库。一个索引有一个名称,并且可以包含多个文档。索引用于组织和搜索数据

  • 所有用户文档,就可以组织在一起,称为用户的索引;

  • 所有商品的文档,可以组织在一起,称为商品的索引;

  • 所有订单的文档,可以组织在一起,称为订单的索引;

因此,我们可以把索引当做是数据库中的表。

映射(Mapping)

数据库的表会有约束信息,用来定义表的结构、字段的名称、类型等信息。因此,索引库中就有映射(mapping),是索引中文档的字段约束信息,类似表的结构约束。

8、Elasticsearch与mysql的区别

mysql更适合精确查找,每条数据在数据库中都有唯一的存储位置,也就是唯一标识

Elasticearch更适合适配查找,根据内容对数据库里的数据进行匹配,查找相关的数据

最大的区别就是索引不同,所以适用场景也不相同,

8.1、索引对比

mysql使用的正向索引,Elasticearch使用的倒排索引

正向索引

优点:可以给多个字段创建索引

           根据索引字段搜索、排序速度非常快

缺点:根据非索引字段,或者索引字段中的部分词条查找时,只能全表扫描。

倒排索引

优点:根据词条搜索、模糊搜索时,速度非常快

缺点:只能给词条创建索引,而不是字段

           无法根据字段做排序

 8.2、属性对比

MYSQLElasticearch说明

Table

Index

索引(index),就是文档的集合,类似数据库的表(table)

Row

Document

文档(Document),就是一条条的数据,类似数据库中的行(Row),文档都是JSON格式

Column

Field

字段(Field),就是JSON文档中的字段,类似数据库中的列(Column)

Schema

Mapping

Mapping(映射)是索引中文档的约束,例如字段类型约束。类似数据库的表结构(Schema)

SQLDSL

DSL是elasticsearch提供的JSON风格的请求语句,用来操作elasticsearch,实现CRUD

9、Elasticearch的适用场景

  • 全文搜索
  • 利用 Elasticsearch 的全文搜索能力,可以快速检索大量文本数据中的关键词或短语。这对于搜索引擎、电子商务平台的产品搜索、企业文档管理系统等应用非常适用。
  • 日志和数据分析
  • Elasticsearch 常用于处理和分析日志数据,它可以高效地存储、索引和搜索来自服务器、应用程序和网络设备的日志信息,帮助进行监控、故障排查和安全分析。
  • 实时数据监控
  • 由于其快速的索引和搜索能力,Elasticsearch 适合用于实时数据监控系统,比如金融交易监控、网络安全监控等,能够快速响应并分析实时数据流。
  • 内容推荐系统
  • Elasticsearch 可以用于构建推荐系统,通过分析用户行为和偏好,提供个性化的内容推荐,这在新闻聚合平台、在线市场和社交媒体等领域非常常见。
  • 地理信息系统(GIS)
  • Elasticsearch 提供了强大的地理空间搜索功能,可以用于处理和分析地理数据,适用于需要地理空间分析的应用程序,如地图服务、交通管理、位置跟踪等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1949082.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

WPF启动失败报System.Windows.Automation.Peers.AutomationPeer.Initialize()错误解决

问题描述 win10系统上WPF程序启动后就崩溃,通过查看崩溃日志如下: 应用程序: xxx.exe Framework 版本: v4.0.30319 说明: 由于未经处理的异常,进程终止。 异常信息: System.TypeLoadException 在 System.Windows.Automation.Peers.Automatio…

CMake 使用 OpenCV:从库中查找包含头文件

前言 在开发使用 OpenCV 的项目时,正确配置 CMake 是确保项目顺利构建和运行的关键。开发过程经常存在各种各样的意外和偶然, 是困难也是收获. 比如一直好好的项目, include某个头文件, 编译突然出现:No such file or directory CmakeTest/test_opencv.h:4: error:…

一套成熟的实验室信息管理系统源码,.Net 检验系统LIS源码,实现从采集、检测、报告、归档的全程跟踪管理

一套成熟的实验室信息管理系统源码。在长期的医疗信息化实践中,我们分析总结了大量客户实例,建立了以病人为中心、以业务处理为基础、以提高检验科室管理水平和工作效率为目标的产品开发思路,将医学检验、科室管理和财务统计等检验科室/实验室…

ControlNet on Stable Diffusion

ControlNet on Stable Diffusion 笔记来源: 1.Adding Conditional Control to Text-to-Image Diffusion Models 2.How to Use OpenPose & ControlNet in Stable Diffusion 3.ControlNet与DreamBooth:生成模型的精细控制与主体保持 4.Introduction t…

【Python实战】Google Chrome的离线小恐龙游戏

文章目录 Google Chrome的离线小恐龙游戏项目结构大纲 📊👣逐步编码过程 🧩💡第一步:项目初始化与主程序框架第二步:实现T-Rex的跳跃功能第三步:添加障碍物和碰撞检测第四步:添加得分…

Python3网络爬虫开发实战(1)爬虫基础

一、URL 基础 URL也就是网络资源地址,其满足如下格式规范 scheme://[username:password]hostname[:port][/path][;parameters][?query][#fragment] scheme:协议,常用的协议有 Http,https,ftp等等;usern…

正点原子 通用外设配置模型 GPIO配置步骤 NVIC配置

1. 这个是通用外设驱动模式配置 除了初始化是必须的 其他不是必须的 2. gpio配置步骤 1.使能时钟是相当于开电 2.设置工作模式是配置是输出还是输入 是上拉输入还是下拉输入还是浮空 是高速度还是低速度这些 3 和 4小点就是读写io口的状态了 3. 这个图是正点原子 将GPIO 的时…

2024中国大学生算法设计超级联赛(2)

🚀欢迎来到本文🚀 🍉个人简介:陈童学哦,彩笔ACMer一枚。 🏀所属专栏:杭电多校集训 本文用于记录回顾总结解题思路便于加深理解。 📢📢📢传送门 A - 鸡爪解题思…

eclipse修改tomcat的Jre运行环境

1.双击tomcat 2.RuntimeEnvironment 3.选择

轨道式智能巡检机器人,助力综合管廊安全运维

1 引言 当前城市综合管廊建设已经成为世界范围内的发展趋势,2017年5月住建部、发改委联合发布《全国城市市政基础设施建设“十三五”规划》,截至2017年4月底国内地下综合管廊试点项目已开工建设687 km,建成廊体260 km,完成投资40…

redis的使用场景-热点数据缓存

1.什么是缓存? 把一些经常访问的数据放入缓存中,减少访问数据库的频率,减少数据库的压力,从而提高程序的性能。【内存中存储】 2.缓存的原理 通过上图可以看出程序首先访问缓存,如果缓存中有访问的数据会直接方会给客…

分布式系统常见软件架构模式

常见的分布式软件架构 Peer-to-Peer (P2P) PatternAPI Gateway PatternPub-Sub (Publish-Subscribe)Request-Response PatternEvent Sourcing PatternETL (Extract, Transform, Load) PatternBatching PatternStreaming Processing PatternOrchestration Pattern总结 先上个图&…

基于Golang+Vue3快速搭建的博客系统

WANLI 博客系统 项目介绍 基于vue3和gin框架开发的前后端分离个人博客系统,包含md格式的文本编辑展示,点赞评论收藏,新闻热点,匿名聊天室,文章搜索等功能。 项目在线访问:http://bloggo.chat/ 或 http:/…

Photos框架 - 自定义媒体资源选择器(数据部分)

引言 在iOS开发中,系统已经为我们提供了多种便捷的媒体资源选择方式,如UIImagePickerController和PHPickerViewController。这些方式不仅使用方便、界面友好,而且我们完全不需要担心性能和稳定性问题,因为它们是由系统提供的&…

基于扩散的生成模型的语音增强和去噪

第二章 目标说话人提取之《Speech Enhancement and Dereverberation with Diffusion-based Generative Models》 文章目录 前言一、任务二、动机三、挑战四、方法1.方法:基于分数的语音增强生成模型(sgmse)2.网络结构 五、实验评价1.数据集2.采样器设置和评价指标3.基线模型4.评…

godot新建项目及设置外部编辑器为vscode

一、新建项目 初次打开界面如下所示,点击取消按钮先关闭掉默认弹出的框 点击①新建弹出中间的弹窗②中填入项目的名称 ③中设置项目的存储路径,点击箭头所指浏览按钮,会弹出如下所示窗口 根据图中所示可以选择或新建自己的游戏存储路径&…

音视频开发之旅(85)- 图像分类-VGG模型解析

目录 1. VGG解决的问题 2. 网络结构和参数 3. pytorch搭建vgg 4.flower_photos分类任务实践 5.资料 一、VGG解决的问题 论文链接:https://arxiv.org/pdf/1409.1556 在VGG之前,大多数深度学习模型相对较浅,比如下面的AlexNet(5层卷积和3…

记录阿里云部署gitlab

登录阿里云: 阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台 选择自己的ECS实例。我的实例是 使用VNC登录:输入用户名和密码 安装所需的依赖包: sudo yum install -y yum-utils device-mapper-persistent-data lvm2 添…

Git(分布式版本控制系统)(fourteen day)

一、分布式版本控制系统 1、Git概述 Git是一种分布式版本控制系统,用于跟踪和管理代码的变更,它由Linux、torvalds创建的,最初被设计用于Linux内核的开发。Git允许开发人员跟踪和管理代码的版本,并且可以在不同的开发人员之间进行…

货架管理a

路由->vue的el标签->Api->call方法里calljs的api接口->数据声明const xxxData-> 编辑按钮:点击跳出页面并把这一行的数据给到表单formDataba2 保存按钮:formDataba2改过的数据->xxApi发送->查询Api 跳转仓库:把tableData.value数据清空->callXxxAp…