【ES入门一:基础概念】

news2024/10/5 14:03:57

集群层面上的基础概念

集群

由多个es实例组成的叫做集群
image.png

节点

单个ES的服务实例叫做节点。每个实例都有自己的名字,就是在配置文件中配置的‘node.name’中的内容。为了标识每个节点,每个节点启动后都会分配一个UID,存储在data目录。每个节点受到集群的管理,我们可以通过增加或减少节点来达到扩容和减容的目的

集群中的节点是有分类的:

  • 主节点:主节点在整个集群中是唯一的,主节点主要负责管理集群变更,元数据的更改
  • 数据节点:负责保存数据,要扩产存储时需要扩展这类节点。数据节点负责执行数据相关的操作,如:搜索、聚合、crud。其对节点机器的CPU、内存、I/O要求都比较高
  • 协调节点:负责接口客户端的请求,将请求路由到对应节点进行处理,把最终结果汇总到一起返回给客户端,因为需要处理结果集和对其进行排序,需要较高的CPU和内存资源
  • 预处理节点:预处理操作允许在写入文档前通过定义的一些processors处理器和管道对数据进行转换。默认情况下节点启动后就是预处理节点
  • 部落节点:未来会淘汰
  • Hot&Warm Node: 不同硬件配置的节点,用来实现Hot&Warm架构的节点,有利于降低集群部署成本。例如,在硬件资源好的机器中部署Hot类型的数据节点,而在硬件资源一般的机器上部署Warm节点

在新版的ES中,是这样配置的
image.png
如上示例,node.roles的值是一个数组,说明一个节点可以有多个角色。node.roles的可选项如下:
image.png
机智的你会发现,上述类型中并没有协调节点的类型选项,那怎么设置一个节点为协调节点那? 其实每个节点本身就是一个协调节点,如果你一定要指定一个节点为协调节点的话,可以这样设置:
image.png

分片

分片的概念其实很好理解,试想一下如果家里的书多到一个箱子放不下,是不是要找另外一个箱子来装,这些书好比就是海量的数据,一个机器放不下,就放到多个机器上来存储
image.png
一般来说,面对海量数据的时候,分布式系统可以通过增加机器数量来进行水平拓展。所以,系统需要将数据分成几个小块数据,并且尽量均匀的分配到各个机器上,然后通过某种策略找到对应数据所在的位置。分片是ES底层最基本的读写单元,分片是为了分割巨大的索引数据,让读写可以有多台机器来完成,从而提高系统的吞吐量

副本

为了保证数据可靠性,一般分布式系统都会对数据进行冗余备份,这个备份就是副本。**ES将数据副本分为主从2个类型:主分片+副分片。**在写入的过程中,先写入主分片,成功后再并发写副分片,在数据恢复时以主分片为主。多个副本除了可以保证数据可靠性,还有一个好处就是可以承担系统的读负载

可以在创建索引的时候,指定分片数量和副本数量:
image.png

数据层面上的基础概念

索引(相当于数据库表)

索引是一类相似文档的集合。ES将数据存储在一个或多个Index中,例如将用户数据存储到User Index中,而将订单数据存储到Order Index中。一个索引有一个或者多个分片,索引的数据会以某种方式分散到各个分片上去存储
image.png
如上图,索引有3个分片,主分片分别是P1、P2、P3,队友的副本分别是R1、R2、R3,仔细看主分片和其他副本分片不会同时分配在同一个节点上。这样是保证当一个节点的主分配下线时,其他节点上的从副本可以升级为主分配,保证数据的可靠性

Mapping (相当于建表语句)

Mapping定义了索引里面的文档到底有哪些字段 以及字段的类型,类似于数据库中表结构的定义。Mapping有2种作用:

  • 定义索引中各个字段的名称和对应的类型
  • 定义各个字段、倒排索引的相关设置,如使用什么分词器

需要注意的是,Mapping一旦定义完成后,已经定义的字段的类型是不能更改的

文档(相当于表记录)

我们往Es中写入的每一条数据都是一个文档,并且我们搜索也是以文档为单位的,所以文档是ES中的主要实体

我们在kibana或者postman中测试插入一条书本记录:
image.png
然后在查一下这条记录:
image.png
顺便解释一下返回的字段含义:

  • _index:文档所属的索引名字,也就是books
  • _type:文档所属的类型名称,现在ES7.x统一为_doc
  • _id: 文档的唯一id。如果我们插入时不指定文档id,es会随机分配,这里有利于数据均匀分散到各个分片
  • _version:文档的版本信息,并发读写时可以解决文档冲突
  • _score:相关性算法,代表查询的匹配性
  • _seq_no和_primary_term:es内部用来保证主分片和副本数据一致性的,后面的章节中我们会进行介绍**。当一个index每次选择主分配后都会有一个序号,记为_primary_term,它是递增的。在同一个index下,每次写入数据后都会有一个写入顺序号,记为_seq_no, 它也是递增的。_primary_term 和 _seq_no 在逻辑上构成了一个文档写入的唯一位置。**

字段(相当于表字段)

每个文档都有一个或者多个字段,例如books索引指定了书本有2个字段book_id和name两个字段,其实就是Json中的key,常见的类型有keyword、text、数字类型(integer、long、float、double等)、对象存储

  • keyword:适合存储简短、结构化的字符串,比如产品名称、产品id
  • text适合存储全文本数据,比如:文件内容、短信内容

下面是一个简单的示例:
image.png

词项

将全文本的内容进行分词后得到的词语就是词项了。例如“programmmers love cat”使用标准分词器后得到【programmmer、love、cat】这3个词项。需要注意的是:分词器除了进行分词外还会进行大小写转换、去复数等操作

倒排索引和正排索引

image.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1489485.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第七十四天漏洞发现-Web框架中间件插件BurpSuite浏览器被动主动探针

第74天 漏洞发现-Web框架中间件插件&BurpSuite&浏览器&被动&主动探针 最近几天都是演示工具如何使用如:AWVS、Nessus、nexpose等综合性利用工具。 Burp插件和漏扫工具的区别 知识点: 1、浏览器插件&BurpSuite插件 2、Hack-Tools&…

基于协同过滤的旅游推荐系统设计与实现

基于协同过滤的旅游推荐系统设计与实现 在当今旅游业蓬勃发展的背景下,人们对于旅游体验的需求日益增加,如何为用户提供更加个性化、精准的旅游推荐成为了旅游行业的一个重要课题。为解决这一问题,我们设计并实现了一个基于协同过滤的旅游推…

“互动+消费”时代,借助华为云GaussDB重构新零售中消费逻辑

场与人的关系 “人—货—场”是零售中重要的三要素,我们一直在追求,将零售中的人、货、场进行数字化并在云端进行整合,形成属于我们自己的云平台。 随着互联网技术为信息提供的便利,消费者的集体力量正在逐渐形成一股强大的反向…

RabbitMQ的整体架构是怎么样的?

RabbitMQ是一个开源的消息中间件,用于在应用程序之间传递消息。它实现了AMQP(高级消息队列协议)并支持其他消息传递协议,例如STOMP(简单文本定向消息协议)和MQTT(物联网协议) 他的整体架构大致如下: Producer&#xf…

【NVCC,CUDA,NVIDIA驱动】装了pytorch,nvcc -V不能用,但能正常使用gpu

这里写目录标题 问题描述问题原理为什么anaconda安装的Pytorch,其能够直接在gpu上运行NVCC是什么,怎么查看装没装 如果没有NVCC文件夹,应该如何安装NVCC?CUDNN:Local Installer for Linux x86_64和Local Installer for…

小程序开通流量主

开发小程序有一段时间了,误打误撞开通了流量主。到现在有2400人访问了,当然这是累计的,每天访问人数也就是平均七八十左右。 当然,每日还是有一些收入的,虽然比较低,一块钱上下: 感觉做小程序&…

hnust 湖南科技大学 2022 数据挖掘课设 完整代码+报告+图源文件+指导书

hnust 湖南科技大学 2022 数据挖掘课设 完整代码报告图源文件指导书 目录 实验一 Apriori算法设计与应用 - 1 - 一、 背景介绍 - 1 - 二、 实验内容 - 1 - 三、 实验结果与分析 - 2 - 四、 小结与心得体会 - 3 - 实验二 KNN算法设计与应用 - 4 - 一、 背景介绍 - 4 - 二、 实…

NLP评价指标

一、分类任务常见评估: 准确度(Accuracy) 评估预测正确的比例,精确率(Precision) 评估预测正例的查准率,召回率(Recall) 评估真实正例的查全率。如果是多分类,则每个类别各自求P、R最终求平均值。 TP(True Positives…

鸿蒙Harmony应用开发—ArkTS声明式开发(通用属性:分布式迁移标识)

组件的分布式迁移标识,指明了该组件在分布式迁移场景下可以将特定状态恢复到对端设备。 说明: 从API Version 8开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 restoreId restoreId(value: number) 标记支持分布式…

Java_二叉树

文章目录 一、二叉树1.树型结构2.概念(重要)3.树的表示形式(了解)4.树的应用5.二叉树的概念6.两种特殊的二叉树7.二叉树的性质练习 8.二叉树的存储9.二叉树的遍历手动创建二叉树1、前中后遍历2、层序遍历3、二叉树的基本操作获取树…

什么是Vue的过渡效果?如何使用Vue的过渡效果?

Vue的过渡效果是Vue.js框架中提供的一种动画效果,可以让元素在插入、更新或移除时拥有更流畅的视觉切换效果。使用Vue的过渡效果可以为页面增添动感和交互性,让用户体验更加友好。 下面我们来看一下如何使用Vue的过渡效果。首先,我们需要在V…

什么是SpringCloud,有哪些组件?

spring Cloud 是基于spring boot的分布式系统开发工具,它提供了一系列开箱即用的,针对分布式系统开发的特性和组件。用于帮助开发人员快速构建和管理云原生应用程序。 Spring Cloud 的主要目标是解决分布式系统中的常见问题,例如服务发现,负载均衡,配置管理,断路器,消息总…

【鸿蒙 HarmonyOS 4.0】应用状态:LocalStorage/AppStorage/PersistentStorage

一、介绍 如果要实现应用级的,或者多个页面的状态数据共享,就需要用到应用级别的状态管理的概念。 LocalStorage:页面级UI状态存储,通常用于UIAbility内、页面间的状态共享。AppStorage:特殊的单例LocalStorage对象&…

ElasticSearch之数据分片和故障转移

写在前面 基础环境可以参考ElasticSearch之分布式模型介绍,选主,脑裂 。 本文看下es的数据分片和故障转移相关内容。 1:数据分片 分片,英文是shard,存储在data node ,分为主分片和副本分片,英…

数据治理实战——翼支付金融板块业务数仓建设和数据治理之路

目录 一、数据治理背景 二、数据治理建设内容 2.1 组织协同 2.2 平台建设 2.3 数据应用治理 2.4 数据规范 2.5 数据安全 三、企业级数仓建设 3.1 调研阶段 2.2 平台护航 2.3 数仓分层 2.4 维度建模 2.4.1 维度建模四步曲 2.4.2 命名规范 2.4.3 资产沉淀 2.4.4 …

【JS】WebSocket:实现实时通信功能。

【JS】WebSocket:实现实时通信功能。 一、WebSocket是什么?二、为什么需要WebSocket?三、WebSocket的优势四、WebSocket实现方式五、示例1:实时数据展示六、示例2:实现简易聊天室 如果想需要websocket实现功能,后端也要进行对应的…

前端食堂技术周刊第 114 期:Interop 2024、TS 5.4 RC、2 月登陆浏览器的新功能、JSR、AI SDK 3.0

美味值:🌟🌟🌟🌟🌟 口味:凉拌鸡架 食堂技术周刊仓库地址:https://github.com/Geekhyt/weekly 大家好,我是童欧巴。欢迎来到前端食堂技术周刊,我们先来看下…

tsc : 无法加载文件 C:\Users\Administrat\AppData\Roaming\npm\tsc.ps 1,因为在此系统上禁止运行脚本

报错:tsc : 无法加载文件 C:\Users\Administrat\AppData\Roaming\npm\tsc.ps1,因为在此系统上禁止运行脚本。有关详细信息,请参阅 https:/go.microsoft.com/fwlink/?LinkID135170 中的 about_Execution_Policies。 解决 使用命令行时出现ab…

Excel中筛选合并单元格后,只显示第一行怎么办?

Excel中筛选合并单元格后,只显示第一行怎么办? 我们日常的Excel数据在展示的时候为了数据的清晰和美观往往部分相同的单元格进行合并,但是合并之后在筛选时会发现结果会显示异常。 现在我们筛选下国籍为中国的员工信息,发现只显示了一条数据,解决这个异常只需要五Excel步:…

使用Pytorch导出自定义ONNX算子

在实际部署模型时有时可能会遇到想用的算子无法导出onnx,但实际部署的框架是支持该算子的。此时可以通过自定义onnx算子的方式导出onnx模型(注:自定义onnx算子导出onnx模型后是无法使用onnxruntime推理的)。下面给出个具体应用中的…