Elasticsearch学习

news2024/9/21 2:37:36

基本概念

运维角度物理概念

  1. 分片(shard):一个索引所占用的物理空间分配
    1. primary shard:解决数据水平扩展问题,分片数据量过大时,可以通过增加DataNode节点扩容。一个主分片等于一个lucene实例。创建索引时指定,不能动态修改。
    2. replica shard:副本节点保障数据高可用性。增加副本数,可以提高服务的查询吞吐。可以动态修改
  2. 节点(node):一个Es实例
    1. Master eligible:参数node.master=true,负责集群状态(cluster status)的管理
    2. Data Node : 参数node.data=true,负责数据存储及处理客户端请求节点
    3. ingest node:参数node.ingest=true,负责数据处理
    4. Coordinating Node:参数node.master/data/ingest均为false,负载均衡,降低master/data节点负载,搜索结果的gather/reduce
    5. Machine Learning Node:参数node.ml=true,负责跑机器学习任务,用来做异常检测,自动发现数据异常发出警告
    6. Tribe Node: (5.3开始使用Cross Cluster Search)支持连接不同集群
    7. Hot & Warm Node:不同硬件配置的data node,用来实现Hot & Warm架构,降低集群部署的成本

https://www.elastic.co/guide/en/elasticsearch/reference/8.5/modules-node.html

开发角度逻辑概念

  1. 索引(index):一类文档的集合
  2. 文档(document):可以搜索的最小单位

类比数据库

RDBMSElasticsearch
TableIndex(Type)
RowDocument
ColumnFiled
SchemaMapping
SQLDSL

倒排索引

  1. 倒排索引采用Immutable Design,一旦生成,不可更改
  2. Elasticsearch的每个文档是基于JSON格式,每个文档都会建立自己的倒排索引
  3. 可以手工指定某些Field字段不做索引
TermCountDocumentId:Position
World31:1,2:0,3:0
Hello11:0
Bank12:1
Class13:1

正排索引

DocIdDocContent
1Hello World
2World Bank
3World Class

流程图

es-write-read.drawio.png

translog写入在处理index buffer之后,处理index buffer ACK之前:https://www.elastic.co/guide/en/elasticsearch/reference/8.6/index-modules-translog.html

查询Segment缓存中的数据,因此ES是一个近实时数据,默认写入的数据1S内进入Segment
参考官方文档:https://www.elastic.co/guide/en/elasticsearch/reference/2.4/search-request-search-type.html

query then fetch

参数值: query_then_fetch(默认类型)
分两个阶段处理查询请求。第一阶段,请求被转发至所有涉及的shard分片。每个shard执行搜索并生成一个排序结果列表,该列表在shard本地。每个shard向cooridinating节点返回足够的信息,以允许它合并与重排序shard级别的结果至一个全局排序的结果集,结果集最大长度为请求需求的size。
第二阶段,coordinating节点仅向相关shard请求文档内容(以及高亮片段,如果有的话)。
queryThenFetch.drawio.png

dfs,query then fetch

参数值:dfs_query_then_fetch
与"Query Then Fetch"相似,区别是初始分发阶段,它会去计算分布式TF值,以获取更准确的评分

query and fetch

参数值: query_and_fetch
与query_then_fetch区别在于,只有一个阶段,第一阶段就返回文档内容,即将两个阶段合二为一了
5.3版本后已废弃:https://www.elastic.co/guide/en/elasticsearch/reference/5.6/release-notes-5.3.0.html

dfs, query and fetch

参数值:dfs_query_then_fetch
5.3版本后已废弃:https://www.elastic.co/guide/en/elasticsearch/reference/5.6/release-notes-5.3.0.html

深度分页

es分页取大于10000条之后的数据会报错,追加大于上一页最大的id的条件过滤数据避免溢出报错

集群部署

单一职责

  1. Dedicated master eligible nodes:负责集群状态管理
    1. 使用低配置的CPU,RAM,磁盘
    2. 一个集群一般配置3台,只有1台活跃主节点
    3. 负责分片管理,索引创建,集群管理等操作
  2. Dedicated data nodes:负责数据存储及处理客户端请求
    1. 使用高配置的CPU,RAM,磁盘
  3. Dedicated ingest nodes:负责数据处理(pipeline流式数据处理)
    1. 使用高配置的CPU,中等配置RAM;低配置磁盘
  4. Dedicated Coordinating Only Nodes(Client Node)
    1. 使用中/高配置CPU,中/高配置RAM,低配置磁盘
    2. 生产环境大集群建议配置Coordinating Only Nodes

Coordinating

coordinating.drawio.png

读写分离

RWsplit.drawio.png

异地多活

liveLongInDifferentPlaces.drawio.png

Hot & Warm Architecture

  1. Hot节点:通常使用SSD,索引有不断的新数据写入,存在大量的数据查询
  2. Warm节点:通常使用HDD,索引不存在新数据写入,同时不存在大量的数据查询,例如归档日志,历史订单等

HotWarm.drawio.png

标记节点

  1. 节点的attribute可以是任何的key/value,比如:my_node_type=hot
  2. 通过elasticsearch.yml或命令参数指定
-E node.attr.my_node_type=hot
-E node.attr.my_node_type=warm

配置hot数据

创建索引指定hot节点

PUT log-2022
{
    "setting":{
        "number_of_shards":2,
        "number_of_replicas":1,
        "index.routing.allocation.require.my_node_type":"hot"
    }
}

hot数据迁移至warm节点

PUT log-2022/_settings
{
    "index.routing.allocation.require.my_node_type":"warm"
}

Rack Awareness

避免主副分片分布在同一个机架上,当一个机架断电时导致数据丢失

标记rack

-E node.attr.my_rack_id=rack1
-E node.attr.my_rack_id=rack2

配置集群

PUT _cluster/settings
{
    "persistent":{
        "cluster.routing.allocation.awareness.attributes":"my_rack_id"
    }
}

主副分片会自动分配至不同rack上
rackAwareness.drawio.png

shard管理

一个索引配置多个分片,可以动态水平扩展,重新分配时,系统不会有downtime
shard-水平扩展.drawio.png

默认配置

https://www.elastic.co/guide/en/elasticsearch/reference/current/misc-cluster-settings.html
1000 shards/per data node
3000 shards/per frozen data node

案例1

  1. 每天1GB数据,一个索引一个主分片,一个副本分片
  2. 保留半年的数据,接近360GB数据量

案例2

  1. 5个不同的日志,每天创建一个日志索引。每个日志索引创建10个主分片
  2. 保留半年数据
  3. 51030*6=9000个分片

官方推荐

https://www.elastic.co/guide/en/elasticsearch/reference/8.6/size-your-shards.html
存储设计

  1. 日志类应用,单个分片不要大于50GB
  2. 搜索类应用,单个分片不要超过20GB

为什么要控制大小

  1. 提高update性能
  2. merge时,减少所需的资源
  3. 丢失节点后,具备更快的恢复速度/便于分片在集群内rebalancing

集群容量规划

  1. 数据节点尽量使用SSD
  2. 搜索性能要求高的场景,建议SSD
    1. 按照1:10的比例配置内存和硬盘
  3. 日志类和查询并发低的场景,可以考虑机械硬盘
    1. 按照1:50的比例配置内存和硬盘
  4. 单个数据节点建议控制在2TB以内,最大不建议超过5TB
  5. JVM配置机器内存1半,JVM内存配置不建议超过32G

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/133236.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

windows认证之本地认证

windows认证包括本地认证、网络认证和域认证三个部分windows认证和密码的抓取可以说是内网渗透的第一步。 1、window认证流程 Windows的登陆密码是储存在系统本地的SAM文件中的,在登陆Windows的时候,系统会将用户输入的密码与 SAM文件中的密码进行对比&…

JavaScript基础系列之引用类型细节总结

1. 前言 这里不罗列 API,如果需要 API 可以自行查询。只会强调一些不起眼但是很重要的细节问题 2. Object 2.1 生成对象几种方式: 曾经被面试过哦, 虽然很基础,但是划重!!! const obj new Obj…

【机器学习】线性回归(理论)

线性回归(理论) 目录一、概论1、何为线性回归2、问题的抽象3、误差的引入4、极大似然估计的引入5、目标函数的优化二、梯度下降1、何为梯度下降2、利用梯度下降进行函数寻优3、梯度下降的一些问题Ⅰ 迭代步长Ⅱ 算法的初始位置Ⅲ 数据的取值范围差异Ⅳ 鞍…

i.MX8MP平台开发分享(IOMUX篇)- uboot驱动

专栏目录:专栏目录传送门 平台内核i.MX8MP5.15.71文章目录 1. pinfunc.h2.iomux驱动3.pinctrl_select_state_full4.imx_pinctrl_set_state1. pinfunc.h pinfunc.h中定义了所有的引脚,命名方式是MX8MP_IOMUXC___,例如下面的MX8MP_IOMUXC_GPIO1_IO00__GPIO1_IO00定义了MUX寄存…

网络信息安全-LSB图像隐写与检测的设计实现

任务目标: 本选题需要学习经典的图像信息隐藏算法,包括基于空域的隐写算法和数字水印算法。 接着你将使用某种编程语言实现这些算法,实现在图片中嵌入一些信息,例如字符串和一些 文件。除此之外,还需要尝试一些基础的…

吴恩达《机器学习》——Logistic多分类与神经网络

Logistic多分类与神经网络1. MINIST数据集与Logistic多分类MINIST简介数据集可视化Logistic如何实现多分类?One-Hot向量Python实现2. 神经网络(Neural Network, NN)神经网络前馈传播Python实现3. 基于PyTorch框架的网络搭建数据集、源文件可以在Github项目中获得 链…

使用CMake构建静态库和动态库

使用CMake构建静态库和动态库一、准备工作二、动态库的构建2.1 工程改造2.2 编译动态库2.3 更多的说明三、静态库的构建3.1 错误的尝试3.2 新的构建指令四、动态库的版本号五、安装动态库和头文件一、准备工作 本机演示环境为: 主机windows11 vscode 虚拟机安装的…

人工智能在药物研发和生物技术中的应用:回顾与展望

人工智能(Artificial intelligence, AI)的出现正在重新塑造整个制药和生物技术行业的发展。几乎所有大大小小的生命科学和药物发现机构,都对采用人工智能驱动的发现平台表现出浓厚的兴趣,希望通过AI来简化研发工作,减少发现时间和成本&#x…

【C++基础】10:STL(二)

CppSTL(二) OVERVIEWCppSTL(二)一、函数对象1.函数对象:(1)概述:(2)简单使用:2.谓词:(1)一元谓词:…

LVGL学习笔记10 - 按钮Button

目录 1. Check型按钮 2. 修改样式 2.1 设置背景 2.1.1 颜色 2.1.2 透明度 2.1.3 渐变色 2.1.4 渐变色起始位置设置 2.2 修改边界 2.2.1 宽度 2.2.2 颜色 2.2.3 透明度 2.2.4 指定边 2.3 修改边框 2.4 修改阴影 2.4.1 宽度 2.4.2 透明度 2.4.3 偏移坐标 2.3.…

PHP代码审计系列(五)

PHP代码审计系列&#xff08;五&#xff09; 本系列将收集多个PHP代码安全审计项目从易到难&#xff0c;并加入个人详细的源码解读。此系列将进行持续更新。 数字验证正则绕过 源码如下 <?phperror_reporting(0); $flag flag{test}; if ("POST" $_SERVER[…

数值优化之凸集

本文ppt来自深蓝学院《机器人中的数值优化》 目录 1 凸集的定义 2 凸集的运算 1 凸集的定义 集合中任意两点连线形成的线段属于这个集合&#xff0c;这个集合是凸集。 注意&#xff1a;是否是凸集&#xff0c;集合的边界是否属于这个集合很重要 这涉及到构造最小凸包的问题…

行锁功过:怎么减少行锁对性能的影响?

在上一篇文章中,我跟你介绍了 MySQL 的全局锁和表级锁,今天我们就来讲讲 MySQL 的行锁。 MySQL 的行锁是在引擎层由各个引擎自己实现的。但并不是所有的引擎都支持行锁,比如 MyISAM 引擎就不支持行锁。不支持行锁意味着并发控制只能使用表锁,对于这种引擎的表,同一张表上…

Java中的四种引用类型

1.对象引用介绍 从 JDK1.2 版本开始&#xff0c;把对象的引用分为四种级别&#xff0c;从而使程序更加灵活的控制对象的生命周期。这四种级别由高到低依次为&#xff1a;强引用、软引用、弱引用和虚引用。 用表格整理之后&#xff0c;各个引用类型的区别如下&#xff1a; 2.强…

BOM编程:location对象

document 对象和window对象的location的区别 document对象的位置获取步骤是返回这个相关的全局对象的位置对象&#xff0c;如果这是完全活动的&#xff0c;否则为空。 Window对象的位置获取步骤是返回它的位置对象。每个Window对象都与创建Window对象时分配的Location对象的唯…

Spark01:Spark工作原理

1. Spark执行数据计算的整个流程 首先通过Spark客户端提交任务到Spark集群&#xff0c;然后Spark任务在执行的时候会读取数据源HDFS中的数据&#xff0c;将数据加载到内存中&#xff0c;转化为RDD&#xff0c;然后针对RDD调用一些高阶函数对数据进行处理&#xff0c;中间可以调…

ElementUI——案例1用户管理(基于SpringBoot)

1.前期准备 备注&#xff1a;主要涉及组件container组件&#xff0c;导航菜单组件&#xff0c;router路由组件&#xff0c;carousel 走马灯组件&#xff0c;Image组件&#xff0c;Table表格组件 #1.在项目开发目录使用脚手架新建vue项目&#xff08;需要提前安装好node和webp…

无字母数字webshell提高

前言 元旦快乐 -- 转眼就到了2023年 新的一年继续努力 在p神博客中看到一个 通过上传临时文件进行rce&#xff0c;便想着写一篇文章&#xff0c;记录一下这个小trick。太强了 比如给你下面这么一串代码。正如文章标题 无字母数字&#xff0c;如果匹配到字母和数字&#xf…

【Vuex快速入门】vuex基础知识与安装配置

vuex快速入门——什么是vuex&#xff1f;创作背景vuex基础知识一、vuex是什么&#xff1f;二、vuex的组成三、为什么使用vuex&#xff1f;四、什么时候使用vuex&#xff1f;vuex的安装配置一、直接下载 / CDN引用二、npm安装vuex三、yarn安装四、自己构建更多内容可参考Vuex官方…

[从零开始]用python制作识图翻译器·二

AlsoEasy-RecognitionTranslator需求分析系统分析功能拆解工程语言选择技术可行性分析具体实现需求分析 见上篇[从零开始]用python制作识图翻译器一 上篇分析了该产品的需求以及市场上的可行性&#xff08;没有被吊打的竞品&#xff09;。而本篇将着重于分析如何实现。 系统分析…