Elasticsearch 故障转移及水平扩容

news2025/4/16 14:06:51

一、故障转移

Elasticsearch 的故障转移(Failover)机制是其高可用性的核心,通过分布式设计、自动检测和恢复策略确保集群在节点故障时持续服务。

1.1 故障转移的核心组件
组件作用
Master 节点管理集群状态(分片分配、索引创建)、协调故障转移
Data 节点存储分片数据,参与分片复制
Zen Discovery7.x 之前版本的节点发现和故障检测机制
Raft 协议7.x+ 版本用于 Master 选举的共识算法
分片副本(Replicas)数据冗余的基础,主分片故障时副本自动晋升
1.2 故障检测机制
  1. 心跳检测(Ping)

    • 检测方式:节点间定期发送心跳(默认间隔 1s,超时 30s)。
    • 关键参数:
      discovery.zen.fd.ping_interval: 1s      # 心跳间隔
      discovery.zen.fd.ping_timeout: 30s      # 超时判定
      discovery.zen.fd.ping_retries: 3        # 重试次数
      
  2. Master 选举

    • 7.x 之前版本:基于 discovery.zen.minimum_master_nodes(防止脑裂)。
    • 7.x+ 版本:使用 Raft 协议自动选举,需配置 cluster.initial_master_nodes。
1.3 故障转移流程

场景1:Data 节点故障

  1. 检测阶段:Master 节点检测到 Data 节点心跳丢失(超时 30s)。
  2. 分片重新分配:
    • 若故障节点包含主分片,其对应的副本分片自动晋升为新主分片。
    • 若副本不足,集群状态变为 yellow。
  3. 恢复新副本:Master 在健康节点上创建新的副本分片,恢复 green 状态。

场景2:Master 节点故障

  1. 选举触发:剩余 Master 候选节点发起新一轮选举(基于 Raft 协议)。
  2. 新 Master 生效:当选节点接管集群状态管理。
  3. 元数据同步:新 Master 从全局集群状态恢复分片分配信息。

场景3:网络分区(Split-Brain)

  1. 防护机制:
    • 7.x 之前:minimum_master_nodes 阻止少数派选举。
    • 7.x+:Raft 协议自动隔离少数派分区。
  2. 恢复:网络恢复后,少数派节点重新加入集群并同步数据。
1.4 手动故障转移场景与操作
  1. 节点计划性维护(如升级)

    # 1. 排除节点分片分配
    PUT _cluster/settings
    {
      "persistent": {
        "cluster.routing.allocation.exclude._name": "es-old-node"
      }
    }
    
    # 2. 等待分片迁移完成(检查无分片在此节点)
    GET _cat/shards?v&h=index,shard,node
    
    # 3. 安全停止节点
    docker stop es-old-node
    
  2. 分片强制分配(自动恢复失败时)

    # 手动分配未分配的分片
    POST /_cluster/reroute
    {
      "commands": [
        {
          "allocate_stale_primary": {
            "index": "logs-2023-10",
            "shard": 0,
            "node": "es-new-node",
            "accept_data_loss": true  # 仅在必要时使用!
          }
        }
      ]
    }
    
1.5 故障转移配置优化
  1. 控制分片恢复速度

    # 避免瞬时带宽和 CPU 过载
    cluster.routing.allocation.node_initial_primaries_recoveries: 4
    cluster.routing.allocation.node_concurrent_recoveries: 2
    indices.recovery.max_bytes_per_sec: 100mb
    
  2. 延迟分片分配(应对短暂故障)

    # 默认 1m,可延长至 5m 避免频繁迁移
    index.unassigned.node_left.delayed_timeout: 5m
    
  3. 优先恢复主分片

    cluster.routing.allocation.enable: "primaries"
    
1.6 故障转移注意事项
  1. 避免脑裂:合理配置 discovery.zen.minimum_master_nodes(通常为 (master_eligible_nodes / 2) + 1)。
  2. 副本分片数量:设置 number_of_replicas ≥ 1,确保每个主分片有至少一个副本。
  3. 分片均衡:避免热点分片集中,合理设计索引和分片数量。
  4. 慢恢复问题:大规模分片恢复可能影响性能,可通过 cluster.routing.allocation.node_concurrent_recoveries 限制并发恢复数。
  5. 跨可用区部署:通过 awareness 配置将分片分布到不同机架或可用区(AZ),避免单点故障。

二、水平扩容

Elasticsearch 的水平扩容(Horizontal Scaling)是通过增加节点数量来扩展集群的处理能力和存储容量,以应对数据量增长或高并发请求的场景。其核心思想是利用分布式架构的特性,将数据和负载均匀分配到更多节点上。

2.1 水平扩容的核心原理

Elasticsearch 的分布式架构天然支持水平扩容,关键点包括:

  1. 分片(Shard)机制:索引被拆分为多个主分片(Primary Shard)和副本分片(Replica Shard),分片分布在集群的各个节点。
  2. 自动负载均衡:新增节点后,Elasticsearch 会自动将部分分片迁移到新节点,实现负载均衡。
  3. 无缝扩展:扩容过程对用户透明,无需停机或手动干预数据迁移。
2.2 水平扩容的典型场景
  1. 存储容量不足:原始节点磁盘空间不足,需增加节点扩展存储。
  2. 性能瓶颈:查询延迟高或写入吞吐量不足,需分散负载。
  3. 高可用性需求:通过更多节点提高副本分片数量,增强容错能力。
2.3 水平扩容的具体步骤

步骤 1:添加新节点到集群

  1. 配置新节点:
    • 在新节点上安装 Elasticsearch,确保以下配置与现有集群一致:
      # elasticsearch.yml
      cluster.name: my-cluster      # 集群名称必须一致
      discovery.seed_hosts: ["node1_ip:9300", "node2_ip:9300"]  # 现有集群节点地址
      
      • 若新节点是数据节点,确保 node.roles: [ data ](默认角色)。
      • 若新节点是专用主节点或协调节点,需显式配置角色。
  2. 启动新节点:
    • 新节点会自动加入集群,并接收分片分配任务。

步骤 2:调整分片分配策略
Elasticsearch 默认会自动将分片分配到新节点,但可以通过配置优化:

  • 延迟分片分配(避免瞬时负载激增):

    PUT /_cluster/settings
    {
      "transient": {
        "cluster.routing.allocation.node_initial_primaries_recoveries": 1,  // 单节点并行恢复主分片数
        "cluster.routing.allocation.cluster_concurrent_rebalance": 2         // 并发分片迁移数
      }
    }
    
  • 排除旧节点(逐步迁移):

    PUT /_cluster/settings
    {
      "persistent": {
        "cluster.routing.allocation.exclude._ip": "old_node_ip"  // 从旧节点移出分片
      }
    }
    

步骤 3:调整索引分片数

  • 新建索引时指定分片数:
    水平扩容前需合理规划主分片数量(主分片数在创建索引后不可修改):

    PUT /my_index
    {
      "settings": {
        "number_of_shards": 6,    // 主分片数需提前规划
        "number_of_replicas": 1   // 副本分片数可动态调整
      }
    }
    
  • 动态调整副本分片数(即时生效):

    PUT /my_index/_settings
    {
      "number_of_replicas": 2     // 增加副本分片,提升容错和读取性能
    }
    

步骤 4:触发分片重平衡

  • 自动均衡:
    • 默认情况下,Elasticsearch 会在节点加入集群后自动迁移分片。
  • 手动触发:
    • 若需强制重新分配分片,使用 _cluster/reroute API:
      POST /_cluster/reroute
      {
        "commands": [
          {
            "move": {
              "index": "my_index",
              "shard": 0,
             "from_node": "old_node",
            "to_node": "new_node"
            }
          }
        ]
      }
      
2.4 扩容后的优化策略
  1. 分片设计优化

    • 主分片数:
      • 建议每个分片大小在 10GB-50GB 之间(避免过大导致迁移慢)。
      • 主分片数应与数据增长预期匹配,通常可按 数据总量 / 30GB 估算。
    • 副本分片数:
      • 增加 number_of_replicas 可提高读取吞吐量和容错能力,但会占用更多存储。
  2. 跨节点负载均衡

    • 分片分配过滤:
      • 通过 awareness 配置实现跨机架或可用区(AZ)分布:
      # elasticsearch.yml
      cluster.routing.allocation.awareness.attributes: rack  # 按机架感知分配
      node.attr.rack: rack1                                  # 节点所属机架
      
    • 热冷分离架构:
      • 使用 ILM(Index Lifecycle Management) 将冷数据迁移到低成本节点。
2.5 水平扩容的注意事项
  1. 主分片数不可变:
    • 索引的主分片数量在创建后无法修改,需提前规划或通过 Reindex API 重建索引。
  2. 网络与硬件一致性:
    • 新节点的硬件配置(如磁盘类型、CPU)应与旧节点尽量一致,避免性能瓶颈。
  3. 脑裂风险:
    • 扩容主节点时,确保 discovery.zen.minimum_master_nodes(7.x 之前版本)配置正确,防止多主节点冲突。
  4. 分片分布均匀性:
    • 避免分片集中在少数节点,可通过 _cluster/allocation/explain 分析未分配分片的原因。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2335084.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器学习中 提到的张量是什么?

在机器学习中, 张量(Tensor) 是一个核心数学概念,用于表示和操作多维数据。以下是关于张量的详细解析: 一、数学定义与本质 张量在数学和物理学中的定义具有多重视角: 多维数组视角 传统数学和物理学中,张量被定义为多维数组,其分量在坐标变换时遵循协变或逆变规则。例…

edge 更新到135后,Clash 打开后,正常网页也会自动跳转

发现了一个有意思的问题:edge 更新135后,以前正常使用的clash出现了打开deepseek也会自动跳转: Search Resultshttps://zurefy.com/zu1.php#gsc.tab0&gsc.qdeepseek ,也就是不需要梯子的网站打不开了,需要的一直正…

prime 1 靶场笔记(渗透测试)

环境说明: 靶机prime1和kali都使用的是NAT模式,网段在192.168.144.0/24。 Download (Mirror): https://download.vulnhub.com/prime/Prime_Series_Level-1.rar 一.信息收集 1.主机探测: 使用nmap进行全面扫描扫描,找到目标地址及…

第16届蓝桥杯单片机模拟试题Ⅲ

试题 代码 sys.h #ifndef __SYS_H__ #define __SYS_H__#include <STC15F2K60S2.H> //sys.c extern unsigned char UI; //界面标志(0湿度界面、1参数界面、2时间界面) extern unsigned char time; //时间间隔(1s~10S) extern bit ssflag; //启动/停止标志…

打造现代数据基础架构:MinIO对象存储完全指南

目录 打造现代数据基础架构&#xff1a;MinIO对象存储完全指南1. MinIO介绍1.1 什么是对象存储&#xff1f;1.2 MinIO核心特点1.3 MinIO使用场景 2. MinIO部署方案对比2.1 单节点单驱动器(SNSD/Standalone)2.2 单节点多驱动器(SNMD/Standalone Multi-Drive)2.3 多节点多驱动器(…

OOM问题排查和解决

问题 java.lang.OutOfMemoryError: Java heap space 排查 排查手段 jmap命令 jmap -dump,formatb,file<file-path> <pid> 比如 jmap -dump:formatb,file./heap.hprof 44532 使用JVisualVM工具&#xff1a; JVisualVM是一个图形界面工具&#xff0c;它可以帮…

「出海匠」借助CloudPilot AI实现AWS降本60%,支撑AI电商高速增长

&#x1f50e;公司简介 「出海匠」&#xff08;chuhaijiang.com&#xff09;是「数绘星云」公司打造的社交内容电商服务平台&#xff0c;专注于为跨境生态参与者提供数据支持与智能化工作流。平台基于大数据与 AI 技术&#xff0c;帮助商家精准分析市场趋势、优化运营策略&…

【Python爬虫】简单案例介绍3

本文继续接着我的上一篇博客【Python爬虫】简单案例介绍2-CSDN博客 目录 3.3 代码开发 3.3 代码开发 编写代码的步骤&#xff1a; request请求科普中国网站地址url&#xff0c;解析得到类名为"list-block"的div标签。 for循环遍历这个div列表里的每个div&#xff0…

swift菜鸟教程6-10(运算符,条件,循环,字符串,字符)

一个朴实无华的目录 今日学习内容&#xff1a;1.Swift 运算符算术运算符比较运算符逻辑运算符位运算符赋值运算区间运算符其他运算符 2.Swift 条件语句3.Swift 循环4.Swift 字符串字符串属性 isEmpty字符串常量let 变量var字符串中插入值字符串连接字符串长度 String.count使用…

如何通过技术手段降低开发成本

通过技术手段降低开发成本的关键在于&#xff1a; 自动化工具的使用、优化开发流程、云计算资源的利用、开发技术栈的精简与创新、团队协作平台的高效管理。 其中&#xff0c;自动化工具的使用是最为有效的技术手段之一。自动化工具通过减少人工干预和重复性工作&#xff0c;大…

Ubuntu上docker、docker-compose的安装

今天来实践下Ubuntu上面安装docker跟docker-compose&#xff0c;为后面安装dify、fastgpt做准备。 一、安装docker sudo apt-get updatesudo apt-get install docker.io 然后系统输入 docker --version 出现下图即为docker安装成功。 二、安装docker-compose 我先看下系统…

OpenCV图像处理进阶教程:几何变换与频域分析全解析

OpenCV图像处理进阶教程&#xff1a;几何变换与频域分析全解析 &#x1f4da; 本文提供了OpenCV图像处理的核心操作详解&#xff0c;从基础的几何变换到高级的频域分析&#xff0c;代码示例清晰易懂&#xff0c;实用性强。完整代码已开源至GitHub&#xff1a;https://github.co…

AJAX与Axios基础

目录 一、AJAX 核心概念解析 1.1 AJAX 的核心概念 1.2 AJAX 工作原理 1.3 AJAX 局限性 二、axios 库介绍 2.1 Axios 核心特性 2.2 快速上手 2.3 核心配置项 2.4 错误处理标准方案 三、Axios 核心配置项 3.1 常用核心配置项 1. url 2. method 3. params 4. data …

[OS] vDSO + vvar(频繁调用的处理) | 存储:寄存器(高效)和栈(空间大)| ELF标准包装规范(加速程序加载)

vDSO vvar 一、社区公告板系统&#xff08;类比 vDSO vvar&#xff09; 想象你住在一个大型社区&#xff0c;管理员&#xff08;内核&#xff09;需要向居民&#xff08;用户程序&#xff09;提供实时信息&#xff08;如天气预报、社区活动时间等&#xff09;。直接让每个居…

Sentinel源码—1.使用演示和简介二

大纲 1.Sentinel流量治理框架简介 2.Sentinel源码编译及Demo演示 3.Dashboard功能介绍 4.流控规则使用演示 5.熔断规则使用演示 6.热点规则使用演示 7.授权规则使用演示 8.系统规则使用演示 9.集群流控使用演示 5.熔断规则使用演示 (1)案例说明熔断和降级 (2)Sentin…

IDEA的常用设置(更新中......)

文章目录 1. 自动导包2. 忽略大小写3. 设置项目文件编码格式4. 设置方法之间分割线5. 设置字体大小6. 设置IDEA默认不打开项目持续更新中...... 1. 自动导包 File->Settings->Editor->General>Auto Import 2. 忽略大小写 File->Editor->General->Code…

c# Kestrel

Kestrel 是 .NET 中用于 ASP.NET Core 应用程序的跨平台 Web 服务器。它是轻量级且高性能的&#xff0c;能够处理大量并发连接&#xff0c;常被用作 ASP.NET Core 应用的默认服务器。以下为你介绍 Kestrel 的基本使用和配置&#xff1a; 基本使用 创建一个简单的 ASP.NET Cor…

x86 保护模式中的GDT表是什么?

GDT&#xff08;全局描述符表&#xff0c;Global Descriptor Table&#xff09;是 x86 保护模式下用于描述不同类型内存段的一个重要数据结构。在保护模式下&#xff0c;GDT 用于管理和保护系统内存&#xff0c;它通过提供一组段描述符来定义内存的访问权限、大小、类型等属性 …

筛选条件在on和where中的区别(基于hivesql)

理解筛选条件在on和where中的区别&#xff0c;最好先理解sql的执行顺序&#xff0c;尽管实际执行时不同的物理执行引擎可能会有特定的优化&#xff0c;但是逻辑执行顺序必须遵循&#xff1a; 1&#xff09;from&#xff1a;确定数据源是什么&#xff0c;from后可以是单表&#…

vue3+vite+ts使用daisyui/tailwindcss

vite创建vue3脚手架 npm init vitelatest myVue3 – --template vue cd .\myVue3\ npm i npm run dev 安装tailwindcss/daisyui 依赖安装 npm install -D tailwindcss postcss autoprefixer daisyui npx tailwindcss init -p 这条命令将生成postcss.config.js(因为加了…