【云原生 | 48】Etcd集群管理

news2025/4/8 17:54:26

🍁博主简介
        🏅云计算领域优质创作者
        🏅2022年CSDN新星计划python赛道第一名

        🏅2022年CSDN原力计划优质作者
        🏅阿里云ACE认证高级工程师
        🏅阿里云开发者社区专家博主

💊交流社区:CSDN云计算交流社区欢迎您的加入!

目录

1、构建集群 

1.1 静态配置集群信息 

1.2 动态发现 

2、集群参数配置 

2.1 时钟同步 

2.2 心跳消息时间间隔和选举时间间隔 

2.3 snapshot频率 

2.4 修改节点 

2.5 节点恢复 

2.6 重启集群 

  👑👑👑结束语👑👑👑​


Etcd的集群也采用了典型的“主-从”模型,通过Raft协议来保证在一段时间内有一个节点为主节点,其他节点为从节点。一旦当主节点发生故障,其他节点可以自动再重新选举出新的主节点。

 跟其他分布式系统类似,集群中节点个数推荐为奇数个,最少为3个(此时quorum为2),越多节点个数自然能提供更多的冗余性,但同时会带来写数据性能的下降。

 注意:

在分布式系统中一个很重要的概念为quorum,意味着一个集群正常工作需要能参加投票的节点个数的最小值,一般为集群大小的一半再加一。

1、构建集群 

构建集群无非是让节点们知道自己加入了哪个集群,其他对等节点的访问信息是什么。

Etcd支持两种模式来构建集群:静态配置和动态探测。

1.1 静态配置集群信息 

顾名思义,静态配置就是提取写好集群中的有关信息。
例如,假设我们想要用三个节点来构建一个集群,地址分别为:

首先在各个节点上将地址和别名信息添加到/etc/hosts:

 

·10.0.0.1 Node1
·10.0.0.2 Node2
·10.0.0.3 Node3

 可以通过如下命令来启动各个节点上的etcd服务,分别命名为n1、n2和n3

 节点1上,执行:

$ etcd --name n1 \
--initial-cluster-token cluster1 \
--initial-cluster-state new \
--listen-client-urls http://Node1:2379,http://localhost:2379 \
--listen-peer-urls http://Node1:2380 \
--advertise-client-urls http://Node1:2379 \
--initial-advertise-peer-urls http://Node1:2380 \
--initial-cluster n1=http://Node1:2380,n2=http://Node2:2380,n3=http://Node3:2380

节点2上,执行:

$ etcd --name n2 \
--initial-cluster-token cluster1 \
--initial-cluster-state new \
--listen-client-urls http://Node2:2379,http://localhost:2379 \
--listen-peer-urls http://Node2:2380 \
--advertise-client-urls http://Node2:2379 \
--initial-advertise-peer-urls http://Node2:2380 \
--initial-cluster n1=http://Node1:2380,n2=http://Node2:2380,n3=http://Node3:2380

节点3上,执行:

$ etcd --name n3 \
--initial-cluster-token cluster1 \
--initial-cluster-state new \
--listen-client-urls http://Node3:2379,http://localhost:2379 \
--listen-peer-urls http://Node3:2380 \
--advertise-client-urls http://Node3:2379 \
--initial-advertise-peer-urls http://Node3:2380 \
--initial-cluster n1=http://Node1:2380,n2=http://Node2:2380,n3=http://Node3:2380

成功后,可以在任一节点上通过etcdctl来查看当前集群中的成员信息:

$ etcdctl member list 228428dce5a59f3b: name=n3 peerURLs=http://Node3:2380
clientURLs=http://Node3:2379
5051932762b33d8e: name=n1 peerURLs=http://Node1:2380 clientURLs=http://Node1:2379
8ee612d82821a4e7: name=n2 peerURLs=http://Node2:2380 clientURLs=http://Node2:2379

1.2 动态发现 

 静态配置的方法虽然简单,但是如果节点信息需要变动的时候,就需要手动进行修改。

 很自然,可以通过动态发现的方法,让集群自动更新节点信息。要实现动态发现,首先需要一套支持动态发现的服务。

CoreOS提供了一个公开的Etcd发现服务,地址在 https://discovery.etcd.io 。使用该服务的步骤也十分简单。
首先,为要创建的集群申请一个独一无二的uuid,需要提供的唯一参数为集群中节点的个数:
$ curl https://discovery.etcd.io/new?size=3
https://discovery.etcd.io/7f66dc8d468a1c940969a8c329ee329a
返回的地址,就是该集群要实现动态发现的独一无二的地址。分别在各个节点上指定服务发现地址信息,替代掉原先动态指定的节点列表。

节点1上,执行:

$ etcd --name n1 \
--initial-cluster-token cluster1 \
--initial-cluster-state new \
--listen-client-urls http://Node1:2379,http://localhost:2379 \
--listen-peer-urls http://Node1:2380 \
--advertise-client-urls http://Node1:2379 \
--initial-advertise-peer-urls http://Node1:2380 \
--discovery https://discovery.etcd.io/7f66dc8d468a1c940969a8c329ee329a

节点2上,执行:

$ etcd --name n2 \
--initial-cluster-token cluster1 \
--initial-cluster-state new \
--listen-client-urls http://Node2:2379,http://localhost:2379 \
--listen-peer-urls http://Node2:2380 \
--advertise-client-urls http://Node2:2379 \
--initial-advertise-peer-urls http://Node2:2380 \
--discovery https://discovery.etcd.io/7f66dc8d468a1c940969a8c329ee329a

节点3上,执行:

$ etcd --name n3 \
--initial-cluster-token cluster1 \
--initial-cluster-state new \
--listen-client-urls http://Node3:2379,http://localhost:2379 \
--listen-peer-urls http://Node3:2380 \
--advertise-client-urls http://Node3:2379 \
--initial-advertise-peer-urls http://Node3:2380 \
--discovery https://discovery.etcd.io/7f66dc8d468a1c940969a8c329ee329a
当然,用户也可以配置私有的服务。
另外一种实现动态发现的机制是通过DNS域名,即为每个节点指定同一个子域的域名,然后通过域名发现来自动注册。例如,三个节点的域名分别为:
·n1.mycluster.com
·n2.mycluster.com
·n3.mycluster.com
则启动参数中的集群节点列表信息可以替换为-discovery-srvmycluster.com。

2、集群参数配置 

影响集群性能的因素可能有很多,包括时间同步、网络抖动、存储压力、读写压力等,需要通过优化配置尽量减少这些因素的影响。

2.1 时钟同步 

对于分布式集群来说,各个节点上的同步时钟十分重要,Etcd集群需要各个节点时钟差异不超过1s,否则可能会导致Raft协议的异常。

因此,各个节点要启动同步时钟协议。以Ubuntu系统为例:

$ sudo aptitude install ntp
$ sudo service ntp restart
用户也可以修改/etc/ntp.conf文件,来指定ntp服务器地址,建议多个节点采用统一的配置。

2.2 心跳消息时间间隔和选举时间间隔 

对于Etcd集群来说,有两个因素十分重要:心跳消息时间间隔和选举时间间隔。前者意味着主节点每隔多久来通过心跳消息来通知从节点自身的存活状 态;后者意味着从节点多久没收到心跳通知后可以尝试发起选举自身为主节点。显然,后者要比前者大,一般建议设为前者的5倍以上。时间越短,发生故障后恢复越快,但心跳信息占用的计算和网络资源也越多。
默认情况下,心跳消息间隔为100ms。选举时间间隔为1s(上限为50s,但完全没必要这么长)。这个配置在本地局域网环境下是比较合适的,但是对于跨网段的情况,需要根据节点之间的RTT适当进行调整。
可以在启动服务时候通过-heartbeat-interval和-election-timeout参数来指定。

例如,一般情况下,跨数据中心的集群可以配置为:

$ etcd -heartbeat-interval=200 -election-timeout=2000

也可通过环境变量指定:

$ ETCD_HEARTBEAT_INTERVAL=100 ETCD_ELECTION_TIMEOUT=500 etcd
对于跨地域的网络(例如中美之间的数据中心RTT往往在数百ms),还可以适当延长。

2.3 snapshot频率 

Etcd会定期地将数据的修改存储为snapshot,默认情况下每10000次修改才会存一个snapshot。在存储的时候会有大量数据进行写入,影响Etcd的性能。

建议将这个值调整的小一些,例如每2000个修改就做一次snapshot。

$ etcd -snapshot-count=2000

也可通过环境变量指定:

ETCD_SNAPSHOT_COUNT=2000 etcd

2.4 修改节点 

无论是添加、删除还是迁移节点,都要一个一个的进行,并且确保先修改配置信息(包括节点广播的监听地址、集群中节点列表等),然后再进行操 作。
例如要删除多个节点,当有主节点要被删除时,需要先删掉一个,等集群中状态稳定(新的主节点重新生成)后,再删除另外节点。
要迁移或替换节点的时候,先将节点从集群中删除掉,等集群状态重新稳定后,再添加上新的节点。当然,使用旧节点的数据目录文件会加快新节点的同步过程,但是要保证这些数据是完整的,且是比较新的。

2.5 节点恢复 

Etcd集群中的节点会通过数据目录来存放修改信息和集群配置。 一般来说,当某个节点出现故障时候,本地数据已经过期甚至格式破坏。如果只是简单的重启进程,容易造成数据的不一致。
这个时候,保险的做法是先通过命令(例如etcdctl member rm[member])来删除该节点,然后清空数据目录,再重新作为空节点加入。

Etcd提供了-strict-reconfig-check选项,确保当集群状态不稳定时候(例如启动节点数还不够达到quorum)拒绝对配置状态的修改。

2.6 重启集群 

极端情况下,集群中大部分节点都出现问题,需要重启整个集群。

这个时候,最保险的办法是找到一个数据记录完整且比较新的节点,先以它为唯一节点创建新的集群,然后将其他节点一个一个地添加进来,添加过程中注意保证集群的稳定性。
通过实践案例,可以看出Etcd的功能十分类似ZooKeeper,但作为后起之秀,它在REST接口支持、访问权限管理、大量数据存储方面表现更为优秀。同时,提供了多种语言(目前包括Python、Go、Java 等)实现的客户端支持。基于Etcd,用户可以很容易地实现集群中的配置管理和服务发现等复杂功能,类似项目还包括Consul等。

!!!Etcd章节到此结束!!!

  👑👑👑结束语👑👑👑

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/109616.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HTML知识1

1. title标签&#xff1a;声明网页的标题 2.meta标签&#xff1a;描述应该网页的属性 3.style标签&#xff1a;内嵌css样式 4.script标签&#xff1a;用来引入javascript程序 5.html常用特殊字符 6.注释&#xff1a;<&#xff01;--此处是注释--> 二.标签 属性…

Android实现一维二维码扫描生成功能(一)-zxing导入现有项目

前言 目前二维码扫描功能很流行也非常成熟了&#xff0c;而zxing项目也是目前可以说是最流行的二维码扫描方面的开源项目了&#xff0c;很多大神都对zxing进行了封装&#xff0c;github上也有很多好用的二维码开源库&#xff0c;但是我更喜欢原版的zxing开源库&#xff0c;而原…

Struts2框架简单入门

Struts2框架简单入门1、前言2、Struts2简介2.1、Struts2介绍2.2、Struts2优缺点2.2.1、优点2.2.2、缺点2.2.3、Struts2获取3、入门案例3.1、pom依赖3.2、web.xml配置3.3、准备页面3.4、编写Action控制器3.5、编写核心配置文件struts.xml3.6、部署测试3.6、注意点3.7、小结1、前…

Android -- 每日一问:如何实现自定义View?

经典回答 回忆一下&#xff0c;你去面试时常被问到的自定义 View 方面的问题是那些。有没有&#xff1a; invalidate 和 postInvalidate 方法的区别&#xff1f;自定义 View 的绘制流程&#xff1f;View 的 Touch 事件分发流程&#xff1f; 因为在实际的工作中并不是每个人都…

【Go实现】实践GoF的23种设计模式:命令模式

上一篇&#xff1a;【Go实现】实践GoF的23种设计模式&#xff1a;代理模式 简单的分布式应用系统&#xff08;示例代码工程&#xff09;&#xff1a;https://github.com/ruanrunxue/Practice-Design-Pattern–Go-Implementation 简介 现在的软件系统往往是分层设计。在业务层执…

设计vue3组件

在程序设计过程中&#xff0c;我们经常会遇到很多地方用到相同结构内容的情况&#xff0c;这时&#xff0c;我们想复用一部分代码&#xff0c;这时可以将可复用的UI部分以组件的形态封装&#xff0c;形成一定的组件调用关系。 组件化最简单的就是把一段代码提出来单独写进一个…

Netflix Eureka 2.0.0正式发布:借尸还魂还是虚晃一枪?

本文已被https://yourbatman.cn收录&#xff1b;女娲Knife-Initializr工程可公开访问啦&#xff1b;程序员专用网盘https://wangpan.yourbatman.cn&#xff1b;技术专栏源代码大本营&#xff1a;https://github.com/yourbatman/tech-column-learning&#xff1b;公号后台回复“…

【Web前端HTML5CSS3】09、高度塌陷与 BFC

九、高度塌陷与 BFC 1、高度塌陷 在浮动布局中&#xff0c;父元素的高度默认是被子元素撑开的 当子元素浮动后&#xff0c;其会完全脱离文档流&#xff0c;子元素从文档流中脱离将会无法撑起父元素的高度&#xff0c;导致父元素的高度丢失 父元素高度丢失以后&#xff0c;其…

IU酒店释放轻中端投资活力,开启曲靖酒店新篇章

曲靖位于云南省东北部&#xff0c;是云南连接内地的重要陆路通道&#xff0c;素有“滇黔锁钥”、“入滇门户”、“云南咽喉”之称&#xff0c;是仅次于昆明的云南第二大城市。曾入选“中国十佳宜居城市”榜单10次的城市&#xff0c;拥有3000多年的文明史&#xff0c;早在三国魏…

mock功能

目标 了解mock的作用及使用场景&#xff1b; mock使用场景 mock&#xff1a;假的 前端程序员提到的mock数据的含义是&#xff1a;真的假数据 真的&#xff1a;符合接口规范要求的。 假数据&#xff1a;数据是人为创建出来的&#xff0c;不是真正的业务数据。 什么时候需要m…

客快物流大数据项目(九十七):ClickHouse的SQL语法

文章目录 ClickHouse的SQL语法 一、​​​​​​​常用的SQL命令 二、​​​​​​​​​​​​​​select查询语法 三、insert into语法 四、​​​​​​​​​​​​​​alter语法 ClickHouse的SQL语法 一、​​​​​​​常用的SQL命令 作用 SQL 列出所有数据库 s…

日本知名汽车零部件公司巡礼系列之株式会社135

株式会社135 业务内容&#xff1a; 各种齿轮零件加工(减速机零件) 齿轮马达的齿轮头零件组装加工 轮式起重机齿轮零件加工 其他部位、零件等的加工 公司简介&#xff1a; 资本金&#xff1a;3000万日元 员工数&#xff1a;41名&#xff08;男33名&#xff0c;女8名&#x…

N维码算法的探索(二),16色的16进制编码表达汉字的试探

前些天写了一篇《N维码算法的探索》&#xff0c;是利用颜色像素对n维码算法扩展的思考。读者非常有限&#xff0c;能够理解的可能需专业人士了。 这种研究的意义何在&#xff1f;不知道。用上了就是有用&#xff0c;用不上也就被历史淘汰了。普通人通常的逻辑是&#xff1a;既…

js获取某一时间到现在的总时间以及svg图标统一管理方法的封装

目录 js获取某一时间到现在的总时间方法封装 一、需求 二、方法 三、使用 js封装一个svg图标管理方法 一、需求 二、实现 三、使用 js获取某一时间到现在的总时间方法封装 一、需求 在做一些信息展示的时候&#xff0c;我们需要展示各种时间&#xff0c;有时是准确的创…

攻防世界-宜兴网信办-inget

题目 访问题目路径 这个题目的意思就是请输入ID&#xff0c;然后尝试绕过&#xff0c;那应该就是SQL注入&#xff0c;但是呢&#xff0c;我是个懒狗&#xff0c;我直接跑sqlmap 先跑数据库名 sqlmap "http://61.147.171.105:51322/?id1" --current-db 爆表 sqlma…

迅为3A5000开发板龙芯自主指令集从里到外100%全国产设计方案

迅为3A5000开发板龙芯处理器自主指令集架构从里到外100%全国产设计方案 iTOP-3A5000 开发板采用全国产龙芯3A5000处理器&#xff0c;基于龙芯自主指令系统&#xff08;LoongArch&#xff09;的LA464微结构&#xff0c;并进一步提升频率&#xff0c;降低功耗&#xff0c;优化性能…

低代码多分支协同开发的建设与实践

作者&#xff1a;黄也(胖丁) 引言 随着低代码的普及&#xff0c;在低代码平台上构建企业级应用逐渐成为生产趋势。同时&#xff0c;随着低代码技术的提升&#xff0c;越来越多的复杂应用在低代码平台中完成。在其研发生命周期中&#xff0c;低代码开发者就会面临多人协作、并…

卷积神经网络 CNN 基础概念

目录 一&#xff1a;卷积神经网络 二&#xff1a;局部感受野 三&#xff1a;卷积层 四&#xff1a;池化层 五&#xff1a;激活层 六&#xff1a;全连接层 七&#xff1a;卷积神经网络算法过程 一&#xff1a;卷积神经网络 卷积神经网络(Convolutional Neural Networks,C…

nor flash调试与使用总结

最近项目中使用到norflash&#xff0c;总结一下学习与使用经验 文章目录一、Flash基本概念存储器介绍与Flash在其中定位---非易失存储器类别中嵌入式领域常见设备Flash的典型分类---NorFlash&#xff08;贵/容量小/读快写慢&#xff09;与NandFlash&#xff08;便宜/容量大/读慢…

Zookeeper 4 Zookeeper JavaAPI 操作 4.9 模拟12306 售票案例

Zookeeper 【黑马程序员Zookeeper视频教程&#xff0c;快速入门zookeeper技术】 文章目录Zookeeper4 Zookeeper JavaAPI 操作4.9 模拟12306 售票案例4.9.1 Curator 实现分布式锁 API4.9.2 分布式锁案例 - 模拟12306 售票4 Zookeeper JavaAPI 操作 4.9 模拟12306 售票案例 4.…