目录
- vSAN延伸集群
- 延伸集群创建
- 延伸集群的建议网络配置
- vSAN延伸集群的端口
- 见证主机的资源要求
- vSAN延伸集群中见证节点带宽占用
- vSAN延伸集群的允许故障数
- vSAN延伸集群不同配置下的空间占用
- vSAN延伸集群的HA配置
- vSAN延伸集群的DRS配置
- vSAN存储策略以及虚拟机/主机策略的互操作
- vSAN延伸集群的维护
- vSAN延伸集群的故障处理
vSAN延伸集群
两地双活中心的一种解决方案。
描述延伸集群一般使用x+y+1的方式,x表示站点A中的ESXi主机数量,y表示站点B中的主机数量1是站点C中的见证主机。
最小配置:1+1+1(双节点vSAN集群)
最大配置:20+20+1
延伸集群创建
-
新建集群
-
集群添加主机
虽然说延伸集群一般用于多数据中心的vSAN集群构建,但是vCenter中没有办法对跨数据中心的主机加入到一个集群,所以这里是把主机都添加在一个数据中心
-
配置集群
延伸集群的建议网络配置
- 三个站点:首选站点、第二站点、见证站点
- 站点主机与见证主机间的延迟要求:
- 每个站点主机数小于 11 的延伸集群的 RTT 必须小于 200 毫秒。
- 每个站点主机数等于或大于 11 的延伸集群的 RTT 必须小于 100 毫秒。
- 首选站点与备选站点的延迟要求:
- RTT必须小于5ms。
- 跨站点通讯不支持NAT。
- 建议将vSAN流量与VSAN见证分别绑定在不同的VMKernel网卡上。
- VMkernel 端口用于 VMware vSphere 中的非虚拟机流量
- ESXi8.0,8.0U1上,运行命令:
esxcli vsan network ip add -i vmkx -T witness
指明vmkernel x 作为witness见证口 - 8.0U2上可以在UI中配置。
vSAN延伸集群的端口
生产环境中,防火墙需要开放以下对应端口
服务 | 端口号 | 协议 | 对象 |
---|---|---|---|
vSAN 集群服务 | 12345, 23451 | UDP | vSAN 主机 |
vSAN 数据传输 | 2233 | TCP | vSAN 主机 |
vSAN VASA Vendor Provider | 8080 | TCP | vSAN 主机和vCenter |
vSAN 单播见证 | 12321 | UDP | vSAN 主机和vSAN 见证 |
见证主机的资源要求
每个见证组件占用16MB空间
资源 | Tiny (10VM/750组件 1集群) | Med (500VM/21000组件 21集群) | Large (500+VM/64000组件 24集群) | Extra (500+VM/64000组件 64集群) |
---|---|---|---|---|
vCPU | 2 | 2 | 2 | 2 |
Mem | 8GB | 16GB | 32GB | 32GB |
启动磁盘 | 12GB | 12GB | 12GB | 12GB |
缓存盘 | 10GB | 10GB | 10GB | 10GB |
容量盘 | 15GB | 350GB (16MB*21000组件) | 3x350GB | 3x350GB |
vSAN延伸集群中见证节点带宽占用
每1000组件占2Mbps带宽
- 假设100台虚拟机,PFTT=1,SFTT=1时预计带宽:
PFTT:策略和配置文件->新建存储策略->vSAN站点容灾(延伸集群)
PFTT=0/1,在1/2个站点保存数据。站点镜像-延伸节点
即为PFTT=1
SFTT:策略和配置文件->新建存储策略->vSAN站点容灾(延伸集群)->允许的故障数
SFTT,站点内部需要在x+1主机上保存数据
PFTT=1,SFTT=1时,每台虚拟机占用100G空间占用400G磁盘
一块虚拟机硬盘有4个组件和3个见证。首选和辅助站点各是2个组件和1个见证,见证主机1个见证
所以一台VM最少7个主目录组件+7个swap组件+7个vmdk组件
关机未开机:
开机后生成swap对象(配置内存大小-内存预留):
所以100台VM就是:10021/10002Mbps=4.2Mbps
- 假设100台虚拟机,PFTT=0,SFTT=1时预计带宽:
创建的存储策略为
无-将数据保留在首选站点(延伸集群)
、1个故障 RAID1
一台VM最少3个主目录组件+3个swap组件+3个vmdk组件
vSAN延伸集群的允许故障数
PFTT (Primary Failures To Tolerate)
- 0:只允许在一个故障域/站点存储对象(此时亲和性策略起效)
- 1:在两个节点存储对象
SFTT(Secondary Failures To Tolerate)
- 在同一个站点中,磁盘/主机可以出错的数量
读取发生在本地,写入根据存储策略决定。
当 FTT 设置为无并设置了“首选”或“辅助”时,VSAN 延伸集群支持启用对称多处理容错(SMP-FT)虚拟机。在 FTT设置为1或更大值的延伸集群上,VSAN 不支持 SMP-FT 虚拟机。
vSAN延伸集群不同配置下的空间占用
可用性 | PFTT | SFTT | 在首选站点中的空间占用 | 在辅助站点中的空间占用 | 空间占用倍数 |
---|---|---|---|---|---|
双节点无冗余 | 1 | 0 | 100 | 100 | 2x |
双节点RAID1 (1 Failure) | 1 | 1 | 200 | 200 | 4x |
双节点RAID1 (2 Failures) | 1 | 2 | 300 | 300 | 6x |
双节点RAID1 (3 Failures) | 1 | 3 | 400 | 400 | 8x |
双节点RAID5 (1 Failure) | 1 | 1 | 133 | 133 | 2.66x |
双节点RAID6 (2 Failures) | 1 | 2 | 150 | 150 | 3x |
首选站点RAID1 (1 Failure) | 0 | 1 | 200 | 0 | 2x |
首选站点RAID1 (2 Failures) | 0 | 2 | 300 | 0 | 3x |
首选站点RAID1 (3 Failures) | 0 | 3 | 400 | 0 | 4x |
首选站点RAID5 (1 Failure) | 0 | 1 | 133 | 0 | 1.33x |
首选站点RAID6 (2 Failures) | 0 | 2 | 150 | 0 | 1.5x |
辅助站点RAID1 (1 Failure) | 0 | 1 | 0 | 200 | 2x |
辅助站点RAID1 (2 Failures) | 0 | 2 | 0 | 300 | 3x |
辅助站点RAID1 (3 Failures) | 0 | 3 | 0 | 400 | 4x |
辅助站点RAID5 (1 Failure) | 0 | 1 | 0 | 133 | 1.33x |
辅助站点RAID6 (2 Failures) | 0 | 2 | 0 | 150 | 1.5x |
vSAN延伸集群的HA配置
- 主机故障响应:无需修改
- 主机隔离:切换成
Poweroff关闭再重新启动虚拟机
- 处于PDL和APD:
禁用
(由于都用于共享存储,但vSAN是用的自身磁盘) - 主机故障切换容量:预留的CPU和内存容量均为
50%
(用于最极端一个站点全部挂掉,迁移到备选站点拉起VM) - 检测信号数据存储选择策略:勾选
使用指定列表中的政据存储并根病需要目动补充
- 高级选项:设置两个隔离地址,分别为witness的vmk和vSAN的vmk
vSAN延伸集群的DRS配置
vSAN7U2更新了可以感知vSAN的功能,设置为全自动
就可以了
vSAN7U2之前,需要设置为半自动
,等待数据同步完后,再手动drs
vSAN存储策略以及虚拟机/主机策略的互操作
当存储策略与虚拟机/主机策略设置不合理时,会导致VM计算资源与存储资源不在同一站点,使得VM性能差,但不会有任何报错
vSAN延伸集群的维护
- 维护见证主机(见证站点级别故障的见证主机)
- 不会迁移任何数据
- 见证不会在任何站点主机上重建
- 见证主机缺失时无法应对站点级别故障(VSAN7 Update 3前)
- 维护站点主机
- 考虑数据是否需要迁移
- 注意维护时对容量的影响
vSAN延伸集群的故障处理
-
单主机故障
- 读取依旧在本站点内进行(PFTT=1,SFTT=1,RAID1)
- 如有本地资源,将在60分钟后重建副本
- 如没有本地可用副本,将访问另一站点
-
见证站点故障
- 见证主机故障不会影响虚拟机的运行,但任何一个其他站点故障将直接使VSAN集群瘫痪(VSAN 7Update 3前)。
-
数据站点故障
- 故障站点中的所有VM会被关机
- 辅助站点中的节点会重新选举集群Master主机(共享存储最多,相同看id)
- 确认哪些虚拟机需要在辅助站点启动,然后启动虚拟机
-
数据站点恢复
- VSAN 6.7之后,智能故障感知技术可以使得在ISL未恢复之前,辅助站点依旧运行虚拟机。
- 此外,应在大致同一时间恢复故障站点中的所有主机,以避免没有必要的数据传输与重建
-
多故障处理
- 在此类型的故障修复过程中,
先
修复见证主机
可以使虚拟机对象重新上线,但是不能
重新指派witness虚拟机(因为新的witness没有元数据)。 - 核心是存活votes数量大于总votes 50%
- 在此类型的故障修复过程中,
-
提升VSAN集群中虚拟机的生存能力
- VSAN7 Update 3中引入了
新的票数运算机制
。在数据站点故障时,存活数据站点提高自身票数使得在见证主机故障的情况下依旧可以超过50%票数。 - PFTT=1、SFTT=1、Raid1情况下:
- 正常状态:首选站点每个组件1票,共3票;辅助站点每个组件1票,共3票;见证主机上组件3票
- 单站点故障:存活站点每个组件3票,共9票;辅助站点不变,各1票,共三票;见证主机上组件1票。故障恢复后,恢复到
正常状态
- 正常状态:首选站点每个组件1票,共3票;辅助站点每个组件1票,共3票;见证主机上组件3票
- 新功能的限制:
- 只在延伸集群和双节点集群时起效
- 只发生在
数据站点故障在前
,见证站点故障在后
的情况
- VSAN7 Update 3中引入了