vSphere高可用架构---HA简介

news2025/1/15 16:36:35

1.高可用性

2.不同级别的高可用:

1)应用程序级别,2)操作系统级别,3)虚拟化级别,4)物理层级别

不同级别的高可用举例:

  1. 应用程序级别的高可用性。例如:Oracle Real Application Clusters(oracle (RAC))
  2. 操作系统级别的高可用,例如:Windows Failover Clustering (WFC) for Windows Server,RedHat 的RHCS

3)虚拟化层级的高可用,例如:vSphere High Availability (HA) (业务有中断)and vSphere Fault Tolerance(FT)(高级HA业务不中断)

4)物理硬件的高可用— ESXi主机的网卡多路径冗余,存储的链路多路径冗余(HBA卡冗余),网络交换机和光纤交换机的冗余,存储设备的双控制器冗余,以及服务器,存储等设备的双电源冗余

二 vSphere High Availability的监控对象(但最终都是重启虚拟机

1 ESXi 主机故障

VMware vSphere Agent 通过管理网络进行心跳检测每秒一次

当主机出现故障时,其他正常的主机会接管故障主机的上的虚拟机(相当于重启虚拟机),保证虚拟机可用性。

2 客户 OS 故障

HA也可以检测虚拟机的工作状态,默认该功能是禁用的。主机通过Vmtools和虚拟机进行通讯,当虚拟机操作系统出现故障时,重启虚拟机。(通过vmwaer tools检测心跳信号)。

3 应用程序故障

HA也可以通过VMtools 来监控部分支持VMware 应用程序监控的应用程序,当应用程序出现故障时重启虚拟机

三 vSphere High Availability原理

1 VMware vSphere High Availability (HA)可为虚拟机中运行的应用提供易于使用、经济高效的高可用性。一旦物理服务器出现故障,VMware HA可在具有备用容量的其他生产服务器中自动重新启动受影响的虚拟机。若操作系统出现故障,vSphere HA会在同一台物理服务器上重新启动受影响的虚拟机。

2 vSphere HA利用配置为群集的多台ESXi主机,为虚拟机中运行的应用程序提供快速中断恢复和具有成本效益的高可用性

3 FDM:vSphere5以后采用FDM(Fault Domain Manager)实现高可用功能(是一种代理程序,相当于keepalivedde 功能)

4 FDM好处如下:

1)采用master/slave架构(一台master主机其他都是slave主机),而不是 primary/secondary架构,可以支持更多的集群主机

2)同时使用管理网络和存储设备进行通讯来提供心跳机制

3)可以监控网络分区和网络隔离故障,从而采取相关响应,最大限度提高虚拟机可用性。

如图:相当于出现的主机故障

四 Master的作用

1 Master监控slave主机,当slave主机出现故障时重启虚拟机

2 Master监控所有被保护虚拟机的电源状态,如果被保护的虚拟机出现故障,它将重启这个虚拟机

3 Master管理在Cluster内部的主机清单,并且对添加和删除Cluster内部的主机进行管理

4 Master管理被保护虚拟机的清单,在每一次用户发起开关机操作时,更新这个清单,vCenter会要求Master保护或者不保护某些虚拟机

5 Master缓存Cluster配置,Master通知和提醒slave主机,Cluster配置的修改(vcenter要求的cluster配置,由master来缓存cluster配置,再通知给slave主机进行cluster配置

6 Master发送心跳信息给slave主机,让slave主机知道master的存在

7 Master报告状态信息给vCenter,vCenter正常情况下只和master通讯

五 Slave的作用

1 Slave主机监视本地运行的虚拟机状态,把这些虚拟机运行状态的显著变化发送给Master

2 Slave监控Master的健康状态,如果Master出现故障,Slave将会参与Master的选举

3 Slave运用vSphere HA特性,这些特性不需要Master的协调。这些特性包括”VM Health Monitorin

代理通信

如上图所示:

①:FDM代理程序

②:hostd 有两个功能一是可以用于主机间的通信(通过FDM但是最终还是需要通过hostd来实现主机间通信),二是用于第三方软件登陆主机(比如:vmwarevsphere客户端登录ESXI主机或者vcenter)

③:vcenter通过vpxd与vpxa来管理主机

④:vcenter只与master主机进行通信

⑤:master主机可以管理存储中的主机清虚拟机清单

五 vsphere HA的两种检测机制(管理网络、存储网络)

1 网络心跳信号

如上图所示:管理网络的vmkernel口有两个,并且处于不同的网络段

2 数据存储心跳信号

六 主机故障分类

1 vSphere HA 群集的首选主机负责检测从属主机的故障。根据检测到的故障类型,在主机上运行的虚拟机可能需要进行故障切换。首选主机通信通过每秒交换一次网络检测信号来完成群集中从属主机的活跃度监控。当首选主机停止从从属主机接收这些检测信号时,它会在声明该主机已出现故障之前检查主机活跃度。首选主机执行的活跃度检查是要确定从属主机是否在与数据存储心跳之一交换检测信号。而且,首选主机还检查主机是否对发送至其管理 IP 地址的 ICMP ping 进行响应

2 关于故障主机和故障切换主机:一般故障切换主机上是没有虚拟机的,当有主机出现故障时(称为故障主机),将故障主机上的所有虚拟机都迁移到故障切换主机上,不影响其他主机和虚拟机,故障切换主机也可以说是一个备用机。

3 在 vSphere HA 群集中,检测三种类型的主机故障:

  1. 主机故障 - 主机停止运行需要以下三个方面检测

①:master与slave上的FDM无法通信,则为管理网络断开连接

②:而且从属主机不会对 ICMP ping 进行响应(ping网关ping不同

③:收不到存储检测型信号

  1. 网络隔离 - 主机与网络隔离需要以下三个方面检测

①:master与slave上的FDM无法通信,则为管理网络断开连接

②:如果主机停止监视此流量,则它会尝试 ping 群集隔离地址如果不通说明隔离(ping网关ping不同

③:可以收到存储检测信号

3)网络分区 - 主机失去与首选主机的网络连接

集群中的部分主机可能无法通过管理网络与其他主机进行通信(只有网络管理中断)。一个群集中可能会出现多个分区。

已分区的群集会导致虚拟机的保护和群集管理功能降级(主机负载过多或占用率大)。请尽快更正已分区的群集。

七 Slave主机故障

如上图所示:slave主机出现故障,出现故障的主机上的虚拟机会被迁走

八 Master主机故障

如上图所示:当master主机出现故障时,先由其他slave主机进行选举,根据两点:一是查看主机连接的存储数,数多的当选新任master主机,二是当连接的存储数相同时,查看主机的MOID号,对所有主机的moid号从左到右的每位数字进行比较,每位数都大的moid号主机就可以当选新任master。(比如76 108 79==选出76 79 ==最终选出79),然后原来的出故障的master主机就变成slave主机,再对其上的虚拟机进行迁移。

九 网络隔离

当一个slave已经检测到自己是网络隔离状态,它会生成一个特殊二进制文件host-X-poweron文件在heartbeat datastores上.master看到这个标志,它就知道了slave已经是isolation隔离状态,然后master通过vSphere HA锁定其他文件(datastores上的其他文件).当slave主机看到这些文件已经被锁定并确认后.才可以执行配置过的隔离响应动作.(如关机或者关闭电源,或者保持电源打开不变)

 网络分区

集群中的部分主机可能无法通过管理网络与其他主机进行通信。一个群集中可能会出现多个分区。

已分区的群集会导致虚拟机的保护和群集管理功能降级(主机负载过高或者占用率高)。请尽快更正已分区的群集。

十一 配置HA

1 点击集群--右键编辑设置--勾选打开vsphereHA

2 启用主机监控

3 虚拟机优先级选项根据不同虚拟机的重要程度选择

4 虚拟机监控一般为禁用状态,如果开启一般开启虚拟机与应用程序监控

5 数据存储检测信号(因为没有共享存储所以这没有)

十二 vSphere高可用---Fault Tolerance 简介

在5.5版本之前,只能同步内存中数据

在6.0版本之后,既可以同步内存(内存:走两台不同主机的虚拟机之间的通信),又可以同步存储(存储走存储交换机)

1 FT:

1)容错系统的设计目标是:当出现计划外中断时,某个备份虚拟机 可以立即接管任务,确保不出现服务中断。(备份虚拟机也称为 辅助虚拟机。)

①提供比 vSphere HA 级别更高的业务连续性

②实现应用程序的零停机和零数据丢失 FT 可用于任何需要始终可用的应用程序。

2 FT 可与 DRS 结合使用:

§首次就将容错虚拟机放置在较好的位置可获得更好的容错效果, 并且它们包含在集群的负载平衡计算中。

3 Fault Tolerance的原理

1)为虚拟机启用FT时,该组件会为原始实例创建一个在另外一台物理主机上运行的实时影子实例

2)通过VMware vlookstep技术,两个虚拟机就会保持同步,在主虚拟机上操作会通过千兆以太网将其传输到辅虚拟机上,但是只有主虚拟机具有读和写的功能,辅虚拟机只有只读的功能。

3)两个虚拟机会播放相同的事件集,因为他们在任何给定时间的事件输入集都是相同的。

4)两个虚拟机会彼此检测心跳信号,如果有一个失去心跳信号(不管是主虚拟机还是辅虚拟机),则另一个将立即接管相应操作变成新主虚拟机,然后再找一台虚拟机成为新的辅助虚拟机,因为心跳频率高,所以不会出现数据丢失和中断。如下图所示

4 Fault Tolerance 要求、限制和许可

1)要求

①主机中用于容错虚拟机的 CPU 必须与 vSphere vMotion 兼容或使用增强型 vMotion 兼容性进行了改进。

②还需要 CPU 支持硬件 MMU 虚拟化(Intel EPT 或 AMD RVI)支持以下 CPU:

Intel Sandy Bridge 或更高版本,Avoton 不受支持。

AMD Bulldozer 或更高版本。

(MMU虚拟化 1)如果处理器没有MMU,CPU内部执行单元产生的内存地址信号将直接通过地址总线发送到芯片引脚,被内存芯片接收,这就是物理地址(physical address),简称PA。英文physical代表物理的接触,所以PA就是与内存芯片physically connected的总线上的信号。

2)如果MMU存在且启用,CPU执行单元产生的地址信号在发送到内存芯片之前将被MMU截获,这个地址信号称为虚拟地址(virtual address),简称VA,MMU会负责把VA翻译成另一个地址,然后发到内存芯片地址引脚上,即VA映射成PA,如下图:

③为 FT 使用专用的 10-Gbit 日志记录网络并确认该网络滞后时间短。

2)限制:在已配置为使用 Fault Tolerance 的群集中,分别强制执行两个限制:

①:das.maxftvmsperhost: 群集中的主机上允许的最大容错虚拟机数量。主虚拟机和辅助虚拟机计入此限制。默认值为 4。(一个主机上最多有4个FT虚拟机)

②:das.maxftvcpusperhost :跨主机上所有容错虚拟机聚合的最大 vCPU 数量。主虚拟机和辅助虚拟机中的vCPU 均计入此限制。默认值为 8。(一个主机上最多有4个FT虚拟机,两个主机就是最多有8个,如果一个虚拟机只有一个vcpu,最多有8个)

3)许可:单个容错虚拟机支持的 vCPU 数量受您针对 vSphere 购买的许可级别限制。Fault Tolerance 支持情况如下

①:vSphere Standard 和 Enterprise。最多可允许 2 个 vCPU

②:vSphere Enterprise Plus。最多可允许 4 个 vCPU(指一个主机上只有一个FT虚拟机时,这个FT虚拟机最多可以有4个vcpu)

5 Fault Tolerance 不支持的 vSphere 功能(前三个是重点)

1)快照:在虚拟机上启用 Fault Tolerance 前,必须移除或提交快照。此外,不可能对已启用 Fault Tolerance的虚拟机执行快照。

注意: Fault Tolerance 支持为 vStorage APIs - Data Protection (VADP) 备份而创建的仅磁盘快照。但是旧版 FT 不支持 VADP(VSDP存储之间开编程接口,直接进行备份)。

2)Storage vMotion。不能为已启用 Fault Tolerance 的虚拟机调用 Storage vMotion。要迁移存储器,应当先暂时关闭 Fault Tolerance,然后再执行 Storage vMotion 操作。在完成迁移之后,可以重新打开 FaultTolerance。

3)链接克隆:不能在为链接克隆的虚拟机上使用 Fault Tolerance,也不能从启用了 FT 的虚拟机创建链接克隆。

4)虚拟机组件保护 (VMCP)。如果您的群集已启用 VMCP,则会为关闭此功能的容错虚拟机创建替代项。

5)虚拟卷数据存储。

6)基于存储的策略管理。

7)I/O 筛选器。

6 不与 Fault Tolerance 兼容的功能和设备

7 启用FT的要求

1)Fault Tolerance 的群集要求

①配置了 Fault Tolerance 日志记录网络和 vMotion 网络。

vSphere HA 群集已创建并启用:打开容错虚拟机电源或者将主机添加到已支持②容错虚拟机的群集之前,必须启用 vSphere HA

2)Fault Tolerance 的主机要求

①主机必须使用受支持的处理器。

②主机必须获得 Fault Tolerance 的许可。

③在配置每台主机时,都必须在 BIOS 中启用硬件虚拟化 (HV)。

④VMware 建议将用于支持 FT 虚拟机的主机的 BIOS 电源管理设置设为“最高性能”或“受操作系统管理的性能”。

3)Fault Tolerance 的虚拟机要求

①没有不受支持的设备连接到虚拟机。

②不兼容的功能一定不能与容错虚拟机一起运行。

③虚拟机文件必须存储在共享存储器上。

  • 配置FT(前提一定要为集群开启HA)

点击主机右键--FT--打开FT

由于开启FT对服务器的要求高所以开启失败

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1470785.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高温应用中GaN HEMT大信号建模的ASM-HEMT

来源:An ASM-HEMT for Large-Signal Modeling of GaN HEMTs in High-Temperature Applications(JEDS 23年) 摘要 本文报道了一种用于模拟高温环境下氮化镓高电子迁移率晶体管(GaN HEMT)的温度依赖性ASM-HEMT模型。我…

机器学习.线性回归

斯塔1和2是权重项,斯塔0是偏置项,在训练过程中为了使得训练结果更加精确而做的微调,不是一个大范围的因素,核心影响因素是权重项 为了完成矩阵的运算,在斯塔0后面乘x0,使得满足矩阵的转换,所以在…

UE5 文字游戏(1) 仅UI截图转换为texture2d(适用于window端)

目录 需求 思路 1.截图并读取到本地 2.本地读取图片并转换为纹理2d 效果展示 找了好多的解决办法,都不管用。这个算是折中的。 需求 将当前的用户控件(ui)截图下来,并赋值到一个texture2d上。 我的需求:文字游戏…

matlab 三质量-弹簧系统受激振力

1、内容简介 略 44-可以交流、咨询、答疑 建立系统运动方程,研究固有频率和对应主振型 2、内容说明 略 三质量-弹簧系统受激振力,并不考虑各自的阻尼。建立系统运动方程。 解:由于阻尼对固有频率没有影响,故本文不…

力扣1290. 二进制链表转整数

Problem: 1290. 二进制链表转整数 文章目录 题目描述思路复杂度Code 题目描述 思路 1.记录一个变量res初始化为0,指针p指向链表头; 2.循环每次res res * 2 p -> val;p p -> next;(充分利用二进制数的特性;其中利用指针先…

Camera sensor调试与bringup帧率计算

Camera sensor调试 前言DVP并行接口sensor调试方法硬件调试出图调试错误调试地址无响应问题获取帧缓存失败 DVP Wrapper调试 MIPI 串行差分接口sensor调试方法硬件调试MIPI错误调试PCB设计要求ISP时钟大小要求CSI Controller配置时钟部分其他部分 Sensor HS-PREPARE配置 Camera…

L1、L2、Smooth L1 loss

L1 loss 均绝对误差(Mean Absolute Error,MAE),公式如下 优点:因为梯度不变,对离群点不敏感 缺点:因为梯度不变,不管是误差小还是大,梯度都一样,不利于模型…

Hikvision SPON IP网络对讲广播系统命令执行漏洞

声明 本文仅用于技术交流,请勿用于非法用途 由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,文章作者不为此承担任何责任。 1.漏洞描述 Hikvision Intercom Broadcasting System是中国海康威视&a…

深入理解Java中的Reader类:一步步剖析

咦咦咦,各位小可爱,我是你们的好伙伴——bug菌,今天又来给大家普及Java SE相关知识点了,别躲起来啊,听我讲干货还不快点赞,赞多了我就有动力讲得更嗨啦!所以呀,养成先点赞后阅读的好…

Android Gradle开发与应用 (二) : Groovy基础语法

1. Groovy是什么 Groovy是基于JVM虚拟机的一种动态语言,语法和Java非常相似,并能够无缝地与Java代码集成和互操作,增加了很多动态类型和灵活的特性。(闭包、DSL) 语法和Java非常相似这个特点,意味着,如果我们完全不懂…

应用配置管理

一、Pod 配置管理 可变配置用 ConfigMap; 敏感信息用 Secret; 身份认证用 ServiceAccount 这几个独立的资源来实现的; 资源配置用 Resources; 安全管控用 SecurityContext; 前置校验用 InitContainers 这几个在 …

nginx之状态页 日志分割 自定义图表 证书

5.1 网页的状态页 基于nginx 模块 ngx_http_stub_status_module 实现,在编译安装nginx的时候需要添加编译参数 --with-http_stub_status_module,否则配置完成之后监测会是提示语法错误注意: 状态页显示的是整个服务器的状态,而非虚拟主机的状态 server{…

吴恩达deeplearning.ai:sigmoid函数的替代方案以及激活函数的选择

以下内容有任何不理解可以翻看我之前的博客哦:吴恩达deeplearning.ai专栏 文章目录 引入——改进下需求预测模型ReLU函数(整流线性单元 rectified linear unit)线性激活函数(linear activation function)激活函数的选择实现方式为什么需要激活函数 到现在…

计算机设计大赛 深度学习图像风格迁移

文章目录 0 前言1 VGG网络2 风格迁移3 内容损失4 风格损失5 主代码实现6 迁移模型实现7 效果展示8 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 深度学习图像风格迁移 - opencv python 该项目较为新颖,适合作为竞赛课题…

【Redis】安装与部署-Ubuntu

在Ubuntu上部署redis 安装环境:ubuntu 20.04 1.安装Redis: 在终端中运行以下命令来安装Redis: linuxubuntu:/mnt/hgfs/GB28181$ sudo apt install redis-server2.配置Redis: Redis的默认配置文件位于/etc/redis/redis.conf 一…

vue3新特性-defineOptions和defineModel

defineOptions 背景说明&#xff1a; 有 <script setup> 之前&#xff0c;如果要定义 props, emits 可以轻而易举地添加一个与 setup 平级的属性。 但是用了 <script setup> 后&#xff0c;就没法这么干了 setup 属性已经没有了&#xff0c;自然无法添加与其平…

基础复习(IDA调试器)

1.选择IDA调试后端 在顶部有一个下拉菜单&#xff0c;选择调试器后端位置 很多用户实际上使用的是Windows版本的IDA&#xff0c;该IDA可以直接调试Windows下32bit和64bit的程序 2.本地调试启动方法 载入IDA后&#xff0c;程序实际上在对程序内置的一个字符串进行base64解码…

Go编译到linux运行出现 cannot execute binary file

1.初学Go就在windows上写了个"Hello,World!",在windown上编译了一下&#xff0c;生成了可执行文件。运行无问题 go build text.go .\text.exe Hello,World!2.但是按照网上的教程进行生成linux的可执行文件时出现报错 set CGO_ENABLED0 set GOOSlinux set GOARCHam…

Ubuntu22.04.3LTS安装ffmpeg6.x

1.官网ffmpeg下载源码 https://ffmpeg.org/download.html#build-windows 安装 libx264 开发库&#xff08;一个开源的视频压缩库&#xff0c;用于编码视频流为 H.264/MPEG-4 AVC 视频格式&#xff09;。这是编译 FFmpeg 时如果要支持 H.264 编码必须的。 sudo apt install l…

低功耗设计——门控时钟

1. 前言 芯片功耗组成中&#xff0c;有高达40%甚至更多是由时钟树消耗掉的。这个结果的原因也很直观&#xff0c;因为这些时钟树在系统中具有最高的切换频率&#xff0c;而且有很多时钟buffer&#xff0c;而且为了最小化时钟延时&#xff0c;它们通常具有很高的驱动强度。此外&…