可用性三叉戟:
本地高可用性:消除单点故障,确保链路所有环节系统高可用
本地是指:针对生产中心的内部故障
故障类型:服务器、硬盘、适配器卡、网络
特点:快速恢复、自动的接管、实施简单 RPO-0
业务逻辑保护:防止删库跑路,减少人员、流程、软件对可用性的影响
定位:针对知名的软件错误或人工失误的保护
故障类型:操作系统、数据库、应用、服务
特点:数据保护为主、人工决策、人工干预、人工追数
容灾多活:防治区域灾难、数据中心故障,实现多数据中心共赢
定位:“异地” 针对生产中心的机房或大面积设备故障
故障类型:HA方案失效、主站点(基础架构)失效、自然灾害
特点:回复时间较长、手动切换负载、涉及内外多个部门,容忍部分数据丢失、有必要指定灾难恢复计划
本地高可用:
CAP理论:
CA-集群架构:
应用集群:Unix(PowerHA),Linux(RedHat Cluster Suite)、第三方(Veritas Cluster Server)
中间件集群:WebLogic 、WebSphere
数据集群:Oracle RAC 、DB2 pureScale、General Parallel File System、磁盘RAID整列
AP-分布式架构:
数据逻辑包括:
逻辑保护三部曲:
预防-第一道防线:磁带数据备份 快照数据备份 严谨的应用于系统架构 N与N+1版本共存 彻底的变更审核
发现-第二道防线:监控工具 自动化脚本 应用与系统正常行为描述 应用与系统异常行为侦测
修复-第三道防线:应用与系统回滚 一键恢复 自动恢复 快速数据恢复
异地容灾:
同城双活:用户所有的业务系统同时在同城的两个数据中心运行,同时为用户提供服务,当某个数据中心的应用系统出问题时,有另
一个数据中心的应用来持续的提供服务,好处是服务能力是双倍的,且对用户来说不可感知
网络双活:将同一个网络扩展到多个数据中心,并且实现服务和应用的虚拟化数据中心互联技术:随着高可用远程集群技术以及虚拟机迁移技术,在数据中心容灾以及计算资源调配方面的广泛应用,在数据中心间需要大二层网络连接。
存储双活:是一种特有的存储技术,使信息能在数据中心内部以及数据中心之间共享、存取或移动,从而讲各种不同的存储系统联合成为单一资源。他允许位于地理上分离站点的存储系统同时进行数据存储,对客户透明,且保证了数据的可靠性和可用性
异地双活:异地之间采用双活目前不够现实,因为尚无很好的技术能实现远距离的实时数据同步,当两个站点距离超过100公里以上,数据同步只能采用数据异步的存储数据复制方式。
数据库双活:是指两个数据库系统可以在相隔比较远的情况下同是运行,支持相同的应用负载,并且在乙方出现故障时能够迅速切换到另一方(分钟级),保证业务高可用
应用双活:在应用处理层面上实现了完全冗余,交易通过负载均衡自动路由到不同的应用服务器,但是,数据库层面上还是依赖在某一个数据库。
DRP规划流程:
多活方案:
妥协:
高可用的流程:
Google—SER文化:
SLI:Goole四大黄金指标:延迟 流量 错误 饱和度
SLO:一定时间 一定范围 的SLI满足一定规则
SLA:针对汇总的SLO,提供奖惩措施
Netflix --混沌工程
SAP—业务高可用评估