Introduction to Business Continuity
Ÿ Define Business Continuity and Information Availability
Ÿ Detail impact of information unavailability
Ÿ Define BC measurement and terminologies
Ÿ Describe BC planning process
Ÿ Detail BC technology solutions
何为BC
- 业务运营中产生有害结果的APP做准备、响应、恢复的过程
- 不可用性、程序性能下降的问题
- 集成的 企业范围流程、活动集 保证information availability
何为IA
设施在指定运营时间内根据期望发挥作用的能力
三个参数
- 可达性 accessibility
- 可靠性 reliability
- 及时性 timeliness
information unavailability的可能
- Disaster
- naturl or man-made
- 计划外停机 outage
- 数据库损坏 corruption
- 组件故障
- 人为错误
- 计划的停机
- 竞争性工作负载
- 备份、报告
- 数据仓库摘录
- 应用程序和数据补充程序
Downtime的影响
- lost productivity(产能损失
- Lost Revenue(收入损失
- Damaged Reputation(声誉损失
- Financial Performance(金融表现
- 其他花费
测量IA
MTBF:系统或组件在故障之间执行正常操作的平均可用时间
MTTR:修复故障部件所需的平均时间
I A = M T B F M T B F + M T T R = u p t i m e u p t i m e + d o w n t i m e IA = \frac{MTBF}{MTBF + MTTR} = \frac{uptime}{uptime + downtime} IA=MTBF+MTTRMTBF=uptime+downtimeuptime
5 个9 : 99.999% = 0.001% * 365 = 5.265 分钟/年
BC术语
灾难恢复 recovery
- 发生灾难时,恢复支持BC业务所需要恢复的,sys、data和基础infrastructure的协调过程
- 恢复数据副本,日志用于该副本,使其一致性
- 使用 BACKUP技术(不一定实时更新备份)
灾难重启
- 数据和APP mirror的一致拷贝
- 使用replication技术(实时备份
恢复点目标(RPO)
- 停机后必须恢复系统和数据的时间点
- 业务能够承受的数据丢失量
恢复时间目标(RTO)
- 停机后必须恢复系统、应用程序或功能的时间
- 企业可以忍受和生存的停机时间
业务连续性规划 BCP流程
- 识别关键业务职能
- 收集职能范围和各种业务流程数据
- 风险影响评估(BIA
- 风险评估
- 评估
- 优先排序
- 缓解
- 管理风险
- 风险评估
- 设计应急计划,灾难恢复计划
- 测试、训练、维护
BC技术方案
- 单点故障
- 多路径软件
- 备份复制
- 备份恢复
- 本地复制
- 远程复制
实践中的概念—EMC PowerPath
- 基于主机的软件
- 位于应用程序和SCSI设备驱动程序之间
- 提供智能I/O路径管理
- 对应用程序透明
- 从主机到阵列路径故障的自动检测和恢复
Multi-pathiing software
- 配置多条路径提高数据可用性
- 如果一条路径出现故障,I/O也不会重新路由(除非sys识别它又备用路径
- 识别和利用数据的备用I/O路径
- 负载平衡
- 负载平衡提高了I/O性能和数据路径利用率
backup and replication
local replication
- 数据被复制到同一阵列中的复制设备
- 数据损坏或其他事件时,副本可以用于恢复操作
remote replication
- 数据复制到远程阵列上的副本设备
- 应用程序可以继续从目标设备运行
backup/restore
- 磁带备份
- 备份频率取决于RPO/RTO
Sumamry
业务连续性的重要性
停机类型及其对业务的影响
信息可用性测量
灾难恢复和重启、RPO和RTO的定义
业务连续性技术解决方案概述
check
业务连续性解决方案解决了哪些问题?
“可用性是用9来表示的。”举例说明使用9对可用性的相关性。
·RPO和RTO之间的区别是什么?
灾难恢复和灾难重启之间的区别是什么?
提供数据中心运营中计划内和计划外停机的示例。
·于数据中心环境,典型的单点故障有哪些?