文档介绍:容灾解决方案
北京荣之联科技股份有限公司
广州分公司
演讲者:马鹏飞
1. 业务容灾的挑战
2. 解决方案概述
3. 典型应用场景
5. 成功案例
4. 价值意义
目录
汶川地震
央视配楼
全国性非典传染
湖南常德雷击
灾害
-2 南方特大冰灾
业务系统面临的威胁
来源: Contingency Planning Research, Inc 1999 ( 1982-1997 (美国)样本数:6000宗)
业务系统面临的挑战
业务连续要求
法规遵从
风险控制
技术方案
灾备策略
灾备成本
运行管理
容灾基础:RTO/RPO
7
决定切换灾备中心时刻Dt
+10分钟
主机远程切换
备份主机挂接备份存储
生产存储切换到备份端存储
+20分钟
+90分钟
业务恢复
其他就绪
恢复操作
+120分钟
秒
分钟
小时
应用恢复
数据检查
网络切换与恢复
业务体系应急流程
RPO
RTO
灾备决策
灾难时刻
应用恢复的时间取决于数据丢失(RPO),小RPO将加速数据库的恢复速度
数据库恢复完毕后,要通过人工裁决是否需要数据追补,才能够正常启动整个系统。
正确选用复制技术,“保证数据一致性+ 最小的RPO“,缩短RTO。
整体系统的恢复能力
整体恢复能力取决于备份中心服务器能力、存储能力和网络能力
8
容灾标准之一:国际标准SHARE 78
最优的DR方案是各层面方案的混合,在最低的成本下覆盖最多的应用
单个的技术、方法、规模不能适用于所有的应用
SHARE Group定义的灾备7层次(1992年)
15分钟
1-4小时
4-8小时
8-12小时
12-16小时
24小时
多天
1- PATM卡车运送
2- PATM卡车运送+热备份站点
3- 电子传送数据,磁带恢复
4- 批量/实时的数据库快照或日志复制,时间点磁盘拷贝
5- 应用软件,两地点-两阶段提交保证交易完整性
6- 接近0或0数据丢失,远程数据镜像保证数据完整性和一致性
7-接近0或0数据丢失,远程数据镜像;并且业务环境可进行高自动化的系统接管
24- 48小时数据重构
可用的备份中心
专门的远程灾备中心
不能忍受长时间中断的应用
忍受一段时间中断的应用
容忍长时间中断的应用
成本
恢复所需要的时间(RTO)
《信息系统灾难恢复规范》
9
容灾标准之二: GB/T20988-2007
6级-数据零丢失和远程集群支持
实现远程数据实时备份,实现零丢失
应用软件可以实现实时无缝切换
远程集群系统的实时监控和自动切换能力
5级-实时数据传输及完整设备支持
实现远程数据复制技术
备用网络也具备自动或集中切换能力
4级-电子传输及完整设备支持
配置所需要全部数据和通讯线路及网络设备,并处于就绪状态
7*24 运行;更高的技术支持和运维管理
3级-电子传输和部分设备支持
配置部分数据,通信线路和网络设备
每天实现多次的数据电子传输
备用场地配置专职的运行管理人员
2级-备用场地支持
预定时间调配数据,通信线路和网络设备
备用场地管理制度
设备及网络紧急供货协议
1级-基本支持
每周至少做一次完全数据备份
制定介质存取、验证和转储的管理制度
完整测试和演练的灾难恢复预案
容灾策略:灾备中心架构战略
10
业务级
生产中心
异地灾备中心
高可用性,稳固的容灾体系
生产中心灾难时恢复时间较长
数据级/应用级
异地灾备中心
生产中心
同城热备中心
最稳固的容灾体系
全方位的容灾切换
应用级/业务级
数据级/应用级
< 100公里
> 300公里
生产中心
同城灾备中心
抵御生产中心物理破坏
不能抵御城域灾难
应用级
容灾成本
低
高
可靠性
生产中心
异地灾备中心
抵御地域性灾难
恢复时间较长,挑战切换决策
数据级/应用级