文档介绍：该【数据中心灾备方案设计】是由【业精于勤】上传分享，文档一共【22】页，该文档可以免费在线阅读，需要了解更多关于【数据中心灾备方案设计】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。数据中心解决方案之灾备方案设计

随着社会的发展和科技的进步,政府平常工作越来越依赖于数据解决来进行,政务系统的持续性依赖于数据中心系统的稳定运营。然而,劫难就像灰尘同样伏击在运营环境周边,政务系统的数据中心也许正在一种布满风险和威胁的环境下运营。如果不能对这些风险采用有效治理,一旦数据由于某种因素丢失,就很有也许对政府的平常工作导致严重的影响。如果核心数据丢失,将会使得某些核心功能陷入瘫痪,导致不可估计的损失。因此,保证政务的持续性和数据的高可靠性和可用性,已经成为政府部门在数据中心建设中,必须要考虑的问题。

一方面,在制定容灾系统方案的过程中要考虑的就是容灾系统建设对原有业务系统带来的影响。例如,采用数据复制技术对系统I/O带来的延迟,应用数据同步对平常业务解决系统带来的压力等。因此,公司要通过周密的测试和分析来规避容灾系统建设时带来的这些风险,以保证业务系统不会因容灾系统的建设而出目前解决性能上下降的问题。
第二,数据状态要保持同步。为保证在劫难发生时,业务可以成功地切换到备份中心,就必须保证容灾系统数据同步机制的可靠性。因此,建立可靠的数据同步校验机制是必须的;同步,还要考虑建立定期的、自动的数据同步核核对比机制,以检查两个中心数据的一致性,这是数据容灾工作中非常重要的一部分。
第三,容灾系统的平常维护工作要尽量轻,并能承当部分业务解决和测试的工作。容灾系统的维护和管理是容灾切换成功的重要保证,在系统建设中,就必须要考虑系统的维护管理流程。生产中心任何业务解决过程的变化都必须完整地复制到备份中心;所有新业务系统上线时,必须告知备份中心,并在备份中心配备好数据同步机制;对原程序的改动也必须保证两个中心同步上线。
第四,系统恢复时间要尽量短。容灾系统重要是为了实目前主中心系统发生劫难时,可以在规定期间切换到备份中心,保证数据不会丢失,并且继续向顾客提供服务。但往往在劫难发生时,重要技术人员不能及时达到现场,为了顺利实现系统间的切换,应当让系统切换操作尽量地简朴;并建立固定化的、原则化的切换流程,规定维护人员在切换演****时严格按照流程的指引环节进行操作。
第五,可实现部分业务子系统的切换和回切。当人事变动、业务变化、IT设施变化以及其她也许引起恢复规划文档失效的变化发生时,应及时更新各恢复规划文档,并在必要时启动模拟测试或演****保证业务持续性系统的工作能力。
第六,技术方案选择要遵循成熟稳定、高可靠性、可扩展性、透明性的原则。目前,国际上比较成熟的容灾技术涉及: SAN/NAS技术、远程镜像技术、虚拟存储、基于IP的SAN互连技术以及快照技术等。其中基于IP的SAN远程数据容灾备份技术应用比较广泛,其是运用基于IP的SAN的互连合同,将主数据中心SAN中的信息通过既有的TCP/IP网络,远程复制到备份中心的SAN中的。当备份中心存储的数据量过大时,可运用快照技术将其备份到磁带库或光盘库。这种基于IP的SAN远程容灾备份,可以跨越LAN、MAN和WAN,成本低、可扩展性好。基于IP的互连合同重要涉及FCIP、iFCP、InfiniBand、iSCSI等。
第七,构建系统方案可以选择多种技术组合方式。目前,业内应用较多的容灾方案是基于智能存储系统的远程数据复制技术,它是由智能存储系统自身实现的数据远程复制和同步,即智能存储系统将对该系统中的存储器I/O操作祈求复制到远端的存储系统中并执行。由于在这种方式下,数据复制软件运营在存储系统内,因此较容易实现主中心和容灾备份中心的操作系统、数据库、系统库和目录的实时拷贝及维护能力,且不会影响主中心主机系统的性能。如果在系统恢复场具有了实时数据,那么就可以做到在劫难发生时,及时开始应用解决过程的恢复。但这种方案也有开放性差(不同厂家的存储设备系统一般不能配合使用)、对于主、备中心之间的网络条件(稳定性、带宽、链路空间距离)规定较苛刻等缺陷。

RTO(RecoveryTimeObject):是指劫难发生后,从IT系统宕机导致业务停止之刻开始,到IT系统恢复至可以支持各部门运作,业务恢复运营之时,此两点之间的时间段成为RTO。RTO是反映业务恢复及时性的指标,表达业务从中断到答复正常所需要的时间。RTO值越小,代表容灾系统的数据恢复能力越强。多种容灾解决方案的RTO有较大差别,基于光通道技术的同步数据复制,配合异地备用的业务系统和跨业务中心与备份中心的高可用管理,这种容灾解决方案具有最小的RTO。
RPO(Recovery Point Objective),是指从系统和应用数据而言,要实现可以恢复至可以支持各部门业务运作,系统及生产数据应恢复到如何的更新限度。RPO是反映恢复数据完整性的指标,在同步数据复制方式下,RPO等于数据传播延迟的时间;在异步数据复制下,RPO基本为异步传播数据排队的时间。在实际应用中,考虑导数据传播的因素,业务数据库与容灾备份数据库的一致性(SCN)是不同的,RPO表达业务数据库与容灾备份数据库SCN的时间差。发生劫难后,启动容灾系统完毕数据恢复,RPO就是新恢复业务系统的数据损失量。
设计容灾系统不能只看RTO和RPO,对于不同的业务系统和顾客特殊的规定,其他某些指标有也许成为选择容灾解决方案的重要因素。例如,某些地区为了防备某些特定自然灾害的风险,规定容灾备份中心与业务中心保持足够的距离,在这种状况下,容灾备份中心与业务中心的距离规定就是容灾系统的重要指标。

数据的完整性,一致性是保证业务持续的核心。在本地,数据安全需要使用RAID技术来保证。在灾备方案的设计中,数据复制方案的设计是整个设计的基本。目前业界主流的数据复制技术有:基于数据库自身的复制技术,基于操作系统的数据复制,基于虚拟存储的复制技术和基于存储的复制技术。在方案所用技术的选择时,应当根据客户的预算,现场的条件,综合来进行考量。,将会有这4类数据复制技术的综合对比,可以作为选择的参照。

通信网络是容灾系统的构成部分,通信线路的质量也是容灾系统的性能指标之一,其中涉及网络的数据传播带宽、网络传播通道的冗余和网络服务商的服务水平(网络年中断率)。如果容灾系统使用的通信网络是拟定的,为了比较不同容灾解决方案,可以用单位存储容量的数据库在同一通信网络上的数据完全恢复时间作为一项设计指标。

业务持续性是灾备方案的最后目的,是方案的价值所在。为了保证业务的持续,一方面需要数据的持续,之前我们讨论了数据安全有关的内容。另一方面,在数据持续的基本上,浮现劫难时,系统需要可以满足(1)网络切换(2)应用切换。以此,来保证系统可以顺利切换到灾备地,继续安全运营,最大化保证客户利益。

国家《信息系统劫难恢复规范》(GB/T 20988-)规定了六个级别的容灾,下表分别针对每个级别给出了相应的应对措施。
级别
内容
措施
Level6
数据零丢失和远程集群支持
实现远程数据实时备份,实现零丢失;
应用软件可以实现实时无缝切换;
远程集群系统的实时监控和自动切换能力;
Level5
实时数据传播及完整设备支持
实现远程数据复制技术;
备用网络也具有字哦那个或集中切换能力;
Level4
电子传播及完整设备支持
配备所需要的所有数据和通讯线路及网络设备,并处在就绪状态;
7*24运营;更高的技术支持和运维管理;
Level3
电子传播和部分设备支持
配备部分数据,通信线路和网络设备;
每天实现多次的数据电子传播;
备用场地配备专制的运营管理人员;
Level2
备用场地支持
预定期间调配数据,通信线路和网络设备;
备用场地管理制度;
设备及网络紧急供货合同;
Level1
基本支持
每周至少做一次完全数据备份;
制定介质存取/验证和转储的管理制度;
完整测试和演****的劫难恢复筹划;

(1)冷备份
备份系统未安装或未配备成与目前使用的系统相似或相似的运营环境,应用系统数据没有及时装入备份系统。一旦发生劫难,需安装配备所需的运营环境,用数据备份介质(磁带或光盘)恢复应用数据,手工逐笔或自动批量追补孤立数据,将终端顾客通过通讯线路切换到备份系统,恢复业务运营。长处:设备投资较少,节省通信费用,通信环境规定不高。缺陷:恢复时间较长,一般要数天至1周,数据完整性与一致性较差。
(2)温备份
将备份系统已安装配备成与目前使用的系统相似或相似的系统和网络运营环境,安装了应用系统业务定期备份数据。一旦发生劫难,直接使用定期备份数据,手工逐笔或自动批量追补孤立数据或将终端顾客通过通讯线路切换到备份系统,恢复业务运营。长处:设备投资较少,通信环境规定不高。缺陷:恢复时间长,一般要十几种小时至数天,数据完整性与一致性较差。
(3)热备份
备份处在联机状态,目前应用系统通过高速通信线路将数据实时传送到备份系统,保持备份系统与目前应用系统数据的同步;也可定期在备份系统上恢复应用系统的数据。一旦发生劫难,不用追补或只需追补很少的孤立数据,备份系统可迅速接替生产系统运营,恢复营业。长处:恢复时间短,一般几十分钟到数小时,数据完整性与一致性最佳,数据丢失也许性最小。缺陷:设备投资大,通信费用高,通信环境规定高,平时运营管理较复杂。
在计算机服务器备份和恢复中,冷备份服务器(cold server)是在主服务器丢失的状况下才使用的备份服务器。冷备份服务器基本上只在软件安装和配备的状况下打开,然后关闭直到需要时再打开。
温备份服务器(warmserver)一般都是周期性开机,根据主服务器内容进行更新,然后关机。常常用温备份服务器来进行复制和镜像操作。
热备份服务器(hotserver)时刻处在开机状态,同主机保持同步。当主机失灵时,可以随时启用热备份服务器来替代。
对于核心的业务,Primeton建议采用同城热备+异地热备的方式进行部署,对于一般性的业务,建议采用同城热备+异地温备(应用不启动,数据保持异步复制)的方式进行部署。

目前数据复制技术重要有如下表所列4种,基于红色字体部分的规定,结合客户的需要,Primeton推荐采用基于存储或者基于应用程序的数据复制技术来进行数据同步。

存储系统数据复制
操作系统层数据复制
应用程序层数据复制
基于存储的
数据复制
虚拟存储技术
基本原理
数据的复制过程通过本地的存储系统和远端的存储系统之间的通信完毕。
复制技术是随着着存储局域网的浮现引入的,通过构建虚拟存储上实现数据复制。
通过操作系统或者数据卷管理器来实现对数据的远程复制。
数据库的异地复制技术,一般采用日记复制功能,依托本地和远程主机间的日记归档与传递来实现两端的数据一致。
平台规定
同构存储
与平台无关,
需要增长专有的复制服务器或带有复制功能的SAN互换机
同构主机、异构存储
与平台无关
复制性能
高
高
高
较高
资源占用
对生产系统存储性能有影响
对网络规定高
对生产系统主机性能有影响
占用部分生产系统数据库资源
技术成熟度
成熟
成熟度有待提高,非主流复制技术。
成熟
成熟
投入成本
高,需要同构存储
较高,需要专有设备
较高,需要同构主机
一般
部分软件免费,如DataGuard
复制软件
IBMPPRC
EMCSRDF
HPCA(ContinuesAccess)
HDSTrueCopy
BrocadeTapestryDMM
UITSVM
EMCVSM
 
原厂技术:
IBMAIXLVM
HP-UINX MirrorDisk
SunSolaris SVM
专业的复制软件:
SymantecSF/VVR
Oracle DataGuard
OracleGoldenGate
DNT IDR
DSGRealSync
QuestSharePlex

反复数据删除技术是指将存储系统中存在的大量内容相似的数据删除,只保存其中一份,从而缩减存储空间的技术。在云灾备中,该技术既能大幅减少灾备中心存储的数据量,减少灾备中心的建设和运维成本,又能大幅减少数据备份和恢复过程中顾客和灾备提供商间的数据传播量,提高备份和恢复的性能,是一项十分重要的技术。
随着灾备中心的规模不断增大,存储的数据量和访问量不断增长,单一节点上的反复数据删除措施已不能满足性能和容量的需求。除上述基本反复数据删除技术外,某些优化和改善技术对云灾备是至关重要的,涉及高性能、可扩展的、分布式的反复数据删除技术,以及为提高灾备中心数据可靠性的高可靠反复数据删除技术。
    
除了数据级的灾备,还应提供系统级的灾备。即在将数据复制到云端的同步,也将受保护的应用程序的状态复制到云端,当劫难发生时可以立即切换到云端的应用程序运营,保证业务持续性。系统级灾备是通过操作系统虚拟化和检查点实现的。检查点用来捕获进程某一时刻的运营状态,从而实现进程迁移。进程迁移既可以是顾客应用程序进程到云灾备中心的迁移,也可以是云灾备中心内部的虚拟机池间进程迁移,以实现根据前端顾客的需求自动地调节灾备服务提供商有限的硬件与软件资源,动态地、弹性的反映前端业务对灾备的需求。
当程序因故障中断,如果不能保存其中间运营状态,恢复后从头运营将会带来极大的消耗。检查点技术可以解决这个问题。通过保存各个进程的运营状态,恢复时可以复原到近来一次保存的数据映像。
老式的检查员机制是基于库的检查点机制。例如以静态库的形式实现,或通过加载动态链接库来追踪程序运营过程中的数据变化。也有某些检查点机制实现于内核级别甚至硬件级别。例如通过在文献系统层之上引入一种中间层来实现保存文献系统状态的检查点机制;或者借助Fuse内核模块实现的支持检查点机制的文献系统,通过Fuse侦测、拦截内核级别的文献系统操作并将控制权传递给顾客,从而可以在顾客空间对文献系统状态进行保存。