文档介绍:服务器容错和关键数据备份方案
(一九九九年七月)
系统实现模式:
随作网络规模的迅速扩充,数据容量的大量增长,系统要求有更为完备的手段保障系统运行的高可靠性和系统交易的不间断性,用以对付类似系统崩溃,硬件损坏等意外情况的发生。系统需要一个支持各种应用、可以实时镜像、自动检测和切换的服务器容错镜像热备份工具。
集群是容错的较高表现形式,是一组被称为节点的计算机,对于网络的其他部分来说,两台服务器就象一个单一的实体,一个高可用的“虚拟”服务器,集群在检测到软件和硬件故障时,自动将数据和处理的服务转到无故障的节点,借此提高可用性。集群的应用可以是Active/Active 或Active /Standby 。
当一个节点发生故障时,被该计算机所使用的某些应用程序、磁盘和其他客户机资源将“故障时切换”到另一个集群节点上,当一个节点发生故障时,使用该集群的客户机可能发生两种情况:其工作活动没有受到任何影响或需要重新连接,具体取决与他们正在使用的资源情况。当有故障的节点被替换恢复到正常工作状态后,这些资源的一部分或全部将“故障后恢复”,回到原有节点的控制之下。这一切都是自动完成的。
目前的双机(多机)容错系统可以分为共享介质下的双机容错和非共享介质下的双机容错,共享介质下的容错系统支持磁盘阵列设备,共享的磁盘阵列中被保护的数据无需要同步,非共享介质下的双机容错使用服务器磁盘同步镜像,共享介质的双机容错相对于非共享介质来说,数据同步基本不占用系统资源,切换时间短,数据传输速度快(相对于单机还快),但对于系统硬件的要求高,并需要额外增加磁盘阵列设备。综合考虑证券业务的特点和性能价格比,推荐云南省证券使用非共享介质下的双机容错。
非共享磁盘环境下的交易服务器容错系统,采用服务器之间磁盘镜像的模式,实现服务器之间的数据同步,正常实际工作时,客户可见的是一个虚拟的主机名称和虚拟的主机IP地址,客户只对主服务器的数据卷进行读或写,从服务器的相对应的卷被锁定。
服务器检测到主服务器的故障时,开始切换过程,关闭主服务器的应用,释放从服务器的镜像磁盘资源,并在从服务器上启动被保护的应用,切换过程自动完成,时间大约是一分半钟。
服务器恢复时,回切过程需要管理员重新同步镜像数据,时间将视镜像数据的大小定。
数据镜像完成后,主服务器完成手工切换到Active 状态。
系统故障切换时和服务器恢复时,工作站和服务器的联系断开,因此前台委托工作站需要重新建立和服务器、数据库的连接。
在Windows NT平台上,非共享介质下的双机容错产品有以下产品可供云南省证券公司选择:
Legate Octopus HA+
NCR leftkeeper + Extanded mirroring
经过实际的使用和比较,我们认为两种容错软件产品在NT平台上均是成熟的容错产品,虽然数据镜像的机理略有不同,但都能满足在NT平台上的服务器容错要求。
采用两种服务器容错软件的硬件设备配置基本相同,需要:
两台服务器Active / Standby(两台服务器可以配置不相同)。
除去正常的网络连接外,各新增一块10/100M网卡,使用100M对绞线连接,在专用链路上实现数据的镜像同步和服务器系统的心跳检测。
WINNT + Windows NT PACK