文档介绍:大学毕业说明书
计算机科学与技术
1弓I言 2
2实时集群系统的可靠性设计 2
2. 1冗余设计 3
2选择高可靠性设备 3
2. 3合理结构 4
2. 4网络规戈U 4
5利用可靠性理论对其进行分析估算 4
3 一个实时集群系统可靠性模型及分析 4
1可靠性分析 4
2可用性分析计算 5
4结束语 6
1引言
进入信息化社会后,各行各业都在竞相发展各自的高新技术产品和构建自己的信 息处理环境。这就为计算机创造了更多的应用机会。当然也给计算机带来了挑战, 如天气预报、核爆模拟、基因测序、航空航天器的电子操纵成像系统等。然而, 这些计算又是非常费时的,许多问题即使在大型机、巨型机上求解也需花费几天 甚至几十天的时间;若是在微机上计算,就可想而知了。而已有的向量机、SMP 等中、大型机,由于价格昂贵,还不能普遍应用,好在人们可以利用用户所拥有 的网络工作站的空闲时间进行并行计算。这就是90年代兴起的集群(Cluster) 计算机。无论从性能价格比还是可用性、可伸缩性、可靠性方面,集群都有无比 的优势和发展前景。因此就针对一个实时系统的硬件构成可靠性作以分析计算。
2实时集群系统的可靠性设计
什么是集群:简单的说,集群(cluster)就是一组计算机,它们作为一个整体 向用户提供一组网络资源。这些单个的计算机系统就是集群的节点(node) o 一 个理想的集群是,用户从来不会意识到集群系统底层的节点,在他/她们看来, 集群是一个系统,而非多个计算机系统。并且集群系统的管理员可以随意增加和 删改集群系统的节点。
对于实时系统来说,除过在规定时间内处理完要求的任务外,可靠性是不能 不给予重视的。但作为一个计算机系统来说,整个系统的可靠性是由软件系统和 硬件系统的可靠性共同保证的。这两者都可通过良好的的设计获得高质量,但硬 件在制造过程中可能会引入质量问题,如在工作时由于温度、腐蚀或震动而产生 磨损,这两者对软件是不存在。所以软件系统的可靠性还不像硬件设备那样,有 成熟技术研究方法。更不能照搬硬件设备衡量可靠性的分析方法。它的可靠性主 要由设计开发阶段的各种措施和管理方法来保证。另外硬件又是软件运行的基 础,硬件的故障自然会影响系统的正常工作。为了从根本上保证系统可靠。本文 先对硬件系统的可靠性作进行了分析研究。
集群计算机类型是很多的,就目前应用情况来说,不管哪类集群都要求高的性能、 高伸缩性、高可用性。尤其是由多传感器构成的实时集群系统,可靠性要求就更 高。如果设计构建不周到,就可能给日后应用埋下隐患。
:
对于高可靠性的系统来说,这是常用的基本方法;也是除集群系统之外的其它系 统、设备所采用的常规方法。在集群系统中,由于集群计算机的特殊结构,这种 方法具有双重作用。一是对整个集群计算环境来说可以配备多机系统,构成多机 备份。二是由于同种角色的多个节点的存在,构成了互为备份的系统。尤其对于 实时集群计算机系统来说,专门负责通信的通信节点(或称为通信服务器)、集群 处理数据存储节点(或称为数据库服务器)、作业控制台(前端机)等均可设计成多 备份。另外,必要时亦可将网络设备、通信链路都设计成多备份。图1所示系统 为一多传感器集群计算机系统结构图。它由4个计算节点、2个通信节点、2个 存储节点、2个