1 / 61
文档名称:

诊断与容错技术1 PPT课件.ppt

格式:ppt   页数:61页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

诊断与容错技术1 PPT课件.ppt

上传人:小马皮皮 2015/3/4 文件大小:0 KB

下载得到文件列表

诊断与容错技术1 PPT课件.ppt

文档介绍

文档介绍:容错技术与诊断技术
课程性质:计算机专业选修课
前修课程:组成原理、操作系统、概率论
南京航空航天大学计算机学院钱忠民
qzm_******@nuaa.
2017/12/22
1
课程内容:
第一章容错系统概述
第二章可靠性的基本知识
第三章可靠性的分析方法
第四章冗余技术
第五章马尔可夫模型分析法
第六章软件容错技术
第七章容错系统设计和典型的容错系统介绍
第八章故障诊断技术
存储技术及其他。。。
2017/12/22
2
第一章容错系统概述
第一节可靠性是计算机系统的重要性能指标
一般讲到计算机性能指标时往往只考虑:
CPU功能:
·速度(如:主频)
·指令系统(包括CPU寄存器)
·寻址能力(寻址空间)
·存储系统:Cache、主存容量、组织方法、管理机构
·外设配置和采用的总线等
2017/12/22
3
但是,随着计算机应用领域扩大出现了许多对可靠性有特殊要求的应用领域,对这些系统来说,可靠性是极其重要的性能指标。例如:
1、工业、交通、航空:
飞行控制计算机,一旦故障,有可能造成机毁人亡的严重后果
要求在10-20小时飞行任务期间内失效的可能性低于10-9

工业控制:
如:核电站、化工厂的过程控制。
如控制失灵会造成重大事故。
2017/12/22
4
交通:
如:铁路运输中的信号系统
通讯:
如程控交换机等
2、商业、金融
对信息的安全可靠有极高要求
3、长寿命、高可靠应用
·航天:人造卫星的通讯控制
如:美国的STAR系统(Self Test and Repair)保证在十年中可靠运行的时间≥95%,只允许短暂的停顿(比如几分钟)
2017/12/22
5
这些领域对计算机的可靠性提出在正常条
件下难以达到的要求。
比如,市售的成品计算机的可靠性指标:
MTBF(平均故障间隔时间)为300-10000小时。-(故障可能为3×10-3→1×10-3)。在运行10000小时时候,
2017/12/22
6
第二节容错技术与非容错技术
提高可靠性的方法有两种:
1、非容错方法(避错技术)
避错方法是保证可靠性的主要和基本的方
法。它采用预防为主的手段。
2017/12/22
7
硬件措施:
·严格地进行元件筛选、老化处理
·采用成熟技术,防止设计错误
·严格遵守加工工艺如:制板、装配、调试
·在保证功能、性能要求前提下采用最简单的设计方案
·降负荷运行。比如:降低主频、降低通讯线的数据传输率
·改善运行环境:空调、防震、防尘、防潮
2017/12/22
8
软件措施:
·模块化、结构化程序设计
·完善的、规范的文档资料
·严格的调试
2017/12/22
9
避错方法是保证系统可靠性的基础,也是必不可少的手段。但是单靠避错方法不能达到上述高可靠性指标,这是因为:
1)元件质量受当时工艺水平限制,在一个时期只能达到一定水平。
比如50年代计算机采用电子管为主要元件,其平均寿命为800小时。采用特殊工艺可达1500-2000小时,此时价格已高出常规价格几十倍。
当时计算机采用18000只电子管,平均每小时有9-12个管子损坏。
2017/12/22
10