1 / 84
文档名称:

分布式系统和WEB服务专业培训.pptx

格式:pptx   大小:319KB   页数:84页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

分布式系统和WEB服务专业培训.pptx

上传人:读书百遍 2022/7/28 文件大小:319 KB

下载得到文件列表

分布式系统和WEB服务专业培训.pptx

相关文档

文档介绍

文档介绍:第七章 容错与实时系统
第1页
属性:
可用性
可靠性
保险性
可信任性
完整性
可维护性
后果:
失灵
错误
故障
策略:
预防故障
故障容错
故障恢复
故障预报
什么是“可依赖系统”?
怎样区文件索引等。当然,它也用于对数据安全性要求甚高应用中,如银行业务等。
第12页
实现稳定存放主要标准有以下三个:
1)普通用两个相距较远磁盘块形成一个稳定存放块,
尽可能降低发生两块同时犯错可能性;
2)要同时保持以下不变性:
①最少有一个块是好块;
②若两块都是好块,则内容应该一致,若在操作过程
中,能够有暂时不一样。
3)稳定块指针由两个正常块指针提供.
第13页
7.3 容错
基本概念
一、部件故障
故障通常可分为暂时性、间歇性和永久性故障.
暂时性故障只发生一次,假如重复操作,故障可能不会再现。一只鸟在穿过微波波束时会引发无线网络上信息丢失,这就是暂时性故障,假如下一步重传,它可能正常工作。
间歇性故障发生后消失,过一段时间后又出现。一个连接器中若结合不紧(如插座未插牢或虚焊等),会引发间歇性故障。这种错误极难诊疗,但一旦被找到故障点,系统很轻易恢复。
第14页
永久性故障在故障修复之前一直存在。如烧坏芯片、软件中错误、磁头故障都会引发这种故障。
并不是全部部件故障都会引发系统失败,但计算机系统确实会因一些部件故障而工作失败。设计和结构容错系统目标是确保系统能够在部件故障出现时继续正常工作。这个目标与要求单个部件高度可靠性是不一样。
第15页

在分布式系统中,我们最感兴趣是系统在部件犯错时能否继续工作。因为分布式系统中有大量部件,犯错概率高,所以对系统可靠性要求很高。
下面我们来看处理机故障.处理机故障分为两类:
(1)  悄然停(Fail-silent,或fai1-stop)故障;
(2) 拜占庭(Byzantine)故障。
第16页
在悄然停故障中,犯错处理机停顿运行,除了申明它停顿运行外,不对后续输入产生反应也不产生输出.
而拜占庭故障则是,虽出故障,但仍继续运行,对于后续输入继续处理给犯错误结果,给人一个仍在正常工作假象。没有检测出软件错误经常属于拜占庭故障。
通常处理拜占庭故障比处理悄然停故障更困难。
第17页
三、同时/异步系统
假如一个系统总能在有限时间内对消息做出反应,那么就称它为同时系统;反之,就称为异步系统。
异步系统比同时系统更复杂。假如一个处理机发出一条消息,而且知道在T秒内没有回答就意味着接收失败,它就可采取对应正确行动;假如没有反应时间限制,就极难判断是否发生故障。
第18页
四、冗余配置
惯用容错方法是冗余配置。它有信息冗余、时回冗余、物理冗余三种形式。
信息冗余就是,增加额外信息位使错误信息能够得到纠正。比如海明码是存放器设计中主要冗余配置技术,它能够用于检测和恢复传输错误。
时间冗余就是,执行一个操作,假如需要就再次执行。前面讲到原子事务,就属于这种冗余.假如事务取消,它对系统无影响,能够再做。时间冗余对于处理暂时性故障和间歇性故障非常有效。
第19页
物理冗余就是增加额外设备使系统能够承受某个部件故障。比如给系统增加额外处理机,假如某台处理机犯错,系统能够马上切换到正常处理机上继续执行。
组织额外处理机有两种方法,一个是活动备份(ActiveReplicate)法,一个是主副(Primaryand Backup)结构法,比如对一个服务器,假如使用活动备份法,则全部处理机都象服务器那样同时并行工作,来到达屏蔽故障。主副结构法则是使用一台处理机做工作,当它出现故障时,再用备份机来替换它.
第20页
采取哪种方法,主要取决于应用对于以下几点基本需求:
(1)所需备份(冗余)程度;
(2)有故障时平均和最坏性能;
(3)无故障时平均和最坏性能。
第21页
活动备份技术
活动备份是一个经典技术,它特点就是使用物理冗余.人类生活和工程中许多都用到了这种技术,如哺乳动物有两只眼、两个耳朵、两个肺等;飞机普通要用多个发动机(波音747则有4台发动机);体育比赛中要有多个裁判等等。
第22页
在电子线路中也经常采取活动备份技术。
经典设计称TMR(三模件冗余)技术。
冗余能够屏蔽故障.但需要多少个副