容错系统定义编辑 归纳容错系统的定义,有以下四种:
(1)规定功能的系统,在一定程度上对自身错误的作用(
软件错误)具有屏蔽能力,则称此系统为具有容错功能的系统,即容错系统。
(2)规定功能的系统,在一定程度上能从错误状态
自动恢复到正常状态,则称之为容错系统。
(3)规定功能的系统,在因错误而发生错误时,仍然能在一定程度上完成预期的功能,则把该软件称为容错系统。
(4)规定功能的系统,在一定程度上具有容错能力,则称之为容错系统。
2容错的一般方法编辑
(1)静态
冗余。常用的有:三模
冗余TMR(Triple Moduler Redundancy)和多模冗余。
(2)动态
冗余。动态
冗余的主要方式是多重模块待机储备,当系统检测到某工作模块出现错误时,就用一个备用的模块来顶替它并重新运行。
为检测或纠正信息在运算或传输中的错误须外加一部分信息,这种现象称为信息
冗余。
时间冗余是指以重复执行指令(指令复执)或程序(程序复算)来消除瞬时错误带来的影响。
3容错系统的设计过程编辑
(1)按设计任务要求进行常规设计,尽量保证设计的正确。
按常规设计得到非容错结构,它是容错系统构成的基础。在结构
冗余中,不论是主模块还是备用模块的设计和实现,都要在费用许可的 条件下,用调试的方法尽可能提高可靠性。
(2)对可能出现的错误分类,确定实现容错的范围。
对可能发生的错误进行正确的判断和分类,例如,对于硬件的瞬时错误,可以采用指令复执和程序复算;对于永久错误,则需要采用备份替换或者系统重构。对于软件来说,只有最大限度地弄清错误和暴露的规律,才能正确地判断和分类,实现成功的容错。
(3)按照“成本——效率”最优原则,选用某种
冗余手段(结构、、时间)来实现对各类错误的屏蔽。
(4)分析或验证上述
冗余结构的容错效果。如果效果没有达到预期的程度,则应重新进行
冗余结构设计。如此反复,直到有一个满意的结果为止。
指系统支持不中断运行,允许从硬件或
软件错误恢复的能力。
容错计算机:
在硬件发生故障或软件产生错误时,能自行采取补救措施,继续正常运行并给出正确结果的计算机系统。容错计算机的主要目的是为提高计算机系统的可靠性和可用性。
冗余技术是容错计算机中
容错技术的基础。它是指在基本的计算机系统中加上一定数量的备份,包括硬件
冗余、软件冗余、
信息冗余和
时间冗余。
容错计算机系统具备如下功能:
故障检测、故障屏蔽、故障限制、重复执行、故障诊断、系统重构、系统重启动、系统修复等。它主要应用在可靠性要求很高的环境中,如航空、航天、工业生产、军事、交通、医疗、金融、公安等方面。