主要研发制造销售: 冷热冲击实验机高低温冲击箱高低温冲击试验机三箱冷热冲击箱,等产品!
自主研发生产设备,持有多项专利

主营:高低温冲击箱、冷热冲击试验箱、两箱冷热冲击箱等设备

统一服务热线:

400-822-8565
158-9969-7899

您的位置: 首页 > 新闻中心 > 新闻动态

冗余设计与容错设计

文章出处: 责任编辑:www.dgzhenghang.com. 发表时间:2014-10-08

冗余设计与容错设计

 1.冗余与容错的概念 

      提高产品可靠性的措施大体上可以分为两类:类措施是尽可能避免和减少产品故障发生的避错”技术;第二类措施是当避错难以完全奏效时,通过增加适当的设计余量和替换工作方式等消除产品故障的影响,使产品在其组成部分发生有限的故障时,仍然能够正常工作的“容错”技术。而冗余是实现产品容错的一种重要手段。

            

        “容错(fault tolerance)”定义 :系统或程序在出现特定的故障情况下,能继续正确运行的能力。“冗余(redundancy)”定义 :用多于一种的途径来完成一个规定功能。 “容错”反映了产品或系统在发生故障情况下的工作能力,而“冗余”是指产品通过多种途径完成规定功能的方法和手段。“容错”强调了技术实施的最终效果,而“冗余”强调完成规定功能所采用的不同方式和途径。严格地说,冗余属于容错设计范畴。

    从原理上讲,冗余作为容错设计的重要手段,其实施流

程和原则也同样适用与其他容错设计活动。 

2.冗余设计 

2.1.目的 

      冗余设计主要是通过在产品中针对规定任务增加更多的功能通道,以保证在有限数量的通道失效的情况下,产品仍然能够完成规定任务。

2.2 .应用对象

  (a) 通过提高质量和基本可靠性等方法不能满足任务可靠性要求的功能通道或产品组成单元;

(b)由于采用新材料、新工艺或用于未知环境条件下,因而其任务可靠性难于准确估计、验证的功能通道或产品组成单元;

(c)影响任务成败的可靠性关键项目和薄弱环节;

(d)其故障可能造成人员伤亡、财产损失、设施毁坏、环境破坏等严重后果的安全性关键项目;

(e)其他在设计中需要采用冗余设计的功能通道或产品组成单元。

2.3 .适用时机

在设计/研制阶段的初期,与其他设计工作同步开展。

2.4 . 冗余设计方法 

A)按照冗余使用的资源可划分为:

 (a)硬件冗余:通过使用外加的元器件、电路、备份部件等对硬件进行冗余;

 (b)数据/信息冗余:通过诸如检错及自动纠错的检校码、奇偶位等方式实现的数据和信息冗余;

 (c)指令/执行冗余:通过诸如重复发送、执行某些指令或程序段实现的指令/执行冗余;

 (d)软件冗余:通过诸如增加备用程序段、并列采用不同方式开发的程序等对软件进行冗余。

B)按照实施冗余的产品级别可划分为:部件冗余、系统冗余等。

C)按照冗余方法可划分为:

 (a)静态冗余:只利用冗余的资源把故障的后果屏蔽掉,而不对原来的系统结构进行重新改变。此方法多用于电路或部件。

 (b)动态冗余:在发现故障后,对有故障的部件或分系统进行切换或对系统进行重构或恢复。此方法多用于系统。

 (c)混合冗余:上述两种冗余方法的组合。

D)按照冗余系统的工作方式和各个单元的工作状态,冗余也可划分为:

(a)主动冗余(热储备/热备份):冗余系统中的各个单元同时工作,以保证在有限个单元故障时,该冗余系统仍然能够完成预定任务。主动冗余又可划分为并行冗余和表决冗余两类。

(b)备用冗余(冷储备/冷备份、温储备/温备份):执行任务时,冗余系统中只有一个单元工作,当该单元发生故障时,切换至其他的冗余单元,直至所有冗余单元都失效,该冗余系统才失效。备用冗余可划分为冷备份和温备份。

   上述冗余方式分类如图 

冗余方式

备用冗余(冷储备/冷备份、温储备/温备份)

主动冗余

(热储备/热备份)

并行冗余

表决冗余

温储备/温备份

冷储备/冷备份

图1  冗余方式分类 

2.4.1.主动冗余

    主动冗余(active redundancy)也称为工作冗余、热

储备或热备份,是指:执行规定功能的所有手段同时处于工作

状态的冗余。主动冗余包括并行冗余和表决冗余两种方式。

(1)并行冗余

      并行冗余系统工作时,所有冗余单元均同时工作,   并

提供相同的输出,仅当所有冗余单元均失效时,该冗余系统才

失效。并行冗余系统中,在保证系统正常运行的前提下允许失

效的单元个数称为该冗余系统的冗余度。图2给出了一个二度冗

余系统的可靠性框图示意。 

 

 

 

 

并行冗余(并联)系统的可靠性数学模型为:

                                                       

                                                                      (1)

式中:

           n 为系统中单元数;  

          Rs 为系统可靠性;

          Ri 为第i个单元的可靠性。

A1

A2

A3

图2  二度并行冗余系统的可靠性框图示意

(2)表决冗余

     表决冗余即通常所说的表决系统或n中取k(k??n)系统,记作k/n(G)。

      在表决冗余中,只要系统中有k个或k个以上单元正常工作即可保证该冗余系统工作正常。当k取1时,表决冗余即等效为并行冗余(并联)。图3给出了表决冗余系统可靠性框图示意。

A1

A2

An

……

k/n(G)

图3  表决冗余系统可靠性框图示意

      当采用相同冗余单元组成表决冗余系统时,表决器完全可靠,则其可靠性数学模型可表示为: 

 

                                                                      

                                                                         (2)

式中:

          n 为系统中单元数;

          Rs 为系统可靠性; 

          R 为单元可靠性。

  

      当采用不同冗余单元组成表决冗余系统时,其可靠性数学模型不便用单一的通用公式描述。实际操作时可用全概率法计算系统的可靠性。例如对于2/3(G)的表决冗余系统,其可靠性可通过下式计算:

    Rs=R1R2R3+(1-R1)R2R3+(1-R2)R1R3+(1-R3)R1R2

       从其原理可以看出,在使用相同资源的条件下,并行冗余比表决冗余提供更多的冗余度;但对于某些具有准确度、精度等要求的功能而言,表决冗余设计能够通过比较、判断,筛选掉异常或错误的输出,因而更能满足功能要求。在主动冗余中,并行冗余通常用于保证一个功能通道的工作可靠性,而表决冗余通常用于保证多个功能通道。

4.2.备用冗余

    备用冗余(standby redundancy)包括冷储备、温储备或冷备份、

温备份,是指:执行规定功能的一部分手段处于工作状态,而其余部分

在需要之前处于不工作状态的冗余。

    与主动冗余相比,备用冗余由于其备份的冗余单元在正常情况下处

于不工作状态,降低了其应力水平,因此可改善其备份单元的可靠性,

并为整个冗余系统提供寿命储备。但由于备用冗余通常需要配置启动或

切换环节,增加了系统的复杂性,而且这些环节失效往往成为该冗余系

统的单点失效,因此对其可靠性要求很高,一般要求它的不可靠度应小

于冗余单元不可靠度的50%,否则备用冗余的优点将大大受到限制。

    带切换的备用冗余系统如图4 所示。A1A2An……切换环节

 

 

A1

A2

An

……

切换环节

图4  带切换的备用冗余系统

      在备用冗余系统中,根据备份冗余单元的工作情况,又可分为冷备份和温备份。

      执行任务时,冗余系统的不工作单元如果处于关闭状态(不加电状态),则称该冗余系统为冷备份系统;如果处于待机预热状态,则称该冗余系统为温备份系统。相对而言,温备份具有较快捷的启动或切换过程,切换过程对冗余系统工作的影响较小;冷备份中备份单元的工作应力更低,因此其不工作状态下的可靠性较高。

2.4.3.不同冗余类型的特点

  各种冗余形式具有不同的特点。在工程应用中,应根据产品特点和可靠性要求,并在成本、重量、体积、资源消耗等方面进行权衡,最终确定应采用的冗余方式。不同冗余类型的特点及适用性汇总见表1所示。

同冷备份

同样存在切换薄弱环节。相对冷备份,不工作冗余单元的能耗和应力较高

切换过程相对冷备份冗余快捷,并可储存冗余备份单元寿命

主份单元工作时,其余各冗余单元不工作但处于待机状态

温备份

有利于消除间歇故障,适用于允许输出间断或变化较大的功能

有切换过程,需要增加切换环节,切换过程可能对系统工作产生影响,切换环节可能构成薄弱环节

可储存冗余单元寿命

主份单元工作时,其余各冗余单元不工作且处于关闭状态

冷备份

备用冗余

设计相对复杂,有时需要增加比较、判断环节,适用于有准确度、精度等要求的功能以及需要提供多个功能通道的产品

各单元同时工作,冗余单元的寿命有所损失;表决过程可能影响系统工作速度,相同资源提供的冗余度较并行冗余少

无切换过程,可有效提高功能的正确性,减少错误输出

各冗余单元同时工作

表决冗余

设计相对简单,适用产品范围广。

适用于提供一个功能通道的产品

各单元同时工作,冗余单元的寿命有所损失

无切换过程,对系统工作影响较小。与表决冗余相比,相同资源可以提供更多冗余度

各冗余单元同时工作

并行冗余

主动冗余

适用对象

缺 点

优 点

单元工作状态

 

冗余类型

表1

2.6 .实施要点

      进行冗余设计时,应注意以下几点:

    (1)可以采用相同单元冗余,也可采用不同单元冗余

       例如用两个螺栓连接一个法兰,如果有一个螺栓失效,法兰连接就不可靠。为了提高连接的可靠性,采用六个螺栓来连接这个法兰,即使有任何四个螺栓失效,这个法兰的连接还是可靠的。这是一个六中取二的表决冗余,即2/6(G)系统,这里有四个螺栓是冗余单元,均相同。

      载人运载火箭在起飞至二级主机关机任务时段,具备自动逃逸功能;同时还可以接受地面遥控指令实施逃逸。这是不同功能单元冗余的例子。    

(2)冗余虽然能提高任务可靠性,但降低了基本可靠性

      例如一个系统由三个相同单元构成可靠性并联系统,设每个单元可靠性为0.9,则并联系统的任务可靠性为0.999;而该系统基本可靠性按串联模型计算为0.729。比较可见,任务可靠性从0.9提高至0.999,但基本可靠性则从0.9降至0.729,任务可靠性提高了,但单元从一个变为三个,成本、重量、体积、功耗等大大增加了,且基本可靠性降低了,意味着维修工作量增大了,从而维修费用负担增加了。由此可见,是否要采用冗余,采用什么样的冗余,需要看获得的效益与付出的代价相比是否值得来定。冗余技术是一种优化技术,它是指在费用、重量、体积、功耗等因素限制条件下,如何配置冗余单元使系统任务可靠性达到;或者在达到可靠性指标要求下使耗用的资源最少。

(3)冗余必须考虑系统多重工作模式需要,适当选择冗余级别

      例如,为防止二极管电路短路,在电路上串接二只二极管,只要有一只不短路,电路就不会短路,即对短路失效而言,二只二极管构成可靠性并联系统,提高了电路不短路可靠性。如图6所示。

 

 

 

 

 

 

图6  二极管电路可靠性框图            

 

 

              但是另一方面,该电路还要求不能开路,而上述串接的二极管电路,只要有一只开路就会使该电路开路,对开路失效而言,二只二极管又构成可靠性串联,这样就降低了电路不开路可靠性。为了解决这个问题,可采用二极管串并联方式。如图7所示。

 

 

 

 

                      (a)                                         (b)

                                    图7  二极管串并联方式

 

    图(a)是系统冗余,(b)是单元冗余。可以证明,系统冗余的可靠性小于单元冗余的可靠性,即在系统中较低层次单元采用冗余的效果比层次高的地方好,因此在工程许可的条件下,单元冗余方式应用较多。

(4)冗余还应考虑共因或共模故障的影响

      欧空局阿丽亚娜5型火箭首飞爆炸事故,就是由于自动导航系统中用于制导和姿态控制的主、备份计算机发生共因故障所致。

2.7 .应用实例

2.7.1. 工程背景

      为了确保航天员的安全,要求用于载人飞行的运载火箭比普通运载火箭有更高的可靠性和安全性。运载火箭飞行控制系统是关系运载火箭飞行成败的关键系统之一,其任务是控制运载火箭按预定弹道稳定飞行,控制发动机点火、关机以及助推器、级间、整流罩、船箭等的分离,将飞船送入预定的轨道。

      飞行控制系统的工作原理、组成及功能见图8和表2所示。

图8 飞行控制系统工作原理示意

 将全系统组成一个电磁兼容的系统整体,并

为全系统供、配需要的电源

由电池、配电器、二次电源和

电缆网等组成

电源配电

分系统

  按要求的时序发出相应的控制指令,引爆

相应的火工品,实现发动机的启动及关机、

助推器的分离、整流罩的分离、火箭的级间

分离、船箭的分离、抛逃逸塔、实施逃逸时

关闭发动机等

 由时序控制装置、时序输出装

置、中止飞行关机装置等组成

时序控制

分系统

进行导航计算和导引控制计算,并当运载

火箭飞行达到要求的终端条件时给出相应的

关闭发动机指令,将飞船送入预定的轨道

          由火箭视加速度测量装置和箭载计算机及飞行控制软件组成

制导分系

 

    控制运载火箭按预定的弹道稳定地飞行

      由火箭姿态角及姿态角速率

测量装置、箭载计算机及姿态

控制软件、放大器及伺服机构

等组成

姿态控制

分系统

基本功能

组 成

分系统

表2  飞行控制系统的组成及功能

        箭飞行时间比较短和需要迅速地进行故障判别、故障隔离及系统重构的特点,适当地将系统进行划分,采用部件级、单机级及分系统级冗余结构相结合的方法,实现全系统的冗余化设计,使各冗余结构在出现一个故障的情况下,仍能保障系统实现正常功能,即具有容许一度故障的冗余能力。为使系统设计简单和容易实现,将全系统综合划分为若干个部分进行设计。下面以直流电源配电部分和时序控制分系统的冗余设计为例进行简要说明。

2.7.2.直流电源配电部分的冗余设计

       直流电源配电部分包括电池、配电器和电缆网。

(1)电池

      为适应不同负载的需要,飞行控制系统中使用了不同电压和输出功率的几种电池,这些电池自身都未采用冗余设计。根据输出功率和使用特点,在系统应用中可使用直接并联和参数余量两种冗余设计方法。

     

1)直接并联方法

      利用电池开路时端电压及充电时端电压都比放电时的端电压高的特点,将两个电池直接并联起来供电,构成并联冗余结构。这种结构的关键问题是对电池短路故障的冗余能力。两个电池并联起来,若一个电池出现开路故障,另一个电池可正常供电。而对电池单体短路故障的冗余能力与电池串联的单体数有关。例如,一个由20个单体串联成的银-锌电池,荷电单体的开路电压按1.8v,放电时的电压按1.5v,则即使出现三个单体短路时,仍不会产生正常电池向故障电池充电,至少有允许3个单体出现短路故障的冗余能力;当允许有一定的充电电流时,可容许更多的故障单体。

2)参数余量方法

       电池的每个单体内都是由多对电池极板并联,单体与单体之间有非常牢固的连接。因而在保证每个单体都加注了电解液后,电池开路的故障模式实际上可以不考虑,可只考虑电池单体短路、电量不够等类型的故障模式。这类故障模式的后果是导致电池提供的供电电压降低。系统设计时考虑到了这种情况,将电池的所有用电负载设计成在电池有一个单体出现上述故障模式时能提供的电压下,也能正常工作。虽然电池未增加,但具有容许一个单体故障的冗余能力。

       

      设一个由20个单体串联成的电池,单个单体的可靠度为

R,无参数余量时整机的可靠度Rz 为:Rz=R20;若按有一

个单体冗余能力设计参数,即19/20(G)系统,则整机的可

靠度RR为:

RR为:RR=R20+20 x R19(1-R)=20R19-19 R20。

       可用一组计算数据来说明这种参数余量设计方法对提高

可靠性的作用:

       设R=0.9999,则有:

              Rz=0.9980019

              RR=0.9999981

       采用这种设计方法时,应分析和试验单体内化学变化产

生的影响,确定电池能否满足供电电流和供电时间的要求;

不能满足要求的,应采用直接并联方法。

(2)配电器和电缆网

      系统中有多个配电器,每个配电器中又有多个配电支路和控制电路。在配电器内部采用了元器件级的冗余设计。运载火箭配电的特点是火箭起飞前将电源接通,飞行中绝大多数时间要求一直可靠地供电而不断开,只有少数的配电负载要求飞行中有时断开有时接通。配电器多为继电器电路组成,对飞行中要求一直供电的电路,采用多个继电器和多个继电器接点并联的设计或多个环路供电的设计,保证整个飞行中能可靠的供电。对飞行中有时断开有时接通的配电支路和控制电路,一般采用继电器的并串联冗余结构。有的虽然要求飞行中有时通有时断,但其发生通失效和断失效的危害明显不同,发生断失效危害大的,应采用串联结构;发生通失效危害大的,应采用并联结构。

      电缆网包括连接线路和接插件,要求可靠的导通,可采用双点双线、多点多线并联设计,供电线路也采用环形供电结构。

2.7.3 .时序控制分系统的冗余设计

    时序控制分系统包括时序指令产生和时序指令输出两大

部分功能电路。火箭各级发动机的启动和关机、助推器的分

离、火箭各级之间的分离、抛逃逸塔及抛整流罩、船箭之间

的分离等,都是由时序控制分系统控制实现的;由于直接涉

及很多火工品的引爆,所以不仅直接关系到火箭飞行成败,

而且直接与安全性有关。时序指令产生部分由箭载计算机的

时序输出接口电路和时序控制装置组成,皆采用三重复单元

冗余设计,箭载计算机时序输出接口不进行故障判别,其三

重复时序输出接口与三重复的时序控制装置一一对应串联构

成表决式冗余结构,利用时序控制装置的2比1表决输出电路

进行故障判别和系统重构,以简化系统设计。时序输出装置

采用控制端为并联,输出为并串或串并联的开关电路冗余结

构。图9为时序控制分系统冗余结构原理图。

图9  时序控制分系统冗余结构原理图

      火箭飞行中时序输出装置的工作,有接通也有断开状态,但绝大多数飞行中只接通断开一次,且接通的时间很短。由于火箭起飞前时序输出装置的所有时序输出皆为断开状态,并可对其进行检测确保其为断开状态,飞行中接通后若断不开,还有其他设计措施防止影响正常飞行,因此采用了上述的保证可靠的接通和防止误通的电路结构。

2.7.4 .小结

       提高一个系统的可靠性需要有多方面的设计措施,元器件是系统的基础,首先必须选用高质量等级的元器件。对于像运载火箭飞行控制系统这样复杂的系统,只靠提高元器件的可靠性实现载人飞行要求的高可靠、高安全水平,会给元器件制造带来难以克服的困难或需要花费高昂的代价。在一定的可靠性水平的元器件基础上,采用冗余技术是提高系统任务可靠性,得到高可靠性系统的有效设计措施。采用冗余设计虽然增加系统的复杂性,但与因故障造成运载火箭飞行失败的损失相比是微不足道的。我国载人航天首飞圆满成功,进一步证明了火箭飞行控制系统“全冗余”化设计的正确性和有效性。设计师系统总结出飞行控制系统适应运载火箭简单、可靠、响应快和完全自主等特点的冗余设计的五个工程要素是:

(a)选择合理可行的冗余结构;

(b)确定正确有效的判别准则及门限;

(c)构建简单可靠的系统重构方法;

(d)完善的冗余可检测性设计;

(e)的无共因失效设计。

3.容错设计

    相比冗余设计,容错设计包含的内容更为广泛,它通过

在产品设计中增加消除或控制故障(错误)影响的措施,实

现提高产品任务可靠性和安全性的目的。

      在执行任务时,一个容错系统从产品出错到恢复通常

需要经过下列几个步骤:

    (a)故障检测;

    (b)程序重复执行;

    (c)故障定位及诊断;

    (d)故障屏蔽/隔离,限制故障后果的扩散,以避免影响系统的其他部分;

    (e)系统重构/备份切换;

    (f)系统恢复;

    (g)重启动。 

      故障的检测与修复也可以分成在线(联机)或离线(停机)两种;也可以根据修复后的系统性能有无变化而分成性能降级及不降级两种容错系统。

      作为可靠性设计的内容之一,容错设计的目

的、实施时机、流程和基本原则与冗余设计基本相

同。 

contact us

地址:广东省东莞市寮步镇岭安街2号
电话:0769-81105095 传真:0769-22400804
联系人:贾小姐/158-9969-7899
邮箱:zhenghang@vip.126.com
  • 手机微信号

  • 微信公众号

  • 手机网站