硬件系统的可靠性设计.doc
《硬件系统的可靠性设计.doc》由会员分享,可在线阅读,更多相关《硬件系统的可靠性设计.doc(66页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-硬件系统的可靠性设计目录1可靠性概念41.1失效率41.2可靠度51.3不可靠度61.4平均无故障时间61.5可靠性指标间的关系62可靠性模型72.1串联系统72.2并联系统92.3混合系统112.4提高可靠性的方法123可靠性设计方法123.1元器件123.2降额设计133.3冗余设计143.4电磁兼容设计153.5故障自动检测与诊断153.6软件可靠性技术153.7失效保险技术153.8热设计163.9EMC设计163.10可靠性指标分配原则174常用器件的可靠性及选择194.1元器件失效特性194.2元器件失效机理214.3元器件选择234.4电阻234.5电容264.6二极管304.
2、7光耦合器314.8集成电路325电路设计385.1电流倒灌385.2热插拔设计405.3过流保护415.4反射波干扰425.5电源干扰495.6静电干扰515.7上电复位525.8时钟信号的驱动535.9时钟信号的匹配方法556PCB设计596.1布线596.2去耦电容617系统可靠性测试627.1环境适应性测试627.2EMC测试627.3其它测试638参考资料639附录641 可靠性概念系统的可靠性是由多种因素决定的,影响系统可靠、安全运行的主要因素来自于系统内部和外部的各种电气干扰,以及系统结构设计、元器件选择、安装、制造工艺和外部环境条件等。可靠性的高低涉及产品活动的方方面面,包括元
3、器件采购、检验、设备设计、生产、工程安装、维护等各个环节。在电子产品中,影响产品可靠性的一个很重要的因素是干扰问题,所以提高系统的抗干扰能力是产品设计过程中考虑的重要课题。干扰对系统造成的后果主要表现在以下几方面: 数据采集错误 控制状态改变 程序运行失常 系统运行不稳定可靠性是描述系统长期稳定、正常运行能力的一个通用概念,也是产品质量在时间方面的特征表示。可靠性又是一个统计的概念,表示在某一时间内产品或系统稳定正常完成预定功能指标的概率。可靠性的定义是指产品或系统在规定条件下和规定时间内完成规定功能的能力。例如,一台计算机在室内有空调的条件下,使用3000小时不出故障的可能性为70,即意味着
4、在3000小时内无故障的概率为70%。可靠性最集中反映了某产品或系统的质量指标。描述可靠性的定量指标有可靠度、失效率、平均无故障时间等。1.1 失效率失效率又称为故障率,指工作到某一时刻尚未失效的产品或系统在该时刻后单位时间内发生失效的概率。数字电路以及其它电子产品,在其有效寿命期间内,如果它的失效率是由电子元器件、集成电路芯片的故障所引起,则失效率为常数。这是因为经过老化筛选后的电子元器件、集成电路芯片已进入偶发故障期。在这一时期内,它们的故障是随机均匀分布的,故故障率为一常数。由电子元器件、集成电路芯片构成的整机总是比电子元器件、集成电路芯片先进入损耗故障期。1.2 可靠度可靠度是指产品或
5、系统在规定条件下和规定时间内完成规定功能的概率。规定的条件包括运行的环境条件、使用条件、维修条件和操作水平等。可靠度一般记为R。它是时间的函数,故也记为R(t),称为可靠度函数。 如果用随机变量T表示产品从开始工作到发生失效或故障的时间,其概率密度为f(t)如上图所示,若用t表示某一指定时刻,则该产品在该时刻的可靠度对于不可修复的产品,可靠度的观测值是指直到规定的时间区间终了为止,能完成规定功能的产品数与在该区间开始时投入工作产品数之比,即式中:N开始投入工作产品数Na(t)到t时刻完成规定功能产品数,即残存数Nf(t)到t时刻未完成规定功能产品数,即失效数。1.3 不可靠度不可靠度也称为累积
6、失效概率:是产品在规定条件下和规定时间内未完成规定功能(即发生失效)的概率,。一般记为F或F(t)。因为完成规定功能与未完成规定功能是对立事件,按概率互补定理可得F(t)=1-R(t)对于不可修复产品和可修复产品累积失效概率的观测值都可按概率互补定理,取1.4 平均无故障时间产品的平均无故障时间又称为平均寿命,是产品寿命的平均值。对于可修复的产品,指“产品在其使用寿命期内某个观察期间累积工作时间与故障次数之比”。对于不可修复的产品,指“当所有试验样品都观测到寿命终了的实际值时,平均寿命是它们的算数平均值;当不是所有试验样品都观测到寿命终了的截尾试验时,平均寿命是试验样品累积试验时间与失效数之比
7、”。1.5 可靠性指标间的关系可靠性特征量中可靠度R(t),累积失效率(也叫不可靠度)F(t)、概率密度f(t)和失效率(t)是四个基本函数,只要知道其中一个,则所有变量均可求得.基本函数间的关系见下表。可靠性特征量R(t)F(t)f(t)(t)R(t)(可靠度)-1-F(t)F(t)(累积失效率)1-R(t)-f(t)(概率密度)-(t)(失效率)-关于MTBF计算的例子见附录文件SLCAV320MTBF.pdf2 可靠性模型一个复杂的系统总是由许多基本元件、部件组成,如何在保证完成功能的前提下组成一个高可靠性的系统对产品设计是很有意义的。一方面需要知道组成系统的基本元器件或部件在相应使用条
8、件下的可靠性,另一方面还要知道这些基本元器件、部件的可靠性和由其构成的系统的可靠性的关系。描述基本元器件、部件的可靠性的基本数据可由生产厂家提供、或通过试验获得、或通过实际观察的统计数据或经验得到。基本元器件、部件的可靠性对系统的影响,可以通过几种可靠性模型获得。构造系统的可靠性模型时,首先应该明确的是系统的可靠性框图与系统的功能性框图有所不同。系统的功能性框图是根据系统的工作原理进行连接,各部分之间的关系是确定的,其位置不能变动,而系统的可靠性框图是根据各组成部分的故障对系统的影响来构成的,其位置在何处是没有关系的。2.1 串联系统串联结构的系统是由几个功能器件(部件)组成,其中任何一个器件
9、(部件)失效,都将引起整个系统失效。A输入B放大C采样DA/DABCD图 xxxxabLC图 xxx 串联结构模型LCab图xxx和图xxx中的a表示系统的功能框图,而b表示系统的可靠性框图,可以看出,两者有时是不相同的。在图xxx中,虽然是LC并联谐振电路,但其可靠性结构框图却是串联的,因为任何一个环节发生故障,则整个电路将不发生谐振。对于串联结构模型的系统,系统的失效率为各功能器件(部件)失效率的代数和。若系统中的每一个部件又由几种元件组成,每种元件都有一定的数量,如果部件中的每个元件的失效率都将组成部件的失效,那么这个部件就成为由一系列元件组成的串联结构。这个部件的失效率为各元件失效率的
10、代数和。串联结构是一种无冗余结构,特点是构造简单。串联系统的可靠度为:上图所示为n个具有相同可靠度的单元构成的系统的可靠度与每个单元的可靠度间的关系曲线,由此可知,随着串联单元数的增加,系统的可靠度随之减小。2.2 并联系统并联形式的可靠性结构是有冗余的,它是指系统由几个部件构成,只要其中至少有一个部件工作正常,系统就能正常工作。按组成系统的部件的数量可分为双重、三重或多重系统。例如,为SP30交换机机框中各电路板提供电源的二次电源系统,两个电源模块的工作形式为输出并联方式,其中任何一个电源模块都有为整个机框提供所需电流的能力,其电源的可靠性模型即为并联结构。R1(t)R2(t)Rn(t)图x
11、xx 并联结构模型若系统中有n个部件,构成并联结构,则系统的可靠度为:i1,2,n系统的平均无故障时间为:下图是n个相同单元并联构成的系统的可靠度与每个单元的可靠度间的关系曲线,由此可知,随着并联单元数的增加,系统的可靠度随之增大。2.3 混合系统混联结构是由若干并联和串联结构组合的混合系统,这种系统在实际应用中用的较多。例如估算如下图所示系统的可靠度,通常先将并联部分估算好,然后再对整个系统按串联模型进行计算。R1(t)R2(t)R5(t)R4(t)R3(t)图xxxx 混联结构模型而估算如下图所示系统的可靠度,则先将串联部分估算好,然后再对整个系统按并联模型进行计算。R1(t)R2(t)R
12、3(t)图xxxx 混联结构模型2.4 提高可靠性的方法提高系统可靠性的途径有两个:错误避免和容错设计。错误避免即通过使用更高质量、更高可靠性的元器件、部件来提高系统的可靠性,其实现成本比容错设计低。容错设计主要是通过部件的冗余来实现,即通过增加设计的复杂性,增加冗余单元,同时也就增加成本的方法达到提高系统的可靠性。3 可靠性设计方法3.1 元器件元件、器件是构成系统的基本部件,元器件的性能与可靠性是系统整体性能与可靠性的基础。降低电子元器件的故障率是由其生产厂家来保证的。作为设计与使用者,主要是保证所选用的元器件的质量或可靠性指标满足设计的要求。n 把握元器件的选型、购买、运输、储存元器件的
13、质量主要由生产厂家的技术、工艺以及质量管理体系保证。应选用有质量信誉的厂家的产品,一旦选定,不应轻易更换,尽量避免在同一台设备中使用不同厂家的同一型号的元器件。元器件的运输、储存要按相关要求进行,对于存放时间较长的元器件,在使用前需要仔细检测。n 老化、筛选、测试元器件的老化测试一般在生产前进行,在此阶段淘汰那些质量不佳的产品。老化处理的时间长短与所用元件量、型号、可靠性要求有关,一般为24小时或48小时。老化时所施加的电气应力(电压或电流等)应等于或略高于额定值,常选取额定值的110120。老化后淘汰那些功耗偏大、性能指标明显变化或不稳定的元器件。3.2 降额设计降额设计是使电子元器件的工作
14、应力适当低于其规定的额定值,从而达到降低基本故障率,保证系统可靠性的目的。降额设计是电子产品可靠性设计中的最常用的方法。不同的电子元器件所要考虑的应力因素是不一样的,有的是电压,有的是电流,有的是温度,有的是频率,有的是振动等等。对电容的耐压及频率特性,电阻的功率,电感的电流及频率特性,二极管、三极管、可控硅、运放、驱动器、门电路等器件的结电流、结温或扇出系数,电源的开关和主供电源线缆的耐电压/电流和耐温性能,信号线缆的频率特性,还有散热器、接插件、模块电源等器件的使用要求进行降额设计。通常,根据降额幅度的大小可分为一、二、三级降额,一级降额((实际承受应力)/(器件额定应力) 50%的降额)
15、在技术设计上最容易实现,降额的效果也最好,但存在成本过高的问题;二级降额(70%左右的降额)在技术设计上也比较容易实现,降额的效果也很好,并且成本适中;三级降额在技术实现上要仔细推敲,必要时要通过系统设计采取一些补偿措施,才能保证降额效果的实现,有一定难度,但三级降额的成本最低。一般说来,建议使用二级降额设计方法,在保证降额设计取得良好效果的同时,技术实现难度和成本都适中。对于涉及到频率特性的器件的降额要谨慎处理。3.3 冗余设计冗余技术也称为容错技术或故障掩盖技术,它是通过增加完成同一功能地并联或备用单元(包括硬件单元或软件单元)数目来提高系统可靠性地一种设计方法。如在电路设计中,对那些容易
16、产生短路故障的单元,以串联形式复制;对那些容易产生开路故障的单元,以并联形式复制。冗余设计并非适用于所有的场合,一般在低层次和关键环节的情况下使用可获得较好的效果。同时,还需注意,某些冗余技术的采用需增加若干故障检测和冗余通道切换装置,它们的失效率在远低于受控部分的失效率时,才能发挥冗余技术的优越性。冗余设计的主要任务是: 1)确定冗余等级; 2)选定冗余类型; 3)确定冗余配置方案; 4)确定冗余管理方案。冗余技术主要包括硬件冗余、软件冗余、信息冗余、时间冗余等。n 硬件冗余硬件冗余是采用增加硬件的方式来实现,当系统发生故障时,将备份的硬件顶替上去,使系统仍然能够正常工作。在电路级、功能单元
17、级、部件级和系统级都可以采用硬件冗余结构。如交换机系统中的处理机系统、时钟系统等就是采用的硬件冗余结构。n 软件冗余实现软件冗余的主要方法有:指令冗余技术、软件陷阱技术和软件看门狗技术等。n 信息冗余对于重要的文件或数据复制一份或多份,并存储于不同的空间,当某一区间或某一备份被破坏后,自动从其它部分重新复制,使文件或数据得以恢复。n 时间冗余重复执行某一操作或某一程序,并将执行结果与前一次的结果进行比较来确认系统工作是否正常。这种方法是以时间为代价换取可靠性,称为时间冗余技术或重复检测技术。在实际应用中可以采用三中取二或五中取三等方式。3.4 电磁兼容设计电磁兼容性是指系统在电磁环境中运行的适
18、应性,即在电磁环境下能保持完成规定功能的能力。电磁兼容性设计的目的是使系统既不受外部电磁干扰的影响,也不对其它电子设备产生电磁干扰。抗电磁干扰的硬件措施主要有滤波技术、去耦电路、屏蔽技术、接地技术等;软件措施主要有数字滤波、软件冗余、程序运行监视及故障自动恢复技术等。3.5 故障自动检测与诊断为了判定系统是否工作正常或某项功能是否正常、及时指出故障部位,缩短维修时间,可以有计划地对系统进行在线测试和诊断,以便及时排除故障,缩小故障带来的影响。3.6 软件可靠性技术为了提高软件的可靠性,应尽量将软件规范化、标准化、模块化,尽可能把复杂的问题化成若干较为简单明确的小任务。把一个大程序分成若干独立的
19、小模块,有助于及时发现设计中的不合理部分,而且检查和测试几个小模块要比检查和测试大程序方便的多。3.7 失效保险技术有些重要的系统,一旦发生故障,希望整个系统处于安全或保险状态。如交换机系统的各功能电路板的电源设计,当某块电路板由于某种原因过流时,希望不影响同一机框内其它电路板的使用,通常在功能电路板内采取过流保护措施,使其电源与机框脱离。3.8 热设计确定产品的运行环境温度指标,确定设备内部及关键元器件的温升限值。一般说来,元器件工作时的温度上升与环境温度没有关系,而民用级别的元器件的允许工作温度大多在7085,为了保证在极限最高环境温度(50左右)下元器件的工作温度还在其允许温度范围内并有
20、相当的冗余度,设备内部及元器件的温升设计指标定在15左右比较合适。在硬件单板设计时,首先应该明确区分易发热器件和温度敏感器件(即随着温度的变化器件容易发生特性漂移、变形、流液、老化等),布PCB板时要对易发热器件采取散热措施,温度敏感器件要与易发热器件和散热器隔开合适的距离,必要时要从系统的角度考虑采取补偿措施。系统或子系统通过自然散热(通风、对流等)措施不能保证设备内部及关键元器件温升限值指标得到保证时,需要采取强迫制冷措施。3.9 EMC设计电磁兼容(EMC)包括电磁干扰(EMI)和电磁敏感度(EMS)两个方面。电磁兼容是指设备或系统在其电磁环境中能正常工作且不对该环境中任何事物构成不能承
21、受的电磁骚扰的能力。要提升这种能力,有许多应用课题要解决,如:电磁波的散射、透射、传输、孔缝耦合,各种干扰源的机理和特性,各种干扰参数的计算和测试,各种结构的屏蔽效果,各种防护方法、测试方法、标准等等。对应设计的方法也有多种,如:防静电设计、防雷设计、防地电位升设计等等;一般从以下方面考虑,以保证产品的EMC特性:1、静电放电的防护。首先要阻止电流直接进入电子线路,最普通的办法就是建立完善的屏蔽结构(必要时在外壳与电路之间增加第二层屏蔽层),屏蔽层接到电路的公共接地点上。对内部的电路来说,如果需要与金属外壳相连时,必须采用单点接地的方式,防止放电电流流过这个电路,造成伤害。2、屏蔽。采用屏蔽的
22、目的有两个:一是限制内部的辐射电磁能越过某一区域;二是防止外来的辐射进入某一区域。主要对电场、电磁场、磁场进行屏蔽(现实对磁场的屏蔽更难)。3、接地。接地的目的一是防电击,一是去除干扰。接地可分为两大类,即安全接地与信号接地。接地时应该注意:接地线愈短愈好、接地面应具有高传导性、切忌双股电缆分开安装、低频宜采用单点接地系统、高频应采用多点接地系统、去除接地环路;4、滤波。实际工作中,无法完全做好接地与屏蔽的工作。因此,会采用滤波(将不需要的信号去除)的方式来弥补不足,主要通过滤波电路来实现。在实际使用中,由于设备所产生的杂讯中共模和差模的成分不一样,所采用的滤波电路也有变化,可适当增加或减少滤
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 硬件 系统 可靠性 设计
限制150内