产品可靠性设计涉及到很多方面,要全面开展起来有一定困难。但是,如果在设计阶段不采取必要的措施,开发出的产品可靠性合格的概率是很低的,这就是所谓的“预则立,不预则废”,决不是危言耸听。所以,产品的项目负责人及所有研发人员从工作的一开始就应该强化可靠性意识,从力所能及的几个方面贯彻可靠性设计的思想和方法,尽可能提高产品的可靠性。本文详细描写了电子通信产品的硬件可靠性设计的要点和方法,生动地阐述设计评审的意义,希望能给项目负责人及广大硬件研发人员有所帮助。
1、可靠性需求分析和指标体系的建立
产品的可靠性需求分析,分定量和定性两个方面。单板及系统的平均故障间
隔时间MTBF(或平均致命故障间隔时间MTBCF)、可用度、环境条件、温升控制、电磁兼容指标等可以定量地给予明确规定。保障性、维修性、可生产性、不允许发生事件等方面要定量规定有些困难,但是也应该做一些定性的规划。在研制规范中有一个章节叫“不允许发生的事件”,我在审核文件中发现,这部分的规定都很马虎,往往只对显而易见的一些事件进行了非常轻描淡写的“不允许发生”的规划,并没有对各种潜在的约束条件可能导致产品发生的故障进行约束,所以,我们经常发生这样的情况:测试规程、测试用例的设计不能覆盖产品的方方面面,待产品量产或投入市场运行后故障百出却悔恨当初规划或测试不到位。
需要说明的是,MTBF或MTBCF的指标及其分配要尽可能合理一些,要想一想,我们确定的指标是否可以实现,是否有市场竞争优势。王锡吉教授的《一种新的可靠性指标预计方法与应用》介绍了适用于整机系统可靠性指标预计的方法RZTEA和硬件单板的可靠性指标预计方法RZTEB,十分适用于我们产品的可靠性指标预计。何国伟教授的《RMST的系统分析》给我们由单板可靠性指标推算系统的可靠性、可用度指标的方法,建议大家认真阅读、学习上述文章,以便在产品可靠性指标的确定、分配、预计工作中得到帮助。
2、降额设计
所谓降额,就是要使元器件在设备中实际使用时可能承受的应力小于其额定
应力。不同的元器件所要考虑的应力因素是不一样的,有的是电压,有的是电流,有的是温度,有的是频率,有的是振动,等等。对电容的耐压及频率特性,电阻的功率,电感的电流及频率特性,二极管、三极管、可控硅、运放、驱动器、门电路等器件的结电流、结温或扇出系数,电源的开关和主供电源线缆的耐电压/电流和耐温性能,信号线缆的频率特性,还有散热器、接插件、模块电源等器件的使用要求进行降额设计。
通常,根据降额幅度的大小可分为一、二、三级降额,一级降额((实际承受应力):(器件额定应力) < 50%的降额)在技术设计上最容易实现,降额的效果也最好,但存在成本过高的问题;二级降额(70%左右的降额)在技术设计上也比较容易实现,降额的效果也很好,并且成本适中;三级降额在技术实现上要仔细推敲,必要时要通过系统设计采取一些补偿措施,才能保证降额效果的实现,所以说有一定难度,但三级降额的成本最低。一般说来,我们建议使用二级降额设计方法,在保证降额设计取得良好的效果的同时,技术实现难度和成本都适中。对于涉及到频率特性的器件的降额要谨慎处理。
3、热设计
确定产品的运行环境温度指标,确定设备内部及关键元器件的温升限值。一般说来,元器件工作时的温度上升与环境温度没有关系,而民用级别的元器件的允许工作温度大多在70~85℃,为了保证在极限最高环境温度(50℃左右)下元器件的工作温度还在其允许温度范围内并有相当的冗余度,设备内部及元器件的温升设计指标定在15℃左右比较合适。在硬件单板设计时,首先应该明确区分易发热器件和温度敏感器件(即随着温度的变化器件容易发生特性漂移、变形、流液、老化等),布PCB板时要对易发热器件采取散热措施,温度敏感器件要与易发热器件和散热器隔开合适的距离,必要时要从系统的角度考虑采取补偿措施。系统或子系统通过自然散热(通风、对流等)措施不能保证设备内部及关键元器件温升限值指标得到保证时,需要采取强迫制冷措施。注意,对整机系统,强迫制冷措施要尽可能在高发热部位附近实施,要尽量避免使用把热空气送到本来发热不大的部位的散热路线。
散热设计究竟怎样才算合适?我们可以通过一些仿真工具进行初步的设计(美国Ansys公司的热分析和仿真软件和FLOTHERM软件得到了普遍的使用),拿出一个方案,然后,通过“设计—仿真—修改设计一再仿真——测试验证—设计修正—再测试”的工程方法来实现。不同的设备,其运行的环境温度极限值指标是不尽相同的。对于大多数用于电信中心的通信设备来说,可以参照交换机的总技术规范书。为了充分保证产品整机系统的可靠性,一般说来,要求系统在规定的运行高温条件下至少连续72小时运行功能正常实现且性能指标没有任何程度的下降,在规定的运行低温条件下至少连续72小时运行不会引起功能的丧失和性能指标的下降。
这里需要提醒的一点是,整机散热设计,往往要开辟一些通风孔、通风槽,要使用一些易散热材料,与电磁屏蔽设计会存在一些矛盾,而一般说来,电磁屏蔽的设计难度要大于散热设计,所以,在进行整机散热设计时一定要处理好与电磁兼容设计之间的关系。也就是说,什么位置开通风孔/通风槽、如何确定孔的面积/数量、槽的材料,如何处理缝隙等都需要仔细推敲。好在电信中心使用的通信设备在电磁兼容方面的要求只等同于通用标准CISPR22中规定的CLASS A的要求,加之现在的大多数PCB板都采用多层布线方式,在PCB一级电磁辐射水平大大降低而抗辐射能力又大大提高,从而使整机的电磁屏蔽设计的难度也大大降低,所以说,我们要处理好散热设计和电磁兼容设计的关系不是很困难的。
4、电气兼容性设计(或信号完整性设计)
电气兼容性是指设备内部组件之间以及设备与设备之间有相互连接关系的信
号的电气特性,如信号的电平阈值误差、信号脉冲的宽度、信号脉冲的上升沿和下降沿的陡度及过冲与下冲、信号的延时和抖动、模拟信号的失真度、光收发器件的发送功率和接受灵敏度及误码率、无线发射信号的功率及无线接收设备的接收灵敏度等,在一定的误差范围内能够“互相容忍”,保证功能的正常实现。建议对以下几方面给予关注:
各功能单板对电源的电压波动范围、纹波、噪声、负载调整率等方面的要求予以明确,二次电源经传输到达功能单板时要满足上述要求。
选用专用器件时要检查其电气性能指标是否符合相关标准的要求。
对高速、高频电路,信号之间的串扰问题。
在研发阶段的调试、电源拉偏试验、高低温试验中,要注意检查信号经传输后到达“对方”该信号的接收端时是否符合“对方”设备对输入信号的各方面电气指标要求,即信号经过传输后电气性能发生的变化是否在“对方”设备接受信号的容差范围内,以排除影响电气性能长期稳定性的不良因素。
有条件时进行时钟拉偏、抖动注入等试验,验证设备的容差能力。
上述几点很重要。我们经常在调试或可靠性试验中忽略这些,往往是在调试
和试验的过程中只观察功能而不去检查信号的质量,对信号已经发生偏差甚至到了“边缘”状态并不清楚,所以就不可能去采取纠偏措施,等设备投入量产、运行后,经常碰到原因不明不白的故障,只能通过反复换板的办法来解决,而换板以后时间一长就旧病复发。
5、电磁兼容设计
对电工、电子产品来说,电磁兼容包括整机系统与外部环境之间的兼容和设
备内部部件与部件、分系统与分系统之间的兼容。电磁兼容的问题要在开发工作的前期就给予高度重视,这是因为:1、电磁兼容问题首先是质量问题。国外早就发现,进入数字化时代之后,很多电子设备经常发生让人摸不着头脑的质量问题就是因为数字化电子设备更容易受各种电磁骚扰(尤其是静电放电、电脉冲群、雷电感应等各种脉冲骚扰)的影响而造成的;我们公司可靠性部在近两年解决一些老大难问题之后也证实,我们设备的故障率及单板返修率居高不下的主要原因之一就是我们的产品EMC设计不充分。2、电工电子产品、信息技术设备的电磁兼容(及电安全性)都有具体的标准或通用标准,在国内市场(尤其军用设备)已经对这一问题越来越重视,信息产业部早在九七年就计划对电信产品(包括已经在网上运行的设备)实施电磁兼容强检强测制度,只是由于测试条件一直不成熟而未能执行。现在信息产业部通信计量中心的电磁兼容测试中心已经建成并投入使用,国标《电信网络设备的电磁兼容性要求》也已经由通信计量中心、中兴、华为三家起草完成,今年底将上报有关部门审批,随后就会执行上述制度。在国际贸易中,电磁兼容几乎已成为发达国家对其他技术相对落后的国家设立的技术壁垒。随着欧盟的89/336 EEC指令于1996年1月1日生效(注:该指令在今年春天进行了修改),美、日、澳等国家和地区的政府都颁布了相应的指令,严禁电磁兼容性不符合它们的标准的产品进入这些国家和地区的市场或在其范围内生产,所以说,电磁兼容性(及安全性)合格标志是出口产品的“护照”。我公司在电信设备出口方面已经走在同行的前面,公司的目标是在几年内国际业务达到50%的分额,所以,我们的电磁兼容工作更加要抓紧开展,决不能因这方面的工作不到位而影响国际市场的开拓。3、电磁兼容的问题如果在产品研发的早期阶段不充分考虑、不精心设计,一旦产品成型后,其达标的概率非常小,而且解决问题所面临的困难、需要花费的人力和代价将会非常大。上述几点必须首先得到中高层领导的认识和理解,否则电磁兼容工作几乎推动不下去。
电磁兼容设计涉及到电路板、结构、电缆、设备的供电系统和接地体系等各个方面,非常复杂,乍看起来似乎摸不着边际,其实,通过合理的工作方法和在设计中遵循电磁兼容设计的一些基本准则,还是可以受到事半功倍的效果的。
下面具体谈谈产品电磁兼容设计的工作内容。
在产品(包括单板)的规格说明中明确规定所设计的产品必须达到的电磁兼容要求,在产品(包括单板)的调试方案、测试方案中拟定电磁兼容的测试项目。
避免使用静电敏感器件,选用器件的静电敏感度一般不低于2000V,否则要仔细推敲、设计抗静电的方法;在结构方面,要实现良好的地气连接及采取必要的绝缘或屏蔽措施,提高整机的抗静电能力。
CMOS电路要采取抗闩锁设计。
CMOS器件中闲置不用的管脚避免悬空,要视器件的特征把闲置不用的管脚接到电源端或地端。
各功能单板电源引进处要采用合适的滤波电路,尽可能同时滤除差模噪声和共模噪声,噪声泄放地与工作地特别是信号地要分开,可考虑使用保护地;集成电路的电源输入端要布置去耦电容,以提高抗干扰能力。
散热器要与单板内电源地或屏蔽地或保护地连接(优先连接屏蔽地或保护地),以降低辐射干扰。
一般说来各级电源的输入、输出端都要使用合适的滤波电路。
机架、机框是否需要做屏蔽设计?如果做屏蔽设计,要分析电磁场的特性,确定使用什么屏蔽材料,确定开孔的大小及数量,确定搭接方式及搭接材料。
明确各单板最高工作频率,对工作频率在160MHz(或200 MHz)以上的器件或部件采取必要的屏蔽措施,以降低其辐射干扰水平和提高抗辐射干扰的能力。
使用屏蔽电缆的地方要把电缆的屏蔽层真正利用起来(与地或屏蔽壳体可靠连接),并通过实验确定正确的、行之有效的连接方式。
对复杂且工作频率很高或高频噪声分量较大的系统,或者对内部兼容性要求高的系统,层、框之间采用金属丝网或金属箱体进行屏蔽。
一般功能单板的电磁干扰发射和传导干扰发射严格达到A类ITE产品的要求,工控机、二次电源等尽可能达到B类ITE产品的要求。
整机结构上要在合适位置设计布置静电泄放插口并予以警示。
整机保护地连接处不涂绝缘漆,要保证与保护地电缆可靠的金属接触,避免仅仅依靠螺丝螺纹做接地连接的错误方式。
PCB板布置要遵循有关准则。
6、抗振动设计
在电路单板上对体积较大、重量大于14克的立式布置器件采取加固措施。
对尺寸较大的单板和因板上元器件高度原因而需要占用两个以上槽位,并且板重量较大的单板采用纵、横硬质金属条进行加固(也可采取其它合适的方式),以防翘变。
单板插进机框后要有锁定措施。
整机的门、抽屉要有锁定措施,要保证在任何倾斜度时不会自开(虽然这不是设备运行状态的要求,但我们的产品现在整机运输,必须达到这个要求)。
所有采用螺钉连接的地方要使用弹垫或花垫,以对振动和冲击进行缓冲。
接插件连接处必要时采取固定措施(使用带锁扣的接插件)以防接触不良或松动。
7、生产性、测试性和维修性设计
可生产性必须得到开发人员的高度重视,我们是搞产品,不是做实验,对于
那些不考虑可生产性或可生产性很差的开发应当适时纠正,必要时对相关责任人教育、培训。
一般说来,生产性至少有如下几点需要考虑:
a、该产品所用到的(关键)元器件在批量生产时能否保证采购到,能否找到替代品而不致于让供应商卡勃子。所以,我们要认真制定“核心器件选用大纲”并经过三结合的严格审查。
b、公司的生产手段、工艺水平、工人的技术水平、测试设备等方面的现时状况或经过适当的调整、改进、培训、外协能否满足该产品的生产需要。
c、对于实现功能或性能指标使用到的硬件调节部分要尽可能避免灵敏度过高的设计,并在调试工艺文件中对调试方法和调试后达到的状态予以明确。
任何组装级别的硬件都要采取测试性设计和维修性设计。
单板(包括背板)要安排合适的测试点,其中电源电压、时钟信号、关键的逻辑和控制信号的测试点是必不可少的,测试点的位置要醒目、有标注、方便于运行状态下的测试连接。要尽可能把元器件提供的JTAG或其它先进的在线测试手段利用起来。
最大限度地利用元器件原有的测试性设计来实现单板、子系统、系统的BIT(机内测试)功能,要提供与专用测试设备的接口。
对备份件的状态要能够进行测试并通过适当方式(比如:在操作维护终端)予以显示。
一般说来在任何组装级别上,存在不同电压的电源时,要在显著位置对电压值予以标注。
各子系统、模块的供电连接要相互独立,以免在维修一个子系统或模块时切断其他子系统或模块的电源,保证在不中断正常运行条件下维护作业的实现。
强迫制冷设备(风扇、空调、冷却水管道等)的电源供电线路与设备的主供电线路严格分开,在结构安装方面做到便于维修、保养、更换等工作的开展。
整机系统内尽量做到同一电压的电源布线颜色一致(线径根据通过的电流来确定),电源地使用黑色导线,保护地使用黄绿双色导线。
单板设计要考虑提供与生产测试设备的接口,对生产测试设备有特殊要求,或者需要重新购置或开发生产测试设备时,最好尽早说明。
分析、预计可能的故障和故障模式(即FMEA工作),修改包含引起故障扩散的故障模式的设计。
尽可能在设计说明书中描述故障分析和排除方法,为有关随机资料的编写做初步准备。
