可靠性技术在星载计算机设计中的应用
结合星载计算机的开发,从FMECA、抗辐照设计、ESD防护、结构力学设计与分析、热设计与分析、可靠性预计等方面阐述了星载计算机设计过程中的可靠性设计与分析方法。
关键词: 星载计算机;可靠性; FMECA; ESD; 抗辐照; 可靠性预计; 热分析; 力学分析
作为工控计算机的一个成员,星载计算机是航天器重要系统的核心部件,特别是控制系统的控制计算机是航天器中十分重要的部件,其可靠性直接决定了控制系统乃至整个航天器的成败。
与其他领域工业控制计算机的区别在于,星载计算机在空间飞行,承受恶劣的空间辐照环境而且不可维修,因此,要求星载计算机在规定的时间内必须具有高可靠性:出现单故障不影响任务的执行,出现双故障情况下不应该对飞行器和航天员造成危险。而且星载计算机必须具有很高的故障检查覆盖率,并且能够快速实现故障的自动检测、隔离和恢复(FDIR)。
本文以某星载计算机的可靠性设计为背景,介绍了可靠性设计与分析技术在星载计算机设计中的应用,特别是FMECA分析技术、抗辐照设计技术和结构力学分析与设计技术、ESD防护技术。
1 星载计算机的组成与功能
星载计算机的主要功能是负责采集互联部件的状态和信息,根据设定的算法进行互联部件的控制,确保特定功能的可靠实现。星载计算机属于典型的嵌入式计算机,一般采用冗余备份设计以提高可靠性。图1描述了一台典型的的星载计算机的组成。该星载计算机采用双机冷备份容错结构,由OBCA、OBCB、FT板、PDUA、PDUB、总线背板和机箱组成,其中, PDUA中各功能板和PDUB中对应功能板完全一致,负责星载计算机内部电源的分配、切换。OBCA和OBCB是完全相同的两个单机,每个单机包括以高可靠性处理器为核心的嵌入式计算机系统。FT模块为星载计算机的核心单元,负责故障的检测、单机切换、当班仲裁等容错功能的实现。
星载计算机属于关键项目产品,对任务成败至关重要。可靠性工作贯穿方案设计、详细设计、生产、试验等各个环节。
在星载计算机的设计过程中,需要开展FMECA、抗辐照设计、ESD防护、EMC设计、结构力学、热设计与分析以及可靠性预计等工作。在试验阶段需要完成各种环境试验,包括应力筛选、力学振动和冲击、热真空和真空放电、热循环和高低温老炼、热平衡试验以及EMC试验。只有通过上述试验的星载计算机,才能参与飞行任务。
本文主要从FMECA、抗辐照设计、结构力学、热设计与分析以及可靠性预计等方面介绍星载计算机的可靠性设计与分析工作。
2 FMECA
故障模式、影响及危害性分析FMECA(Failure Mode,Effects and Criticality Analysis)是在工程实践中总结出来的,以故障模式为基础,以故障影响或后果为中心,根据分析层次,并通过因果关系推理、归纳进行的分析活动。
FMECA通过逐一分析星载计算机各组成部分的故障对系统整体工作的影响,可以得到产品的I、II类故障清单,单点失效清单以及可靠性关键项目清单,从而识别出设计中的薄弱环节和关键项目,并为评价星载计算机及其各组成部分设计的可靠性提供参考和依据。同时,适时地、有效地应用FMECA技术,还能够为预防和控制故障、改进产品设计和生产工艺、降低研制风险提供有价值的信息。实施FMECA 的步骤如图2所示。
FMECA是一个反复循环迭代的过程,其原理应作为设计人员的基本思维方式,贯穿整个设计过程。FMECA的结果应随研制工作的进展加以更新。FMECA还特别强调“事前预防”,即尽可能在产品设计确定之前实施分析和改进,以最大限度地降低故障危害。
FMECA包括故障模式及影响分析(FMEA)和危害性分析(CA)两部分内容。FMEA的基本分析方法包括硬件分析法和功能分析法。硬件分析法是目前星载计算机研制中实施FMEA的主要分析方法。该方法列出每个独立的硬件产品,分析每个硬件可能的故障模式及其影响,一般是以自下而上的方式进行,分析从最低层次产品开始,逐级向上。CA是FMEA的扩展和继续,因此,它要求在FMEA结果的基础上进行。CA的内容是根据每一个故障模式所造成后果的严酷度类别及故障模式的发生可能性,对其进行综合度量并排序。
3 抗辐射设计与分析
空间辐射是造成航天器电子设备异常或故障的重要原因,国内外对航天故障的统计显示:40%左右的故障源自太空辐射[1]。空间辐射对星载计算机影响较大的辐射效应主要有:总剂量效应、单粒子效应和高能电子的内带电效应。
3.1 总剂量效应防护
总剂量效应一般指“电离总剂量效应”,即空间带带电粒子入射到吸收体后,产生电离作用,吸收体通过原子电离而吸收入射粒子能量,从而使对电子元器件及材料产生总剂量损伤。目前在星载计算机设计过程中采取的措施包括:
(1) 电子元器件选用。在条件允许的情况下,尽量选用自身耐辐射总剂量能力高于其使用位置的辐射剂量分析值的元器件,这是提高产品抗总剂量能力的首选方法,可以从根本上提升产品的抗辐射电离总剂量能力。
(2) 总剂量局部屏蔽防护。根据辐射屏蔽防护的原理,可针对产品的辐射敏感区域或元器件,在局部采用具有一定质量面密度的屏蔽材料(如钽等),使该敏感区域内的辐射总剂量得到一定程度衰减。
(3) 多机冷备份交替工作。研究表明,电子元器件在加电偏置与不加电偏置的状态下,受辐射损伤的程度不同,有的元器件在加电偏置状态更易受损伤,而有的元器件则相反。根据这种现象,在产品设计时可以采用多机冷备份,使其交替工作,每个单机工作的时间应小于其受辐射剂量而失效的时间。这样就能保证任何一台单机都不会工作在最易受辐射损伤的状态,从而延长产品在空间辐射环境下的使用寿命。
(4) 系统容差设计。电子元器件遭受电离总剂量损伤时,往往最先表现为某些性能参数的漂移。而系统往往在某些元器件参数漂移达到一定程度时才发生故障。因此,在系统设计时,采用良好的容差设计,就能够使系统在遭受较大总剂量辐射,某些元器件已经开始出现参数漂移的情况下,仍然能够正常工作,最大程度地挖掘系统的抗总剂量辐射的潜力。
(5) 空间辐射剂量分析。在星载计算机产品设计过程中,要保证产品能够耐受轨道空间辐射剂量,首先应对产品在寿命期内所受的辐射剂量进行分析和估算,以确定该产品抗总剂量效应设计的目标,避免设计不足和过设计。
3.2 单粒子效应防护设计
单粒子效应是单个高能质子或重离子入射到电子器件上所引发的辐射效应,根据效应机理的不同,分为单粒子翻转(SEU)、单粒子锁定(SEL)、单粒子烧毁(SEB)、单粒子栅击穿(SEGR)等多种类型,其中影响星载计算机的效应主要是单粒子翻转和单粒子锁定。星载计算机主要从以下几个方面进行防护设计:
(1) 电子元器件选用。选用具有抗单粒子效应能力的加固器件,可以从根本上大幅度提高航天器电子系统的单粒子效应防护能力。
(2) 存储器单粒子翻转防护。星载计算机存储器的抗单粒子翻转设计应遵循以下原则:重要程序和数据以及不再更改的程序放在ROM存储器中;采用EDAC(Error Detected And Corrected)技术对重要数据存储器进行SEU防护;采用三重冗余存储及表决系统对存储的数据进行保护。
(3) 控制器件单粒子翻转防护:采用多级冗余和容错系统;采用看门狗电路(WDT);软件自诊断程序;程序卷回;程序模块间隔离;建立健康和安全模式;地面遥控注入。
(4) 单粒子锁定(SEL)防护设计:采用CMOS/SOS或CMOS/SOI器件,其工艺特性保证不会发生单粒子锁定效应;电源端限流,抑制锁定发生或减轻锁定造成的危害;定时监视,可解决单粒子引起的微锁定问题;多机系统单独供电,以避免锁定危害扩大;遥控断电能力,通过断电来解除锁定。
3.3 高能电子的内带电效应防护设计
空间高通量高能电子(主要是能量大于1 MeV的电子)穿透航天器的蒙皮、结构及设备外壳,在航天器内部的电路板、导线绝缘层等深层绝缘介质中堆积电荷,造成介质深层带电,即所谓的内带电效应。只需严格遵循一定的防护原则,内带电效应的防护就能获得满意的效果。采取的措施包括:
(1) 采用足够厚度的屏蔽,阻挡引发内带电的高能电子,以减少内带电效应的发生。
(2) 所有航天器结构必须接地良好,尤其绝缘性能较好的部件。
(3) 所有电路板应设置与航天器结构相连的接地路径,以提供良好的电荷泄放路径。
(4) 在航天器上限制使用绝缘性能良好的介质材料,尤其不要大面积使用。
(5) 介质材料须具备一定的导电性,以增加累计电荷的泄放能力,当介质材料的电阻率小于1012 Ω.cm时,可有效防止内带电效应发生。
4 结构力学分析
从航天器发射到入轨之间的这段时间内,星载计算机要承受很大的振动和冲击,因此,在结构设计方面对星载计算机提出了更高的要求。
为了对星载计算机的机箱结构设计进行初步的分析和评价,以产品的鉴定级试验条件作为输入参数,使用有限元分析软件ANSYS对星载计算机整机级和印制板组件级进行结构静力和动力分析,得到印制板组件的基频、整机的基频以及整机和印制板组件的静动力的应力和应变响应情况,进而对结构和电路板进行了安全裕度计算和分析结果评价,根据其评价结果对设计进行优化。
有限元分析法就是将连续的结构离散化,把结构划分成有限个单元体,将相邻单元在单元体的节点处连接起来形成一个与原来结构构形相同的有限单元组成的网络结构。利用单元的力学性能和质量特性参数,求得结构的刚度矩阵和质量矩阵。在给定的整体边界条件下输入结构载荷,用迭代计算求解结构力学方程,即可求得所需的分析数据,如结构的前m阶固有频率、节点的响应加速度、单元的应力等。针对星载计算机设备结构设计而言,用有限元法分析技术主要进行如下分析工作:
(1) 静力分析。在飞行过载条件下,分析设备结构的应力和变形,以对产品结构进行强度校核。
(2) 模态分析。分析机箱与电路板组件的模态频率和振型,为合理设计电路板组件和机箱的结构、尺寸和边界的支撑连接提供依据。
(3) 动力分析。在规定的外力载荷或试验的环境载荷条件下,分析机箱与电路板组件的各关心部位的响应情况,为合理设计机箱和电路板组件的结构、尺寸、边界的支撑连接和调整元器件布局提供依据。图3和图4描述了不同工况下的力学分析云图。
5 热设计与分析
电子产品的热设计是指在给定的边界条件下,通过调节元器件散热路径和热阻,或采用冷却、加热或恒温控制等措施,将元器件工作时产生的废热传给机箱壳体或周围环境,保证电子产品及其元器件能够正常工作的设计技术。
航天电子产品与普通电子产品热设计的主要区别就在于航天电子产品绝大多数都工作在真空环境下,因此基本不存在空气对流散热的热传导路径。根据航天电子产品的工作环境及特点,其热设计应遵循以下基本原则:
(1) 元器件选择。应优先选择耐温范围宽的元器件、功耗低和热阻较低的元器件。
(2) 元器件布局。元器件的布局应力求热功耗分布均衡,避免局部区域热功耗过于集中;热功耗大的元器件,应与机箱壳体有良好的散热路径。
(3) 元器件安装。增大元器件与印制板的接触面积,降低接触表面的粗糙度,增大接触压力,在接触界面间填充导热填料是减小安装面接触热阻的有效途径;为减小传导热阻,热功耗大的元器件也可借助于导热条、导热板或导热管散热。
为验证热设计的有效性,尽早找出热设计中的薄弱之处,一般在产品设计初期应对产品进行热分析:根据热设计输入条件,利用Flotherm软件建立印制板和电子产品整机的热分析模型,计算电子元器件的温度,检查元器件的结温(或壳温)是否低于允许的值。必要时,对产品进行热平衡试验,验证并修改整机的热分析模型。图5和图6分别描述了某星载计算机整机和某单板温度云图。
6 可靠性预计
可靠性预计是定量地估算设备或系统设计是否满足规定的可靠性要求的过程。预计结果可给出影响可靠性的因素,为设计决策提供产品可靠性的相对度量,作为决策依据之一。在研制阶段的早期进行可靠性预计是最有用、最经济的。可靠性预计是产品设计的一部分。
可靠性预计步骤流程图如图7所示。可靠性预计的主要目的是对系统、分系统及设备的可靠性进行预测,以确定设计是否能满足规定的可靠性要求,是否需要对设计进行适当的修改。可靠性预计是从可靠性角度出发,对不同的设计方案进行比较,为设计决策提供依据;发现设计中的薄弱环节,为设计改进或生产过程控制以及可靠性试验方案设计提供依据。可靠性预计步骤如下:
(1) 根据系统组成及功能,建立系统可靠性模型,确定任务阶段应力和环境因素。
(2) 元器件清单:系统各设备、功能模块所包含的元器件类型、数量、质量等。
(3) 元器件热分析及应力分析:得到可靠性预计元器件应力分析法所需要的温度、电应力等信息。
(4) 根据元器件失效率手册收集可靠性预计用数据源:如采用美军标MIL-HDBK-217F 收集元器件失效率预计有关的数据。
(5) 元器件失效率预计:根据相关标准规范(如美军标MIL-HDBK-217F)进行预计,或根据实际经验和试验数据确定。
(6) 按可靠性模型预计系统可靠性:根据任务时间、环境因子等逐级进行预计,直至系统。
(7) 检验与系统要求的一致性:预计结果满足要求,则预计结束;否则,指出可靠性薄弱环节,提出设计改进建议,待设计改进完成后再重新进行可靠性预计,直至满足任务要求。
以某型号的双机冷备份星载计算机为例,其可靠性预计采用“元器件应力分析预计法”,其元器件失效率计算依据是《电子设备可靠性预计手册——美军标MIL-HDBK -217F》,采用了Relex Reliability Software V7.6进行计算。图8是某星载计算机的可靠性模型。按照工作寿命2年进行计算,计算结果如图9所示,可靠度R=0.994 749,满足星载计算机可靠性指标要求。
本文介绍了星载计算机设计过程中采用的可靠性设计和分析方法,通过这些方法提高了星载计算机的可靠性,确保了星载计算机在轨飞行的可靠与安全。这些方法不仅适合星载计算机的设计与分析,对其他工业领域的工业控制计算机的可靠性设计也具有借鉴意义。
参考文献
[1] BEDINGFIELD K, LEACJ R, ALEXANDER M. Spacecraft system failures and anomalies attributed to the natural space environment. NASA Reference Publication-1390, August, 1996.
[2] 航天器电子产品可靠性设计.航天科技集团五院科研质量部.
[3] Design guidelines for assessing and controlling spacecraft charging effects. NASA Technical Paper, 2361.
[4] GJB 1649-93. 电子产品防静电放电控制大纲,1993.
[5] 卫星可靠性设计指南.中华人民共和国航天行业标准QJ2172A, 2005.
1