一、广义可靠性
包含以下三个方面
1、可靠性(Reliability)
- 定义:产品、系统或组件在预定条件下和规定时间内,完成既定功能的能力。
平均故障间隔时间(Mean Time Between Failures, MTBF):
- 定义:在规定的环境和工作条件下,产品或系统在故障之间平均运行时间的期望值
- 失效率:λ=1/MTBF,单位为FITs(=10^-9 1/h)
- 返修率:λ*t (t是时间,以小时h为单位)
- 年返修率:λ*8760
平均故障时间(Mean Time To Failure,MTTF)
- 定义:不可修复或一次性使用的产品(如某些电子元件或一次性使用的设备)在发生故障前平均能够正常运行的时间
2、可维修性(Maintainability)
- 定义:产品、系统或组件在发生故障后,能够被修复到正常工作状态的能力。
平均修复时间(Mean Time To Repair, MTTR):
- 定义:产品或系统在发生故障后,平均需要多少时间来修复并恢复到正常工作状态。
- 故障率:1/MTTR
3、可用性(Availability)
- 定义:产品、系统或组件在任意给定时刻,能够执行既定功能的能力。
- 可用度
- 一般表现形式:0.9999....或几个9。(电信级:5个9)
二、失效模式影响分析FMEA
失效模式影响分析(Failure Mode and Effects Analysis,FMEA)
FMEA 分析:风险管理的重要工具 (mindonmap.com)
如何计算FMEA的风险顺序数(RPN) - jingsupo - 博客园 (cnblogs.com)
第六章失效模式、效应及危害度分析(FMECA)和故障树分析法(FTA) - 百度文库 (baidu.com)
FMEA的风险评估通常包括三个关键因素:严重性(Severity, S)、发生频率(Occurrence, O)和检测难易程度(Detection, D)。这些因素结合在一起,计算出风险优先数(Risk Priority Number, RPN),公式为 RPN = S x O x D。
S(Severity):失效模式的严重性。它是一个0-10的量表,根据失效对人身安全、环境和设备的影响程度来进行评估。
O(Occurrence):失效模式发生的频率。它是一个0-10的量表,根据失效发生的概率来进行评估。
D(Detection):失效模式被检测到的可能性。它是一个0-10的量表,根据失效被发现的可能性来进行评估。
在FMEA中,严酷度通常分为几个等级,例如:
- Class I(灾难性的):可能导致人员死亡、系统毁坏或重大经济损失的故障。
- Class II(严重的):可能导致人员严重伤害、重大任务失败或系统严重损坏的故障。
- Class III(临界的):可能导致人员轻微伤害、任务延误或系统轻度损坏的故障。
- Class IV(轻度的):不会导致人员伤害或系统损坏,但可能需要非计划性的维护或修理
三、故障注入测试FIT
通过故意向系统引入故障的方法,以评估系统的健壮性和错误处理能力。
目的:测试发现问题并修复,提高系统可用性。