在之前文章中,有一个参数“平均无故障时间”,对应的参数是MTBF,比如这个盘MTBF=150万小时。
小编发现有一些朋友对这个参数还有误解。大家看到这个参数误认为盘可以使用150万小时都没有发生故障。如果真的是这样,那么这盘的质量简直是逆天了!可以作为传家宝了。
MTBF是电子产品可靠性的一种基本参数,在规定的条件下和规定的时间内,产品的寿命单位总数与故障总次数之比。它通常用于评估产品的可靠性水平
MTBF的原理基于概率统计的基础,它假设产品的故障符合指数分布,即故障率是恒定的。当产品发生故障时,MTBF可以计算出故障发生的概率,即失效率。MTBF的失效率是指单位时间内发生故障的概率,即每小时的故障率。
另外,补充下,上面MTBF=150万小时是消费级SSD的,企业级SSD要求的可靠性更多,要求MTBF=200万小时。
实际上,MTBF的计算大多数情况下是推算的,并不是实际测试的。MTBF是通过将样本总体观察总时间除以故障数量来获得的。如果假设有1000个盘每个运行1000小时,其中有五个故障(1000×1000/5),则MTBF=20万小时。
评估MTBF时,通常在电子产品“浴盆曲线”中的平稳期。
浴盆曲线是半导体产品可靠性质量知识分享中常用的一个术语,尽管特定的半导体产品的实际故障率曲线差异很大,但该曲线仍然具有一定的参考意义。
该曲线以使用时间为横坐标,以失效率为纵坐标。由于该曲线两头高,中间低,类似于浴盆的形状,因此被称为“浴盆曲线”。
浴盆曲线可以分为三个阶段:
- 早期故障期:这一阶段处于曲线的第一阶段,也是早期失效率高的时期。在这个阶段,产品刚刚投入使用,失效率相对较低,但会随着时间的推移而逐渐升高。这个阶段的特点是失效率上升速度较慢,且相对稳定,往往可以将其近似看作常数。在电子行业的产品可靠性指标中,这一阶段所描述的是产品在早期使用时的故障率逐渐升高的过程。
- 故障平稳期:这个阶段的产品已经过了早期故障期,进入了一个相对稳定的阶段。在这个阶段中,产品的失效率会保持在一个相对较低的水平上,而且波动较小。这表明产品的可靠性在这个阶段得到了提高,而且产品的失效率通常可以被认为是一个随机事件。
- 严重故障期:随着产品使用时间的延长,会进入一个严重故障期。在这个阶段中,产品的失效率会急剧升高,故障率也开始呈现出明显的阶段性。这表明产品开始逐渐失去原有的功能,进入了一个失效加速的时期。
在计算MTBF过程,还有两个参数MTTF,MTTR,他们之间的关系是:MTBF = MTTF + MTTR,具体示意图如下:
平均故障间隔时间(MTTF):表示两次系统故障之间的平均时间。它是正常系统运行开始和故障发生之间的所有时间段的总和除以故障次数N。MTTF=(∑ T1)/N
平均维修间隔时间(MTTR):表示系统故障与维护结束之间的平均时间。MTTR=(∑(T2+T3))/N
平均故障间隔时间(MTBF):表示两次系统故障(包括错误维护)之间的平均时间。MTBF=(∑(T2+T3+T1))/N
因为MTTR通常比MTTF小得多,所以MTBF近似等于MTTF。
MTTF的计算可以通过一个方程获取:
Ai是SSD的加速因子,ti表示SSD测试时间,nF表示故障SSD的数量,a是置信限(60%),X2平方是一个卡方分布
Ai加速因子通常有写入量加速因子和温度加速因子组成。
写入量加速因子Ai(TBW or DWPD)。 假设1TB的盘,DWPD=1,也就是一天写1TB数据。如果你1天写10TB数据,那么写入量的加速因子就是10.
温度加速因子Ai(Temp), 参考经典公式即可。
贴个例子:假设400样品,测试1008小时,加速因子10,算出来MTBF=MTTF=440万小时
此外,MTBF与另外一个参数AFR可以互相推算。
AFR(Annual Failure Rate,年度故障率)是指一年内设备损坏的概率。它的计算公式为:AFR=总故障次数/总工作时间×100%。
将MTBF和AFR的计算公式结合起来,可以得到它们之间的换算关系:
- AFR=总故障次数/总工作时间×100%=故障次数/MTBF×100%
- MTBF=总工作时间/故障次数=总工作时间/(总工作时间×AFR)=1/AFR
例如,如果一块硬盘的MTBF为200万小时,则它的AFR为:AFR=1/(200万小时÷24÷365)≈0.44%,表示每100块硬盘中平均每年损坏0.44块。