在9月份,我们更新了Backblaze 2022上半年的中期质量报告解读(Backblaze2022中期SSD故障质量报告解读),基于报告中的分析数据,Backblaze也向外界传递作证了一个信息:固态硬盘SSD的长期可靠性比机械硬盘HDD要高。
随着Q3质量报告的发布,我们继续解读质量报告,重点关注Q3质量的表现,故障率是否出现较大的波动。
截至2022 Q3季度末,Backblaze监控的硬盘数量超过22万片,其中4.2K是系统启动盘,包括2.7Kpcs SSD和1.4Kpcs HDD。总量22万pcs硬盘分为29个型号model。上个季度Q2的型号是27个,Q3新增2个型号:Seagate 8TB型号:ST8000NM000A和Seagate 16TB 型号: ST16000NM002J。涉及的29个型号,来自3个厂商:主要分布:
-
HGST+WDC西数:HGST,7个型号;WDC,3个型号
-
Seagate希捷:13个型号
-
Toshiba东芝:6个型号
东芝和WD西数的型号是从2020年开始逐年增加。目前还是希捷盘的数量最多。
下图是Backblaze从2022/7/1到2022/9/30之间的第三季度Q3故障率数据表现。从Q3季度的29个型号的质量数据中,我们可以发现几点信息:
-
第三季度Q3有三个型号的盘故障率为0:分别是HUH728080ALE604、ST8000NM000A、WUH721816ALE6L0。其中只有WUH721816ALE6L0达到了AFR评估的标准“为了故障率AFR数据更加合理,盘的数量尽量会超过100pcs,故障率评估集群中盘运行时间也要超过10000 盘*天”
-
有另外三个型号上电时间最长,希捷的一款4T和6T,和东芝的一块4T盘,故障率已经逐步攀升,看到了随着运行时间增长发生老化的迹象。其中,东芝8.25%的高AFR也跟数量只有95个有关,即使故障2个,故障率也飙升了。对这3块盘来说,经过七年左右的持续旋转,他们的主轴、驱动器、磁头、碟片介质等出现开始磨损和老化问题。
-
2022年第三季度整体AFR为1.64%,比2022年的Q2 AFR=1.46%要高,同时比2021年Q3 AFR=1.1%也增长不少。这里面主要可能第二点说的长时间运行导致的老化有关,Blackblaze表示后续会更换新盘,预计后续的AFR故障率也会出现下降。
基于硬盘故障率和硬盘成本,Backblaze还抛出一个问题:“在故障率表现和购买成本之间,哪种情况,终身使用累计成本最高?”
-
上图中,有3个型号的14TB HDD,分别为Model 1、Model 2、Model 3.
-
终身累计成本:除了最初购买的盘的成本,后续故障后更换故障盘的成本(这里面盘本身成本可能由于存在质保期内的RMA而是0,还包括维修更换的成本)。
-
三个型号的购买成本分别是225美元、250美元、275美元,每个型号购买5000pcs。
-
三个型号的根据故障率表现,每年维修更换的数量75、50、25,对应每年维修人力成本分别是22500美元、15000美元、7500美元。后续服役时间5年。
-
在三个型号当前故障率表现AFR分别1.5%、1%、0.5%的情况下,终身累计成本分别是123万美元、132万美元、141万美元。Model 3的终身累计成本最高。
-
根据上面的计算模型,我们也会发现,当Model 1 AFR=2.67% 时,Model 1和Model 2会有相同终身累计成本132万美元。当Model 1 AFR=3.83% 时,Model 1和Model 3会有相同终身累计成本141万美元。故障率的上升会增加硬盘的终身累计成本。硬盘的故障率会一个浴盆曲线,在核算终身累计成本也需要考虑故障率的变化。
下图是Backblaze从2013/4/20到2022/9/30之间的历史累计的生命周期故障率数据表现。生命周期的故障率AFR当前是1.41%,比上个季度的1.39%略高,这也说明Q3的质量表现不太乐观。但是比2021年Q3的生命周期的故障率AFR 1.45%要低。说明2022年整体故障率表现略好。
下图中是生命周期故障率AFR小于1%的型号列表。主要集中在12TB、14TB、16TB盘。其中,西数盘型号为WUH721816ALE6L0的16T盘,质量表现最好,AFR在0.11%。
精彩推荐:
-
漫谈云数据中心的前世今生
-
多维度深入剖析QLC SSD硬件延迟的来源
-
漫谈固态硬盘SSD全生命周期的质量管理
-
如何快速debug定位SSD延迟问题?
-
汽车存储SSD面临的挑战与机遇
-
超大规模云数据中心对存储的诉求有哪些?
-
SSD写放大的优化策略要统一标准了吗?
-
阿里云Optane+QLC存储实践案例分享
-
“后Optane时代”的替代存储方案有哪些?
-
浅析数据中心存储发展趋势
-
浅析PCIe链路LTSSM状态机
-
浅析Relaxed Ordering对PCIe系统稳定性的影响
-
实战篇|浅析MPS对PCIe系统稳定性的影响
-
浅析PCI配置空间
-
浅析PCIe系统性能
-
PLC SSD虽来但远,QLC SSD火力全开
-
Backblaze2022中期SSD故障质量报告解读
-
最全电脑固态硬盘SSD入门级白皮书
-
存储随笔《NVMe专题》大合集及PDF版正式发布!
-
加权循环仲裁WRR特性对NVME SSD性能有什么影响?
-
Linux NVMe Driver学习笔记之9: nvme_reset_work压轴大戏