回首2022
感谢各位粉丝朋友的一路支持与陪伴
存储随笔为您献上
2022年度最受欢迎文章榜单TOP15
2023,一起向未来!
TOP1:固态硬盘SSD入门级白皮书
主要从固态硬盘的原理/接口形态/寿命/使用场景/等不同角度,来对比不同的人群需要什么样的配置,目标是让更多的人获得适合自己的SSD。
根据常见的使用场景,我们大概可以把使用人群分类4类:商务需求、内容创作者、游戏玩家、学生。针对这个4类不同的人群,对固态硬盘的特性要求也不尽相同,具体对照参考如下:
TOP2:浅析PCIe系统性能
PCIe Spec定义Gen1的最大传输速率是2.5Gb/s, Gen2的最大传输速率是5.0Gb/s, Gen3的最大传输速率是8.0Gb/s. 在这里的最大传输速率指的是单lane单向的原始比特传输速率(Raw bit rate), 并不是PCIe系统中真正的数据传输速率。因为在PCIe系统存在一定的数据传输开销和设计取舍。任何数据在PCIe系统传输,都会产生一定的开销。我们从五个方面探究一下。
TOP3:浅析PCIe链路LTSSM状态机
我们结合一个上电过程中Gen1提速至Gen3的时序来解读一下Recovery状态的转换,如下图:
a. Downstream率先进入Recovery.RcvrLock状态, 之后向Upstream持续发送TS1并且将speed_change bit设置为1;
...
g. 最后,双方开始进行EQ。EQ之后,PCIe链路就可以回到正常工作状态。
TOP4:ZNS SSD为数据中心带来什么?
ZNS SSD的原理是把namespace空间划分多个zone空间,zone空间内部执行顺序读写。这样做的优势:
降低SSD内部的写放大,提升SSD的寿命
降低OP空间,host可以获得更大的使用空间
降低SSD内部DRAM的容量,降低整体的SSD成本
降低SSD读写延迟
ZNS写入了标准NVME协议,更易于打造软件生态,利于普及
TOP5:PCIe链路训练Debug案例解析
Downstream回到Dectect状态之后,就开始重新进行链路训练,在重新链路训练中,这次在Polling.Active状态成功实现了Bit Lock和Symbol Lock, 然后进入Polling.Configuration状态。最终成功实现PCIe链路训练。
从上面的分析过程中,我们看到,第7/8步中有两个timeout时间,分别是24ms和48ms,正是因为这两个timeout的存在,造成了Virtex-6开发版link up时间超过60ms。
TOP6:YMTC X3 NAND 232L 终露真容
根据2022年FMS上的介绍,基于Xtacking 3.0架构的NAND芯片X3-9070,采用了2x3的6 Planes架构。每个Plane在中央位置具有独立的X-DEC解码器,可以实现multi-plane独立异步操作,使得Xtacking 3.0的IO速率提升50%。与edge X-DEC相比,Center X-DEC设计将WL电容减少了一半,并降低了RC负载和RC延迟(tRC), 最终性能相较edge X-DEC得到15~20%的提升。
TOP7:SSD写放大的优化策略大集合
影响WAF的因素很多,为了让SSD的WAF写放大系数接近1,这些年,各种方案也被提出来。
SSD FTL算法的设计会影响写入放大的大小
Wear Leveling,WL磨损均衡
Over-Provisioning,OP冗余空间
Garbage Collection,GC垃圾回收
业务读写的数据模型
系统层的TRIM操作
TOP8:面对SSD的步步紧逼,HDD依然奋斗不息
随着QLC/PLC的加持,未来很快就会出现机械硬盘和固态硬盘价格的重合点,那么机械硬盘一直赖以生存的最大优势:价格因素将不复存在。到底SSD和机械硬盘HDD的竞争将更加的白热化。
固态硬盘的步步紧逼,机械硬盘厂商也不会坐以待毙等着被SSD取代。HDD的厂商也在不断的创新,增加HDD的竞争优势。
TOP9:ZNS SSD前途是否一片光明?
从不同的应用场景和写入模型来看,不同场景下的ZNS SSD的配置完全不一样,市面上目前看到的ZNS SSD设置也是百花齐放,没有形成统一的格式。虽然都叫ZNS SSD,但是实际内部的NAND die的配置和管理方式都大相径庭。没有办法同一套软件适配所有的ZNS SSD,这样会让ZNS SSD生态建设受到限制。
ZNS SSD虽然有很大的优势,想要闯一片天地,依然需要多方面的努力。期待ZNS SSD可以早日实现美好的愿景。
TOP10:如何快速定位SSD延迟问题?
IO延迟通常是应用客户先感知到,用户也是从最上层感知,但是经过这么层的路径,最终的延迟来源是在哪一层?这个并不能很清晰的展示,这也导致很多场景下,SSD也成为了背锅侠,不管什么原因导致的IO异常,首先都会被先扣在SSD头上。所以,快速IO定界也是帮助SSD解放“背锅”压力的有效办法。
TOP11:阿里云存储实践案例分享
在写过程的IO传输路径中,IO会写到本地盘虚拟块设备中,然后优先落盘到Optane SSD,完成写入响应后,再从Optane SSD中通过聚合/压缩等算法,形成大块顺序写场景,把数据下刷到QLC SSD中,降低写放大。
TOP12:浅析MPS对PCIe系统稳定性的影响
在整个PCIe系统中,MPS的大小,跟RC、PCIe Switch、Endpoint都有相互的影响,最终TLP传输的数据大小取决于MPS最小的一个设备。比如下图示例,RC MPS=256B,PCIe Switch MPS=512B,但是EP3 MPS=128B。所以最终数据传输的大小采用的是MPS=128B。
除了MPS影响系统性能,还有一个更加重要的事情,MPS对PCIe系统稳定性也起着决定性的作用。最常见的是,在系统中我们会看到pcie设备出现识别异常的情况,多数情况会看到一个“ Malformed TLP”。
TOP13:SSD格式化后数据恢复的可能性?
与机械硬盘HDD不同,固态硬盘没有机械零件,主要靠电学信号传输,不会出现机械故障。在固态硬盘给大家带来多重优势的同时,固态硬盘相对机械硬盘最大的劣势就是:数据恢复异常艰难,比机械硬盘HDD的数据修复概率低很多。所以,如果你有重要数据,切记一定要备份,最后备份一个SSD,一个HDD,双重保障。
TOP14:漫谈固态硬盘SSD全生命周期的质量管理
在追求SSD质量的过程,为了让质量管理形成一个可持续性的工程,需要形成“设计前移”的思路。在工程样品、量产后、客户大规模上量等环节遇到的各种问题,可以快速形成优化思路和核心点,反哺产品设计。通过持续的优化反馈,使得SSD的质量管理得到持续的完善。
TOP15:Intel要携CXL一统互联江湖?
根据三种协议的组合形式,CXL协议支持的设备类型主要分为三类:
Type1: 智能网卡NIC等缺少本地内存的加速设备,可以在同CXL.io和CXL.cache直接访问加载在主机内存的数据,减少访问的延迟。
Typ2: GPU、FPGA等计算设备都配置了内存,可以使用CXL.io、CXL.cache、CXL.memory三个协议组合,CPU和计算设备之间可以相互快速访问,同样可以降低访问的延迟。
Type3: 内存扩展设备,利用CXL.io和CXL.memory进行内存扩展,增加内存带宽,解绑CPU单core内存带宽不足的问题。
精彩推荐:
从主流企业级PCIe Gen4 SSD性能对比,畅谈SSD性能调优的思考
浅析nvme原子写的应用场景
YMTC X3 NAND 232L 终露真容,全球领先
芯片级解密YMTC NAND Xtacking 3.0技术
Backblaze 2022 Q3 硬盘故障质量报告解读
漫谈云数据中心的前世今生
多维度深入剖析QLC SSD硬件延迟的来源
漫谈固态硬盘SSD全生命周期的质量管理
汽车存储SSD面临的挑战与机遇
超大规模云数据中心对存储的诉求有哪些?
SSD写放大的优化策略要统一标准了吗?
“后Optane时代”的替代存储方案有哪些?
浅析PCIe链路LTSSM状态机
浅析Relaxed Ordering对PCIe系统稳定性的影响
实战篇|浅析MPS对PCIe系统稳定性的影响
浅析PCI配置空间
浅析PCIe系统性能
PLC SSD虽来但远,QLC SSD火力全开
最全电脑固态硬盘SSD入门级白皮书
存储随笔《NVMe专题》大合集及PDF版正式发布!
加权循环仲裁WRR特性对NVME SSD性能有什么影响?
Linux NVMe Driver学习笔记之9: nvme_reset_work压轴大戏