《西游记》中孙悟空因在太上老君的炼丹炉中历经九九八十一难,最终炼就了一双能够洞察一切妖魔鬼怪真身的“火眼金睛”。这双神奇的眼睛,仿佛预示着一种古老的智慧——通过火的考验,可以淬炼出更加坚韧的灵魂。
而在现代科技的洪流中,我们也在寻找一种类似的“炼丹炉”,只不过这次我们要炼的不是神仙,而是那些承载着海量数据、记录着人类文明的小小芯片——NAND闪存。在一次次的写入/擦除(PE)循环中,这些芯片逐渐疲惫,直至面临生命的终结。然而,正如孙悟空在炼丹炉中获得了重生一般,我们是否也能找到一种方法,让这些疲惫不堪的芯片重新焕发生机?
近日,小编看到有一篇探索如何通过热退火的方法,让磨损的NAND闪存芯片焕发新生。在这场奇妙的旅途中,我们将见证一颗颗芯片如何在高温的洗礼下,实现从内而外的蜕变,就像孙悟空在炼丹炉中获得的那双“火眼金睛”一样,变得更加敏锐、可靠。
3D NAND闪存在广泛的应用领域中不可或缺,从低端物联网平台、智能手机、工作站和服务器中的固态硬盘(SSD),到云计算中的存储系统。随着垂直层数(3D缩放)和逻辑缩放的增加,每一代3D NAND闪存芯片的位密度都在增加,这允许每个存储单元存储2、3或4位数据。这些趋势导致了内存块的耐久性(或有用寿命)降低,这给存储媒体的有效管理和整个系统的设计带来了额外的挑战。
基于闪存的存储系统由闪存控制器和一个或多个闪存芯片组成。闪存控制器一方面接口和管理闪存媒体,另一方面为宿主提供接口,如下图所示。它执行一个称为闪存FTL的中间固件层。FTL包括多个模块。
众所周知,热退火可以修复磨损的闪存单元,从而延长其耐久性极限。例如,Macronix的研究人员通过内置加热器实现了超过1亿次的程序/擦除(PE)周期。他们利用了一种带有字线加热器的新型闪存单元架构,通过局部产生高温来自我修复记忆单元中的应力损伤。同样,Wu等人提出了在板载加热器上提升温度以实现磨损恢复的方法。
尽管之前有许多研究探讨了自愈SSD的系统级实施,但在关于热退火条件下有效恢复耐久性的评估方面,尤其是在3D NAND技术方面,文献中存在明显的空白。例如,先前关于热退火对闪存影响的实验表征主要集中在2D NAND技术上。然而,随着3D NAND在现代SSD中的普遍采用,对3D NAND耐久性受热退火影响的实验表征变得至关重要。这种探索可能会揭示新的优化变量,可以在系统级算法中加以利用。
在本文中,研究了热退火对COTS 3D NAND闪存耐久性的影响,探讨了耐久性恢复效应。据了解,这是首次探索热退火对64层浮动栅极(FG)3D NAND闪存耐久性的影响。退火过程中编程阈值电压(𝑉𝑡ℎ)对耐久性恢复有深远影响。具体而言,编程到最高𝑉𝑡ℎ水平的单元展现出比擦除状态下的单元高出两倍以上的恢复速率。此外,我们确定了给定温度下的适当退火时间,超过这个时间耐久性恢复变得最小化。
本研究的目标是通过监控原始比特误码率(RBER)来探索热退火的效果。实验评价是在多个NAND闪存芯片上进行的。表1总结了样本细节,包括来自主要NAND供应商的64层TLC和32层MLC浮栅(FG)闪存颗粒。
测试板包含来自Future Technology Devices International (FTDI)的FT2232H模块和用于固定裸片的插座。我们通过USB将FT2232H连接到工作站。此硬件设置执行基本的内存操作,如页面读取、页面写入和块擦除。另外,通过软件模拟了FTL功能,用于确定页面读取操作的RBER。为了评估RBER,先用随机数据全速擦除和写入一个完整的块。然后,读取块中的所有页面,并通过比较从芯片读取的数据与写入闪存块的原始数据来计算RBER。
具体测试步骤:
-
每个闪存芯片首先在室温(𝑇𝑅𝑂𝑂𝑀 = 25°C)下重复进行写入/擦除(PE)循环,直到达到其耐久性极限。
-
当每个芯片达到其耐久性极限后,擦除整个闪存块,然后在室温下将一组新的随机数据模式写入芯片。立即之后,我们读取数据并计算RBER。
-
接下来,通过在高温下烘焙芯片来进行加速保留测试。我们将烘焙温度(𝑇𝐵)设定为120°C,烘焙时间为5分钟,重复6次(总共半小时)。每次烘焙5分钟后,我们将所有芯片冷却至室温,并执行读取操作。使用Arrhenius模型估计等效的保留时间。假设3D NAND的激活能(𝐸𝑎)为1eV,我们发现在120°C下30分钟的数据保留时间相当于在室温下约8个月的数据保留时间。
-
保留测试后,我们通过在高温下烘焙整个闪存芯片来进行热退火。接着,我们再次重复所有步骤来量化耐久性的恢复。
研究人员选择了120°C作为退火温度。在这一温度下,我们观察到了显著的耐久性恢复。退火时间对于耐久性的恢复至关重要。研究发现,随着退火时间的增加,耐久性得到改善,但达到一定时间后,继续增加退火时间带来的收益逐渐减少。在实验中,发现30分钟的退火时间可以达到最佳的耐久性恢复效果。进一步延长退火时间带来的耐久性提升逐渐减小。
本研究通过实验验证了在热退火过程中编程𝑉𝑡ℎ水平对3D NAND闪存单元保留性能的影响。编程到不同𝑉𝑡ℎ水平的单元在退火后展现出不同的耐久性恢复效果。特别是,编程到较高𝑉𝑡ℎ水平的单元比擦除状态下的单元展现出更低的RBER,表明编程状态对于耐久性恢复至关重要。这意味着编程状态下的单元在退火过程中可以更好地修复氧化层缺陷,从而提高数据保持能力。
此外,研究了热退火对3D NAND闪存垂直层的影响,特别是针对TLC闪存中的三种逻辑页面类型:最低有效位(LSB)、中间有效位(CSB)和最高有效位(MSB)。下图展示了在一个3D NAND芯片的所有垂直层中,LSB、CSB和MSB在退火前后页面RBER的变化情况。蓝色数据点表示经受1k PE(写入/擦除)周期磨损的内存块的页面RBER,红色数据点对应于同一个芯片经过退火处理后磨损内存块的页面RBER。
很明显,退火处理对磨损闪存块的页面RBER有着显著的改善效果。退火后,LSB页面的RBER接近新的闪存块的水平,而CSB和MSB页面的RBER略高于新鲜内存块。
-
RBER曲线呈现出两个明显不同的部分:低32层的RBER显著低于高32层。这种现象可能是由于3D NAND制造商采用的双层制造工艺,用于生产更多的垂直层。可以看出,较高层的RBER相比较低层更高。
-
在三种逻辑页面类型中,MSB页面的RBER最高。这是因为MSB页面的RBER受到TLC中最高𝑉𝑡ℎ状态转变的影响,该状态在测试期间通常经历最高的𝑉𝑡ℎ损失。
通过热退火处理,磨损的3D NAND闪存芯片的数据保留特性得到了显著改善,特别是在1000 PE周期时,退火后的磨损块的平均块保留RBER从大约1%降低到大约0.4%,这相当于未退火芯片在大约500 PE周期后的表现。即使退火后磨损块的RBER值与基线在大约500 PE周期时相当,但其实际可以额外存储大约300 PE周期,总共有大约1300 PE周期才会再次到达使用寿命末期。这些结果表明热退火处理能够显著提高3D NAND闪存芯片的耐久性,这对于提高基于SSD的存储系统的整体性能和寿命具有重要意义。
此外,研究还发现,退火后磨损的3D TLC/MLC NAND闪存块的擦除时间在热退火后略有下降。这意味着热退火方法有助于减少氧化层内的陷阱密度,从而改善擦除时间。
对热退火改善的合理解释:
-
陷阱状态的形成:高PE循环会在隧道氧化层中产生陷阱状态或缺陷。这些陷阱状态主要是由在擦除操作期间注入到隧道氧化层中的空穴造成的,它们在氧化层-Si界面附近被捕获。
-
陷阱状态的修复:在编程状态下进行热退火时,FG层中的电子会在氧化层上形成反向电压,这有助于防止隧道氧化层中形成负陷阱位点。这种条件有利于断裂的Si-Si键的重组,从而修复氧化层中的缺陷。相比之下,在擦除状态下,氧化层上的电压方向相反,会导致通道中的电子隧穿进入氧化层,形成负陷阱电荷,从而阻止键的重组,使得氧化层缺陷得不到修复。
-
耐久性改善:热退火在编程状态下可以显著改善耐久性,因为这种状态有助于修复氧化层中的缺陷。
本研究探索了热退火对3D NAND闪存耐久性的影响,尤其是在达到使用寿命末期时。实验结果表明,在编程状态下进行热退火可以提供最高的耐久性恢复。退火后磨损的块(𝑁𝑃𝐸 = 1k)的保留RBER显著下降至相当于大约500 PE周期的水平。然而,退火后的磨损块只能额外承受大约300 PE周期,总共大约1300 PE周期就会再次到达使用寿命末期,这导致了大约30%的耐久性改善。此外,还发现擦除时间在热退火后略有下降。
这项研究为提高3D NAND闪存的耐久性和擦除效率提供了理论依据和技术支持,有助于延长SSD基存储系统的使用寿命,并提高其整体性能。
参考文献:Matchima Buddhanoy, Sudeep Pasricha, and Biswajit Ray. 2024. Life-after-Death: Exploring Thermal Annealing Conditions to Enhance 3D NAND SSD Endurance. In Proceedings of the 16th ACM Workshop on Hot Topics in Storage and File Systems (HotStorage '24). Association for Computing Machinery, New York, NY, USA, 79–85.
如果您看完有所受益,欢迎点击文章底部左下角“关注”并点击“分享”、“在看”,非常感谢!
精彩推荐:
-
FMS 2024:多家厂商CXL技术方案总览
-
存储正式迈入超大容量SSD时代!
-
Backblaze发布2024 Q2硬盘故障质量报告
-
FMS 2024: 带来哪些存储技术亮点?
-
IEEE报告解读:存储技术发展趋势分析
-
什么?陶瓷也可以用来存储数据了?
-
都说固态硬盘寿命短,那么谁把使用寿命用完了吗?
-
内存原生CRAM技术将会颠覆计算存储的未来?
-
浅析SSD性能与NAND速率的关联
-
MCR DIMM如何解决内存带宽瓶颈?
-
浅析MPS对PCIe系统稳定性的影响
-
CXL-GPU: 全球首款实现百ns以内的低延迟CXL解决方案
-
万字长文|下一代系统内存数据加速接口SDXI解读
-
数据中心:AI范式下的内存挑战与机遇
-
WDC西部数据闪存业务救赎之路,会成功吗?
-
属于PCIe 7.0的那道光来了~
-
深度剖析:AI存储架构的挑战与解决方案
-
CXL崛起:2024启航,2025年开启新时代
-
NVMe SSD:ZNS与FDP对决,你选谁?
-
浅析PCI配置空间
-
浅析PCIe系统性能
-
存储随笔《NVMe专题》大合集及PDF版正式发布!