AI大模型正飞速跃进,从引领文本生成革命的ChatGPT到开创文生视频新纪元的Sora,多模态交互技术连续迭代,促进了智算中心的快速落地。在这一过程中,算力的迅猛增长对存储系统提出了更高的要求和挑战。为满足这些日益增长的需求,存储系统已经顺利从早期的文件存储迈向更高效、更灵活的对象存储。对象存储以其出色的数据管理效能、卓越的可扩展性和无与伦比的灵活性,完美适应了AI时代的复杂要求,为AI大模型的进一步发展提供了坚实的支撑。
在文件存储时代,数据以文件为单位进行存储和管理。企业级文件存储通常使用NAS(网络附属存储)。NAS概念为1993年由NetApp公司首次提出,三年后推出第一款NAS产品。NAS产品通常包括存储单元、网络连接接口和管理软件,可以提供远程访问、备份、文件共享和其他功能。采用NAS作为存储系统的优势为提升了存储资源利用率,实现了存储资源的共享。具体的映射方式如下:
对于小型数据集,这种存储方式或许足够有效,然而,一旦数据量激增并伴随着频繁的读写混合操作,文件存储的局限性便变得尤为明显。复杂的目录结构虽然有助于数据的组织,但也带来了额外的管理负担。同时,文件的语义丰富性使得增删改查等操作变得资源密集且耗时。此外,文件存储的完整性要求也导致服务器存储空间的大量占用,进一步加剧了存储成本和管理难度。
为了克服文件存储的种种限制,对象存储应运而生。对象存储作为一种新型的数据存储方式,正在逐渐崛起并成为数据存储领域的重要力量。对象存储将数据以“对象”为单位进行存储,每个对象包含该对象的全局唯一标识符Key、数据本身以及与之相关的元数据。
这种存储方式具有显著优势:
扁平化结构
对象存储采用扁平化的数据组织方式,无需复杂的目录结构,从而大大简化了数据的访问和管理。
高效的数据访问
通过唯一的标识符(如对象键)来访问数据,无需遍历目录树,大大提高了数据访问的效率。
良好的扩展性
对象存储系统通常采用分布式架构,可以轻松地通过增加节点来扩展存储容量和性能。
数据持久性
对象存储通常具备数据冗余和容错机制,能够确保数据的高可用性和持久性。
在大数据时代,对象存储已经成为存储技术的必然选择。无论是海量的用户数据、日志信息,还是复杂的多媒体内容,对象存储都能够提供高效、可靠、灵活的存储解决方案。同时,随着AI、大数据技术的普及,对象存储使得数据的存储和管理变得更加便捷和高效。
大道探寻全新的大数据时代高性能存储之路,打造FOSS全闪分布式对象存储产品。FOSS产品是一款兼容标准S3协议的对象存储平台,基于SDS2.0自主创新设计,确保系统的自主可控与安全性。系统采用高效的GO语言编写,在数据存储层,实现了元数据与数据的分离存储。元数据存储部分,我们采用了经过精心定制的、具备原子性、一致性和轻锁特性的分布式KV数据库。数据存储部分,我们遵循路径最短、效率最大的原则,通过Volume直写的方式,确保了存储系统的灵活性和检索效率。前端使用VUE框架,采用B/S架构,提供强大的Web管理支持。此外,我们还提供了丰富的SDK,以满足存储系统与其他业务系统的无缝对接需求。
架构特点
FOSS产品源于自主创新和研发,拥有独立知识产权。我们的存储系统架构卓越,针对高性能存储硬件与前沿网络技术进行了深度优化,最大化发挥新一代硬件的性能。FOSS产品单集群可达百GB级吞吐,百万级IOPS,毫秒级延迟,不仅满足高带宽、高IOPS、低延迟、高并发等严苛的业务场景需求,更以其独特的架构特点,引领存储技术的发展。
软件栈微控制器流水线架构
整套系统计算单元基于PerCpu免锁设计的微控制器流水线架构,彻底打破了多核CPU缓存一致性同步和调度的性能瓶颈,实现了更高效、更流畅的数据处理流程。这种架构通过消除传统锁机制所带来的开销和复杂性,CPU有效利用率提升40%。这种设计不仅优化了硬件层面的性能,同时也为软件层面的优化提供了更加坚实的基础,从而推动存储系统性能提升20%。
高效的智能分层技术
为确保在线数据的卓越性能和低延迟,同时满足离线数据的大规模存储和成本控制需求,FOSS产品设计了创新的分层功能。这套先进的存储系统采纳了两级缓存技术,显著提升了数据存储和访问的效率。
第一级缓存——内存缓存,这一关键组件负责迅速响应写请求,显著提升整体性能。通过先进的合并刷盘技术,它能将离散的、随机的小块IO高效地合并为连续的大块IO,再顺序写入到下层存储介质中。这种技术不仅大幅提高系统IOPS,而且智能地聚合写请求,有效减少了HDD硬盘的寻道次数,降低了硬盘的损耗,还延长了硬盘的使用寿命。
第二级缓存——闪存缓存,不仅加速了数据的读写速度,而且利用其独特的保电特性,确保新写入数据在闪存盘上的即时存储即可视为数据安全的标志。这意味着一旦数据成功写入闪存盘,客户端会立即收到写操作成功的反馈,无需等待数据进一步写入硬盘。
开放的介质存储层
开放介质存储层是一个创新的存储介质管理解决方案,它将块设备(Disk)的trunk封装成跨节点的、经过冗余算法(如纠删码、副本)保护的Volume。该层不仅提供了Volume的装配、分配和读写接口,还实现了对多种存储介质的直接存取支持。
开放介质存储层充分保障存储系统的开放性原则,设计使其能够兼容多种存储介质,包括主机本地的硬盘(SATA、SAS、NVMe),以及来自外部存储系统的Lun(如FCSAN/IPSAN/NVMeoF/RBD)。这使得FOSS产品能够适应不同环境和应用场景,从而提供灵活且高效的存储服务,满足不断演变的存储需求。
降低存储系统写放大
大部分传统的存储系统依赖于文件系统来管理数据,这种方式往往会产生大量的存储碎片,进而增加写放大效应,影响性能。然而,FOSS产品的设计哲学截然不同。它摒弃了传统的文件系统,转而将数据直接保存在经过智能调度管理的Volume(块设备)中。这种直接顺序写入Volume的策略,从根本上避免了写放大问题。
在FOSS产品中,应用分类的数据会根据时间进行聚合,并有序地保存到相应的Volume中。由于充分考虑到应用数据具有生命周期属性,因此在数据删除时,FOSS产品也会采取聚合删除的策略。这意味着,Volume中的数据在删除时同样会进行聚合操作,从而大大减少了需要迁移的数据量。
优化SSD磨损平衡
传统的基于文件系统的存储系统无法全局地管理SSD的磨损平衡,只能依赖SSD片内的磨损平衡机制。这种局限性在大规模使用SSD的存储系统中尤为明显,因为部分磨损较高的SSD可能会在短时间内耗尽其使用寿命,导致系统不得不进行计划外的SSD磁盘重建。这不仅增加了维护成本,还可能导致系统不稳定和不可控的因素。
FOSS产品自主设计开发智能算法,实现了对Volume的精确装配和分配。这种算法确保了每个Volume的擦写次数都在全域范围内得到平衡调度,从而避免了SSD因超出擦写次数而损坏的风险。当某个Volume的擦写次数超过预设的保护阈值时,FOSS产品会智能地将其用于保存删除概率很低的数据,这意味着该Volume再次被选中进行GC擦除的概率会大大降低。相反,当某个Volume的擦写次数接近阈值时,FOSS产品会停止将其用于写入操作,以进一步延长其使用寿命。在全域SSD磨损平衡算法的保护下,FOSS产品使用高性价比低擦写次数的SSD也能拥有极长的使用寿命。通过简单的扩展存储规模,即可实现长期平顺使用。
绿色节能环保技术
FOSS产品引入Volume的分配算法和分类聚合算法,利用Disk在没有IO的情况下进入待机或深度休眠的节能状态,实现存储系统节能控制。该方法可在六年内将存储TCO降低40%。
在对象写入时,FOSS产品运用智能算法,基于业务性能统计和预算模型,动态地分配Volume使用尽可能少的Disk,以确保性能吞吐需求得到满足的同时,最大化地降低Disk的使用量。这种策略使得其余未被使用的Disk进入节能状态,从而显著提高节能效率。此外,当应用进行按时间批量读取数据时,由于数据已按时间顺序聚合写入,读操作能够直接定位到相关Disk,同样减少了对大量Disk的依赖,通过智能选取机制实现硬件节能。
产品优势
FOSS产品适用于包括广电媒资、备份归档、远程容灾、视频监控、人工智能、大数据分析、数据湖等大规模非结构化数据存取应用场景,特别是数据量大、吞吐高,成本敏感的需求。显著优势如下:
线性扩展,超高性能
扩展灵活,可基于单节点与集群自由选择扩展方式,单集群EB级容量,单桶百PB级空间,百GB级吞吐,百万级IOPS,毫秒级延迟。
闪存优化,降本增效
数据按时间聚合,采用全域空间回收和磨损平衡设计,极大降低SSD写放大,提高SSD使用寿命,实现大尺度QLC SSD的高密度使用,降低单位成本。
长期保存,安全可靠
支持静默数据错误扫描,并拥有数据智能健康检查功能,从而能够组织并执行数据保护、监测、扫描、恢复和迁移等运维工作。以确保了数据的长期保存和存储介质的长期稳定运行。
绿色存储,节能环保
具备高效率节能调度算法,可以依据业务访问需求,智能调度集群,动态选取提供数据访问的Disk,将其他未调度的Disk置于低功耗状态(单片SSD<0.5w),降低集群功耗,降低数据中心PUE。
开放架构,兼容利旧
该系统采用开放式架构设计,充分考虑客户成本效益,支持存储利旧,兼容第三方品牌SAN存储产品,满足业务转型时期的各种需求。
信创生态,自主可控
软件为全自主的国产化分布式全闪存储软件,具备完全自主知识产权。
FOSS全闪分布式对象存储将成为数字化转型的关键支撑。无论是智能制造中实时处理海量数据以优化生产流程,还是金融服务中精准管理风险以保障资产安全,亦或是医疗保健中高效管理患者数据以提升诊疗质量,FOSS产品都将以其卓越性能、极低延迟和出色可靠性,确保数据的安全性和可靠性,为各行业的数字化转型提供强大助力。