背景分析
概念定义
基因测序是一种新型基因检测技术,是基因检测的方法之一,其又叫基因谱测序,是国际上公认的一种基因检测标准。基因测序技术能锁定病变基因,提前预防和治疗。过长的测序周期以及上万美元的仪器成本,成了阻碍基因测序进入寻常百姓家的障碍。而运用新技术的基因测序仪,大大降低了基因组测序的门槛,使得更多研究人员能够使用这项技术开发多种应用。常用的测序平台有Complete Genomics,Illumina HiSeq,ABI SOLiD System,Roche GS FLX Platform,Ion Torrent及Ion Proton等。
政策纲要
十四五”开局之年,我国发布《中华人民共和国国民经济和社会发展第十四个五 年规划和2035年远景目标纲要》,提出未来我国要大力发展战略新兴产业,利用新一代信息技术,壮大航空航天、海洋装备、新能 源汽车、新能源、生物技术、绿色环保、新材料等产业。“生物医药作为我国十四五规划中战略性新兴产业的主攻方向,更是成为推进健康中国建设的重要支撑点。”5月10日,国家发展改革委印发《“十四五”生物经济发展规划》(以下简称《规划》),明确提出了生物经济发展阶段目标。与此同时,全国多个城市发布相关政策以促进我国生物医药行业发展。
2.生信项目方案
FASS+ NVMe SSD构建分布式全闪存储集群,并将LUN分配给不同的网关节点;
xFile构建高可用网关集群,为业务提供高性能文件存储服务。支持N-1节点故障,NAS共享服务正常;XDFS作为存储底座+SATA硬盘,构建大容量归档近线存储系统磁带库作为离线存储系统。对在一定时间内没有访问的数据进行归档迁移操作,将这些数据按策略归档到磁带库中保证业务数据正常访问的情况下,充分节约在线和近线存储空间。
2.1现状分析
(一)用户分析:
1.元数据保存方式:
·目前用户95%以上元数据由不同机构通过网络上传至华为云上;
·华为云为上传数据提供对象存储服务(OBS),及所有文件均以对象方式保存。
2.数据分析:
·用户通过手动方式将华为云OBS上数据迁移至华为云文件存储上;
· 通过用户专业数据分析系统对迁移至华为云文件存储上的数据进行分析、处理,生成相应报告。
3.数据输出:
·在整个分析过程中会生成结果文件和过程文件;
·结果文件会通过手动方式迁移回OBS上,过程文件保存在华为云文件存储上。
4.数据容量:
·用户每天产生超过1TB的数据,加上过程数据等中间数据,全年数据量可达3-5PB。
(二)存在问题:
1.用户在生产过程中产生大量数据,需要从华为云上获取大量的存储资源,因此每年需要投入较高的费用租用华为云服务。
2.数据流转过程需要通过手动方式进行,效率较低,并且容易造成人为失误。
3.基因测序分析对存储性能要求很高,云上进行无法满足日益增长的分析需求。
2.2整体解决方案
·根据用户需求将华为云OBS上元数据下载至本地私有云存储系统上;
·根据基因测序业务需求和数据特性,TaoCloud以FASS全闪分布式存储为数据底座,结合高性能文件网关,组成一套高性能文件存储集群,为基因测序业务提供高可靠、高带宽、高IOPS、低延时的文件存储服务,本次建设提供200TB可用容量SSD存储池。
·同时配置XDFS分布式统一存储系统,配以SATA HDD构建800TB高性价比存储池,按策略进行数据归档,将过程数据按策略归档至HDD存储池中,实现数据全生命周期管理。
(一)数据下云、上传及归档详细描述:
1、数据下云:
下云数据主要针对用户所有在华为云OBS上保存的对象存储数据,通过在本地分布式全闪存储系统上设置相应策略,将这部分数据定时自动下载至本地私有云存储系统的全闪分布式存储系统上,并以文件形式保存,以便于进行相应的数据分析。
2、数据上传:
上传数据主要针对经过分析所产生的结果数据,同样需要在本地分布式全闪存储系统上设置相应策略,定时将这部分数据上传到华为云OBS上,用以最终用户获取分析结果。
3、数据归档:
元数据在分布式全闪存储系统上经过分析后不仅会产生结果数据,还会产生过程数据,这部分过程数据会被保存在相应的文件夹中通过归档模块根据相应策略迁移归档至分布式文件存储的HDD存储池中进行长期保存。
(二)系统性能:
方案采用分布式全闪+高性能文件网关方式构建业务存储系统(主存储),系统通过全SSD+100GbE网络为业务系统提供高性能存储服务,其性能分为分布式全闪底座块存储性能及文件存储性能,具体性能指标如下:
1、分布式全闪文件存储性能指标:
带宽:20GB/S
OPS:单客户端10000
10客户端100000
满足1000个以上容器通过CSI方式挂载
2、分布式全闪块存储性能指标:
带宽:48GB/S
IOPS:大于800万
延时:小于200微秒
2.3方案优势
(一)完善的计算处理能力
大道分布式存储系统具有非常好的硬件兼容性,在一个集群环境中可以同时部署各种服务器、同时支持ARM等国产CPU架构。用户通过部署高主频CPU、大内存计算节点等硬件资源,可以创建出满足用户各类科研应用的存储硬件资源池,并通过资源管理和调度软件实现资源的有效分配。
在药物研发、化学分子分析、基因测序及蛋白分析的应用软件中,经常需要Windows系统环境的支持。大道分布式存储系统支持Linux和Windows混合架构的HPC计算集群;支持(如Windows2008/2012/2016、Windows 10、Suse Linux、Redhat Linux、Centos Linux)多版本的操作系统。
(二)完整的数据管理功能
药物研发、化学分子分析、基因测序及蛋白分析过程中会产生非常庞大的数据。这些数据包含珍贵的一手测序数据,也包含测序分析过程中产生的过程文件。大道分布式存储系统支持用户的存储空间配额管理,从而为用户提供便捷的数据存储服务。
(三)数据协同共享
大道分布式存储系统还提供基于数据共享实现的数据协同功能,可以通过定义数据共享区,让用户将需要协同交换的数据放到数据共享区。为了保证数据协同的安全性,系统管理员还可以配置用户访问数据共享区的权限。