本资料来源公开网络,仅供个人学习,请勿商用。
部分资料内容:
2 需求分析
2.1功能需求
数据湖的应用、管控、展示为一体,提供标准的服务和数据接口和报表展现方式。数据湖数据采用高效,可靠的存储架构。企业业务数据制订迁移方案,将ERP系统、数据采集系统、OA系统、视频监控系统、云商系统中存储的核心数据,整体迁移至数据湖,非弹性资源实行本地化部署,对于弹性计算功能,需与算法数据湖进行协同计算。以实现核心数据可控,消除安全问题和潜在未知风险。支持可视化建模,支持鼠标拖拽方式进行人工智能算法建模。包括数据预处理、特征工程、算法模型、模型评估和部署等功能支持快销业务领域的预测预警等多种类型的算法应用,包括逻辑回归、K近邻、随机森林、朴素贝叶斯、K均值聚类、线性回归、GBDT二分类、GBDT回归等算法模型,也支持深度学习等人工智能训练模型。展示层通过统一的商业BI报表组件,多维度,动态的展示各业务系统的运行状况,资源使用情况等。并支撑周期性或临时性生成各业务状况,决策数据展示,故障分析挖掘等业务场景。
x x数据湖架构图
文件中心:
主要用于存储各种格式文件,包括影像文件,视频音频文件,PDF,Office文件等类型文件,提供文件级别的全文检索,文 件发布,文件共享,文件提取等功能。提供文件权限管理,版本管理,历史版本恢复等管理功能。
文件中心中文件内容可以经由ETL过程与日志中心,数据中心交换融合数据,共同参与数据处理,数据挖掘,机器学习,影像分析等工作。
日志中心:
收集各类日志数据,物联数据等实时数据,由流处理引擎实时处理数据,确保在第一时间分析处理数据,做到实时监控, 实时告警。
经处理的实时数据可与文件中心,数据中心的数据融合,共同参与数据分析等工作。
结构化数据中心:
实时(或批量)获取数据库或其他介质中的架构化数据,借助Hadoop/Spark等强大的处理能力,高效处理各类数据。
有效结合文件中心,日志中心中的数据共同参与数据分析,数据挖掘。
支持百亿级数据Cube,做到海量数据亚秒级多维度查询。
标准SQL输出接口,支持不断升级的需求以及二次开发。
2.1.1 统一数据接入
数据湖接口统一接口示意图
数据接入原则
1、以应用驱动为主,优先建设高价值数字孪生项目;
2、入湖数据必须有数据管理部认证,发布对应数据资产标准,匹配对应数据责任人;
3、数据建模原则以原始数据、清洗整合数据、三范式结构、服务化宽表逐级向上规范;
4、整体平台需符合高可用、平行扩容原则,符合业务3-5年的数据规划。
数据实时同步,支持绝大多数的数据库实时同步需求。支持跨广域网的数据同步,支持接收器集群。建设统一的,标准的,易于复制和维护的数据实时同步平台,同时完成数据实时同步的技术规范及策略。实现数据同步监控系统,构建数据的更新情况有一个持续的,可靠的实时监控系统。完成一次性数据快速导入与增量数据导入的融合机制——涓流复制。通过Full Dump模块实现数据入库的加密,基于Data Handle提供HiveSQL接口,同时完成数据出库的解密。通过Application Adapter的定制实现数据访问权限的控制
2.1.2 数据迁移
l 将对于频繁读写数据的业务系统,ERP系统、数据采集系统、OA系统、视频监控系统、云商系统保留原数据库的方案。业务数据同步至数据湖,并在并轨运行过程中,需定期验证本地数据湖中与业务系统数据的一致性。
l 接收实时增量数据,按照预定架构存储数据至本地数据湖。生产实时数据实时接入、可靠传输至公司数据库集群中,数据接入量约为110TB/天,历史数据40000TB。
数据迁移逻辑架构图
l 数据湖作业分为非弹性和弹性两类,对于非弹性作业在本地数据湖进行运算,对于消耗资源大且需弹性计算作业,采用与企业云进行协同计算,在企业云数据湖中不保存数据,待作业计算完成后将过程和结果数据回传至本地数据湖进行存储。接口服务支持发布订阅模式,支持跨数据湖、跨系统的调用,支持HDFS、Hive、HBase等系统。
a) 接口类型
批量数据封装
将大批量数据按一定条件抽取出来封装成数据资源。批量数据封装必须通过系统进行,不能进行手工操作。
数据请求接口封装
通过restful接口方式将数据封装成访问接口,使访问方通过远程调用对数据进行访问。
b) 接口安全
配置管理
对共享数据的内容和共享接口规则进行配置,包括基础数据配置、共享服务配置、共享权限和共享配置下发。
a)基础数据配置
能够对数据共享功能域中使用到的基础数据进行配置,包括使用共享数据系统的配置、共享数据实体的数据结构和语义描述、共享方式等。
b)共享服务配置
数据服务定义、数据服务目录、数据服务参数配置(如:目标系统、共享方式、数据承载方式、访问频率、访问允许时段)等。
c)共享权限配置
对允许使用共享服务的目标系统进行权限配置,支持共享服务内部具体数据实体和属性的权限配置。
d)共享配置下发
共享数据的内容和共享接口规则下发至各相关系统。
数据共享过程
对各数据共享过程进行监控、异常处理、日志管理,并对数据共享相关的数据提供查询统计和分析功能。
a)表数据共享
目标系统是应用层分析系统,直接开放表访问权限,由目标系统通过ETL进行数据抽取。
b)数据查询
目标系统是应用层分析系统,由目标系统直接通过调用数据湖提供的数据查询服务,完成数据查询。
c)数据订阅
目标系统是应用层分析系统,目标系统提出数据订阅需求,由数据湖提供数据订阅服务。
篇幅有限,无法完全展示,喜欢资料可转发+评论,私信了解更多信息。