本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除。
业界主流公司对于数据湖的规划 — IBM
IBM 公司提出的数据湖架构,包括六大关键部件:
数据湖资源库
按照数据特点进行原始格式的分类存储库
企业IT交互
统一提供企业生产侧系统与数据湖资源库的灵活交互,快速配置能力
原始数据交互
为数据价值发现提供安全的资源分析访问接口与试验环境
目录接口
唯一权威的数据湖元数据发布和访问模式
基于可视化的交互
统一可视化的业务应用交互接口和沙箱环境
信息集成与治理
集成的数据湖运营管理工具与环境
大数据湖体系规划
大数据湖存储能力规划——统一标准/分区存储
制定全集团统一数据标准,采取分域分类的数据入湖策略,构建生产、原生、整合/应用、专区等分区数据存储及计算能力,实现数据原生入湖、按需使用的宗旨,为全国1+31省提供应用数据服务能力,注智生产激发生产力。
大数据湖原生数据区规划——原生入湖/分类存储/按需使用
以原生入湖分类存储按需使用为宗旨,分域分类存储按周期存储原生数据,为云公司、集团ODS、省份大数据平台提供原生数据共享服务,为湖内整合数据区、应用数据区提供原生数据服务。
大数据湖整合数据区规划——构建企业级核心实体关联视图
整合数据区完成数据清洗、编码转换、实体对齐及构建企业级核心实体关联视图,为应用专区提供整合数据服务。整合数据区保持数据原子性粒度,不对数据做聚合处理,不影响业务专区业务指标加工处理。
保存原子性:整合数据区数据不做聚合操作,保持数据原子性,不影响专区应用指标加工处理;
实体补齐性:对核心实体根据不同原生数据进行属性补齐;
实体关联性:面向实体全业务流程数据,整合各域数据实现实体跨域关联视图;
共享一致性:按照湖应用的使用需求进行共性提炼,实现统一的公共宽表建设;
大数据湖应用数据专区规划——面向应用的自建自维数据专区
大数据湖为业务应用场景提供具有数据存储、数据计算、数据服务及数据应用访问能力的应用专区,用户可自行获取数据,面向特定应用场景完成数据加工处理;大数据湖提供专区申请及监控管理,以保证专区健康、有价运营。
独立性:保证资源独立性、数据独立性、应用独立性;
可用性:保证存储、计算、数据资源高可用性及稳定性;确保专区资源可在线、平滑扩展;
易用性:提供丰富的可视化开发及专区运营工具;
可管理性:大数据湖对专区具备监控、审计能力;
数据服务性:专区数据可以数据形式服务,也可开发应用直接链接调用;
大数据湖主数据区规划 —— 企业级核心/统一运营保障22
主数据区负责存储全域主数据,并确保与主数据生产者保持同步,为大数据湖各区提供唯一主数据源,以保证湖中企业级核心实体数据的一致性和完整性,提升大数据湖运营效率及效果。
统一主数据标准:面向全国各域各生产系统提供主数据标准;
统一主数据存储:面向大数据湖提供统一主数据存储能力;
统一主数据整合:清洗整合各域主数据,形成统一、标准、唯一主数据;
统一主数据服务:为大数据湖中各区提供主数据服务;
基于大数据湖的生态圈建设模式24
生态圈入湖指导原则
核心生态圈数据量庞大、繁杂,同时入库对计算资源、并行处理能力、运营效率提出了极大的要求,基于此,应构建科学、完整的入湖流程及标准,保证生态圈数据能够顺利、高效的入湖并发挥效果
贴近实际:充分融合业务需求,遵循业务优先原则
计算效率:充分保证数据质量,让计算效率显著提升
边际效益:合理控制数据入湖速度、在成本控制的前提下,实现效益最大化
生态创新:数据、业务、需求间的融会贯通,实现生态圈的关联及衍生场景
生态圈入湖建设思路与步骤26
生态圈数据整合处理原则及关键点28
基于共性化数据处理,支撑广泛、稳定的共享应用;
生态圈自然人实体归集与对齐
客户资料归集应具备基于资料信息的规则匹配识别和基于客户海量的通信相关信息的挖掘识别方法:
1)通过规则匹配识别技术,高效地完成准确性较高的资料信息自然人识别;
2)基于大数据技术构建自然人识别模式,作为规则识别的有效补充,提高自然人识别成功率,减少人工核查确认工作量。
关键能力要求:
规则识别和大数据技术识别配合完成资料聚合;深度应用大数据识别技术,通过照片留存、交际圈、位置轨迹、虚拟身份等信息,识别出从资料层面不能反映出的同一自然人。
大数据技术识别应用到的技术:文本分词、文本匹配、似度计算、多音字库、象形字库、网络图谱算法、指纹权重、关系传递等;
生态圈数据接入与存储
通过对五大生态圈数据采集入湖,统一规范转换后,为各类专区应用提供数据支撑。
生态圈入湖
根据生态圈系统的建设情况,科学规划多种采集方式入湖
生态圈数据规范
围绕大数据湖功能分区,探索各类数据的存储要求和能力建设
生态应用服务
针对生态业务应用需求,确定大数据湖的应用支撑模式,构建专区建设规范
大数据湖统一访问共享建设规划 —— 统一目录/透明访问
访问共享是湖中数据和应用、能力之间的桥梁,任何功能/应用模块使用湖中数据时,不需要关心数据的存储方式、存储介质、存储位置等信息,只要和访问共享连接既可以实现湖中数据的访问。
统一访问共享典型应用场景
专区应用开发者通过统一访问引擎访问湖中共享数据,专区应用直接访问自有专区数据,实现湖中数据统一共享管控和应用 访问灵活访问自有专区数据
统一数据服务中间件 —— 跨域联邦/标准查询/统一访问
跨底层数据存储平台
多种数据存储体系,如关系型DB、KV-DB、文件系统等
统一标准化数据查询
通用的数据查询语言,支持跨平台访问,如PL/SQL,HQL等
灵活安全的权限管控机制
多种数据服务场景的权限管控,如查询、分析等
跨数据结构的逻辑化访问
多应用系统的物理结构透明化逻辑封装,如OLTP、OLAP等
外部应用的便捷接入
多种应用接入能力,如JDBC、Socket等
大数据湖运营管理体系规划
大数据湖运营管理能够为全网提供统一的运营和协同管控,包括运维支撑、运营监控和数据生态评估等多个方面,实现各类数据风险和隐患的快速排查,提升运营效率,为智慧化的运营战略奠定基础。
运维支撑:增加数据质量稽核能力
提供自助化的数据分析和质量探索服务,基于分布式计算能力,通过探索分析工具和SQL调试器进行数据质量自助探索,增加对业务、关联稽核的手段,并生成质量报告和统计报表。应用指标验证由数据应用方根据应用需要和口径进行自主分析探索,探索结果可固化为专项稽核。
篇幅有限,无法完全展示,喜欢资料可转发+评论,私信了解更多信息。