大数据湖体系规划与建设方案(ppt可编辑)

news2024/10/7 8:23:40

本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除。

业界主流公司对于数据湖的规划 — IBM

IBM 公司提出的数据湖架构,包括六大关键部件:
数据湖资源库
按照数据特点进行原始格式的分类存储库
企业IT交互
统一提供企业生产侧系统与数据湖资源库的灵活交互,快速配置能力
原始数据交互
为数据价值发现提供安全的资源分析访问接口与试验环境
目录接口
唯一权威的数据湖元数据发布和访问模式
基于可视化的交互
统一可视化的业务应用交互接口和沙箱环境
信息集成与治理
集成的数据湖运营管理工具与环境

312dfe91fae8562b9d5e5ece7c36e966.jpeg

大数据湖体系规划

e2beb671f16b6e56e1aa20885afade24.jpeg

大数据湖存储能力规划——统一标准/分区存储

制定全集团统一数据标准,采取分域分类的数据入湖策略,构建生产、原生、整合/应用、专区等分区数据存储及计算能力,实现数据原生入湖、按需使用的宗旨,为全国1+31省提供应用数据服务能力,注智生产激发生产力。

5d7f8ff6ab897e7cf754742c31408622.jpeg

大数据湖原生数据区规划——原生入湖/分类存储/按需使用

以原生入湖分类存储按需使用为宗旨,分域分类存储按周期存储原生数据,为云公司、集团ODS、省份大数据平台提供原生数据共享服务,为湖内整合数据区、应用数据区提供原生数据服务。

c3654e4ff0a9721b0184c79024fd3db3.jpeg

大数据湖整合数据区规划——构建企业级核心实体关联视图

整合数据区完成数据清洗、编码转换、实体对齐及构建企业级核心实体关联视图,为应用专区提供整合数据服务。整合数据区保持数据原子性粒度,不对数据做聚合处理,不影响业务专区业务指标加工处理。

保存原子性:整合数据区数据不做聚合操作,保持数据原子性,不影响专区应用指标加工处理;
实体补齐性:对核心实体根据不同原生数据进行属性补齐;
实体关联性:面向实体全业务流程数据,整合各域数据实现实体跨域关联视图;
共享一致性:按照湖应用的使用需求进行共性提炼,实现统一的公共宽表建设;

15742241213ae22457b8599e2ef49866.jpeg

大数据湖应用数据专区规划——面向应用的自建自维数据专区

大数据湖为业务应用场景提供具有数据存储、数据计算、数据服务及数据应用访问能力的应用专区,用户可自行获取数据,面向特定应用场景完成数据加工处理;大数据湖提供专区申请及监控管理,以保证专区健康、有价运营。

独立性:保证资源独立性、数据独立性、应用独立性;
可用性:保证存储、计算、数据资源高可用性及稳定性;确保专区资源可在线、平滑扩展;
易用性:提供丰富的可视化开发及专区运营工具;
可管理性:大数据湖对专区具备监控、审计能力;
数据服务性:专区数据可以数据形式服务,也可开发应用直接链接调用;

1d3b9cbd74fa4d585a57747684b7ce1a.jpeg

大数据湖主数据区规划 —— 企业级核心/统一运营保障22

主数据区负责存储全域主数据,并确保与主数据生产者保持同步,为大数据湖各区提供唯一主数据源,以保证湖中企业级核心实体数据的一致性和完整性,提升大数据湖运营效率及效果。

统一主数据标准:面向全国各域各生产系统提供主数据标准;
统一主数据存储:面向大数据湖提供统一主数据存储能力;
统一主数据整合:清洗整合各域主数据,形成统一、标准、唯一主数据;
统一主数据服务:为大数据湖中各区提供主数据服务;

72c0b93541990e752fd914d0087bd7e2.jpeg

基于大数据湖的生态圈建设模式24

bc6b175858fdee8d15cbe404dc4ddc78.jpeg

生态圈入湖指导原则

核心生态圈数据量庞大、繁杂,同时入库对计算资源、并行处理能力、运营效率提出了极大的要求,基于此,应构建科学、完整的入湖流程及标准,保证生态圈数据能够顺利、高效的入湖并发挥效果

贴近实际:充分融合业务需求,遵循业务优先原则
计算效率:充分保证数据质量,让计算效率显著提升
边际效益:合理控制数据入湖速度、在成本控制的前提下,实现效益最大化
生态创新:数据、业务、需求间的融会贯通,实现生态圈的关联及衍生场景

e201d22e93c3f656b6eef4ce9a805fe9.jpeg

生态圈入湖建设思路与步骤26

9891d113069ef3f7427edb4c5950ba78.jpeg

生态圈数据整合处理原则及关键点28

基于共性化数据处理,支撑广泛、稳定的共享应用;

5f44f03f636afa7a4b78c87eb169c603.jpeg

生态圈自然人实体归集与对齐

客户资料归集应具备基于资料信息的规则匹配识别和基于客户海量的通信相关信息的挖掘识别方法:
1)通过规则匹配识别技术,高效地完成准确性较高的资料信息自然人识别;
2)基于大数据技术构建自然人识别模式,作为规则识别的有效补充,提高自然人识别成功率,减少人工核查确认工作量。

关键能力要求:
规则识别和大数据技术识别配合完成资料聚合;深度应用大数据识别技术,通过照片留存、交际圈、位置轨迹、虚拟身份等信息,识别出从资料层面不能反映出的同一自然人。
大数据技术识别应用到的技术:文本分词、文本匹配、似度计算、多音字库、象形字库、网络图谱算法、指纹权重、关系传递等;

012bd3bf425a2b03c3c961de526ec4d0.jpeg

生态圈数据接入与存储

通过对五大生态圈数据采集入湖,统一规范转换后,为各类专区应用提供数据支撑。
生态圈入湖
根据生态圈系统的建设情况,科学规划多种采集方式入湖
生态圈数据规范
围绕大数据湖功能分区,探索各类数据的存储要求和能力建设
生态应用服务
针对生态业务应用需求,确定大数据湖的应用支撑模式,构建专区建设规范

58e72cfa4f52c3bebc4b16c28657ca37.jpeg

大数据湖统一访问共享建设规划 —— 统一目录/透明访问

访问共享是湖中数据和应用、能力之间的桥梁,任何功能/应用模块使用湖中数据时,不需要关心数据的存储方式、存储介质、存储位置等信息,只要和访问共享连接既可以实现湖中数据的访问。

91e2debc6375677094b8a25c5590c886.jpeg

统一访问共享典型应用场景

专区应用开发者通过统一访问引擎访问湖中共享数据,专区应用直接访问自有专区数据,实现湖中数据统一共享管控和应用 访问灵活访问自有专区数据

116436971507c55646b0d16301c6f24d.jpeg

统一数据服务中间件 —— 跨域联邦/标准查询/统一访问

跨底层数据存储平台
多种数据存储体系,如关系型DB、KV-DB、文件系统等
统一标准化数据查询
通用的数据查询语言,支持跨平台访问,如PL/SQL,HQL等
灵活安全的权限管控机制
多种数据服务场景的权限管控,如查询、分析等
跨数据结构的逻辑化访问
多应用系统的物理结构透明化逻辑封装,如OLTP、OLAP等
外部应用的便捷接入
多种应用接入能力,如JDBC、Socket等

b4c94f8b6e15bf5c1fd93aad4a6eca12.jpeg

大数据湖运营管理体系规划

大数据湖运营管理能够为全网提供统一的运营和协同管控,包括运维支撑、运营监控和数据生态评估等多个方面,实现各类数据风险和隐患的快速排查,提升运营效率,为智慧化的运营战略奠定基础。

01ae2d5883c46d5a8bfdcffdd25f6aa0.jpeg

运维支撑:增加数据质量稽核能力

提供自助化的数据分析和质量探索服务,基于分布式计算能力,通过探索分析工具和SQL调试器进行数据质量自助探索,增加对业务、关联稽核的手段,并生成质量报告和统计报表。应用指标验证由数据应用方根据应用需要和口径进行自主分析探索,探索结果可固化为专项稽核。

17f120ecac585e37dc20d1d0200916e8.jpeg

篇幅有限,无法完全展示,喜欢资料可转发+评论,私信了解更多信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/507713.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【新星计划-2023】详解交换机的工作原理、功能与作用

交换机有多个端口,每个端口都具有桥接功能,可以连接一个局域网或一台高性能服务器或工作站,实际上,交换机有时被称为多端口网桥。那么,对于交换机的工作原理这块你是否有了解呢?接下来我们就来为大家详细介…

Android程序员如何面临被优化(亲身经历与看法)

前言 相信大家都有过这样一个经历,就是在一家公司工作久了,能轻松的完成每天的工作内容,无论是在大公司还是其他小公司,这样的状态时间长了之后,公司领导就会认为你每天不做事,总暗中招一些工资低的人代替…

java基础知识梳理

虽然已经在实际工作中与java打交道5年之多,但是一直没系统地对java这门语言进行梳理和总结,掌握的知识也比较零散。恰好利用这段时间重新认识下java,并对一些常见的语法和知识点做个总结与回顾,一方面为了加深印象,方便…

OtterCTF---Memory Forensics内存取证(1-13)

一.OtterCTF 内存取证 CTF地址: OtterCTF 国产化一下: 注册一下 登录就可以 (注:因为邮箱不验证,随意搞个就可以): 1 - What the password? 第一题: 国产化: 下载…

DEJA_VU3D - Cesium功能集 之 104-攻击箭头(标绘+编辑)

前言 编写这个专栏主要目的是对工作之中基于Cesium实现过的功能进行整合,有自己琢磨实现的,也有参考其他大神后整理实现的,初步算了算现在有差不多实现小140个左右的功能,后续也会不断的追加,所以暂时打算一周2-3更的样子来更新本专栏(每篇博文都会奉上完整demo的源代码,…

FreeRTOS:中断配置

目录 一、Cortex-M 中断1.1中断简介1.2中断管理简介1.3优先级分组定义1.4优先级设置1.5用于中断屏蔽的特殊寄存器1.5.1PRIMASK 和 FAULTMASK 寄存器1.5.2BASEPRI 寄存器 二、FreeRTOS 中断配置宏2.1configPRIO_BITS2.2configLIBRARY_LOWEST_INTERRUPT_PRIORITY2.3configKERNEL_…

Class 01 - R语言介绍及部分功能演示

Class 01 - R语言介绍及部分功能演示 教程介绍功能演示数据导入 R语言&Python对比在数据科学中的不同优势 教程介绍 在本章中,将学习到编程的新概念,以及如何使用R语言来做数据的分析。 我们先谈谈计算机编程吧,计算机编程是指向计算机…

计算机网络学习笔记-数据链路层

目录 概述 三个功能 封装成帧 透明传输 差错检测 点对点协议PPP 三个组成部分 帧格式 透明传输 工作状态 使用广播信道的局域网 以太网 两个主要标准 高速以太网(速率 > 100Mb/s) MAC层: 集线器 交换机 自学习和转发帧 生…

tkinter+re实现百度网盘分享链接自动跳转

目录 一、背景 二、需求分析 三、实现 三、打包 四、测试 一、背景 相信大家使用百度网盘的时候都会去一些链接网站吧,比如下面这个网站 这个网站具体实现的功能是:管理员上传百度网盘链接,用户点击复制链接按钮可以将百度网盘的分享链…

线性结构-数组

数组(Array)是最简单的数据结构,是由有限个相同类型的变量或对象组成的有序集合。因为数组中各元素之间是按顺序线性排列的,所以数组是一种线性数据结构。 数组是一类物理空间和逻辑形式都连续的线性数据结构: 数组用唯一的名字标识&#xf…

输出数字的位数(C语言)以及逆序输出

#include <stdio.h>int main() {int N;int i 0;scanf("%d",&N);int a[5];int j;while(N > 0){a[i] N%10;i;N N/10;}printf("这个数字是%d位数\n",i); for(j 0;j < i;j){printf("%d",a[j]);} } 原题如下&#xff1a;

并发编程08:原子操作类

文章目录 8.1 基本类型原子类8.1.1 常用API简介8.1.2 Case 8.2 数组类型原子类8.2.1 常用API简介8.2.2 Case 8.3 引用类型原子类8.4 对象的属性修改原子类8.4.1 使用目的8.4.2 使用要求8.4.3 Case 8.5 原子操作增强类原理深度解析8.5.1 常用API8.5.2 面试题8.5.3 点赞计数器8.5…

读书笔记-《ON JAVA 中文版》-摘要15[第十五章 异常]

文章目录 第十五章 异常1. 异常概念2. 基本异常2.1 基本异常2.2 异常参数 3. 异常捕获3.1 try 语句块3.2 异常处理程序3.3 终止与恢复 4. 自定义异常4.1 自定义异常 5. 异常声明6. 异常捕获6.1 捕获所有异常6.2 多重捕获6.3 栈轨迹6.4 重新抛出异常6.5 精准的重新抛出异常 6.6 …

ExpressGridPack Crack快速电子表格

ExpressGridPack Crack快速电子表格 ExpressEditors库 外壳对话框-对话框窗体不会出现在活动监视器中。 TdxVisualRefinements.PPadding属性对dxTokenEdit没有影响。 Express库 TdxVisualRefinements.PPadding属性对dxTokenEdit没有影响。 ExpressQuantumTreeList套件 TcxTreeL…

二层交换机和三层交换机到底区别在哪?

你好&#xff0c;这里是网络技术联盟站。 今天我们谈谈二层交换机和三层交换机。 二层交换机的概念和特点 二层交换机是一种工作在数据链路层的网络设备&#xff0c;主要功能是根据数据帧中的MAC地址进行转发&#xff0c;并将这些MAC地址与对应的端口记录在自己内部的一个地…

IDA常用宏定义函数

一.引言 做题目遇到了几个神奇的函数. SDWORD1(x), SDWORD2(x), SHIDWORD(x) 通过查询得知是IDA的宏定义函数 宏定义本身类似字符串替换,假设#define x 666 只是编译器在预处理阶段进行宏展开,将所有的x替换为666,然后再进行编译 二.IDA宏定义头文件 可以在路径\IDA_Pro_7.7…

Dubbo2.7 纯注解使用+ Nacos + Springboot 整合集成

Dubbo2.7 纯注解使用 NacosSpringboot 环境准备篇相关依赖nacos准备代码编写服务提供者服务使用者整体结构图 结果 常规操作篇服务分组服务版本参数传递泛化调用参数校验只订阅延迟暴露服务端异步回调多协议复用多注册中心本地存根 服务治理篇超时时间重试并发控制权限控制服务…

css04笔记

目录 盒子模型 5.7 外边距折叠现象 – ① 合并现象 5.8 外边距折叠现象 – ② 塌陷现象 5.9 行内元素的margin和padding无效情况 一、结构伪类选择器 &#xff08;了解&#xff09;nth-of-type结构伪类选择器 二、伪元素 三、标准流 四、浮动 浮动的代码&#xff1a; …

用 Pygal 模拟掷骰子

这篇博客&#xff0c;我们将学习使用 python可视化包 Pygal 来生成矢量图形文件。针对于需要在尺寸不同的屏幕上显示的图表具有很大用处。因为它们可以自动缩放&#xff0c;以此来适合观看者的屏幕。 . 在这个项目中&#xff0c;我们将对掷骰子的结果进行分析。掷6面的常规骰子…

<Linux> 基础IO(文件操作、文件描述符fd、重定向)

基础IO&#xff08;文件操作、文件描述符fd、重定向&#xff09; 文章目录 基础IO&#xff08;文件操作、文件描述符fd、重定向&#xff09;一、回顾C和C的文件操作二、C语言文件IO1.什么是当前路径&#xff1f;2.C语言文件接口汇总3.默认打开的三个流 三、系统文件IO1.open2.c…