企业大数据湖总体规划及大数据湖 一体化运营管理建设方案

news2024/12/23 22:13:32

背景:数据快速入湖,分析更加智能,应用更加多样,服务更加开放

3d0ea4734423f9253d3e5b07a949a08a.jpeg

更多企业数据将进入数据湖,来自传统系统的数据和传感器等新型数据资源不断融合,数据孤岛将继续被打破。
随着大数据分析能力的不断提高,人工智能的重要性被逐步提升。当今最先进的机器学习和人工智能系统正在超越传统的基于规则的算法,创建出能够理解、学习、预测、适应,甚至可以自主操作的系统。

数据服务:以更加深度的数据开放,跨行业大数据关联。以更多样的应用能力,构建针对性行业解决方案。

数据应用:智能应用,基于AI与机器学习分析,个性化服务提供。应用快速构建,基于数据湖进行细粒度的收集、探索和分析

数据分析:从深度学习到机器学习,从机器学习到人工智能。基于数据湖的大量的原始数据,深度训练,快速分析

数据治理:入湖即治理,针对性对数据源系统输入数据制定入湖标准数据驱动治理规范,以数据为核心实时制定治理规范。

数据平台:数据平台存储方式向数据湖模式转变,多数据汇聚。支持结构化,半结构化和非结构化数据多数据入湖

数据湖的定义与特性

数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。湖中的数据包括结构化数据从关系数据库(行和列),半结构化数据(CSV、XML、JSON的日志),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像、音频、视频)从而形成一个集中式数据存储容纳所有形式的数据。

69ce82f844c43b8e0e2488a2f60a75c1.jpeg

从对比中理解数据湖概念 — 优势篇

67c2fb34342824ac2a7266eb8b58c030.jpeg

从对比中理解数据湖概念 — 劣势篇

90ae3b1439dcd375a41dd0ba066a6bc5.jpeg

数据湖是大数据概念的延伸

“数据湖”是关于企业应用大数据的概念,是面向企业的最佳的大数据的解决方案
“数据湖”不仅是数据存储和处理的单元,也是释放数据价值的过程
企业大数据应用成功的关键并不是存储所有的数据,而是要创建一个更有意义的“数据湖”,帮助企业加速提取高价值数据的速度
数据湖是大数据发展方向上的高级阶段,是一种建设理念,而不是一种特定的实施方法“数据湖”是个架构概念,是数据仓库的一种演进,是一种大数据概念下的延伸

f516786af10d24928406a393769e0711.jpeg

数据湖体系的架构规划

数据湖的逻辑架构

持久层(Persitent Layer):存放所有从内部和外部获取的结构化、半结构化和非结构化数据。
分析沙箱(Analytics Sandbox):数据科学家和分析师被授予持久层的访问权限并使用进行数据研究和实验。
探索数据源(Curated):数据分析师会将有商业价值的数据进行处理并创建新的数据源以提供给业务分析师。
可操作层(Operational layer):业务分析师继续精炼已处理过的数据,和数据管理团队一起将这些数据转换为更为容易操作和使用的数据,存放之以便得到更广泛的使用。

9bccdb21848797d3b7ba2bdce6452a3b.jpeg

大数据湖体系规划

39bdf8dcdef3eb0343005efcd8c00e31.jpeg

大数据湖存储能力规划——统一标准/分区存储

存储分区原则:
生产数据区:遵循电信集团数据建模标准及主数据规范要求;规范层面属于大数据湖范畴,物理资源层面可采用湖资源也可自建;
原生数据区:分域分类存储生产数据;将非标准数据做标准化转化;
整合数据区:采用大数据挖掘等技术进行实体归集补全;构建实体关联视图;
主数据区:存储企业级全网主数据,大数据主数据唯一提供者;
应用专区:本着数据不出湖,充分挖掘数据价值原则,为使用者提供基于自有、原生、整合数据的处理空间,面向应用开展数据处理工作;

02e83f5148749cbb0b8acccf41a84a78.jpeg

大数据湖原生数据区规划——原生入湖/分类存储/按需使用

以原生入湖分类存储按需使用为宗旨,分域分类存储按周期存储原生数据,为云公司、集团ODS、省份大数据平台提供原生数据共享服务,为湖内整合数据区、应用数据区提供原生数据服务。

dd30a520c20596c4ccd516d7f0d37140.jpeg

大数据湖整合数据区规划——构建企业级核心实体关联视图

整合数据区完成数据清洗、编码转换、实体对齐及构建企业级核心实体关联视图,为应用专区提供整合数据服务。整合数据区保持数据原子性粒度,不对数据做聚合处理,不影响业务专区业务指标加工处理。

2b5e949bdaf74c6122a9a2cca39342fb.jpeg

大数据湖应用数据专区规划——面向应用的自建自维数据专区

独立性:保证资源独立性、数据独立性、应用独立性;
可用性:保证存储、计算、数据资源高可用性及稳定性;确保专区资源可在线、平滑扩展;
易用性:提供丰富的可视化开发及专区运营工具;
可管理性:大数据湖对专区具备监控、审计能力;
数据服务性:专区数据可以数据形式服务,也可开发应用直接链接调用;

3054f3afa9e8c5dfcfb454a8a0f00fdd.jpeg

大数据湖主数据区规划 —— 企业级核心/统一运营保障

主数据区负责存储全域主数据,并确保与主数据生产者保持同步,为大数据湖各区提供唯一主数据源,以保证湖中企业级核心实体数据的一致性和完整性,提升大数据湖运营效率及效果。

统一主数据标准:面向全国各域各生产系统提供主数据标准;
统一主数据存储:面向大数据湖提供统一主数据存储能力;
统一主数据整合:清洗整合各域主数据,形成统一、标准、唯一主数据;
统一主数据服务:为大数据湖中各区提供主数据服务;

2a5ac92c3f9db3f050dc25dd1109d597.jpeg

生态圈自然人实体归集与对齐

客户资料归集应具备基于资料信息的规则匹配识别和基于客户海量的通信相关信息的挖掘识别方法:
1)通过规则匹配识别技术,高效地完成准确性较高的资料信息自然人识别;
2)基于大数据技术构建自然人识别模式,作为规则识别的有效补充,提高自然人识别成功率,减少人工核查确认工作量。

85c4be05735008139b9998e4ec66bb6c.jpeg

生态圈数据接入与存储

通过对五大生态圈数据采集入湖,统一规范转换后,为各类专区应用提供数据支撑。
生态圈入湖
根据生态圈系统的建设情况,科学规划多种采集方式入湖
生态圈数据规范
围绕大数据湖功能分区,探索各类数据的存储要求和能力建设
生态应用服务
针对生态业务应用需求,确定大数据湖的应用支撑模式,构建专区建设规范

dc74b0f73f8ca85f1f17087b9c13bab8.jpeg

大数据湖统一访问共享建设规划 —— 统一目录/透明访问

访问共享是湖中数据和应用、能力之间的桥梁,任何功能/应用模块使用湖中数据时,不需要关心数据的存储方式、存储介质、存储位置等信息,只要和访问共享连接既可以实现湖中数据的访问

772c7d0556c34d61afb56d537ddfebb5.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/424917.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

借助Nacos配置中心实现一个动态线程池

目录 一、实现思路 二、实现说明概览 三、代码实现 DynamicThreadPool RejectedProxyInvocationHandler DynamicThreadPoolRegister DynamicThreadPoolRefresher 测试动态线程池 平常我们系统中定义的一些线程池如果要想修改的话,需要修改配置重启服务才能生…

『pyqt5 从0基础开始项目实战』05. 按钮点击事件之添加新数据 (保姆级图文)

目录导包和框架代码给按钮绑定一个点击事件获取输入框的数据多线程与界面更新(新线程与UI更新的数据交互)代码结构完整代码main文件Threads.py总结欢迎关注 『pyqt5 从0基础开始项目实战』 专栏,持续更新中 欢迎关注 『pyqt5 从0基础开始项目…

上海亚商投顾:沪指创年内新高 大金融、中字头集体走强

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪 沪指今日低开高走,午后涨超1%,创出近10个月以来新高,创业板指走势较弱&#xf…

不走弯路,AI真的能提高生产效率

AI应用虽然取得了令人瞩目的成果,但是在实际应用中仍存在不少困境。市面上不乏有AI绘画、AI写作、AI聊天的相关产品,即使Chatgpt可以写代码、写论文,但由于技术的有限性,还需要不断地优化完善才能给出更精准的答复,也少…

契约锁与多家软件行业伙伴达成战略合作,携手助力组织数字化转型

近日,契约锁电子签章与天翼云、神州数码、同望科技、宏灿软件、甄零科技、正量科技等多家软件行业伙伴达成战略合作,充分发挥各自专业与资源优势,从产品、市场、销售、技术等多方面展开深度合作,共同为客户提供全程数字化解决方案…

zabbix创建自定义监控模板

目录 第一章先行配置zabbix 第二章配置自定义 2.1.案列:自定义监控客户端服务器登录的人数需求:限制登录人数不超过 3 个,超过 3 个就发出报警信息 2.2.在 Web 页面创建自定义监控项模板 2.3.zabbix 自动发现与自动注册 总结 自定义监控…

【论文精度(李沐老师)】Generative Adversarial Nets

Abstract 我们提出了一个新的framework,通过一个对抗的过程来估计生成模型,其中会同时训练两个模型:生成模型G来获取整个数据的分布,辨别模型D来分辨数据是来自于训练样本还是生成模型G。生成模型G的任务是尽量的让辨别模型D犯错…

DI依赖注入

DI依赖注入Setter注入setter注入引用类型setter注入简单类型(基本数据类型和字符串)构造器注入构造器注入引用类型自动装配集合注入首先我们明确一些观点1、注入的Bean的数据包括引用类型与简单类型(基本数据类型和字符串)2、通过…

HTML5 地理定位

HTML5 Geolocation(地理定位) HTML5 Geolocation(地理定位)用于定位用户的位置。 Geolocation 通过请求一个位置信息,用户同意后,浏览器会返回一个包含经度和维度的位置信息! 定位用户的位置 …

【C语言数组部分】

数组部分综述引入:数组概念:一、一维数组1.1一维数组的创建:1.2一维数组的初始化:1.2.1初始化概念:1.2.2完全初始化:1.2.3不完全初始化:1.3字符数组的初始化:1.3.1用字符初始化&…

如何解决spring的循环依赖问题?

前言 昨天我们说了什么是spring的循环依赖,以及产生的原因,今天那我们就来说说如何解决spring的循环依赖问题。 上篇文章说到过,只有通过setter方法进行依赖注入且是在单例模式下产生的循环依赖问题是被解决的? Spring是怎样解决…

rhce第二次作业

配置ssh免密登陆,能够通过客户端主机通过redhat用户和服务端主机基于公钥验证方式进行远程连接 [root456 ~]# hostname host [root456 ~]# bash \\更改名称[roothost ~]# su redhat …

2023年腾讯云S5云服务器性能网络收发包PPS、连接数、内网带宽能力等性能测评

腾讯云服务器标准型S5实例CPU采用Intel Xeon Cascade Lake或者Intel Xeon Cooper Lake处理器,主频2.5GHz,睿频3.1GHz,标准型S5云服务器基于全新优化虚拟化平台,配有全新的Intel Advanced Vector Extension (AVX-512) 指令集&#…

微服务+springcloud+springcloud alibaba学习笔记【Spring Cloud服务网关】(7/9)

Spring Cloud服务网关 7/91、GateWay概述2、GateWay的特性:3、GateWay与zuul的区别:4、zuul1.x的模型:5、什么是webflux:6、GateWay三大概念:6.1,路由:6.2,断言:6.3,过滤:7、GateWay的工作原理:8、使用GateWay:8.1,建module8.2,修改pom文件8.3,写配置文件8.4,主启动类8.5,针对p…

Springboot 整合 Redis 进行基本操作

SpringBoot整合Redis 首先创建 Springboot 项目。 spring-data-redis针对jedis提供了如下功能:1.连接池自动管理,并提供了一个高度封装的“RedisTemplate”类2.针对jedis客户端中大量api进行了归类封装,将同一类型操作封装为operation接口ValueOperat…

计网第六章.应用层各协议概览

以下来自湖科大计算机网络公开课笔记及个人所搜集资料 目录一. C/S方式和P2P对等方式二. 动态主机配置协议DHCP三.域名系统DNS域名解析过程四.文件传输协议FTP基本工作原理:五.电子邮件六.万维网www万维网的文档6.1 HTTP(HyperText Transfer Protocol&am…

左手Python 右手R —— 最大公约数和最小公倍数

左手Python 右手R —— 最大公约数和最小公倍数前言1、 最大公约数1.1 约数1.2 最大公约数1.3 求解方法2、 最小公倍数2.1 倍数2.2 最小公倍数2.3 求解方法3、程序实现3.1 python 代码实现3.2 R语言代码实现小结创作不易,都浏览到这儿了,看官可否将下面的…

【Linux系统创建,修改用户和组和修改目录文件的权限以及实验的心得体会】

实验过程 1.创建一个新用户nick,设置其主目录为home/nick。 (1)添加新用户: sudo useradd -m 用户名 sudo passwd 新用户名 (2)给新用户可以执行的root权限 sudo vi /etc/sudoers #User privilege specification roo…

Spring Security实战(一)——基于内存和数据库模型的认证与授权

目录 简介 一、初识Spring Security(入门案例) (1)新建project (2)选择依赖 (3)编写一个 HelloController (4)启动项目,访问localhost:8080…

手动清除gitlab中prometheus的数据

背景: gitlab服务器上, 磁盘经常爆满。后来通过 du -sh ./* 查出prometheus下的data占了绝大多数磁盘空间。 因此,准备删除prometheus的数据。 思路 由于prometheus的数据占用的空间较大,因此在实际使用时,可以关闭…