华为:数据入湖,企业数据的逻辑汇聚(附数据湖建设方案下载)

news2024/9/20 10:41:15

往期回顾>>

  • 华为内部“维度数据”解析

  • 数据入湖是个什么鬼?

  • 为什么数据治理工作越来越迷茫?(附数据治理方案PPT下载)

  • 数字化的本质逻辑:连接、数据、智能

  • 125页PPT:数据中台应用技术方案

  • 数据中台解决方案,附55页PPT下载

  • 125页PPT:某行业数据架构蓝图规划方案

  • PPT分享:数据治理的方法论、设计思路与方案(干货)

  • 数字化转型之数据治理(附PPT下载链接)

  • PPT分享:某集团主数据治理项目方案与主数据治理方法论

  • 智能工厂的数据采集与应用是怎么做的?附PPT分享:智能制造工业互联网数字化智能工厂解决方案

  • Hadoop大数据平台构建及应用案例分析

  • PPT分享:华为-联通大数据平台规划方案

  • 27页PPT:数据安全治理解决方案

  • 67页PPT:如何利用大数据进行数据挖掘与分析

  • 华为数据架构核心要素:基于业务对象进行设计和落地

 数据湖建设方案下载链接见文末~

从传统信息化向数字化转型的过程中,企业积累了海量的数据,并且不断地增长。数据很多,但真正产生价值的数据却很少。数据普遍存在分散、不拉通的问题,缺乏统一的定义和架构,找到想要的、能使用的数据越来越困难。

华为从2007年就启动了数据治理,经历了两个阶段的持续变革,系统地建立了华为数据管理的体系。第一阶段10年的持续投入为华为在2016年开始的数字化转型打下了坚实的基础。同时在数字化转型蓝图的规划下,华为正式进入以建立统一的数据底座为核心的第二阶段,数据治理工作也迎来了新的挑战和发展。

今天笔者给读者带来的是华为数据底座的基础部分的构建内容-数据湖,详细说明华为如何通过数据湖的建设,实现数据的汇聚与连接,打破数据孤岛的。

数据湖是数据底座的基础部分,是逻辑上对各种原始数据的汇聚和集合,数据湖保留了数据的原格式,不对数据进行清洗和加工。

华为数据湖面向各领域,实现数据资产找得到、可理解、可信任,是数据主题联接和数据消费的基础。

华为数据湖的3个特点

华为数据湖(见下图)是逻辑上对内外部、结构化、非结构化的原始数据的逻辑汇聚。数据入湖要遵从6项入湖标准,以保证入湖数据的数据质量。

数据入湖的方式包括物理入湖和虚拟入湖。采用物理入湖时,原始数据将被物理存储在数据湖的物理表中;采用虚拟入湖时,原始数据不在数据湖中进行物理存储,而是通过建立对应虚拟表的集成方式实现入湖。两种方式相互协同,面向不同的消费场景共同满足数据连接和用户数据消费需求。

经过近几年的数据湖建设,华为目前已经完成2.2万个逻辑数据实体,50多万个业务属性的数据入湖,同时数据入湖在华为公司也形成了标准的流程和规范,每个数据资产都要入湖成为数据工作的重要标准。

图片

华为数据湖主要有以下几个特点:

1)逻辑统一。华为数据湖不是一个单一的物理存储,而是根据数据类型、业务区域等多个不同的物理存储构成,并通过统一的元数据语义层进行定义、拉通和管理。

2)类型多样。数据湖存放所有不同类型的数据,包括企业内部IT系统产生的结构化数据、业务交易和内部管理的非结构化的文本数据、公司内部园区各种传感器检测到的设备运行数据以及外部的媒体数据等。

3)原始记录。华为数据湖是对原始数据的汇聚,不对数据做任何的转换、清洗、加工等处理,保留数据最原始特征,为数据的加工和消费提供丰富的可能。

数据入湖的6项标准

数据入湖是数据消费的基础,需要严格满足入湖的6项标准,包括明确数据Owner、发布数据标准、认证数据源、定义数据密级、数据质量评估、元数据注册。通过这6项标准保证入湖的数据都有明确的业务责任人,且各项数据都可理解,同时都能在相应的信息安全保证下进行消费。

1.明确数据 Owner

数据 Owner 主要由数据产生所对应的流程Owner来担任,是所辖数据端到端管理的责任人,负责对入湖的数据定义数据标准和密级,承接数据消费中的数据质量问题,并制订数据管理工作路标,持续提升数据质量。

2.发布数据标准

入湖数据要有相应的业务数据标准。业务数据标准描述公司层面需共同遵守的“属性层”数据含义和业务规则,是公司层面对某个数据的共同理解,这些理解一旦明确并发布,就需要作为标准在企业内被共同遵守。数据标准包括的信息如下表所示。

图片

3.认证数据源

认证数据源,以确保数据从正确的数据源头入湖。认证数据源需遵循公司数据源管理的要求,一般数据源是指业务上首次正式发布某项数据的IT系统,并经过数据管理专业组织认证。认证过的数据源作为唯一数据源头被数据湖调用。当承载数据源的IT系统出现合并、分拆、下线情况时,需及时对数据源进行失效处理,并启动新数据源认证。

4.定义数据密级

定义数据密级是数据入湖的必要条件,为了确保数据湖中的数据能充分共享,同时又不发生信息安全问题,入湖的数据必须要定密。数据定密的责任主体是数据Owner,数据管家有责任审视入湖数据密级的完整性,并推动、协调数据定密工作。数据密级定义在属性层级,根据资产的重要程度,定义不同等级。不同密级的数据,有相应的数据消费要求。同时,为了促进公司数据的消费,数据湖中的数据有相应的降密机制,到降密期或满足降密条件的数据应及时降密,并刷新密级信息。

5.数据质量评估

数据质量是数据消费结果的保证。数据入湖不需要通过清洗数据来提升数据质量,但需要对数据质量进行评估,让数据消费人员了解数据的质量情况,并了解消费该数据的质量风险。同时数据Owner和数据管家可以根据数据质量评估的情况,推动源头数据质量的提升,满足数据质量的消费要求。

6.元数据注册

元数据注册是指将人湖数据的业务元数据和技术元数据进行关联,包括逻辑实体与物理表的对应关系,及业务属性和表字段的对应关系。连接业务元数据和技术元数据的关系,能够支撑数据消费人员通过业务语义快速地搜索到数据湖中的数据,降低数据湖中数据消费的门槛,让更多的业务分析人员能理解和消费数据。

华为数据入湖方式

数据入湖道循华为信息架构,以逻辑数据实体为粒度进行入湖。逻辑数据实体在首次人湖时应该考虑信息的完整性,原则上一个逻辑数据实体的所有属性应该一次人湖,避免一个逻辑实体多次入湖,增加入湖工作量。

数据人湖的方式主要有物理入湖和虚拟入湖两种。根据数据消费的场景和需求,一个逻辑实体可以有不同的入湖方式。两种入湖方式相互协同,共同满足数据连接和用户数据消费需求。数据管家有责任根据消费场景的不同,提供相应的人湖数据。

物理入湖是指将原始数据复制到数据湖中,包括批量处理、数据复制同步、消息和流集成等方式。虚拟入湖是指原始数据不在数据湖中进行物理存储,而是通过建立对应虚拟表的集成方式实现入湖,实时性强,一般面向小数据量应用,大批量的数据操作可能影响源系统。

数据入湖的5种主要技术手段包括批量集成(Bulk/Batch Data Movement)、数据复制同步(Data Replication/Data Synchronization)、消息集成(Message-Oriented Movement of Data)、流集成(StreamDataIntegration)、数据虚拟化(Data Virtualization)。

1.批量集成

对于需要进行复杂数据清理和转换且数据量较大的场景,批量集成是首选。通常,调度作业每小时或每天执行,主要包含ETL、ELT及FTP等工具。批量集成不适合低数据延迟和高灵活性的场景。

2.数据复制同步

数据复制同步适用于需要高可用性和对数据源影响小的场景。使用基于日志的CDC捕获数据变更,实时获取数据。数据复制同步不适合处理各种复杂的数据结构以及需要清理和转换复杂数据的场景。

3.消息集成

消息集成通常通过API捕获或提取数据,适用于处理不同数据结构以及需要高可靠性和复杂转换的场景。尤其是对于许多遗留系统、ERP和SaaS应用来说,消息集成是唯一的选择。消息集成不适合处理大量数据的场景。

4.流集成

流集成主要关注流数据的采集和处理,满足数据实时集成,每秒处理数万、数十万甚至数以百万计的事件流。流集成不适合用于需要复杂数据清理和转换的场景。

5.数据虚拟化

对于需要低延迟、高灵活性和临时模式(不断变化下的模式)的数据消费场景,数据虚拟化是一个很好的选择。在数据虚拟化的基础上,通过共享数据访问层,分离数据源和数据湖,减少数据源变更带来的影响,同时支持数据实时消费。数据虚拟化不适合处理大量数据场景。

5种数据入湖方式的对比可以参考下表。

图片

数据入湖可以由数据湖主动从数据源通过PULL(拉)的方式入湖,也可以由数据源主动PUSH(推)的方式入湖。数据复制同步、数据虚拟化以及传统ETL批量集成都是属于数据湖主动拉的方式。流集成、消息集成属于主动推的方式(见下表)。在特定的批量集成场景下,数据会以CSV、XML等格式,通过FTP推送给数据湖。

图片

数据湖的建设方案下载链接:

https://pan.baidu.com/s/1Ko4aZiN31BfBllJxF4135A?pwd=5wgv 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2058337.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

React 学习——forwardRef,暴漏子组件的dom元素

父组件拿到子组件的值&#xff1a;使用forwardRef import { forwardRef,useRef } from react;const Input forwardRef((props,ref)>{return <input type"text" ref{ref} /> })const App () > {const inputRef useRef(null);const showRef () > …

[答疑]心脏的功能是泵血,心脏是个模块,所以“功能模块”没毛病啊!

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 有同学在我的视频下留言&#xff1a; 其实认真看我的视频或书就明白&#xff0c;这和我说的不是一回事。 这个留言有点新意&#xff0c;和以往的留言如“人能说话&#xff0c;嘴就是…

Python | Leetcode Python题解之第352题将数据流变为多个不想交区间

题目&#xff1a; 题解&#xff1a; from sortedcontainers import SortedDictclass SummaryRanges:def __init__(self):self.intervals SortedDict()def addNum(self, val: int) -> None:intervals_ self.intervalskeys_ self.intervals.keys()values_ self.intervals…

常见分布式ID解决方案的优缺点

分布式系统之所以难,很重要的原因之一是“没有一个全局时钟,难以保证绝对的时序”。 一、分布式ID的特性或要求: 唯一性:确保生成的ID是应用系统内唯一。高可用性:确保任何时候都能正确的生成ID。有意义:或者说包含更多信息,例如时间、业务等信息。如:有序性,通常都需…

多重示例详细说明Eureka原理实践

Eureka原理&#xff08;Eureka Principle&#xff09;是指在长时间的思考和积累之后&#xff0c;通过偶然的瞬间获得灵感或发现解决问题的方法的一种认知现象。这个过程通常包括三个主要阶段&#xff1a;准备阶段、潜伏期以及突然的灵感爆发。下面详细说明Eureka原理的实践步骤…

零拷贝并非万能解决方案:重新定义数据传输的效率极限

PageCache有什么作用&#xff1f; 在我们前面讲解零拷贝的内容时&#xff0c;我们了解到一个重要的概念&#xff0c;即内核缓冲区。那么&#xff0c;你可能会好奇内核缓冲区到底是什么&#xff1f;这个专有名词就是PageCache&#xff0c;也被称为磁盘高速缓存。也可以看下wind…

TY6802 同步整流PCB设计注意事项

TY6802 系列是一款用于反激式电源次级同步整流芯片&#xff0c;TY6802能可靠支持包括 DCM、CCM和准谐振模式。TY6802 集成了一个 100V 功率 MOSFET&#xff08;TY6802A&#xff1a;100V15mR; TY6802B&#xff1a;100V10mR; TY6802C&#xff1a;100V7.5mR;) &#xff0c;可以取代…

基于ESP32的OEE分析开发板上MQTT协议的实现

整理自 《Implementation of MQTT Protocol on ESP32-Based OEE Analysis Development Board》&#xff0c;作者是Amir Akbar Wicaksono, Yuli Kurnia Ningsih, 和 Indra Surjati&#xff0c;发表于《MITOR: Jurnal Teknik Elektro》。论文讨论了在工业4.0背景下&#xff0c;通…

数字化技术分别有哪些,数字化技术特点和优势是什么?

​随着企业数字化进程的加速&#xff0c;人工智能、工业互联网、低代码等底层技术正全面重塑企业运营生产体系&#xff0c;推动新的生产要素、研发范式和商业模式的建立。 这个变革过程不仅是对原有制造体系的颠覆&#xff0c;而且会影响各行各业的所有细分行业和产业链价值链…

探索地理空间分析的新世界:Geopandas的魔力

文章目录 探索地理空间分析的新世界&#xff1a;Geopandas的魔力背景&#xff1a;为何选择Geopandas&#xff1f;这个库是什么&#xff1f;如何安装这个库&#xff1f;五个简单的库函数使用方法场景应用&#xff1a;Geopandas在实际工作中的应用常见bug及解决方案总结 探索地理…

UE5 日期时间蓝图变量 加减节点

参考链接&#xff1a;Having troubles with DateTime in UE5 - General / Feedback & Requests - Epic Developer Community Forums (unrealengine.com) 直接粘贴到UE5蓝图图表可用。&#xff08;反之相加&#xff0c;用负号操作一下&#xff09; 减号蓝图节点&#xff08;…

php源码编译与初始化

1 php源码编译 解压 yum install -y bzip2 # 安装解压工具 tar -xf php-7.4.12.tar.bz2 # 解压文件./condigure ./configure --prefix/usr/local/php --with-config-file-path/usr/local/php/etc --enable-fpm --with-fpm-usernginx --with-fpm-groupnginx --with-curl --wi…

Nginx--流量控制

前言&#xff1a;本博客仅作记录学习使用&#xff0c;部分图片出自网络&#xff0c;如有侵犯您的权益&#xff0c;请联系删除 一、流量限制 1、介绍 流量限制 (rate-limiting)&#xff1b;可用来限制用户在给定时间内HTTP请求的数量。请求&#xff0c;可以是一个简单网站首页…

Element-UI Table实现列表筛选数据及列表嵌套选择框

VUE 框架在 Element UI 的基础上&#xff0c;Table 组件中实现了列表数据的修改功能&#xff0c;支持单选和多选功能&#xff0c;并且列表具备筛选功能。样式如图所示。 功能介绍 点击table列名实现筛选查询功能相关性判断点击列表中的正方形实现选择框功能&#xff0c;同时修…

设计模式-创建型模式-建造者模式

1.建造者模式定义 建造者模式又称生成器模式&#xff0c;将一个复杂对象的构建与表示分离&#xff0c;使得同样的构建过程可以创建不同的表示&#xff1b; 1.1 建造者模式优缺点 优点 封装性好&#xff0c;主要的业务员逻辑封装在指挥者类中&#xff1b;客户端不必知道产品内…

RabbitMQ练习(Work Queues)

1、RabbitMQ教程 《RabbitMQ Tutorials》https://www.rabbitmq.com/tutorials 2、环境准备 参考&#xff1a;《RabbitMQ练习&#xff08;Hello World&#xff09;》 确保RabbitMQ、Sender、Receiver容器正常安装和启动&#xff1a; rootk0test1:~# docker run -it --rm --…

流体中的流线【StreamLines】的实现

流线是一条线&#xff0c;它是 与瞬时速度方向相切&#xff08;速度是一个矢量&#xff0c;并且 它有一个大小和一个方向&#xff09;。为了在流程中可视化这一点&#xff0c;我们 可以想象一个小的标记流体元素的运动。例如&#xff0c;我们可以标记一个 用荧光染料滴水&#…

nginx和tomcat负载均衡

文章目录 一&#xff0c;tomcat1.tomca用途2.tomcat重要目录 二&#xff0c;nginx1.Nginx应用2.nginx作用3.nginx的正向代理和反向代理3.1正向代理3.2反向代理(单级)3.3反向代理(多级) 4.nginx负载均衡4.1Nginx支持的常见的分流算法1. 轮询(Round Robin):2.最少连接数(LeastCon…

OLED整体刷新到结合switch刷新方式演变

OLED整体刷新到结合switch刷新方式演变 引言 OLED刷新模式, 其实很简单, 就和prinf输出一样, 只是我们这里利用OLED来输出我们所需要的东西了。 至于OLED单独整体刷新, 还是利用switch刷新, 都是形而上学, 形的东西, 至于底层, 江协科技大佬已经帮我整理好了, 我们是站在巨人的…

[ 全部搞定 - 发票导出表格 ] PDF发票提取到表,图片发票提取到表格,扫描件发票提取到表格,全电发票PDF,全电发票扫描件识别导出EXCEL表格

最近很多朋友说找PDF发票提取Excel表格的&#xff0c;找到了图片识别Excel表格的&#xff0c;有的找图片识别Excel表格的&#xff0c;找到了PDF发票提取表格的&#xff0c;所以就很难搞&#xff0c;还有的说都想要 今天一篇文章&#xff0c;全部搞定所有发票【电子发票&#x…