终于有人把数据中台讲明白了

news2024/9/22 17:29:29

在大数据发展的黄金期,几乎所有的高科技企业都在思考一个问题:海量数据作为大多数企业发展不可避免的一个趋势之后,企业该怎么去应用这部分数据资产,会对其商业产生什么影响,如何使数据对企业产生正面的推动而不是成为企业的负担。

作为国内的主要大数据玩家,阿里在2015年提出了“大中台、小前台”的战略,奠定了其内部发展数据中台的基础。2018 年因为“腾讯数据中台论”,中台再度成为了人们谈论的焦点。至此,关于“数据中台”的讨论从未停歇,大概没有什么大数据概念像数据中台一样,这般具有争议争议吧!那么数据中台究竟是“新瓶装旧酒”,还是真正可以助力企业的“大杀器”?本文主要从数据中台的本质和价值,到典型企业的数据中台架构,再到企业究竟需要什么样子的数据中台,多个视角对数据中台进行解读。

数据中台是什么?

数据中台,可以把它想象成一个数据服务工厂,核心功能是将原始数据转化为对企业有价值的、可复用的数据智能服务。为了方便理解,我们对物理世界里工厂的概念,把数据中台的概念抽象和分解一下。

● 原材料(源数据):数据中台的原材料包括企业内部生成的数据和外部获取的数据。这些数据是数据中台进行加工和分析的基础。

● 数据质量控制(数据湖):数据湖是存储大量原始数据的地方,类似于原材料仓库。在这里,数据需要经过清洗、转换和质量检查,以确保其可用性和准确性。

● 生产厂房(数据管道):数据管道是数据流动和处理的通道,负责将数据从数据湖传输到需要它们的地方,进行进一步的加工和分析。

● 半成品/产品仓库(数据集市):数据集市是数据产品和数据服务的存储地,类似于工厂的成品仓库。这里存放着经过加工的数据,可供企业内部不同部门或外部客户使用。

● 智能创新实验室(数据产品和服务创新):智能创新实验室是数据中台进行新数据产品和新数据服务研发的地方,推动企业数据能力的持续创新和优化。

● 治理和办公室(数据治理和服务治理):数据治理和服务治理确保数据中台的运作符合企业的标准和法规要求,提高数据的质量和安全性,减少浪费,提高效率。

企业为什么需要数据中台

● 企业希望数据距离业务更近

以前的数据部门离业务部门有距离,业务部门不能直接使用数据,也不能直接地在数据当中发现价值,业务迫切希望距离数据更近,这是最大的一个需求。

● 企业希望数据中台能够提供数据服务

过去数据部门提供的都是可视化辅助决策类的服务,而企业希望数据中台能够提供高响应更实时的数据服务。

● 企业希望数据中台能直接提供业务价值

如何能够让数据直接产生业务价值,是企业非常关心的问题。

● 企业希望数据中台能够快速开发数据服务

如何能够让数据的开发,利用更快速?

当然,还有其他的期待:

● 企业希望数据中台和数据能够围绕业务场景来开展工作

● 提供统一数据

还有诸如:赋能业务更智慧、构建统一数据资产、打通数据孤岛等企业方面的迫切需求。总的来说,很明显能看到企业对于数据中台这个概念承载的重大期待。

在此基础之上,我们把数据中台抽象成6大价值,在六大能力基础之上支撑的就是数据中台的使命和愿景:构建数据驱动的智能企业。

1.  数据资产的规划和治理

现在很多企业在做数字化转型,有的企业还不具备基本的信息化系统,是不是就意味着不需要考虑数据了?或者等数据先有了,把后台建好,再来做中台?

不是这样的。因为数据是无时无刻不在产生的。重要的是:只要业务在生产,或者只要你的业务模式已形成,企业运转起来,你的数据就会时时产生。而且用什么数据也很清晰,区别只是到时候是用人工去处理这些数据,还是用系统去处理这些数据?

所以我们认为数据是不依赖于你的系统是否构建的,它是客观存在的,只是你没有通过技术的手段把它存储,采集下来而已。在这样的情况下,数据要早于应用规划。

构建数据中台,首先要有清晰的数据战略、数据资产的规划。企业需要清晰的知道自己要的是什么数据?现在需要什么数据?未来需要什么数据?可能会产生什么数据?数据未来在哪个系统里面去产生?他们之间的关系是什么?这个很重要。

这就是你要构建的数据资产目录,这个目录是一个逻辑结构,当你清晰的知道了这些结构以后,再去建设你的系统,这样的话,脑子就会非常清晰,只有这样才能从根本上去解决数据质量的问题、数据不一致的问题。

所以我们数据全景图、数据资产目录、数据的战略,这才是企业现在数字化转型的非常重要的第一步。

2.  数据资产的获取和存储

数据的全景图,实际上映射的是你的业务全景图。在这个基础之上,构建你的应用,同时采集数据资产。先采集什么数据后采集什么数据?数据之间的关系,采集数据用的工具,这些都是数据平台需要去解决的问题。

3.  数据资产的共享和协作

数据资产获取和采集以后,就要去让数据产生新的价值,把数据用起来。

这种情况下,一个非常重要的点是:数据一定要被企业所有的员工,乃至于企业价值链上的所有的人共享、开放和协作。

要让企业的每一个员工都清晰的知道有什么数据,数据的业务含义是什么?数据存放在哪里?只有这样,才不会出现数据的重复建设。如何把业务人员的想法变成数据的产品、协作?如何提高数据创新的速度?

每个企业都需要一个数据资产的协作平台,在这个平台上,业务需求提出人员,数据采集人员、数据开发人员,算法工程师,数据分析工程师,大家能够在一个平台自动化的协作,而不需要线下的这种协作。在同样的版本的数据基础上,用共同的沟通语言去交流协作,这样才能加快企业数据资产开发的速度。

4.  业务价值的探索和发现

业务人员提想法,然后在数据资产的这种探索平台里面去做实验,快速的在公有的数据中台的数据集、数据湖的基础之上,构建不同的数据沙箱。用不同的数据版本,去探索和挖掘业务价值。

5.  数据服务的构建和治理

当你发现一个数据集对业务很有价值,并且通过了验证以后,就要把它成开发成数据服务,让数据服务能够被更多的人使用。

6.  数据服务的度量和运营

有数据开发者,有数据消费者,这样的话就面临一个问题,哪些数据有价值?哪些数据服务有价值?

因为计算资源、存储资源都是有限的,不可能无限制的去开发和存储。所以要识别出有价值的服务,让它被更多的人所使用。让那些没有价值的数据服务,沉淀在底层,然后被销毁和释放。

这就是一个运营体系,让数据能够持续的运营产生价值。只有这6点都具备了,企业才是一个有数据驱动能力的这样的一个智能企业。

企业的数据中台架构 

上图是阿里数据中台发展至今的一张全景图,大家应该在云栖大会等多个场合有看到过这张图。阿里数据中台的整体核心其实是位于中间的三层数据中心:垂直数据中心、公共数据中心和萃取数据中心。

● 垂直数据中心:阿里通过将包括淘宝、天猫、聚划算、阿里妈妈广告、优酷土豆、高德等来自不同BU的数据进行采集,在清洗和结构化处理后形成垂直数据中心。

● 公共数据中心:在垂直数据中心已采集数据作为原料的基础之上,采用维度建模的方式,以业务过程作为粒度切分,处理成不因业务特别是组织架构变动而轻易推翻的数据中间层,由DWD明细层和DWS汇总层共同构成。

● 萃取数据中心:更进一步以客观业务实体(如人、货、场、企业等)为对象,围绕其建立起以统计指标、标签、关系等数据为主的数据体系,作为直接面向业务的萃取数据中心。

仅从这三层数据中心构成的数据资产体系来看,阿里的架构似乎并无太多先进之处,除萃取数据中心外,垂直数据中心和公共数据中心都能在数仓建模中找到其对应的架构,即便是萃取数据中心,在一些企业的商业智能或者大数据平台层面也能找到相应的雏形。所以,阿里数据中台的核心竞争力究竟是什么呢?

答案就是——产品+技术+方法论

历经阿里生态内各种实战历练后,云上数据中台从业务视角而非纯技术视角出发,智能化构建数据、管理数据资产,并提供数椐调用、数据监控、数据分析与数据展现等多种服务。

承技术启业务,是建设智能数据和催生数据智能的引擎。在OneData、OneEntity、OneService三大体系,特别是其方法论的指导下,云上数据中台本身的内核能力在不断积累和沉淀。在阿里巴巴,几乎所有人都知道云上数据中台的三大体系。

OneData致力干统一数据标准,让数据成为资产而非成本,其中包括OneModel,用于指导数据采集、数据建模、数据开发的规范性;OneEntity致力于统一实体,让数据融通而以非孤岛存在;OneService致力于统一数据服务,让数据复用而非复制,用于指导如何提供数据服务,包括质量安全、资产管理、数据交换、组织协作等流程的规范性。

这三大体系不仅有方法论,还有深刻的技术沉淀和不断优化的产品沉淀,从而形成了阿里巴巴云上数据中台内核能力框架体系。有了这套核心框架,对于阿里来讲,无论对其自身数据中台建设,还是对外输出解决方案,都提供了非常大的助力。

除了阿里,无论是华为、OPPO为代表的高科技制造行业,还是网易、滴滴为代表的互联网行业,都纷纷在自建或者提出了数据中台的解决方案,但是我们又发现,每一家企业似乎对数据中台都有自己不同的理解,这点从四家企业的数据中台架构图就可以看出。

可以解答最初的问题了,数据中台究竟是什么,或者说企业想要的数据中台究竟是什么样子的。数据中台不是技术体系,也不是一个具象的产品工具,它没有标准化的架构,但是一个成功的数据中台必然有其核心要素:

1.  数据中台不是纯粹的技术定义,应是管理+技术+业务的混合输出

2.  数据中台应该是数据资产的载体,提供基础的计算和存储平台,使数据可存可查可复用可共享可变现

3.  数据中台存储的每一笔数据都理应有业务的价值,所以需要完善的数据治理体系对其进行规范和管理

4.  数据中台应提供友好、自动化的工具来降低数据开发处理的门槛,让业务专注于业务

5.  数据中台需要指导方向的方法论,其建设和实施上不能再只是满足建设起一套IT系统,搭建起指导方向和持续演进的方法论才能事半功倍

作者来源: 数据集成与治理 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2101586.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Oracle APEX开发小技巧 7】解决初始化数据在动态操作-变更中被识别跳出弹窗的问题

在开发时有一个场景——推送开关数据来自于初始化动态操作,理论上只有变更的时候才会有二次提示,但是因为初始化会触发变更,所以会有弹窗,这不是我们想要的结果,有什么办法在初次回显数据不跳出提示吗?​​…

day-48 分割回文串

思路 利用dfs算法,用ids表示当前所指向字符的位置,依次判断s.charAt(ids),s.charAt(ids)s.charAt(ids1)…是否为回文字符串,如果是则加入链表p,再递归调用dfs函数 解题过程 每次调用dfs函数后记得还原现场 Code class Solution {public St…

【STM32+HAL库】---- 基础定时器中断控制LED

硬件开发板:STM32G0B1RET6 软件平台:cubemaxkeilVScode1 新建cubemax工程 1.1 配置系统时钟RCC 1.2 配置LED LED由PA5引脚控制,选择PA5引脚,选择GPIO_Output模式 1.3 定时时间的计算 T ( 预分频系数 1 ) ( 重装载值 1 ) 时…

RedisStack十部曲之二:Redis的核心概念

文章目录 键空间修改和查询键键过期遍历键空间 客户端缓存在计算机科学中有两个难题客户端缓存的Redis实现跟踪模式的工作机制统一的键命名空间 两种连接方式缓存策略Opt-in 模式Opt-out 模式广播模式NOLOOP选项避免竟态条件当与服务器失去连接怎么办什么值得缓存 流水线请求/响…

【2024 CCF编程能力等级认证(GESP)C++ 】 计算机基础知识

目录 1. 引言2. 计算机系统结构2.1 中央处理器(CPU - Central Processing Unit)2.1.1 运算器 2.1.2 控制器2.1.3 性能指标2.2 存储器2.3 输入设备2.4 输出设备 3. 计算机系统层次结构4. 操作系统4.1 操作系统分类4.2 操作系统常见操作4.2.1 基本开关机操…

SpringBoot实现文件内容对比

背景 在上一篇博客中,我实践了WORD转换成PDF/TXT的实现方式,本周接到一个新的需求,恰好就用上了这个成果。需求如下:客户提供一个WORD范本给用户,用户范本进行修改后,再反馈给客户。反馈的成果多种多样&…

RocketMQ消息回溯实践与解析

文章目录 1 问题背景2 验证2.1 生产者启动2.2 消费者启动2.3 执行回溯2.4 结果验证2.5 验证小结2.5.1 分析参数2.5.2 思考 3 分析3.1 策略模式,解析命令行3.2 创建客户端,与服务端交互3.3 获取topic对应的broker地址,提交重置请求3.4 与 name…

TCP 拥塞控制

概念详解 TCP拥塞控制是网络通信中的一个关键机制,它通过动态调整发送数据的速率来避免网络拥塞。以下是TCP拥塞控制的详细概念解释: 拥塞窗口(CWND, Congestion Window): 定义:发送方在收到接收方的确认(…

华为网络工程师证书等级有哪些?怎么备考?

华为网络工程师是由华为技术厂商推出的一系列网络工程师认证,其主要目的就是为了培养了验证网络工程师在华为技术以及解决方案方面的拥有一定的专业知识及技能,该证书分为多个等级,涵盖了不同网络领域及技术,也为众多的网络工程师…

SqlServer: 安装或升级到SqlServer2022

一、下载安装包。 https://info.microsoft.com/ww-landing-sql-server-2022.html?lcidzh-CN 简单注册一下之后,就可以下载安装包了。 或者在我的资源中下载: https://download.csdn.net/download/yenange/89709660 系统要求: https://…

暴力破解和撞库攻击有什么区别,怎么防御暴力破解和撞库攻击

在网络世界中,我们的账户安全时刻面临着各种威胁。其中,暴力破解和撞库攻击就是常见的两种危险手段。今天,就让我们深入了解这两种攻击方式的含义,并学习如何有效地进行防护。 暴力破解的含义 暴力破解,就如同一个不…

java【day03】---(Vue-Element)

1 Ajax 1.1 Ajax介绍 1.1.1 Ajax概述 我们前端页面中的数据,如下图所示的表格中的学生信息,应该来自于后台,那么我们的后台和前端是互不影响的2个程序,那么我们前端应该如何从后台获取数据呢?因为是2个程序&#xf…

星闪NearLink短距无线连接技术

星闪NearLink短距无线连接技术,作为华为主导的新一代无线短距通信标准技术,自2020年起由中国工信部牵头制定标准,旨在为万物互联时代提供更高效、更稳定的连接方式。 类似技术介绍 AirDrop(苹果) AirDrop是苹果公司开发…

Apifox使用学习

Apifox是API文档、API调试、API Mock、API自动测试一体化协作平台,定位SwaggerPostmanMockJMeter。 只需要定义好API文档,API调试、API数据Mock、API自动化测试就可以直接使用。 API文档和API开发测试使用同一个工具,API调试完成后即可保证…

PPT图表制作不再难!这款在线PPT软件让办公更简单!

ppt图表怎么制作? 在当下注重视觉呈现的数字化时代,有效的信息传递和数据可视化变得越来越重要。不管是商业演示、学术报告还是项目汇报,一份精心制作的PPT演示文稿,往往能够起到事半功倍的效果。其中,图表作为PPT中不…

n*n矩阵,输出矩阵中任意两点之间所有路径

题目1:给你一个正整数n, 构造一个n*n的四项链表矩阵。 要求: 1.使用四项链表 2.矩阵从左到右,从上到下值依次为1,2,3,4,......n*n 题目2:基于题目1, 在n*n链表矩阵中,输出矩阵中任意两点之间所有…

5款文案自动生成器,高质量创意文案一键为你生成

在当今竞争激烈的内容创作领域,每一个字、每一句话都承载着巨大的价值。对于创作者而言,文案自动生成器的出现,犹如在茫茫大海中点亮了一座指引方向的灯塔。它们不仅为创作者节省了宝贵的时间和精力,更像是一把神奇的钥匙&#xf…

5.4树,森林

5.4.1树的存储结构 可采用顺序存储结构or链式存储结构 要求能唯一的反映树中各节点之间的逻辑 1.双亲表示法 采用一端连续的空间来存储,同时在每个节点中增设一个伪指针,指示双亲节点在数组中的下标 优点:找双亲节点方便,找孩子不方便 attention:由于根节点无双亲节点,所以…

C++:关于反向迭代器的学习分享

前言: 小编仅是一位初学者,所以对于C的理解有限,文章大概率会出现表达不清楚可能也只是因为小编不知道如何更好表达,本文章仅作为一个学习的总结分享。 反向迭代器的概念 反向迭代器故名思意解释反向的迭代器,与正向迭…

地铁X光危险品检测数据集

地铁X光危险品检测数据集介绍 数据集概览 本数据集旨在为地铁X光安检系统提供高质量的危险品检测训练素材。数据集包含18类常见危险品,总共6265张图像,每张图像均经过精心标注,确保了数据的质量和一致性。数据集适用于多种格式(Y…