【数据架构系列-03】数据仓库、大数据平台、数据中台... 我不太认同《DataFun数据智能知识地图》中的定义

news2024/7/6 19:23:45

关注DataFunTalk有2年多了,DataFun确实像创始人王大川讲的那样,践行选择、努力和利他原则,专注于大数据、人工智能技术应用的分享与交流,秉承着开源开放的精神,免费的共享了很多有营养的行业实践专业知识,对于这样有情怀的团队真心希望他们越办越好。2022年底DataFun发布《DataFun数据智能知识地图》,一看就做得很用心,内容涵盖数据采集与治理、数据架构、数据能力、数据应用等四大领域、15大数据模块,拆解了数据流转全流程。其中,就包含数据仓库、大数据平台、数据中台的定义,但是我确实不太认同这样的定义,引用原文如下:

数据中台 = 大数据平台 + 数据仓库 + 数据应用和服务

  • 大数据平台:位于最底层,支持海量数据存储,并支持实时流数据计算、离线批量计算、数据挖掘、交互式查询等场景的一套基础平台设施
  • 数据仓库:是基于大数据平台的存储引擎、存储格式(Hive、Delta Lake等),基于维度建模方法建设的结构化数据集合,目的是为所有类型的数据支持提供数据环境
  • 数据中台:是基于大数据平台提供的底层平台能力、以及数仓提供的结构化数据环境,搭建的面向业务的统一的数据应用服务

真的定义对了吗

乍一看就感觉不太对,怎么成了“洋葱模型”,大数据平台成了最里层。难道我们几年前称呼的大数据平台就没有了数据应用服务,也没有了面向主题的数据集合。我们还是找几篇以前的论文看看,看看那个时代我们对这些名词是怎样的认知。

下图是1995年发表在今日电子期刊的文章《“数据仓库”讲座》,从操作型系统抽取数据构建数据仓库,从而支撑分析型数据库;再看看2011年《架构大数据 :挑战 、现状与展望》一个典型的数据仓库架构,包括数据源、数据存储与管理、OLAP服务、前端展示。从90年代不就是和我们现在数据中台朴素的架构认知一样吗。

在这里插入图片描述
在这里插入图片描述

我们再看看大数据平台,2013年系统仿真学报收稿《大数据平台技术综述》,文章给出了大数据平台体系架构,如果换成“数据中台架构”这个词,你也挑不出大毛病吧,讲真,那时候真的没有数据中台这个词,人家不是抄袭。

在这里插入图片描述

我们回归到数据中台,在2019年发表在期刊数据与计算发展前沿中的《数据中台技术相关进展及发展趋势》,给出了数据中台整体架构图,这也是我认为定义的比较全面比较好的数据中台架构,要是把这个词换成大数据平台架构图也无可厚非,谁叫你出道晚,难免抄人家。

在这里插入图片描述

因此,数据中台 = 大数据平台 + 数据仓库 + 数据应用和服务,是不对的,从上世纪90年代,我们对于数据仓库认知就是从数据抽取、汇聚、加工、整合、应用等等,每层都没少啊,千万不要掩耳盗铃,自以为是。

到底什么区别

我认为,从数据仓库到大数据平台再到数据中台不是包含和被包含的问题,而是由浅入深,有简入细的问题。这很好理解,90年代的数据仓库建设肯定也有数据治理范畴,这个工作我们潜移默化的在做,只不过没有提升到一个理论高度,没有形成一个专门的学科而已。随着技术的发展、数据量的增加、业务的需求、行业的重视,我们逐渐把工作做细,也就用新的名词来称呼。

数据仓库 VS 大数据平台

  1. 大数据平台存储计算能力更强:2005年前后Hadoop技术的出现,让数据存储能力更高,不但存储结构化、而且半结构化和非结构的数据来而不拒,同时计算能力更加强大。
  2. 大数据平台数据接入能力更强大:这源于强大的存储计算能力,以前数据仓库存储价值较高的数据,现在也可以存储低价值数据,如日志、传感器数据、埋点数据等等。
  3. 大数据平台更加强调开放和时效:数据来源多了,需要的人肯定也多了起来,相比与传统数仓,要把这些数据服务出去,各种SDK、API出来了,为了提供更加实时的数据,实时计算也出来了,Lambda、Kappa架构出来了。
  4. 大数据平台展示能力更丰富:移动互联网、前端技术的发展,让我们对数据的触达更多样,更多酷炫的数据展示。

大数据平台 VS 数据中台

  1. 数据中台更加强调数据治理,资产化思维:这源于把数据当做生产要素,把数据当做资产运营,没有标准、质量与安全,谈何数据增值,变现。
  2. 数据中台更加强调数据为业务赋能:我们要的更多,不单单BI,我们更要让数据为业务赋能,让数据参与到业务场景中,发挥数据价值,也催生出新的职业DataBP。
  3. 数据中台更加强调智能:这源于机器数据、人工智能的发展。结合业务、依托数据,我们构建算法模型,把算法能力封装成API服务出去,这不就是ChatGPT吗。
  4. 数据中台更加强调经济易用:以前大数据平台成本太高了,构建集群、搭建各种组件,还要运维,现在基于云计算,各种现成的工具开箱即用,比如现在火得数仓一体数据库组件。

未来应该还会出现新的名词,这一新名词肯定在老的名词中有迹可循,我们在肯定新名词背后工作的同时,看看前人走过的路,会有更清醒的认知。

参考文章

  1. 苏萌,贾喜顺,杜晓梦,高体伟.数据中台技术相关进展及发展趋势[J].数据与计算发展前沿,2019,1(05):116-126.
  2. 宫夏屹,李伯虎,柴旭东等.大数据平台技术综述[J].系统仿真学报,2014,26(03):489-496.DOI:10.16182/j.cnki.joss.2014.03.039.
  3. Doug Lowe,王澜,李朝虎.“数据仓库”讲座[J].今日电子,1995(11):73-76+89.
  4. 王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/393936.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

1.win10环境搭建Elasticsearch7.2.0环境

环境介绍jdk1.8安装Elasticsearch7.2.0下载安装包直接解压进入到bin目录,双击elasticsearch.bates启动成功访问http://localhost:9200/jdk版本1.8,很有可能因为jdk版本的问题es启动失败支持连接https://www.elastic.co/cn/support/matrix#matrix_jvm安装Kibana7.2.0…

云计算介绍,让你更了解云计算

同学们好! 第一次接触IT行业吗?没关系,看完这篇文章肯定会让你不再陌生。给自己几分钟时间,认真看完哦! 1、不知道什么是云计算? 网络计算云计算 官方定义是:通过网络提供可伸缩的分布式计算…

建立相关在线社群的3个简单步骤

在线社群管理和社交媒体营销通常被视为一回事。虽然社群管理确实是社交媒体营销的一个关键部分,但它的意义超越了社交媒体的内容发布。因此,在线社群对于企业的数字营销十分重要。创建、维护和发展社群不是一件容易的工作,也不是一个快速的过…

枚举学习贴

1. 概述 1.1 是什么 枚举对应英文(enumeration, 简写 enum)枚举是一组常量的集合。可以这里理解:枚举属于一种特殊的类,里面只包含一组有限的特定的对象 1.2 枚举的二种实现方式 自定义类实现枚举使用 enum 关键字实现枚举 1.3 什么时候用 存在有限…

利用HGT聚类单细胞多组学数据并推理生物网络

单细胞多组学数据允许同时对多种组学数据进行定量分析,以捕捉复杂的分子机制和细胞异质性。然而现有的工具不能有效地推断不同细胞类型的活性生物网络以及这些网络对外部刺激的反应。 来自:Single-cell biological network inference using a heterogen…

操作系统_Linux_问答_2023_自用

GeeksforGeeks(https://www.geeksforgeeks.org/):GeeksforGeeks是一个技术学习平台,它提供了广泛的操作系统知识,包括操作系统概念、进程管理、内存管理、文件系统等内容。IBM Developer(https://developer…

代理模式-大话设计模式

一、定义 代理模式的定义:为其他对象提供一种代理以控制对这个对象的访问。在某些情况下,一个对象不适合或者不能直接引用另一个对象,而代理对象可以在客户端和目标对象之间起到中介的作用。 著名的代理模式例子为引用计数(英语…

如何基于AI智能视频技术实现公园景区的人流量实时统计?

一、方案背景春暖花开的季节来临,外出旅游的人群也越来越多。无论是景区、公园、博物馆、步行街等场所,客流超载非常大,给游客带来的体验较差,同时也存在安全隐患。当前景区面临的管理痛点包括:客流信息查询难&#xf…

Hadoop3.1.3单机(伪分布式配置)

参考:林子雨老师网站博客 Hadoop安装搭建伪分布式教程(全面)吐血整理 环境 Vmare12 Ubuntu16.04 创建Hadoop用户 若安装Ubuntu不是用的“hadoop”用户,则需要增加一个名为"hadoop"的用户 直接快捷键ctrlaltt或者点…

【C语言督学训练营 第二天】C语言中的数据类型及标准输入输出

文章目录一、前言二、数据类型1.基本数据类型①.整形②.浮点型③.字符型2.高级数据类型3.数据分类①.常量②.变量三、标准输入输出1.scanf2.printf四、进制转换1.进制转换简介2.十进制转其他进制3.其他进制转换五、OJ网站的使用一、前言 王道2024考研408C语言督学营第二天&…

公安室内射击场设计

公安室内射击场是为了训练和提高警察、特警、部队等职业人士的射击技能而设计的。其设计需要考虑的因素包括安全性、实用性、灵活性、耐久性等多个方面。下面将详细介绍公安室内射击场的设计要点。 首先,安全性是设计公安室内射击场的最重要因素之一。射击场应该具备…

杂记——19.git上传时出现the remote end hung up unexpectedly错误

git是大家常用的项目版本控制工具,熟练地使用git可以提高开发效率,但是有时在使用git推送代码时,会提示“the remote end hung up unexpectedly”的问题,那么git推送代码提示“the remote end hung up unexpectedly”怎么解决呢&a…

Java多线程还不会的进来吧,为你量身打造

💗推荐阅读文章💗 🌸JavaSE系列🌸👉1️⃣《JavaSE系列教程》🌺MySQL系列🌺👉2️⃣《MySQL系列教程》🍀JavaWeb系列🍀👉3️⃣《JavaWeb系列教程》…

Anaconda的安装及使用

Anaconda集成了常用的扩展包,能够方便地对这些扩展包进行管理,比如安装和卸载包,这些操作都需要依赖conda。conda是一个在Windows、Mac OS和Linux上运行的开源软件包管理系统和环境管理系统,可以快速地安装、运行和更新软件包及其…

升压模块直流隔离低压转高压稳压电源5v12v24v转50V100V110V150V200V250V400V500V600V800V1000V

特点效率高达80%以上1*2英寸标准封装单电压输出价格低稳压输出工作温度: -40℃~85℃阻燃封装,满足UL94-V0 要求温度特性好可直接焊在PCB 上应用HRB W2~40W 系列模块电源是一种DC-DC升压变换器。该模块电源的输入电压分为:4.5~9V、9~18V、及18~36VDC标准&…

计算机网络--网络基础

目录 一.互联网的组成 ​编辑 1.互联网的边缘部分 1.1客户-服务器方式 1.2对等连接方式 ​编辑 2.互联网的核心部分 2.1电路交换 2.2分组交换 2.3报文交换 二.计算机网络的类别 1.按网络的作用范围进行分类 2.按网络的使用者进行分类 3.用来把用户接入互联…

I.MX6ULL_Linux_系统篇(23) busybox文件系统构建

Linux“三巨头”已经完成了 2 个了,就剩最后一个 rootfs(根文件系统)了,本章我们就来学习一下根文件系统的组成以及如何构建根文件系统。这是 Linux 移植的最后一步,根文件系统构建好以后就意味着我们已经拥有了一个完整的、可以运行的最小系…

零代码工具我推荐Oracle APEX

云原生时代零代码工具我推荐Oracle APEX 国内的低码开发平台我也看了很多,感觉还是不太适合我这个被WEB抛弃的老炮。自从看了Oracle APEX就不打算看其它的了。太强大了,WEB服务器都省了,直接数据库到WEB页面。功能很强大,震撼到我…

快速将小程序生成APP八步走!

在开始之前,让我们一起来了解一下Finclip吧! Finclip是凡泰极客公司研发的一款在开发体验、学习门槛、应用场景、生态能力等方面都体现巨大优势的小程序容器。不论是移动APP,还是电脑、电视、车载主机等设备,在集成Finclip小程序…

代码随想录算法训练营day52 | 动态规划之子序列 300.最长递增子序列 674. 最长连续递增序列 718. 最长重复子数组

day52300.最长递增子序列1.dp[i]的定义2.状态转移方程3.dp[i]的初始化4.确定遍历顺序5.举例推导dp数组674. 最长连续递增序列1.确定dp数组(dp table)以及下标的含义2.确定递推公式3.dp数组如何初始化4.确定遍历顺序5.举例推导dp数组718. 最长重复子数组1…