数据库、数据中台、数据仓库、数据湖区别

news2025/1/11 22:44:40

        数据时代,各行业的企业都已经开始通过数据库来沉淀数据,但是真的论起数据库、数据仓库、数据中台,还是新出现的数据湖,它们的概念和区别,可能知道的人就比较少了,今天我们详细来比较了解一下。

一、数据仓库是什么

        事实上,很多人在看到数据仓库的第一眼,就把数据仓库当成了数据库。当然这也很正常,毕竟从名字来看这两者确实区别不大,真正区分两者的是定位、作用等更深一层的东西。不过在这里还是先解释数据仓库的概念,不同之处后边会进行详细讲解。

        数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合,用于支持管理决策过程。其本质就是完成从面向业务过程数据的组织管理到面向业务分析数据的组织和管理的转变过程,也是商业智能BI中数据仓库的主要作用

        数据仓库就像企业的总的大仓库,能够存储不同来源、不同格式的数据,并且可以通过ETL和数据模型,对数据进行高质量的筛选,分级分类进行存储。具有很强的稳定性,不会频繁的进行增删改等操作,能够反应历史变化。

        用通俗的话来说就是数据仓库就像一个终端的大仓库,其他小仓库的各种货品会通过各种方式统一存储到这里,然后通过仓库位置的划分、货品的摆放进行归纳分类,实现规范、标准的从存放,到分类,再到使用的完整过程

二、数据仓库和数据库有什么不同

        其实数据仓库和数据库跟现实中的仓储系统是有很多相似之处的,企业各部门的数据库就相当于一个个小的产业库,对应了企业的各个部门。而数据仓库相当于是一个终端仓库,其中存储的物品是由各个小的仓库运送的,是各个数据库的集合体,一个更大的综合数据库

        此外,数据库和数据仓库最不同的还是服务对象和作用。上边也提到了,数据库基本上是服务于各个部门,是业务信息系统的附属品,也就是我们常在信息化建设初期中提到的ERP、OA、CRM等业务系统。这些数据库是服务于各种业务系统以及业务软件,主要是通过业务流程发挥作用。

        而数据仓库就不一样了,它不是服务于业务信息化系统的,它是服务于分析型应用的。更多的是通过各种商业智能BI前端可视化分析工具或者报表工具来访问数据仓库,最终是面向报表查询,数据分析服务,为业务人员提供复盘、预测,为企业管理人员提供决策信息的。

三、数据中台是什么

        回看时间,数据中台虽然是一个新兴的概念,但也已经有数年的发展时间,按理说应该已经有一个主流的解释来定义数据中台的形态,但实际上数据中台的界定依旧模糊,分类也比较混乱,缺少对于定义和价值的判断,所在在这里谈到的数据中台也只能代表个人的看法。

        一般来说,数据中台是一种将企业沉淀的大量业务数据赋予价值变成数据资产,并通过持续的数据应用为企业业务服务,从而实现数据价值,让数据真正成为企业重要资产,发挥作用的系统和机制

        数据中台强调的是连接,企业通过数据中台提供的方法和运营机制,将数据连接起来,形成汇聚整合、提纯加工、建模处理、算法学习,再通过连接以共享数据服务的方式将复杂的数据处理过程提供给业务使用,从而实现数据与业务的连接。

        用通俗的话来说,数据中台就是让企业的数据动起来的实现企业全面数据化的解决方案,主要价值在于数据服务,也就是可复用性。其本质是因为数据从业务系统中产生并储存,而业务系统反过来也需要利用数据分析来优化改进业务流程,那么就可以把业务系统的数据存储和计算能力抽象,交给独立的数据处理平台提供储存和计算能力,这就是数据中台产生的真正原因。

四、什么是数据湖

         数据湖从本质上来讲,是一种企业数据架构方法,物理实现上则是一个数据存储平台,用来集中化存储企业内海量的、多来源,多种类的数据,并支持对数据进行快速加工和分析。

五、数据湖与数据仓库的区别

区别:

        1、从使用对象来看:数据仓库主要是给BI分析的数据分析师使用的,而数据湖是给AI处理的数据科学家使用,数据仓库也可以给AI使用,但是侧重点是BI。

        2、从数据处理的过程来看:数据仓库是ETL,抽取-清洗-加载,而数据湖是ELT,抽取-加载-清洗,即数据湖首先是直接讲数据存储,后续使用再进行清洗,而数据仓库在创建之初已经明确应用场景,所以先清洗再加载。

        3、从使用用途来看,数据仓库有明确的使用场景,即明确的数据分析的主题场景,而数据湖是不确定数据有什么使用场景,先存储起来,后面再进行探索使用

        4、从存储的数据类型来看,数据仓库存储的主要是结构化数据,而数据湖存储的是结构化半结构化和非结构化的数据,主要存储的是半结构化和非结构化的数据

        5、数据仓库的数据质量是通过数据治理实现数据价值,而数据湖的数据质量主要目的是具备高质量标准,确保数据可信、可靠、具有正确的含义和目的,主要是为了数据存储

相似点:

        1、数据湖和数据仓库都需要元数据管理,如果没有元数据管理,则数据湖会变成数据沼泽不知道存储的数据是什么,无法再次使用,所以数据湖也是需要通过元数据管理将数据变成数据资源。另外元数据管理需要按照因归尽归,因收尽收的原则。

        2、数据湖和数据仓库都有数据资源目录,通过数据资源目录了解存储的数据有什么?

        3、数据湖和数据仓库的提取都是需要通过SQL的方式进行提取,数据模型的创建,但是区别主要在数据仓库的模型创建是依据数据标准进行创建,而数据湖的模型创建可以按照业务系统进行一比一的创建

        综上所述,数据仓库和数据湖是有那种不同的使用场景的,不同企业可以根据应用场景选取合适的产品进行数据存储。

目前数据仓库的类型主要有两种,,一种是数据仓库的思想领袖Bill innon提出的关系型数据仓库,另外一种是另外一个思想领袖Ralph Kimball提出的多维数据仓库,目前关系型数据仓库不会存在因为数据量变大,查询变慢的问题,而多维数据仓库会存在由于数据量变大,而查询性能变慢的问题,而多维数据仓库解决由于数据量变大查询性能变慢的问题而产生的宽表,宽表的作用是适当使用部分数据几余,通过空间换时间的方法解决查询性能问题

衡量数据仓库建设的成功与否的指标主要有3个指标:

        1、使用率指标,有多少人在使用数据仓库

        2、主题覆盖率。即有多少业务部门在使用数据仓库

        3、响应时间和性能指标。由于数据仓库只要是BI分析应用场景,所以响应时间和性能指标是数据仓库建设的一个重要的指标。

数据湖建设成功与否的衡量指标可以包括以下几个方面

        1、数据完整性: 数据湖的数据应该完整地反映了业务过程中的各个环节,并且具备一致性和准确性。

        2、数据质量: 数据湖的数据应该具备高质量标准,确保数据可信、可靠、具有正确的含义和目的。

         3、数据共享与协作:数据湖中的数据应该容易被团队和组织共享和访问,同时支持协作和合作。

        4、数据安全与隐私: 数据湖中存储的信息应该保持机密性、完整性、可用性,并遵循数据安全和隐私方针。

        5、数据分析与应用: 数据湖中的数据应该能够为企业和团队的业务决策提供有价值的洞察同时支持业务应用和创新

        6、数据可持续性:数据湖与数据管理策略相结合,应该能够持续为组织和业务流程提供有益的价值。

         7、数据湖管理平台的便捷性: 数据湖中数据的管理流程应该简单便捷,从数据接入、数据管理到数据可视化、数据分析均应该较为便捷

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1099920.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FPGA通过读写突发对DS1302时钟的配置驱动

文章目录 前言一、pandas是什么?1、理论原理1、DS1302实时时钟芯片1、特性2、引脚定义3、有关读写操作的详细内容1、读写的几个端口信号2、命令字节3、突发读写时钟寄存器4、写保护位 4、数据读写时序&寄存器地址表1、数据单字节读写时序2、寄存器地址表 5、数据…

✔ ★【备战实习(面经+项目+算法)】 10.16学习时间表(总计学习时间:5h)

✔ ★【备战实习(面经项目算法)】 坚持完成每天必做如何找到好工作1. 科学的学习方法(专注!效率!记忆!心流!)2. 每天认真完成必做项,踏实学习技术 认真完成每天必做&…

C++指针解读(10)-- 动态内存分配

栈和堆是进程内存空间中非常重要的2块区域。栈用于存放程序临时创建的局部变量;堆用于存放进程运行中被动态分配的内存段。当进程调用malloc等函数分配内存时,新分配的内存就被动态添加到堆上;当利用free等函数释放内存时,被释放的…

虚拟机和Windows共享文件的几种方式(共享文件夹、网络映射、Winscp)

1、共享文件夹 在虚拟机的“/mnt/hgfs/”目录下能看到和Windows共享的文件; 2、网络映射 2.1、安装samba服务器 #安装samba服务器 apt-get install samba samba-common#添加samba账户 smbpasswd -a ckl passwd:1232.2、设置网络映射 3、Winscp共享文件 3.1、Wins…

snk-给github界面加一个有趣的动画

How to enable GitHub Actions on your Profile README for a snake-eating contribution graph 🐍 - DEV Community Platane/Platane (github.com) ① 创建New repository 名字和你自己的Github 用户名一样。 ② 创建之后,再这个Zero-coder仓库下创建…

[C国演义] 第十五章

第十五章 最长湍流子数组环绕字符串中唯⼀的⼦字符串 最长湍流子数组 力扣链接 子数组 ⇒ dp[i]的含义: 以arr[i] 结尾的所有子数组中的最长湍流子数组的长度 子数组 ⇒ 状态转移方程根据 最后一个位置来划分👇👇👇 初始化: 都初始化为…

任务调度框架-如何实现定时任务+RabbitMQ事务+手动ACK

任务调度框架 Java中如何实现定时任务? 比如: 1.每天早上6点定时执行 2.每月最后一个工作日,考勤统计 3.每个月25号信用卡还款 4.会员生日祝福 5.每隔3秒,自动提醒 10分钟的超时订单的自动取消,每隔30秒或1分钟查询…

Gson反序列化原理

前言 序列化和反序列化是日常工作中经常使用的工具,一般用于对象的持久化保存或者对象的网络传输,一般有两种情况,一种是对象本身实现了Serializable接口,这种情况下可以利用jdk自带的功能或者Kryo等这种封装好的序列化反序列化工…

10.Linear Map transformation rules

线性映射 从一个基底到另一个基底 所遵循的转换规则。 假设: 由一个矩阵给出的线性映射在这,并且是在基底e上表示, 该线性映射将e1变成0.5个e1,将e2变成2个e2; 假设有个向量V,其分量是【1,1…

福昕阅读器打开pdf文档时显示的标题不是文件名

0 Preface/Foreword 1 现象 文件名为:Demo-20231017 打开效果:显示名字为 word template 2 解决方法 2.1 利用打印方式将word生产pdf 在word生产pdf文件时,使用打印方式生成pdf文档。 2.2 删除word文档设置的标题 文件---》信息---》标…

“赔率”和“概率”

赔率与概率不同 Odds ! Probability 许多人将“赔率”和“概率”这两个词混为一谈。它们都表示对可能性或机会的估计。我可以理解普通人这样做,但我经常看到数据科学家和统计学家也混淆了这些概念,这是一种遗憾,因为在数学上它们有不同的含…

LVGL_基础控件btnmatrix

LVGL_基础控件btnmatrix 1、创建按钮矩阵 /* 分配按钮以及按钮上的文字 */ // 这里注意不要使用在函数退出时会被销毁的局部变量 // 可以用 "\n" 进行换行,最后一个按钮之后的元素必须是 NULL 或 "" // 换行 "\n" 和 "NULL&quo…

Z-Fighting问题解决(二) - Reverse-z

Z值相关技术概论理清 开始之前先简单理清科普一下涉及的跟三维图形学相关的深度Z相关的概念: Z-Buffer:上个世纪八十年代的图形学飞跃节点算法之一; Z缓冲是一种解决深度排序问题的方法,主要用于确定哪些物体在其他物体的前面。…

【Oracle】分析函数partition by,解决了使用group by后select语句中只能是分组的字段或者是一个聚合函数的问题

首先我们看一下group by的用法,比如根据省份分组。 select province, sum(persons) from t_person group by province;使用了group by后,select语句中只能是分组的字段(比如上面的province)或者是一个聚合函数(比如co…

【特纳斯电子】基于单片机的火灾监测报警系统-仿真设计

视频及资料链接:基于单片机的火灾监测报警系统-仿真设计 - 电子校园网 (mcude.com) 编号: T0152203M-FZ 设计简介: 本设计是基于单片机的火灾监测报警系统,主要实现以下功能: 1.通过OLED显示温度、烟雾、是否有火…

jenkins pipeline使用

1、jenkins全局配置 1.1、maven配置 1.2、jdk配置 1.3、git配置 2、构建环境配置 2.1、安装时间插件 Date Parameter 2.2、Git Parameter 插件安装 3、pipeline如下 pipeline {agent anyenvironment {image_name "192.168.122.150/ken-test/price-service:${date}&…

jmeter监控服务器的资源使用

一. 下载安装包SeverAgent-x.x.x.zip并安装到被监控服务器 下载地址:https://github.com/undera/perfmon-agent 下载完解压后执行运行,windows运行startAgent.bat, linux运行startAgent.sh 二. 在jmeter上添加插件jpgc-PerfMon Metrics Collector监听器…

电商API接口的发展,电商API接口主要应用场景:

随着互联网技术的不断进步和电商行业的迅猛发展,电商API接口在商品交易、物流配送、客户服务等方面发挥着越来越重要的作用。本文将深入探讨电商API接口的技术原理、应用场景、开发方法以及优缺点。 一、技术原理 电商API接口是基于HTTP、TCP、IP等网络协议实现的…

代码随想录二刷 Day41

509. 斐波那契数 这个题简单入门&#xff0c;注意下N小于等于1的情况就可以 class Solution { public:int fib(int n) {if (n < 1) return n; //这句不写的话test能过但是另外的过不了vector<int> result(n 1); //定义存放dp结果的数组&#xff0c;还要定义大小r…

基于复合优化加速算法研究实际问题

import optimtool as oo from optimtool.base import np, sp, pltpip install optimtool>2.5.0加载hybird.nesterov.accer方法 import optimtool.hybrid as oh nes_acc oh.nesterov.accer初始化输入数据 f ( x ) ∑ i 1 n ( ( n − ∑ j 1 n cos ⁡ x j ) i ( 1 − co…