数据仓库基础理论
- 一、数据仓库
- 1、概念
- 2、数据仓库分层结构
- 3、为什么要分层
- 二、数据集市
- 三、数据湖
- 1、数据湖和数据仓库
一、数据仓库
1、概念
数据仓库(Data Warehouse, DW):一个面向主题的、集成的、非易失的、反应历史变化的、用来支持企业管理决策的数据集合。
2、数据仓库分层结构
缓冲层、贴源层、基础明细层、数据服务层、集市层
贴源层ODS: 业务系统数据的集合;
基础明细层DWD层:基于ODS层,进行统一范式建模,规整基础数据;
数据中间层(DWM层):对一些基础指标进行汇总;
数据服务层(DWS层):以企业视角,建立多个主题域模型;
数据集市层(DM层):为特定主题提供定制化服务;
3、为什么要分层
- 复杂问题简单化:每层的职责明确;
- 减少重复开发:规范数据分层,减少重复计算量,增加计算结果的复用性;
- 隔离原始数据:使真实数据与最终统计数据解耦;
- 空间换时间:通过大量的预处理来提升系统的用户体验、分析效率;
二、数据集市
数据集市:是一个针对某个主题、某个部门或者某些特殊用户而进行分类的数据集合,也称为“小数据仓库”或“部门级数据仓库”
- 满足特定部门或用户需求;
- 能够聚焦特定主题;
- 统一的高质量数据;
- 数据仓库的子集;
独立型数据集市(自下而上开发):先做独立的数据集市,当达到一定规模后,再从各个数据集市进行数据的整合建立企业级的数据仓库。
- 不能以全局视角分析数据,可能产生大量冗余数据
- 搭建快,成本低
从属型数据集市(自上而下开发): 先建立企业级数据仓库,然后从数据仓库中为各个部门抽取必要的数据建立部门级的数据集市。
- 可提高数据分析的质量
- 体系结构更稳定
- 实施周期长、难度大、风险高
三、数据湖
1、数据湖和数据仓库
数据湖的核心是:提供一个统一的数据存储模式。
数据湖主要提供一个统一的数据存储模式,分析类应用(数据中台、数据仓库)可以在其基础上搭建。
狭义的数据湖只是一种底层的数据存储模型,而广义的数据湖包括了数据集成,数据治理,数据处理与分析,数据挖掘,安全管控,质量检验等。