浅谈维度建模、数据分析模型,何为数据仓库,与数据库的区别

news2024/11/13 9:38:46

往期推荐

大数据HBase图文简介-CSDN博客

数仓分层ODS、DWD、DWM、DWS、DIM、DM、ADS-CSDN博客

数仓常见名词解析和名词之间的关系-CSDN博客

数仓架构:离线数仓、实时数仓Lambda和Kappa、湖仓一体数据湖-CSDN博客

0. 前言

  1. 1991年,数据仓库之父 比尔·恩门 著书《Building the DataWarehouse》,要求构建数据仓库时,遵循范式建模,即从关系型数据库中提取的范式数据,仍按范式存储到数据仓库中,这样就导致数仓中有很多小表,查询的时候必然会有很多表的关联,极大地影响查询效率和性能。
  2. 1994年,拉尔夫·金博尔 著书《The DataWarehouse Toolkit》,提出维度建模和数据集市的概念维度建模是反范式建模,自下而上,然而这种方式仍有缺点:那就是每个业务平台的数据有各自的数据集市,集市之间数据隔离,存在数据不一致、重复的情况。
  3. 1998-2001年,比尔·恩门派和金博尔派合并,比尔·恩门提出CIF架构:数仓分层,不同层采用不同的建模方式,同时解决了数据不一致和查询效率低的问题。

基于以上,有了范式建模、维度建模、实体建模三种主要建模方式 

0.1 浅谈维度建模

维度建模主要面向分析场景,分为维度表和事实表,是数据仓库中最常用的数据建模技术之一,建模过程和关系型数据库的建表很像,下图中,商家ID、产品ID、时间ID就是不同的维度列,而订单额就是度量值维度+度量值=事实表每个维度列同时也有自己的维度表

那么基于以上,有如下两种数据分析模型

0.2 数据分析模型

对比

  • 查询效率:雪花模型有很多小表,看起来更为范式化,但这导致查询时需要关联很多表,查询效率比星型模型低
  • 数据冗余:星型模型的表通常是宽表,伪范式,即表有很多字段,这导致星型模型存在较多的数据冗余

1. 数据仓库

1.1 何为数据仓库

  • 数据仓库(Data Warehouse)即是存储历史数据的仓库,简写为DW或DWH
  • 数据仓库的目的是构建面向分析的集成化数据环境(OLAP),为企业提供决策支持
  • 仓库的数据来自各个业务平台,业务平台中的数据形式多种多样,可能是 MySQL等关系数据库里的结构化数据,可能是Word、Excel 文档中的非结构化数据,还可能是 HTML、XML 等自描述的半结构化数据。这些业务数据经过一系列的ETL(抽取、转换、加载),最终以一种统一的格式装载进数据仓库。
  • 数据仓库本身并不“生产”任何数据,也不需要“消费”任何的数据,只是在内部对数据做了一些数据清洗转移操作,好比流水线,数据来源于外部,最终开放给外部应用。

1.2 数据仓库特征

  • 面向主题
    传统数据库中,最大的特点是面向应用进行数据的组织,各个业务系统可能是相互分离的。而数据仓库则是面向主题的。主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象
  • 集成性
    通过对分散、独立、异构的数据库数据进行ETL并汇总得到了数据仓库的数据,这样保证了数据仓库内的数据的一致性。 数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前,必然要经过清洗、一致性等操作,这一步是数据仓库建设中最关键、最复杂的一步。
  • 反应历史变化数仓反应的是某段时间内的历史数据,这也是数仓和数据库的区别之一。
  • 不可修改:数据进入数据仓库以后,一般情况下被较长时间保留。数据仓库中一般有大量的查询操作,但修改删除操作很少,只需定时加载更新即可。
  • 时效性:数仓存储的是历史数据,按照时间顺序追加,有时间属性。数仓用户通过分析企业过去一段时间业务的经营状况,挖掘潜在价值。但是分析的结果只能反映过去某段时间的情况,随着业务变化时间改变,数仓中的数据就会失去价值,需要载入新数据。

1.3 数据仓库和数据库的区别

数据库与数据仓库的区别实际讲的是 OLTP 与 OLAP 的区别:

  • 操作型处理,叫联机事务处理 OLTP,也可以称面向交易的处理系统,针对日常事务处理。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。传统的数据库系统作为数据管理的主要手段,主要用于操作型处理,像MYSQL,Oracle等关系型数据库一般属于OLTP。
  • 分析型处理,叫联机分析处理 OLAP,一般针对某些主题的历史数据进行分析,支持管理决策。

首先要明白,数据仓库的出现,并不是要取代数据库。数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储业务数据,数据仓库存储的一般是历史数据

  • 数据库设计是尽量避免冗余,一般针对某一业务应用进行设计,比如一张简单的User表,记录用户名、 密码等简单数据即可,符合业务应用,但是不符合分析。
  • 数据仓库在设计是有意引入冗余,依照分析需求,分析维度、分析指标进行设计。 数据库是为捕获数据而设计,数据仓库是为分析数据而设计。

1.4 为什么不直接用业务平台的数据而要建设数仓? 

实际在数仓出现之前,确实是这么做的,但是有很多数据分析的先驱者当时已经发现,简单的直接访问方式很难良好工作,原因如下:

  • 由于安全或其他因素不能直接访问某些业务数据。
  • 业务平台存储的是当前数据,存在于RDBMS,并且数据版本变更很频繁,而大数据需要的是历史数据,读多改少。

  • 各个平台数据存储是隔离的,且数据格式不统一,难以建立、维护、汇总数据。

  • 业务系统的表结构(OLTP)为事务处理性能而优化,有时并不适合查询与分析(OLAP)

  • 有时用户要看到的某些数据字段在数据库中并不存在,是后期聚合处理生成的。

  • 业务平台是跑业务的,本身就占用了一定数据库读写资源,大数据分析再从每个表中频繁读取数据,影响业务平台的性能,不够专业。

1.5 以银行业务为例 

  • 数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,可以简单地理解为用数据库记账。
  • 数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又多,消费交易又多,那么该地区就有必要设立 ATM了。 显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。
  • 事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。 而分析系统是事后的,它要提供关注时间段内所有的有效数据。这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。
  • 数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”

参考博客:数据仓库系列 1:什么是数据仓库,它与传统数据库有什么不同?-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2095646.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++ | 设计模式】代理模式的详解与实现

1. 概念 代理模式(Proxy Pattern)是一种结构型设计模式,用于控制对对象的访问。它通过引入代理对象,间接地操作目标对象,从而实现对目标对象的控制。代理模式的核心思想是通过代理对象来控制对目标对象的访问。代理对…

坐标系的那些事儿

哈喽,大家好!地理坐标系、投影坐标系等知识是地图学、GIS和地图发布、应用等绕不开的话题,今天我们一起聊一聊坐标系的那些事儿! 1.地理坐标系 为了确定地面点在地球椭球体表面位置而定义的空间参考系,主要用经纬度来…

软件设计师笔记-多媒体基础知识

媒体 感觉媒体(使人产生感觉的媒体)表示媒体(传输感觉媒体的中介媒体)表现媒体(进行信息输入和输出的媒体)存储媒体(用于存储表示媒体的物理介质)传输媒体(传输表示媒体…

酿酒师的匠心独运:白酒酿造的不同工艺

在华夏大地的深处,一群酿酒师用他们的匠心独运,将大自然的馈赠转化为琼浆玉液,那便是豪迈白酒(HOMANLISM)。每一滴酒液都承载着酿酒师们的智慧和汗水,每一瓶豪迈白酒(HOMANLISM)都是…

Disjoint-set data structure--并查集

Disjoint-set data structure 不相交集, 通常称作并查集的一种数据结构。 应用范围:处理不相交集合的合并查询问题,它在处理这两种的时间复杂度在实际应用上往往认为是 O ( 1 ) O(1) O(1),稍后本篇会略加说明。接受两种操作:判断两元素是否…

【进程间通信】管道应用场景---简易进程池

#include<iostream> #include<vector> #include<string> #include<cstring> #include<cstdlib> #include<unistd.h> #include<sys/stat.h> #include<sys/wait.h>//把5个子进程要管理起来&#xff0c;要先描述再组织 const int…

SPI驱动学习二(驱动框架)

目录 一、回顾平台总线设备驱动模型二、SPI设备驱动1. 数据结构1.1 SPI控制器数据结构1.2 SPI设备数据结构1.3 SPI设备驱动 2. SPI驱动框架2.1 SPI控制器驱动程序2.2 SPI设备驱动程序 三、SPI设备树处理过程1. SPI Master2. SPI Device3. 设备树示例4. 设备树实例4.1 使用GPIO模…

leetcode 899. Orderly Queue

原题链接 You are given a string s and an integer k. You can choose one of the first k letters of s and append it at the end of the string. Return the lexicographically smallest string you could have after applying the mentioned step any number of moves. …

Java集合类之Collection

文章目录 1 准备部分1.1 数据结构1.1.1 数组1.1.2 链表 1.2 集合是什么 2 Collection2.1 特点2.2 常用API2.3 遍历Collection的方法2.3.1 toArray方法2.2.2 iterator方法2.3.3 foreach2.3.4 总结 3 List 接口3.1 内容提要3.2 特点3.3 List的API3.3.1 listIterator方法3.3.4 sub…

【RabbitMQ应用篇】常见应用问题

1. 消息幂等性保障 1.1 幂等性介绍 幂等性&#xff1a;这个概念在数学和计算机领域中相当常见&#xff0c;表示可以被应用多次但是不会改变初始应用结果的性质。 应用程序的幂等性&#xff1a;指的是在一个应用系统中&#xff0c;重复调用多次请求&#xff08;相同参数&#…

【Python机器学习】神经网络的组成

目录 感知机 数字感知机 认识偏置 Python版神经元 “课堂时间” 有趣的逻辑学习问题 下一步 代价函数 反向传播算法 求导 误差曲面 不同类型的误差曲面 多种梯度下降算法 Keras&#xff1a;用Python实现神经网络 展望 归一化&#xff1a;格式化输入 神经网络对…

C语言 面向对象编程

注意事项 在使用面向对象编程的时候&#xff0c;我们得问自己&#xff1a;任务中有什么对象&#xff0c;对象应该怎么使用 项目中文档体系 我们可以规划一下任务得文档&#xff0c;可以为每一个对象的类单独编写源码&#xff0c;并发布对应的头文件作为接口&#xff0c;主控…

Android CCodec Codec2 (六)C2InterfaceHelper

通过前面几篇文章的学习&#xff0c;我们知道了Codec2参数结构&#xff0c;以及如何定义一个Codec2参数。接下来的几篇文章我们将简单了解上层是如何请求组件支持的参数、如何配置参数&#xff0c;以及参数是如何反射给上层的。本篇文章我们将了解接口参数实例化。 1、C2Interf…

Linux零基础到精通(二)-vmware虚拟机使用教程及Centos7操作系统安装

目录 前言Linux 操作系统运用领域vmware虚拟机安装与使用电脑硬件环境要求vmware虚拟机软件安装创建一个虚拟机配置vmware的虚拟化网络 通过vmware虚拟机安装操作系统下载Centos7系统镜像安装Centos7操作系统配置网络和主机名称信息配置系统分区软件包选择设置用户密码进入Cent…

入门Java编程的知识点—>静态方法(day11)

重点掌握final关键字特点&#xff1f;final的语法使用?重点掌握静态变量是什么&#xff1f;静态变量的语法与使用?了解方法区内存图执行过程?重点掌握静态方法是什么&#xff1f;静态方法的语法特点与使用?重点掌握常量语法如何定义与使用? final(最终) final可以用于修…

IT运维问题深度剖析与一体化解决方案探索

在当今信息化高速发展的时代&#xff0c;IT运维作为保障企业业务连续性和稳定性的关键环节&#xff0c;其重要性日益凸显。然而&#xff0c;随着企业规模的扩大和业务的复杂化&#xff0c;IT运维面临着诸多挑战和问题。本文旨在深度剖析当前IT运维中的紧迫性问题与需求&#xf…

C++学习, 指针的指针

指针的指针&#xff1a; 是一种间接寻址的形式&#xff0c;指针的指针就是将指针的地址存放在另一个指针里面。一般&#xff0c;指针包含一个变量的地址&#xff0c;当定义一个指向指针的指针时&#xff0c;第一个指针包含了第二个指针的地址&#xff0c;第二个指针指向实际值…

day35-测试之性能测试JMeter的测试报告、并发数计算和性能监控

目录 一、JMeter的测试报告 1.1.聚合报告 1.2.html报告 二、JMeter的并发数计算 2.1.性能测试时的TPS&#xff0c;大都是根据用户真实的业务数据&#xff08;运营数据&#xff09;来计算的 2.2.运营数据 2.3.普通计算方法 2.4.二八原则计算方法 2.5.计算稳定性测试并发量 2.6…

Java性能优化传奇之旅--Java万亿级性能优化之Java 性能优化传奇:热门技术点亮高效之路

💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的博客,正是这样一个温暖美好的所在。在这里,你们不仅能够收获既富有趣味又极为实…

MOELoRA —— 多任务医学应用中的参数高效微调方法

人工智能咨询培训老师叶梓 转载标明出处 在医疗场景中&#xff0c;LLMs可以应用于多种不同的任务&#xff0c;如医生推荐、诊断预测、药物推荐、医学实体识别、临床报告生成等。这些任务的输入和输出差异很大&#xff0c;给统一模型的微调带来了挑战。而且LLMs的参数众多&…