1. 数据仓库维度建模简介

news2025/1/16 14:55:41

数据仓库的设计目的

  软件产品来源于用户的需求,因此,在深入数据仓库的设计之前,我们需要了解客户的痛点有哪些,整理如下:

  • 我们收集了海量的数据,但无法对其访问;

  • 我们需要以各种方式方便的对数据进行切片和切块;

  • 业务人员需要方便的获取数据;

  • 将最重要的事情展示给我;

  • 会议自始至终争论的是谁的数字正确,而不是制定决策;

  • 我们希望能够使用信息来支持更多的基于事实的决策制定;

  以上述用户的诉求为基础,梳理出数仓的设计目标(即业务需求)如下:

  • 方便的存取信息(即数据要直观数据结构和标识要符合业务思维数据查询速度快

  • 一致的形式展示信息(对于不同源数据同名同意性,和异意异名性

  • 能够适应变化(当业务发生改变时,已有数据和应用不应被改变或破坏)

  • 能够及时展现信息(原始数据需要根据实际业务场景,在几小时、几分钟或几秒钟内分析汇总,转换成可用信息)

  • 成为保护信息资产的安全堡垒(即有效控制对企业中敏感信息的访问)

  • 成为提高决策制定能力的权威和可信的基础(基于数据的正确性,输出分析数据所产生的决策)

  • 数仓成功的标志是业务群体接受该系统(以客户为中心)

  由此可见,作为数仓的管理者,其主要职责是获取不同源的数据,保证数据的质量、安全和一致性,并为客户提供其需要的服务。而对于数仓建设所使用的技术,只是达到商业目的的一种手段,并不应该出现在顶层的工作职责中。

  下面梳理数仓管理者的责任如下:

  • 理解用户:理解用户的工作职责、目标和任务;确定用户在制定哪些决策时需要数仓的帮助;识别需要数仓系统的“最佳”用户;发现潜在用户,并让其意识到数仓带来的价值;

  • 为用户呈现可信的、相关的、可访问的信息和分析:从多数据源选择业务诉求相关的数据,确保数据精准、可信、一致,并持续的进行数据更新和分析;简化用户接口和应用,适应业务和数据的不断变化,发布高质量信息;

  • 维护数仓环境:采用数仓系统制定的成功的业务决策,验证客户的人员配置及投入的开支;定期对系统进行更新;保持用户的信任和满意度;

维度建模简介

  当前,维度建模依然是展现分析数据的首选技术,主要基于以下两个需要同时满足的需求:

  • 以用户可以理解的方式发布数据;

  • 提供高效的查询性能;

  维度建模并不是一种新技术,它通常被应用在关系数据库管理系统之上,但维度模型并不必须满足第三范式(第三范式就是指表中的所有数据元素不但要能唯一地被主关键字所标识,而且它们之间还必须相互独立,不存在其他的函数关系)

  规范化的第三范式模型主要应用于操作型过程中,因为对事务的更新与插入仅触及数据库的某几行。然而对于数据挖掘和分析来说,第三范式模型过于复杂,用户查询难以预测的复杂性将耗尽数据库优化器,使查询性能低下。恰好,维度建模解决了这个问题。

星型模型与OLAP多维数据库

  星型模式是多维的数据关系模型,它由事实表(Fact Table)和维表(Dimension Table)组成,如下图所示。

  星型模型的每个维表中都会有一个维作为主键,所有这些维的主键结合成事实表的主键,因为其结构类似星型结构,故称其为星型模型。事实表的非主键属性称为事实,它们一般都是数值或其他可以进行计算的数据。

  而OLAP(联机分析处理)是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。它具有FASMI(Fast Analysis of Shared Multidimensional Information),即共享多维信息快速分析的特征。其中F是快速性,指系统能在数秒内对用户的多数分析要求做出反应;A是可分析性,指用户无需编程就可以定义新的计算逻辑,将其作为分析的一部分,并以用户所希望的方式给出报告;M是多维性,指提供数据的多维分析视图;I是信息性,指能及时获得信息,并且管理大量信息。

  在多维数据库环境中实现的维度模型通常称为OLAP多维数据库。

  当数据被加载到OLAP多维数据库时,对这些数据的存储和索引便采用了为维度数据设计的格式和技术。多维数据库可以通过预计算、索引策略和其他优化方法,实现高性能查询。用户可以通过增加或删除其查询中的属性,开展上钻和下钻操作,获取不同维度的统计信息。

  如果要将数据部署到OLAP多维数据库中,必须注意以下问题:

  • 星型模型(或其它多维数据关系模型)是建立OLAP多维数据库的良好物理基础;

  • OLAP多维数据库通常比RDBMS提供更多的安全选项,如限制访问细节数据等,但对汇总数据往往能提供更开放的接口;

  • OLAP多维数据库对RDBMS,能提供更丰富的分析能力,这也是选择OLAP产品的主要依据;

  • 当需要使用缓慢变化维度技术重写数据时,多维数据库通常需要全部或部分的重新处理;

  • 多维数据库方便的支持事务和周期性快照事实表,但是由于前一个问题而无法处理累积快照事实表;

  • 通常支持具有层次不确定的复杂的不规则层次结构,如组织结构图、物料表等,其查询性能更优越;

  • 能对实现下钻层次的维度关键词结构提供更详细的约束;

  • 一些OLAP产品无法确保实现维度角色和别名,需要定义不同的物理维度;

事实表

  维度模型中的事实表存储了企业业务过程事件的性能度量结果,且应尽量将来源于同一个业务过程的底层度量结果存储于一个维度模型中。因为数据量巨大,所以不应该为了满足多个企业内组织的需要,而将数据存放在多个数据库中。应该允许多个组织的用户访问同一个单一的集中式数据仓库,确保数据的一致性。

  “事实”这一术语表示某个业务度量。例如,对于超市商品来说,每种商品的销售数量以及价格,就是它的业务度量,也就是它的“事实”。而事实表中的每一行都对应一个度量事件。

  下表为超市商品的事实表结构设计:

  其中Sales Units和Sales Dollars即为零售商品的“事实”。

  注意,物理世界的每一个度量事件与对应的事实表行具有一对一的关系,这是维度建模的基本原则。

  对于“事实”的类型选择,最常见的事实类型是数值类型和可加类型事实,因为数仓系统常见的应用场景是一次检索成百上千,甚至百万级别的事实表行,并对“事实”进行累加分析,如上例中的“销售额”和“销售数量”。

  除此之外,也会遇到一些半可加,甚至不可加的事实。半可加事实(如账户结余)不能按时间维度执行汇总操作;不可加事实(如单位价格)不能相加。面对这种情况时,一般会进行计数或取平均值操作,或者简化为一次输出一个事实行(当处理海量数据时,执行这种操作是不现实的)

  事实通常以连续值描述,这样有助于区分到底是事实还是维度属性的问题。

  理论上,以文本方式表示度量事实是可行的。但通常情况下,文本型度量是对某些事情的描述,来源于离散值列表。

  不要在事实表中存储冗余的文本信息,除非对事实表中的每一行来说,其文本是唯一的,否则,应尽量将其放入维度表中。

  事实表的粒度可分为:事务、周期性快照、和累积快照。事务粒度的事实表是最常见的。

  一般事实表具有两个或更多个外键与维度表的主键相关联。事实表通常有包含外键组合的主键,通常被称为组合键。

维度表

  维度表一般包含与业务度量事件有关的环境属性,用于描述与“谁、什么、哪里、何时、如何、为什么”有关的内容。如下图的产品维度表:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/178388.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C C++实现两矩阵相乘--模拟法

目录前言数学中两矩阵怎么相乘?C/C语言实现运行结果前言 11月左右大三找日常实习的时候,面试乱杀,但是笔试碰到了这个矩阵相乘的编程题有几次,可能脑瓜子晕,突然被绕来绕去写不出来,很无语,现在总结一下;…

CS61A 2022 fall lab01

CS61A 2022 fall lab01 文章目录CS61A 2022 fall lab01TopicsDivision, Floor Div, and ModuloFunctionsCall expressionsreturn and printControlBoolean operatorsShorting Circuiting(短路效应)If StatementsWhile LoopsError MessagesRequired QuestionsWhat Would Python …

AI算法(三)plt基础

目录 一、前言 二、各类图 2.1、折线图 2.2、散点图 2.3、点线图 2.4、下三角线 2.5、点虚线 2.6、虚点线 2.7、绘制自己的学习曲线 三、多线 四、画布 五、直方图 一、前言 plt是深度学习的常用库之一,很多指标结果如AUC、F1、ROC等都是通过plt来实现。本篇文章主…

【每日数据结构与算法】

这里面有 10 个数据结构:数组、链表、栈、队列、散列表、二叉树、堆、跳表、图、Trie 树; 10 个算法:递归、排序、二分查找、搜索、哈希算法、贪心算法、分治算法、回溯算 法、动态规划、字符串匹配算法。 文章目录一、 基本算法思想1-1 回溯1-2 动态规划dp1-3二、 排序2-1 O(n…

【015 关键字】typedef和define的区别

一、两者区别 关键字typedefdefine(宏)作用不同定义(标识符或关键字)别名简单字符串替换执行时间不同编译过程一部分预处理过程完成作用域不同从定义到花括号“}”截至从定义到文件结尾截止 对指针操作不同 typedef int* INTPTR…

2023啦 最新无人直播小白教程!

最近看了不少up主说,无人直播这个东西可以做副业,自己手里也有一台五年的腾讯云服务器,一个月2t流量,应该是够的,可以玩玩。 先放出我的直播间地址看看效果: b站小红书(深度sleep)b站…

想要学会二叉树?树的概念与结构是必须要掌握的!快进来看看吧

目录 1.树的概念及结构 1.1什么是树? 1.2树的相关术语 1.3树的表示 2.二叉树的概念及结构 2.1二叉树的概念 2.2两种特殊的二叉树 2.3二叉树的性质 2.4二叉树的存储结构 2.4.1 顺序存储 2.4.2 链式存储 1.树的概念及结构 1.1 什么是树? 树是…

【JavaSE专栏6】Java 基本类型转换、包装类、自动装箱、自动拆箱

作者主页:Designer 小郑 作者简介:Java全栈软件工程师一枚,来自浙江宁波,负责开发管理公司OA项目,专注软件前后端开发(Vue、SpringBoot和微信小程序)、系统定制、远程技术指导。CSDN学院、蓝桥云…

SpringBoot05:员工管理系统

先不连接数据库,后面整合了mybatis再补充 步骤: 1、导入静态资源 下载地址:下载 - KuangStudy 2、在pojo包下写实体类 ①Department //部门表 Data AllArgsConstructor NoArgsConstructor public class Department {private Integer id;…

IPV4地址详解

文章目录IPV4地址分类编址划分子网无分类编制CIDR路由聚合应用规划(子网划分的细节)定长的子网掩码FLSM变长的子网掩码VLSMIPV4地址 IPV4地址就是给因特网(Internet)上的每一台主机(或路由器)的每一个接口…

恶意代码分析实战 2 动态分析基础技术

2.1 Lab3-1 使用动态分析基础技术来分析在Lab03-01.exe文件中发现的恶意代码。 问题 找出这个恶意代码的导入函数与字符串列表。 C:\Documents and Settings\Administrator>strings Lab03-01.exe ExitProcess kernel32.dll ws2_32 cksu advapi32 ntdll user32 StubPath SO…

39.Isaac教程--使用 Pose CNN 解码器进行 3D 物体姿态估计

使用 Pose CNN 解码器进行 3D 物体姿态估计 ISAAC教程合集地址: https://blog.csdn.net/kunhe0512/category_12163211.html 文章目录使用 Pose CNN 解码器进行 3D 物体姿态估计应用概述推理模块Pose CNN 解码器训练模块Pose CNN 解码器架构Pose CNN解码器训练从场景二进制文件生…

JAVA BIO与NIO、AIO的区别

1、 IO模型发展 在Java的软件设计开发中,通信架构是不可避免的,我们在进行不同系统或者不同进程之间的数据交互,或者在高并发下的通信场景下都需要用到网络通信相关的技术,对于一些经验丰富的程序员来说,Java早期的网…

通信原理简明教程 | 现代数字调制

文章目录1 多进制基带信号2 多进制数字调制2.1 多进制调制的基本原理2.2 MPSK调制3 MSK3.1 MSK信号的表示3.2 MSK的相位网格图3.3 MSK的产生和解调4 QAM4.1 QAM的基本原理4.2 QAM信号的产生和解调4.3 QAM信号的特性5 正交频分复用5.1 OFDM的基本思想5.2 OFDM的基本原理5.3 基于…

Python基础学习 -- 常用模块

一、time模块1、时间戳可以理解为是一个计算机世界的当前时间,很多加密验证什么的,都会用到import time ttime.time() print(int(t)) 运行结果: 16732534522、当前时间import time ttime.strftime("%Y-%m-%d %X") print(t) 运行结果…

vue项目搭建(offline方式)

项目搭建的前提 需要安装node.js,安装步骤可参考https://blog.csdn.net/qq_44628230/article/details/122634132 1.检查环境是否已准备好 2.全局安装vue-cli 3.进入到项目目录,创建一个基于 webpack 模板的新项目(online) 4.由…

JavaScript笔记+案例

前端开发 第四节JavaScript JavaScript:概要 概要: JavaScript,是一门编程语言。浏览器就是JavaScript语言的解释器。 DOM和BOM 相当于编程语言内置的模块。 例如:Python中的re、random、time、json模块等。jQuery 相当于是编程…

搭建代理服务器

搭建代理服务器搭建代理服务器场景ccproxy进行搭建代理服务器proxifier配置代理服务器总结搭建代理服务器 有这种情况,在家需要访问某个内网环境,但是内网的ip从外网是访问不到的,这种需要怎么处理呢? 答案是使用代理服务器。 …

索引失效原因

目录 1.最佳左前缀法则 2.不在索引列上做任何操作 3.存储引擎不能使用索引中范围条件右边的列 4.尽量使用覆盖索引 5.mysql 在使用不等于(! 或者<>)的时候无法使用索引会导致全表扫描 6..is null ,is not null 也无法使用索引 7.like以通配符开头(%abc...)mysql索…

tkinter布局详解

文章目录placepackgrid前情提要&#xff1a; Python UI 界面 tkinter初步Tkinter共有三种布局方案&#xff0c;分别是绝对位置布局 place&#xff0c; 相对位置布局 pack和网格布局 grid。place place是通过声明具体位置来进行布局的方法&#xff0c;这个具体位置既可以绝对坐…