数据仓库核心:事实表深度解析与设计指南

news2024/10/5 13:34:16

文章目录

    • 1. 引言
      • 1.1基本概念
      • 1.2 事实表定义
    • 2. 设计原则
      • 2.1 原则一:全面覆盖业务相关事实
      • 2.2 原则二:精选与业务过程紧密相关的事实
      • 2.3 原则三:拆分不可加事实为可加度量
      • 2.4 原则四:明确声明事实表的粒度
      • 2.5 原则五:避免同一事实表中存在不同粒度的事实
      • 2.6 原则六:统一事实的度量单位
      • 2.7 原则七:妥当处理事实的null值
      • 2.8 原则八:使用退化维度提升事实表的可用性
    • 3. 设计方法
      • 3.1 事实表设计流程
      • 3.2 设计案例:订单事实表
    • 4. 事务类型
      • 4.1 单、多事务事实表
      • 4.2 其他事实表
    • 5. 写在最后

1. 引言

1.1基本概念

事实表,顾名思义,是用来存储事实的表,这些事实通常是指可以量化的业务指标,如销售额、订单数量等。事实表的特点是有大量的行,每行代表一个业务事件的度量。

换句话说就是你要关注事物的内容,事实表就像故事中的主角,它包含我们感兴趣的主要信息(如销售金额、订购数量、利润以及它们发生的时间和地点等)。事实表中的每一行数据都代表了某种业务活动,就好比故事中的一个关键事件一样。

比如,一张记录了公司所有业务交易的清单。每一条记录都是一个事实,比如一次销售或一笔支出。

举个例子,假设我们有一个简单的销售事实表,它记录了每次销售的金额和日期:

CREATE TABLE Sales_Fact (
    SaleID INT PRIMARY KEY,
    ProductID INT,
    SaleAmount DECIMAL(10,2),
    SaleDate DATE
);

在这个例子中,SaleID 是每条销售记录的唯一标识,ProductID 与维度表相关联,SaleAmount 是销售金额,SaleDate 是销售日期。

其他详细内容可以看:数据仓库核心:揭秘事实表与维度表的角色与区别

1.2 事实表定义

事实表是数据仓库中的核心,它与维度表相对应,存储了业务过程中量化的数据,也就是我们通常所说的度量值(measures)。事实表通常包含以下主要部分:

  • 度量值:这些是事实表中的主要数据,可以进行数值计算,如销售额、订单数量、产品单价等。
  • 维度键:这些是指向维度表的外键,通过它们,事实表与维度表相连,从而为度量值提供上下文信息。
  • 上下文信息:提供额外的业务信息,如时间戳、事务ID等。

粒度”描述了事实表中每条记录所捕捉到的业务细节的深度。它可以通过两个维度来衡量:首先是维度属性的组合,它们决定了数据条目的详细程度;其次是数据条目所代表的具体业务含义。

如果我们选择“产品维度”的“SKU”作为粒度,那么我们的数据条目将非常详细,因为每个SKU都是独特的,能够反映单个商品的销售情况。例如,一个数据条目可能表示“在2024年6月10日,北京地区,某款智能手机的销售额为3000元”。

事实表中的数据,作为衡量业务流程的量度,通常以整数或小数形式出现,并分为三种可加性类型:

  • 可加性事实:这类数据允许我们在事实表的任何维度上进行汇总。例如,我们可以将不同时间或地区的销售数据进行求和,以得到总销售额。

一个销售数据的事实表,记录了每笔交易的销售额。如果我们要计算总销售额,我们可以将所有交易的销售额相加:
2024年1月1日,北京,销售额100元。
2024年1月1日,上海,销售额200元。
2024年1月2日,北京,销售额150元。

  • 半可加性事实:这类数据仅能在特定的维度上进行汇总。以库存为例,我们可以按地点或商品类别进行汇总,但如果尝试按时间维度累加每个月的库存量,这种汇总就失去了实际意义。

分析库存数据,库存数量可以按地点或商品类别进行汇总,但按时间维度累加就没有意义。例如:
2024年1月1日,北京,库存数量50件。
2024年1月1日,上海,库存数量30件。

我们可以计算北京和上海的总库存数量:80件。但如果我们尝试将1月份每天的库存数量累加,这就没有意义,因为库存数量是随时间变化的,每天的库存数量并不是独立的,而是相互关联的。

  • 不可加性事实:这类度量无法通过任何维度进行汇总,例如比率或百分比。然而,即使是不可加性事实,我们通常也可以通过将其分解为可加的组成部分,来实现某种形式的聚合分析。

记录了每个订单的利润率(销售额减去成本后的百分比),这个度量就是不可加的。例如:
订单1的利润率是20%。
订单2的利润率是15%。

我们不能简单地将这两个利润率相加得到一个总体的利润率。相反,如果我们想要得到平均利润率,我们需要先计算每个订单的实际利润,然后将这些利润相加,最后除以订单的总数。例如:
订单1的销售额是100元,成本是80元,利润是20元。
订单2的销售额是150元,成本是130元,利润是20元。
总利润是40元,订单总数是2,所以平均利润率是 40/(100+150)=16.67%

2. 设计原则

2.1 原则一:全面覆盖业务相关事实

事实表设计的核心目标是全面捕捉业务流程的每一个细节。在设计时,我们应该无一遗漏地纳入所有与业务过程紧密相关的量化事实,哪怕这可能导致数据的轻微冗余。由于事实数据通常以数字形式存储,其对存储空间的影响相对较小。

案例:在一家零售店,事实表不仅记录了每笔交易的销售额,还记录了交易时间、顾客ID和购买的商品种类。即使某些信息如交易时间在某些分析中不是必需的,它的包含仍然为更全面的业务分析提供了可能。

2.2 原则二:精选与业务过程紧密相关的事实

在挑选事实时,我们必须严格筛选,确保只包含那些直接与当前业务过程相关的事实。这有助于保持数据的清晰性和分析的准确性。

案例:在一个电商平台的订单处理过程中,事实表应记录订单号、商品详情和顾客信息,而支付金额则属于支付过程的事实,应从订单事实表中排除。

2.3 原则三:拆分不可加事实为可加度量

面对不可直接汇总的度量,我们应通过创造性地拆分,将其转化为可加的组成部分,从而扩展分析的可能性。

案例:网站的用户访问数据中,如果记录了每个页面的浏览次数和独立访客数,我们可以将“购买率”这一不可加事实拆分为“购买人数”和“浏览人数”,使得原本难以聚合的数据变得可以分析。

2.4 原则四:明确声明事实表的粒度

在设计事实表时,粒度的选择至关重要。我们应从最细的原子粒度开始设计,以满足当前和未来可能的用户需求。

案例:销售事实表可能以单个交易为粒度,记录每一次购买的详细信息。而在汇总销售数据时,我们可以按商品、时间或地区等维度进行聚合。

2.5 原则五:避免同一事实表中存在不同粒度的事实

在一张事实表中,应避免混合不同粒度的事实,以防止汇总时出现重复计算的问题。

案例:如果事实表同时记录了单个订单和包含多个子订单的大订单,那么在汇总支付金额时,大订单中的子订单金额可能会被重复计算。

小订单ID大订单ID小订单付款金额小订单购买数量大订单付款金额
L1001B11001300
L1002B12001300
L1003B21501200
L1004B2501200

2.6 原则六:统一事实的度量单位

在事实表中,所有度量单位应保持一致,无论是货币单位还是数量单位,这有助于简化分析过程并避免混淆。

案例:在财务事实表中,所有的金额数据都应该统一为“元”或“分”,确保在进行财务分析时的一致性和准确性。

2.7 原则七:妥当处理事实的null值

由于null值在某些查询中无法参与计算,我们应事先设定规则,将null值替换为零或其他适当的默认值。

案例:如果销售事实表中的“退货数量”字段出现null,我们可以将其默认填充为0,以避免在计算总销售数量时出现错误。

2.8 原则八:使用退化维度提升事实表的可用性

通过将常用维度属性直接嵌入到事实表中,我们可以减少对维度表的依赖,提高查询效率。

案例:在销售事实表中,如果将“商品名称”作为退化维度直接包含,那么在进行商品销售分析时,就无需额外关联商品维度表,从而加快查询速度并减少I/O操作。

3. 设计方法

3.1 事实表设计流程

在构建数据仓库的事实表之前,我们必须首先深入挖掘并明确业务的核心需求,以及确定事实表所扮演的角色。这一步骤要求我们对业务流程进行全面的需求分析,洞察整个业务生命周期的每一个关键步骤,并且精准筛选出与我们需求紧密相连的业务活动

接下来,我们必须精确地声明事实表的粒度,力求达到原子级别的细节,以便捕捉业务活动中最细微的变化。

在粒度确定之后,我们也随之锁定了事实表的主键。基于此,我们可以识别出与这些主键相关联的维度组合,以及它们所包含的维度字段。

我们还需要明确在这个业务过程中所度量的关键指标是什么,并确保将不可加的度量进行适当的拆分,以便于进行有效的数据聚合。

此外,为了优化查询性能和减少数据冗余,我们应该尽可能地将维度属性退化并直接嵌入到事实表中,这样不仅提升了数据的可用性,也简化了数据模型。

3.2 设计案例:订单事实表

案例背景
假设我们正在为一家电子商务公司设计一个订单事实表,该公司希望分析销售数据以优化库存管理和促销策略。

步骤1:确定业务需求和事实表的类型

  • 我们与业务团队合作,明确了需求:分析订单数据,包括销售额、订单量、顾客购买行为等。

步骤2:进行详细的需求分析

  • 我们分析了订单处理的整个生命周期,从顾客浏览商品到最终的订单交付。

步骤3:声明粒度

  • 我们选择了订单级别的原子粒度,确保每一条记录都对应一个具体的订单事件。

步骤4:确定维度

  • 基于订单粒度,我们确定了以下维度:顾客、时间、产品、促销活动等。

步骤5:确定事实

  • 我们确定了以下度量指标:订单总金额、订单中商品的总数量、退货数量等。对于不可加的度量,如退货率,我们进行了适当的转换以便聚合。

步骤6:冗余维度

  • 为了提高查询效率,我们将一些常用的维度属性,如顾客的地区信息,退化并直接包含在事实表中。
CREATE TABLE IF NOT EXISTS order_fact_table (
    order_id INT COMMENT '唯一标识每个订单的ID',
    customer_id INT COMMENT '下单顾客的ID',
    order_date DATE COMMENT '订单的日期',
    product_id INT COMMENT '订单中商品的ID',
    quantity INT COMMENT '订单中商品的数量',
    unit_price DECIMAL(10, 2) COMMENT '商品的单价,保留两位小数,确保金额的精确度',
    total_amount DECIMAL(15, 2) COMMENT '订单的总金额,保留两位小数,适用于大金额订单',
    return_quantity INT COMMENT '订单的退货数量,默认为0,表示没有退货',
    promotion_id INT COMMENT '订单参与的促销活动ID,如果有的话',
    customer_region STRING COMMENT '顾客所属的地区,使用字符串存储'
)
COMMENT '订单事实表,存储订单相关的详细数据'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

4. 事务类型

4.1 单、多事务事实表

单事务事实表结构简单,易于管理,适用于单一且独立的业务记录。多事务事实表则适用于复杂的业务场景,能够记录多个相关联的事务,但设计和理解上更为复杂。

特性单事务事实表多事务事实表
业务过程一个多个
粒度相互间不相关相同粒度
维度相互间不相关一致
事实只取当前业务过程中的事实保留多个业务过程中的事实,非当前业务过程中的事实需要置零处理
理解程度易于理解,不会混淆难以理解,需要通过标签来限定
计算存储成本较少,不同业务过程融合到一起,降低了存储计算量,但是非当前业务过程的度量存在大量零值较多,每个业务过程都需要计算,存储一次

4.2 其他事实表

事务事实表适用于记录具体事务的瞬间数据,周期快照事实表用于定期捕获数据状态,而累积快照事实表则追踪业务过程的完整历史,提供连续的数据视图。每种表根据其更新和加载机制,服务于不同的数据分析需求。

特性事务事实表周期快照事实表累积快照事实表
时期/时间点离散事务时间点以有规律的、可预测的时期间隔产生快照用于时间跨度不确定的不断变化的工作流
日期维度事务日期快照日期相关业务过程涉及的多个日期
粒度每行代表一个事务每行代表某时间周期的一个实体每行代表一个实体的生命周期
事实事务事实相关业务过程事实和时间间隔事实事务事实、累积事实
事实表加载插入插入插入与更新
事实表更新不更新不更新业务过程变更时更新

5. 写在最后

在本章,我们细致地构建了对事实表这一数据仓库核心元素的理解。事实表记录了企业的关键业务数据,每条记录都是业务活动的直接反映。

我们首先明确了事实表的基本功能,它集中存储了业务度量和事实,是数据分析的基础。然后,我们学习了如何根据业务需求设计事实表,挑选合适的度量,并确保通过维度键与维度表的连接,为数据分析提供必要的上下文。

我们讨论了事实表的粒度问题,这是决定我们分析细节深度的关键。我们还区分了单事务和多事务事实表,并探讨了它们在不同业务场景下的应用。

最后,我们掌握了一些高级设计原则,包括处理null值的策略、避免数据冗余的方法,以及通过退化维度来提高查询性能的技巧。这些原则有助于确保事实表的准确性和效率,支持有效的数据分析和决策制定。

随着本章的结束,希望你对事实表的设计和应用有了更清晰的认识,能够更有效地利用这一工具来挖掘数据的潜力,为企业带来价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1808021.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何有效防御.360勒索病毒:.360勒索病毒加密文件预防方法探讨

导言: 随着信息技术的飞速发展,网络安全问题也日益凸显。其中,勒索病毒作为一种新型的网络安全威胁,给用户和企业带来了极大的困扰和损失。特别是.360勒索病毒,以其独特的加密方式和恶劣的勒索手段,引起了…

AtCoder Beginner Contest 356 G. Freestyle(凸包+二分)

题目 思路来源 quality代码 题解 对n个泳姿点(ai,bi)建凸包,实际上是一个上凸壳, 对于询问(ci,di)来说,抽象画一下这个图,箭头方向表示询问向量 按x轴排增序,并且使得后面的y不小于前面的y,因为总可以多…

Docker高级篇之Docker-compose容器编排

文章目录 1. Docker-compse介绍2. Docker-compse下载3. Docker-compse核心概念4. Docker-compse使用案例 1. Docker-compse介绍 Docker-compose时Docker官方的一个开源的项目,负责对Docker容器集群的快速编排。Docker-compose可以管理多个Docker容器组成一个应用&a…

【单片机毕业设计9-基于stm32c8t6的酒窖监测系统】

【单片机毕业设计9-基于stm32c8t6的酒窖监测系统】 前言一、功能介绍二、硬件部分三、软件部分总结 前言 🔥这里是小殷学长,单片机毕业设计篇9基于stm32的酒窖监测系统 🧿创作不易,拒绝白嫖可私 一、功能介绍 -------------------…

Docker高级篇之轻量化可视化工具Portainer

文章目录 1. 简介2. Portainer安装 1. 简介 Portianer是一款轻量级的应用,它提供了图形化界面,用于方便管理Docker环境,包括单机环境和集成环境。 2. Portainer安装 官网:https://www.portainer.io 这里我们使用docker命令安装&…

8.让画面动起来

一、Unity Shader中的内置变量(时间篇) 动画效果往往都是把时间添加到一些变量的计算中,以便在时间变化的同时也可以随之变化。Unity shader提供了一系列关于时间的内置变量来允许我们方便地在Shader中访问运行时间,实现各种动画…

STM32 | 独立看门狗 | RTC(实时时钟)

01、独立看门狗概述 在由单片机构成的微型计算机系统中,由于单片机的工作常常会受到来自外界电磁场的干扰,造成程序的跑飞,而陷入死循环,程序的正常运行被打断,由单片机控制的系统无法继续工作,会造成整个系统的陷入停滞状态,发生不可预料的后果,所以出于对单片机运行状…

Elasticsearch:Open Crawler 发布技术预览版

作者:来自 Elastic Navarone Feekery 多年来,Elastic 已经经历了几次 Crawler 迭代。最初是 Swiftype 的 Site Search,后来发展成为 App Search Crawler,最近又发展成为 Elastic Crawler。这些 Crawler 功能丰富,允许以…

基于Java+SpringBoot制作一个景区导览小程序

基于Java+SpringBoot制作一个景区导览小程序。其中系统前端功能包括注册登录、景区采风、旅游导览、地图导航、发布采风、门票预订、修改个人信息;系统后台功能包括用户管理、景区管理、采风管理等模块。 摘要一、小程序1. 创建小程序2. 首页3. 景区采风页4. 旅游导览页5. 发布…

人工智能_机器学习097_PCA数据降维算法_数据去中心化_特征值_特征向量_EVD特征值分解原来和代码实现---人工智能工作笔记0222

降维算法的原理,一会咱们再看,现在先看一下,算法 可以看到PCA算法的,原理和过程,我们先看一下代码 为了说明PCA原理,这里,我们,先来计算一下X的方差,可以看到 先把数据进行去中心化,也就是用数据,减去数据的平均值. B = X-X.mean(axis=0) 这段代码是用于计算矩阵X的每一列减去该…

【Web世界探险家】3. CSS美学(二)文本样式

📚博客主页:爱敲代码的小杨. ✨专栏:《Java SE语法》 | 《数据结构与算法》 | 《C生万物》 |《MySQL探索之旅》 |《Web世界探险家》 ❤️感谢大家点赞👍🏻收藏⭐评论✍🏻,您的三连就是我持续更…

⌈ 传知代码 ⌋ 基于曲率的图重新布线

💛前情提要💛 本文是传知代码平台中的相关前沿知识与技术的分享~ 接下来我们即将进入一个全新的空间,对技术有一个全新的视角~ 本文所涉及所有资源均在传知代码平台可获取 以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦&#x…

SQL159 每个创作者每月的涨粉率及截止当前的总粉丝量

描述 用户-视频互动表tb_user_video_log iduidvideo_idstart_timeend_timeif_followif_likeif_retweetcomment_id110120012021-09-01 10:00:002021-09-01 10:00:20011NULL210520022021-09-10 11:00:002021-09-10 11:00:30101NULL310120012021-10-01 10:00:002021-10-01 10:00…

如何获取MySQL中表的大小?(官方校正版)

与大多数关系数据库一样,MySQL 提供了有关数据库本身的有用元数据。虽然大多数其他数据库将此信息称为 catalog, 但MySQL 官方文档INFORMATION_SCHEMA 将元数据 称为 tables。 目录 1 列出单个数据库中的单表大小 2 列出所有数据库中的所有表大小 以下…

从年金理论到杠杆效应,再到财务报表与投资评估指标

一、解释普通年金终值和普通年金现值的概念。 普通年金终值:以利率为1%,每期收款100元,5期为例,普通年金终值的折算过程如图: 普通年金现值:以利率为1%,每期收款100元,5期为例&am…

【C++修行之道】类和对象(六)再谈构造函数(初始化列表)| explicit关键字 | static成员 | 友元|匿名对象|拷贝时一些编译器优化

目录 一、再谈构造函数 1.1 构造函数体赋值 1.2 初始化列表 1. 所有的成员,既可以在初始化列表初始化,也可以在函数体内初始化 2. 每个成员变量在初始化列表中只能出现一次(初始化只能初始化一次) 3. 类中包含以下成员,必须放在初始化列表位置进行初始化&…

【设计模式】行为型设计模式之 备忘录模式(快照模式)

介绍 备忘录应用场景明确并且有限,一般用来数据的防丢失、撤销和恢复。对大对象的备份和恢复,备忘录模式能有效的节省时间和空间开销。 定义 备忘录模式:也称为快照模式,在不违背封装原则的前提下,捕获一个对象的内…

20240610 基于QGIS生成地区示意图的地图shp文件

目录 本文目标前置条件具体步骤1. 创建Project2. 插入世界地图3. 对地区示意图进行地理匹配4. 创建shp文件,勾画轨迹 注意事项 本文目标 基于QGIS生成地区示意图的地图shp文件,此shp文件可以用来学习,但是未经审批不可用于发表。 前置条件 …

水滴型锤片粉碎机:多功能粉碎利器

在现代工业生产中,粉碎机作为一种重要的机械设备,广泛应用于饲料、化工、木材等多个领域。其中,水滴型锤片粉碎机凭借其设计和粉碎能力,成为市场上的热门产品。 水滴型锤片粉碎机其设计灵感来源于水滴的形态。这种设计使得机器在…

【全开源】房屋出租出售预约系统(FastAdmin+ThinkPHP+Uniapp)

房屋出租出售预约系统:一站式解决房产交易难题 一款基于FastAdminThinkPHPUniapp开发的房屋出租出售预约系统,支持小程序、H5、APP,包含房客、房东(高级授权)、经纪人(高级授权)三种身份。核心功能有:新盘销售、房屋租赁、地图找…