【数据仓库】数据仓库常见的数据模型——维度模型

news2024/9/21 18:49:38

文章部分图参考自:多维数据模型各种类型(星型、雪花、星座、交叉连接) - 知乎 (zhihu.com)

文章部分文字canla一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)-腾讯云开发者社区-腾讯云 (tencent.com)

目录

一、维度模型

(1)、星型模型(Star Schema)

(2)、雪花模型(Snowflake Schema)

(3)、星座模型(Galaxy Schema)

(4)、交叉连接

二、选择模型的考虑因素


一、维度模型

在数据仓库的设计和实施过程中,选择合适的数据模型对于优化查询性能提升数据分析效率至关重要。星型模型雪花模型星座模型是3种流行的数据仓库建模方法,它们各自具有独特的结构、优势和局限性。本文将深入探讨这三种模型的特点、适用场景以及如何根据业务需求进行选择。

维度建模四个步骤:

选择业务处理过程 > 定义粒度 > 选择维度 > 确定事实

1、星型模型(Star Schema)

星型模型是一种简单直观的数据模型。其主要目的是优化查询性能,使数据分析更加高效。星型模型的设计思路源自于对多维数据模型的需求,即通过简化数据结构来支持快速的查询操作。

1、结构:

星型模型由一个中心的事实表(Fact Table)和多个维度表(Dimension Tables)构成。中心事实表包含与业务过程相关的事实指标,维度表则描述了这些事实的上下文信息。事实表包含了可度量的数据,如销售额或利润,而维度表则包含了描述这些数据的属性,如时间、地点或产品类型。事实表与维度表之间通过外键连接,形成一个类似星形的结构。

 

2、优缺点:

优点:

  • 易于理解和查询:星型模型的结构简单明了,易于理解和查询,适用于简单的分析需求。
  • 性能较高:星型模型具有较好的查询性能,因为所有的维度信息都存储在维度表中,减少了表的连接操作,查询优化相对容易,能快速处理大量数据。

缺点:

  • 数据冗余:维度表可能存在数据冗余,也可能导致数据不一致性,也增加了存储空间的消耗。
  • 维护难度大:灵活性有限,星型模型对于新增维度的处理相对困难,需要进行表结构的修改

2、雪花模型(Snowflake Schema)

雪花模型是在星型模型的基础上进行了维度表的规范化,将维度表进一步分解为多个层次的规范化表。它的目的是通过数据规范化来减少冗余,并提升存储效率。雪花模型的名字源于其表结构的层次化外观,类似雪花的形状。

1.结构:

在雪花模型中,维度表被进一步分解成多个子表,形成一个层次结构。这种规范化使得维度数据被拆分到更细粒度的表中,从而减少数据冗余。例如,产品维度表可能会被拆分成产品类别和产品子类别表。

事实表:订单事实表(与星型模型相同)
维度表:日期维度表(与星型模型相同)
维度表:客户维度表(与星型模型相同)

维度表:产品维度表
产品ID | 产品名称 | 类别 |··
规范化表:产品类别表
类别ID | 类别名称 | 父类别ID |··

2.优缺点:

优点:

  • 减少冗余数据:雪花模型通过规范化维度表,减少了数据冗余,节省了存储空间。
  • 灵活性高:雪花模型支持灵活的维度层次,适用于需要频繁变更或扩展维度的场景,有助于保持数据的一致性。

缺点:

  • 查询性能较差:由于表结构复杂,查询时需要进行多个连接,性能可能受影响。
  • 难以理解和维护:雪花模型的结构复杂,维度表的规范化可能增加了数据模型的理解和维护的复杂性。

3、星座模型(Galaxy Schema)

星座模型,又称为星型集合模型(Fact Constellation Schema),是对星型模型的一种扩展。它允许多个星型模型共享维度表,因此适用于需要整合多个业务领域的数据仓库。星座模型的出现满足了更复杂数据整合的需求。

1.结构:

星座模型由多个星型模型组成,这些星型模型共享某些维度表。例如,一个数据仓库可能同时包含销售和库存的星型模型,这些模型共享时间和产品维度表,从而形成一个星座结构。

2.优缺点:

优点:

  • 整合多个业务领域:适合处理复杂的业务数据,支持多角度分析。
  • 提高维度表的复用性:通过共享维度表,减少了数据重复。

缺点:

  • 设计复杂:涉及多个星型模型,设计和维护较为复杂。
  • 查询优化难度大:由于涉及多种业务数据,查询优化和性能调优比较复杂。

(4)、交叉连接

从一张表到另一张表有多条筛选路径彼此相连接,属于交叉连接模式

二、选择模型的考虑因素

1、数据复杂性:

如果业务需求较简单,维度层次不复杂,可以选择星型模型

如果业务需求复杂,维度层次较多,可以选择雪花模型

2、查询性能要求:

如果对查询性能有较高的要求,可以选择星型模型

如果对存储空间有较高的要求,可以选择雪花模型

3、可维护性和扩展性:

如果数据模型相对稳定,变更频率较低,可以选择星型模型。 

如果需要频繁变更或扩展维度,可以选择雪花模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2139581.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IDEA一键部署Docker应用(赶紧过来卷)

部署要求: 你已经了解docker基本常用命名。 会书写Dockerfile文件。centos上已经安装docker 部署环境:本文采用 Idea2024来进行部署,部署到阿里云的centos的docker上 部分功能展示(idea操作docker挺方便的,大家有空…

用于全文RSS服务的Full-Text-RSS

什么是 Full-Text-RSS ? Full-Text-RSS 能轻松从网页或仅摘要的 RSS 提要中提取完整的文章内容。 是 fivefilters 全文 RSS 服务的非官方 Docker 镜像。 从功能上来说,和老苏之前介绍过的 Morss很 类似 文章传送门:用Morss获取全文RSS摘要 安…

利用secureCRT向虚拟机发送文件(secureCRT安装使用教程)

链接: secureCRT 链接:https://pan.baidu.com/s/1CvNYzoBbLVkyYNFq7hrT0g 提取码:5974 链接: secureCRT安装使用教程 链接:https://pan.baidu.com/s/1Bbi7SqyJBere8G53BCYL5A 提取码:xjw1

扫地机类清洁产品之直流无刷电机控制

扫地机类清洁产品之直流无刷电机控制 1.1 前言 扫地机产品有很多的电机控制,滚刷电机1个,边刷电机1-2个,清水泵电机,风机一个,部分中高端产品支持抹布功能,也就是存在抹布盘电机,还有追觅 科沃斯 石头等边刷抬升电机,滚刷抬升电机等的,这些电机有直流有刷电机,直接…

心觉:《潜意识创富实操营》首批蜕变者招募

昨天写了一篇文章,想帮助大家做“潜意识显化” 可能“显化”这个词,太专业了,有些人听不懂 今天我再用大白话讲一下 潜意识显化,本质上就是用科学的方法把潜意识的能量释放出来 帮助我们达成我们想要的目标 潜意识就像人体中…

AI donotpay平台介绍

AI donotpay平台介绍 DoNotPay 是一个基于人工智能的在线法律服务平台,旨在帮助用户解决与大公司和政府机构的各种问题。以下是对 DoNotPay 平台的详细介绍: 1. 平台概述 创始人: DoNotPay 由 Joshua Browder 于 2015 年创立,最初是一个用于…

20240911泰山杯初赛--temp

Wireshark打开temp.pcap流量包,发现有很多ICMP协议包。 一些ICMP数据包较大,且可发现,明显在传输HTTP协议数据内容: 右键,【显示分组字节】,进一步分析这些HTTP数据: GET /test.html HTTP/1.…

安卓玩机工具-----ADB与 FASTBOOT模式 图形化 多功能玩机刷机工具

工具说明 这款工具是英文版。易于使用的工具提供了用于运行 ADB 和 Fastboot 命令的图形用户界面。ADB 功能包括旁加载、安装和卸载应用程序、测试设备以及重新启动到不同的模式。可以使用 fastboot 命令进行设备管理;其中包括检查 Antirollback 和 active slots 等变…

思维商业篇(3)—三大竞争战略

思维商业篇(3)—三大竞争战略 三大竞争战略 都说商场如战场,每个业务赛道都会有竞争者,所以我们到底应该用什么和别人去竞争去PK呢? 三大竞争战略能帮助你识别和构建你的业务在产业当中的竞争优势,从而更好的获得竞争优势。 三…

CSCC2024数据库内核赛道Profile记录

同学参加CSCC2024数据库系统赛道比赛,我和他一起研究了一些优化的case,最后成功拿到全国2/325。在这里记录一下我们讨论优化过的问题(建议把源码下下来边读边搜代码,否则会晕) 行锁占用内存过大 Q:TPCC测…

图说GPT网络结构(参数量与计算量估计)

现在AI领域的主流模型几乎都是Transformer网络架构衍生而来。大热的LLM中的生成类模型很多都是来自于Transformer的变体,即decoder only架构。而GPT就是该类中的经典模型。尽管现在变体甚多,但大多没有根本性地改变其套路。 为了阐述方便,首…

Java开发与实现教学管理系统动态网站

博主介绍:专注于Java .net php phython 小程序 等诸多技术领域和毕业项目实战、企业信息化系统建设,从业十五余年开发设计教学工作 ☆☆☆ 精彩专栏推荐订阅☆☆☆☆☆不然下次找不到哟 我的博客空间发布了1000毕设题目 方便大家学习使用 感兴趣的可以…

资源管理新视角:利用 FastAPI Lifespan 事件优化你的应用II

本文说明在 FastAPI 应用程序中使用 lifespan 事件来管理资源的加载和卸载。lifespan 事件允许你在应用启动时执行一些初始化代码,并在应用关闭时执行一些清理代码。这是通过使用异步上下文管理器实现的,具体来说,是通过 asynccontextmanager…

自由流转--实例

一、自由流转的形态 流转能力打破设备界限,多设备联动,使用户应用程序可分可合、可流转,实现如邮件跨设备编辑、多设备协同健身、多屏游戏等分布式业务。 二、跨端迁移 在应用开发层面,跨端迁移指在A端运行的UIAbility迁移到B端上…

店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码

摘要:本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合,阐述了链动 21 模式、AI 智能名片和 S2B2C 商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来…

四、(JS)JS中常见的加载事件

一、文档加载监听 (1)抛出疑惑,什么是文档加载监听?为什么要有这个东西? 老样子,我们先讲一个场景,带着大家熟悉为什么会有文档加载监听,是来解决什么问题来着的。 我们先看下这段…

无心剑七绝《中秋相思》

七绝中秋相思 中秋月满意深长 百代江阳老窖香 莫道天涯情不尽 相思寸寸赋华章 2023年9月29日 平水韵七阳平韵 这首诗七绝《中秋相思》由无心剑所作,以其深情的笔触描绘了中秋夜的相思之情。 诗中首句“中秋月满意深长”即以中秋圆月为起点,勾勒出了一幅…

相同的数--(力扣)

给你两棵二叉树的根节点 p 和 q ,编写一个函数来检验这两棵树是否相同。 如果两个树在结构上相同,并且节点具有相同的值,则认为它们是相同的。 示例 1 输入:p [1,2,3], q [1,2,3] 输出:true示例 2: 输入…

C#/.NET/.NET Core技术前沿周刊 | 第 5 期(2024年9.9-9.15)

前言 C#/.NET/.NET Core技术前沿周刊,你的每周技术指南针!记录、追踪C#/.NET/.NET Core领域、生态的每周最新、最实用、最有价值的技术文章、社区动态、优质项目和学习资源等。让你时刻站在技术前沿,助力技术成长与视野拓宽。 欢迎投稿&…

今日早报 每日精选15条新闻简报 每天一分钟 知晓天下事 9月16日,星期一

每天一分钟,知晓天下事! 2024年9月16日 星期一 农历八月十四 1、 台风“贝碧嘉”来袭,上海、杭州发文提醒市民非必要不外出;上海市内高速全部封闭。 2、 中秋假期第一天最热门目的地出炉:北京、成都、上海包揽前三。 …