数据平台之数仓模型设计

news2025/1/18 6:46:34

文章目录

    • 前言
    • 一、维度建模基本概念
      • 1.1 事实表
      • 1.2 维度表
    • 二、维度建模三种模式
      • 2.1 星型模型
      • 2.2 雪花模式
      • 2.3 星座模式
    • 三、ChatGPT代替Sql Boy
      • 3.1 简单案例
      • 3.2 复杂案例
    • 四、总结


前言

看到几篇不错的文章,自己总结合并了分享给小伙伴

金博尔和恩门共同开创的数仓建模的设计方法,这个方法对于后来基于数据湖的现代数据仓库的设计有重要的意义,所以你有必要了解:

恩门提出的建模方法自顶向下(这里的顶是指数据的来源,在传统数据仓库中,就是各个业务数据库),基于业务中各个实体以及实体之间的关系,构建数据仓库。比如,在一个最简单的买家购买商品的场景中,按照恩门建模的思维模式,首先你要理清这个业务过程中涉及哪些实体。买家、商品是一个实体,买家购买商品是一个关系。所以,模型设计应该有买家表,商品表,和买家商品交易表三个模型。

金博尔建模与恩门正好相反,是一种自底向上的模型设计方法,从数据分析的需求出发,拆分维度和事实。那么用户、商品就是维度,库存、用户账户余额是事实。

这两种方法各有优劣,恩门建模因为是从数据源开始构建,构建成本比较高,适用于应用场景比较固定的业务,比如金融领域,冗余数据少是它的优势。金博尔建模由于是从分析场景出发,适用于变化速度比较快的业务,比如互联网业务。由于现在的业务变化都比较快,所以我更推荐金博尔的建模设计方法。

一、维度建模基本概念

维度模型是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。

维度建模是专门应用于分析型数据库、数据仓库、数据集市建模的方法。数据集市可以理解为是一种小型数据仓库。

1.1 事实表

发生在现实世界中的操作型事件,其所产生的可度量数值,存储在事实表中。从最低的粒度级别来看,事实表行对应一个度量事件,反之亦然。事实表表示对分析主题的度量。比如一次购买行为我们就可以理解为是一个事实。

图中的订单表就是一个事实表,可以理解他就是在现实中发生的一次操作型事件,每完成一个订单,就会在订单中增加一条记录。

事实表的特征:表里没有存放实际的内容,他是一堆主键的集合,这些ID分别能对应到维度表中的一条记录。事实表包含了与各维度表相关联的外键,可与维度表关联。事实表的度量通常是数值类型(条/个/次),且记录数会不断增加,表数据规模迅速增长。

1.2 维度表

维度表示要对数据进行分析时所用的一个量,比如你要分析产品销售情况, 你可以选择按类别进行分析,或按区域分析。这样的按…分析就构成一个维度。

上图中的用户表、商家表、时间表这些都属于维度表。这些表都有一个唯一的主键,然后在表中存放了详细的数据信息。

  • 例如:交易金额分析分析

男性用户的订单金额、联想商品的订单金额、第一季度的订单金额、手机的订单金额、家里下单的订单金额

  • 例如:学生分析

姓张的同学有多少、男性的同学有多少、江苏的同学有多少、身高小于170cm的同学有多少、年龄小于23岁的同学有多少。

每个维度表都包含单一的主键列。维度表的主键可以作为与之关联的任何事实表的外键,当然,维度表行的描述环境应与事实表行完全对应。维度表通常比较宽,是扁平型非规范表,包含大量的低粒度的文本属性。

总的说来,在数据仓库中不需要严格遵守规范化设计原则。因为数据仓库的主导功能就是面向分析,以查询为主,不涉及数据更新操作。

事实表的设计是以能够正确记录历史信息为准则。

维度表的设计是以能够以合适的角度来聚合主题内容为准则。

二、维度建模三种模式

2.1 星型模型

星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星形模式的维度建模由一个事实表和一组维表成,且具有以下特点:

维表只和事实表关联,维表之间没有关联;
每个维表主键为单列,且该主键放置在事实表中,作为两边连接的外键;
以事实表为核心,维表围绕核心呈星形分布;

2.2 雪花模式

雪花模式(Snowflake Schema)是对星形模式的扩展。雪花模式的维度表可以拥有其他维度表的,虽然这种模型相比星型更规范一些,但是由于这种模型不太容易理解,维护成本比较高,而且性能方面需要关联多层维表,性能也比星型模型要低。所以一般不是很常用。

2.3 星座模式

星座模式是星型模式延伸而来,星型模式是基于一张事实表的,而星座模式是基于多张事实表的,而且共享维度信息。
前面介绍的两种维度建模方法都是多维表对应单事实表,但在很多时候维度空间内的事实表不止一个,而一个维表也可能被多个事实表用到。在业务发展后期,绝大部分维度建模都采用的是星座模型

三、ChatGPT代替Sql Boy

ChatGPT是一个基于自然语言处理和机器学习技术的人工智能模型,可以用于生成文本、回答问题、翻译等任务。在数据库管理和数据分析领域中,SQL是一种常用的查询语言,用于从关系型数据库中检索和操作数据。生成SQL语句可以帮助用户快速有效地提取数据,提高工作效率。

利用ChatGPT生成SQL的背景是基于自然语言查询数据库的需求。对于那些不熟悉SQL的人来说,学习SQL的成本比较高,而且SQL语法繁琐,容易出错。ChatGPT可以为用户提供一种更为自然的交互方式,让用户可以使用日常语言进行查询,将查询需求转化为SQL语句,并执行查询操作。这种方式更加方便,也可以帮助用户提高查询效率和准确性。因此,利用ChatGPT生成SQL可以帮助用户快速实现数据库查询和数据分析的需求,提高工作效率和准确性。

3.1 简单案例

假设有一家销售公司,需要查询销售额最高的产品和对应的销售额。公司的数据库中有两个表:产品表(Product)和订单表(Orders),它们之间通过产品编号(ProductId)建立了一对多的关系。现在,公司的销售经理想要查询销售额最高的前5个产品及其对应的销售额。为了实现这个查询,可以使用ChatGPT生成SQL语句。
首先,销售经理可以向ChatGPT提供以下自然语言查询:

“查询销售额最高的前5个产品及其对应的销售额”

ChatGPT可以将这个查询转化为以下SQL语句:

SELECT p.ProductName, SUM(o.Quantity * o.UnitPrice) AS SalesAmount
FROM Product p
INNER JOIN Orders o ON p.ProductId = o.ProductId
GROUP BY p.ProductName
ORDER BY SalesAmount DESC
LIMIT 5;

3.2 复杂案例

例如,假设销售经理需要查询在2021年第一季度(1月1日至3月31日)中,销售额最高的5个产品及其对应的销售额和销售数量。为了实现这个查询,需要向ChatGPT提供更为详细和精准的自然语言描述:

“查询2021年第一季度(1月1日至3月31日)中,销售额最高的5个产品及其对应的销售额和销售数量。订单表(Orders)中包含订单创建日期(OrderDate)字段,订单状态(Status)字段,产品表(Product)中包含产品名称(ProductName)字段,产品单价(UnitPrice)字段和产品数量(Quantity)字段。”

ChatGPT可以将这个查询转化为以下SQL语句:

SELECT p.ProductName, SUM(o.Quantity) AS SalesQuantity, SUM(o.Quantity * o.UnitPrice) AS SalesAmount
FROM Product p
INNER JOIN Orders o ON p.ProductId = o.ProductId
WHERE o.OrderDate BETWEEN '2021-01-01' AND '2021-03-31' AND o.Status = 'Completed'
GROUP BY p.ProductName
ORDER BY SalesAmount DESC
LIMIT 5;

四、总结

数仓的建模理论是非常有必要掌握的。

每一个指标的计算,往往都是通过指标的审核->模型的建立->指标的开发

以流程的方式进行数仓开发。

接着就是sql的编写,不管是简单的SQL或者复杂的SQL,我们都可以借助GPT进行编写

即使不是很完善,但是在我们修改提示词之后,我相信也能够给我们一个基础的SQL代码框架。

ChatGPT可以根据用户提供的自然语言查询,自动生成相应的SQL语句,从而简化数据查询和分析的过程。

但是我们需要注意以下:

  • 1.为了确保生成的SQL语句的准确性和可靠性,用户需要提供清晰、简洁和准确的自然语言描述,以及数据表结构和相关字段信息。
  • 2.ChatGPT生成的SQL语句的精度和准确性受到模型的训练数据和算法的影响。因此,在使用ChatGPT生成SQL语句时,需要进行必要的检查和验证,以确保结果的准确性和可靠性。
  • 3.ChatGPT可以帮助用户快速生成简单的SQL语句,但在处理复杂的查询需求时,可能需要用户的参与和进一步的修改优化。
  • 4.ChatGPT的出现使得数据查询和分析工作更加便捷和自动化,但并不代表人工智能技术可以完全替代人类的工作。在实际工作中,程序员仍然需要掌握SQL语法和数据库管理技能,以确保数据分析和查询的准确性和可靠性。

总之,ChatGPT可以帮助我们快速生成SQL语句,从而简化数据查询和分析的过程。但是,在使用ChatGPT生成SQL语句时,需要注意保证自然语言描述的准确性和数据表结构的清晰性,以确保结果的准确性和可靠性。

同时,我们也需要持续学习和提高自己的SQL语法和数据库管理技能,以适应变化的市场需求

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/738824.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue项目 设置启动时自动运行到电脑默认浏览器中

相信大家很多参与企业开发会发现 别人搭建的vue项目都会自动启动在电脑的默认浏览器上 这个其实React项目自己就会有 但是 vue项目我们需要自己设置一下 在根目录的 vue.config.js 将devServer下 设置 open: true 参考代码如下 module.exports {devServer: {open: true} }这样…

机器学习30:《推荐系统-III》使用 TensorFlow 构建电影推荐系统

本文将介绍基于 MovieLens 数据集创建一个电影推荐系统的方法。具体而言,包括探索电影数据,训练矩阵分解模型,检查嵌入,矩阵分解中的正则化,Softmax 模型训练等内容。 目录 1.准备工作 1.1 导入依赖模块 1.2 加载数…

LeetCode 1107.每日新用户统计

数据准备 Create table If Not Exists Traffic (user_id int, activity ENUM(login, logout, jobs, groups, homepage), activity_date date); Truncate table Traffic; insert into Traffic (user_id, activity, activity_date) values (1, login, 2019-05-01); insert into …

Charles抓包map local后出现“failed: unacceptable content-type: text/plain“

Charles 抓包map local 修改 映射到本地数据 出现如下报错 返回ErrorUrlhttps://xxxx 返回ErrorError Domaincom.alamofire.error.serialization.response Code-1016 "Request failed: unacceptable content-type: text/plain" UserInfo{NSLocalizedDescriptionRequ…

邮票面值-2022年全国青少年信息素养大赛Python国赛第5题

[导读]:超平老师计划推出《全国青少年信息素养大赛Python编程真题解析》50讲,这是超平老师解读Python编程挑战赛真题系列的第7讲。 全国青少年信息素养大赛(原全国青少年电子信息智能创新大赛)是“世界机器人大会青少年机器人设计…

适配理想全系车型,OPPO首创手表无感蓝牙车钥匙系统

OPPO 宣布与理想汽车深度合作,首家推出系统级手表无感蓝牙车钥匙功能,适配理想全系列车型。此功能早已适配 OPPO 手机。仅支持 OPPO Watch 2、OPPO Watch 3 和 OPPO Watch SE 系列,可独立使用,无需手机即可控制车辆。 OPPO首发数字…

Python:创建一个满足高斯分布的立方体

算法说明: (1)首先定义一个中心点坐标 center,标准差 sigma 和峰值 amplitude。 (2)然后通过计算每个点到中心点的欧氏距离,并将欧氏距离应用于高斯分布的公式 amplitude * exp(-distances**2 /…

tcp转发服务桥(windows)

目的 目的是为了在网关上转发udp数据和tcp数据。对于网络里面隔离的内网来说,有一台可以上网的服务器,那么通过两块网卡就可以转发出去,在服务器上进行数据的转发,有tcp和udp两种,udp已经写过了,这次使用了…

MySQL 导出库和表信息导出成Excel

最近在写文档需要将数据库的表和对应的表信息做成EXCEL。 我不能一个一个表一个一个字段的敲下去吧!!! 那有没有一个SQL搞定呢? 这个可以有有! 数据库里有那些表(包含表名和表介绍) SELECT…

路径规划算法:基于野马优化的路径规划算法- 附代码

路径规划算法:基于野马优化的路径规划算法- 附代码 文章目录 路径规划算法:基于野马优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要:本文主要介绍利用智能优化算法野马…

关于CEPH的简单畅谈

CEPH是什么 CEPH是一个先进的分布式存储系统,它具有高度可靠性、可扩展性和性能。CEPH旨在解决传统存储系统中存在的诸多挑战,如单点故障、难以扩展、数据丢失风险等。 CEPH的设计理念是将数据分布到一个由多个节点组成的集群中,并利用冗余…

ERROR: ORA-12560: TNS: 协议适配器错误

之前在Windows安装了Oracle,遇到了ORA-12560 TNS: protocol adapter error的错误。这个问题的原因很简单,就是没有配Oracle的环境变量。由于是去年遇到的问题,我现在已经忘了具体配置什么变量,但可以肯定的是这个问题就是环境变量…

24 | MySQL是怎么保证主备一致的?

以下内容出自《MySQL 实战 45 讲》 https://time.geekbang.org/column/article/76446 24 | MySQL是怎么保证主备一致的? MySQL 主备的基本原理 如图所示就是基本的主备切换流程。(M-S结构) 节点 A 到 B 这条线的内部流程是什么样的 &#x…

DEVICENET转ETHERNET/IP网关devicenet怎么读

远创智控YC-EIP-DNT,你听说过吗?这是一款自主研发的ETHERNET/IP从站功能的通讯网关,它能够连接DEVICENET总线和ETHERNET/IP网络,从而解决生产管理系统中协议不同造成的数据交换互通问题。 这款产品在工业自动化领域可谓是一大利…

微调预训练的 NLP 模型

动动发财的小手,点个赞吧! 针对任何领域微调预训练 NLP 模型的分步指南 简介 在当今世界,预训练 NLP 模型的可用性极大地简化了使用深度学习技术对文本数据的解释。然而,虽然这些模型在一般任务中表现出色,但它们往往缺…

vue进阶----路由

目录 前端路由的概念与原理 什么是路由 SPA 与前端路由 前端路由 前端路由的工作方式 实现简易的前端路由 vue-router 的基本用法 vue-router vue-router 安装和配置的步骤 声明路由的匹配规则 vue-router 的常见用法 1、路由重定向 2、嵌套路由 3、动态路由匹配 …

Stable Diffusion高阶技能(1)-掌握这些,你也能绘出惊艳画作

开篇 初踏入AI作画的世界,你可能会对如何制造出惊艳的艺术作品而困惑。作为一个前沿技术的探索者,我在这一篇文章中,会和你一同揭秘如何用正确的提示词操控AI的“透视”,将最美的画面展现在你眼前。 技能一、提高图片质量的高阶手法 在数量众多的元素中,我们如何做出最…

Vue组件库Element-常见组件-Form表单

Form表单 Form 表单&#xff1a;由输入框、选择器、单选框、多选框等控件组成&#xff0c;用以收集、检验、提交数据 具体关键代码如下&#xff1a; <template><div><el-row><!-- button 按钮 --><el-button>默认按钮</el-button><e…

DDPM 知识点

Generative Modeling by Estimating Gradients of the Data Distribution | Yang Song Score Matching 系列 (一) Non-normalized 模型估計 | 棒棒生

基于单片机智能饮水机加热系统的设计与实现

功能介绍 以51单片机作为主控系统&#xff1b;LCD1602液晶显示当前水温&#xff0c;定时提醒&#xff0c;水量变化DS18B20检测当前水体温度&#xff1b;水位传感器检测当前水位&#xff1b;继电器驱动加热片进行水温加热&#xff1b;定时提醒喝水&#xff0c;蜂鸣器报警&#x…