如何愉快地实施数仓模型,对比下厨做饭

news2024/11/16 7:53:14

在这里插入图片描述
一般我们建设数仓,有一个链路:

比如这样的
image.png
数据从原始层到DWD、DWS层、然后ADS层。

嘿,未来的大数据专家们!当我们开始实施数据模型时,不妨参考《大数据之路》这本宝藏书。

让我们一起简化流程,注重细节,同时保持愉快的心情!

以如下加工数据为例

ADS层
DWD层
left join
left join
ads1
ads2
dwd: 订单表
dwd: 流量曝光表
DWS用户订单表
DIM商户信息表
agg

1. 方案设计

方案设计是数据模型实施的第一步,主要考虑以下几个方面:

  • 数据产出:设计数据链路的拓扑图(也就是上面👆的加工数据图),明确每个表的产出时间,确保数据模型的及时产出。比如,可以通过一张漂亮的拓扑图展示数据从源表到聚合层的流转过程。这就像设计一个美味的披萨,从面饼到撒上芝士,每一步都要精心设计。

  • 链路设计:详细解释拓扑图中的每一步,包括聚合和连接操作,以及它们的具体逻辑。就像制作一杯复杂的咖啡,每一步的冲泡和添加糖浆都至关重要。

  • 源表说明:列出并描述拓扑图中使用的所有源表,以及从这些表中获取的数据。想象一下,这就像列出厨房里所有的调料和配料,准备好一切才能开始烹饪。

  • 口径说明:详细说明计算逻辑,包括where条件、group by字段和时间聚合范围等。这就像写食谱,要详细说明什么时候加盐、什么时候加糖。
    如:

SELECT
product_id,
SUM(quantity * price) AS total_revenue
FROM sales
WHERE sale_date >= ‘2024-05-01’ AND sale_date < ‘2024-06-01’
GROUP BY product_id;


- **表结构设计**:定义产出表的字段、数据类型、是否增量更新等信息。就像设计菜谱的最终成品,定义每道菜的配料和做法。

## 2. 链路性能与耗时

评估数据链路中每个节点的资源消耗(CPU、内存)和耗时,以及数据存储需求,确保系统性能满足需求。

就像你在健身房锻炼,每一个动作都需要评估你的体力和时间消耗。

## 3. 数据查询

记录Hive表到ES或MySQL、ClickHouse的数据流转路径,为后端调用提供必要的SQL查询示例,确保数据能够被正确查询和使用。


这就像给朋友推荐一家餐厅,不仅要告诉他们地址,还要给出点菜的建议。

## 4. 数据回溯

在开发完成后,对历史数据进行回溯,以验证模型的准确性和完整性。这一步骤需要考虑的问题较多,不仅仅是简单的运行历史分区。

就像看一部时间旅行的电影,回到过去验证一切是否正常。

## 5. 值域说明

处理特殊情况,如分母为0的情况,以及空值的处理方法(NULL、0或其他)。

如:

```sql
SELECT
  COALESCE(quantity, 0) * COALESCE(price, 0) AS total_sales
FROM sales;

这就像在烹饪时,遇到食材不足或调料用完的情况,必须灵活应对,确保最终菜肴不出错。

6. 数据完整性

确保数据的完整性,包括例行任务、自动回溯和手动回溯的数据一致性。

需要提前评估风险,与业务方沟通,必要时牺牲部分数据以避免更大的损失。

就像在厨房里做饭,偶尔可能要牺牲一两个烤焦的面包,但我们最终还是会有一桌美味佳肴。

通过上述步骤,我们可以愉快地确保数据模型的有效实施,同时保证数据的准确性和完整性。

实际中可能有更多问题,欢迎交流~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1812783.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HTTPS缺失?如何轻松解决IP地址访问时的“不安全”警告

一、问题现象 如果访问网站时出现以下任何一种情况&#xff0c;则说明该网站需要立即整改&#xff1a; 1.浏览器地址栏那里出现“不安全”字样&#xff1b; 2.小锁标志被红叉&#xff08;&#xff09;、斜线&#xff08;&#xff3c;&#xff09;等标志为不可用&#xff1b;…

第十三篇——信息正交性:在信息很多的情况下如何做决策?

目录 一、背景介绍二、思路&方案三、过程1.思维导图2.文章中经典的句子理解3.学习之后对于投资市场的理解4.通过这篇文章结合我知道的东西我能想到什么&#xff1f; 四、总结五、升华 一、背景介绍 信息的正交性&#xff0c;让我们对信息有足够的判断&#xff0c;可以避免…

Spring源码:核心类的介绍

1. 前言 核心类代表了Spring框架中最基本的组件和功能&#xff0c;通过介绍这些类&#xff0c;学习者可以更好地理解Spring框架的核心工作原理和关键组件之间的关系。同时&#xff0c;了解这些核心类有助于学习者深入掌握Spring框架的使用和扩展方法。 2. ApplicationContextI…

luogu-P10570 [JRKSJ R8] 网球

题目传送门&#xff1a; [JRKSJ R8] 网球 - 洛谷https://www.luogu.com.cn/problem/P10570 解题思路 数学问题&#xff0c;暴力这个范围会超时。 首先&#xff0c;找出这两个数的最大公因数&#xff0c;将这两个数分别除以最大公因数&#xff0c;则这两个数互质&#xff0c;判…

深度神经网络——图像分类如何工作?

智能手机如何仅凭拍摄的照片就能识别物体&#xff1f;社交媒体网站又是如何自动标记照片中的人物&#xff1f;这些功能背后&#xff0c;是人工智能驱动的图像识别和分类技术。 图像识别和分类技术是人工智能领域中一些最令人瞩目的成就。但计算机是如何学会检测和分类图像的呢…

Docker系列.Docker Desktop中如何启用Kubernetes

Docker技术概论 Docker Desktop中如何启用Kubernetes - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite&#xff1a;http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article:https://blog.…

专硕初试科目一样,但各专业的复试线差距不小!江南大学计算机考研考情分析!

江南大学物联网工程学院&#xff0c;是由江南大学信息工程学院和江南大学通信与控制工程学院&#xff0c;于2009年合并组建成立“物联网工程学院”&#xff0c;也是全国第一个物联网工程学院。 江南大学数字媒体学院是以江南大学设计学院动画系和信息工程学院数字媒体技术系为…

开门预警系统技术规范(简化版)

开门预警系统技术规范(简化版) 1 系统概述2 预警区域3 预警目标4 功能需求5 功能条件6 显示需求7 指标需求1 系统概述 开门预警系统(DOW),在自车停止开门过程中,安装在车辆的传感器(如安装在车辆后保险杆两个角雷达)检测从自车后方接近的目标车(汽车、摩托车等)的相对…

实现钉钉扫码登陆

在钉钉开放平台查看&#xff1a;实现登录第三方网站 - 钉钉开放平台 1、在开发者后台创建应用&#xff0c;创建完应用之后&#xff0c;拿到应用的AppKey和AppSecret。 2、添加接口权限 3、配置frp内网穿透&#xff1a;&#xff08;当第四步使用回调域名的重定向地址时&#xf…

关于flutter 启动 页面加载空白(三四秒空白页面)

一:可以在 对应的xml配置启动动画 <item><bitmapandroid:gravity"center"android:src"mipmap/ic_launcher" /></item> 二&#xff1a;以下是对应的文件目录 注意事项&#xff1a;俩处xml都配置一下&#xff0c;配置一样就可以了

那些年我看过的技术书(持续更新,大佬的成长之路)

作为一个技术人啊&#xff0c;要学会多看书&#xff0c;发展自己。哦也&#xff01;你可以不关注&#xff0c;就把文章点个收藏吧&#xff0c;万一以后想看书了呢&#xff1f; 网络安全 CTF篇 入门篇 《极限黑客攻防&#xff1a;CTF赛题揭秘》 Web篇 Reserve篇 《IDApro…

小白学RAG:大模型 RAG 技术实践总结

节前&#xff0c;我们组织了一场算法岗技术&面试讨论会&#xff0c;邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。 针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。 汇总合集…

【人工智能基础学习】Andrew Ng-机器学习基础笔记

⭐️我叫忆_恒心&#xff0c;一名喜欢书写博客的研究生&#x1f468;‍&#x1f393;。 如果觉得本文能帮到您&#xff0c;麻烦点个赞&#x1f44d;呗&#xff01; 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧&#xff0c;喜欢的小伙伴给个三连支…

Python实现音乐播放器 -----------内附源码

Python做一个简易的音乐播放器 简易音乐播放器 import time import pygamefile r歌曲路径 pygame.mixer.init() print(正在播放,file) track pygame.mixer.music.load(file) pygame.mixer.music.play() time.sleep(130) pygame.mixer.music.stop()运行效果&#xff1a; 开始…

档案数字化扫描录入整理流程

档案数字化扫描录入整理流程可以分为以下几个步骤&#xff1a; 1. 确定扫描设备和软件&#xff1a;选择适合的扫描设备和软件&#xff0c;确保扫描质量和效率。 2. 准备档案文件&#xff1a;将待扫描的档案文件按照一定的分类和顺序进行整理和准备&#xff0c;如编号、分类、日…

数值计算精度问题(浮点型和双整型累加精度测试)

这篇博客介绍双整型和浮点数累加精度问题,运动控制轨迹规划公式有大量对时间轴的周期累加过程,如果我们采用浮点数进行累加,势必会影响计算精度。速度的不同 进一步影响位置积分运算。轨迹规划相关问题请参考下面系列文章,这里不再赘述: 1、博途PLC 1200/1500PLC S型速度曲…

英伟达SSD视觉算法分类代码解析

一、官方原代码 #!/usr/bin/env python3 # # Copyright (c) 2020, NVIDIA CORPORATION. All rights reserved. # # Permission is hereby granted, free of charge, to any person obtaining a # copy of this software and associated documentation files (the "Softwa…

计算机毕业设计 | SSM 校园线上订餐系统 外卖购物网站(附源码)

1&#xff0c; 概述 1.1 项目背景 传统的外卖方式就是打电话预定&#xff0c;然而&#xff0c;在这种方式中&#xff0c;顾客往往通过餐厅散发的传单来获取餐厅的相关信息&#xff0c;通过电话来传达自己的订单信息&#xff0c;餐厅方面通过电话接受订单后&#xff0c;一般通…

UPerNet 统一感知解析:场景理解的新视角 Unified Perceptual Parsing for Scene Understanding

论文题目&#xff1a;统一感知解析&#xff1a;场景理解的新视角 Unified Perceptual Parsing for Scene Understanding 论文链接&#xff1a;http://arxiv.org/abs/1807.10221(ECCV 2018) 代码链接&#xff1a;https://github.com/CSAILVision/unifiedparsing 一、摘要 研究…

Java多线程之不可变对象(Immutable Object)模式

简介 多线程共享变量的情况下&#xff0c;为了保证数据一致性&#xff0c;往往需要对这些变量的访问进行加锁。而锁本身又会带来一些问题和开销。Immutable Object模式使得我们可以在不加锁的情况下&#xff0c;既保证共享变量访问的线程安全&#xff0c;又能避免引入锁可能带…