数据仓库规范建设指南

news2024/11/18 9:43:59

数据仓库规范建设指南

1.数仓公共开发规范

1.1 层次调用规范

稳定业务按照标准的数据流向进行开发,即ODS-> DWD-> DWS-> APP。

非稳定业务探索性需求,可以遵循ODS-> DWD->APP或者ODS-> DWD-> DWM-> APP 两个模型数据流。

在保证了数据链路的合理性之后,也必须保证模型分层引用原则:

  • 正常流向:ODS-> DWD-> DWM-> DWS-> APP,当出现ODS->DWD-> DWS-> APP 这种关系时,说明主题域未覆盖全。应将DWD数据落到DWM中,对于使用频度非常低的表允许DWD-> DWS。
  • 尽量避免出现DWS宽表中使用DWD又使用DWM的表。
  • 同一主题域内对于DWM生成DWM的表,原则上要尽量避免,否则会影响ETL的效率。
  • DWM、DWS、和APP中禁止直接使用ODS的表,ODS的表只能被DWD引用。
  • 禁止出现反向依赖,例如DWM的表依赖DWS的表。

1.2 数据类型规范

需统一规定不同的数据的类型,严格按照规定的数据类型执行:

  1. 金额:double 或使用decimal(28,6)控制精度等,明确单位是分还是元。
  2. 字符串:string。
  3. id类:bigint。
  4. 时间:string。
  5. 状态:string。

1.3 数据冗余规范

宽表的冗余字段要确保:

  1. 冗余字段要使用高频,下游3个或以上使用
  2. 冗余字段引入不应造成本身数据产生过多的延后
  3. 冗余字段和已有字段的重复率不应过大,原则上不应超过60%,如需要可以选择join或原表拓展。

1.4 NULL字段处理规范

  • 对于维度字段,需要设置为-1
  • 对于指标字段,需要设置为0

1.5 指标口径规范

保证主题域内,指标口径一致,无歧义

通过数据分层,提供统一的数据出口,统一对外输出的数据口径,避免同一指标不同口径的情况发生。

1.6 数据表处理规范

  • 增量表

新增数据,增量数据是上一次导出之后的新数据。

  1. 记录每次增加的量,而不是总量;
  2. 增量表,只报变化量,无变化不用报;
  3. 每天一个分区。
  • 全量表

每天的所有的最新状态的数据。

  1. 全量表,有无变化,都要报;
  2. 每次上报的数据都是所有的数据(变化的+没有变化的);
  3. 只有一个分区;
  • 快照表

按日分区,记录截止数据日期的全量数据。

  1. 快照表,有无变化都要报;
  2. 每次上报的数据都是所有的数据(变化的+没有变化的);
  3. 一天一个分区。
  • 拉链表

记录截止数据日期的全量数据。

  1. 记录一个事务从开始,一直到当前状态的所有变化的信息;
  2. 拉链表每次上报的都是历史记录的最终状态,是记录在当前时刻的历史总量;
  3. 当前记录存的当前时间之前的所有历史记录的最后变化量(总量);
  4. 只有一个分区。

1.7 表的生命周期管理

通过对历史数据的等级划分与对表类型的划分生成相应的生命周期管理矩阵。

历史数据等级划分

主要将历史数据划分P0、P1、P2、P3 四个等级,其具体定义如下:

  • P0 :非常重要的主题域数据和非常重要的应用数据,具有不可恢复性,如交易、日志、集团 KPI 数据、 IPO 关联表。
  • P1 :重要的业务数据和重要的应用数据,具有不可恢复性,如重要的业务产品数据。
  • P2 :重要的业务数据和重要的应用数据,具有可恢复性,如交易线 ETL 产生的中间过程数据。
  • P3 :不重要的业务数据和不重要的应用数据,具有可恢复性,如某些 SNS 产品报表。

表类型划分

  • 事件型流水表(增量表)

    事件型流水表(增量表)指数据无重复或者无主键数据,如日志。

  • 事件型镜像表(增量表)

    事件型镜像表(增量表)指业务过程性数据,有主键,但是对于同样主键的属性会发生缓慢变化,如交易、订单状态与时间会根据业务发生变更。

  • 维表

    维表包括维度与维度属性数据,如用户表、商品表。

  • Merge 全量表

    Merge 全量表包括业务过程性数据或者维表数据。由于数据本身有新增的或者发生状态变更,对于同样主键的数据可能会保留多份,因此可以对这些数据根据主键进行 Merge 操作,主键对应的属性只会保留最新状态,历史状态保留在前一天分区 中。例如,用户表、交易表等都可以进行 Merge 操作。

  • ETL 临时表

    ETL 临时表是指 ETL 处理过程中产生的临时表数据,一般不建议保留,最多7天。

  • 普通全量表

很多小业务数据或者产品数据,BI一般是直接全量拉取,这种方式效率快,对存储压力也不是很大,而且表保留很长时间,可以根据历史数据等级确定保留策略。

2.数仓各层开发规范

2.1 ODS层设计规范

同步规范

  1. 一个系统源表只允许同步一次;
  2. 全量初始化同步和增量同步处理逻辑要清晰;
  3. 以统计日期和时间进行分区存储;
  4. 目标表字段在源表不存在时要自动填充处理。

表分类与生命周期

  • ods流水全量表:
    • 不可再生的永久保存;
    • 日志可按留存要求;
    • 按需设置保留特殊日期数据;
    • 按需设置保留特殊月份数据。
  • ods镜像型全量表:
    • 推荐按天存储;
    • 对历史变化进行保留;
    • 最新数据存储在最大分区;
    • 历史数据按需保留;
  • ods增量数据:
    • 推荐按天存储;
    • 有对应全量表的,建议只保留14天数据;
    • 无对应全量表的,永久保留;
  • ods的ETL过程中的临时表:
    • 推荐按需保留;
    • 最多保留七天;
    • 建议用完即删,下次使用再生成;
  • BDSync非去重数据:
    • 通过中间层保留,默认用完即删,不建议保留。

数据质量

  1. 全量表必须配置唯一性字段标识;
  2. 对分区空数据进行监控;
  3. 对枚举类型字段,进行枚举值变化和分布监控;
  4. ods表数据量级和记录数做环比监控;
  5. ods全表都必须要有注释。

2.2 公共维度层设计规范

设计准则

共维度在不同的物理表中的字段名称、数据类型、数据内容必须保持一致(历史原因不一致,要做好版本控制)

组合原则

将维度与关联性强的字段进行组合,一起查询、一起展示,两个维度必须具有天然的关系,如:商品的基本属性和所属品牌。

无相关性:如一些使用频率较小的杂项维度,可以构建一个集合杂项维度的特殊属性。

行为维度:经过计算的度量,但下游当维度处理,例:点击量0-1000,100-1000等,可以做聚合分类。

拆分与冗余

针对重要性,业务相关性、源、使用频率等可分为核心表、扩展表。

数据记录较大的维度,可以适当冗余一些子集。

存储及生命周期管理

建议按天分区。

3个月内最大访问跨度<=4天时,建议保留最近7天分区;

3个月内最大访问跨度<=12天时,建议保留最近15天分区;

3个月内最大访问跨度<=30天时,建议保留最近33天分区;

3个月内最大访问跨度<=90天时,建议保留最近120天分区;

3个月内最大访问跨度<=180天时,建议保留最近240天分区;

3个月内最大访问跨度<=300天时,建议保留最近400天分区;

2.3 DWD明细层设计规范

存储及生命周期管理

建议按天分区。

3个月内最大访问跨度<=4天时,建议保留最近7天分区;

3个月内最大访问跨度<=12天时,建议保留最近15天分区;

3个月内最大访问跨度<=30天时,建议保留最近33天分区;

3个月内最大访问跨度<=90天时,建议保留最近120天分区;

3个月内最大访问跨度<=180天时,建议保留最近240天分区;

3个月内最大访问跨度<=300天时,建议保留最近400天分区;

事务型事实表设计准则

  • 基于数据应用需求的分析设计事务事实表,结合下游较大的针对某个业务过程的分析指标需求,可以考虑基于某个事件过程构建事务性实时表;
  • 一般选用事件的发生日期或时间作为分区字段,便于扫描和裁剪;
  • 冗余子集原则,有利于降低后续IO开销;
  • 明细层事实表维度退化,减少后续使用join成本。

周期快照事实表

  • 周期快照事实表中的每行汇总了发生在某一标准周期,如某一天、某周、某月的多个度量事件。
  • 粒度是周期性的,不是个体的事务。
  • 通常包含许多事实,因为任何与事实表粒度一致的度量事件都是被允许的。

累积快照事实表

  • 多个业务过程联合分析而构建的事实表,如采购单的流转环节。
  • 用于分析事件时间和时间之间的间隔周期
  • 少量的且当前事务型不支持的,如关闭、发货等相关的统计。

2.4 DWS公共汇总层设计规范

数据仓库的性能是数据仓库建设是否成功的重要标准之一。聚集主要是通过汇总明细粒度数据来获得改进查询性能的效果。通过访问聚集数据,可以减少数据库在响应查询时必须执行的工作量,能够快速响应用户的查询,同时有利于减少不同用户访问明细数据带来的结果不一致问题。

  • 聚集的基本原则
    • 一致性,聚集表必须提供与查询明细粒度数据一致的查询结果。
    • 避免单一表设计,不要在同一表中存储不同层次的聚集数据。
    • 聚集粒度可不同,聚集并不需要保持与原始明细粒度数据一样的粒度,聚集只关心所需要查询的维度。
  • 聚集的基本步骤

第一步:确定聚集维度

在原始明细模型中会存在多个描述事实的维度,如日期、商品类别、卖家等,这时候需要确定根据什么维度聚集,如果只关心商品的交易额情况,那么就可以根据商品维度聚集数据。

第二步:确定一致性上钻

这时候要关心是按月汇总还是按天汇总,是按照商品汇总还是按照类目汇总,如果按照类目汇总,还需要关心是按照大类汇总还是小类汇总。当然,我们要做的只是了解用户需要什么,然后按照他们想要的进行聚集。

第三步:确定聚集事实

在原始明细模型中可能会有多个事实的度量,比如在交易中有交易额、交易数量等,这时候要明确是按照交易额汇总还是按照成交数量汇总。

  • 公共汇总层设计原则

除了聚集基本的原则外,公共汇总层还必须遵循以下原则:

  • 数据公用性。汇总的聚集会有第三者使用吗?基于某个维度的聚集是不是经常用于数据分析中?如果答案是肯定的,那么就有必要把明细数据经过汇总沉淀到聚集表中。
  • 不跨数据域。数据域是在较高层次上对数据进行分类聚集的抽象。
  • 区分统计周期。在表的命名上要能说明数据的统计周期,如 _Id表示最近1天,_td 表示截至当天,_nd 表示最近N天。

3.数仓命名规范

3.1 词根设计规范

词根属于数仓建设中的规范,属于元数据管理的范畴,现在把这个划到数据治理的一部分。完整的数仓建设是包含数据治理的,只是现在谈到数仓偏向于数据建模, 而谈到数据治理,更多的是关于数据规范、数据管理。

表命名,其实在很大程度上是对元数据描述的一种体现,表命名规范越完善,我 们能从表名获取到的信息就越多。比如:一部分业务是关于货架的,英文名是:rack, rack 就是一个词根,那我们就在所有的表、字段等用到的地方都叫 rack,不要叫成别的什么。这就是词根的作用,用来统一命名,表达同一个含义。

指标体系中有很多“率”的指标,都可以拆解成 XXX+率,率可以叫 rate,那我们所有的指标都叫做 XXX+rate。

词根:可以用来统一表名、字段名、主题域名等等

举例:以流程图的方式来展示,更加直观和易懂,本图侧重 dwm 层表的命名规范,其余命名是类似的道理:

在这里插入图片描述

第一个判断条件是该表的用途,是中间表、原始日志还是业务展示用的表,如果该表被判断为中间表,就会走入下一个判断条件:表是否有 group 操作,通过是否有 group 操作来判断该表该划分在 dwd 层还是 dwm 和 dws 层,如果不是 dwd 层,则需要判断该表是否是多个行为的汇总表(即宽表) ,最后再分别填上事业群、部门、业务线、自定义名称和更新频率等信息即可。

分层:表的使用范围

事业群和部门:生产该表或者该数据的团队

业务线:表明该数据是哪个产品或者业务线相关

主题域:分析问题的角度,对象实体

自定义:一般会尽可能多描述该表的信息,比如活跃表、留存表等

更新周期:比如说天级还是月级更新

3.2 数仓表的命名规范

  • 数仓层次

    公用维度:dim

    DM层:dm

    ODS层:ods

    DWD层:dwd

    DWS层:dws

  • 周期/数据范围

    日快照:d

    增量:i

    全量:f

    周:w

    拉链表:l

    非分区全量表:a

    • 常规表

      常规表是我们需要固化的表,是正式使用的表,是目前一段时间内需要去维护去完善的表。

      规范:分层前缀[dwd|dws|ads]_部门_业务域_主题域_XXX_更新周期|数据范围

      业务域、主题域我们都可以用词根的方式枚举清楚,不断完善。

      更新周期主要的是时间粒度、日、月、年、周等。

    • 中间表

      中间表一般出现在 Job 中,是 Job 中临时存储的中间数据的表,中间表的作 用域只限于当前 Job 执行过程中,Job 一旦执行完成,该中间表的使命就完 成了,是可以删除的(按照自己公司的场景自由选择,以前公司会保留几天 的中间表数据,用来排查问题)。

      规范:mid_table_name_[0~9|dim]

      table_name 是我们任务中目标表的名字,通常来说一个任务只有一个目标表。这里加上表名,是为了防止自由发挥的时候表名冲突,而末尾大家可以选择自由发挥,起一些有意义的名字,或者简单粗暴,使用数字代替,各有优劣吧,谨慎选择。

      通常会遇到需要补全维度的表,这里使用 dim 结尾。

      如果要保留历史的中间表,可以加上日期或者时间戳。

    • 临时表

      临时表是临时测试的表,是临时使用一次的表,就是暂时保存下数据看看,后续一般不再使用的表,是可以随时删除的表。

      规范:tmp_xxx

      只要加上 tmp 开头即可,其他名字随意,注意 tmp 开头的表不要用来实际使用,只是测试验证而已。

    • 维度表

      维度表是基于底层数据,抽象出来的描述类的表。维度表可以自动从底层表抽象出来,也可以手工来维护。

      规范:dim_xxx

      维度表,统一以 dim 开头,后面加上,对该指标的描述。

    • 手工表

      手工表是手工维护的表,手工初始化一次之后,一般不会自动改变,后面变更,也是手工来维护。

      一般来说,手工的数据粒度是偏细的,所以暂时统一放在 dwd 层,后面如果有目标值或者其他类型手工数据,再根据实际情况分层。

      规范:dwd_业务域_manual_xxx

      手工表,增加特殊的主题域,manual,表示手工维护表。

3.3 指标命名规范

  • 所有单词小写
  • 单词之间下划线分割(反例:appName 或 AppName)
  • 可读性优于长度 (词根,避免出现同一个指标,命名一致性)
  • 禁止使用 sql 关键字,如字段名与关键字冲突时 +col
  • 数量字段后缀 _cnt 等标识…
  • 金额字段后缀 _price 标识
  • 天分区使用字段 dt,格式统一(yyyymmdd 或 yyyy-mm-dd)
  • 小时分区使用字段 hh,范围(00-23)
  • 分钟分区使用字段 mi,范围(00-59)
  • 布尔类型标识:is_{业务},不允许出现空值

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/72677.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

国际物流概述:国际物流的流程是什么?

国际运输有很多参与者:航运公司、预订代理、国际货运代理和报关行;本文主要介绍托运人、收货人、国际货运代理和航运公司这四大LCL运输的参与者。从托运人到收货人的货物运输有五个物理流程和两个单证流程&#xff0c;每次装运都需要进行。每个流程都有相关的费用&#xff0c;必…

windows系统安装opencv2.4.12及bug解决

目录前言一、opencv2.4.12安装二、BUG修复1、问题解决&#xff1a;找不到MSVCR100.dll,无法继续执行代码2、问题解决&#xff1a;无法定位程序输入点******于动态链接库opencv_highgui2412.lib上前言 最近在学习CUDA&#xff0c;对照cuda by example一书的例子对照实验&#x…

深入理解Linux网络技术内幕(一)——基础介绍

文章目录前言简介基础术语常见的编码模式内存缓存缓存和hash表引用计数垃圾收集函数指针和虚拟函数表&#xff08;VFT&#xff09;goto语句向量(数组)定义条件指示指令&#xff08;#ifdef及其系列指令&#xff09;条件检查的编译期间最优化互斥主机和网络之间的字节次序转换捕获…

C#学习记录——软件工程师必备素养与技能

『聪明是一种天赋&#xff0c;而善良是一种选择。』—— 网络 1、软件工程师的基本素养 2、个人素质必修课程 3、项目开发流程 具备了良好的个人素质和基础的编程知识&#xff0c;作为一名优秀的开发人员&#xff0c;还应熟悉一个软件项目怎么开展工作&#xff0c;这就是项目…

木字楠后台管理系统开发(1):SpringBoot项目初始化并引入基础文件

&#x1f3b6; 文章简介&#xff1a;木字楠后台管理系统(1)&#xff1a;SpringBoot项目初始化并引入基础文件 &#x1f4a1; 创作目的&#xff1a;为了带大家完整的体验木字楠后台管理系统模版的开发流程 ☀️ 今日天气&#xff1a;天气☁️很好。太阳晒在身上暖暖的 &#x1f…

ChatGPT到底是个啥?它会让我们失业么?

谈起AI届&#xff0c;几家大公司是无论如何都不能不提及的&#xff0c;谷歌的GoogleX与DeepMind (下围棋那个)、Meta的FAIR (Resnet提出者恺明所就职的)、OpenAI (搞大模型的领先公司&#xff0c;代表作是GPT&#xff0c;对标谷歌的Bert)、亚马逊 (中国AI研究生的实际导师李沐大…

正厚干货 软件测试用例设计方法之一_等价类划分

今天开始我们学习关于软件测试用例的设计方法。其中较为常用的是等价类划分发&#xff0c;那么我们就从等价类划分开始吧。一、等价类划分的介绍1.定义 把所有可能输入的数据&#xff0c;即程序的输入域划分策划国内若干部分&#xff08;子集&#xff09;&#xff0c;然后从每一…

数据处理技巧(9):MATLAB将多个矩阵放在同一行显示,并写入txt文件

MATLAB将多个矩阵放在同一行显示&#xff0c;并写入txt文件生成效果要打印的矩阵代码思路记录程序运行时间写入文档MATLAB程序生成效果相关链接记得点个赞再走~~~生成效果 将9个矩阵显示在MATLAB命令行窗口中&#xff0c;一行有3个矩阵&#xff0c;一列显示3个矩阵&#xff0c…

[附源码]JAVA毕业设计网上拍卖系统(系统+LW)

[附源码]JAVA毕业设计网上拍卖系统&#xff08;系统LW&#xff09; 项目运行 环境项配置&#xff1a; Jdk1.8 Tomcat8.5 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&…

166.JWT简介与Django中使用JWT

1. JWT 1.1 JWT概述 基于django-rest-framework的登陆认证方式常用的大体可分为四种: BasicAuthentication&#xff1a;账号密码登陆验证SessionAuthentication&#xff1a;基于session机制会话验证TokenAuthentication&#xff1a; 基于令牌的验证JSONWebTokenAuthenticatio…

Python中使用国内源头下载依赖

有关更多的Python 开发内容,可访问:《 Python Flask开发指南》 Python开发中对于项目的依赖通常是用pip install命令进行下载,默认官网下载源为国外网络,会经常出现下载超时的问题。那么如何修改下载源使得我们能快速下载资源,如下介绍两种方式设置国内下载源。 国内下载源…

西湖大学张岳老师NLP课程笔记1 Introduction

西湖大学张岳老师NLP课程笔记1 Introduction 参考资料 B站链接课程主页 《Natural Language Processing: A Machine Learning Perspective 》 csdn大佬笔记 https://blog.csdn.net/qq_45645521/category_11685799.html 文章目录西湖大学张岳老师NLP课程笔记1 Introduction1.…

常用工具:介绍一款免费开源录屏工具-captura

网上能搜到的大部分录屏工具表面打着免费的旗号&#xff0c;实际上下载之后不是有水印就是限制分辨率和时长&#xff0c;介绍一款免费无水印的开源录屏截屏工具captura。 准备工作 要使用这个工具&#xff0c;必须事先在电脑上安装ffmpeg工具包&#xff0c;安装方式见&#x…

DRV8870/A4950/AT8870(3.6A单通道刷式直流电机驱动IC)

描述 AT8870是一款刷式直流电机驱动器&#xff0c;适用于打印机、电器、工业设备以及其他小型机器。两个逻辑输入控制H桥驱动器&#xff0c;该驱动器由四个N-MOS组成&#xff0c;能够以高达3.6A的峰值电流双向控制电机。利用电流衰减模式&#xff0c;可通过对输入进行脉宽调制(…

【电源专题】案例:电池存储40天电压从3.9V掉到了3.5V是什么异常?

本案例是在我休假过程中发现的。同事反馈说客户发现我们的一批产品有概率在存储40多天后发现电池从3.9V掉到了3.5V,并且制程、软件、硬件都有差异。会有可能存在什么异常? 首先我们要了解的是大多数带电池的产品在销售给客户时都会充好电(如手机/充电宝等),但不一定是充…

极市直播预告丨阿里达摩院:兼顾速度与精度的高效目标检测框架DAMO-YOLO

|极市线上分享第106期 | 一直以来&#xff0c;为让大家更好地了解学界业界优秀的论文和工作&#xff0c;极市已邀请了超过100位技术大咖嘉宾&#xff0c;并完成了105期极市线上直播分享。往期分享请前往http://bbs.cvmart.net/topics/149或直接阅读原文&#xff0c;也欢迎各位…

初学者如何学习FPGA?一文为你讲解清楚

想学习一门技术之前&#xff0c;我们先会从编程语言入手。就像学习FPGA&#xff0c;往往是从VHDL或者Verilog开始入手学习的。 当然&#xff0c;任何编程语言的学习都不能一劳永逸&#xff0c;因为任何经验技巧都是在实践的过程中才能学到&#xff0c;FPGA的学习当然也不例外。…

Python爬虫实战,Request+urllib模块,批量下载爬取飙歌榜所有音乐文件

前言 今天给大家介绍的是Python爬取飙歌榜所有音频数据并保存本地&#xff0c;在这里给需要的小伙伴们代码&#xff0c;并且给出一点小心得。 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫&#xff0c;基本的是加请求头&#xff0c;但是这样的纯文 本数据爬取…

C语言实现三子棋(超详解版本)

&#x1f680;write in front&#x1f680; &#x1f4dd;个人主页&#xff1a;认真写博客的夏目浅石. &#x1f381;欢迎各位→点赞&#x1f44d; 收藏⭐️ 留言&#x1f4dd;​ &#x1f4e3;系列专栏&#xff1a;鹏哥带我学c带我飞 &#x1f4ac;总结&#xff1a;希望你看…

分布式电源接入对配电网影响的研究附Matlab代码

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;修心和技术同步精进&#xff0c;matlab项目合作可私信。 &#x1f34e;个人主页&#xff1a;Matlab科研工作室 &#x1f34a;个人信条&#xff1a;格物致知。 更多Matlab仿真内容点击&#x1f447; 智能优化算法 …