1、数仓实施过程
1.1 数据调研
数据调研包括:业务调研、需求调研
业务调研
需要调研企业内有哪些业务线、业务线的业务是否还有相同点和差异点
各个业务线有哪些业务模块,每个模型下有哪些业务流程,每个流程下产生的数据
是怎样存储的
业务调研完后的产出:
业务调研表、各个业务流程图
需求调研
主要调研 分析师、运营人员的数据需求 和 现有报表系统中的数据需求
1.2 数仓架构设计
数据域(主题域)的划分
进行数据调研后,需要对 业务过程或维度进行归纳、抽象出数据域
数据域的特点:
为保证数仓的稳定性,数据域需要从业务过程中抽象提炼
并且长期维护和更新,但不轻易变动
划分数据域时,既要能覆盖当前所有的业务需求,又要在有新的业务进入时
毫无影响的进入已有的数据域或者扩展新的数据域
构建总线矩阵
构建总线矩阵的目的是为了明确两个事情:
1、明确每个数据域下有哪些业务过程
2、明确每个业务过程与哪些维度相关
1.3 规范定义
规范定义主要包括:表命名规范、字段命名规范、ETL开发规范 (后续章节会单独介绍这块内容)
1.4 模型设计
模型设计主要包括:事实表设计、维度表设计 (后续章节会单独介绍这块内容)
1.5 代码开发
ETL开发过程
1.6 评审
对设计的模型、开发代码进行评审
1.7 上线及配置质量监控
调度任务上线及配置质量监控任务
1.8 总结
数仓的建设是一个高度迭代和动态的过程,一般采用螺旋式实施方法。
在总体架构设计完成之后,开始根据数据域进行迭代式模型设计和评审
在架构设计、规范定义、模型设计等过程中,都要引入评审机制,以确保实施过程的正确性