你还在为构建数仓的低效率而发愁吗?
你还在为数仓构建不能体系化而苦恼吗?
也许大家都不愿意承认,但是绝大部分的企业当前是没有统一、标准、公共、全局的模型设计的,而仅仅是把数据同步上来,然后基于业务需求做烟囱式的数据开发,这种方式会存在什么样的问题呢?
✦ 存在大量的重复工作,增加开发成本
✦ 数据的质量和一致性无法保证
✦ 后期维护困难,增加维护时间和成本
一种颠覆性的数仓构建工具--总线矩阵,可以高效率、体系化地完成数仓构建。
1
什么是总线矩阵
总线矩阵是一种新型的数据仓库构建理念,是实质由行和列组成的矩阵,其中行代表数据仓库中的不同业务过程,列代表数据仓库中的不同维度。
通过将不同的业务过程和维度组合在一起,就可以构建出一个完整的数据仓库。
同时,它可以将数据仓库中的不同数据源进行分类和组织,从而使得数据仓库更加灵活、可维护和可扩展。
2
总线矩阵的优势
❖ 灵活性:总线矩阵可以根据不同的业务需求进行高效的调整和修改,从而使得数据仓库更加灵活。
❖ 一致性:总线矩阵可以确保数据在不同的数据源之间保持一致,并且可以对数据进行质量检查和清洗,提高了数据的质量和一致性。
❖ 可扩展性:总线矩阵可以根据不同的业务需求进行扩展、体系化构建,以满足不断变化的业务需求。
❖ 可维护性:总线矩阵可以将数据仓库中的不同数据源进行分类和组织,更加轻松地管理数据源、数据模型和数据仓库功能,减少了维护时间和成本。
3
总线矩阵的构建步骤
① 业务调研
通过客户现场调研,确定客户需要哪些业务域,以及业务域对应的指标需求,形成初步的指标体系,在每个指标节点与客户确认指标相关的业务逻辑描述,通过思维导图的方式把企业通用指标进行了一个梳理:
指标业务逻辑
② 总线矩阵填写并导入
平台内置了总线矩阵填写功能,根据上述指标需求,与客户一起参与总线矩阵内容的填写。
✦ 提高数据可靠性根据总线矩阵中的原子指标来源数据域,分别为销售、采购、HR、生产、营收、现金流,在平台生成对应的数据域、业务过程、事实表、原子指标、业务限定、派生指标、维度表(在公共域内)。
✦ 随后根据总线矩阵填写内容一键生成数仓的数据域、业务过程、事实表、原子指标、业务限定、派生指标、维度表。
数仓规划构建流程
此时,总线矩阵的整个框架就已经完全搭建好了。通过这种总线矩阵的方式让维度建模更加的便捷,节省了大量的时间。
③ 标准化处理
接下来需要做的是将业务数据源接入进来,并进行简单的标准化处理。
✦ 平台提供了可视化配置的方式完成各类型数据的清洗、标准化。数据标准化的过程可以改进数据的质量,有助于提高其后的决策过程的精度和性能。
数据标准化界面
✦ 标准化的数据与中间表字段进行一一映射。只需要通过简单的字段连接即可完成数据映射。
数据标准化映射
④ 汇总表生成
举例说明:
✦ 原子指标A:生产人员数量
数据来源:人力资源生产人员数量事实表
✦ 原子指标B:销售人员数量
数据来源:人力资源销售人员数量事实表
✦ 派生指标A:生产人员数量_岗位为生产_历史至今
来源原子指标:生产人员数量
统计周期:历史至今
业务限定:岗位为生产
✦ 派生指标B:销售人员数量_岗位为销售_历史至今
来源原子指标:销售人员数量
统计周期:历史至今
业务限定:岗位为销售
✦ 复合指标:生产和销售总人数
来源派生指标:
派生指标A-生产人员数量_岗位为生产_历史至今
派生指标B-销售人员数量_岗位为销售_历史至今
计算方式:生产人员数量_岗位为生产+销售人员数量_岗位为销售
⑤ 可视化选择汇总表指标及统计维度
指标构建好之后,在平台进行相应的计算逻辑配置,选择维度,形成最终的应用指标。
汇总表可视化
此时,总线矩阵的整个框架就已经完全搭建好了。通过这种总线矩阵的方式让维度建模更加的便捷,节省了大量的时间。
4
总结
总线矩阵是一种颠覆传统方式的数据仓库构建方式,它可以在数仓构建中发挥重要作用,简化数据集成过程、提高数据质量和一致性、支持数据仓库的扩展和提高数据仓库的可维护性。
海睿思S-DW智能数仓通过构建总线矩阵,实时将企业的各类数据进行整合和汇聚,为企业运营活动和管理决策提供更加准确、全面的指标支撑!