数据仓库作为商业智能BI系统中的一部分,已经成长为了企业信息化建设中必不可少的重要支撑,在可见的未来,数据仓库还会随着信息化、数字化技术、理念、应用的落地,继续成长。
数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合,用于支持管理决策过程。其本质就是完成从面向业务过程数据的组织管理到面向业务分析数据的组织和管理的转变过程,也是商业智能BI中数据仓库的主要作用。
数据仓库 - 派可数据商业智能BI可视化分析平台
数据仓库的六大现状
- 缺失业务系统数据模型清单与变更同步
没有对已归集到数仓业务系统数据模型记录,业务系统数据模型发送变更也没有对数仓知会,更多是出现问题后或者是数据使用者事后告知数仓。 - 业务部门数据自理
有些部门绕过数仓直接接入上游数据源,搭建各自的小数仓,从而导致数据孤岛、重复计算、口径不一致。 - 存在业务盲区
有些业务需要专业知识背景如:财务;有些业务规则保密级别高,无法对非业务相关员公开业务逻辑,如风控;因此无法系统梳理这些业务实体与实体之间关系,提炼指标,共享数据。
权限管理 - 派可数据商业智能BI可视化分析平台
4.流程规范缺少
没有流程与规范指引数据开发者根据流程对数据进行规范化建设,导致数据分层分类不清晰,数据混乱;命名不规范,同义不同名,同名不同义;数据重复建设,冗余数据多。
5.没有体系化技术设计
无论是离线或实时数据采集、处理与分发都缺少体系化设计与搭建;例如在离线与实时对同一数据源进行采集;无差别对所有数据源每次全量抽取与 DWD 到 DWS 层无差别全量计算;T+1 与每小时批处理烟囱开发,同一宽表离线与实时烟囱开发、重复计算与存储;对不同应用场景无差别使用相同存储与计算等等;
6.影响无互相隔离
数仓数据存储与计算,没有与数据应用服务存储与技术隔离,存在互相之间资源抢占与问题被放大情况;同时也存在数仓底层模型设计很难兼容数据应用层模型设计需求
数据仓库的实施步骤
● 需求分析
需求分析是数据仓库项目最重要的一个环节,数仓说到底还是服务于业务,支撑于业务:
信息化 - 派可数据商业智能BI可视化分析平台
1、尽可能与业务方/客户方一起分析需求,从而正确理解实际的业务需求。
2、必须实事求是地将数据仓库所能实现的目标和不容易解决的问题与协商清楚。
3、需求方群体的分类
4、需求调研的再完美,也避免不了需求变更。
● 逻辑分析
数据仓库在逻辑上可以分成操作型数据库、数据仓库层、数据集市层、数据分析应用层和报表展示层。
数据仓库 - 派可数据商业智能BI可视化分析平台
● 设计ODS系统
ODS数据缓冲区ODS数据缓冲区是业务数据流动过程的第一个存储区,实现了数据仓库从各个业务系统的数据源中将数据抽取出来,并且装载到ODS数据缓冲区的这一过程,从而实现统一的全局的企业数据平台,为以后的数据抽取、清洗、转换过程打下坚实的基础。
ODS数据缓冲区的ETL规则一般只进行简单的汇总、计算,或者从操作型数据库中直接抽取而中间不进行任何转化。ODS 统一信息视图区的数据一般都是从ODS数据缓冲区中抽取过来的。
● 数据仓库建模
概念模型主要是模型设计人员对业务规则的理解,是最高层次的数据模型,几乎涵盖了业务所有的核心概念和重要的主题,为以后逻辑模型的建设打下了基础。逻辑模型是对概念模型的分解、细化,将数据主题划分成一个个的实体和实体关系,一般将第三范式作为设计的模板。
建模 - 派可数据商业智能BI可视化分析平台
建模 - 派可数据商业智能BI可视化分析平台
● 数据集市建模
一般数据集市模型的建设是基于需求分析得到的结果,数据集巾的建模主要针对事实表和维表的设计。
● 数据源分析
所谓数据源分析,就是对源数据进行分析和总结,得出源数据的范围、格式、更新方式、更新频率和质量好坏的过程。数据源分析是指通过需求调研得知业务数据源的基本情况,并且加以详细说明,具体内容包括数据源中存在哪些物理表,表之间的关系和表中每个字段的数据类型和含义等。一般来说,业务数据源通常会有数据不完整、口径不一致,或者各个数据源存在业务规则不统一的情况。
● 数据的获取与整合
数据的获取与整合存在于数据仓库项目中的各个阶段。数据仓库很重要的一个作用就是将散落在各业务系统的数据整合起来,不规范的数据规范起来,以一种便于分析和应用的方式放到数据仓库里,供前端应用分析。
数据整合 - 派可数据商业智能BI可视化分析平台
ETL 过程实际上就是数据流动的过程,即从不同的数据源流向统一的目标数据库。数据的获取与整合是完成数据仓库建设取复杂的过程,它关系到数据的质量,是数据仓库项目建设的根基。
● 数据应用和报表展现
现在一般都是采用专业的低代码的报表工具来做报表,提升开发效率,侧重应用分析。公司负责报表分析这块的项目人员,那针对报表延伸出来的工作,报表需求分析、指标体系规划、以及各位为经营为管理为基层人员的报表分类,还有围绕业务的分层设计。
业务分析 - 派可数据商业智能BI可视化分析平台
管理驾驶舱 - 派可数据商业智能BI可视化分析平台
对于基层员工,报表使用的最多的就是录数据,查询数据。对于企业管理层,更多的说是进行指标的监控,做的业绩分析。而这一过程,也是通过数据使管理层可以更容易的按照标准的管理方法进行决策。