随着数据通过各种方式创造了巨大价值,各领域的企业开始不断挖掘数据的作用,数据的重要性得到了社会各界的共同认可。像我们熟知的数据治理、数据管理、数据标准以及数据资产都是因为数据地位不断提升,企业开始重视起数据全生命周期流程,才开始在企业内大规模实施的。因此,了解数据仓库就尤为重要了。
数据仓库是什么
事实上,很多人在看到数据仓库的第一眼,就把数据仓库当成了数据库。当然这也很正常,毕竟从名字来看这两者确实区别不大,真正区分两者的是定位、作用等更深一层的东西。不过在这里还是先解释数据仓库的概念,不同之处后边会进行详细讲解。
数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合,用于支持管理决策过程。其本质就是完成从面向业务过程数据的组织管理到面向业务分析数据的组织和管理的转变过程,也是商业智能BI中数据仓库的主要作用。
数据仓库 - 派可数据商业智能BI可视化分析平台
数据仓库就像企业的总的大仓库,能够存储不同来源、不同格式的数据,并且可以通过ETL和数据模型,对数据进行高质量的筛选,分级分类进行存储。具有很强的稳定性,不会频繁的进行增删改等操作,能够反应历史变化。
用通俗的话来说就是数据仓库就像一个终端的大仓库,其他小仓库的各种货品会通过各种方式统一存储到这里,然后通过仓库位置的划分、货品的摆放进行归纳分类,实现规范、标准的从存放,到分类,再到使用的完整过程。
数据仓库中的数据治理
数据仓库中的数据治理以解决实际业务问题为导向,以提升数据资产的管理水平和使用效率为目标,并以元数据为驱动,连接数据标准管理、数据质量管理、数据安全管理各个阶段,形成统一、完善、覆盖数据全生命周期的数据治理体系。数据仓库中的数据治理主要针对以下问题。
数据分散、杂乱,无法理解。很多企业业务线众多,数据源分散,且各系统间无法打通,成为信息孤岛;数据收集标准不相同,数据零散地存储在各个业务系统中,难以形成全局数据联动。
数据仓库- 派可数据商业智能BI可视化分析平台
第二,数据收集渠道单一,模式落后,效率低,成本高。业务增长带来数据增长,传统数据管理模式难以应对大数据增长。从渠道上来说,传统数据收集渠道单一、落后、偏线下化;从方式上来说,很多企业收集信息的手段仍停留在手工收集阶段,效率低、成本高且造成数据不匹配。
第三,数据标准不统一,缺乏分析工具,数据难运用。一方面,数据标准不统一导致整合困难,难以进行全局联动;另一方面,缺乏数据分析工具,仅靠数据专业人才难以满足企业需求,且难以看到数据的实时变化及价值。这两方面的因素导致难以真正实现数据驱动业务发展,提升运营管理水平。
第四,系统落后,难以满足数据管理需求,存在数据风险隐患。在数据井喷式增长的当下,众多企业未能跟上随数据增长而变化的需求,难以满足监管要求,同时存在数据隐患及风险问题
数据仓库建模方式
在Kimball和Inmon两位数据仓库领域大佬不同方向的经验指导下,数据仓库的建模已经是一个成熟的体系,可以根据需求选择不同的方式,既有三范式 3NF 建模,也有维度建模比如星型或雪花型的建模方式。
数据仓库 - 派可数据商业智能BI可视化分析平台
数据仓库还有着分层结构,每个分层结构都有各自的作用,比如经常看到的ODS 层、Trans 层、Dimension 层、Data Mart 层等,都是为了将数据从大海中进行筛选,从分散到集中进行高度汇总,形成一个个的主题,为后续的前端数据可视化分析提供数据的支撑。
数据仓库为了业务分析的目的,因此需要拉通各个业务系统数据库的数据,保留大量历史数据,同时为了分析效率的提升改变了传统数据库的数据组织形式,例如利用适合于分析型模型的Kimball维度建模方式来组织底层数据架构。
数据仓库 - 派可数据商业智能BI可视化分析平台
数据仓库服务于商业智能BI分析,通过商业智能BI前端可视化分析工具来访问,是其中不可或缺的一部分。并且在长期的建设中,商业智能BI已经形成了一套直接零代码配置并完成数仓建模的整个过程,进行了完整的产品化,解决了困难的架构与模型的问题。
数据仓库对于企业的价值
数据仓库能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持,从根本上把运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人。
数据仓库定义:面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合;
面向主题:是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。
集成的:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。
管理驾驶舱 - 派可数据商业智能BI可视化分析平台
反映历史变化:数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。