事实上,很多人在看到数据仓库的第一眼,就把数据仓库当成了数据库。当然这也很正常,毕竟从名字来看这两者确实区别不大,真正区分两者的是定位、作用等更深一层的东西。今天我们就来详细了解一下数据仓库,从概念、特点、优点等方面介绍一下。
数据仓库的概念
数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合,用于支持管理决策过程。其本质就是完成从面向业务过程数据的组织管理到面向业务分析数据的组织和管理的转变过程,也是商业智能BI中数据仓库的主要作用。
数据仓库 - 派可数据商业智能BI可视化分析平台
数据仓库就像企业的总的大仓库,能够存储不同来源、不同格式的数据,并且可以通过ETL和数据模型,对数据进行高质量的筛选,分级分类进行存储。具有很强的稳定性,不会频繁的进行增删改等操作,能够反应历史变化。
用通俗的话来说就是数据仓库就像一个终端的大仓库,其他小仓库的各种货品会通过各种方式统一存储到这里,然后通过仓库位置的划分、货品的摆放进行归纳分类,实现规范、标准的从存放,到分类,再到使用的完整过程。
数据仓库的特点
1.主题性
数据仓库是一般从用户实际需求出发,将不同平台的数据源按设定主题进行划分整合,与传统的面向事务的操作型数据库不同,具有较高的抽象性。2.集成性
数据仓库中存储的数据大部分来源于传统的数据库,但并不是将原有数据简单的直接导入,而是需要进行预处理。这是因为事务型数据中的数据一般都是有噪声的、不完整的和数据形式不统一的。这些“脏数据”的直接导入将对在数据仓库基础上进行的数据挖掘造成混乱。“脏数据”在进入数据仓库之前必须经过抽取、清洗、转换才能生成从面向事务转而面向主题的数据集合。数据集成是数据仓库建设中最重要,也是最为复杂的一步。
商业智能BI- 派可数据商业智能BI可视化分析平台
3.稳定性
数据仓库中的数据主要为决策者分析提供数据依据。决策依据的数据是不允许进行修改的。即数据保存到数据仓库后,用户仅能通过分析工具进行查询和分析,而不能修改。数据的更新升级主要都在数据集成环节完成,过期的数据将在数据仓库中直接筛除。
4.动态性
数据仓库数据会随时间变化而定期更新,不可更新是针对应用而言,即用户分析处理时不更新数据。每隔一段固定的时间间隔后,抽取运行数据库系统中产生的数据,转换后集成到数据仓库中。随着时间的变化,数据以更高的综合层次被不断综合,以适应趋势分析的要求。当数据超过数据仓库的存储期限,或对分析无用时,从数据仓库中删除这些数据。
数据仓库建模方式
在Kimball和Inmon两位数据仓库领域大佬不同方向的经验指导下,数据仓库的建模已经是一个成熟的体系,可以根据需求选择不同的方式,既有三范式 3NF 建模,也有维度建模比如星型或雪花型的建模方式。
数据仓库 - 派可数据商业智能BI可视化分析平台
数据仓库还有着分层结构,每个分层结构都有各自的作用,比如经常看到的ODS 层、Trans 层、Dimension 层、Data Mart 层等,都是为了将数据从大海中进行筛选,从分散到集中进行高度汇总,形成一个个的主题,为后续的前端数据可视化分析提供数据的支撑。
数据仓库为了业务分析的目的,因此需要拉通各个业务系统数据库的数据,保留大量历史数据,同时为了分析效率的提升改变了传统数据库的数据组织形式,例如利用适合于分析型模型的Kimball维度建模方式来组织底层数据架构。
数据可视化分析 - 派可数据商业智能BI可视化分析平台
数据仓库服务于商业智能BI分析,通过商业智能BI前端可视化分析工具来访问,是其中不可或缺的一部分。并且在长期的建设中,商业智能BI已经形成了一套直接零代码配置并完成数仓建模的整个过程,进行了完整的产品化,解决了困难的架构与模型的问题。
数据仓库作为商业智能BI系统中的一部分,已经成长为了企业信息化建设中必不可少的重要支撑,在可见的未来,数据仓库还会随着信息化、数字化技术、理念、应用的落地,继续成长。
数据仓库的优点
1、提供加强的商业智能(BI)
利用从各种数据源提供的数据,管理人员和高管们将不再需要凭着有限的数据或他们的直觉做出商业决策。此外,“数据仓库及相关商业智能(BI)可直接用于包括市场细分、库存管理、财务管理、销售这样的业务流程中。”
2、可节省时间
业务用户可以在一个地方快速访问许多数据源,他们就在关键方案上迅速做出知情的决策,而不会用浪费宝贵的时间从多种数据源中检索数据。
不仅如此,业务主管们可以在很少或者根本没有IT的支持下自己查询数据—节约了更多的时间和资金。
商业智能BI - 派可数据商业智能BI可视化分析平台
3、能提高数据的质量和一致性
一个数据仓库的实施包括将数据从众多的数据源系统中转换成共同的格式。由于每个来自各个部门的数据被标准化了,每个部门将会产生与所有其它部门符合的结果。所以你可以对你数据的准确性更有信心。而准确的数据是强大的商业决策的基础。
4、能提供历史的智慧
一个数据仓库储存了大量的历史数据,所以你可以通过分析不同的时期和趋势来做出对未来的预测。这些数据通常不能被存储在一个交易型的数据库里或用来从一个交易系统中生成报表。
5、能创建高的投资回报率
最后,最值得一提的是投资回报率。已经安装了数据仓库和完善了商业智能(BI)系统的企业比没有在商业智能(BI)系统和数据仓库投资的企业能产生更多的利润和节约更多的资金。而这应该成为高级管理层快速加入到数据仓库这个潮流中的足够理由。