借助海量的数据,企业进行了深层次的数字化改革,把数据当成了企业发展的核心,但无效的数据即使规模再大,也对企业没有意义,所以数据质量也就愈发重要。
数据仓库
事实上,很多人在看到数据仓库的第一眼,就把数据仓库当成了数据库。当然这也很正常,毕竟从名字来看这两者确实区别不大,真正区分两者的是定位、作用等更深一层的东西。不过在这里还是先解释数据仓库的概念,不同之处后边会进行详细讲解。
数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合,用于支持管理决策过程。其本质就是完成从面向业务过程数据的组织管理到面向业务分析数据的组织和管理的转变过程,也是商业智能BI中数据仓库的主要作用。
数据仓库 - 派可数据商业智能BI可视化分析平台
数据仓库就像企业的总的大仓库,能够存储不同来源、不同格式的数据,并且可以通过ETL和数据模型,对数据进行高质量的筛选,分级分类进行存储。具有很强的稳定性,不会频繁的进行增删改等操作,能够反应历史变化。
用通俗的话来说就是数据仓库就像一个终端的大仓库,其他小仓库的各种货品会通过各种方式统一存储到这里,然后通过仓库位置的划分、货品的摆放进行归纳分类,实现规范、标准的从存放,到分类,再到使用的完整过程。
数仓主题域是什么
让我们来看看百度上的定义,数仓主题域是指将业务对象高度概括的概念层次归类,目的是便于数据的管理和应用。
其实说白了,数据仓库主题域就是把那些关联紧密但不同的数据主题,交汇融合到一个更大的主题域当中,让他们能够凭借相通点更完善的储存在数仓中,也更容易被分析人员调取利用。
同样,为了方便理解,举个例子,一名顾客通过手机在APP上购买了一件衣服,在这个过程中涉及到了顾客主题、库存主题、产品主题、订单主题等,这些主题虽然不同但因为关系紧密可以融入到一个更大的主题域。
更简单粗暴点理解,主题就是主题域的子集。
如何划分主题域
就和多个主题组合成主题域一样,主题域自然也能进一步地分解、细化为不同的主题,这些主题也可以再次分解,产生更多的“小主题”,直到触及业务流程才不能再继续划分。
图片来源:派可数据
在企业实际搭建数据仓库时,一般都是把一个比较深层的主题或部分主题当做核心,围绕它来进行建设。这种建设方式因为涉及到主题的选择,必须先由最终用户和数据仓库建设人员共同确认主题域,然后继续完成搭建过程。
进行划分主题域时需要数仓建设人员了解业务流程,通过总结和分析清楚各个不同的业务流程都有哪些业务活动参与其中。
划分主题域的方法有很多,不同企业采取的方法也有所不同,总的来说,用得最多的有下面几种。
1.按照业务系统划分
因为大部分企业都已经经历过了信息化建设或者正处于信息化建设当中,企业各种业务系统都已经部署完成,财务部门有财务系统、销售部门有销售系统、生产部门有生产系统、供应链部门有供应链系统......
这些不同的业务系统,因为只会储存对应业务流程中产生的数据,下级数据主题都互相紧贴,是天然的主题域,业务系统有几种,就可以划分为几种主题域。
图片来源:派可数据
2.按照需求划分
很多时候,企业需要长期对某个方向进行分析,因为这个长期分析的过程涉及到各种主题,会对数据进行细分、归纳,在这个过程中,就由需求诞生了主题域。
就拿销售分析来说,这个分析过程会涉及到的对象有产品、仓库、经销商、顾客等,其中每一个分析对象就是一个数仓主题,而包含归纳这些主题的销售分析就成为了一个相应的主题域。
图片来源:派可数据
3.按照功能划分
在现代社会,软件是每个加入互联网的网民都会使用到的东西,这些由企业开发的软件拥有着不同的功能模块,比如说社交软件中就会有聊天、朋友圈、群聊、发送文件等功能。
从这些功能中选一个模块,聊天模块会涉及到数据仓库中的用户主题、图片主题、文字主题等,所以聊天模块也能被归纳为聊天主题域。
4.按照部门划分
现代企业都有着不同的业务部门,这些部门也会形成各种不同的主题域,比如说销售域、生产域、财务域等,而这些主题域也是由不同的数据主题组成的。
图片来源:派可数据