数字化时代,数据成为了人类社会中必不可少的元素,也变成了现代企业经营管理中的关键。借助海量的数据,企业进行了深层次的数字化改革,把数据当成了企业发展的核心,但无效的数据即使规模再大,也对企业没有意义,所以数据质量也就愈发重要。
数仓主题是什么
数据仓库主题是指透过“上帝视角”将企业不同业务流程信息进行汇总、分类然后对其进行分析利用的一个抽象化的概念。也是指企业中某一分析领域具体的分析对象,这样一来,每一个数仓分析领域都有一个数仓主题相呼应。
分析对象是一个较为主观的选择过程,说它主观是因为不同的企业有不同的业务重心,没有办法统一分析得出一个普遍适用的结论。但这也让数据仓库的主题类型拥有了更多可能性,分析活动也变得更加灵活,具有针对性。
图片来源:派可数据
就拿企业分析时经常用到的生产系统举例,它并不能帮你直接获取答案,而是将整个业务流程中涉及到的生产机器、工人、工厂、仓库、经销商、顾客等链条中的每个角色分别建立主题,比如工厂主题、仓库主题以及经销商主题等。
待到需要对数据仓库中的数据进行实际分析时,分析人员就可以直接在不同主题数仓中按照需求自行处理数据,不需要再去寻找不同来源的数据并导入到数据仓库中。
数仓主题域是什么
让我们来看看百度上的定义,数仓主题域是指将业务对象高度概括的概念层次归类,目的是便于数据的管理和应用。
其实说白了,数据仓库主题域就是把那些关联紧密但不同的数据主题,交汇融合到一个更大的主题域当中,让他们能够凭借相通点更完善的储存在数仓中,也更容易被分析人员调取利用。
同样,为了方便理解,举个例子,一名顾客通过手机在APP上购买了一件衣服,在这个过程中涉及到了顾客主题、库存主题、产品主题、订单主题等,这些主题虽然不同但因为关系紧密可以融入到一个更大的主题域。
更简单粗暴点理解,主题就是主题域的子集。
如何划分主题域
就和多个主题组合成主题域一样,主题域自然也能进一步地分解、细化为不同的主题,这些主题也可以再次分解,产生更多的“小主题”,直到触及业务流程才不能再继续划分。
图片来源:派可数据
在企业实际搭建数据仓库时,一般都是把一个比较深层的主题或部分主题当做核心,围绕它来进行建设。这种建设方式因为涉及到主题的选择,必须先由最终用户和数据仓库建设人员共同确认主题域,然后继续完成搭建过程。
进行划分主题域时需要数仓建设人员了解业务流程,通过总结和分析清楚各个不同的业务流程都有哪些业务活动参与其中。
划分主题域的方法有很多,不同企业采取的方法也有所不同,总的来说,用得最多的有下面几种。
1.按照业务系统划分
因为大部分企业都已经经历过了信息化建设或者正处于信息化建设当中,企业各种业务系统都已经部署完成,财务部门有财务系统、销售部门有销售系统、生产部门有生产系统、供应链部门有供应链系统......
这些不同的业务系统,因为只会储存对应业务流程中产生的数据,下级数据主题都互相紧贴,是天然的主题域,业务系统有几种,就可以划分为几种主题域。
图片来源:派可数据
2.按照需求划分
很多时候,企业需要长期对某个方向进行分析,因为这个长期分析的过程涉及到各种主题,会对数据进行细分、归纳,在这个过程中,就由需求诞生了主题域。
就拿销售分析来说,这个分析过程会涉及到的对象有产品、仓库、经销商、顾客等,其中每一个分析对象就是一个数仓主题,而包含归纳这些主题的销售分析就成为了一个相应的主题域。
图片来源:派可数据
3.按照功能划分
在现代社会,软件是每个加入互联网的网民都会使用到的东西,这些由企业开发的软件拥有着不同的功能模块,比如说社交软件中就会有聊天、朋友圈、群聊、发送文件等功能。
从这些功能中选一个模块,聊天模块会涉及到数据仓库中的用户主题、图片主题、文字主题等,所以聊天模块也能被归纳为聊天主题域。
图片来源:派可数据
4.按照部门划分
现代企业都有着不同的业务部门,这些部门也会形成各种不同的主题域,比如说销售域、生产域、财务域等,而这些主题域也是由不同的数据主题组成的。
图片来源:派可数据
主题域的注意事项
- 为了保证整个数仓体系的健康成长,主题域必须要长期维护,而且不能轻易变动
- 划分主题域时尽量覆盖业务流程中所有的业务需求
- 体系中增加新的业务流程时,要及时拓展新的主题域或是自然添加到已有的主题域中
- 划分主题域时不能总想着一次性解决全部问题,要先明确主题,然后依托主题慢慢发展
数据质量概述
1.数据质量管理的定义
数据管理系统 - 派可数据 BI 可视化分析平台
数据质量管理是一种为了满足企业对于数据的需求,对各种业务活动产生的数据进行规范存储,然后通过ETL方法处理后把不同来源数据统一存放在一个数据仓库中的过程。
数据质量不是短时间进行数据处理的工具,也不是一种数据处理的技术,更不是一个软件系统,而是一种长期循环的管理活动,是包含着方法论、业务和管理的数据类技术解决方案。
2.数据质量的标准
数据质量标准 - 派可数据 BI 可视化分析平台
虽然在企业经营活动中会产生很多业务数据,但这些未经处理过的数据很多都是对企业发展无效的。真正可以为企业所用的数据,也就是说数据质量是有一定标准的,符合这些标准的才算是高质量且能被实际应用的数据。
完整性
数据的完整性是企业利用数据时最关心的一点。
企业数据的完整性一般受两个方向的影响,第一个方向是企业业务流程不规范,没有形成数据驱动的意识,导致某项数据缺失或记录遗漏。比如旗下门店服装店员交接不规范导致消费者购买记录缺失,造成数据不全,或是企业根本没有意识到要设置存储消费者购买衣服颜色的数据,导致无法对消费者喜爱衣服颜色进行分析;
第二个方向就是企业TI信息技术部门出现问题,这个问题在企业中也很常见。比如技术人员没有完善好业务数据库的设置,缺少关键的主键,导致业务流程中产生的数据有一部分不能存储到数据库中。
准确性
数据的准确性是企业能够放心利用数据的关键。
业务活动中,企业业务数据的准确性经常受到挑战,就拿路边随时能看到的餐饮连锁店来说,目前大部分线下店还是采用的店员手动点餐,这就相当于是手动记录业务信息,一旦店员疏忽记错餐品或是太忙没有顾及细节,即使线下店铺能够解决业务问题,其产生的数据也已经进入系统后台中,只能依赖后续的增删改来保证数据的准确性。
及时性
数据的及时性决定了企业能否在一定时间内利用数据。
企业中有些数据是非常强调实时性的,相关的IT或分析人员需要在短时间内利用数据,一旦数据没有及时到位,超出了预定的时间,对于企业而言这个数据就已经失去了价值。举个例子,有些企业喜欢在周五进行复盘总结,对下周的业务进行调整,如果这周的业务数据直到下周才能调取,那这些数据的意义已经不大了。
一致性
数据的一致性是企业数据存储的基础。
企业在建设数据库前,一般都需要先确定指标体系,对企业的各种业务进行抽象化,也就是确定好不同业务之间的命名、结构、层次等。得到业务流程中各个节点的具体指标后,技术人员根据指标提前设置好后台数据库,这样一线业务人员储存数据时,海量的数据就能根据设置好的规则自动找到位置,避免数据出现错误、冲突。
唯一性
数据的唯一性是影响数据质量的重要因素。
想要在数据库海量的数据中寻找某种数据,实现相关业务数据的快速查询,最关键的就是数据唯一性,它不仅可以在数据库中帮助识别重复数据,还能轻松获取企业业务的复盘数据,帮助管理人员更好决策。
数据质量管理
数据质量管理阶段 - 派可数据 BI 可视化分析平台
和文章开篇提到的数据质量管理定义一样,数据质量管理是一个长期持续的,需要企业所有员工共同努力奋斗的解决方案。这个数据质量管理方案会贯穿业务数据从生产到利用的整个流程,将会给企业带来巨大增益。
1.数据规划
企业管理人员必须先确定好数据质量管理体系的顶层设计,从思维的方向出发把企业文化变成数据驱动型文化,然后提前做好数据规范,将其融合到企业的KPI指标中,利用奖惩制度监督员工,把数据确立为企业的基石。
2.数据存储
部署派可数据商业智能BI,将企业原本拥有的业务信息系统以及其它不同来源的数据统一连接到数据仓库中,再经过ETL过程处理后,企业的数据质量就能飞速提高。
3.数据利用
可视化分析 - 派可数据 BI 可视化分析平台
数据分析人员可以通过派可数据BI中的可视化分析功能,从图表直连数据仓库取数,实现流程的自动化,避免出现其他干扰,然后通过联动、钻取等功能实现不同图表之间的互动,深化可视化分析报表展现的数据量和深度。
4.形成闭环
业务活动产生数据,分析人员利用数据判断出业务发展趋势,辅助管理人员对业务发展进行决策。在这么一个不断优化的闭环流程中,数据质量将会不断提高,逐渐将企业数据精细化到极致,进而产生变革。