时代背景
近20年来,我国的科学技术发展日新月异,各种新兴技术层出不穷,深刻的改变着各行各业,也改变着我们的生活。大数据、云计算、人工智能的出现更是将技术革命推向了高潮。在这种背景下,继农业经济、工业经济之后,数字经济诞生了,并且随着科技的不断发展,它将成为主要经济形态。在2022年,我国数字经济核心产业增加值占国内生产总值(GDP)比重达到7.8%,数字经济为经济社会持续健康发展提供了强大动力。也是同一年,发改委正式发布了《“十四五”数字经济规划》。规划中阐明了数字基础设施建设、数字化转型、数字产业化等众多举措,并明确指出了我国在2025年数字经济将迈向全面扩展期,数字经济核心产业增加值占GDP比重将达到 10%。
数字经济越来越重要,经济运行的过程中,这些数据如何存,怎么管,怎样用的问题尤其重要。众所周知,在2015年马云带领阿里高管拜访芬兰的Super Cell公司后,提出来中台概念,即“大中台,小前台”,通过设置中台,抽取业务中共性的部分,为所有产品线提供公共资源。数据中台是中台概念中的一个子集,聚焦于对业务运行中所涉及到的数据进行汇聚整合、提纯加工,并向各个业务线提供统一的数据服务,解决了数据的存管用问题。数据中台也不是凭空而至,而是经历数据库、数据仓库、数据平台一步步演化而来。
文内精彩资料,等你领取!
数据质量管理简介
说到数据质量管理,就不能不谈到数据治理。治理这个词包含了两层意思,一个是治,另一个则是理。治着眼于高屋建瓴,统筹规划,而理则负责具体执行,着力具体数据管理。在数据治理领域中,数据质量的管理工作是重要一环。
通俗地讲,数据质量是对数据的评价,即数据好不好。数据质量对于某些领域行业,首先就是监管的要求,比如银监会对银行的合规性要求。其次,数据质量影响了企业管理层的决策,很难想象在进行商业投资、商业规划及商业布局是基于一份错误的数据而进行。另外,数据质量的高低也直接影响着企业产品生产的风险和成本、影响着企业的名誉。
上图在数据治理领域是被称为艾肯金字塔的模型,图中标明了数据治理的各个模块及其常见的实现阶段。当我们在对数据进行存储、建模、集成等操作后,就会自然而然的考虑到要构建高质量的数据,对数据质量的管理就会提上日程。并且,数据质量管理是作为数据治理底座的存在,只有数据质量管理好了,整个数据治理工作才不是空中楼阁,数据质量管理也会在日后的数据治理过程中贯穿始终。
数据质量管理实践
数据质量管理是数据中台产品的重要一环,元年方舟数据中台对数据质量管理的实践,秉承着经典的方法论。
数据质量管理维度
数据质量管理的维度是一个比较经典的话题。维度即在哪些方面进行特性的衡量,比如在三维空间中,使用长、宽、高三个维度来衡量世界。在数据质量管理的维度领域,出现了众多的流派。常见的流派比如Strong-Wang,侧重于数据消费者对于数据看法;Thomas-Redman将维度描述为模型(实体和属性)及其值;Larry English认为维度分为固有和实用特征;DAMA UK定义了6个核心维度。
元年方舟数据中台在综合研究了相关流派的观点和业内常用模型之后,结合实际的项目实践,采用了6个维度来对数据质量进行衡量,即唯一性、规范性、完整性、准确性、时效性、一致性。通过不同维度的视角来衡量数据质量,使得质量检测结果更加全面,测量者也可以聚焦于自己业务相关的维度。
数据质量管理生命周期
数据质量管理不能等同于项目管理,不是一次性过程,而是一个持续的过程。管理的过程包含了高质量数据的定义、如何进行数据质量检测的规划,数据质量检测方法的研究,以及数据质量检测结果如何评估等。这整个过程周而复始,体现为生命周期的模式,可以用戴明环模型来进行管理。戴明环(PDCA)是一种被称为“计划(Plan)-执行(Do)-检查(Check)-处理(Act)”的问题解决模型。
定义质检标准和规则
“凡事预则立,不预则废”。在进行数据质量管理时,我们需要提前规划如何去做,这个就对应了戴明环的“计划”。
我们很难去说什么数据是好的,什么数据是坏的,数据质量的好坏是一个相对的概念。民用的用品可能对军事用途来说质量不好,但是对于满足社会绝大多数用户的使用场景来说,质量又是好的。所谓“不以规矩,无以成方圆”,我们需要对质量的好坏做一个定义,这样就形成了一个规则。同时,规则经过各行各业的沉淀就会形成相应的行业标准,即使是一家公司的不同业务部门,也会经过长期的业务实践形成自己的业务标准。
元年方舟数据中台在数据质量管理规则创建过程中,支持表级和字段级两种粒度的规则设置,系统内置了6种不同维度的检测模板,考虑到不同层次用户在使用习惯上的差异,同时支持表单创建和SQL自定义两种模式。同时,用户可以同步来自数据标准的自定义模板,也可以使用数据字典来达到数据的一致性。
质检过程
在设置完质检规则后,质检的过程即是戴明环的“执行”过程。
元年方舟数据中台支持手动运行或者定时任务运行两种质检运行模式。质检模型为运行的主要实体,在模型的基础上囊括了需要检测的对象,对象可能是某个字段或者某张表,在对象的基础上又绑定了不同的质检规则。当运行一个质检任务时候,质检模块底层会和计算引擎进行通信,并且向计算引擎根据质检粒度的不同,分发不同的任务。引擎计算完毕后,将质检结果进行保存,分数计算,明细存储以及数据汇总等各种操作。
数据质量评估
在数据质量管理的方法论中,质量检测的测量结果可以分为两个层次进行描述:执行规则相关的详细信息以及规则汇总的整体结果。
在规则汇总整体结果上,元年方舟数据中台采用计算得分的形式,通过检测结果的公式函数:成功结果在整体检测结果中的占比计算而来。其中,不同的质检规则的权重、不同的质检对象的权重对检测结果又有不同影响,整个计算过程不在赘述,引用DAMA方法论中的得分计算公式如下:
在执行规则相关详细信息项中,元年方舟数据中台提供了检测的问题数据以供检测方查看,包括问题数据的详细信息、历史数据等。整个过程对应了戴明环的“检查”步骤。
问题数据纠正
该过程是戴明环的“处理”过程。得到质量检测的结果绝不是终点,结果有助于对质量进行改善,对问题数据的处理依然要经过下一个戴明环的检验,如此反复循环。对于问题数据纠正措施,元年方舟数据中台支持工单的派发,责任到人,在方法论中称为“人工检查修正”,这种模式十分方便操作以及与其他系统的集成。同时,对于方法论中的“自动修正”,产品也能够通过内置数据流来进行操作。
总 结
元年方舟数据中台通过数据质量管理的方法论,秉持着以预防为主,重视过程的理念,在数据治理方面做到事前预防(质检标准)-事中控制(检测和评估)-事后处理(数据纠正),并且在“戴明环”的理论指导下不断进行数据质量治理的改进,对数据质量管理起到了良好的支撑作用。
元年方舟数据中台白皮书