文章目录
- 引言
- 数据血缘
- 数据标准
- 数据质量
- 结语
引言
这段时间工作繁忙,琐事较多,加上二阳的冲击,导致数睿通 2.0 的更新进度缓慢,深表歉意,还望大家可以理解。本次更新主要包含数据治理模块的血缘,标准,质量三大功能,能够帮助我们更加直观的查看和管理平台的数据信息,同时也是数据治理的重要组成部分,下面让我们一起来看一下这几个模块的完成情况吧。
数据血缘
数据血缘可以帮助我们追溯数据流向,让我们知道数据从哪来,到哪去,这样遇到问题可以直指源头,快速处理解决,但是数据血缘的构建并不是件容易的事情,只是通过 sql 构建血缘会遇到各种各样的问题,比如复杂 sql 的解析,字段和表的实际归属等,所以本次更新只针对数据接入部分做了自动血缘构建,对于数据生产部分的 sql 任务,后续计划通过用户介入的方式协助构建血缘,只通过解析 sql 来自动构建目前来看是不现实的。
由于本人前端水平有限,找来找去并没有找到合适的组件去回显血缘关系图,所以暂时通过接入 Neo4j 的官方客户端界面作展示,最终展示效果打算做成像 atlas 那样,可以通过点击血缘的数据节点去追溯查看节点以及关联节点的信息。本次实现的效果图如下所示:
数据标准
该平台的数据标准主要用来定义标准字段和标准码表,帮助维护和管理数据标准信息,标准字段可以通过关联具体的元数据字段,获取标准检测报告,以便于我们查看数据情况,及时对不符合标准的数据做出调整,保证数据的标准化运营。
用户可以自定义数据标准目录,新增标准字段和标准码表,如下:
创建完标准字段和标准码表之后,在元数据模块关联具体字段可以查看标准检测结果:
数据质量
数据质量主要用于检测数据的质量情况。根据质量规则进行规则配置,生成质量任务,定时检测,生成质量报告,以便于用户对数据质量的好坏有个清晰直观的认知,针对质量报告对平台的数据做出适时的清洗和调整,保证数据的整体可用性。
质量规则通常是内置的,定义好的,同时如果有特定的业务需求,可以自行添加相关的检测处理逻辑进行扩展,该平台的内置规则包含以下 10 种:
- 唯一性校验(检验字段是否唯一)
- 手机号格式检验
- 身份证号格式检验
- 邮件格式检验
- 是否为日期格式
- 是否为数字格式
- 长度检验(检验字段是否符合设定长度)
- 非空检验(检测是否存在空值)
- 关联一致性检验(检测与关联的字段取值是否一致)
- 及时性(检测更新时长是否超过设定时间)
本次更新完成了数据质量模块的质量规则展示以及规则配置两个功能,质量任务尚处于开发阶段,当前整体功能展示如下:
结语
这就是数睿通 2.0 本次更新的主要内容了,相应的代码量还是挺多的,数据血缘部分单独抽了一个模块出来,主要用做与 Neo4j 数据库的交互,对于不了解 Neo4j 图数据库的朋友是有较高的学习参考价值的,数据标准和数据质量主要偏向于中台本身的业务,其中如何关联元数据查询,生成动态 sql 获取标准报告等,理清了相关代码逻辑,可以帮助我们更好的理解中台相关的概念,结合自身业务,发挥平台应有的价值。
想要获取系统目前最新源码,部署指南等资料的朋友可以关注公众号 螺旋编程极客 加入我的知识星球,星球内可以获取到数睿通 2.0 的最新源码资料等,新功能发布之后也会第一时间分享,期待你的加入。