什么是数据血缘分析?数据血缘为数据全生命周期过程中的数据关系,包括数据特征的变化,即数据的来龙去脉。主要内容包括数据的来源、数据的加工方式、映射关系以及数据的流出和消费。数据血缘分析就是针对数据分析中的血缘关系做分析,主要包含数据来源分析、数据血缘影响分析和数据全链条分析三个部分。
数据血缘的特征有哪些?① 稳定性:一旦数据血缘关系收集完毕,通常不会再有大的变化。
② 归属性:即便数据从生产端流向消费端,数据的归属关系依然存在。③ 多源性:一个数据可以来自一个或者多个数据源,也可以由多个数据源组合而成。
④ 可追溯性:数据从产生到消亡的整个生命周期都可以直观地记录和查询,进行追溯。
⑤ 层次性:层次性主要体现在数据的分类、归纳和总结过程中,构成层次结构。
03数据血缘的重要性1、破除数据质疑数据血缘分析技术可大大提升数据排查效率,让用户自主对数据来源以及链路进行检查,直观地发现数据生产链路各环节有无异常,快速打消终端用户对报告数据可靠性的怀疑。
2、快速评估数据变更影响范围数据血缘可以对数据对象和数据流与数据图的连接进行可视化,以帮助数据架构师预测移动或更改数据将对数据本身及其下游流程和应用程序产生哪些影响,同时让整个流程的验证和更改也变得更加容易。
3、度量数据资产价值评估数据血缘可以作为数据资产价值评估的一个度量工具,将原始数据、数据资源到数据产品、数据资产的过程进行量化和显现,如数据成本的记录、数据资产的登记、数据资产化进度追踪等。
4、为数据滥用加上“道德枷锁”通过数据血缘的追踪,我们能确认数据的源头、OWNER和数据的流向,同时提供采集、存储、使用、传输、共享、发布、销毁等基于数据生命周期的具体信息,有利于数据确权后避免滥用的情况发生。
04数据血缘的组成部分
1、元数据元数据是最基本的数据单元,更多是描述数据的数据,比如身份证号码,数字类型是18位,前两位是省代码,后面几位是出生年月日,这些确定身份证号码是怎么来的数据即是元数据,元数据就像是组成数据血缘的基本元素,也可以说是构成数据血缘的编码规则或体系。
2、主数据主数据是指在整个企业范围内各个系统(操作/事务型应用系统以及分析型系统)间要共享的数据,比如,可以是与客户、供应商、账户以及组织单位相关的数据。主数据的价值之一”统一数据标准、统一口径“对于数据血缘分析至关重要,如果缺乏主数据标准管理,数据血缘的流向以及关联的字段极有可能是错误的。
3、业务数据业务数据是指由企业在业务处理过程中产生的数据,也称交易数据。包括订单合同,营销价格等。数据血缘在业务数据监测与问题定位、数据交圈起到了可追溯可视化的作用,大大提升了业务数据的质量问题。
4、指标数据指标数据是基础数据按照一定业务规则或一系列公式计算加工得出的数据指标,它具有高价值性,更贴近业务场景的特点,代表着数据的最终业务价值呈现。通过数据血缘分析可以满足查看指标数据拆解过程、体现指标数据计算规则、展示指标数据的多源效果。
05数据血缘的建设数据血缘的建设贯穿了数据的全生命周期,通过一个周期、三种实体、五个类型、五个层级进行整体框架的规划和设计,同时,通过选择合适的数据建设方式,按照数据血缘建设六步曲进行建设。
一个周期:即数据的全生命周期,包括数据采集生产、数据加工、数据传输、数据使用消费、数据失效。
三种实体:即数据的颗粒度结构,它们构成了数据血缘的实体结构,包括数据库血缘、数据表血缘、表字段血缘。
五个类型:即数据血缘的五种类型,包括逻辑血缘、物理血缘、时间血缘、操作血缘和业务血缘。
五个层级:即数据血缘在全链路实现过程中所贯穿的各层级,包括血缘采集层、血缘处理层、血缘存储层、血缘接口层、血缘应用层。
数据血缘的建设方法
当前主流的数据血缘建设方法有采用开源系统建立数据血缘、引进厂商平台建立数据血缘、选择自建方式建立数据血缘三种方式。每家企业对于建设方式的选择各有不同,主要是由于企业资金投入、内部人员技术水平、人力资源投入等的不同等因素决定的。
图片
数据血缘建设六步曲
数据血缘根据建设是进行数据血缘管理的前提,数据血缘工具需要具备数据从属谁、在何时、在何地、为什么和如何更改数据的问题。一个完整的数据血缘项目都应包含以下六大步骤:
图片
诚如作者所说,数据血缘不仅仅是一种技术和方法,更是一种数据思维,它能够让我们更深层次理解数据、建设数据、治理数据、运营数据!