一文读懂数据血缘分析原理与建设方法

news2024/11/24 23:06:41

什么是数据血缘分析?数据血缘为数据全生命周期过程中的数据关系,包括数据特征的变化,即数据的来龙去脉。主要内容包括数据的来源、数据的加工方式、映射关系以及数据的流出和消费。数据血缘分析就是针对数据分析中的血缘关系做分析,主要包含数据来源分析、数据血缘影响分析和数据全链条分析三个部分。
在这里插入图片描述数据血缘的特征有哪些?① 稳定性:一旦数据血缘关系收集完毕,通常不会再有大的变化。
② 归属性:即便数据从生产端流向消费端,数据的归属关系依然存在。③ 多源性:一个数据可以来自一个或者多个数据源,也可以由多个数据源组合而成。
④ 可追溯性:数据从产生到消亡的整个生命周期都可以直观地记录和查询,进行追溯。
⑤ 层次性:层次性主要体现在数据的分类、归纳和总结过程中,构成层次结构。
03数据血缘的重要性1、破除数据质疑数据血缘分析技术可大大提升数据排查效率,让用户自主对数据来源以及链路进行检查,直观地发现数据生产链路各环节有无异常,快速打消终端用户对报告数据可靠性的怀疑。
2、快速评估数据变更影响范围数据血缘可以对数据对象和数据流与数据图的连接进行可视化,以帮助数据架构师预测移动或更改数据将对数据本身及其下游流程和应用程序产生哪些影响,同时让整个流程的验证和更改也变得更加容易。
3、度量数据资产价值评估数据血缘可以作为数据资产价值评估的一个度量工具,将原始数据、数据资源到数据产品、数据资产的过程进行量化和显现,如数据成本的记录、数据资产的登记、数据资产化进度追踪等。
4、为数据滥用加上“道德枷锁”通过数据血缘的追踪,我们能确认数据的源头、OWNER和数据的流向,同时提供采集、存储、使用、传输、共享、发布、销毁等基于数据生命周期的具体信息,有利于数据确权后避免滥用的情况发生。
04数据血缘的组成部分
1、元数据元数据是最基本的数据单元,更多是描述数据的数据,比如身份证号码,数字类型是18位,前两位是省代码,后面几位是出生年月日,这些确定身份证号码是怎么来的数据即是元数据,元数据就像是组成数据血缘的基本元素,也可以说是构成数据血缘的编码规则或体系。
2、主数据主数据是指在整个企业范围内各个系统(操作/事务型应用系统以及分析型系统)间要共享的数据,比如,可以是与客户、供应商、账户以及组织单位相关的数据。主数据的价值之一”统一数据标准、统一口径“对于数据血缘分析至关重要,如果缺乏主数据标准管理,数据血缘的流向以及关联的字段极有可能是错误的。
3、业务数据业务数据是指由企业在业务处理过程中产生的数据,也称交易数据。包括订单合同,营销价格等。数据血缘在业务数据监测与问题定位、数据交圈起到了可追溯可视化的作用,大大提升了业务数据的质量问题。
4、指标数据指标数据是基础数据按照一定业务规则或一系列公式计算加工得出的数据指标,它具有高价值性,更贴近业务场景的特点,代表着数据的最终业务价值呈现。通过数据血缘分析可以满足查看指标数据拆解过程、体现指标数据计算规则、展示指标数据的多源效果。
05数据血缘的建设数据血缘的建设贯穿了数据的全生命周期,通过一个周期、三种实体、五个类型、五个层级进行整体框架的规划和设计,同时,通过选择合适的数据建设方式,按照数据血缘建设六步曲进行建设。
在这里插入图片描述一个周期:即数据的全生命周期,包括数据采集生产、数据加工、数据传输、数据使用消费、数据失效。

三种实体:即数据的颗粒度结构,它们构成了数据血缘的实体结构,包括数据库血缘、数据表血缘、表字段血缘。

五个类型:即数据血缘的五种类型,包括逻辑血缘、物理血缘、时间血缘、操作血缘和业务血缘。

五个层级:即数据血缘在全链路实现过程中所贯穿的各层级,包括血缘采集层、血缘处理层、血缘存储层、血缘接口层、血缘应用层。
图片

数据血缘的建设方法

当前主流的数据血缘建设方法有采用开源系统建立数据血缘、引进厂商平台建立数据血缘、选择自建方式建立数据血缘三种方式。每家企业对于建设方式的选择各有不同,主要是由于企业资金投入、内部人员技术水平、人力资源投入等的不同等因素决定的。
图片

数据血缘建设六步曲

数据血缘根据建设是进行数据血缘管理的前提,数据血缘工具需要具备数据从属谁、在何时、在何地、为什么和如何更改数据的问题。一个完整的数据血缘项目都应包含以下六大步骤:
图片

诚如作者所说,数据血缘不仅仅是一种技术和方法,更是一种数据思维,它能够让我们更深层次理解数据、建设数据、治理数据、运营数据!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2118286.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第二证券:10倍“妖股”一天暴跌98% 揭秘港股那些做局套路

尽管港股行情全体低迷,自上一年以来港股商场仍不乏短短时日暴升10倍以上的疑似“妖股”,这些公司普遍具有一起的特征:刚上市不久的新股、次新股,市值较小、股权高度会集。 证券时报记者通过查询发现,这类股票反面往往…

图片无损缩放PhotoZoom Pro 9.0.2绿色版 +免费赠送PhotoZoom激活优惠代码

PhotoZoom Pro 9.0.2 是一款专业的图片无损缩放软件,该软件采用了 benvista s-spline 独特技术,增强了对图像格式的支持,多处理器支持,GPU 加速,win10和 Photoshop CC 支持。带来一流的数字图形扩展与缩减技术。该软件…

torch torchvision 安装失败解决方法

按照安装教程在安装Torch torchvision的时候报错 报错内容: ERROR: Could not find a version that satisfies the requirement torch (from versions: none)ERROR: No matching distribution found for torch 出现这个情况,有说要换源什么的&#xff…

博客常见问题

hexo g 生成静态文件 hexo s 本地预览 hexo d 同步上传到git 1、输入hexo d ,上传到git时,报错 看了下git的配置,没有问题,单机过去也能直接到我的git上 可能是传不过去,token的问题 最下面开发者设置,找到…

单片机毕业设计-基于单片机的运动手环

文章目录 前言资料获取设计介绍功能介绍程序代码部分参考 设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP…

2024年【浙江省安全员-C证】找解析及浙江省安全员-C证模拟考试题库

题库来源:安全生产模拟考试一点通公众号小程序 浙江省安全员-C证找解析是安全生产模拟考试一点通生成的,浙江省安全员-C证证模拟考试题库是根据浙江省安全员-C证最新版教材汇编出浙江省安全员-C证仿真模拟考试。2024年【浙江省安全员-C证】找解析及浙江…

如何在页面调用utility bar并传递参数至lwc组件

1.在app的utility item中添加lwc组件: 2.调用utility bar api的方式有两种: 方法一,通过lwc调用: import {LightningElement,api ,wire } from lwc; import { publish, MessageContext } from lightning/messageService; imp…

新手烤鸡测试——单烤没拉满

文章目录 电脑配置先来一波硬件信息硬盘检测cpu-Z跑分AIDA64单烤FPUDistInfoDiskMark查看硬盘读写次数 电脑配置先来一波 图吧下载地址 硬件信息 硬盘检测 cpu-Z跑分 AIDA64单烤FPU 压榨cpu性能结果 DistInfo 计算了一下到几天快两个月的使用时间也没差 DiskMark查看硬盘读…

批量复制指定文件夹——EXCEL VBA 实现

工作中往往需要复制特定文件夹,例如,一个文件夹中有100个文件夹,我只需要复制其中50个文件夹,这50个文件夹的名字放入excel表中第一列,从第二行开始(注意:第一行的表头不能覆盖)&…

三十三、Gin的中间件

目录 定义: 一、处理请求前执行 1、模拟请求前需要鉴权 2、使用use方法 3、实验 二、处理请求后执行 1、在具体方法中添加输出方便观察整个处理请求过程生命周期 2、在next方法后增加输出即可在处理完成请求后执行内容 3、最终执行结果 定义: 在…

大模型LLM算法工程师技术面试指南

大模型LLM算法工程师技术面试指南 AI大模型全套学习资料 “最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。 这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。 我在一线互联网企业工作十余年里,指导过不少…

防跌倒识别摄像机

防跌倒识别摄像机 是一种结合了人工智能技术和监控摄像技术的先进设备,旨在通过实时监测和分析监控画面中的行为动作,及时发现并预防跌倒事件的发生。这种摄像机在医疗、养老院、家庭等场所有着广泛的应用前景。 防跌倒识别摄像机在医疗领域具有重要意义…

社群空间站付费入群系统易支付版全套搭建教程

社群空间站9.9付费入群系统易支付版全套搭建教程 1.创建站点 2.搭建环境 php7.2 3.上传源码包 数据库批量修改sq9.dongge1.icu s10.dongge1.icu 改为你的域名 4.上传数据库 修改数据库文件/data/config/ 5.访问域名 6.账户密码 admin 123456 7.易支付修改地址是在/data…

SpringBoot2:请求处理原理分析-常用接口方法参数整理

文章目录 1、常用的原生API参数2、一些自带的复杂参数3、自定义Bean参数4、自定义参数转换服务5、总结 1、常用的原生API参数 作用说明:在接口方法参数放入一些原生API作为参数使用。 案例: 接口收参形式: RequestMapping("/test"…

16款facebook辅助工具,总有一款适合你!

Hey小伙伴们~👋 是不是想利用FB大展拳脚,却苦于不知道如何开始?别急,今天就给你们安利16个超实用的FB营销工具,涵盖了内容创建和发布的应用程序,以及数据追踪分析、商品销售等多个方面让你轻松get海外获客新…

浅谈:CDN下真实IP的暴露

免责声明:本文仅做分享! 目录 CDN简介: 国内常见CDN: 国外常见CDN: 判断CDN存在? 在线ping检测: nslookup: 寻找真实IP----> 1-DNS历史解析纪录 2-子域名查询 1.在线平台查询 2.工具爆破 3.搜索引擎 3-网站邮件头信息 4-S…

100个视频如何转换成1个二维码

使用场景描述:有50-100个视频,要实现扫一个二维码,就可以完整观看这50-100个视频的内容,这种情况下,可以使用列表专辑二维码功能来轻松实现。 使用步骤 STEP1 注册帐号 使用视频专辑列表二维码,您需要注册…

原生 iOS 引入 Flutter 报错 kernel_blob.bin 找不到

情况 在一次原生 iOS 项目中引入 Flutter 的过程中,在模拟器中运行出现报错: 未能打开文件“kernel_blob.bin”,因为它不存在。 如下图: 模拟器中一片黑 原因&解决方案 这个是因为 Flutter 的打包 iOS framework 命令中…

美国洛杉矶ip有哪些独特优势

美国洛杉矶的IP地址独特优势主要体现在以下几个方面,rak小编为您整理发布美国洛杉矶的IP地址独特优势,希望 对您选择服务器有帮助。 1. 丰富的IP资源:美国洛杉矶多IP服务器提供的IP数量从几十到几百不等,最多可提供多达511个独立I…

沃创云外呼系统有哪些具体的功能特点

沃创云 [云呼叫中心],新一代电销外呼系统 沃创云新一代电销外呼系统,提升接通率及降低封号率。 企业云通信-系统平台 沃创云电销外呼系统是一款适用于中小企业电话营销场景的云通信系统平台。 通过与中国移动、中国联通、中国电信三大运营商的紧密合…