什么是数据血缘?怎么做好数据血缘分析?

news2024/9/17 8:51:23

目录

一、什么是数据血缘?

二、数据血缘关系的四大特征

三、数据血缘分析怎么做?

1.定义元数据模型

2.收集元数据

3.建立血缘关系模型

4.追踪数据流动

5.可视化分析

6.集成到数据治理中

7.持续更新和维护

8.应用分析结果

四、数据血缘技术趋势

1.通用的血缘解析能力

2.非侵入式的非 SQL 类型血缘采集

3.时序血缘


什么是数据血缘?

数据血缘(Data Lineage),又称为数据血统、数据起源、数据谱系,是指在数据的全生命周期中,从数据的产生、处理、加工、融合、流转到最终消亡,数据之间自然形成的一种类似人类血缘的关联关系。简单来说,就是数据之间的上下游来源去向关系——数据从哪里来,到哪里去。数据血缘不仅涉及数据的物理流动,还包括数据的逻辑关系和转换过程。

数据血缘对于理解数据的来源、加工方式、映射关系以及数据出口至关重要。它有助于企业更好地管理数据资产,确保数据质量和安全,同时也有助于数据问题的排查和解决。

二、数据血缘关系的四大特征

归属性:一般来说,特定的数据归属于特定的组织或者个人。

多源性:同一个数据可以有多个来源(多个父亲);一个数据也可以是多个数据经过加工生成的,而且这种加工过程可以是多个。

可追溯性:数据的血缘关系体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。

层次性:数据的血缘关系是有层次的。对数据进行分类、归纳、总结等描述信息又会形成新的数据,不同程度的描述信息形成了数据的层次。

、数据血缘分析怎么做?

数据血缘分析是元数据管理的重要应用之一,其过程可以大致分为以下几个步骤:

1.定义元数据模型

确定需要管理的元数据类型,如数据库表、字段、ETL过程、数据仓库模型等。定义元数据的属性,包括名称、描述、数据类型、来源、去向等。

2.收集元数据

从各种数据源(如数据库、数据仓库、ETL工具、数据湖等)中提取元数据。利用元数据抽取工具或服务,自动化地收集元数据。

3.建立血缘关系模型

确定血缘关系的类型,如上游/下游关系、父子关系、依赖关系等。设计血缘关系图模型,以图形化的方式表示元数据之间的关系。

4.追踪数据流动

实现算法来追踪元数据的流动路径,确定从一个数据元素到另一个数据元素的完整路径。使用图数据库或图处理框架(如Neo4j、Apache Giraph、Spark GraphX等)来存储和查询血缘关系。

5.可视化分析

利用可视化工具和技术(如D3.js、ECharts、Tableau等)来展示血缘关系图。提供交互式界面,允许用户探索和分析血缘关系。

6.集成到数据治理中

将血缘关系分析作为数据治理的一个重要组成部分。利用血缘关系分析结果来制定数据质量规则、数据安全策略和数据保留政策。

7.持续更新和维护

随着数据环境的变化(如新数据源的加入、数据流程的修改等),持续更新血缘关系图。监控数据血缘关系的准确性和完整性,确保分析结果的可靠性。

8.应用分析结果

利用分析结果进行数据变更影响分析,评估数据质量问题和数据安全事件对相关数据的潜在影响。根据分析结果优化数据流程,提升数据使用效率和质量。

四、数据血缘技术趋势

在业界,血缘的发展趋势主要关注以下几点:

1.通用的血缘解析能力

血缘是元数据平台的核心能力,很多时候元数据平台会接入多样化元数据,这些业务元数据也会依赖血缘不同的血缘解析能力,现在的解析往往是依赖各个引擎团队来支持的,但是其实在更加广泛的场景,我们需要有一个兜底的方案来提供一个更通用的血缘解析能力,所以未来我们会提供标准 SQL 解析引擎,以达到通用解析的目的。

2.非侵入式的非 SQL 类型血缘采集

除了可解析的 SQL 或可配置的任务,日常还会涉及到代码类型的任务,如 JAR 任务。JAR 任务现在的解析方式是根据一些埋点信息或者用户录入的上下游信息去完成血缘的收集,这部分未来会出现一种非侵入式的非 SQL 类型血缘采集的技术,比如 Flink 或者 Spark 的 JAR 任务,我们可以在任务运行时拿到这些血缘,来丰富平台侧血缘的数据。

3.时序血缘

目前血缘信息图数据库相当于是对当前血缘拓扑的一次快照,其实血缘是会变化的,比如用户在修改一个任务的时候,上线任务变更或是修改表结构,然后对应的修改自己生产任务的时候,涉及到时序的概念,这个时序可以方便我们去追溯一些任务的变化,支持我们去做事前事后影响分析,所以时序血缘如何在图数据库中引入也是未来的一个趋势。

厘清数据的血缘关系,就是厘清数据之间的上下游来源去向关系。企业构建全面准确的全链路数据血缘视图,就可以找出数据上下游的应用方,加快数据部门对业务数据报错的debug速度,降低企业决策的失误;也可以及时对长期无用的数据库或报表进行下线处理,节省数据管理成本。

FineDataLink,它专注于帮助企业进行数据集成和同步,确保数据的高效流动和一致性。通过FineDataLink,企业能够将来自不同数据源的数据整合在一起,建立起完整的数据血缘关系。这样,企业可以更好地理解数据的来源、变化和流向,梳理和管理数据血缘关系,提高数据质量和可信度。

了解更多数据仓库与数据集成关干货内容请关注>>>FineDataLink官网

免费试用、获取更多信息,点击了解更多>>> 体验FDL功能
往期推荐:
为什么要读写分离?如何实现业务系统读写分离?-CSDN博客
帆软职业资格认证 FCA-FineDataLink上线公告-CSDN博客
【大数据】什么是数据对接?(附方法及工具介绍)-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1962487.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

51单片机-第六节-LED点阵屏与_74HC595_

1.LED点阵屏的结构: 与数码管相同(数码管只是把LED排成8字结构),8*8的点阵屏有8816个引脚。 双色点阵屏有82*824个引脚,结构如图: 注:点阵屏引脚多为乱序排列, 控制需看单片机说…

基于SpringBoot+Vue的大学生租房系统(带1w+文档)

基于SpringBootVue的大学生租房系统(带1w文档) 基于SpringBootVue的大学生租房系统(带1w文档) 该系统主要实现了用户和房主通过系统注册用户,登录系统后能够编辑自己的个人信息、查看首页,房屋信息,房屋评价,公告资讯,…

Linux第七节课gcc与g++

一、补充权限 普通用户无法执行sudo: 通过sudo执行后显示不在sudoers file中!(张三不被信任!) 需要修改配置文件(白名单!) 配置文件位于以下目录: ls /etc/sudoers -…

[Day 40] 區塊鏈與人工智能的聯動應用:理論、技術與實踐

強化學習概述 強化學習(Reinforcement Learning, RL)是一種機器學習方法,主要用於訓練智能體(agent)在特定環境(environment)中進行決策。智能體通過嘗試和錯誤來學習,以最大化其累…

【iOS】—— iOS持久化

iOS持久化 1. 数据持久化的目的2. iOS持久化的方案3. 数据持久化方式的分类内存缓存磁盘缓存 4. 沙盒机制5. 沙盒的目录结构获取应用程序的沙盒路径每次编译代码会生成新的沙盒路径,每次运行获得的沙盒路径都不一样。访问沙盒目录常用C函数介绍沙盒目录介绍 6. 持久…

浅谈线程组插件之bzm - Arrivals Thread Group

浅谈线程组插件之bzm - Arrivals Thread Group bzm - Arrivals Thread Group 是 JMeter 中的一个高级插件,由 BlazeMeter 提供,旨在为性能测试提供更灵活、更贴近实际场景的负载生成方式。与传统的线程组不同,Arrivals Thread Group 通过控制…

网上订餐系统2024((代码+论文+ppt)

网上订餐系统2024((代码论文ppt),编号:sp006 代码经过修正,确保可以运行,下载地址在文末 技术栈: springbottvuemysql 展示: 下载地址: CSDN现在上传有问题,有兴趣的朋友先收藏.正常了贴上下载地址 备注: 专业承接各种程序java,c,c,python,cuda,AI 运行有问题请私信我,…

互联网医院系统源码与医保购药APP开发的完整技术指南

本篇文章,笔者将详细介绍互联网医院系统与医保购药APP的开发全过程,帮助开发者理解其技术要点和实现路径。 一、互联网医院系统开发 1.需求分析与系统设计 需要明确系统的功能需求,如在线问诊、预约挂号、电子病历管理、远程医疗、支付系统…

木材缺陷数据集:从手工模式到智能时代的跨越

亲爱的读者们,您是否在寻找某个特定的数据集,用于研究或项目实践?欢迎您在评论区留言,或者通过公众号私信告诉我,您想要的数据集的类型主题。小编会竭尽全力为您寻找,并在找到后第一时间与您分享。 引言 …

【运维指南】常见的防火墙端口操作

每当一个应用程序想通过网络访问自己时,它就会申请一个 TCP/IP 端口,这意味着该端口不能被其他任何程序使用。那么,如何检查开放的端口,看看哪个应用程序已经在使用它呢? Windows 查看端口使用情况和进程名称 netst…

详解Qt 之QMdiArea 和 QMdiSubWindow

文章目录 前言QMdiArea概念作用为什么需要 QMdiAreaQMdiArea 的主要函数和成员函数列表 QMdiSubWindow概念作用为什么需要 QMdiSubWindowQMdiSubWindow 的主要函数和成员函数列表 示例代码 更多用法... 总结 前言 在复杂的应用程序中,尤其是那些需要同时管理多个子…

Linux AMBA 驱动:DMA 控制器 PL330 驱动简析

文章目录 1. 前言2. 背景3. PL330 简介4. PL330 驱动加载流程4.1 PL330 设备注册流程4.2 PL330 驱动加载流程 5. 小结6. 参考资料 1. 前言 限于作者能力水平,本文可能存在谬误,因此而给读者带来的损失,作者不做任何承诺。 2. 背景 本文基于…

什么牌子的骨传导耳机好?这五款骨传导耳机用过都是好评!

骨传导耳机,作为听音设备的创新之作,以其独特的传音方式赢得了市场的广泛认可。它不仅让日常听音更加健康舒适,还完美契合了运动场景的需求,让用户在享受音乐的同时,保持对周围环境的敏锐感知。这种设计上的巧思&#…

【QT串口助手】

首先非常感谢CSDN吾爱技术圈分享的QT初体验:手把手带你写一个自己的串口助手,本教程重点参考 1. 前言 由于qt应用项目需求,前期也安装过QT(参考博客:【Qt安装与简易串口控制Arduino开发板小灯教程】)&…

守护线程(Daemon Threads)详解:与非守护线程的区别

守护线程(Daemon Threads)详解:与非守护线程的区别 1、守护线程是什么?2、守护线程与非守护线程的区别2.1 JVM关闭行为2.2 任务性质2.3 线程设置2.4 示例代码 3、总结 💖The Begin💖点点关注,收…

人工智能学习笔记 - 初级篇Ⅱ - 图形可视化 - 第11节: 绘制带填充区域的图表

微信公众号:御风研墨 关注可了解更多。问题或建议,请公众号留言 文章目录 绘制带填充区域的图表应用背景准备工作操作步骤工作原理补充说明最后 绘制带填充区域的图表 应用背景 在数据可视化中,带填充区域的图表可以有效地表示数据范围、趋…

创客项目秀 | 基于 XIAO 开发板的语音向导

背景 柴火创客空间作为大湾区科技创新的窗口,每年到访空间的社区伙伴众多,为了更好的进行空间信息交互,我们希望有一个装置是可以解决:当空间管理员不在现场的时候,到访者可以通过装置获得清晰的介绍与引导。 为了解…

APP逆向 day24unidbg上

一.前言 今天开始讲app逆向最后一个也是最重要的unidbg,这已经是从初级进阶到中级的了,我会讲unidbg,讲三节课,分为上中下来和大家讲(由简单到难逐步),这节课主要是和大家讲unidbg的介绍并且会…

详解工厂模式与抽象工厂模式有什么区别?【图解+代码】

目录 工厂模式,抽象工厂模式是什么? 两种设计模式的流程: 1、工厂模式 2、抽象工厂模式 两种模式的对比 共同点: 不同点: 总结 工厂模式,抽象工厂模式是什么? 我已经具体的写了这两种模…

我的「Java全栈高级架构师高薪就业课」适合什么样的人群学习?

我的《Java全栈高级架构师高薪就业课》上线了~ 这是一套Java全栈微服务架构、以实战项目驱动的课程!包含34个模块,1514课时。对标阿里P7级别技术栈而研发,有着循序渐进的学习体系,助你开启Java进阶之旅。 我的这套《Java全栈高级…