从数据血缘谈一谈如何实现数据管理的“自治理”

news2024/12/30 2:09:58

数据治理是企业数据管理的核心,它通过系统性的管理行为,确保数据的完整性、准确性、安全性、合规性和价值最大化。数据治理有助于提高数据质量和可用性,减少数据管理的风险,增强企业对数据的信任,从而提升业务效率和竞争力。

特别是随着企业从传统的数字化管理迈向更为先进的数智化运营,数据已成为企业决策和运营的核心驱动力。在这个过程中,找数、用数已经成为企业实现精细化运营、智能化决策的重要环节。因此,做好数据治理,确保数据的准确性、完整性和可用性,对于推动企业数智化运营、提升整体业务效率、提升商业竞争力具有至关重要的意义。

然而,数据规模的急剧增长和海量累积,给企业数据治理带来前所未有的压力,包括:复杂数据链路难以梳理、上下游数据变化难以高效同步、数据口径难以理解等。

复杂数据链路难以梳理:数据链路层级不断增长,数据交叉依赖日益加深,导致数据加工链路错综复杂,数据盘点和加工逻辑的理解越来越难。对于用数人员而言,解析字段上游加工逻辑或追溯、梳理字段来源时,不得不投入大量人力进行链路盘点。但依赖人工的盘点方式效率低下,难以保证数据口径梳理结果准确性。

风险影响未能及时全面分析:当上游数据发生变化时,必须确保这些变化及时、准确地同步到下游,以避免数据不一致和错误决策。这就要求开发团队具备高效的数据监控和预警机制,能够实时追踪数据变化,并自动触发相应的通知。企业对与从业务数据生产、到数据平台加工、再到业务应用的全链路影响分析也有强烈述求,上游的变化可以穿透到最下游的应用场景中,实现对重点应用的差异化保障和预警。

数仓模型的长效优化机制建设:随着业务的不断发展和数据量的不断增长,数据链路越来越长、产出时间越来越晚,同时不断增加的冗余资产造成了资源浪费。上述问题已经成为企业数据架构治理的首要目标,而传统运动式治理普遍存在“治了又治”的情况,不仅投入大成本高、效果还难持续,亟需建立完善的数仓模型的长效优化机制。

重复指标的发现和持续治理:数据口径的一致性是确保分析结果准确性的基础,但由于不同部门或团队对数据口径的理解存在差异,或者由于技术口径的不一致,导致数据分析结果难以对齐,增加了数据分析的成本和难度,影响决策的准确性。对“同名不同义、同义不同名”的重复指标能够快速甄别和持续治理,这也是对数据管理工作的巨大挑战。

就目前来看,传统 ETL 模式解决这些难题的专业门槛、人力投入要求很高,效果还难以保障,不持续、难复制、不经济,最终不能满足数据治理需求和业务需要。基于新一代数据血缘技术的“自治理”数据管理模式受到越来越多关注。

数据血缘如“家族图谱”一样,描绘了数据的起源、流经路径及其转换过程的详尽记录,可以精确追溯数据的初始来源,明晰其历经的各类处理流程,以及最终的应用方式,帮助企业分析并监控数据在业务链条中的上下游依赖关系,为企业提升数据管理效率和质量提供“洞察能力”。

具体来看,数据血缘技术发展历经“表级”、“列级”血缘,到具备精细化、自动化和智能化能力的“算子级”数据血缘,逐步实现了数据管理的“自治理”,开始成为企业数据管理的“关键基建”。

表级血缘:即关注表与表之间的依赖关系,但即便实现了 100% 准确的“表级血缘”追踪,其在实际业务场景中的应用仍显局限。这是因为表与表之间的关系往往具有高度的泛化性,在下探或上溯多层后扩散出百倍甚至千倍的上下游,使用难度极大。

列级血缘:即血缘精度进一步细化至字段级别,包括开源界的 Atlas 项目,都在尝试通过关系推断和正则匹配方式构建上下游字段之间的依赖关系。然而,由于技术解析复杂性和局限性,大家对列级血缘的解析准确率持谨慎态度,据统计,多数厂商的列级血缘准确率普遍低于 80%。

算子级血缘:Aloudata 独创。借助 Aloduata 自研的多平台 SQL 方言解析器,深入剖析复杂的代码计算逻辑,准确、精细地刻画字段间的精细加工关系,并提供代码的改写能力,实现字段加工口径的提取和转换,从可以清晰地展现数据上下游的列级加工关系和行级影响关系。

作为国内 Data Fabric 架构理念的实践者与引领者,Aloudata 通过独创的“算子级血缘”技术,打造了 Aloudata BIG 主动元数据平台,能够助力企业自动构建端到端、跨平台、可扩展的血缘图谱,为数据治理提供自动化、智能化的强大支持,实现数据治理模式的转变,推动数据治理走向自治化的新阶段。

 

通过 Aloudata BIG 平台,企业可以生成一张高精准、全链路可视化的算子级血缘图谱,上游连接各种业务数据源,中间可以精准刻画数据加工链路,下游的应用系统血缘也可以通过标准化接口导入图谱,将各类自定义资产无缝连接到血缘图谱中,构建一个端到端连通、全链路覆盖的血缘图谱体系。

凭借此图谱,企业可以全面打通数据生产、加工到消费的完整链路,实现穿透式的影响分析和精准溯源,让业务人员可以自助分析数据指标或报表的来源和加工口径,让数据集市管理人员可以主动评估数据变更和质量影响,实现上下游高效的数据协同,大幅提升数据盘点和理解效率。

目前,Aloudata BIG 平台已在多个极高复杂度的数据环境中完成实地验证。其中招商银行构建起全链路算子级血缘图谱,将算子级血缘分析技术应用到模型优化和变更协同的场景中,服务全行的数据开发人员,血源解析成功率提升至 99.9%,全链路协同保障效率提升 10 倍,平均数据链路缩短 50%。

如您现在对数据治理有巨大需求,或者对“算子级血缘”技术感兴趣,欢迎进入 Aloudata 官网,了解 Aloudata BIG 主动元数据平台更多详情。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1960376.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

mongodb中ret resulted in status UnknownError: 24: Too many open files

mongodb使用中遇到的问题 Invariant failure: ret resulted in status UnknownError:24:Too many open files at *** 错误原因为打开文件过多的错误,即“句柄数超出系统显示”。 1.需要更改一下系统的句柄数: 查看一下系统目前设置的句柄数 open files 对…

算法刷题day2|贪心:122. 买卖股票的最佳时机 II、55. 跳跃游戏、45. 跳跃游戏 II、1005. K 次取反后最大化的数组和

122. 买卖股票的最佳时机 II 贪心一 画出股票的折线图&#xff0c;将图中折线上升区间相加即是最大利润。 class Solution { public:int maxProfit(vector<int>& prices) {int result 0;for (int i 1; i < prices.size(); i){//下降区间直接跳过if (prices[i]…

创建完整的APP页面

完整的页面创建过程包括三个步骤 在layout目录下创建XML文件 创建与XML文件对应的Java代码 在AndroidMainfest.xml&#xff08;清单文件&#xff09;中注册页面配 一步到位的activity创建 跳转&#xff1a;意图 创建一个意图实例&#xff0c;使用setClass&#xff08;&#…

python机器学习12--Regression回归分析

1.数据准备 第一步&#xff1a;数据内容一定要有以下两种值域的因果数据。  特征&#xff08;Feature&#xff09;&#xff1a;因&#xff0c;在统计学称为自变量&#xff08;Independent Variable&#xff09;。  标签答案&#xff08;Label&#xff09;&#xff1a;果&a…

4条社交规则,让你受益

一个人只要在社会生活中&#xff0c;那他就免不了社会交往。 有时候&#xff0c;我们在社交中之所以不受欢迎&#xff0c;主要还是因为方法和策略的问题&#xff0c;也就是说缺乏对社交的深入思考&#xff0c;没有去做正确的事情。要知道&#xff0c;只要思路和方向对了&#…

【计算机毕设论文】基于SpringBoot的语音识别系统的设计与实现

&#x1f497;博主介绍&#xff1a;✌全平台粉丝5W,高级大厂开发程序员&#x1f603;&#xff0c;博客之星、掘金/知乎/华为云/阿里云等平台优质作者。 【源码获取】关注并且私信我 感兴趣的可以先收藏起来&#xff0c;同学门有不懂的毕设选题&#xff0c;项目以及论文编写等相…

传统制造业物流管理有什么缺陷?智能供应链技术推动制造业转型!

在科技迅猛发展的今天&#xff0c;智能制造已成为推动工业转型和升级的关键力量。作为智能制造的重要组成部分&#xff0c;物流管理的智能化不仅关系到企业运营的效率&#xff0c;更直接影响到整个制造业的竞争力。随着中国社会物流总额的持续攀升&#xff0c;物流行业展现出了…

C语言内存函数超详解

文章目录 前言1. memcpy1. 1 memcpy 的使用1. 2 memcpy 的模拟实现 2. memmove2. 1 memmove 使用 3. memset3. 1 memset 函数的使用3. 2 memset 的模拟实现 4. memcmp4. 1 memcmp 函数的使用4. 2 memcmp 的模拟实现 前言 C语言为我们提供了字符串的一些函数&#xff0c;比如复…

arduino程序-面包板(电路搭建及上传程序控制led))(基础知识)

arduino程序-面包板&#xff08;电路搭建及上传程序控制led&#xff09;&#xff08;基础知识&#xff09; 1-12 面包板&#xff08;电路搭建及上传程序控制led&#xff09;如何使用面包板使用实际元器件搭建电路上传程序到开发板作业 1-12 面包板&#xff08;电路搭建及上传程…

esp-idf-v5.1.1 例程 ble_hid_device_demo 解析

目录 1. 获取ESP-IDF和示例代码 导航到示例代码 3. 示例代码结构 4. 关键文件解析 main.c 初始化和配置: 事件处理: esp_hidd_prf_api.c 和 esp_hidd_prf_api.h esp_hid_gap.c 和 esp_hid_gap.h 5. 编译和烧录 ESP-IDF(Espressif IoT Development Framework)是Es…

批量HEIC转JPG软件推荐:轻松处理大量苹果图片

HEIC格式是苹果设备专属的一种图片格式&#xff0c;它以其卓越的图像质量和高效的压缩能力受到用户的欢迎&#xff0c;但同时也带来了兼容性问题。在很多情况下&#xff0c;我们需要将HEIC格式转换为更为通用的JPG格式&#xff0c;以便在不同设备和平台上进行查看和编辑。对于有…

AttributeError: ‘str‘ object has no attribute ‘decode‘

AttributeError: ‘str‘ object has no attribute ‘decode‘ 目录 AttributeError: ‘str‘ object has no attribute ‘decode‘ 【常见模块错误】 【解决方案】 欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 欢迎来到我的主页&#xff0c;我是博主英杰&#x…

老照片AI上色JS开发包【Colorizer.js】

Colorizer.js适用于为人物、建筑、风景等各种老照片自动上色&#xff0c;直接在浏览器内运行&#xff0c; 提供前端JavaScirpt二次开发接口。官方下载地址&#xff1a;Colorizer.js SDK 1、目录组织 Colorizer.js开发包的目录组织说明如下&#xff1a; colorizerjs | - s…

2024电赛H题参考方案(+视频演示+核心控制代码)——自动行驶小车

目录 一、题目要求 二、参考资源获取 三、TI板子可能用到的资源 1、环境搭建及工程移植 2、相关模块的移植 四、控制参考方案 1、整体控制方案视频演示 2、视频演示部分核心代码 五、总结 一、题目要求 小编自认为&#xff1a;此次控制类类型题目的H题&#xff0c;相较于往年较…

【机器学习基础】机器学习的数学基础

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈Python机器学习 ⌋ ⌋ ⌋ 机器学习是一门人工智能的分支学科&#xff0c;通过算法和模型让计算机从数据中学习&#xff0c;进行模型训练和优化&#xff0c;做出预测、分类和决策支持。Python成为机器学习的首选语言&#xff0c;…

源码编译安装,及nginx服务控制、监控块

1.源码编译安装&#xff1a; [root17dns ~]# wget https://nginx.org/download/nginx-1.27.0.tar.gz 2.解压&#xff1a; [root17dns ~]# tar -zxvf nginx-1.27.0.tar.gz 3.安装gcc等工具 [root17dns ~]# yum -y install gcc gcc-c [root17dns ~]# yum -y install make lrzsz …

Java的单元测试(@Test)的简单使用

只有Test注解的简单使用&#xff0c;没有其他注解 官网&#xff1a;JUnithttps://junit.org/Test是JUnit框架下的其中一个注解&#xff0c;框架下所有的注解如图所示&#xff0c;但我们现在只说Test的使用方法。 现在我们要在测试类中测试两个对象是否相等&#xff0c;如图所示…

高中数学,集合知识点及题型解答

高中数学&#xff0c;集合知识点及题型解答

《分析模式:可重用对象模型》学习笔记之四:企业财务分析中的观察和测量02

这个模型基本解决问题&#xff0c;可以方便定义层次&#xff0c;以及反映了三个不同的维数元素&#xff0c;也反映了企业部门单元和维数元素的关系&#xff0c;但是很快可以看到&#xff0c;在这里&#xff0c;维数被局限在三个&#xff1a;也就是说&#xff0c;如果维数需要改…

变量在内存中的表现形式

变量的存储在内存中&#xff0c;通常涉及以下几个部分&#xff1a; 栈区&#xff1a;变量名通常存储在栈区&#xff08;空间小&#xff0c;运行速度快&#xff09;&#xff0c;栈区用来存储变量名、函数名、常量名等。当你声明一个变量&#xff08;比如 $a&#xff09;&#x…