要实现主动元数据,关键技术在算子级血缘解析

news2024/9/28 3:20:20

主动元数据管理最早被 Gartner 在 2016 年提出,在 2022 年 Gartner 公布的顶级战略技术趋势中,主动元数据被认为是实现 Data Fabric(数据编织)和主动数据治理的基石,也是实现 Data Fabric 的关键能力 。在这份技术趋势研究报告中,Data Fabric 作为一种面向未来的数据管理架构思想,入选为工程信任主题的关键技术趋势。

Gartner 认为,主动元数据是对所有可用的用户、数据管理、系统/基础设施和数据治理实践报告的持续分析,以确定数据设计与实际情况是否对齐或出现异常情况。

在 Aloudata 看来,主动元数据强调更深度更持续的数据理解,不只理解数据的 Schema、产出时间等基础信息,更多是要理解数据的加工口径、业务主体、汇总粒度及如何正确使用等;强调更主动的元数据服务,不再被动等待用户去数据目录检索信息,而是主动提供设计建议,抑或是可被系统执行的指令;强调与数据工具的主动集成,能够贯穿数据生产、消费、协同等环节,提供智能化建议,实施更主动的数据治理策略。

要实现主动元数据,关键技术在于算子级血缘解析。

数据血缘我们都不陌生,它描绘了数据的起源、流经路径及其转换过程的详尽记录,可以精确追溯数据的初始来源,明晰其历经的各类处理流程,以及最终的应用方式,从而帮助企业分析并监控数据在业务链条中的上下游依赖关系,为企业提升数据管理效率和质量提供“洞察能力”。

而数据血缘解析已经历了两代的发展变革。第一代是表级血缘,即关注表与表之间的依赖关系。然而,即便实现了 100% 准确的“表级血缘”追踪,但在实际业务场景中的应用受限。因为表与表之间的关系具有高度泛化性,在下探或上溯多层后扩散出百倍、千倍的上下游,使用难度大。

第二代是列级血缘。诸多厂商,包括开源界的 Atlas 项目等,都尝试通过关系推断和正则匹配方式构建上下游字段之间的依赖关系。但由于技术解析的复杂性和局限性,绝大多数厂商对列级血缘的解析准确率持谨慎态度。根据人工抽检统计,多数厂商的列级血缘准确率普遍低于 80%,这一使得众多企业在实际应用中对此技术持保留态度,担忧其稳定性和可靠性。

在此背景下,由 Aloudata 全球首创的第三代血缘解析技术——算子级血缘解析就登场了。

具体来说,算子级血缘解析技术能够深入作业脚本核心,实现白盒化解析,精确捕捉如 A 字段和 B 字段之间的复杂运算逻辑,包括是否经过临时表加工处理、是否存在 Join 操作以及具体的过滤条件等细节。通过算子级血缘解析,结合对脚本内部代码的抽取、改写、合并,能够帮助企业清晰勾勒出当前任务输出表中字段与输入表字段之间的完整加工关系,确保数据流转的透明化和可追溯性,洞悉作业脚本的每一个细微环节。

而实现算子级血缘解析,是基于 Aloudata 自主研发的多平台 SQL 语言解析器。它具备强大的语言兼容能力,能够精准解析各类 SQL 语言,深入剖析复杂的计算逻辑,还可以准确、精细刻画出字段之间错综复杂的加工关系,并提供代码改写能力,实现字段加工口径的提取和转换,最终构建出一张完整的血缘图谱,清晰地展示出数据上下游的列级交互关系,以及行级的影响关系。

总的来说,算子级血缘解析技术主要有“三大突破”。

1. 具备对整个数据链路中的各类 SQL 语言的全面理解和分析能力,能够深入解析 SQL 操作语句中的核心组件,包括 Select、Where、Having、Order by、Group by 等各类操作符,能够进行抽取、合并,详细追踪并可视化数据的流转和转换路径,提供更加精确和深入的数据血缘信息。

2. 在时效性上,能够做到在数小时内高效完成数十万张表及 DML 代码任务的深度解析和构建,快速生成全局数据血缘图谱。这张图谱不仅是数据关系的视觉化映射,更能够支持企业进行影响面分析、溯源追踪、口径盘点等工作。

3. 支持不同场景的元数据查询方案,支持超 10 亿以上的点边关系的元数据图谱实时查询,并提供自定义行级裁剪功能,确保根据业务需求精准过滤数据,秒级返回经过精细剪裁、高度相关的查询结果,提升数据查询效率和准确性。

有了算子级血缘解析技术,就能够帮助企业做到数据治理“看得清、管得住、治得动”,将传统元数据的被动等待变为实时在线、主动触发,推动数据探查、开发、测试、部署、运维和监控等数据治理工作高效运转,最终实现真正的主动元数据。

 

基于算子级血缘解析技术,Aloudata 自主研发推出了全球首个算子级血缘主动元数据平台——Aloudata BIG,能够帮助企业构建元数据知识图谱,通过这个图谱进行打标扩散、基线定义等。同时,Aloudata BIG 作为企业数据治理运营助手,支持反向元数据输出,比如进行血缘页面集成,或者服务 API 调用,通过 Kafka 的方式进行消息实时推送等。

Aloudata BIG 还提供增强元数据智能服务,为企业 DataOps 数据研发平台、数据资产平台、数据质量管控平台建设提供支持,助力实现“敏捷数据协同”和“主动智能的数据治理”。欢迎访问 Aloudata 官网,点击了解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2089160.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

全面解析:动态住宅代理的关键优势

在大数据时代的背景下,代理IP成为了很多企业顺利开展的重要工具。代理IP地址可以分为住宅代理IP地址和数据中心代理IP地址。选择住宅代理IP的好处是可以实现真正的高匿名性,而使用数据中心代理IP可能会暴露自己使用代理的情况。 住宅代理IP是指互联网服务…

关于springboot的Rest请求映射处理的源码分析(二)

前面我们知道了他怎么处理表单映射,这里我们来研究一下,他是如何处理具体请求的。也就是说我有那么多/user你是怎么定位到我在哪个cotroller,并且你是怎么定位到我具体是哪个接口。 这里我们就来逐步定位一下这个问题。 一、组件分析 老路子…

Nacos 部分漏洞整理

免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该文章仅供学习用途使用。 1. Naco简介 微信公众号搜索:南风漏洞复现文库 该文…

element中 el-input 不更新的问题

需要在上面输入数字,下面一列都更改成一样的数字 batchChange(list,field,value){console.log(list,field,value);list.forEach((i,index) > {i[field]value;this.$set(list,index, JSON.parse(JSON.stringify(i)));});} 用 JSON.parse(JSON.stringify(i)) 转一下后,就可以…

langchain入门系列之八 langgraph多agent示例

在之前的文章中我们介绍了langgraph,并且用它做了一个小小的示例,在本文中,我们将使用智普清言来构建多agent 系统。百度千帆对langgraph支持较差(尤其是强制要求奇数偶数的role设置,传入messages的奇数偶数要求,让人有…

用好外呼机器人,帮助企业提升客户管理效率

外呼机器人,作为现代科技与企业管理的结合体,正在企业客户管理领域掀起革命性的变化。随着人工智能技术的不断进步,外呼机器人不仅实现了自动化呼叫,还能根据客户的语音情感进行相应的反馈和操作,极大地提高了客户满意…

AI大模型编写多线程并发框架(六十三):监听器优化·上

系列文章目录 文章目录 系列文章目录前言一、项目背景二、第七轮对话-补充异步执行代码三、第八轮对话-增加累计完成等字眼四、第九轮对话-线程安全优化五、第十轮对话-增加运行时数据七、参考文章 前言 在这个充满技术创新的时代,AI大模型正成为开发者们的新宠。它…

SpringBoot+Vue的图书管理系统【包含运行步骤】

SpringBootVue图书管理系统 一、项目介绍1. 图书信息管理2. 图书类型管理3. 图书借阅管理4. 用户管理 二、技术选型后端技术选型前端技术选型 三、运行步骤后端启动前端启动 四、项目演示源码获取方式 五、总结与展望 大家好,这里是程序猿代码之路!随着信…

Linux基础1-基本指令7(其他常用指令,shell简介)

目录 1.uname 2.常用小指令 3.查看系统信息的其他指令 4.shell命令及其原理 4.1这里我们简单了解一下shell 4.2 shell存在的意义? 1.uname 如何查看计算机体系架构? uname -a,查看详细信息 uname -r 查看简要信息 2.常用小指令 TAB&#x…

Socket编程---UDP篇

目录 一. UDP协议 二. Socket编程 2.1 sockaddr家族 2.2 接口介绍 三. 服务端实现 四. 服务端调用实现 五. 客户端实现 六. 效果展示 一. UDP协议 何为UDP协议的含义,上篇粗略提及了一下TCP与UDP的区别: TCP: •…

将军百战死,程序十年成

将军百战死,程序十年成 十年前的 2014.8.3 我释出了动词算子式通用代码生成器的第一个完整版本 InfinityGPGenerator 0.6.5,即无垠式通用代码生成器 0.6.5。这是一个重大的里程碑。十年后,通用代码生成器已经是一个大家族。昨天,…

插入排序的动画展示与实现

排序学习思路:先实现单趟逻辑,在实现整体逻辑;先解决普遍情况,再解决特殊情况。 什么是插入排序 回忆下自己玩扑克牌的时候是怎么把手上的牌理顺的吧!其实那就是插入排序,从左边往右边,把一张张…

强烈推荐!大模型辅助软件开发

图书推荐 作者介绍 很喜欢作者在书上的这句话了:是人类工程师的能力,而不是大模型的能力,决定了大模型协作式开发的上限。 本书内容 软件开发正在经历一场前所未有的范式变革。人工智能的飞速发展,特别是大型语言模型所取得的成…

【Python篇】Python 类和对象:详细讲解(上篇)

文章目录 Python 类和对象:详细讲解1. 什么是类(Class)类的定义 2. 什么是对象(Object)创建对象 3. 属性和方法属性(Attributes)方法(Methods)在类中定义属性和方法使用对…

使用facebook开源prophet模型预测上证指数etf股价

可以图个乐,没有那么准确,可能还需要更深入的研究分析 蓝线是预测的2024年的走势,绿线是实际走势,红线是历史和未来的分界线。结果上有蛮多差异的。 # 测试预测2024年 coded by luke 伊玛目的门徒 import akshare as ak impor…

基于Java的心灵治愈交流平台

你好呀,我是计算机学姐码农小野!如果有相关需求,可以私信联系我。 开发语言:Java 数据库:MySQL 技术:Java语言;Spring Boot框架 工具:IDEA/Eclipse、Navicat 系统展示 首页 心…

美畅物联丨实时通信新篇章:Spring Boot与WebSocket的深度融合实践

在当今 Web 应用开发领域,实时通信功能已跃升为不可或缺的基石,特别是在即时消息传递、沉浸式在线游戏体验以及精准实时数据监控等关键领域。WebSocket协议,凭借其独特的全双工通讯机制,在单个持久连接上实现了服务器与客户端之间…

软件测试面试题「值得收藏」

1、B/S架构和C/S架构区别? 1、架构不同:B/S架构是浏览器/服务器架构,C/S架构是客户端/服务器架构。 2、客户端不同:B/S架构的客户端是浏览器,C/S架构的客户端是客户端程序。 3、功能不同:B/S架构主要用于…

PhpStorm2024版设置自动换行(软换行)

Settings > Editor > General > Soft Wraps 选中并加上对应的文件

链动2+1小程序定制开发在餐饮品牌重塑中的应用探索——以“妈妈饺子馆”为例

摘要:随着互联网技术的飞速发展,餐饮业正经历着前所未有的变革。传统餐饮企业如何在激烈的市场竞争中脱颖而出,成为行业关注的焦点。本文以“妈妈饺子馆”为例,探讨链动21小程序定制开发在餐饮品牌重塑中的应用,特别是…