什么是主动元数据管理?有何优势?

news2024/12/31 7:19:26

元数据是描述数据的数据,它提供数据的来源、含义、位置、所有权和创建等信息,主要用于跟踪、分类和分析。

元数据管理则是对元数据的创建、存储、整合、控制的一整套流程,是数据治理过程的一部分,能够支持基于元数据的相关需求和应用,让开发和业务人员快速的了解数据的上下游关系及本身的含义,精准定位需要查找的数据,减少数据研究的时间成本,提高效率。

尽管企业越来越意识到元数据管理的重要性,但是在实际的数据治理中,元数据管理技术和方法仍面临着很多挑战:局部的元数据管理限制着企业数据资产的共享或重用;手动的元数据管理和维护烦琐且错误率高,使得项目的成本提高,交付的周期变长;数据环境日趋复杂,传统元数据管理方式难以胜任……

针对传统元数据管理的痛点问题,主动元数据管理方法应运而生。

  01  

什么是主动元数据管理?

主动元数据的概念是由Gartner提出。早在2006年,Gartner的一份关于数据服务的前瞻市场分析报告中就出现了主动元数据管理一词。2017年,Gartner在其《元数据管理解决方案魔力象限》中提出元数据市场”已出现二分为‘主动’与‘被动’两条技术路径的早期迹象“ 。2019年Gartner在《数据管理技术成熟度曲线报告》中将主动元数据管理与“数据编织”这一新引进的技术点紧密关联,并于2021年的成熟度曲线报告中正式引入了主动元数据技术点,主动元数据管理开始进入Gartner的“炒作序列”。

但无论在无论在《主动元数据管理市场指南》还是在《数据管理技术成熟度曲线报告》中,Gartner定义的都是”主动元数据管理“(Active Metadata Management)而非“主动元数据”。即元数据还是那个元数据,但针对元数据的管理方法和理念有了更新。

附Gartner定义:主动元数据管理是对用户、数据管理、系统、基础设施以及数据治理过程的持续分析,以确定数据在设计与实际运行之间的一致性和异常情况。  (the continuous analysis of user, data management, systems, infrastructure and data governance experience to determine the alignment and exceptions between data as designed versus operational experience)

  02  

主动元数据管理和传统元数据管理区别

主动元数据是相对过去的被动元数据而言,针对二者的区别,Atlan公司进行了区分,即:被动元数据是提供基本数据定义的技术元数据,例如模式、数据类型、模型、所有者名称等;而主动元数据是一种描述性元数据,通过提供数据发生的所有事情的详细信息来为数据添加上下文,除了技术元数据之外,它还包括运行、业务和社交元数据。

具体来看,主动元数据管理强调人工干预和有意识的信息添加,以促进数据的更好理解和管理。而被动元数据管理更依赖于自动化,通过系统和工具生成,提供有关数据处理历史和存储信息的洞察。主动元数据管理与被动元数据管理的区别主要体现在三个方面:

1、 被动元数据是在数据被处理、存储或传输时由系统或工具自动生成收集,而主动元数据管理强调对元数据做持续的分析和理解,不仅需要理解库表列schema等常规信息,更要理解这份数据背后的语义和它的加工口径、业务主体、汇总粒度以及如何正确使用等。

2、主动元数据能够更加面向行动、面向治理来解决实际的业务问题,主动元数据不再是等用户碰到数据使用问题时去到一个数据目录上去找它,而是给出一个设计建议或者一个可被系统执行的指令。

3、主动元数据管理更强调工具无缝集成,在数据生产、消费和协作的各个环节为用户提供完整的元数据上下文以及智能建议,以实施更主动的数据管理策略。

  03  

主动元数据管理的关键点

简而言之,我们可以将主动元数据管理理解为一种更动态、与业务更紧密相关、并能直接用于数据流转甚至数据架构的自动化调整等场景的元数据管理模式。主动元数据管理平台,应具备以下2个关键特征。

1.智能化与自动化

元数据的智能化即利用机器学习和知识图谱等底层人工智能技术,完成数据侧写、自动分类、自动口径提取、内容智能解析、使用状况分析,以及面向业务语义的智能发现和推荐、异常探测等功能,当然还包括利用脚本编写、组件嵌入实现的自动化和协同化功能,这些一起达成更“主动”的元数据管理,最终指向智能的数据的供需满足,以及系统、业务之间的互通。

智能化的元数据管理可以影响数据全生命周期的各个方面。比如可以通过解析SQL查询日志,自动创建列级别血缘;可以自动识别PII(个人识别信息)数据以保护个人信息,保障数据隐私与安全;可以通过自动检测数据异常值和异常,捕捉不良数据,提高数据质量。

目前较前沿的元数据管理工具已可基本实现智能化。例如亿信华辰的元数据管理平台EsPowerMeta支持全自动元数据采集和关联,实现元模型智能化应用,提供图形化元数据分析视图。此外,平台还支持连接各种数据库自动化采集元数据,支持元数据依赖关系的自动分析和建立关联,支持从SQL中自动解析元数据和依赖关系。

图片

2.高度可扩展性

主动元数据管理建立在主动查找、丰富、清点和使用所有元数据的前提下,需打通元数据与旧数据、元数据与外部数据的各个通道,在实时数据系统中提出建议、生成警报和智能操作。

例如亿信华辰的元数据管理平台EsPowerMeta具备高度灵活可扩展的架构,平台支持CWM(公共仓库元模型)规范的同时,提供了一套便捷的的自定义管理接口功能,支持根据用户管理需要,进行自定义元模型以及元模型之间关系的扩展,满足元数据管理快速实施的需要。

该平台的元数据接口开放,易与其他系统集成,便于为其他系统提供元数据服务。不仅可以向企业中的不同角色、不同用户、不同系统提供可以灵活配置的接口,实现全企业的而高效协作;还可以将元数据管理工具直接集成到企业的portal中,在企业其他信息系统中保留元数据存储库的入口。

图片

△亿信华辰元数据管理平台架构图

  04  

小结

主动元数据还在技术概念炒作的早期阶段,对此的定义大家也有不同”程度“的理解:有人认为主动就是相对于”被动“搜集的主动探查,有人认为主动的含义是”被使用状态的“元数据,更有人认为是对传统元数据进行二次分析的才是主动元数据。目前各大元数据平台供应商也还在探索阶段。但总体来看,随着数据环境的不断变化,用户面对多源异构和分布式的数据架构,希望有某种统一的顶层定义实现数据在架构、应用等各层面的互通,对元数据管理的需求也因此由“被动”转为“主动”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/988642.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

NFT Insider#106:The Sandbox 与 Light Matrix 以及鲁比尼拳击场达成战略合作

引言:NFT Insider由NFT收藏组织WHALE Members、BeepCrypto联合出品,浓缩每周NFT新闻,为大家带来关于NFT最全面、最新鲜、最有价值的讯息。每期周报将从NFT市场数据,艺术新闻类,游戏新闻类,虚拟世界类&#…

Android12之解析/proc/pid进程参数(一百六十四)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言: 人生…

python通过tkinter制作词云图工具

一、基本功能 1.采取上传文本文档(仅支持.txt格式)的方式统计词频 2.背景图形样式可选择已经设定好的,也可选择本地上传的(支持.png .jpg .jpeg格式) 3.本地上传的图片需要进行抠图处理,并将抠图结果保存…

大乘数法 -Java

题目链接:https://www.nowcoder.com/practice/c4c488d4d40d4c4e9824c3650f7d5571?tpId196&tqId37177&rp1&ru/exam/company&qru/exam/company&sourceUrl%2Fexam%2Fcompany&difficultyundefined&judgeStatusundefined&tags&titl…

SAP 批量删除变式

使用事务码se38进入变式,通过搜索帮助选中一个变式,点击显示。 点击目录,会显示所有的变式名称。 会显示当前程序的所有变式,然后点击删除按钮,选择需要删除的变式。

CVPR2023 RIFormer, 无需TokenMixer也能达成SOTA性能的极简ViT架构

编辑 | Happy 首发 | AIWalker 链接 | https://mp.weixin.qq.com/s/l3US8Dsd0yNC19o7B1ZBgw project, paper, code Token Mixer是ViT骨干非常重要的组成成分,它用于对不同空域位置信息进行自适应聚合,但常规的自注意力往往存在高计算复杂度与高延迟问题。…

FP130A 封装SOT23-5L 轨道电流测量IC

FP130A 封装SOT23-5L 轨道电流测量IC 一般说明 FP130A是一种宽共模范围高侧轨电流测量IC。它适用于电源系统,如电池充电器或开关电源的应用。它包括一个差分输入放大器和一个具有发射极输出的NPN晶体管。有三个外部电阻,轨道电流信号可以很容易地转换为I…

VR软件与管理后台的协议(微信扫码)

一、微信扫码登录 1、设计流程: ①、VR软件界面生成二维码,二维码中携带跳转小程序的链接及设备号、公司ID;用户通过扫码进入微信小程序点击界面一键启动,开始完善个人信息。 ②、用户点击一键启动,用户信息的授权状态…

入门人工智能 —— 学习 python 使用 IDE :vscode 完成编程 (2)

入门人工智能 —— 学习 python 使用 IDE :vscode 完成编程 (2) 安装和配置 VSCode创建和运行 Python 代码使用 VSCode 的调试功能 在上一篇文章中,介绍了如何入门人工智能编程,并开始了学习 Python 编程语言的基础知识…

润和软件HopeStage与上海瑞美云LIS系统管理软件完成产品兼容性互认证

近日,江苏润和软件股份有限公司(以下简称“润和软件”)HopeStage 操作系统与上海瑞美电脑科技有限公司(以下简称“上海瑞美”)瑞美云LIS系统管理软件完成产品兼容性测试。 测试结果表明,企业级通用操作系统…

NFTScan NFT API 在 NFTFi 开发中的应用

NFTFi 是“NFT”和“Finance”的缩写,旨在“增加 NFT 流动性,提供现金流”,NFTFi 是为 NFT 提供金融实用性的去中心化协议和应用程序的新兴生态系统,及使用 NFT 作为基础层在其上建设经济基础设施。 在实践中,NFTFi 协…

yolov7中Concat之后加注意力模块(最复杂的情况)

1、common.py中找到Concat模块,复制一份 2、要传参进来,dim通道数 3、然后找yolo.py模块,添加 4、yaml里替换 5、和加的位置也有关系

20 Spring Boot整合Redis

一、Redis简介 简单来说 Redis 就是一个使用 C 语言开发的数据库,不过与传统数据库不同的是 Redis 的数据是存在内存中的 ,也就是它是内存数据库,所以读写速度非常快,因此 Redis 被广泛应用于缓存方向。 另外,Redis 除…

c++ vs2019 cpp20 规范,set源码分析

(1)set模板和map模板都是继承于一个父类 所以没有再详细注释。维持红黑树主要的功能都在父类_Tree里了,比如节点的添加,删除,查找。父类红黑树的操作,并不依赖于特定的数据类型。做到了父类模板的通用性。…

Linux学习之MySQL连接查询

接上一篇 连接查询 连接查询也中多表查询,常用于查询来自于多张表的数据,通过不同的连接方式把多张表组成一张新的临时表,再对临时表做数据处理。 #表基础信息,内容可从上一篇博客中查看 mysql> desc departments; ---------…

第15章_锁: (表级锁、页级锁、行锁、悲观锁、乐观锁、全局锁、死锁)

3.2 从数据操作的粒度划分:表级锁、页级锁、行锁 为了提高数据库并发度,每次锁定的数据范围越小越好,理论上每次只锁定当前操作的数据的方案会得到最大的并发度,但管理锁是很耗资源(涉及获取、检查、释放锁等动作)。因…

我总结的《149个Python面试题.pdf》,都是干货!

大家好,我是涛哥。 很多小伙伴找Python面试资料,所以为了方便大家,涛哥我整理了《149个Python面试干货》,方便大家进行学习,尤其是要面试学习的同学可以重点学起来。 第一个部分就是讲Python基础相关内容 第二个部分…

JAVA毕业设计097—基于Java+Springboot+Vue+uniapp的医院挂号小程序系统(源码+数据库)

基于JavaSpringbootVueuniapp的医院挂号小程序系统(源码数据库)097 一、系统介绍 本系统前后端分离(网页端和小程序端都有) 本系统分为管理员、医院、用户三种角色(角色菜单可自行分配) 用户功能: 注册、登录、医院搜索、最新资讯、医生搜索、挂号预约、挂号记…

由于找不到msvcp120.dll无法继续执行代码,重新安装相关软件

在我们的生活中,计算机已经成为不可或缺的工具,我们依赖它来进行工作、学习和娱乐。然而,当我们在使用计算机时,有时会遭遇一些令人烦恼的问题,例如“找不到 msvcp120.dll 无法继续执行代码”的错误提示。这究竟是什么…

TGA格式文件转材质

今天淘宝上买了一个美女的模型,是blender的源文件,上面说有fbx格式的。我用unity,所以觉得应该可以用。文件内容如下图: FBX文件夹打开后,内容如下图所示,当时就预感到可能没有色彩。 unity打开后果然发现只…