元数据是描述数据的数据,它提供数据的来源、含义、位置、所有权和创建等信息,主要用于跟踪、分类和分析。
元数据管理则是对元数据的创建、存储、整合、控制的一整套流程,是数据治理过程的一部分,能够支持基于元数据的相关需求和应用,让开发和业务人员快速的了解数据的上下游关系及本身的含义,精准定位需要查找的数据,减少数据研究的时间成本,提高效率。
尽管企业越来越意识到元数据管理的重要性,但是在实际的数据治理中,元数据管理技术和方法仍面临着很多挑战:局部的元数据管理限制着企业数据资产的共享或重用;手动的元数据管理和维护烦琐且错误率高,使得项目的成本提高,交付的周期变长;数据环境日趋复杂,传统元数据管理方式难以胜任……
针对传统元数据管理的痛点问题,主动元数据管理方法应运而生。
— 01 —
什么是主动元数据管理?
主动元数据的概念是由Gartner提出。早在2006年,Gartner的一份关于数据服务的前瞻市场分析报告中就出现了主动元数据管理一词。2017年,Gartner在其《元数据管理解决方案魔力象限》中提出元数据市场”已出现二分为‘主动’与‘被动’两条技术路径的早期迹象“ 。2019年Gartner在《数据管理技术成熟度曲线报告》中将主动元数据管理与“数据编织”这一新引进的技术点紧密关联,并于2021年的成熟度曲线报告中正式引入了主动元数据技术点,主动元数据管理开始进入Gartner的“炒作序列”。
但无论在无论在《主动元数据管理市场指南》还是在《数据管理技术成熟度曲线报告》中,Gartner定义的都是”主动元数据管理“(Active Metadata Management)而非“主动元数据”。即元数据还是那个元数据,但针对元数据的管理方法和理念有了更新。
附Gartner定义:主动元数据管理是对用户、数据管理、系统、基础设施以及数据治理过程的持续分析,以确定数据在设计与实际运行之间的一致性和异常情况。 (the continuous analysis of user, data management, systems, infrastructure and data governance experience to determine the alignment and exceptions between data as designed versus operational experience)
— 02 —
主动元数据管理和传统元数据管理区别
主动元数据是相对过去的被动元数据而言,针对二者的区别,Atlan公司进行了区分,即:被动元数据是提供基本数据定义的技术元数据,例如模式、数据类型、模型、所有者名称等;而主动元数据是一种描述性元数据,通过提供数据发生的所有事情的详细信息来为数据添加上下文,除了技术元数据之外,它还包括运行、业务和社交元数据。
具体来看,主动元数据管理强调人工干预和有意识的信息添加,以促进数据的更好理解和管理。而被动元数据管理更依赖于自动化,通过系统和工具生成,提供有关数据处理历史和存储信息的洞察。主动元数据管理与被动元数据管理的区别主要体现在三个方面:
1、 被动元数据是在数据被处理、存储或传输时由系统或工具自动生成收集,而主动元数据管理强调对元数据做持续的分析和理解,不仅需要理解库表列schema等常规信息,更要理解这份数据背后的语义和它的加工口径、业务主体、汇总粒度以及如何正确使用等。
2、主动元数据能够更加面向行动、面向治理来解决实际的业务问题,主动元数据不再是等用户碰到数据使用问题时去到一个数据目录上去找它,而是给出一个设计建议或者一个可被系统执行的指令。
3、主动元数据管理更强调工具无缝集成,在数据生产、消费和协作的各个环节为用户提供完整的元数据上下文以及智能建议,以实施更主动的数据管理策略。
— 03 —
主动元数据管理的关键点
简而言之,我们可以将主动元数据管理理解为一种更动态、与业务更紧密相关、并能直接用于数据流转甚至数据架构的自动化调整等场景的元数据管理模式。主动元数据管理平台,应具备以下2个关键特征。
1.智能化与自动化
元数据的智能化即利用机器学习和知识图谱等底层人工智能技术,完成数据侧写、自动分类、自动口径提取、内容智能解析、使用状况分析,以及面向业务语义的智能发现和推荐、异常探测等功能,当然还包括利用脚本编写、组件嵌入实现的自动化和协同化功能,这些一起达成更“主动”的元数据管理,最终指向智能的数据的供需满足,以及系统、业务之间的互通。
智能化的元数据管理可以影响数据全生命周期的各个方面。比如可以通过解析SQL查询日志,自动创建列级别血缘;可以自动识别PII(个人识别信息)数据以保护个人信息,保障数据隐私与安全;可以通过自动检测数据异常值和异常,捕捉不良数据,提高数据质量。
目前较前沿的元数据管理工具已可基本实现智能化。例如亿信华辰的元数据管理平台EsPowerMeta支持全自动元数据采集和关联,实现元模型智能化应用,提供图形化元数据分析视图。此外,平台还支持连接各种数据库自动化采集元数据,支持元数据依赖关系的自动分析和建立关联,支持从SQL中自动解析元数据和依赖关系。
2.高度可扩展性
主动元数据管理建立在主动查找、丰富、清点和使用所有元数据的前提下,需打通元数据与旧数据、元数据与外部数据的各个通道,在实时数据系统中提出建议、生成警报和智能操作。
例如亿信华辰的元数据管理平台EsPowerMeta具备高度灵活可扩展的架构,平台支持CWM(公共仓库元模型)规范的同时,提供了一套便捷的的自定义管理接口功能,支持根据用户管理需要,进行自定义元模型以及元模型之间关系的扩展,满足元数据管理快速实施的需要。
该平台的元数据接口开放,易与其他系统集成,便于为其他系统提供元数据服务。不仅可以向企业中的不同角色、不同用户、不同系统提供可以灵活配置的接口,实现全企业的而高效协作;还可以将元数据管理工具直接集成到企业的portal中,在企业其他信息系统中保留元数据存储库的入口。
△亿信华辰元数据管理平台架构图
— 04 —
小结
主动元数据还在技术概念炒作的早期阶段,对此的定义大家也有不同”程度“的理解:有人认为主动就是相对于”被动“搜集的主动探查,有人认为主动的含义是”被使用状态的“元数据,更有人认为是对传统元数据进行二次分析的才是主动元数据。目前各大元数据平台供应商也还在探索阶段。但总体来看,随着数据环境的不断变化,用户面对多源异构和分布式的数据架构,希望有某种统一的顶层定义实现数据在架构、应用等各层面的互通,对元数据管理的需求也因此由“被动”转为“主动”。