第11章 元数据管理
11.1简介
按照通常的说法,元数据的定义是“关于数据的数据”,但是其确切含义是什么?元数据与数据的关系就像数据与自然界的关系。数据反映了真实世界的交易、事件、对象和关系,而元数据则反映了数据的交易、事件、对象和关系等。
元数据管理是关于元数据的创建、存储、整合与控制等一整套流程的集合,从而支持基于元数据的相关应用。
在组织中应用元数据管理能带来以下收益:
(1)通过数据的上下文关联信息,提升战略信息(如数据仓库、CRM、SCM等)的价值,
从而帮助分析人员作出更有效的决策。
(2)通过对数据上下文背景、历史和起源进行完整的记录并文档化,减少培训成本,降
低员工流失的影响。
(3)帮助业务分析人员快速找到正确的信息,减少针对数据的研究时间。
(4)弥合业务用户和IT人员之间的分歧,方便团队间共享工作成果,提升用户对IT系
统数据的信心。
(5)减少系统开发的生命周期,提高系统开发与投入运行的速度。
(6)在变更管理过程中的不同层面上进行更好的影响分析,降低项目失败风险。
(7)识别并减少冗余数据和流程,减少重复工作和对冗余、过期、不正确数据的使用。
元数据管理关联图:
11.2概念和活动
11.2.1 元数据定义
元数据是有关一个企业所使用的物理数据、技术和业务流程、数据规则和约束以及数据的物理与逻辑结构的信息。元数据是描述性标签,描述了数据(如数据库、数据元素、数据模型)、概念(如业务流程、应用系统、软件代码、技术架构)以及它们之间的联系(关系)。
元数据是一个包含了许多潜在主题领域的广义术语,这些主题领域包括:
(1)业务分析:数据定义、报表、用户、使用方法和绩效。
(2)业务架构:角色和组织、目的和目标。
(3)业务定义:有关组织中的一个特定的概念、事实或其他事物的业务术语和解释。
(4)业务规则:标准计算公式和衍生方法。
(5)数据治理:政策、标准、程序、项目、角色、组织和管理职责安排。
(6)数据整合:数据源、数据目标、数据转换规则、数据血缘关系、ETL工作流、EAI、EII、迁移和变换。
(7)数据质量:缺陷、度量和评级。
(8)文档内容管理:非结构化数据、文档、术语分类、本体、命名集合、法律发现、搜索引
擎索引。
(9)信息技术架构:平台、网络、配置和许可证。
(10)逻辑数据模型:实体、属性、关系和规则、业务名称和定义。
(11)物理数据模型:文件、表、列、视图、业务定义、索引使用、性能、变更管理。
(12)流程模型:职能、活动、角色、输入/输出、工作流、业务规则、定时、存储。
(13)系统群和IT治理:数据库、应用程序、项目和计划、整合路线图、变更管理。
(14)面向服务架构(SOA)信息:组件、服务、消息、主数据。
(15)系统设计和开发:需求、设计、测试计划、影响。
(16)系统管理:数据安全、许可证、配置、可靠性、服务水平。
- 元数据的类型
业务元数据:包括了主题和概念领域、实体及属性的业务名称和业务定义,属性的数据类型和其他特性、范围描述、计算公式、算法和业务规则,以及有效值域及其定义;
技术和操作元数据:为开发人员和技术用户提供了系统信息。包括物理数据库表名和字段名、字段属性、其他数据库对象的属性和数据存储特性。操作元数据主要满足于IT运维用户的需求。比如数据迁移、数据源和目标系统信息、批处理程序、任务频率、调度异常处理、备份与恢复信息、归档规则和使用等信息。
流程元数据:定义和描述系统的其他元素,如流程、业务规则、程序、任务、工具等特性的数据;
数据管理制度元数据:关于数据管理专员,监督制度流程和责任分配的数据。数据管理专员确保数据和元数据在企业泛微内是正确的,且高质量的。建立数据共享方式,并对其进行监督。
- 非结构化数据的元数据
非结构化的元数据有多种格式。描述非结构化信息的元数据存储库包括内容管理应用、网站、数据档案、电子期刊和社区资源列表。对非结构化数据源的元数据进行分类的一种常见方法是将其描述为:描述性元数据、结构元数据或管理性元数据。P194页对这三个元数据通过示例进行了解释。
- 元数据来源
元数据有许多来源,比如通过用户交互、定义和数据分析定义业务元数据;通过维护支持活动可以将有关数据的质量描述和其他发现添加到元数据存储库中;从其他IT系统中获取;在汇总层面、细节层面识别元数据等。
元数据的标准不断完善,比如OMG发布了新的信息管理元数据IMM,即CWM2.0。
- 元数据战略
元数据战略是企业元数据管理目标的说明,也是开发团队的参照框架。遵循元数据需求开发流程可以清晰的理解用户对于元数据应用的预期及需求产生的原因,其关注点是理解企业的关键业务驱动力、问题和信息需求并达成共识。
元数据战略的目标定义了企业未来元数据架构,同时也提供了分阶段演进的实施步骤,帮助企业实现愿景。这个实施步骤是由业务驱动的并且对结果中的阶段排定了优先级。
元数据战略的实施阶段包括:
①元数据战略启动和规划
②对主要的利益相关方进行访谈
③评估现有元数据来源和信息架构
④开发未来的元数据架构
⑤开发分阶段的MME(受控的元数据环境)实施战略和计划
11.2.2 元数据战略
元数据战略是关于企业元数据管理目标的说明,同时也作为开发团队的参照框架。因每一类用户对于元数据应用都有一些特定的需求,所以遵循元数据需求开发流程可以清晰地理解用户对于元数据应用的预期及其需求产生的原因。
实施阶段:
(1)元数据战略启动和规划——确定元数据战略团队和相关参与人,从而为推动流程和提升效果做好准备工作,工作内容包括概述元数据战略的项目章程和元数据战略的工作组织,其中需要包括与数据治理工作如何协同,同时需要将工作目标与各相关方进行沟通。应该与来自业务和IT的相关者共同制定元数据战略,确定元数据战略的范围,沟通潜在的业务价值和目标。
(2)对主要的利益相关者进行访谈——访谈为元数据战略提供知识基础,通常对业务相关者和技术相关者都要进行访谈。
(3)评估现有元数据来源和信息架构——本阶段将对关键IT人员进行详细访谈,并评审系统架构、数据模型的相关文档。需要对访谈和评审结果中发现的元数据与系统的问题进行评估,确定解决这些问题的难度。
(4)开发未来的元数据架构——在此阶段会细化并最终确认未来愿景,为受控的元数据环境开发出长期的适用架构。本阶段将涉及元数据战略的全部组成部分,包括组织架构、有关如何与数据治理和监管制度保持协同的建议、受控的元数据架构、元数据交付架构、技术架构、安全架构等。
(5)开发分阶段的MME(受控的元数据环境)实施战略和计划——对访谈和数据分析的结果进行评审、验证、整合、排定优先级并最终达成一致意见。开发元数据战略,包括分阶段的实施方法,此方法帮助组织从当前环境逐步实现未来的受控的元数据环境。
11.2.3 元数据管理活动
- 理解元数据需求
元数据需求是通过与组织中的业务用户和技术用户进行沟通而获得的,并且对组织中特定人员的岗位角色、指责、挑战等进行分析可以提炼出需求,而不是简单的询问。元数据需求主要来源于业务用户需求和技术用户需求两方面。
- 定义元数据架构
从概念上说,元数据管理方案(环境)都包括:元数据创建/获取、元数据整合、一个或多个元数据存储库、元数据交付、元数据应用和元数据管理/控制。元数据管理系统必须具备从多种元数据来源抽取元数据的能力,并能够通过定义扫描各种元数据来源定期更新元数据存储库,支持多用户组进行元数据手工更新、请求、搜索和查询。
元数据架构为用户提供了统一的元数据存储访问入口,透明的向用户提供相关元数据资源,屏蔽元数据的位置、类型的差异。用户不必关注各种元数据来源所处的环境。
元数据存储通常有3种架构:
集中式元数据架构:集中管理来自各个元数据来源的最新元数据的副本。可以提供高度统一和一致的元数据信息。
分布式元数据架构:维护了所需元数据来源系统的目录和查询信息,不永久的保存元数据,而是从元数据来源系统实时获取。这种方式下元数据始终是最新且有效的,但缺乏元数据的标准化。
混合元数据架构:一种折中方案,元数据仍然在存储库中保存。但只存储用户增加的元数据、高度标准化的元数据以及手工获取的元数据。混合架构适用于有快速变更的元数据、需要元数据的统一和一致性,且元数据量和元数据来源数量都显著增长的组织。
还有一种架构是“双向元数据架构”,允许元数据在架构中的任何部分发生变化后,通过存储元数据的库反馈给元数据来源库。
- 开发和维护元数据标准
元数据标准有两个主要类型:行业或共识标准,以及国际标准。书中从P200~P203介绍了一系列的元数据标准,可以进行了解。
- 标准化元数据的评估指标
评估指标主要是为控制环境中所实施的元数据的有效性,应对量化评估用户的理解、组织的投入以及内容的覆盖度和质量。
元数据环境中的评估标准包括:
元数据存储库的完整性;
元数据文档的质量;
主数据服务数据合规性;
管理职责/范围;
元数据的使用/引用;
元数据管理成熟度;
元数据存储库的可用性;
- 实现受控的元数据环境
一般为降低风险、提高接受度,会通过分步推进的方式实现一个受控的元数据环境。
首先实施一个试验项目来理解受管理的元数据环境并进行概念验证。一个试验项目应具有一定的复杂度,包括需求评估、战略制定、技术评估选型和出不实施周期。
后续包括路线图规划、人员培训、组织变革和一个发布计划。
要将元数据项目与信息系统/信息技术开发方法论相整合。元数据的沟通和规划工作主要是对战略、规划、实施方案的讨论和决策。
- 创建和维护元数据
企业可以将元数据视为数据的索引,因此元数据的质量很重要。同时,可能根据企业的需求调整元数据的管理方案。元数据的创建可以通过手工或者工具定期执行,需要使用审计流程验证各项操作活动,确保元数据的质量。
- 整合元数据
在企业范围内(或企业外部)采集并存储元数据的过程,称之为整合元数据。这个过程有很多种方式,比如使用适配程序、扫描程序、桥接、直接访问等。这个过程会存在很多挑战,特别是内外部数据集,或非电子形式数据进行整合时,可能会出现大量质量和语义方面的问题。这需要数据治理流程协助解决。
- 管理元数据存储库
管理元数据环境需要采取一些控制措施,包括监视、响应报告、告警、任务日志和解决存储库环境的各类问题、数据操作、接口维护等控制措施。
(1)元数据存储库
是指存储元数据的物理数据库表,不仅仅是反映来源系统的数据库设计,也需要综合考虑企业主题域专家的意见,基于一个易于理解的元数据模型,尽量实现元数据的整合。存储库存放的是当前的、计划中的和历史版本的元数据。
(2)目录、术语表和其他元数据存储
目录是一类元数据存储,将元数据限定在特定的位置和数据来源。应在目录中指明是否有多个来源。
术语表通常提供术语使用的指引,同义词指导用户完成3类关系的结构化选择(相等、层级、关联)。可以为术语表内和术语表间的两个术语之间指定这些关系类型。
其他元数据存储包括专用列表,如来源列表、接口、代码集、专业词汇、空间和时间模式、空间参考、数字地理数据集、存储库、业务规则等。
- 分发和交付元数据
负责将元数据从存储库分发到最终用户和其他需要使用元数据的应用或工具。
元数据方案通常与商务智能方案相连接,可以将这个做为元数据整合到商务智能的交付方案,并提供给最终用户使用。
与外部组织进行交互时,常见的格式是XML做为传输格式。
- 查询、报告和分析元数据
元数据指导我们如何使用数据资产:在商务智能(报表和分析)、商务决策(操作型、运营型、战略型)以及业务语义方面使用元数据。
元数据指导我们如何管理数据资产:在数据治理流程中使用元数据进行控制和治理;信息系统实现和传送过程中使用元数据增加、变更、删除和访问数据;数据整合通过数据的标签或元数据实现整合,元数据控制并审计数据、流程和整合;在数据安全管理中,通过数据的标签或元数据进行数据控制和维护;数据质量提升通常也是从元数据及元数据与数据关系进行检查开始;
元数据存储库应具备前端应用程序,提供查询和获取功能,满足数据资产管理的需要。根据使用用户不同,可提供新功能开发变更影响分析、解决数据仓库和商务智能中数据定义问题的血缘关系分析报告。