DAMA数据管理知识体系指南之元数据管理

news2024/12/25 9:00:01

第11章 元数据管理

11.1简介

按照通常的说法,元数据的定义是“关于数据的数据”,但是其确切含义是什么?元数据与数据的关系就像数据与自然界的关系。数据反映了真实世界的交易、事件、对象和关系,而元数据则反映了数据的交易、事件、对象和关系等。

元数据管理是关于元数据的创建、存储、整合与控制等一整套流程的集合,从而支持基于元数据的相关应用。

在组织中应用元数据管理能带来以下收益:

(1)通过数据的上下文关联信息,提升战略信息(如数据仓库、CRM、SCM等)的价值,
从而帮助分析人员作出更有效的决策。
(2)通过对数据上下文背景、历史和起源进行完整的记录并文档化,减少培训成本,降
低员工流失的影响。
(3)帮助业务分析人员快速找到正确的信息,减少针对数据的研究时间。
(4)弥合业务用户和IT人员之间的分歧,方便团队间共享工作成果,提升用户对IT系
统数据的信心。
(5)减少系统开发的生命周期,提高系统开发与投入运行的速度。
(6)在变更管理过程中的不同层面上进行更好的影响分析,降低项目失败风险。
(7)识别并减少冗余数据和流程,减少重复工作和对冗余、过期、不正确数据的使用。

元数据管理关联图:
在这里插入图片描述

11.2概念和活动

11.2.1 元数据定义

元数据是有关一个企业所使用的物理数据、技术和业务流程、数据规则和约束以及数据的物理与逻辑结构的信息。元数据是描述性标签,描述了数据(如数据库、数据元素、数据模型)、概念(如业务流程、应用系统、软件代码、技术架构)以及它们之间的联系(关系)。

元数据是一个包含了许多潜在主题领域的广义术语,这些主题领域包括:

(1)业务分析:数据定义、报表、用户、使用方法和绩效。
(2)业务架构:角色和组织、目的和目标。
(3)业务定义:有关组织中的一个特定的概念、事实或其他事物的业务术语和解释。
(4)业务规则:标准计算公式和衍生方法。
(5)数据治理:政策、标准、程序、项目、角色、组织和管理职责安排。
(6)数据整合:数据源、数据目标、数据转换规则、数据血缘关系、ETL工作流、EAI、EII、迁移和变换。
(7)数据质量:缺陷、度量和评级。
(8)文档内容管理:非结构化数据、文档、术语分类、本体、命名集合、法律发现、搜索引
擎索引。
(9)信息技术架构:平台、网络、配置和许可证。
(10)逻辑数据模型:实体、属性、关系和规则、业务名称和定义。
(11)物理数据模型:文件、表、列、视图、业务定义、索引使用、性能、变更管理。
(12)流程模型:职能、活动、角色、输入/输出、工作流、业务规则、定时、存储。
(13)系统群和IT治理:数据库、应用程序、项目和计划、整合路线图、变更管理。
(14)面向服务架构(SOA)信息:组件、服务、消息、主数据。
(15)系统设计和开发:需求、设计、测试计划、影响。
(16)系统管理:数据安全、许可证、配置、可靠性、服务水平。

  • 元数据的类型

业务元数据:包括了主题和概念领域、实体及属性的业务名称和业务定义,属性的数据类型和其他特性、范围描述、计算公式、算法和业务规则,以及有效值域及其定义;
技术和操作元数据:为开发人员和技术用户提供了系统信息。包括物理数据库表名和字段名、字段属性、其他数据库对象的属性和数据存储特性。操作元数据主要满足于IT运维用户的需求。比如数据迁移、数据源和目标系统信息、批处理程序、任务频率、调度异常处理、备份与恢复信息、归档规则和使用等信息。
流程元数据:定义和描述系统的其他元素,如流程、业务规则、程序、任务、工具等特性的数据;
数据管理制度元数据:关于数据管理专员,监督制度流程和责任分配的数据。数据管理专员确保数据和元数据在企业泛微内是正确的,且高质量的。建立数据共享方式,并对其进行监督。

  • 非结构化数据的元数据

非结构化的元数据有多种格式。描述非结构化信息的元数据存储库包括内容管理应用、网站、数据档案、电子期刊和社区资源列表。对非结构化数据源的元数据进行分类的一种常见方法是将其描述为:描述性元数据、结构元数据或管理性元数据。P194页对这三个元数据通过示例进行了解释。

  • 元数据来源

元数据有许多来源,比如通过用户交互、定义和数据分析定义业务元数据;通过维护支持活动可以将有关数据的质量描述和其他发现添加到元数据存储库中;从其他IT系统中获取;在汇总层面、细节层面识别元数据等。

元数据的标准不断完善,比如OMG发布了新的信息管理元数据IMM,即CWM2.0。

  • 元数据战略

元数据战略是企业元数据管理目标的说明,也是开发团队的参照框架。遵循元数据需求开发流程可以清晰的理解用户对于元数据应用的预期及需求产生的原因,其关注点是理解企业的关键业务驱动力、问题和信息需求并达成共识。

元数据战略的目标定义了企业未来元数据架构,同时也提供了分阶段演进的实施步骤,帮助企业实现愿景。这个实施步骤是由业务驱动的并且对结果中的阶段排定了优先级。

元数据战略的实施阶段包括:

①元数据战略启动和规划
②对主要的利益相关方进行访谈
③评估现有元数据来源和信息架构
④开发未来的元数据架构
⑤开发分阶段的MME(受控的元数据环境)实施战略和计划

11.2.2 元数据战略

元数据战略是关于企业元数据管理目标的说明,同时也作为开发团队的参照框架。因每一类用户对于元数据应用都有一些特定的需求,所以遵循元数据需求开发流程可以清晰地理解用户对于元数据应用的预期及其需求产生的原因。

实施阶段:

(1)元数据战略启动和规划——确定元数据战略团队和相关参与人,从而为推动流程和提升效果做好准备工作,工作内容包括概述元数据战略的项目章程和元数据战略的工作组织,其中需要包括与数据治理工作如何协同,同时需要将工作目标与各相关方进行沟通。应该与来自业务和IT的相关者共同制定元数据战略,确定元数据战略的范围,沟通潜在的业务价值和目标。
(2)对主要的利益相关者进行访谈——访谈为元数据战略提供知识基础,通常对业务相关者和技术相关者都要进行访谈。
(3)评估现有元数据来源和信息架构——本阶段将对关键IT人员进行详细访谈,并评审系统架构、数据模型的相关文档。需要对访谈和评审结果中发现的元数据与系统的问题进行评估,确定解决这些问题的难度。
(4)开发未来的元数据架构——在此阶段会细化并最终确认未来愿景,为受控的元数据环境开发出长期的适用架构。本阶段将涉及元数据战略的全部组成部分,包括组织架构、有关如何与数据治理和监管制度保持协同的建议、受控的元数据架构、元数据交付架构、技术架构、安全架构等。
(5)开发分阶段的MME(受控的元数据环境)实施战略和计划——对访谈和数据分析的结果进行评审、验证、整合、排定优先级并最终达成一致意见。开发元数据战略,包括分阶段的实施方法,此方法帮助组织从当前环境逐步实现未来的受控的元数据环境。

11.2.3 元数据管理活动

  • 理解元数据需求

元数据需求是通过与组织中的业务用户和技术用户进行沟通而获得的,并且对组织中特定人员的岗位角色、指责、挑战等进行分析可以提炼出需求,而不是简单的询问。元数据需求主要来源于业务用户需求和技术用户需求两方面。

  • 定义元数据架构

从概念上说,元数据管理方案(环境)都包括:元数据创建/获取、元数据整合、一个或多个元数据存储库、元数据交付、元数据应用和元数据管理/控制。元数据管理系统必须具备从多种元数据来源抽取元数据的能力,并能够通过定义扫描各种元数据来源定期更新元数据存储库,支持多用户组进行元数据手工更新、请求、搜索和查询。

元数据架构为用户提供了统一的元数据存储访问入口,透明的向用户提供相关元数据资源,屏蔽元数据的位置、类型的差异。用户不必关注各种元数据来源所处的环境。

元数据存储通常有3种架构:

集中式元数据架构:集中管理来自各个元数据来源的最新元数据的副本。可以提供高度统一和一致的元数据信息。
分布式元数据架构:维护了所需元数据来源系统的目录和查询信息,不永久的保存元数据,而是从元数据来源系统实时获取。这种方式下元数据始终是最新且有效的,但缺乏元数据的标准化。
混合元数据架构:一种折中方案,元数据仍然在存储库中保存。但只存储用户增加的元数据、高度标准化的元数据以及手工获取的元数据。混合架构适用于有快速变更的元数据、需要元数据的统一和一致性,且元数据量和元数据来源数量都显著增长的组织。

还有一种架构是“双向元数据架构”,允许元数据在架构中的任何部分发生变化后,通过存储元数据的库反馈给元数据来源库。

  • 开发和维护元数据标准

元数据标准有两个主要类型:行业或共识标准,以及国际标准。书中从P200~P203介绍了一系列的元数据标准,可以进行了解。

  • 标准化元数据的评估指标

评估指标主要是为控制环境中所实施的元数据的有效性,应对量化评估用户的理解、组织的投入以及内容的覆盖度和质量。

元数据环境中的评估标准包括:

元数据存储库的完整性;
元数据文档的质量;
主数据服务数据合规性;
管理职责/范围;
元数据的使用/引用;
元数据管理成熟度;
元数据存储库的可用性;

  • 实现受控的元数据环境

一般为降低风险、提高接受度,会通过分步推进的方式实现一个受控的元数据环境。

首先实施一个试验项目来理解受管理的元数据环境并进行概念验证。一个试验项目应具有一定的复杂度,包括需求评估、战略制定、技术评估选型和出不实施周期。

后续包括路线图规划、人员培训、组织变革和一个发布计划。

要将元数据项目与信息系统/信息技术开发方法论相整合。元数据的沟通和规划工作主要是对战略、规划、实施方案的讨论和决策。

  • 创建和维护元数据

企业可以将元数据视为数据的索引,因此元数据的质量很重要。同时,可能根据企业的需求调整元数据的管理方案。元数据的创建可以通过手工或者工具定期执行,需要使用审计流程验证各项操作活动,确保元数据的质量。

  • 整合元数据

在企业范围内(或企业外部)采集并存储元数据的过程,称之为整合元数据。这个过程有很多种方式,比如使用适配程序、扫描程序、桥接、直接访问等。这个过程会存在很多挑战,特别是内外部数据集,或非电子形式数据进行整合时,可能会出现大量质量和语义方面的问题。这需要数据治理流程协助解决。

  • 管理元数据存储库

管理元数据环境需要采取一些控制措施,包括监视、响应报告、告警、任务日志和解决存储库环境的各类问题、数据操作、接口维护等控制措施。

(1)元数据存储库

是指存储元数据的物理数据库表,不仅仅是反映来源系统的数据库设计,也需要综合考虑企业主题域专家的意见,基于一个易于理解的元数据模型,尽量实现元数据的整合。存储库存放的是当前的、计划中的和历史版本的元数据。

(2)目录、术语表和其他元数据存储

目录是一类元数据存储,将元数据限定在特定的位置和数据来源。应在目录中指明是否有多个来源。

术语表通常提供术语使用的指引,同义词指导用户完成3类关系的结构化选择(相等、层级、关联)。可以为术语表内和术语表间的两个术语之间指定这些关系类型。

其他元数据存储包括专用列表,如来源列表、接口、代码集、专业词汇、空间和时间模式、空间参考、数字地理数据集、存储库、业务规则等。

  • 分发和交付元数据

负责将元数据从存储库分发到最终用户和其他需要使用元数据的应用或工具。

元数据方案通常与商务智能方案相连接,可以将这个做为元数据整合到商务智能的交付方案,并提供给最终用户使用。

与外部组织进行交互时,常见的格式是XML做为传输格式。

  • 查询、报告和分析元数据

元数据指导我们如何使用数据资产:在商务智能(报表和分析)、商务决策(操作型、运营型、战略型)以及业务语义方面使用元数据。

元数据指导我们如何管理数据资产:在数据治理流程中使用元数据进行控制和治理;信息系统实现和传送过程中使用元数据增加、变更、删除和访问数据;数据整合通过数据的标签或元数据实现整合,元数据控制并审计数据、流程和整合;在数据安全管理中,通过数据的标签或元数据进行数据控制和维护;数据质量提升通常也是从元数据及元数据与数据关系进行检查开始;

元数据存储库应具备前端应用程序,提供查询和获取功能,满足数据资产管理的需要。根据使用用户不同,可提供新功能开发变更影响分析、解决数据仓库和商务智能中数据定义问题的血缘关系分析报告。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/337268.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

技术分享|终端安全防护|ChatGPT会创造出超级恶意软件吗?

ChatGPT是一个强大的人工智能聊天机器人,它使用大量的数据收集和自然语言处理与用户“交谈”,感觉像是和正常的人类对话。它的易用性和相对较高的准确性让用户可以利用它做任何事情,从解决复杂的数学问题,到写论文,创建…

【Linux】操作系统与进程的概念

目录 冯诺依曼体系 注意 为什么CPU不直接访问输入或输出设备? 跨主机间数据的传递 操作系统 管理 进程 描述进程 进程的查看和终止 bash 通过系统调用创建子进程 fork的辨析 冯诺依曼体系 🥖冯诺依曼结构也称普林斯顿结构,是一种将…

(超详细)Navicat的安装和激活,亲测有效

步骤一:准备安装包 下载Navicat,我用的v15最好一致(私信可以发你安装包和注册码)步骤二:关闭杀毒软件,然后需要断掉网络(一定断网) 步骤三:一路next安装,安装…

nodejs如何实现Digest摘要认证?

文章目录1.前言2. 原理3. 过程4. node实现摘要认证5. 前端如何Digest摘要登录认证(下面是海康的设备代码)1.前言 根据项目需求,海康设备ISAPI协议需要摘要认证,那么什么是摘要认证?估计不少搞到几年的前端连摘要认证都…

每日一个解决问题:事务无法回滚是什么原因?

今天在码代码时发现事务不回滚了,学过MySQL 事务小伙伴们都懂,通过 begin 开启事务,通过 commit 提交事务或者通过 rollback 回滚事务。 正常来说,当我们开启一个事务之后,需要 commit 或者 rollback 来结束一个事务的…

下面这段Python代码执行后的输出结果是?

点击上方“Python爬虫与数据挖掘”,进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤几行归塞尽,念尔独何之。大家好,我是皮皮。一、前言前几天在Python青铜交流群【桐霄L】问了一个Python基础的问题,这里拿出…

TortoiseGit 使用教程

一、下载工具 这里给大家准备了所有安装包自取 链接:https://pan.baidu.com/s/1xrxxgyNXNQEGD_RjwKnPMg 提取码:qwer 也可在官网自行下载最新版 1.下载git,直接去官网下载Git - Downloads,根据自己的系统合理下载&#xff0c…

openGauss客户端安装

目录1. 准备两台Linux系统2. 安装openGauss客户端3. 设置客户端主机环境变量4. 修改服务端配置文件5. 测试客户端远程连接客户端环境:openEuler release 22.03 (LTS-SP1) 服务端环境: openEuler release 20.03 (LTS-SP3) openEuler系统官网下载 1. 准备两台Linux系…

尚医通(十)数据字典加Redis缓存 | MongoDB

目录一、Redis介绍二、数据字典模块添加Redis缓存1、service_cmn模块,添加redis依赖2、service_cmn模块,添加Redis配置类3、在service_cmn模块,配置文件添加redis配置4、通过注解添加redis缓存5、查询数据字典列表添加Redis缓存6、bug&#x…

[oeasy]python0080_设置RGB颜色_24bit_24位真彩色_颜色设置

RGB颜色 回忆上次内容 上次 首先了解了 索引颜色 \33[38;5;XXXm 设置 前景为索引色\33[48;5;XXXm 设置 背景为索引色 RGB每种颜色 可选0-5总共 6 级 想用 精确RGB值 真实地 大红色画个 大红桃心 ♥️ 有可能吗??🤔 rgb 模式 关于 RGB 模式…

07- 梯度下降优化(Lasso/Ridge/ElasticNet) (机器学习)

归一化: 减少数据不同数量级对预测的影响, 主要是将数据不同属性的数据都降到一个数量级。 最大值最小值归一化:优点是可以把所有数值归一到 0~1 之间,缺点受离群值影响较大。0-均值标准化: 经过处理的数据符合标准正态分布,即均值为0,标准差…

Android 逆向工具大整理,碉堡了

文章目录jadx打开 gui 界面把安装包打开双击变量名和方法名可以高亮所有出现的地方**强大的搜索功能****搜索资源****查看 APK 签名****查看 APK dex 数,方法数****查看资源,配置清单****展开包名**查找方式引用反混淆导出 Gradle 工程导出反编译资源cla…

腾讯云安全组配置参考版

官方文档参考: 云服务器 安全组应用案例-操作指南-文档中心-腾讯云 新建安全组时,您可以选择腾讯云为您提供的两种安全组模板: 放通全部端口模板:将会放通所有出入站流量。放通常用端口模板:将会放通 TCP 22端口(Lin…

JDBC(老版)

文章目录JDBC概述数据持久化Java中的数据存储技术JDBC介绍JDBC体系结构JDBC程序编写步骤获取数据库连接要素一:Driver接口实现类Driver接口介绍加载与注册JDBC驱动要素二:URL要素三:用户名和密码数据库连接方式举例使用PreparedStatement实现…

元学习方法解决CDFSL以及两篇SOTA论文讲解

来源:投稿 作者:橡皮 编辑:学姐 带你学习跨域小样本系列1-简介篇 跨域小样本系列2-常用数据集与任务设定详解 跨域小样本系列3:元学习方法解决CDFSL以及两篇SOTA论文讲解(本篇) 跨域小样本系列4&#xf…

Lesson 6.5 机器学习调参基础理论与网格搜索

文章目录一、机器学习调参理论基础1. 机器学习调参目标及基本方法2. 基于网格搜索的超参数的调整方法2.1 参数空间2.2 交叉验证与评估指标二、基于 Scikit-Learn 的网格搜索调参1. sklearn 中网格搜索的基本说明2. sklearn 中 GridSearchCV 的参数解释3. sklearn 中 GridSearch…

漏洞扫描器之AWVS

数据来源 01 漏洞扫描器及AWVS介绍 》漏洞扫描 》常见漏洞扫描工具 网络上公布的付费的或者免费的漏洞扫描工具、脚本多种多样。 √ 针对某类漏洞的:sql注入(sqlmap)、weblogic(weblogicscan) √ 针对某类CMS的: wordpress( wpscan)、 …

数据分析到底该怎么学呢?讲真,真不难!

这几年,“数据分析”是很火啊,在这个数据驱动一切的时代,数据挖掘和数据分析就是这个时代的“淘金”,懂数据分析、拥有数据思维,往往成了大厂面试的加分项。 比如通过数据分析,我们可以更好地了解用户画像…

CSS 重新认识 !important 肯定有你不知道的

重新认识 !important 影响级联规则 与 animation 和 transition 的关系级联层cascade layer内联样式!important 与权重 !important 与简写属性!important 与自定义变量!important 最佳实践 在开始之前, 先来规范一下文中的用于, 首先看 W3C 中关于 CSS 的一些术语定义吧. 下图…

微信小程序如何获取用户信息

自我介绍我是IT果果日记,微信公众号请搜索 IT果果日记一个普通的技术宅,定期分享技术文章,欢迎点赞、关注和转发,请多关照。微信小程序用户基本信息有哪些?除了基本信息,微信还会提供openId和unionId&#…