大数据治理入门系列:数据目录

news2024/12/26 20:55:08

在元数据管理一文中,我们曾将数据比喻为一本本的书,将书的作者、出版时间等信息比喻为元数据。试想一下,假如你是一名新任的图书管理员,如何快速掌握图书馆的馆藏情况呢?假如你是一名读者,如何快速找到你需要的图书呢?想必你需要一份内容完整、结构清晰的图书清单。同样地,数据的管理者和使用者也需要类似的清单来快速了解、精准查找、正确使用组织机构的数据资产。这就是本文要介绍的数据目录(Data Catalog)。

img

含义

数据目录(Data Catalog)是一种数据资产清单,这些数据资产包括(但不限于)结构化数据、非结构化数据(例如文档、网页、邮件、社交媒体内容、图片影音等)、报告和查询结果、数据可视化与总览信息、机器学习模型、数据库之间的联系等。数据目录通过元数据和数据管理工具详细记录数据的来源、用途、使用方式等,便于使用者快速获取想要的数据。所以,也可以将数据目录视为元数据的集合

数据目录主要记录五类元数据主题:

数据集:数据集是机构人员可以访问的文件和表格,数据集可能位于数据湖、数据仓库、主数据库、或任何其他共享的数据资源。

人员元数据:描述和数据相关的人员角色,包括数据的使用者、监管者、管理员等。

搜索元数据:这是为数据元素添加的标签和关键词,便于搜索数据。

处理元数据:描述数据生命周期管理过程中的各项数据处理任务,例如更新数据、转换数据等。

供应商元数据:记录数据的来源、订阅源、许可限制等信息。

以上五类元数据中,数据集处理元数据为数据血缘关系的主要组成内容,数据集间的转换关系由处理元数据来描述,表示数据集是如何通过更新、转换,从一个数据集到另一个数据集。进一步,数据集中的字段间也存在数据血缘关系,字段间进行数据更新和转换一般会用到 SQL 表达式。

img

使用

数据可能存储在数据库、云端、数据湖、文件或其他地方,通过数据目录可以将这些以不同形式存储在不同地方的数据整合到一起,便于搜索、预览数据,了解数据的上下文,分析数据血缘关系。数据目录提供的典型能力包括:采集并持续丰富元数据,搜索数据、自动发现相关数据、管理数据的使用,促进数据合规等。

与数据目录相关的人员主要可以分为三种角色。

数据工程师:需要借助一些工具采集数据,描述数据,将数据添加到数据目录中,查找并清理脏数据等。

数据管理员:类似于图书管理员,需要通过数据目录整理数据,维护数据质量,更新数据、记录数据使用情况、管理数据访问权限等。

数据消费者:希望通过数据目录直接获取数据,分析数据。就像网上购物一样,用户可以自己搜索、预览、获取想要的数据,无需依赖专业的 IT 人员或数据专家。

有了数据目录,数据使用者可以通过更完整的数据上下文挖掘出更深层次的数据价值,加深对数据的理解。普通用户可以通过数据目录直接获取数据,减轻数据 IT 人员的压力,提升数据的管理和使用效率。基于数据目录提供的信息,分析人员能获得更可靠的数据来源,提升数据分析的效率和分析结果的可靠性。

此外,在当今的数字经济时代,拥有大量的数据并且能够高效地利用这些数据,对于企业而言是一大显著的竞争性优势。企业可以借助数据目录更有效地组织、标识数据,界定数据的敏感性和访问权限,改善数据分析环境,此外,还有助于确保数据合规,降低数据风险。数据目录不仅能提升分析能力,还能改善公司业绩。根据全球权威调研机构 Aberdeen Group 的研究,使用数据目录的企业不仅客户数量增加,同时客户满意度也有所提升。

img

编制

编制数据目录的过程称为数据编目(Data Cataloging)。编制数据目录的过程主要涉及以下几个步骤:

1.捕获数据:

这一阶段需要思考两个问题。一是捕获哪些元数据,例如数据的结构、模式、语义等。二是如何捕获元数据,可能需要借助一定的工具管理数据的生命周期,做好容灾备份。推荐阅读:2022 年数据目录工具推荐

2.指派联系人

建立数据目录后,需要界定访问角色、权限、职责,以便用户在遇到问题时知道应该去哪里寻求帮助。

3.记录所有交互

每一次更改数据或代码或任何相关元素时,都将其记录下来。数据目录的维护工作应该关系到每位员工、关联到每次数据操作。

4.及时更新数据目录

开发人员可能不时修改数据库的结构,数据科学家可能将数据移动到不同环境,数据自身也可能频繁迭代。因此,需要及时更新数据目录,确保数据目录提供的信息是有效的,可靠的。

5.根据需求优化数据目录

数据目录没有统一的模板样式,契合实际需求和具体场景的数据目录才能发挥最大价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/606062.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis GEO功能详细介绍与实战

一、概述 Redis的Geo功能主要用于存储地理位置信息,并对其进行操作。该功能在Redis 3.2版本新增。Redis Geo操作方法包括: geoadd:添加地理位置的坐标;geopos:获取地理位置的坐标;geodist:计算…

第五届湖北省大学生程序设计竞赛(HBCPC 2023)vp赛后补题

Problem - B - Codeforces 思路: 数位dp,如果我们暴力的计算的状态的话,显然就是记录每个数字出现几次。但是显然这样难以发挥数位dp的记忆化功效,因为只有出现次数相同,你是什么数字,实际是无所谓的。所…

I2C学习笔记——I2C协议学习

1、I2C简介:一种简单、双线双向的同步串行总线,利用串行时钟线(SCL)和串行数据线(SDA)在连接总线的两个器件之间进行信息传递; 数据传输是通过对SCL和SDA线高低电平时序的控制,来产生I2C总线协议所需要的信号。在总线空闲状态时&a…

【Linux C】基于树莓派/香橙派的蓝牙服务端——支持多蓝牙设备接入

一、需求 在树莓派/香橙派上利用开发板自带的蓝牙作为一个蓝牙服务端(主机),允许外来设备(从机)通过蓝牙接入进行通信,通信格式为透传方式;采用的编程语言为Linux C 二、环境准备 bluez安装 …

三波混频下的相位失配原理

原理推导 在四波混频情况下,实现零相位失配是一件很困难的事情。因为在四波混频中,相位调制和增益都依赖于相同的参数,即克尔非线性 γ \gamma γ。这个问题可以用嵌入在传输线上的辅助共振元件的复杂色散工程来部分解决。 但是在三波混频中…

ceph集群监控

文章目录 Ceph Dashboard启用dashboard插件dashboard启用ssl Promethues监控ceph启用prometheus模块配置prometheus采集数据grafana数据展示 Ceph Dashboard ceph-dashboard官方介绍:https://docs.ceph.com/en/latest/mgr/dashboard/ Ceph Dashboard是一个内置的c…

数据库系统概论---选择题刷题实训

(一)选择题 1.下列选项中,不属于关系模型三要素的是( C ) A.数据结构 B.数据操纵 C.数据安全 D.数据完整性规则 2.保证数据库…

【Spring】透过Spring源码查看Bean的命名转换规则

近期在写Spring项目的时候,需要通过注解的形式去替代之前直接将Bean存放在Spring容器这种方式,以此来简化对于Bean对象的操作,但是这样无法通过准确的Id去获取到相应的Bean对象了 测试观察 首先,如果要将指定的对象存放到Spring中…

SQL注入基础知识

文章目录 一、注入的分类1.基于服务器收到的响应2.基于处理输入的SQL查询(数据类型)3.基于程度和顺序的注入(哪里受了影响)4、基于注入点位置 二、系统函数1.字符串连接函数2.一般用于尝试的语句3.union操作符的介绍 总结 一、注入…

caught (in promise) RangeError: Maximum call stack size exceeded-vue前置导航守卫死循环

报错图 产生场景 1.近期在搭建移动端的架子时,在写路由守卫时,发现陷入死循环,报错意思是循环超出栈。。 2.后面排查了一圈问题之后,发现这个问题很小,但很难发现,在此记录。 3.vue 路由的导航守卫并不是…

类和对象【4】static成员、const对象、友元

全文目录 引言static成员static成员变量static成员函数 const对象友元友元函数友元类 总结 引言 通过前面的三篇文章,相信大家对类和对象已经有了一个基本的认识。 类和对象1(初识) 类和对象2(默认成员函数) 类和对象…

数据结构与算法11:堆

目录 【堆】 堆中插入和删除元素 堆排序 【堆的常见应用】 应用1:优先级队列 (1)合并有序小文件 (2)定时器功能 应用2:计算排行榜中前K个数据 应用3:求中位数 应用4:计算…

算法基础--MD5算法介绍

1、简介 MD5再开发过程中经常碰到的一种算法,因此感觉有必要对其原理进行更深入的了解一下。 2、算法概念 散列函数,也称作哈希函数,消息摘要函数,单向函数或者杂凑函数。散列函数主要用于验证数据的完整性。通过散列函数&#x…

自然语言处理从入门到应用——自然语言处理的应用任务

分类目录:《自然语言处理从入门到应用》总目录 本文介绍信息抽取、情感分析、问答系统、机器翻译和对话系统等自然语言处理应用任务。这些任务可以直接或间接地以产品的形式为终端用户提供服务,是自然语言处理研究应用落地的主要技术。 信息抽取 信息抽…

天气预报信息获取程序--GUI--可以使用

上次正对项目中需要填写项目日志,制作了一个命令行版本的下载天气信息的程序,满足日常需要,调整一下界面版本的程序 如果大家使用命令行的可以使用下面的版本(连接) https://ht666666.blog.csdn.net/article/details…

逻辑漏洞学习-知识点总结

逻辑漏洞就是程序在实现业务逻辑上存在的错误,辑漏洞的出现通常是因为程序在设计业务逻辑时考虑不够全面,或者程序员的思维过程存在瑕疵,没有充分考虑到各种可能的情况 大部分程序员在设计的时候,目标是实现功能需求,…

Linux基础知识点 有这篇就足够了!!

❄️作者介绍:奇妙的大歪❄️ 🎀个人名言:但行前路,不负韶华!🎀 🐽个人简介:云计算网络运维专业人员🐽 目录 一、 从认识操作系统开始 1.1 操作系统简介 1.2 操作系统…

chatgpt赋能Python-python分表

介绍 Python是一种流行的编程语言,适用于各种应用程序开发,包括网络应用程序、数据库应用程序以及数据分析和科学计算。Python分表是基于Python编写的分表工具,可以帮助开发人员更轻松地管理大型数据库表格。 Python分表是如何工作的&#…

0219-810

3GPP TS 02.19 V8.1.0 (2005-06) 前言 本技术规范由第三代合作伙伴计划 (3GPP) 制定。 本文件的内容取决于 TSG 的持续工作,并可能在 TSG 正式批准后发生变化。 如果 TSG 修改本文档的内容,TSG 将重新发布 确定发布日期的变化和版本号的增加如下&…

低代码开发平台选择指南:如何选出最适合企业的低代码平台?

低代码平台的兴起改变了公司处理软件开发的方式。这些平台使组织能够快速高效地构建应用程序,该应用程序可以利用预设组件和开箱功能。但是,因为有这么多低代码平台可以使用,所以为你的组织选择合适的平台可能是一个挑战。本文将探索如何低代…