Data Catalog3.0:Modern Metadata for the Modern Data Stack

news2024/11/24 23:06:40

        从2020年开始,在数据领域中,有一个比较流行的术语:The Modern Data Stack(现代数据堆栈),简单理解就是汇集了处理海量数据的最佳工具集。这包括在最好的工具上建立数据基础设施,如用于数据仓库的Snowflake,用于数据湖的Databricks,以及用于数据提取的Fivetran。
本文将通过问答的方式给大家分享下Modern Metadata for the Modern Data Stack(基于现代元数据管理构建现代数据堆栈)。

Q:现代数据栈有什么优缺点呢?
A:
现代数据栈速度超快,在几秒钟内只需要很少的开销很容易扩大规模。缺点就是在为数据带来治理、信任和背景方面,它仍然是个新手。这就是元数据的用武之地。

Q:在今天的现代数据栈中,现代元数据应该是什么样子的?基本的数据目录如何能发展成为数据民主化和治理的强大工具?为什么元数据管理需要一个范式的转变来跟上今天的需求?为什么现代数据栈比以往更需要 "现代 "元数据管理?
A:
几年前,数据主要是由企业的IT团队消费。然而,今天的数据团队比以往任何时候都更加多样化--数据工程师、分析师、分析工程师、数据科学家、产品经理、商业分析师、数据科学家等等,这些人中都有自己喜欢的、同样多样化的数据工具如从SQL、Looker、Jupyter到Python、Tableau、dbt和R,应有尽有。这种多样性既是一种力量,也是一种挣扎。每个人都有自己处理问题的方式、工具、技能组合、技术栈、工作方式等等。基本上,每个人都有独特的 "数据基因"。这就带来了一种结果就是协作中的混乱。如上篇介绍CDO关注的趋势中提到,我们经常遇到这些问题如 "这个字段代表什么意思?"和 "为什么看板上的指标数值又不对了?"等等,当他们需要使用数据时遇到这些问题时就会让原本能够快速敏捷的团队陷入了困境。虽然这些问题并不是什么新鲜事。但目前仍然没有好的解决方案。大多数数据目录只不过是Hadoop时代的创可贴解决方案,而不是与当今现代数据栈背后的创新和进步保持同步。

        在聊现代元数据是什么样子之前,我们先来回顾下过去元数据管理的解决方案,就像数据一样,在过去的三十年里,我们对元数据的思考和处理方式也在稳步发展。它可以大致分为三个演变阶段:数据目录1.0、数据目录2.0和数据目录3.0

一、数据目录1.0:IT团队的元数据管理

        第一阶段的数据目录大概从20世纪90年代到21世纪初,当时主要以Informatica, Talend等产品解决方案为主

        从技术角度讲,元数据自古以来就存在,例如,图书馆中每个书籍上都有描述性的标签。然而,元数据的现代概念可以追溯到20世纪末。在20世纪90年代,我们庆幸地把软盘放在一边,拥抱这个叫做互联网的新奇工具。很快,大数据和数据科学大行其道,各组织都在试图找出如何组织他们新收集的数据。
随着数据类型和格式以及数据本身的爆炸性增长,IT团队被要求负责创建一个 "数据清单"。像Informatica这样的公司很早就在元数据管理方面取得了领先地位,但是建立和保持他们的新数据目录对IT人员来说是一个持续的斗争。

        在02年的时候数仓权威专家Ralph Kimball说过:数据仓库团队经常会花费大量的时间来讨论、担心和对元数据感到内疚。尽管每个人都知道元数据的重要性,但大多数开发人员对文档的开发和有序归档有一种天然的厌恶感,所以元数据经常会从项目计划中省略掉。

二、数据目录 2.0:由数据管理员提供支持的数据清单

        第二阶段的数据目录大概从08年起一直发展到20年,这中间有Collibra、Alation等产品解决方案

        随着数据逐渐成为主流,并超出了IT团队的范围,数据管理的概念也逐渐深入人心,这指的是一套专门的人员,他们负责一个组织的数据,主要负责处理元数据,维护治理实践,手动记录数据等等。

        与此同时,元数据的概念也发生了变化。随着公司开始建立大规模的Hadoop实施,他们意识到一个简单的IT数据清单已经不够了。相反,新的数据目录需要将数据清单与新的业务背景相融合。就像这个时代的超级复杂的Hadoop系统一样,数据目录2.0也很难建立和维护。它们涉及到严格的数据治理委员会、正式的数据监管人、复杂的技术设置和漫长的实施周期。总而言之,这个过程可能需要长达18个月。

        这个时代的工具基本上是建立在单片机架构上,并在内部部署。每个数据系统都有自己的安装,公司不能通过推送简单的云更新来推出软件变化。技术债务不断增加,元数据管理开始稳步落后于现代数据栈的其他部分。

        虽然数据基础设施栈的其他部分在过去几年中不断发展,像Fivetran和Snowflake这样的工具可以让用户在30分钟内建立一个数据仓库,但数据目录却无法跟上。即使是尝试数据目录2.0时代的元数据工具,也需要大量的工程时间来设置,更不用说至少要和销售代表打5次电话才能得到演示。
        由于缺乏可行的替代方案,现代数据栈的最早采用者和大多数大型科技公司都诉诸于建立自己的内部解决方案。一些明显的例子包括Airbnb的Dataportal、Facebook的Nemo、LinkedIn的DataHub、Lyft的Amundsen、Netflix的Metacat和Uber的Databook。
        然而,并不是所有的公司都有工程资源来做这件事,而且建立几十个类似的元数据工具也不是特别有效。所以现在是时候有必要范式转变来建立一个现代的元数据解决方案了,一个和现代数据栈的其他部分一样快速、灵活和可扩展的解决方案。

三、数据目录3.0:为不同的数据用户提供协作的工作空间

        今天我们正处于元数据管理的一个拐点--从缓慢的、企业内部的数据目录2.0转变为一个新时代的开始,即数据目录3.0。就像从1.0到2.0的跳跃一样,这将是我们对元数据思考方式的根本转变。


        数据目录3.0将建立在嵌入式协作的前提下,这是当今现代工作场所的关键。而且数据目录 3.0 的 4 个特点:

特点1:数据资产 > 表

        数据目录2.0一代是建立在 "表 "是唯一需要管理的资产的前提下。但现在情况完全不同了,如今,BI仪表盘、代码片段、SQL查询、模型、功能和Jupyter笔记本都是数据资产。3.0时代的元数据管理将需要足够灵活,以便在一个地方智能地存储和链接所有这些不同类型的数据资产。

特点2:端到端的数据可见性,而不是零散的解决方案

        数据目录2.0时代的工具在改善数据发现方面取得了重大进展。然而,他们并没有给组织提供一个关于他们数据的 "单一真理来源"。有关数据资产的信息通常分散在不同的地方--数据血缘工具、数据质量工具、数据准备工具等等。

特点3:专为元数据本身就是“大数据”的世界而构建

        我们正在快速接近一个元数据本身就是大数据的世界,能够处理和理解元数据将帮助团队更好地理解和信任他们的数据。这就是为什么新的数据目录3.0应该不仅仅是一个元数据存储。它应该从根本上利用元数据作为一种数据形式,可以像所有其他类型的数据一样被搜索、分析和维护。
今天,云的基本弹性使之成为可能,这是前所未有的。例如,查询日志只是今天可用的元数据的一种。通过解析 Snowflake 中查询日志的 SQL 代码,它可以自动创建列级线,为每个数据资产分配一个流行分数,甚至推断每个资产的潜在所有者

特点4:嵌入式协作的时代到来

        Airbnb在分享他们推动内部数据门户采用方面的经验时,说了一句很深刻的话:"设计数据工具的界面和用户体验不应该是事后的想法"。由于数据团队的基本多样性,数据工具需要被设计成与团队的日常工作流程无缝整合。这就是嵌入式协作的理念真正的活力所在。嵌入协作是指在你所在的地方开展工作,并以最少的摩擦。
如果你在得到一个链接时请求访问一个数据资产,就像使用在线文档 or办公系统一样,责任人会收到访问请求,并批准或拒绝它。或者,当你检查数据资产并需要报告一个问题时,你可以立即触发一个与工程团队的JIRA工作流程完美整合的支持请求,这种嵌入式协作可以统一这些因为浪费时间、造成挫折、导致数据团队工具疲劳的几十个微观工作流程,而使这些任务变得令人愉快!这就是嵌入式协作的好处

        任何从事数据工作的人都知道,数据目录早就应该赶上现代数据栈的其他部分了。毕竟,如果没有使其可理解的资产--文档、查询、历史、词汇表等,数据是非常没有意义的。随着元数据本身成为大数据,我们正处于元数据管理的变革性飞跃的边缘。相信在未来几年,将有一个现代元数据管理产品的崛起,在现代数据栈中占据应有的地位。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/13580.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

传奇外网架设常见的问题及解决办法-传奇创建人物失败/不开门/PAK显示密码错误/脚本错误

传奇外网架设常见的问题及解决办法-传奇创建人物失败/不开门/PAK显示密码错误/脚本错误 在架设传奇的时候是否有遇到无法创建人物、pak密码错误等一系列情况呢?咱们都知道是架设不对的问题,但是具体是哪部分的问题,很多同学都不清楚&#xff…

JDK与cglib动态代理

JDK动态代理 接口类 public interface Subject {void doSomething(); }接口实现 public class RealSubject implements Subject {Overridepublic void doSomething() {System.out.println("RealSubject do something");} }InvocationHandler类 package daili;imp…

随笔记:计算机基础及进制计数法

随笔记:计算机基础及进制计数法 记录一下最近接触的基本的概念,便于想看的时候随时来翻看一下。 基础理论还是比较重要滴,基础理论还是比较重要滴,基础理论还是比较重要滴 现代计算机是用 0 和 1 来表示信息的,使用的…

6、行为型模式-责任链模式

一、责任链模式描述 责任链模式(Chain of Responsibility Pattern)为请求创建了一个接收者对象的链。这种模式给予请求的类型,对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为型模式。 在这种模式中,通常每个接收者…

Unity AVPro 使用

AVPro 感觉我写的没多大用处,后面看看文档再完善一些。目前的东西是可以满足一些简单的需求的。 说明 标题名称内容Unity版本Unity 2021 .1.18f1c1AVPro 版本AVPro Video - Ultra Edition 2.5.6IDEVS2022系统版本Win 10 1909撰写日期2022 11月15日晚 需要注意的地…

防孤岛保护装置在光伏行业的应用

安科瑞 华楠 应用场景 防孤岛原理:防孤岛保护装置检测到并网点有逆功率、频率突变、 等异常数据时,即发生孤岛现象时,装置可配合断路器快速切除并网点,使本站与电网侧快速脱离,保证整个电站和相关维护人员的生命安全 …

Go:Signal信号量的简介与实践(优雅的退出)

文章目录简介一、kill与kill9的区别二、实践:优雅的退出小结简介 go中的信号量 有些信号名对应着3个信号值,这是因为这些信号值与平台相关,SIGKILL和SIGSTOP这两个信号既不能被应用程序捕获,也不能被操作系统阻塞或忽略。 一、…

智慧管廊解决方案-最新全套文件

智慧管廊解决方案-最新全套文件一、建设背景二、建设意义三、建设目标四、思路架构综合管廊目前存在的痛点1、安全防范不足2、管理技术落后3、信息孤岛问题4、多头管理问题五、建设方案六、获取 - 智慧管廊全套最新解决方案合集一、建设背景 综合管廊一般是建于城市地下用于容…

NUMA架构详解

基本概念 为什么要有多处理器架构? 由于摩尔定律的失效,单个CPU内的晶体管的数量接近于饱和状态,因此单个CPU的性能已经接近饱和状态,这时,要想提高计算机的性能,就必须朝着多核架构发展。多核架构中&…

力扣(leetcode)刷题分享,简单题(第2期)

力扣第二期介绍1. 反转链表2. 移除链表元素3. 找链表的中间节点4. 寻找链表中的倒数第k个结点5. 合并两个有序链表总结第二期介绍 本期博客主要讲解的题目是有关链表的一些经典OJ题,有一定难度,希望大家耐心看完。 1. 反转链表 题目介绍: …

VUE Date类型前端判断动态校验

需求 原本需求 一个编号和一个日期在流程中的审查人节点必填&#xff0c;于是我就直接写了前端必填校验 所有代码和名称已做更改&#xff0c;不涉及到公司隐私 <CustomFormItem label"登记编号" prop"registerNo" v-if"asset_examiner form.node …

cleanmymac2023免费版纯净mac电脑系统管家

如今&#xff0c;我们在生活的方方面面都使用支持互联网的设备——查找信息、购物、银行、做作业、玩游戏&#xff0c;以及与朋友和家人保持联系。因此&#xff0c;我们的设备包含许多关于我们的个人信息。 此外&#xff0c;随着时间的推移&#xff0c;任何伟大的设备都会变得…

VIAVI唯亚威FFL-050/-100 可视故障定位仪

不管是进行安装还是故障排查&#xff0c;可视故障定位仪 (VFL) 都是快速、 方便定位光纤问题区域的必要工具。通过显示光纤损坏的准确位置&#xff0c; 技术人员能诊断、定位并有效地修复故障点。VFL 也可用于执行连接 性测试和光纤识别。 用于检查光纤弯曲和断裂、损伤位置和…

iNFTnews|Facebook、Twitter先后扑街,社交媒体的未来属于Web3?

最近埃隆马斯克&#xff08;Elon Musk&#xff09;收购推特的举动引发了热议。一方面&#xff0c;一些用户认为这位特立独行、做事说一不二的亿万富翁可以真正充分发挥平台的巨大潜力。但另外一部分人却因此担忧互联网未来的发展。 想想看&#xff0c;推特是世界上用户最多的社…

javaweb之会话技术

Cookie Cookie的基本使用 对于Cookie的使用&#xff0c;我们更关注的应该是后台代码如何操作Cookie&#xff0c;对于Cookie的操作主要分两大类&#xff0c;本别是发送Cookie和获取Cookie,对于上面这两块内容。 1、发送Cookie 创建Cookie对象&#xff0c;并设置数据 Cookie c…

6-1 邻接矩阵存储图的深度优先遍历

6-1 邻接矩阵存储图的深度优先遍历 分数 20 作者 DS课程组 单位 浙江大学 试实现邻接矩阵存储图的深度优先遍历。 函数接口定义&#xff1a; void DFS( MGraph Graph, Vertex V, void (*Visit)(Vertex) );其中MGraph是邻接矩阵存储的图&#xff0c;定义如下&#xff1a; t…

35岁互联网人只会被清退,是我听过最大的谎言

作为一个在测试行业摸爬滚打11年的老鸟&#xff0c;距离35岁还有两个月&#xff0c;目前在一家互联网公司担任 测试总监 的岗位。回看这些年的进阶之路&#xff0c;能做到今天的职位&#xff0c;关键的就是那几步。 而我认识的目前已失业和依然在做基层测试的同行&#xff0c;…

谷歌插件使用开发

谷歌插件 谷歌浏览器扩展程序&#xff1a;扩展是 Web 平台中使用的HTML、CSS、JavaScript、图像和其他文件的压缩包。可以修改用户浏览并与之交互中的web内容&#xff0c;它们还可以扩展和更改浏览器本身的行为。 开发核心 api 文档&#xff1a;link 插件主要是根据包内的mani…

mysql数据库主从同步

数据库版本 主&#xff1a;5.7.34 从&#xff1a;8.0.21 主数据库 修改mysql配置文件 my.ini&#xff08;windows&#xff09; 查看配置文件存在位置 -- 查看配置文件存在位置 show variables like %data%;修改内容 boo_db为同步的数据库名 server-id1log-binmysql-bin#目标…

手写一个单例模式,Demo,检测

手写一个单例模式&#xff0c;Demo&#xff0c;检测需求分析单例介绍一般情况DemoResult单例模式&#xff08;饿汉式—静态常量方式&#xff08;线程安全&#xff09;&#xff09;DemoResult懒汉式&#xff08;线程不安全&#xff09;DemoResult懒汉式&#xff08;加入锁机制&a…