元数据管理-解决方案调研二:元数据管理解决方案——Saas/内部解决方案(3)

news2024/11/18 7:48:15

Saas/内部解决方案

2.10、Netflix Metacat

Metacat 是一种元数据服务,使数据易于发现、处理和管理。在 Netflix,数据仓库由存储在 Amazon S3(通过 Hive)、Druid、Elasticsearch、Redshift、Snowflake 和 MySql 中的大量数据集组成。平台支持使用 Spark、Presto、Pig 和 Hive 来消费、处理和生成数据集。鉴于数据源的多样性,并确保数据平台可以作为一个“单一”数据仓库跨这些数据集进行互操作,由此构建了 Metacat。
地址:https://netflixtechblog.com/metacat-making-big-data-discoverable-and-meaningful-at-netflix-56fb36a53520?gi=30b7bd4248ae

Netflix 大数据平台的核心架构涉及三个关键服务。它们是执行服务 (Genie)、元数据服务和事件服务。这些想法并不是 Netflix 独有的,他们认为这是构建一个系统所必需的架构。
许多年前,当Netflix开始构建平台时,采用 Pig 作为ETL 语言,采用 Hive 作为临时查询语言。由于 Pig 本身没有元数据系统,因此构建一个可以在两者之间进行互操作的系统似乎是当时的理想选择。
因此 Metacat 诞生了,一个系统充当支持的所有数据存储的联合元数据访问层。各种计算引擎可用于访问不同数据集的集中式服务。一般来说,Metacat 服务于三个主要目标:
1、元数据系统的联合视图
2、数据集元数据的统一 API
3、数据集的任意业务和用户元数据存储
值得注意的是,其他拥有大型分布式数据集的公司也面临着类似的挑战。 Apache Atlas、Twitter 的数据抽象层和 Linkedin 的 WhereHows(Linkedin 的数据发现)。

Metacat 提供统一的 REST/Thrift 接口来访问各种数据存储的元数据,相应的元数据存储仍然是模式元数据的真实来源,因此 Metacat 不会在其存储中实现它。它只直接存储有关数据集的业务和用户定义的元数据。它还将有关数据集的所有信息存储到 Elasticsearch 以进行全文搜索和发现。
在更高的层次上,Metacat 的功能可以分为以下几类:
1、数据抽象和互操作性
2、业务和用户定义的元数据存储
3、数据发现
4、数据变更审计和通知
5、Hive 元存储优化 

2.11、Uber Databook

Databook是Uber的内部平台,该平台可以显示和管理数据集的内部位置和所有者的元数据,能够将数据转化为知识
地址:Databook: Turning Big Data into Knowledge with Metadata at Uber | Uber Blog 

功能:
1、可扩展性:新的元数据、存储和实体很容易添加。
2、可访问性:服务可以以接口方式访问所有元数据
3、可伸缩性:支持高吞吐量读取
4、支持跨数据中心读写
Databook 提供了来自 Hive、Vertica、MySQL、Postgres、Cassandra 和其他几个内部存储系统的各种元数据,包括:表模式、表/列描述、样本数据、统计数据、血缘、、表新鲜度、SLA 和责任人等等。
所有元数据都可以通过UI可视化和 RESTful API 访问。
1、RESTful API 由 Dropwizard 提供支持,Dropwizard 是一种用于高性能 RESTful Web 服务的 Java 框架,部署在多台机器上,并由 Uber 的内部请求转发服务进行负载平衡。
2、可视化 UI 是用 React.js 和 Redux 以及 D3.js 编写的,主要提供整个公司的工程师、数据科学家、数据分析师和运营团队使用,以及对数据质量问题进行分类并识别和探索相关数据集。
架构:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/22353.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux入门指北】文件服务器

文件服务器 文章目录文件服务器一、FTP Server1.简介2.FTP Server 默认配置3.FTP Clinet4.vsftpd的主动和被动模式二、NFS Server1.简要介绍2.环境配置3.关闭防火墙4.nfs(存储端)5.web1 web2 web3 客户端5.1 安装NFS客户端5.2 开启httpd服务5.3 查看存储端共享5.4 手动挂载5.5 …

电容笔哪个牌子好?2022年电容笔十大品牌排行榜

当电容笔搭配上了ipad,可以大大提升我们的工作效率,不会变得乏味。对于那些对绘画要求很高的人来说,电容笔在绘画中的作用更是不容忽视的。其实我个人对电容笔这块了解还不少的,有着许多平替电容笔都支持在ipad上使用的&#xff0…

社会工程攻击依然是企业面临的最大威胁

企业进入数字化时代,网络攻击行为无处不在,利用社会工程攻击已成黑客的惯用手段。研究表明,91%的网络攻击是通过社会工程手段完成的。 常见的社会工程攻击手段有哪些? 网络钓鱼: 这是经典手段,大多数的钓…

HTML5期末大作业:基于html企业官网项目的设计与实现【艺术官网】

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业: 【📚毕设项目精品实战案例 (10…

Alien Skin Exposure2023调色滤镜插件RAW后期处理软件

Exposure既可以作为ps、lr的插件使用,也可以单独作为一款专业的图像编辑器使用,它可以处理RAW格式的照片,拥有500多种预设滤镜,还有照片管理和添加文字水印等功能。可以说,无论是新手还是设计师和摄影师,都…

【POJ No. 2431】 丛林探险 Expedition

【POJ No. 2431】 丛林探险 Expedition 北大OJ 题目地址 【题意】 一群人开着一辆卡车冒险进入丛林深处,卡车油箱坏了,每走1米就会漏1升油,他们需要到最近的城镇(距离不超过106米)修理卡车。卡车当前位置和城镇之间有…

怎么将视频转化为gif?

如何将视频转化为gif?gif是一种大家平时常见的动态图片格式,动图是一种非常有意思的图片种类,gif一般都是一些非常有意思的小动图,例如我们在群聊时使用的动态表情包,还有一些球迷朋友喜欢看的足球进球动图等。gif动图…

asp核酸检测预登记系统源码

用asp开发的核酸检测预登记系统上线了,用户填写姓名,手机,身份证号,地址等信息后生成一个加密的二维码,管理员扫码后可以得到真实的二维码文字信息。主要为方便核酸采集统计托底等,也可以用作会议入场信息采…

【NLP】使用 PyTorch 通过 Hugging Face 使用 BERT 和 Transformers 进行情感分析

🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞…

初识Kafka构造组成

在刚学习kafka的时候,有时候会比较纳闷broker是什么?topic又是什么?一台机器上有多少broker?又有多少的topic和partition?由下面这张图来初识我们的kafka: 上图中包含了一个kafka集群的所有组件&#xff1a…

大数据毕业设计题目推荐 毕设选题大全

文章目录0 前言1 如何选题1.1 选题技巧:如何避坑(重中之重)1.2 为什么这么说呢?1.3 难度把控1.4 题目名称1.5 最后2 大数据 - 选题推荐2.1 大数据挖掘类2.2 大数据处理、云计算、区块链 毕设选题2.3 大数据安全类2.4 python大数据 游戏设计、动画设计类2…

LeetCode-808. 分汤【动态规划,概论与统计,记忆化搜索】

LeetCode-808. 分汤【动态规划,概论与统计,记忆化搜索】 题目描述:解题思路一:动态规划,这里将所有的汤除了25,缩小数值。自底向上解题思路二:记忆化搜索,自顶向下搜索,会…

R summarize()分组摘要

summarize()分组摘要分组平均值最大最小值计数 library(nycflights13) library(tidyverse)summarize()可以将数据折叠成一行 如果不与group_by()一起使用,那么summarize()也没什么用 summarize(flights, delay mean(dep_delay, na.rm TRUE))delay12.63907 group…

基于PHP+MySQL仓库管理系统的设计与实现

PHP:MySQL仓库管理系统的设计与实现是一个集合了中小型超市所有特点的一个管理系统, 它使用当下最流行的PHP语言来进行开发,实现了管理员登录,员工登录,超市内物资基本信息管理,进货信息管理,销售信息管理,超市内员工信息管理,查询统计等功能, 通过这些功能可以让超…

Kubernetes云原生实战01 Kubernetes高可用部署架构

大家好,我是飘渺。从今天开始我们将正式开始Kubernetes云原生实战系列,欢迎持续关注。 Kubernets核心组件 Kubernetes中组件众多,要完全介绍清楚估计要写上厚厚一本书,我们实战系列主要记住几个核心组件就行,即两种节…

【LeetCode每日一题:808.分汤~~~边界条件的特判+记忆化搜索】

题目描述 有 A 和 B 两种类型 的汤。一开始每种类型的汤有 n 毫升。有四种分配操作: 提供 100ml 的 汤A 和 0ml 的 汤B 。 提供 75ml 的 汤A 和 25ml 的 汤B 。 提供 50ml 的 汤A 和 50ml 的 汤B 。 提供 25ml 的 汤A 和 75ml 的 汤B 。 当我们把汤分配给某人之后…

vue3项目,vite+vue3+ts+pinia(10)-elementplus布局

项目创建好,接下来引入Container 布局容器, 在src下新建layout文件夹, layoutName.vue <template><el-container><el-aside width"200px">aside</el-aside><el-container><el-header>Header</el-header><el-main>…

CompletableFuture异步编程Api使用详解

Java 8 引入了很多的新特性&#xff0c;其中就包含了 CompletableFuture 类的引入&#xff0c;它允许我们通过在与主应用程序线程不同的线程上&#xff08;也就是异步&#xff09;运行任务&#xff0c;并向主线程通知任务的进度、完成或失败&#xff0c;来编写非阻塞代码。 Fu…

LVS-DR模式部署

目录 一、环境准备 1、DR模式介绍 2、DR模式工作原理 3、服务器准备 二、实验拓扑 三、配置网络环境 1、配置调度器网络环境 2、配置Web服务器网络环境 四、创建LVS-DR集群 1、创建LVS集群 2、添加Real Server 3、查看lvs配置 五、LVS服务器开启路由转发 六、效果…

TCP四次挥手 2MSL TIME_WAIT详解

TCP四次挥手 & 2MSL & TIME_WAIT详解TCP四次挥手流程各状态解析2MSL(2倍最大报文段生成时间)2MSL (Maximum Segment Lifetime) TIME_WAIT状态的存在有两个理由该状态为什么设计在主动关闭这一方?如何正确对待2MSL TIME_WAIT?TCP四次挥手流程 【注意】只要是申请关闭连…