【Azure 架构师学习笔记】- Azure Databricks (5) - Unity Catalog 简介

news2024/9/21 16:30:48

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。
接上文 【Azure 架构师学习笔记】- Azure Databricks (4) - 使用Azure Key Vault 管理ADB Secret

前言

DataBricks Unity Catalog(UC)是一个统一的对数据资产治理的解决方案。它对所有数资产进行集中管理,搭配一系列数据治理框架和扩展的审计功能。
还有一种描述:UC 是对data lake上的数据展示进行细粒度数据治理的解决方案。它帮助简化安全性,同时对数据治理提供一个集中区域进行统一的控制访问和审计访问。

出现的原因

Databricks已经成为很普遍的数据平台,用于存储和处理数据,在满足这种功能性之后,需要考虑现今流行的一些方向:发现和治理。

组件

UC 目前由4大部分组成:Data discovery, Governance, Lineage 和Sharing。

Data discovery

通过搜索界面,可以对元数据进行结构化组织。通过对登陆用户的授权,确保搜索功能在元数据层面的安全性。

Data Governance

UC 被设计为对所有数据资产如文件,表,试图,dashboard等都可以通过一个中央存储库来完成搜索和发现。借助data governance 框架和扩展的审计日志,把所有对数据存储的操作存放在Databricks 帐户中。

Data Lineage

数据血缘在近几年出现得越来越频繁,也意味着越来越重要,它提供了企业数据流的关键信息,通过检查数据血缘,可以减少后续低质量数据的流入, 保证企业数据的质量。
想象一个场景,当一个数据表中的列,是由多个数据源的数据组合而成,那么使用UC 里面的数据血缘就可以可视化展现这个数据流。

Data Sharing

过去的数据共享缺乏足够的监控,通过UC 内置的数据共享可以控制数据的流出和使用规范。这个功能也支持多平台,不同的云之间进行数据共享。
它是一个协议,为了安全地共享数据给其他组织,并且不需要在意这些组织使用什么平台而开发的。

UC 架构

从官网的架构图可以看出UC的对象模型使用了3级命名空间来满足不同类型的数据资产。
所有存储在UC 中内容都被称为“对象(Object)” 。一旦这些内容变成了对象,就可以通过选择性访问(Selective Access)来控制对象。
在这里插入图片描述
一个UC 可以链接到多个ADB workspace, 如下图。

在这里插入图片描述

元存储

首先是元存储(Metastore),是一个特定云平台的数据目录,它通过添加一层抽象层使得用户可以更好地对数据资产分类。元存储作为一个数据资产的容器。ADB 的元存储是建立在Azure的存储帐户上。

大部分的信息如数据血缘中的查询,工作流等都存储在元存储中,不过审计日志(Audit log)则不同,它需要存储在其他地方以免元存储被删除后审计日志丢失。审计日志收集所有跟UC有关的时间如建、删、改元存储中的所有组件,包括元存储本身。

  • Metastore 是一个“数据库”,保存着关于数据的元数据,比如表的schema, 数据相关文件的实际存储路径,文件格式等。
  • 它需要手动创建。
  • Metastore因为有集中metastore 层,可以在多个ADB workspace里面共享。
  • 数据本身,数据血缘,审计日志和其他关于数据得一切都被收集和存储在元存储中。

User management

如果一个项目中,用户,组和Service Principle有权限访问特定的workspace,可以把这些对象“导入”到UC 的User Management 中。 每当这些对象要访问workspace的数据时,Workspace会先跟UC 校验这些对象是否有特定数据的访问权限。当“Authentication”(有没有访问权限) 和“Authorization”(进入后有什么权限)都校验成功后这些对象就可以正常访问允许的数据。

在这里插入图片描述

小结

简单来说,UC 是一个统一的数据治理解决方案。它通过集中控制数据访问, 细粒度权限控制,自动化负载的血缘,跨组织的数据共享来保证Databricks中的数据资产得到控制和治理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1369737.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【算法Hot100系列】有效的数独

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学习,不断总结,共同进步,活到老学到老导航 檀越剑指大厂系列:全面总结 jav…

GPS 模拟器

GPS 工具包:https://www.ni.com/es/support/downloads/software-products/download.gnss-test-toolkit.html#333303 GPS-SDR-SIM:https://github.com/osqzss/gps-sdr-sim GPS LabVIEW :http://mikioblog.dolphinsystem.jp/2017/08/gps-sdr-si…

FastApi-快速入门1

FastAPI 是一个用于构建 API 的现代、快速(高性能)的 web 框架,使用 Python 3.8 并基于标准的 Python 类型提示。 关键特性: 快速:可与 NodeJS 和 Go 并肩的极高性能(归功于 Starlette 和 Pydantic)。最快…

Exception sending a multicast message:Network is unreachable故障

出现这个故障就是没有连接到网络,如果虚拟机没有连接到本机,那么就会出现这个情况,当虚拟机连接到本机就会自动消失,同时如果是用电脑直接安装Ubuntu运行也会出现这个情况,应该是要连接到一个路由器里面这个情况才会消…

Java面向对象综合练习(拼图小游戏),用java图形化界面实现拼图小游戏

1. 设计游戏的目的 锻炼逻辑思维能力利用Java的图形化界面,写一个项目,知道前面学习的知识点在实际开发中的应用场景 2. 游戏的最终效果呈现 Hello,各位同学大家好。今天,我们要写一个非常有意思的小游戏 —《拼图小游戏》 我们…

Filter Options in Select Field

Filter Options in Select Field 假设有两个下拉字段State和City。邦有两个值卡纳塔克邦和马哈拉施特拉邦,城市有四个值,班加罗尔,迈索尔,孟买和浦那。如果希望根据State中选择的值过滤City中的选项,可以编写如下所示的…

EtherCAT主站SOEM -- 13 --Qt-Soem通过界面按键控制 EtherCAT IO模块的io输出

EtherCAT主站SOEM -- 13 --Qt-Soem通过界面按键控制 EtherCAT IO模块的io输出 一 mainwindow.c 文件函数:1.1 自定义PDO配置2.2 主站初始化2.3 去motrorcontrol界面二 motrorcontrol.c 文件三 allvalue.h 文件该文档修改记录:总结一 mainwindow.c 文件函数: mainwindow主界…

JavaScript高级程序设计读书记录(六):定型数组,Map

1. 定型数组 定型数组(typed array)是 ECMAScript 新增的结构,目的是提升向原生库传输数据的效率。实际上,JavaScript 并没有“TypedArray”类型,它所指的其实是一种特殊的包含数值类型的数组。 1.1 历史 随着浏览器…

【实用技巧】Windows 电脑向iPhone或iPad传输视频方法1:无线传输

一、内容简介 本文介绍如何使用 Windows 电脑向 iPhone 或 iPad 传输视频,以 iPhone 为例,iPad的操作方法类似,本文不作赘述。 二、所需原材料 Windows 电脑(桌面或其它文件夹中存有要导入的视频)、iPhone 14。 待…

浅析ARMv8体系结构:A64指令集

文章目录 A64指令编码格式加载与存储指令寻址模式变基模式前变基模式后变基模式 PC相对地址模式 伪指令加载与存储指令的变种不同位宽的加载与存储指令多字节内存加载和存储指令基地址偏移量模式前变基模式后变基模式 跳转指令返回指令比较并跳转指令 其它指令内存独占访问指令…

基于YOLOv8 + BotSORT实现球员和足球检测与跟踪 (步骤 + 源码)

导 读 本文主要介绍基于YOLOv8和BotSORT实现球员和足球检测与跟踪 ,并给出步骤和代码。 背景介绍 本文旨在了解 YOLO 架构并在自定义数据集上对其进行训练,然后微调模型以获得更好的结果,并运行推理以了解最有效的方法。 什么是YOLO&#x…

2024年1月10日 十二生肖 今日运势

小运播报:2024年1月10日,星期三,农历十一月廿九 (癸卯年乙丑月癸酉日),法定工作日。 红榜生肖:龙、牛、蛇 需要注意:鸡、狗、兔 喜神方位:东南方 财神方位&#xff1…

2023检索增强生成技术(RAG)研究进展

一、前言 在过去的一两年里,人工智能领域目睹了检索增强生成技术(RAG)的迅猛发展,这种技术结合了强大的语言模型与信息检索系统,以期在复杂的问题解决和信息处理任务中提供更加精确和深入的答案。正是这种对前沿科技的…

软件测试|SQL ORDER BY排序利器使用

简介 在SQL查询语言中,ORDER BY子句是一项重要的功能,它允许我们按照指定的列或表达式对查询结果进行排序。本文将详细介绍SQL ORDER BY子句的用法、常见排序方式以及在实际应用中的应用场景。 ORDER BY子句 SQL是一种用于管理和操作关系型数据库的强…

linux虚拟机网络不通,如何配置ip解决网络问题

续接前文 Hyper-V创建linux虚拟机,共享wifi网络-CSDN博客 创建虚拟机后,网络都正常,可以使用,今天的一次异常关机后(电源不小心拔掉了),再次打开这个虚拟机,网络都失效了。。。。 …

【GoLang入门教程】Go语言几种标准库介绍(五)

如何解决大模型的「幻觉」问题? 文章目录 如何解决大模型的「幻觉」问题?前言几种库image库 (常见图形格式的访问及生成)关键概念和类型:示例 IO库示例 math库(数学库)常用的函数和常量:示例 总结专栏集锦写在最后 前言 上一篇&a…

系列十四、while do...while switch模板代码

一、while & do...while & switch模板代码 1.1、while /*** 需求&#xff1a;使用while循环打印5遍Hello World!*/ Test public void print5() {int i 1;while (i < 5) {System.out.println("Hello World! " LocalDateTime.now());// 线程休眠&#x…

最新最简操作系统期末复习(考前速过)

操作系统复习 第一章&#xff08;操作系统引论&#xff09;计算机操作系统包括&#xff1a;操作系统的目标&#xff1a;操作系统的作用&#xff1a;未配置操作系统的计算机系统&#xff1a;单道批处理系统&#xff1a;缺点&#xff1a; 多道批处理系统&#xff1a;优点&#xf…

力扣——C语言:合并两个有序数组

88. 合并两个有序数组 - 力扣&#xff08;LeetCode&#xff09; 这道题有多种方法可以解决 一、暴力求解 这种方法最简单&#xff0c;我们只需要把两个数组合在一起然后在冒泡排序就可以了 代码如下&#xff1a; void merge(int* nums1, int nums1Size, int m, int* nums2…

word技巧

word这个东西有的时候令人又爱又恨&#xff0c;很多用上的时候都是因为自己贫瘠的技巧而令人抓狂&#xff0c;比如设置一个页脚和页眉&#xff0c;首页如何不同&#xff1f;目录页如何设置罗马数字&#xff1f;页眉前面几页不要横线&#xff0c;后面几页要横线&#xff0c;谨以…