【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog

news2024/9/29 23:02:18

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。
接上文 【Azure 架构师学习笔记】- Azure Databricks (5) - Unity Catalog 简介

UC的关键特性

之所以DataBricks要用UC, 很大程度是对安全的管控。从上文可以了解到它的四大特性:

  1. 数据访问控制: 谁可以访问什么数据
  2. 数据访问审计: 收集访问数据的行为
  3. 数据血缘: 收集上游来源和下游消费者
  4. 数据发现: 可用于查询和发现已授权的资产

UC开启前后的变化

这是一个很重要的图,如果不是从0开始使用UC 而是迁移,那么很有必要了解前后发生了什么事。

从下图可以看出,UC 把User/Group management, Metastore, Access controls 从过去单个workspace中提取出来集中管理。workspace只负责计算资源的管理。

在这里插入图片描述

这种变化会使得原有在单个workspace上的配置迁移到UC 内部,这个过程会出现很多问题和改动, 所以要有心理准备在迁移过程中会花费不少时间。

接下来我们先搭建环境,以便后续重现很多问题。

创建UC

首先假设你已经有了一个ADB, 并具有了Admin的权限。然后进去ADB的workspace,从右上角如下图所示的“Manage Account”进去配置界面。
在这里插入图片描述
然后从下图所示点击“data”进入常见Metastore界面。

在这里插入图片描述
点击“Create metastore”

在这里插入图片描述

配置必填信息,对于非必填的选项(在稍微旧一点的版本中这四个都是必填项)我们可以看看它的说明,对于实际项目而言,我们最好建立一个单独的Storage Account(ADLS Gen2 类型)来存储。

在这里插入图片描述
接下来快速演示一下,创建一个ADLS Gen 2 ,过程略。然后创建一个container, 我这里叫uccontainer, 并在其内部创建一个目录名为:folder
在这里插入图片描述
然后从endpoint处找到“Data Lake Storage”的endpoint值, 这个值以"Container名字@endpoint名字/目录名"的格式填入,如我这里:
uccontainer@georgesa202311.dfs.core.windows.net/folder 为录入值。

在这里插入图片描述

接下来看access connector,如果上面指定了ADLS , 那么这个值就要同时提供。

在这里插入图片描述
从portal上搜索并点击进去创建。
在这里插入图片描述
可以简单默认创建。

在这里插入图片描述

获取下图中的值。填入上面metastore的创建界面中。
在这里插入图片描述

在点击创建时,可能会出现以下报错,这是因为引入了额外的Storage Account后需要赋权:
在这里插入图片描述

授权ADLS Gen2

在所用的ADLS 上点击IAM, 选择“storage blob data contributor”:

在这里插入图片描述

授权给Accessconnector:
在这里插入图片描述
授权成功:

在这里插入图片描述

除了RBAC 外,还要授权ACL:

在这里插入图片描述

这里把Access Connector授予Read, Write 和Execute权限:
在这里插入图片描述

在这里插入图片描述
除了Access Permissions之外,还要配置Default permissions,这是针对后续新增加的子目录,如果没有这个配置,权限仅针对当前配置有效。
在这里插入图片描述
配置完毕之后,再次点击创建,可以看到创建metastore成功:

在这里插入图片描述

启用metastore

按下图步骤启用metastore
在这里插入图片描述
启用成功。

在这里插入图片描述

点击【open】即可开始使用UC。
在这里插入图片描述

从下面图中可以看到前一章提到的一些关于UC 的内容。
在这里插入图片描述

也可以在此处进行控制访问。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

小结

到此为止,我们有了一个初步的环境,接下来将继续深入研究UC。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1395944.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ELK之Filebeat输出日志格式设置及输出字段过滤和修改

一、Filebeat输出日志格式设置 1.1 编辑vim filebeat.yml文件,修改输出格式设置 # output to console output.console:codec.format: string: %{[@timestamp]} %{[message]}pretty: true### 1.2 测试 执行 ./filebeat -e 可以看到/tmp/access.log(目前文件里只有140.77.188…

HCIP-7

IPV6: 为什么使用IPV6: V4地址数量不够V4使用NAT,破坏了端到端原则 IPV6的优点: 全球单播地址聚合性强(IANA组织进行合理的分配)多宿主----一个接口可以配置N个地址--且这些地址为同一级别自动配置---1)…

【概述版】悲剧先于解析:在大型语言模型的新时代,历史重演了

这篇论文探讨了大型语言模型(LLM)的成功对自然语言处理(NLP)领域的影响,并提出了在这一新时代中继续做出有意义贡献的方向。作者回顾了2005年机器翻译中大型语法模型的第一个时代,并从中汲取教训和经验。他…

【2024最新-python3小白零基础入门】No4.python控制语句学习

文章目录 1 选择结构1.1 if语句 2 循环结构2.1 while循环语句2.2 for循环语句2.3 break、continue、pass在循环中的用途 对于 Python 程序中的执行语句,默认是按照书写顺序依次执行的,这时称这样的语句是顺序结构的。但是,仅有顺序结构还是不够的,因为有时需要根据特定的情况,有…

Git教程学习:03 记录每次更新到仓库

文章目录 1 检查当前文件状态2 跟踪新文件3 暂存已修改的文件4 状态简览5 忽略文件6 查看已暂存和未暂存的修改7 提交更新8 跳过使用暂存区域9 移除文件10 移动文件 现在我们的机器上有了一个 真实项目 的 Git 仓库,并从这个仓库中检出了所有文件的 工作副本。 通常…

Asp.Net期末课程设计——教学大纲查询系统(C#)(mysql或sqlserver)

前言 声明:该文章只是做技术分享,若侵权请联系我删除。!! 感谢大佬的视频: https://www.bilibili.com/video/BV1zQ4y157Kz/?vd_source5f425e0074a7f92921f53ab87712357b 源码:https://space.bilibili.co…

实验笔记之——基于TUM-RGBD数据集的SplaTAM测试

之前博客对SplaTAM进行了配置,并对其源码进行解读。 学习笔记之——3D Gaussian SLAM,SplaTAM配置(Linux)与源码解读-CSDN博客SplaTAM全称是《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,…

服务器数据恢复—异常关机导致Linux服务器目录项被破坏数据恢复案例

服务器数据恢复环境: 某品牌PowerEdge R730服务器PowerVault MD3200存储,划分若干lun,操作系统版本是centos7,EXT4文件系统。 服务器故障&分析: 服务器在运行过程中自动关机且无法启动,服务器管理员对服…

JS遍历对象的方法及特点

1、定义一个对象 let obj {name: Tom,age: 20,sex: 男,};obj.weight 70kg;// obj的原型上定义属性Object.prototype.height 180cm;Object.prototype.major function() {console.log(专业:计算机应用技术);};console.log(obj, obj); 控制台输出的obj中&#xff…

关于Windows 10的开始菜单的使用,看这篇文章就足够了

在Windows 10上,“开始”菜单是一个重要的组件,因为它是你每天用来查找应用程序、设置和文件的体验。 尽管多年来,开始菜单经历了许多转变,甚至一度从操作系统中删除,但这个版本将Windows 7的熟悉感与Windows 8.x的现代开始屏幕结合在一起。 开箱即用,开始菜单包括一个…

帕金森的危害你知道多少?

帕金森是中老年的人群的高发病,那么你知道帕金森的危害有多少吗?看了这篇文章你就知道了...... ①肢体静止时会不自觉手抖 帕金森病人早期最早出现的症状就是震颤,如果不加以干预,持续下去甚至会累及面部器官。最早期的震颤是不易…

锐浪报表 Grid++Report 表头重复打印

一、问题提出 锐浪报表 GridReport,打印表格时,有时需要重复打印表头,有时需要取消重复打印表头,实现连续打印数据明细。见下表: 首页: 后续页:(无表头) 按需要&#xf…

NVIDIA 大模型 RAG 分享笔记

文章目录 大语言模型在垂直领域落地的三个挑战:什么是 RAG以及为什么能解决大预言模型所带来的的这三个问题RAG 不是一项技术而是整体的 Pipeline非参数化 :数据库部分加载到数据库中检索阶段 提升检索效率的技术检索前:对query做处理use que…

FPGA引脚物理电平(内部资源,Select IO)-认知2

引脚电平 The SelectIO pins can be configured to various I/O standards, both single-ended and differential. • Single-ended I/O standards (e.g., LVCMOS, LVTTL, HSTL, PCI, and SSTL) • Differential I/O standards (e.g., LVDS, Mini_LVDS, RSDS, PPDS, BLVDS, and…

【02】mapbox js api加载arcgis切片服务

需求: 第三方的mapbox js api加载arcgis切片服务,同时叠加在mapbox自带底图上 效果图: 形如这种地址去加载: http://zjq2022.gis.com:8080/demo/loadmapbox.html arcgis切片服务参考链接思路:【01】mapbox js api加…

Jupyter-Notebook无法创建ipynb文件

文章目录 概述排查问题恢复方法参考资料 概述 用户反馈在 Notebook 上无法创建 ipynb 文件,并且会返回以下的错误。 报错的信息是: Unexpected error while saving file: Untitled5.ipynb attempt to write a readonly database 排查问题 这个是一个比较新的问…

Improving Generative Modelling in VAEs Using Multimodal Prior

local representation vector r, ϵ \epsilon ϵ is i.i.d Gaussian 额外信息 作者未提供代码

对话吴翰清:把全世界AI联合起来,打败OpenAI这个垄断怪兽

前面坐着吴翰清,这个中国互联网技术圈里多少有点传奇色彩的“黑客”。 不是所有人都会成为某种互联网都市传说的主角,但他却一个人占了好几个,什么单枪匹马黑掉了阿里的网络,什么在拉斯维加斯坐着大巴车一路走一路黑掉了路旁酒店…

【开源】基于JAVA的教学资源共享平台

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 课程档案模块2.3 课程资源模块2.4 课程作业模块2.5 课程评价模块 三、系统设计3.1 用例设计3.2 类图设计3.3 数据库设计3.3.1 课程档案表3.3.2 课程资源表3.3.3 课程作业表3.3.4 课程评价表 四、系统展…

PyTorch各种损失函数解析:深度学习模型优化的关键(1)

目录 详解pytorch中各种Loss functions binary_cross_entropy 用途 用法 参数 数学理论 示例代码 binary_cross_entropy_with_logits 用途 用法 参数 数学理论 示例代码 poisson_nll_loss 用途 用法 参数 数学理论 示例代码 cosine_embedding_loss 用途 …