【Azure 架构师学习笔记】- Azure Databricks (1) - 环境搭建

news2025/1/13 13:53:20

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。

前言

Databricks 已经成为了数据科学的必备工具,今时今日你已经很难抛开它来谈大数据,它常用于做复杂的ETL中的T, 数据分析,数据挖掘等,特别适用于做数据建模,机器学习等。

那么顺应时代,现在也来看看这个工具的内容。首先要有一个环境,基于Azure 的Databricks简称ADB。托管在Azure 上的Databricks已经被Azure进行了很大的优化, 在搭建时只需要简单的几步即可拥有一个环境,不过要提醒一句ADB的集群并不便宜,用完马上删掉或停止, 否则一晚过百美金就会烧掉。

搭建环境

步骤1: 创建ADB workspace

可以把Workspace想象成一个装在Azure上的应用程序,然后通过它进入Databricks的环境。通过下图,创建一个workspace:
在这里插入图片描述
创建的步骤很简单,提供一些简单信息,对于pricing tier处,可以先按默认选择,在实际环境中则需要考虑具体的费用和用法。

在这里插入图片描述

点击创建后等待几分钟即可完成:

在这里插入图片描述

Databricks 内部布局

通过workspace进去之后可以看到下图的布局,ADB 的版本更新可能会导致布局的偏差,不过基本功能都不会变。
在这里插入图片描述
我们主要用到的一些导航栏有:

  • Workspace: 通过一个“文件系统”把你的notebooks进行逻辑分组。默认情况下会有两个:Shared 和Users, Shared 文件夹用来存储共同协作notebooks。 users则只给创建的用户自己访问。可以在这里进行权限控制来保证多用户使用时的安全性。
  • Recents:存储最近访问的资源列表。
  • Compute:ADB的核心运算组件——集群所在地。

在这里插入图片描述

步骤3 创建集群

除了权限, ADB 中常规的必要操作就是创建和管理集群, 从Compute导航栏进去,点击创建集群:
在这里插入图片描述
集群选项不是非常多,最主要的部分是节点(min/ max workers)这个决定你运行时的费用和性能。还有自动停止时间,如果你担心忘记了手动停止,那么就这下图第二个箭头处填上合适的时间,让集群在没有活动后的多少分钟内停止。

在这里插入图片描述

创建时会出现下面左边箭头的图标,叫作pin cluster, ADB 的集群有个特性, 当集群建立后闲置30天都没有被用过,就会自动销毁,通过pin住集群可以避免在重要的环境下集群的异常消失。
集群创建后,在右边箭头中可以开始,停止集群。
在这里插入图片描述
创建完毕后的集群样子:
在这里插入图片描述

到此为止,物理上的搭建已经初步完成。下一文将对ADB 的集群进行更深入的研究,因为它实在太重要,而且费用贵。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1274438.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[架构之路-255]:目标系统 - 设计方法 - 软件工程 - 软件设计 - 架构设计 - 软件架构风格

目录 前言: 一、建筑风格 1.1 什么是建筑风格 1.2 常见的建筑风格 1.3 如何区分不同的建筑风格 二、软件架构风格概述 2.1 什么是软件架构风格 2.2 如何区分不同的软件架构风格 2.3 软件架构风格的发展阶段 2.4 软件架构风格与软件架构的区别 2.5 常见的…

在 S/4HANA、ECC 和 ERP 上轻松扩展或简化 SAP WM,并将其自动化到移动环境中

为您的 SAP WM 提供完整的本地 SAP 图形用户界面 基于原生通道架构(NCA),iOS、Android 和手持 Scanguns 版 Liquid UI 可与 SAP WM 原生连接,同时保留 SAP GUI 丰富的事务处理功能。它使您无需编程即可直接从移动设备访问 MIGO、…

知识图谱最简单的demo实现——基于pyvis

1、前言 我们在上篇文章中介绍了知识图谱的简单实现,最后使用neo4j进行了展示,对于有些情况我们可能并不想为了查看知识图的结果再去安装一个软件去实现,那么我们能不能直接将三元组画出来呢/ 接下来我们就介绍一个可视化的工具pyvis&#…

Memcached最新2023年面试题,高级面试题及附答案解析

文章目录 01、Memcached是什么,有什么作用?02、Memcached的多线程是什么?如何使用它们?03、Memcached与Redis的区别?04、如果缓存数据在导出导入之间过期了,怎么处理这些数据呢?05、如何实现集群…

网站提示不安全?

随着互联网的普及和发展,网络安全问题日益严重。黑客攻击、数据泄露、恶意软件等问题层出不穷,给企业和个人带来了巨大的损失。在这个背景下,确保网站安全显得尤为重要,而使用SSL证书是解决这些问题的有效措施。 什么是SSL证书&am…

【23-24 秋学期】NNDL 作业9 RNN - SRN

简单循环网络(Simple Recurrent Network,SRN)只有一个隐藏层的神经网络. 目录 1. 实现SRN (1)使用Numpy (2)在1的基础上,增加激活函数tanh (3&#xff0…

剪辑素材,6个可白嫖的视频素材网站

找视频素材就上这6个网站,免费下载,赶紧收藏好! 1、菜鸟图库 https://www.sucai999.com/video.html?vNTYxMjky 菜鸟图库网素材非常丰富,网站主要以设计类素材为主,高清视频素材也很多,像风景、植物、动物…

HTML—列表、表格、表单

1、列表 作用:布局内容排列整齐的区域 列表分类:无序列表、有序列表、定义列表 1.1 无序列表 作用:布局排列整齐的不需要规定顺序的区域 标签:ul 嵌套 li,ul 是无序列表,li 是列表条目 注意事项&#…

服务器数据恢复—EMC存储raid5故障导致上层应用崩溃的数据恢复案例

服务器存储数据恢复环境: EMC某型号存储,8块组建一组raid5磁盘阵列。上层操作系统采用zfs文件系统。 服务器存储故障&分析: raid5阵列中有2块硬盘未知原因离线,raid5阵列崩溃,上层应用无法正常使用。 服务器数据恢…

luceda ipkiss教程 38:等长波导布线

这次介绍通过调整圆弧角度实现等长弯曲波导布线的案例: 四段波导的长度分别为: 所有代码如下: from si_fab import all as pdk from ipkiss3 import all as i3 class MMI1x4(i3.PCell):_name_prefix "MMI1x4" # adding a nam…

事务--02---TCC模式

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 TCC模式两阶段提交 的模型 1.流程分析阶段一( Try ):阶段二(Confirm):阶段二(Canncel): 2.事…

利用ARCGIS做地下水脆弱性评价分析

(一)行政边界数据、土地利用数据和土壤类型数据 本文所用到的河北唐山行政边界数据、土地利用数据和土壤类型数据均来源于中国科学院资源环境科学与数据中心(https://www.resdc.cn/Default.aspx)。 (二)地…

【shell】正则表达式和AWK

一.正则表达式 通配符匹配文件(而且是已存在的文件) 基本正则表达式扩展正则表达式 可以使用 man 手册帮助 正则表达式:匹配的是文章中的字符 通配符:匹配的是文件名 任意单个字符 1.元字符(字符匹配&…

SAP_ABAP_编程基础_内表_创建内表 / 填充内表 / 读取内表 /修改和删除内表行 / 内表排序 / 创建顺序表 / 比较内表 / 初始化内表

SAP ABAP 顾问(开发工程师)能力模型_Terry谈企业数字化的博客-CSDN博客文章浏览阅读470次。目标:基于对SAP abap 顾问能力模型的梳理,给一年左右经验的abaper 快速成长为三年经验提供超级燃料!https://blog.csdn.net/j…

Pandas进阶:transform 数据转换的常用技巧

引言 本次给大家介绍一个功能超强的数据处理函数transform,相信很多朋友也用过,这里再次进行详细分享下。 transform有4个比较常用的功能,总结如下: 转换数值 合并分组结果 过滤数据 结合分组处理缺失值 一. 转换数值 pd.…

观海微电子---AF、AG、AR 的差别和作用

一、名称解释及原理 1.AF ---- Anti-fingerprint,中文为抗指纹。一般 SiO2AF 材料(DON,M4、道康宁 AF 材料),一般采用真空蒸发镀膜法。 原理:AF 防污防指纹玻璃是根据荷叶原理,在玻璃外表面涂制…

⭐ Unity + ARKIT ARFace脸部追踪

相比之前的图像物体检测,这脸部检测实现起来会更加的简单。 (1)首先我们先在场景中的物体上添加一个AR Face Mananger组件: (2)以上組件的 Face Prefab所代表的就是脸部的模型也就是覆盖在脸部上面的投影模…

单片机怎么实现真正的多线程?

单片机怎么实现真正的多线程? 不考虑多核情况时,CPU在一个时间点只能做一件事,因为切换的速度快所以看起来好像是同时执行多个线程而已。 实际上就是用定时器来做时基,以时间片的方式分别执行来实现的,只不过实现起来细节比较复…

代码级接口测试与单元测试的区别

关于接口测试 接口测试是一个比较宽泛的概念, 近几年在国内受到很多企业和测试从业者的追捧, 尤其是上层的UI在取悦用户的过程中迭代更新加快, UI自动化维护成本急剧上升的时代, 大家便转向了绕过前端的接口层面进行测试. 但是很多人, 对接口测试的理解并不完整, 事实上, 我们…

Django 用户验证与权限管理详解

概要 Django是一款强大且灵活的Python Web框架,不仅在构建功能复杂的网站应用中表现出色,还在诸如用户验证、权限管理等细微之处提供了优秀的解决方案。在多用户、权限复杂的Web应用中,认证和权限管理尤其重要。接下来,我们就来探…