《PySpark大数据分析实战》-15.云服务模式Databricks介绍创建集群

news2024/9/29 23:26:43

📋 博主简介

  • 💖 作者简介:大家好,我是wux_labs。😜
    热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。
    通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。
    通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
    对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究,对Databricks的使用有丰富的经验。
  • 📝 个人主页:wux_labs,如果您对我还算满意,请关注一下吧~🔥
  • 📝 个人社区:数据科学社区,如果您是数据科学爱好者,一起来交流吧~🔥
  • 🎉 请支持我:欢迎大家 点赞👍+收藏⭐️+吐槽📝,您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-15.云服务模式Databricks介绍创建集群

  • 《PySpark大数据分析实战》-15.云服务模式Databricks介绍创建集群
    • 前言
    • 创建集群
    • 数据集成
    • 结束语

《PySpark大数据分析实战》-15.云服务模式Databricks介绍创建集群

前言

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容:云服务模式Databricks介绍创建集群。

图书在:当当、京东、机械工业出版社以及各大书店有售!

创建集群

使用Databricks进行数据集成、数据分析、机器学习前,必须创建集群。通过Compute菜单打开Compute列表界面,如图所示。

Databricks支持两种类型的Compute,All-purpose compute是通用的计算资源,可用于交互式数据集成、数据分析等;Job compute是用于执行定时作业的计算资源。在All-purpose compute页面点击Create compute按钮,打开集群创建界面,如图所示。

Databricks的集群支持两种模式,Single node是单节点模式,类似于Spark的单机模式;Muti node是多节点模式,类似于Spark的独立集群模式,包含1个Master节点和多个可弹性扩缩容的Worker节点。选择Multi node选项,在Databricks runtime version下面选择Spark版本。Databricks支持两种类型的runtime版本,Standard是标准类型版本,通常用于数据工程、数据科学;ML版本包含更多的机器学习的库,适用于学习,支持GPU运算。在ML版本下选择不支持GPU运算的Spark 3.4.0版本的集群环境,如图所示。

在Worker type下面选择Worker节点的类型,主要是选择CPU核数和内存大小,以及Worker节点个数,Worker节点支持弹性伸缩,根据需要进行设置,如图所示。

在Driver type下面选择Master节点的类型,选择与Worker节点一样,如图所示。

所有配置设置完成,点击Create Cluster按钮创建集群。集群创建完成后,在Compute列表可以看到创建的集群,如图所示。

数据集成

在Databircks中可以通过URL访问HDFS上的文件,但是Databricks是部署在云端的,这种数据访问会带来网络数据传输的开销。为了能够快速访问数据,可以将文件存储在DBFS上。通过左侧菜单栏的New菜单,选择Data菜单,如图所示。

在数据集成界面列出了可以集成到Databricks的数据源,Databricks支持很多数据源的集成,如图所示。

选择DBFS,在Upload File页面下,选择words.txt上传到DBFS的/FileStore/tables/路径下,如图所示。

结束语

好了,感谢大家的关注,今天就分享到这里了,更多详细内容,请阅读原书或持续关注专栏。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1322926.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FastAPI访问/docs接口文档显示空白、js/css无法加载

如图: 原因是FastAPI的接口文档默认使用https://cdn.jsdelivr.net/npm/swagger-ui-dist5.9.0/swagger-ui.css 和https://cdn.jsdelivr.net/npm/swagger-ui-dist5.9.0/swagger-ui-bundle.js 来渲染页面,而这两个URL是外网的CDN,在国内响应超…

云仓酒庄的品牌雷盛红酒LEESON分享红酒存放几年质量最佳?

云仓酒庄的品牌雷盛红酒LEESON分享对于酒的看法,有人认为“酒是陈的香”,酒越老越好。不过对于葡萄酒来说,这种说法不完全对,如果一款葡萄酒等待的时间太久,未必是件好事。对待葡萄酒也要把握一个“度”,既…

STM32启动过程

STM32启动模式(自举模式) M3/3/7等内核,复位后做的第一件事: 从地址0x0000 0000处取出栈指针MSP的初始值,该值就是栈顶地址。从地址0x0000 0004处取出程序计数器指针PC的初始值,该值是复位向量。 芯片厂商…

【BIG_FG_CSDN】*VMware17pro*Linux*Redhit6网络管理(个人向——学习笔记)

物理机中的网络 查看物理网络的方法 “网络连接”—>单点选中网络的选项-->菜单栏中“查看此连接状态”-->“详细信息” “网络连接”中的VM网卡 在主机上对应的有VMware Network Adapter VMnet1和VMware Network Adapter VMnet8两块虚拟网卡,它们分别…

Python四种配色方案,适合科研的配色

1、Plasma(等高线图颜色)2、Inferno(黑热图颜色)3、Cividis(较好的配色方案,适用于色盲)4、Viridis(绿色主导的配色方案) 下面这四种配色是不需要指定的,Pyth…

个微和企微,哪个做私域流量的优势更大?

个人微信和企业微信是目前最为常用的私域经营平台,那在功能和使用上都有哪些区别: 1、开通对象不同: 个人微信是个人用户,个人就可以申请开通使用; 企业微信则要由企业在官方网站申请开通,并完成实名认证…

泰坦陨落2找不到msvcr120文件的修复方法,分享多种解决方法

在玩泰坦陨落2这款游戏时,有些玩家可能会遇到找不到msvcr120.dll文件的问题。这个问题可能是由于游戏缺少必要的运行库导致的。下面我将分享一些解决这个问题的方法,希望对大家有所帮助。 一、问题分析 msvcr120.dll是Microsoft Visual C Redistributab…

C语言进阶第十一节 --------程序环境和预处理(包含宏的解释)

作者前言 🎂 ✨✨✨✨✨✨🍧🍧🍧🍧🍧🍧🍧🎂 ​🎂 作者介绍: 🎂🎂 🎂 🎉🎉&#x1f389…

一招教你如何绕过OpenAI API key创建时需要手机号验证

一招教你如何绕过OpenAI API key创建时需要手机号验证 虽然现在 ChatGPT 注册门槛极大地降低。但是,如果你是开发者或者需要第三方应用接入ChatGPT,此时就需要获取一个 API key,然而你可能会发现在你在创建 key 的过程中需要进行手机号验证。…

可控硅(晶闸管)原理图及可控硅工作原理分析

可控硅(晶闸管)原理图 可控硅T在工作过程中,它的阳极A和阴极K与电源和负载连接,组成可控硅的主电路,可控硅的门极G和阴极K与控制可控硅的装置连接,组成可控硅的控制电路。 从可控硅的内部分析工作过程: 可控硅是四层…

校园转转二手市场源码+Java二手交易市场整站源码

源码介绍 校园转转二手市场源码分享,Java写的应用,mybatis-plus 和 Hibernate随心用 后台地址:/home/index/index 账号密码:admin/123456 前台地址:/system/login

企业微信自动登录自定义系统

方法一:企业微信构造OAuth2链接跳转登录到自定义系统 企业微信自定义应用配置 构造网页授权链接 如果企业需要在打开的网页里面携带用户的身份信息,第一步需要构造如下的链接来获取code参数: https://open.weixin.qq.com/connect/oauth2/…

重新配置torch1.8 cuda11.1 torchtext0.9.0虚拟Pytorch开发环境

这里写目录标题 起因发现选择安装cuda 11.1核对下自己的显卡是否支持下载该版本的CUDACUDA下载地址CUDA安装过程在anaconda中创建一个虚拟环境1.以下是环境的配置过程2.查看虚拟环境列表3.激活虚拟环境4.输入这句代码,没想到就可以直接安装torch和torchtext了[网站在…

计算机基础,以及实施运维工程师介绍

目录 一.实施,运维工程师介绍 1.什么是实施工程师? 实施工程师职责 2.什么是运维工程师? 运维工程师职责 3.实施运维需要的技术 数据库 操作系统 网络 服务器 软件 硬件 网络 二.计算机介绍 CPU 存储器 io 总线 主板 三.操…

【lesson18】MySQL内置函数(1)日期函数和字符串函数

文章目录 日期函数函数使用具体使用案例建表插入数据建表插入数据 字符串函数函数使用具体使用案例建表插入数据测试 日期函数 函数使用 获得年月日: 获得时分秒: 获得时间戳: 获得现在的时间: 在日期的基础上加日期&#xf…

JavaWeb 学生信息管理系统

介绍 ServletMysqlJdbcjQuery 实现学生信息管理系统 学生 班级 教师 系统设置 登陆 软件架构 软件架构说明 基于ServletMysqlJdbcjQuery 实现学生信息的增删改查功能 文件目录声明 src/dao 数据库的增删改查功能src/filter 网页的过滤拦截功能src/model 登陆的实体对象信息…

深度学习 Day19——P8YOLOv5-C3模块实现

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 | 接辅导、项目定制 文章目录 前言1 我的环境2 代码实现与执行结果2.1 前期准备2.1.1 引入库2.1.2 设置GPU(如果设备上支持GPU就使用GPU,否则使用C…

[BJDCTF2020]Mark loves cat1

提示 -信息收集.git泄露php代码审计 拿到题先做信息收集 这里用dirsearch扫了下目录 ###如果没有dirsearch我在之前的这篇博客有写dirsearch的安装环境以及地址还有怎么扫buuctf里的题 [GXYCTF2019]禁止套娃1-CSDN博客 从扫描结果来看这里存在git泄露 这里使用githack拉下来git…

Java并发(二十)----synchronized原理进阶

1、小故事 故事角色 老王 - JVM 小南 - 线程 小女 - 线程 房间 - 对象 房间门上 - 防盗锁 - Monitor-重量级锁 房间门上 - 小南书包 - 轻量级锁 房间门上 - 刻上小南大名 - 偏向锁 -对象专属于某个线程使用 批量重刻名 - 一个类的偏向锁撤销到达 20 阈值 -批量重偏向 …

从企业的角度看待WMS仓储管理系统的集成

随着全球化和数字化的发展,企业面临着越来越复杂的商业环境。为了满足高效运营的需求,许多企业开始寻求更先进、更集成的解决方案来优化他们的仓储流程。WMS仓储管理系统作为一种重要的解决方案,在企业中发挥着关键的作用。本文将从企业的角度…