《PySpark大数据分析实战》-15.云服务模式Databricks介绍创建集群

news2026/2/13 14:28:08

📋 博主简介

💖 作者简介：大家好，我是wux_labs。😜
热衷于各种主流技术，热爱数据科学、机器学习、云计算、人工智能。
通过了TiDB数据库专员（PCTA）、TiDB数据库专家（PCTP）、TiDB数据库认证SQL开发专家（PCSD）认证。
通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Databricks的使用有丰富的经验。
📝 个人主页：wux_labs，如果您对我还算满意，请关注一下吧~🔥
📝 个人社区：数据科学社区，如果您是数据科学爱好者，一起来交流吧~🔥
🎉 请支持我：欢迎大家点赞👍+收藏⭐️+吐槽📝，您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-15.云服务模式Databricks介绍创建集群

《PySpark大数据分析实战》-15.云服务模式Databricks介绍创建集群
- 前言
- 创建集群
- 数据集成
- 结束语

《PySpark大数据分析实战》-15.云服务模式Databricks介绍创建集群

前言

大家好！今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容：云服务模式Databricks介绍创建集群。

图书在：当当、京东、机械工业出版社以及各大书店有售！

创建集群

使用Databricks进行数据集成、数据分析、机器学习前，必须创建集群。通过Compute菜单打开Compute列表界面，如图所示。

Databricks支持两种类型的Compute，All-purpose compute是通用的计算资源，可用于交互式数据集成、数据分析等；Job compute是用于执行定时作业的计算资源。在All-purpose compute页面点击Create compute按钮，打开集群创建界面，如图所示。

Databricks的集群支持两种模式，Single node是单节点模式，类似于Spark的单机模式；Muti node是多节点模式，类似于Spark的独立集群模式，包含1个Master节点和多个可弹性扩缩容的Worker节点。选择Multi node选项，在Databricks runtime version下面选择Spark版本。Databricks支持两种类型的runtime版本，Standard是标准类型版本，通常用于数据工程、数据科学；ML版本包含更多的机器学习的库，适用于学习，支持GPU运算。在ML版本下选择不支持GPU运算的Spark 3.4.0版本的集群环境，如图所示。