太详细了,在 Windows 上安装 PySpark 保姆级教程

news2024/11/15 23:47:29

在本文中,我将和大家一起学习如何在 Windows 上安装和运行 PySpark,以及如何使用 Web UI 启动历史服务器和监控 Jobs。

安装 Python 或 Anaconda 发行版

https://www.python.org/downloads/windows/

Python.orgAnaconda 发行版 下载并安装 Python, 其中包括 Python、Spyder IDE 和 Jupyter notebook。我建议使用 Anaconda,因为它很受机器学习和数据科学社区的欢迎和使用。

https://www.anaconda.com/

推荐使用 Anaconda 安装 PySpark 并运行 Jupyter notebook。

技术提升

本文由技术群粉丝分享,项目源码、数据、技术交流提升,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友

方式①、添加微信号:dkl88191,备注:来自CSDN +研究方向
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群

安装 Java 8

要运行 PySpark 应用程序,需要 Java 8 或更高版本,因此从 Oracle 下载 Java 版本并将其安装在系统上。

https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

安装后设置 JAVA_HOME 和 PATH 变量。

JAVA_HOME = C:\Program Files\Java\jdk1.8.0_201  
PATH = %PATH%;C:\Program Files\Java\jdk1.8.0_201\bin  

在 Windows 上安装 PySpark

PySpark 是一个用 Python 编写的 Spark 库,用于使用 Apache Spark 功能运行 Python 应用程序。所以没有 PySpark 库可供下载。一切只需要 Spark。按照以下步骤在 Windows 上安装 PySpark。

1. 在Spark下载页面,选择 Download Spark (第3点) 链接进行下载。如果你想使用其他版本的 Spark 和 Hadoop,请从下拉列表中选择你想要的版本,第 3 点上的链接会更改为所选版本,并为你提供更新的下载链接。

https://spark.apache.org/downloads.html

2. 下载后,解压二进制文件并将底层文件夹复制 spark-3.0.0-bin-hadoop2.7c:\apps

3. 现在设置以下环境变量。

SPARK_HOME  = C:\apps\spark-3.0.0-bin-hadoop2.7  
HADOOP_HOME = C:\apps\spark-3.0.0-bin-hadoop2.7  
PATH=%PATH%;C:\apps\spark-3.0.0-bin-hadoop2.7\bin  

如果你还不知道如何在 Windows 上添加或编辑环境变量,请按照以下步骤操作。

1.打开编辑系统环境变量窗口,在高级选项卡下选择环境变量

编辑系统环境变量

2.在以下环境变量屏幕上,通过选择新建选项添加 SPARK_HOMEHADOOP_HOMEJAVA_HOME

3. 这将打开用户变量窗口,可以在其中输入变量名称和值。

4.现在编辑PATH变量

5. 通过选择新建选项添加 Spark、Java 和 Hadoop bin 路径。

在 Windows 上安装 winutils.exe

从winutils 下载 winutils.exe 文件 ,并将其复制到%SPARK_HOME%\bin文件夹中。Winutils 对于每个 Hadoop 版本都不同,因此请从下载正确的版本。

https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe

PySpark shell

现在打开命令提示符并键入 pyspark 命令以运行 PySpark shell。应该在下面看到类似的内容。

Spark-shell 还创建了一个 Spark 上下文 Web UI,默认情况下,它可以从 http://localhost:4041/ 访问。

Web UI

Apache Spark 提供了一套 Web UI(Jobs, Stages, Tasks, Storage, Environment, Executors, and SQL)来监控 Spark 应用程序的状态。

Spark Web UI

历史服务器

历史服务器,记录你通过 spark-submit、pyspark shell 提交的所有 PySpark 应用程序。在开始之前,首先需要设置以下配置 spark-defaults.conf

spark.eventLog.enabled true  
spark.history.fs.logDirectory file:///c:/logs/path  

现在,通过运行在 Linux 或 Mac 上启动历史服务器。

$SPARK_HOME/sbin/start-history-server.sh  

如果在 Windows 上运行 PySpark,可以通过启动以下命令来启动历史服务器。

$SPARK_HOME/bin/spark-class.cmd org.apache.spark.deploy.history.HistoryServer  

默认情况下,历史服务器监听 18080 端口,你可以使用http://localhost:18080/从浏览器访问它。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/83416.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在win10和docker下安装DVWA

win10安装 DVWA下载地址https://github.com/digininja/DvWA/archive/master.zip 在phpstudy软件包下的www文件夹中新建一个文件夹名为dvwa,把DVWA-master压缩包解压进去 删除/dvwa/config文件夹下的config.inc.php.dist文件的.dist后缀 打开config.inc.php&#x…

接口测试(四)—— Requests库发送请求、Cookie、Session、UnitTest管理测试用例

目录 一、Requests库 1、Requests库安装和简介 1.1 简介 1.2 安装 1.3 查验 2、设置http请求语法 2.1 案例1 2.2 案例2 2.3 案例3 2.4 案例4 2.5 案例5 3、Cookie 3.1 Cookie简介 3.2 CookieSession认证方式 3.3 案例 4、Session 4.1 Session简介 4.2 Sessi…

Flask从入门到放弃二(请求与相应、Session的使用与源码分析、Flash闪现、异步说明、请求拓展、BluePrint蓝图)

文章目录一、请求与响应1)请求对象2)响应对象3)前后端分离和混合二、Session的使用和原理1)Session的使用2)Session源码分析三、Flash闪现四、异步说明五、请求扩展六、BluePrint蓝图一、请求与响应 1)请求…

中国移动ZN-M160G光猫超级密码破解 | 河南移动兆能光猫超管密码获取 | 中国移动光猫如何开启UPnP功能

文章目录1. 按2. 重设光猫超管密码3. 开启UPnP功能1. 按 首先应确保设备型号是ZN-M160G,这点可以通过观察光猫底部的铭牌或者访问http://192.168.1.1/查看网页标题,因为本教程是基于兆能的这款ZN-M160G光猫进行操作的,其他的光猫&#xff08…

微信小程序框架(四)-全面详解(学习总结---从入门到深化)

目录 路由_navigateTo 页面跳转 携带参数 返回上一级页面 路由_redirectTo 页面跳转 路由_reLaunch 页面跳转 路由_switchTab 实现 tabbar 页面跳转 交互_消息提示框 基本弹出框 常用属性 icon详情 hideToast 交互_ loading 提示框 基本实现 常用属性 交互_模…

这次我把Redis数据类型写出了花✿❀~~~

1. String 字符串是 Redis 最基本的数据类型,不仅所有 key 都是字符串类型,其它几种数据类型构成的元素也是字符串。注意字符串的长度不能超过 512M。 1.1 编码方式(encoding) 字符串对象的编码可以是 int ,raw 或者…

1566_AURIX_TC275_电源管理_低功耗模式

全部学习汇总:GreyZhang/g_TC275: happy hacking for TC275! (github.com) Idle模式每一个核都可以单独进入,但是standby、sleep模式是会影响整个系统的。进入idle模式的几种方法:软件请求、其他的CPU进行软件请求、SMU因为报警等处理进行请求…

CSS -- 精灵图(sprites)的讲解及使用方法

文章目录精灵图(sprites)1 为什么使用精灵图2 精灵图的使用精灵图(sprites) 1 为什么使用精灵图 一个网页中往往会应用很多小的背景图像作为修饰,当网页中的图像过多时,服务器就会频繁地接收和发送请求图片,造成服务器请求压力过大&#xff…

ja3指纹 笔记

通过给openssl和nginx打补丁获取ja3指纹: https://github.com/phuslu/nginx-ssl-fingerprint 这个项目算出来的ja3指纹和wireshark的不完全一致,wireshark后面的是“-21,29-23-24,0”, 小小不同,👀。。 通过wireshark查看ja3指…

Selenium Grid 分布式 | 介绍与实战

一. 介绍 Selenium 包含 3 大组件,分别是:Selenium IDE、Selenium WebDriver、Selenium Grid 其中,Selenium IDE 负责录制、回放脚本,模拟用户对页面的真实操作 Selenium WebDriver 提供 API 来操作浏览器,比如&…

vue面试考察知识点全梳理

一、简介 vue几个核心思想: 数据驱动组件化虚拟dom、diff局部最优更新 源码目录介绍 Vue.js 的源码在 src 目录下,其目录结构如下。 src ├── compiler # 编译相关 ├── core # 核心代码 ├── platforms # 不同平台…

速度百倍提升,高性能 Python 编译器 Codon 火了

众所周知,Python 是一门简单易学、具有强大功能的编程语言,在各种用户使用统计榜单中总是名列前茅。相应地,围绕 Python,研究者开发了各种便捷工具,以更好的服务于这门语言。 编译器充当着高级语言与机器之间的翻译官…

4.19 Cadence Allegro软件中应该如何按照系统模板去创建PCB封装?异形表贴焊盘应该如何创建?

笔者电子信息专业硕士毕业,获得过多次电子设计大赛、大学生智能车、数学建模国奖,现就职于南京某半导体芯片公司,从事硬件研发,电路设计研究。对于学电子的小伙伴,深知入门的不易,特开次博客交流分享经验&a…

js常用函数

一、特常用函数以及功能解释(建议掌握) 1、alert()函数:显示一个警告对话,如: alert(1111) 2、eval()函数:计算表达式的结果,如: alert(eval(11)) 3、confirm()函数:显…

3 面蚂蚁,一路过关斩将 成功拿到 offer 定级 P6,大厂面试雀食有点难

线上服务 CPU 很高该怎么做&#xff1f;有哪些措施可以找到问题 JDK 中有哪几个线程池&#xff1f;顺带把线程池讲了个遍 应尽量避免在 where 子句中使用!或<>操作符&#xff0c;否则将引擎放弃使用索引而进行全表扫描 SQL 索引的顺序&#xff0c;字段的顺序 查看 SQ…

缓存一致性解决方案

文章目录常见的缓存一致性解决方案双写模式失效模式两种模式的总结上述模式的改进常见的缓存一致性解决方案 这里的缓存一致性其实就是缓存中的数据和数据库中的数据如何保持一致. 这个问题根据具体的业务场景和需要解决起来略有差异,但是总体看以分为两类,双写模式和失效模…

C-Frost安装及Cassie计算样例

本文运行环境为&#xff1a;Matlab2021b/Mathematic 13/Ubuntu18.04 matlab安装mathematic安装 一、 C-Frost安装 1、安装ipopt 安装参考 2、执行NLP例子验证是否安装成功 官方步骤 1&#xff09;修改create_problem.m文件中的 FROST_PATH路径 2&#xff09;修改CMakeL…

写代码时记录的小技巧

本文是记录自己写代码时候遇到的一些感觉比较有用/有意思的技巧&#xff0c;怕自己忘了记录一下。如果有想要分享的思路/纠正改进的地方欢迎交流。 如何输出结果 (Verbose Trick) 有关类的输出 1. 如果想在**模型的 forward 中输出相关变量**&#xff0c;但又不希望反复输出影…

Oracle如何删除归档日志文件?

Oracle如何删除归档日志文件&#xff1f; Oracle启用归档日志的状态下&#xff0c;会在指定的归档日志目录生成大量的日志文件&#xff0c;而且这些日志文件默认是不会定期清理。长时间运行下&#xff0c;会占用大量的存储空间&#xff0c;最终可能导致Oracle没有足够的空间维持…

Linux集成环境部署tomcat+Linux

Linux环境部署 tomcat redisTomcat 安装配置Redis安装配置Tomcat 安装配置 下载tomcat安装包&#xff0c;将安装包上传至自己的linux服务器中&#xff0c;将安装包传到linxu环境中的/usr/local/tomcat下&#xff0c;使用tar -xvf 命令解压 2. 进入到bin目录下&#xff0c;给所…