windows10搭建spark本地开发环境

news2024/11/16 10:24:25

windows10搭建spark本地开发环境

  • 1. spark概述
  • 2. 安装spark
    • 2.1 Windows10 安装Spark本地开发环境
      • 2.1.1 **版本说明**
      • 2.1.2 **环境准备**
        • 2.1.2.1 JDK 安装和配置
          • 2.1.2.1.1 JDK下载
          • 2.1.2.1.2 JDK安装
          • 2.1.2.1.3 JDK配置
        • 2.1.2.2 Scala 安装和配置
          • 2.1.2.2.1Scala下载
          • 2.1.2.2.2 Scala安装
          • 2.1.2.2.3 Scala配置
        • 2.1.2.3 Hadoop 安装和配置
          • 2.1.2.3.1 Hadoop下载
          • 2.1.2.3.2 Hadoop安装
          • 2.1.2.3.3 Hadoop配置
        • 2.1.2.4 Spark 安装和配置
          • 2.1.2.4.1 Spark下载
          • 2.1.2.4.2 Spark安装
          • 2.1.2.4.3 Spark配置
  • 参考文档

1. spark概述

注意:Spark3.0、Spark3.1是由Scala2.12预编译,但是Spark 3.2+是采用Scala 2.13预编译。

2. 安装spark

2.1 Windows10 安装Spark本地开发环境

2.1.1 版本说明

  • JDK 1.8
  • Scala 2.12.x,具体版本为2.12.17
  • Hadoop 3.2.2
  • IntelliJ IDEA 2019.3.3 (Ultimate Edition)
  • Spark 3.0.2

Spark版本和Hadoop的版本关系并没有明确的限制,但是Spark官方已经预编译好了几个版本的spark包,我们可以直接下载使用,如果预编译好的spark包中没有合适,则需要自己来通过spark的源码进行编译了。
在这里插入图片描述

Spark 3.0.2的官方下载地址:https://archive.apache.org/dist/spark/spark-3.0.2/

当下载spark-3.0.2时发现,有如下几种spark包:

  • SparkR_3.0.2.tar.gz:SparkR是一个R语言包,它提供了轻量级的方式使得可以在R语言中使用Apache Spark。包括SparkR 的交互式命令行窗口。
  • pyspark-3.0.2.tar.gz:PySpark简单来说就是Spark提供的Python编程API,包括交互式的PySpark shell和非交互式的Python程序。参考:https://blog.csdn.net/qq_40856560/article/details/116027896
  • spark-3.0.2-bin-hadoop2.7-hive1.2.tgz: 预编译好的支持Hadoop 2.7.x,Hive 1.2.x的spark 3.0.2的包
  • spark-3.0.2-bin-hadoop2.7.tgz: 预编译好的支持Hadoop 2.7.x 的spark 3.0.2的包
  • spark-3.0.2-bin-hadoop3.2.tgz: 预编译好的支持Hadoop 3.2.x 的spark 3.0.2的包
  • spark-3.0.2-bin-without-hadoop.tgz: spark中没有关联Hadoop的包,当运行此版本的spark时,需要用户手动将spark和hadoop关联上,参考:https://blog.csdn.net/yoshubom/article/details/104598483
  • spark-3.0.2.tgz: spark源码包,可以根据需要自己编译出指定Hadoop版本,Hive版本的spark包

2.1.2 环境准备

2.1.2.1 JDK 安装和配置

2.1.2.1.1 JDK下载

JDK下载地址:https://www.oracle.com/java/technologies/downloads/

目前最新的稳定版为JDK 17
请添加图片描述

但是,我们要下载JDK8。单击页面中的Java archive

请添加图片描述

单击Java SE 8,进入JDK 8 下载页面。

请添加图片描述

单击下载jdk-8u271-windows-x64.exe

请添加图片描述

2.1.2.1.2 JDK安装

双击jdk-8u271-windows-x64.exe进行JDK8的安装。

2.1.2.1.3 JDK配置

在系统环境变量中添加JAVA_HOME,并将JAVA_HOME添加到系统环境变量的Path中。

增加 JAVA_HOME:D:\services\Java\jdk1.8.0_261

Path中新增:%JAVA_HOME%\bin和%JAVA_HOME%\jre\bin

CLASSPATH中新增:%JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar

验证JDK是否安装正确了
请添加图片描述
说明JDK已经安装好了。

2.1.2.2 Scala 安装和配置

Scala官网

2.1.2.2.1Scala下载

Scala下载地址:https://www.scala-lang.org/download/all.html
请添加图片描述
下载scala-2.12.17.zip,,然后在手动配置系统环境变量即可。当然也可以下载scala 2.12.17.msi,然后根据提示进行安装

请添加图片描述
请添加图片描述

2.1.2.2.2 Scala安装

解压scala-2.12.17.zipD:\services\scala-2.12.17

2.1.2.2.3 Scala配置

在系统环境变量中添加SCALA_HOME,并将SCALA_HOME添加到系统环境变量的Path中。

我的电脑 > 属性 > 高级系统配置 > 环境变量

进入高级系统设置

请添加图片描述

进入环境变量

请添加图片描述

新建SCALA_HOME环境变量

请添加图片描述

请添加图片描述

SCALA_HOME 添加到系统环境变量Path中

请添加图片描述

请添加图片描述

请添加图片描述
请添加图片描述

验证下scala是否安装和配置正确了

请添加图片描述

上图说明scala安装好了。

2.1.2.3 Hadoop 安装和配置

2.1.2.3.1 Hadoop下载

浏览器打开https://hadoop.apache.org/releases.html 页面,点击图中的连接(https://archive.apache.org/dist/hadoop/common),跳转到历史版本的hadoop的下载页面。

请添加图片描述

找到hadoop-3.2.2,点击进入。
请添加图片描述

可以看到,有好几种hadoop的tar包。

请添加图片描述

  • hadoop-3.2.2-rat.txt:
  • hadoop-3.2.2-site.tar.gz:
  • hadoop-3.2.2-src.tar.gz:
  • hadoop-3.2.2.tar.gz:

这里选择下载hadoop-3.2.2.tar.gz,但是从官网下载十分慢,所以在华为云镜像网站进行下载,网址如下:https://repo.huaweicloud.com/apache/hadoop/core/hadoop-3.2.2/

请添加图片描述

下载完毕。
请添加图片描述

2.1.2.3.2 Hadoop安装

解压Hadoop安装包,解压到D:\services\

请添加图片描述

2.1.2.3.3 Hadoop配置

在系统环境变量中添加HADOOP_HOME,并将HADOOP_HOME添加到系统环境变量的Path中。

我的电脑 > 属性 > 高级系统配置 > 环境变量

进入高级系统设置

请添加图片描述

进入环境变量

请添加图片描述

新建HADOOP_HOME环境变量

请添加图片描述

请添加图片描述

HADOOP_HOME 添加到系统环境变量Path中

请添加图片描述
请添加图片描述

请添加图片描述
请添加图片描述

验证Hadoop的环境变量是否配置好了。

请添加图片描述

执行hadoop version命令是正常的。

2.1.2.4 Spark 安装和配置

2.1.2.4.1 Spark下载

Spark官方网站下载地址

请添加图片描述

注意:Spark 3是由Scala 2.12构建的,Spark 3.2+是由Scala 2.13构建的,在安装Spark时需要安装对应版本的Scala。

由于当前Spark最新的稳定版为spark-3.3.1-bin-hadoop3.tgz,因此我们需要找到之前版本的spark。

在这里插入图片描述

单击archived releases中的网址,如下所示:

在这里插入图片描述

找到spark-3.0.2的目录,进去之后单击下载spark-3.0.2-bin-hadoop3.2.tgz
在这里插入图片描述

2.1.2.4.2 Spark安装

解压spark安装包,解压到D:\services\spark-3.0.2-bin-hadoop3.2
请添加图片描述

2.1.2.4.3 Spark配置

在系统环境变量中添加SPARK_HOME,并将SPARK_HOME添加到系统环境变量的Path中。

我的电脑 > 属性 > 高级系统配置 > 环境变量

进入高级系统设置

请添加图片描述

进入环境变量

请添加图片描述

新建SPARK_HOME环境变量

请添加图片描述

请添加图片描述

SPARK_HOME 添加到系统环境变量Path中

请添加图片描述

请添加图片描述

请添加图片描述
请添加图片描述

验证Spark的环境变量是否配置好了。

请添加图片描述

如果出现如上图的提示HADOOP_HOME没有配置,说明HADOOP_HOME的环境变量配置有问题,需要正确配置HADOOP_HOME

正确配置好HADOOP_HOME之后,执行spark-shell命令。

请添加图片描述

虽然最终进入到了spark shell中,但是中间报了一个错误,提示找不到D:\services\hadoop-3.2.2\bin\winutils.exe文件,通过查看发现确实不存在该文件,此时我们需要从https://github.com/srccodes/hadoop-common-2.2.0-bin/tree/master/bin此处下载winutils.exe文件,并保存到本地D:\services\hadoop-3.2.2\bin\目录下。然后再次运行spark-shell,结果如下:

请添加图片描述

spark-shell启动正常了。

浏览器访问 http://127.0.0.1:4041/jobs 可以打开spark web ui。如下图所示:
请添加图片描述

参考文档

[1] Spark在Win10下的环境搭建

[2] 【Spark笔记】Windows10 本地搭建单机版Spark开发环境

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/184763.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

51单片机学习笔记-11 DS18B02温度传感器(单总线)

11 DS18B02温度传感器 [toc] 注:笔记主要参考B站江科大自化协教学视频“51单片机入门教程-2020版 程序全程纯手打 从零开始入门”。 11.1 温度传感器与单总线通信 11.1.1 DS18B20温度传感器 DS18B20是一种常见的数字温度传感器,其控制命令和数据都是以…

SAP ADM100-Unit3 系统配置介绍:系统如何评估它的参数

本节将了解系统评估配置文件参数的顺序,并了解这些参数存储的位置。 1、配置profile参数 各个实例和SAP系统都是使用Profile配置文件参数来配置的。这些参数的默认值被定义在内核程序代码中。 可以通过配置文件改变这些参数的默认值,当实例被开启时将读取配置文件中参数值。…

大屏加载速度优化--突破chrome 6个请求线程限制

1. 问题 当大屏中的内容很多时,比如50个以上,整个页面呈现速度会慢很多,影响用户体验。 通过 chrome开发者工具可以看到,默认情况下,chrome仅开启6个请求线程,用于发起ajax请求。 2. 解决方案 改进的方式…

epoll模型要点总结

(图是网上的,懒得自己画了) 1 epoll_ctl是向红黑树rbr插入、删除、修改fd。epoll_wait在双向链表rdllist中查询IO可读、可写、错误事件。 为什么使用红黑树?从插入、删除考虑。 2 epoll_ctl插入新fd时,新建epitem,会设置回调函…

2023年第五届清洁能源与智能电网国际会议(CCESG 2023)

2023年第五届清洁能源与智能电网国际会议(CCESG 2023) 重要信息 会议网址:www.ccesg.org 会议时间:2023年4月21-23日 召开地点:广西-南宁 截稿时间:2023年2月28日 录用通知:投稿后2周内 收…

结合代谢组学和网络药理学研究康复消炎栓治疗慢性盆腔炎作用机制

文章标题:Integrated Metabolomics and Network Pharmacology Study on the Mechanism of Kangfuxiaoyan Suppository for Treating Chronic Pelvic Inflflammatory Disease 发表期刊:Frontiers in Pharmacology 影响因子:5.988 发表年份&…

读书:《好奇心:保持对未知世界永不停息的热情》

刚看到《好奇心》这本书的书名,我对《好奇心》还是有点好奇心的。 为什么小孩的好奇心比大人多?也不一定,如果家长或老师没有足够好的引导的话,孩子也会对周围的世界没有兴趣。 好奇心为两种:消遣性好奇、认识性好奇…

【go-zero】在微服务架构中是否要使用分布式事务 如何避免分布式的耦合 微服务与分布式事务的对立

微服务要不要引入分布式事务讨论问题:微服务要不要引入分布式事务?1、分布式事务的场景分析2、分析利与弊3、如何优化分布式事务3.1 什么是CAP理论3.2 方式一:避免使用分布式事务1)同步阻塞2)异步调用3)粗粒…

Linux中的Nginx平滑升级与回退

目录 一、平滑升级概述 1.平滑升级的定义 2.平滑升级的思路 (1)关于版本和备份 (2)向旧的Nginx的master进程发送USR2信号 (3)向旧的master进程发送winch信号,旧的worker子进程退出 &…

【疑难杂症】allennlp安装报错:Installing build dependencies ... error

背景: 配置PURE的算法环境,安装allennlp 0.9.0 (pip install allennlp0.9.0)报错,如图所示: 探索: 发现allennlp的依赖中有spacy,是在安装spacy 2.1.9的依赖时报错了。 此时我尝试…

PCB如何添加SMT定位孔经验总结

🏡《总目录》 目录1, 什么是SMT定位孔2,SMT定位孔有什么特征3,添加SMT定位孔的经验原则4,其他注意事项1, 什么是SMT定位孔 SMT定位孔是指在PCBA的SMT贴片焊接阶段,为了准确固定和定位板卡的机械…

【OpenGL学习】颜色和光照

颜色和光照 一、颜色的物理解释 颜色(英语:colour,color)又称色彩、色泽,是眼、脑和我们的生活经验对光的颜色类别描述的视觉感知特。这种对颜色的感知来自可见光谱中的电磁辐射对人眼视锥细胞的刺激。颜色是由光反射…

boost搜索引擎

文章目录1.项目介绍2.搜索引擎技术栈和项目环境3.正排索引和倒排索引 - 搜索引擎具体原理4.编写数据去标签和数据清洗模块Parser5.编写建立索引模块Index6.编写搜索引擎模块Searcher7.编写http_server8.效果展示1.项目介绍 Boost官网没有对应的搜索引擎,不方便我们…

04 frameset-iframe【尚硅谷JavaWeb教程】

04 frameset-iframe【尚硅谷JavaWeb教程】 frameset、iframe这个标签基本上已经不用了。 frameset标签 一个大的网页由很多个小的网页组成,会用到frameset。 frameset 表示页面框架,这个标签已经淘汰,了解,不需要掌握。 frame表…

Element ui Avatar头像管理组件 实现当用户没有头像时 以名称最后一个字为头像

el-avatar是一个比较方便的头像管理组件 src控制他的图片展示 <el-avatarclass "avatar":src"item.images" ></el-avatar>样式的话 可以用avatar控制 <style> .avatar{width: 18px;height: 18px;line-height: 18px; } .avatar img{b…

【可解释性机器学习】TextExplainer: 调试黑盒文本分类器

TextExplainer: 调试黑盒文本分类器示例问题&#xff1a;20个新闻组数据集的LSA SVM模型TextExplainer文本解释器的工作原理我们应该相信这个解释吗&#xff1f;让它们犯错吧让它们再次犯错吧自定义TextExplainer: 采样过程自定义TextExplainer&#xff1a;分类器参考资料尽管…

记录每日LeetCode 237.删除链表中的节点 Java实现

题目描述&#xff1a; 有一个单链表的 head&#xff0c;我们想删除它其中的一个节点 node。 给你一个需要删除的节点 node 。你将 无法访问 第一个节点 head。 链表的所有值都是 唯一的&#xff0c;并且保证给定的节点 node 不是链表中的最后一个节点。 删除给定的节点。注…

Kotlin之使用DSL构建专有的语法结构

DSL的全称是领域特定语言(Domain Specific Language)&#xff0c;它是编程语言赋予开发者的一种特殊能力&#xff0c;通过它我们可以编写出一些看似脱离其原始语法结构的代码&#xff0c;从而构建出一种专有的特殊结构。 Kotlin也是支持DSL的&#xff0c;并且在Kotlin中实现DSL…

CF——1766C - Hamiltonian Wall

题目链接 1766C - Hamiltonian Wall Rating&#xff1a;1300 题目描述 Sir Monocarp Hamilton is planning to paint his wall. The wall can be represented as a grid, consisting of 2 rows and m columns. Initially, the wall is completely white. Monocarp wants to p…

Leetcode力扣秋招刷题路-0101

从0开始的秋招刷题路&#xff0c;记录下所刷每道题的题解&#xff0c;帮助自己回顾总结 101. 对称二叉树 给你一个二叉树的根节点 root &#xff0c; 检查它是否轴对称。 示例 1&#xff1a; 输入&#xff1a;root [1,2,2,3,4,4,3] 输出&#xff1a;true 示例 2&#xff1…