spark第一章：环境安装

news2025/7/12 20:26:42

系列文章目录

spark第一章：环境安装

文章目录

系列文章目录
前言
一、文件准备
- 1.文件上传
- 2.文件解压
- 3.修改配置
- 4.启动环境
二、历史服务器
- 1.修改配置
- 2.启动历史服务器
总结

前言

spark在大数据环境的重要程度就不必细说了，直接开始吧。

一、文件准备

1.文件上传

spark3.2.3官网下载地址。
在这里插入图片描述
本次学习spark使用稳定版3.2.3.
spark一般有3种部署模式。
Local一般用于测试。
Standalone用于学习
Yarn生产环境常用部署。
我们直接模拟生产环境。

2.文件解压

tar -xvf spark-3.3.2-bin-hadoop3.tgz -C /opt/module/
cd /opt/module/
mv spark-3.3.2-bin-hadoop3/ spark-yarn

3.修改配置

spark是基于hadoop允许的，所以我们要修改hadoop的配置文件。

vim /opt/module/hadoop-3.2.3/etc/hadoop/yarn-site.xml

<!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是 true -->
<property>
 <name>yarn.nodemanager.pmem-check-enabled</name>
 <value>false</value>
</property>

<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是 true -->
<property>
 <name>yarn.nodemanager.vmem-check-enabled</name>
 <value>false</value>
</property>

将这个文件分发到集群

xsync hadoop-3.2.3/etc/hadoop/

修改spark的conf文件
在这里插入图片描述

mv spark-env.sh.template spark-env.sh

在最后边追加两行内容

export JAVA_HOME=/opt/module/jdk8u282-b08
YARN_CONF_DIR=/opt/module/hadoop-3.2.3/etc/hadoop

在这里插入图片描述

4.启动环境

先启动hadoop
在这里插入图片描述
提交spark任务。

bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster ./examples/jars/spark-examples_2.12-3.3.2.jar 10

在浏览器查看结果
hadoop103:8088
在这里插入图片描述

二、历史服务器

1.修改配置

在这里插入图片描述

mv spark-defaults.conf.template spark-defaults.conf

在文件后边追加。

spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop102:8020/directory

在集群上创建需要的目录

 hadoop fs -mkdir /directory

修改spark-env.sh
在后边追加如下内容

export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory 
-Dspark.history.retainedApplications=30"

修改 spark-defaults.conf
继续追加

spark.yarn.historyServer.address=hadoop102:18080
spark.history.ui.port=18080

2.启动历史服务器

sbin/start-history-server.sh

再次提交应用

bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client ./examples/jars/spark-examples_2.12-3.3.2.jar 10

在这里插入图片描述
继续在hadoop103上查看结果。

最后边点击history

自动跳转到历史服务器。

总结

spark第一章的环境搭建就到这里，现在可以将3个虚拟机保存快照。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/372560.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

spark第一章：环境安装

系列文章目录

文章目录

前言

一、文件准备

1.文件上传

2.文件解压

3.修改配置

4.启动环境

二、历史服务器

1.修改配置

2.启动历史服务器

总结

相关文章

React Use Hook 尝鲜

tkinter界面的TCP通信/tkinter开启线程接收TCP

Linux基础命令-dd拷贝、转换文件

软考中级-操作系统

Linux Ubuntu配置国内源

pytorch学习日记之激活函数

_vue-3

数据挖掘概述

直接拿项目运行npm start 会出现’react-scripts’ 不是内部或外部命令，也不是可运行的程序或批处理文件错误

【论文阅读】基于LevelDB的分布式数据库研究

Wireshark “偷窥”浏览器与服务器三次握手

jstatd的启动方式与关闭方式

傻瓜式minio使用指南

你应该知道的ChatGPT提示语

Acwing 蓝桥杯第二章二分与前缀和

Google Guice 4：Bindings（2）

【python学习笔记】：SQL常用脚本（二）

TypeScript笔记-进行中

一文掌握如何轻松稿定项目风险管理【静说】

在成都想转行IT，选择什么专业比较好？