spark安装部署

news2025/10/19 23:49:35

spark安装部署

在这里插入图片描述

需要指导私信
所有节点安装scala，安装scala需要安装openjdk-8-jre（当前用户如果没有sudo权限可将其加入sudo组里）,以ubuntu2204-LTS为例：
$ sudo apt update
$ sudo apt-get install openjdk-8-jre-headless -y (红帽系列Linux包名可能为java-1.8.0-openjdk-headless)
$ 安装scala，其实也不用安装，现在的spark自带
https://www.scala-lang.org/download/

$ sudo dpkg -i scala-2.13.10.deb

$ wget http://XXX/spark-3.4.0-bin-hadoop3-scala2.13.tgz
$ tar -zxvf spark-3.4.0-bin-hadoop3-scala2.13.tgz
设置环境变量
$ vi .bashrc

export SPARK_HOME=~/spark-3.4.0-bin-hadoop3-scala2.13
export PATH= $P A T H :$ SPARK_HOME/bin

$ source .bashrc
配置spark
$ cd $SPARK_HOME/conf
$ cp workers.template workers
worker中为spark集群中所有节点
$ vi workers

node01
node02
node03

$ cp spark-env.sh.template spark-env.sh
查看当前环境变量
$ echo $JAVA_HOME
$ echo $HADOOP_HOME
配置spark环境变量
$ vi spark-env.sh

export JAVA_HOME=/home/hadoop/jdk1.8.0_361
export HADOOP_HOME=/home/hadoop/hadoop-3.3.5
export HADOOP_CONF_DIR=/home/hadoop/hadoop-3.3.5/etc/hadoop/
export SCALA_HOME=/usr/share/scala
export SPARK_MASTER_HOST=node01
export SPARK_PID_DIR=/home/hadoop/spark-3.4.0-bin-hadoop3-scala2.13/data
export SPARK_LOCAL_DIR=/home/hadoop/spark-3.4.0-bin-hadoop3-scala2.13
export SPARK_EXECUTOR_MEMORY=512M
export SPARK_WORKER_MEMORY=2G

配置spark默认配置文件
$ cp spark-defaults.conf.template spark-defaults.conf
$ vi spark-defaults.conf

spark.master spark://node01:7077

将配置好的spark文件拷贝到其他节点(单节点可忽略)

$ cd
$ scp -r spark-3.4.0-bin-hadoop3-scala2.13 node02:~/
$ scp -r spark-3.4.0-bin-hadoop3-scala2.13 node03:~/

将环境变量文件也scp到其他节点

$ scp .bashrc node02:~/
$ scp .bashrc node03:~/

启动spark服务
$ $SPARK_HOME/sbin/start-all.sh
查看服务
$ jps
Master节点有Master和Worker两个进程，Worker节点只有Worker进程
访问http://node01:8080/
运行例子程序：
$ $SPARK_HOME/bin/run-example SparkPi 10
运行spark-shell（Scala交互界面）

$ spark-shell
scala> val textFile=sc.textFile(“file:///home/hadoop/spark-3.4.0-bin-hadoop3-scala2.13/README.md”)
scala> textFile.count()
scala> :quit

上传一个文件到hdfs
$ hdfs dfs -put /home/hadoop/spark-3.4.0-bin-hadoop3-scala2.13/README.md
$ hdfs dfs -ls
运行pyspark(python交互界面)

$ pyspark
>>> lines=sc.textFile("file:///home/hadoop/spark-3.4.0-bin-hadoop3-scala2.13/README.md")
>>> lines.count()
>>> lines=sc.textFile("README.md")
>>> lines.count()
>>> quit()

jupter安装运行（调试python程序用的一个工具，上课老师要用）
$ sudo apt install python3-pip
$ sudo apt install jupyter-core
$ pip3 install jupyter
$ jupyter notebook --ip=node01

spark on yarn 配置及异常解决
$ hdfs dfs -mkdir /hadoop
$ hdfs dfs -mkdir /hadoop/spark_jars
$ hdfs dfs -put $SPARK_HOME/jars/ /hadoop/spark_jars
$ cd $SPARK_HOME/conf/
$ vi spark-defaults.conf
spark.yarn.jars hdfs://node01:9000/hadoop/spark_jars/
$ cd $HADOOP_HOME/etc/hadoop
$ vi yarn-site.xml

<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

修改后重启服务即可

关闭集群服务
$ $SPARK_HOME/sbin/stop-all.sh
$ stop-yarn.sh
$ stop-dfs.sh

启动集群服务
$ start-dfs.sh
$ start-yarn.sh
$ $SPARK_HOME/sbin/start-all.sh

$ pyspark --master=yarn
>>> lines=sc.textFile("file:///home/hadoop/spark-3.4.0-bin-hadoop3-scala2.13/README.md")
>>> lines.count()
125
>>> quit()

启动spark后，spark-shell或pyspark会出现一个警告
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
环境变量里设置
$ vi ~/.bashrc

export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native/

并在spark配置文件中设置
$ vi $SPARK_HOME/conf/spark-env.sh

export LD_LIBRARY_PATH=$JAVA_LIBRARY_PATH

如果没有生效，则在环境变量里添加如下：

export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native/:$LD_LIBRARY_PATH

如果安装了hive还可以使用spark-sql。

对ModuleNotFoundError: No module named 'py4j’错误：
在环境变量中添加

export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9.7-src.zip:$PYTHONPATH

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/624777.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

spark安装部署

spark安装部署

相关文章

【03Eclipse 窗口说明】对每个窗口和视图的功能和用途的详细说明导航栏编辑器窗口项目资源管理器

Java学习路线（22）——测试框架Junit

认识、使用 yarn

黑客松指南｜如何快速注册参与Sui x KuCoin Labs Hackathon

如何使用Jemeter对HTTP进行接口压测？没有比这个更详细的教程

10年心路历程：一个女测试工程师功能测试转向自动化测试/开发

【力扣刷题 | 第四天】 1.两数之和 454.四数之和

【QT】解决继承QThread的子线程导致程序无法关闭主线程关闭太快导致子线程中的槽方法未执行

github下载的项目如何上传到gitee

CSP-S 第一轮笔试重点题

一起学SF框架系列5.3-模块Beans-bean与Spring容器的交互方式

OkHttp 框架设计剖析（含面试题）

详解Java内部类、匿名内部类

全网最强总结，Selenium自动化测试异常+处理总结，吐血整理...

LVS负载均衡群集部署——DR模式

网工内推 | 网安专场，CISP认证优先，带薪年假，六险一金

cool-admin框架后端使用-node版本，线上宝塔部署

.gitignore忽略文件不生效

凸优化系列——最优化问题

《Lua程序设计》--学习4