文章目录
- 搭建前准备
- 安装搭建
- 解压并重命名
- 环境变量配置
- 配置文件
- yarn-site.xml
- spark-env.sh
- 官网求 π(PI) 案例
- 启动spark-shell
- 通过浏览器查看显示
- 查看 Spark 的网页信息展示
搭建前准备
下载地址:Index of /dist/spark (apache.org)
配置好 hadoop
环境,hdfs
和 yarn
服务正常可以启动
start-dfs.sh
start-yarn.sh
安装搭建
解压并重命名
将 Spark
压缩包解压,解压后重命名
tar -zxvf software/spark-3.5.0-bin-hadoop3.tgz -C /opt/
mv /opt/spark-3.5.0-bin-hadoop3 /opt/spark-3.5.0
环境变量配置
vim /etc/profile.d/spark.sh
配置内容:
# SPARK_HOME
export SPARK_HOME=/opt/spark-3.5.0
export PATH=$PATH:$SPARK_HOME/bin
刷新一下环境变量
source /etc/profile
配置文件
# 进入到 hadoop 配置目录下
cd $HADOOP_HOME/etc/hadoop/
# 对 yarn-site.xml 文件进行配置
vim yarn-site.xml
yarn-site.xml
<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉默认是true -->
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
spark-env.sh
# 进入到 hadoop 配置目录下
cd $SPARK_HOME/conf
# 复制配置文件模板
cp spark-env.sh.template spark-env.sh
# 编辑配置文件
vim spark-env.sh
配置内容:(添加到末尾处,也可也直接输入 O
在第二行添加)
YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop/
官网求 π(PI) 案例
启动 yarn
start-dfs.sh
start-yarn.sh
进入到 Spark
目录下
cd $SPARK_HOME
执行 spark
求 π
案例
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.12-3.5.0.jar 10
运行成功可以看到
Pi is roughly 3.1425711425711427
启动spark-shell
提示:启动后不要关闭
# 进入到 spark 文件路径下
bin/spark-shell
通过浏览器查看显示
查看 Spark 的网页信息展示
浏览器地址:hadoop102:4040
(为配置 IP
映射填 hadoop102
地址)