Spark SQL大数据分析快速上手-完全分布模式安装

news2026/2/15 1:44:07

【图书介绍】《Spark SQL大数据分析快速上手》-CSDN博客

《Spark SQL大数据分析快速上手》【摘要书评试读】- 京东图书

大数据与数据分析_夏天又到了的博客-CSDN博客

Hadoop完全分布式环境搭建步骤-CSDN博客,前置环境安装参看此博文

完全分布模式也叫集群模式。将Spark目录文件分发到其他主机并配置workers节点，即可快速配置Spark集群（需要先安装好JDK并配置好从Master到Worker的SSH信任）。具体步骤如下：

【免费送书活动】《Spark SQL大数据分析快速上手》-CSDN博客

步骤1：配置计划表。

集群主机配置如表2-1所示。所有主机在相同目录下安装JDK，Spark安装到所有主机的相同目录下，如/app/。

步骤2：准备3台Linux虚拟机搭建集群环境。

这里推荐直接使用下面链接讲解的、配置好的Hadoop完全分布式环境，稍微做些修改，即可快速搭建Spark完全分布模式环境。

Hadoop完全分布式环境搭建步骤_hadoop 开发环境搭建及hdfs初体验-CSDN博客

步骤3：解压并配置Spark。

在server101上解压Spark：

$ tar -zxvf ~/spark-3.3.1-bin-hadoop3.tgz -C /app/

$ mv spark-3.3.1-bin-hadoop3 spark-3.3.1

修改spark-env.sh文件，在文件最开始添加JAVA_HOME环境变量：

$ vim /app/spark-3.3.1/sbin/spark-conf.sh

export JAVA_HOME=/usr/java/jdk1.8.0-361

修改worker文件，添加所有主机在worker节点上的名称：

$ vim /app/spark-3.3.1/conf/workers

server101

server102

server103

使用scp将Spark目录分发到所有主机相同的目录下：

$ scp -r /app/spark-3.3.1  server102:/app/

$ scp -r /app/spark-3.3.1  server103:/app/

步骤4：启动Spark。

在主Spark上执行start-all.sh：

$ /app/spark-3.3.1/sbin/start-all.sh

启动完成以后，查看master主机的8080端口，如图2-8所示。

步骤5：测试。

由于已经配置了Hadoop集群，并且与Spark的worker节点在相同的主机上，因此在集群环境下，一般是访问HDFS上的文件：

$spark-shell --master spark://server101:7077

scala> val rdd1 = sc.textFile(“hdfs://server101:8082/test/a.txt”);

图2-8 master主机的8080端口

将结果保存到HDFS，最后查看HDFS上的计算结果即可：

scala> rdd1.flatMap(_.split("\\s+")).map((_,1)).reduceByKey(_+_). saveAsTextFile("hdfs://server101:8020/out004");

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2245504.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！