点一下关注吧!!!非常感谢!!持续更新!!!
目前已经更新到了:
- Hadoop(已更完)
- HDFS(已更完)
- MapReduce(已更完)
- Hive(已更完)
- Flume(已更完)
- Sqoop(已更完)
- Zookeeper(已更完)
- HBase(已更完)
- Redis (已更完)
- Kafka(已更完)
- Spark(正在更新!)
章节内容
上节我们完成了如下的内容:
- Spark项目下载
- Spark环境配置、配置文件配置
- 项目分发 至 h122和h123服务器
Hadoop 集群启动
在 h121 节点上进行执行,我们启动服务:
start-all.sh
启动的结果如下图所示:
Spark 集群启动
接着我们需要到目录下,启动集群的Spark
cd /opt/servers/spark-2.4.5-bin-without-hadoop-scala-2.12/sbin
./start-all.sh
h121 节点
通过 jps 我可以可以看到:Master 和 Worker
h122 节点
通过 jps 我们可以看到:
h123 节点
通过 jps 我们可也看到:
查看结果
我们通过查看 h121 的日志,可以看到是 8081 的端口(我的8080好像是被占用了)
这个在Spark的目录下的 logs下,如果你也遇到了无法访问,可以看看这个logs
测试运行
这里Spark提供了一个官方的HelloWorld(前提你配置好环境变量,不然你需要到指定目录执行)
run-example SparkPi 10
可以看到如下的结果为:
SparkShell
我们可以简单的启动一个Shell来测试Spark的效果:
(后续有更深入的学习!)
spark-shell --master local-cluster[*]
这里有一些之前测试的图片:
先不管别的,先写一段感受一下:
val rdd1 = sc.makeRDD(1 to 100).map((_, 1))
rdd1.getNumPartitions