1. Spark-local模式
- 适用于单节点环境,无需启动Hadoop集群。
- 实验步骤包括解压文件、启动Local环境、运行命令行工具、提交测试应用等。
- 通过`bin/spark-shell`启动本地环境,通过`sc.textFile`等命令测试功能。
- 提交应用时使用`--master local[2]`指定本地模式和CPU核数。
2. Spark-standalone模式
- 独立部署模式,使用Spark自身节点运行集群,体现Master-Slave架构。
- 实验步骤包括解压文件、修改配置文件(如`slaves`和`spark-env.sh`)、分发文件、启动集群、提交测试应用等。
- 通过`--master spark://node01:7077`指定集群模式。
- 配置历史服务以记录任务运行情况,通过`node01:18080`查看历史任务。
3. Spark-yarn模式
- 基于Yarn资源管理器部署Spark。
- 实验步骤包括解压文件、修改Hadoop和Spark配置文件、启动HDFS和Yarn集群、提交测试应用等。
- 通过`--master yarn`指定Yarn模式。
- 配置历史服务以存储日志到HDFS,通过`node01:8088`查看任务状态。
4. Windows模式
- 在Windows本地环境中运行Spark。
- 实验步骤包括解压文件到无中文无空格的路径、启动本地环境、运行命令行工具等。
- 通过`spark-shell.cmd`启动本地环境,使用`sc.textFile`等命令测试功能。
可能遇到的错误
1. Spark-local模式
- 错误1:启动`bin/spark-shell`时提示“JAVA_HOME未设置”。
- 解决方法:确保`JAVA_HOME`环境变量已正确配置,并在`spark-env.sh`中添加`export JAVA_HOME=/path/to/java`。
- 错误2:提交应用时因路径问题找不到文件(如`data/word.txt`)。
- 解决方法:确保文件路径正确,或使用绝对路径。