Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

news2025/1/23 5:03:38

该文章主要为完成实训任务,详细实现过程及结果见【http://t.csdn.cn/DrziJ】

文章目录

  • 一、在master虚拟机上安装配置Spark
    • 1.1 将spark安装包上传到master虚拟机
    • 1.2 将spark安装包解压到指定目录
    • 1.3 配置spark环境变量
    • 1.4 编辑spark环境配置文件
    • 1.5 创建slaves文件,添加从节点
  • 二、在slave1虚拟机上安装配置Spark
    • 2.1 把master虚拟机上安装的spark分发给slave1虚拟机
    • 2.2 将master虚拟机上环境变量配置文件分发到slave1虚拟机
    • 2.3 在slave1虚拟机上让spark环境配置文件生效
  • 三、在slave2虚拟机上安装配置Spark
    • 3.1 把master虚拟机上安装的spark分发给slave2虚拟机
    • 3.2 把master虚拟机上环境变量配置文件分发到slave2虚拟机
    • 3.3 在slave2虚拟机上让spark环境配置文件生效
  • 四、启动Spark Standalone集群
    • 4.1 启动hadoop的dfs服务
    • 4.2 启动Spark集群
  • 五、访问Spark的WebUI
  • 六、启动Scala版Spark Shell
  • 七、提交Spark应用程序
    • 7.1 提交语法格式
    • 7.2 spark-submit常用参数
    • 7.3 案例演示 - 提交Spark自带的圆周率计算程序
        • (1)Standalone模式,采用client提交方式
        • (2)Standalone模式,采用cluster提交方式
  • 八、停止Spark集群服务


一、在master虚拟机上安装配置Spark

1.1 将spark安装包上传到master虚拟机

  • 下载Spark:pyw2
  • 进入/opt目录,查看上传的spark安装包
    在这里插入图片描述

1.2 将spark安装包解压到指定目录

  • 执行命令: tar -zxvf spark-3.3.2-bin-hadoop3.tgz
    在这里插入图片描述
  • 修改文件名:mv spark-3.3.2-bin-hadoop3 spark-3.3.2
    在这里插入图片描述

1.3 配置spark环境变量

  • 执行命令:vim /etc/profile
    在这里插入图片描述
export SPARK_HOME=/opt/spark-3.3.2
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
  • 存盘退出后,执行命令:source /etc/profile,让配置生效
    在这里插入图片描述
  • 查看spark安装目录(bin、sbin和conf三个目录很重要)
    在这里插入图片描述

1.4 编辑spark环境配置文件

  • 进入spark配置目录后,执行命令:cp spark-env.sh.template spark-env.shvim spark-env.sh
    在这里插入图片描述
  • 添加三行语句
    在这里插入图片描述
export JAVA_HOME=/usr/java/jdk1.8.0_333-amd64
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077
  • 存盘退出,执行命令:source spark-env.sh,让配置生效
    在这里插入图片描述

1.5 创建slaves文件,添加从节点

  • 执行命令:vim slaves,添加两个从节点主机名
    在这里插入图片描述

二、在slave1虚拟机上安装配置Spark

2.1 把master虚拟机上安装的spark分发给slave1虚拟机

  • 执行命令:scp -r $SPARK_HOME root@slave1:$SPARK_HOME
    在这里插入图片描述

2.2 将master虚拟机上环境变量配置文件分发到slave1虚拟机

  • 在master虚拟机上,执行命令:scp /etc/profile root@slave1:/etc/profile
    在这里插入图片描述

  • 在slave1虚拟机上,执行命令:source /etc/profile,让环境配置生效
    在这里插入图片描述

2.3 在slave1虚拟机上让spark环境配置文件生效

  • 在slave1虚拟机上,进入spark配置目录,执行命令:source spark-env.sh
    在这里插入图片描述

三、在slave2虚拟机上安装配置Spark

3.1 把master虚拟机上安装的spark分发给slave2虚拟机

  • 执行命令:scp -r $SPARK_HOME root@slave2:$SPARK_HOME
    在这里插入图片描述

3.2 把master虚拟机上环境变量配置文件分发到slave2虚拟机

  • 在master虚拟机上,执行命令:scp /etc/profile root@slave2:/etc/profile
    在这里插入图片描述
  • 在slave2虚拟机上,执行命令:source /etc/profile,让环境配置生效
    在这里插入图片描述

3.3 在slave2虚拟机上让spark环境配置文件生效

  • 在slave2虚拟机上,进入spark配置目录,执行命令:source spark-env.sh
    在这里插入图片描述

四、启动Spark Standalone集群

4.1 启动hadoop的dfs服务

  • 在master虚拟机上执行命令:start-dfs.sh
    在这里插入图片描述

4.2 启动Spark集群

  • 执行命令:start-all.sh
    在这里插入图片描述

五、访问Spark的WebUI

  • 在浏览器里访问http://master:8080
    在这里插入图片描述
  • 在浏览器访问http://slave1:8081
    在这里插入图片描述
  • 在浏览器访问http://slave2:8081
    在这里插入图片描述

六、启动Scala版Spark Shell

  • 执行命令:spark-shell --master spark://master:7077 (注意–master,两个-不能少)
    在这里插入图片描述
  • 在/opt目录里执行命令:vim test.txt
    在这里插入图片描述
    在这里插入图片描述
  • 在HDFS上创建park目录,将test.txt上传到HDFS的/park目录
    在这里插入图片描述
  • 读取HDFS上的文件,创建RDD,执行命令:val rdd = sc.textFile("hdfs://master:9000/park/test.txt")(说明:val rdd = sc.textFile("/park/test.txt")读取的依然是HDFS上的文件,绝对不是本地文件)
    在这里插入图片描述
  • 收集rdd的数据,执行命令:rdd.collect
    在这里插入图片描述
  • 进行词频统计,按单词个数降序排列,执行命令:val wordcount = rdd.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).sortBy(_._2, false)wordcount.collect.foreach(println)
    在这里插入图片描述

七、提交Spark应用程序

7.1 提交语法格式

  • Spark提供了一个客户端应用程序提交工具spark-submit,使用该工具可以将编写好的Spark应用程序提交到Spark集群。
  • spark-submit的使用格式如下:$ bin/spark-submit [options] <app jar> [app options]
  • options表示传递给spark-submit的控制参数;
  • app jar表示提交的程序JAR包(或Python脚本文件)所在位置;
  • app options表示jar程序需要传递的参数,例如main()方法中需要传递的参数。

7.2 spark-submit常用参数

  • 除了–master参数外,spark-submit还提供了一些控制资源使用和运行时环境的参数。
    在这里插入图片描述

7.3 案例演示 - 提交Spark自带的圆周率计算程序

  • 进入Spark安装目录
    在这里插入图片描述

(1)Standalone模式,采用client提交方式

  • 执行下述命令,将Spark自带的求圆周率的程序提交到集群
bin/spark-submit \
 --class org.apache.spark.examples.SparkPi \
 --master spark://master:7077 \
 ./examples/jars/spark-examples_2.12-3.3.2.jar 

在这里插入图片描述

(2)Standalone模式,采用cluster提交方式

bin/spark-submit \
--master spark://master:7077 \
--deploy-mode cluster \
--class org.apache.spark.examples.SparkPi \
--driver-memory 512m \
--executor-memory 1g \
--executor-cores 2 \
./examples/jars/spark-examples_2.12-3.3.2.jar

  • 执行命令后,看到State of driver-20230406114733-0000 is RUNNING,就表明运行成功~,否则会显示State of driver-20230406114733-0000 is FAILED
    在这里插入图片描述
  • 在Spark WebUI界面上查看运行结果,访问http://master:8080
    在这里插入图片描述
  • 单击圈红的Worker超链接 - worker-20230406114652-192.168.1.102-36708
    在这里插入图片描述
  • 单击stdout超链接,可以查看到Pi的计算结果

在这里插入图片描述

八、停止Spark集群服务

  • 在master节点执行命令:stop-all.sh

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/443146.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Unity记录3.3-地图-柏林噪声生成 2D 地图

文章首发及后续更新&#xff1a;https://mwhls.top/4486.html&#xff0c;无图/无目录/格式错误/更多相关请至首发页查看。 新的更新内容请到mwhls.top查看。 欢迎提出任何疑问及批评&#xff0c;非常感谢&#xff01; 汇总&#xff1a;Unity 记录 摘要&#xff1a;柏林噪声生成…

再学C语言51:C库中的字符串函数(3)

一、strcpy()函数 功能&#xff1a;复制字符串&#xff0c;在字符串中的作用等价于赋值运算符 示例代码&#xff1a; /* test of strcpy() function */ #include <stdio.h> #include <string.h>int main(void) {char arr1[] "Easy doesnt enter into grow…

基于html+css的图片展示19

准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…

【AI生产力工具】Midjourney:为创意人士提供创造性灵感和支持的工具

文章目录 一、Midjourney是什么&#xff1f;二、Midjourney的优势三、Midjourney的应用四、结语 在现代社会&#xff0c;创意和创新成为越来越重要的能力。然而&#xff0c;创意灵感的获取却不是一件容易的事情&#xff0c;这就需要我们使用一些辅助工具来帮助我们发现和实现创…

照片尺寸怎么修改,3大工具推荐

照片尺寸怎么修改&#xff1f;对于许多人来说&#xff0c;调整图片的尺寸可能是一个日常任务&#xff0c;无论是个人或者工作上都可能会遇到这个需求。适当地调整图片的尺寸可以让图片更具专业性和美观性&#xff0c;而且能够减小文件大小&#xff0c;提高图片的加载速度。在电…

2023年4月北京/西安/郑州/深圳CDGA/CDGP数据治理认证考试报名

DAMA认证为数据管理专业人士提供职业目标晋升规划&#xff0c;彰显了职业发展里程碑及发展阶梯定义&#xff0c;帮助数据管理从业人士获得企业数字化转型战略下的必备职业能力&#xff0c;促进开展工作实践应用及实际问题解决&#xff0c;形成企业所需的新数字经济下的核心职业…

如何用 Leangoo领歌做迭代规划及迭代执行。

迭代是敏捷开发的核心&#xff0c;正确的迭代可以帮助敏捷团队提高工作交付速度&#xff0c;今天&#xff0c;我们深度看下如何用Leangoo领歌敏捷工具进行迭代规划和迭代执行&#xff0c;高效落地 Scrum。 1、确定迭代需要做的需求 在需求看板中&#xff0c;将已经梳理好的用…

C++ -3- 类和对象 (中) | 构造函数与析构函数(一)

文章目录 1.类的6个默认成员函数2.构造函数3.析构函数构造函数与析构函数应用场景缺省值初始化 1.类的6个默认成员函数 如果一个类中什么成员都没有&#xff0c;简称为空类。 空类中真的什么都没有吗&#xff1f;并不是&#xff0c;任何类在什么都不写时&#xff0c;编译器会自…

网络安全必学渗透测试流程

这个靶场是一个对渗透新手很友好的靶场。而且&#xff0c;该靶场包含了渗透测试的信息收集&#xff0c;漏洞利用和权限提升的全过程&#xff0c;对新手理解渗透测试的流程有很好的帮助。 靶场地址&#xff1a;https://hackmyvm.eu/machines/machine.php?vmHundred 靶场基本情…

关系数据库(查询优化)

选择操作的实现select * from student where Sno201212128; 简单的全表扫描法优点&#xff1a;对于小表简单有效 缺点&#xff1a;对于大表顺序扫描浪费时间效率低下索引扫描方法 连接操作的实现 连接操作是查询处理中最耗时的操作之一 select *from student,sc where s…

云上数据变革:Databend Cloud 正式发布

2023 年 4 月 20 日&#xff0c;Databend Cloud 经历了近两年的打磨终于发布了&#xff01;&#x1f389; 此次发布会由北京数变科技有限公司【Databend Labs】联合阿里云共同举办。Databend Cloud 借助于云原生数仓 Databend 实现了云简单易用的大数据分析场景。 以下内容来…

Python语言中的注释方法应用

Python语言中的注释方法 在Python编程中&#xff0c;与其他编程语言一样&#xff0c;有良好的注释部分&#xff0c;会让你的程序在后续的改进或优化中&#xff0c;变得便利。同时&#xff0c;给自己培养了良好的编程习惯。 在Python语言中&#xff0c;有两种注释方法。 1.单行…

报告回顾丨模型进化狂飙,DetectGPT能否识别最新模型生成结果?

导读 语言模型给我们的生产生活带来了极大便利&#xff0c;但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。 在3月9日智源Live第33期活动「DetectGPT&#xff1a;判断文本是否为机器生成的工具」中&#xff0c;主讲人Eric为我…

API Testing 一个基于 YAML 文件的开源接口测试工具

API Testing 一个基于 YAML 文件的开源接口测试工具&#xff0c;同时支持运行在本地、服务端。 在选择工具时&#xff0c;可以从很多方面进行考量、对比&#xff0c;以下几点是该工具的特色或者优点&#xff1a; 开源与否&#xff0c;atest 采用 MIT 开源协议&#xff0c;是最流…

传智教育“大同互联网职业技术学院”奠基仪式盛大举行,开拓高等职业教育发展新版图

2023年4月20日&#xff0c;大同市“数字经济职业教育发展论坛暨大同互联网职业技术学院奠基仪式”在大同隆重举行。论坛由中共大同市委、大同市人民政府主办&#xff0c;大同市教育局、传智教育承办&#xff0c;并全程在多平台进行线上直播。 大同市委副书记、市长张强&#x…

学生成绩管理系统winform+SqlServer

主要技术&#xff1a; 基于C#winform架构和sql server数据库 功能模块&#xff1a; 学生选课&#xff0c; 可以查询个学期各科成绩 查看或者选择选课信息 显示当前课表&#xff0c;管理员后台管理 开设课程 课程查询&#xff08;上课时间和地点&#xff09; 录入该课程下的…

【Java】jieba结巴分词器自定义分词词典 超详细完整版

发现一款很轻量好用的分词器->结巴分词器 分享给大家 不仅可以对常规语句分词&#xff0c;还可以自定义分词内容&#xff0c;很强大&#xff01;&#xff01; 源码地址&#x1f449;&#xff1a;https://github.com/huaban/jieba-analysis 简单使用 如果是常规的语句&#…

transformer与vit

transformer结构&#xff0c;位置编码复现 https://wandb.ai/authors/One-Shot-3D-Photography/reports/-Transformer—Vmlldzo0MDIwMjc 训练部分 https://nlp.seas.harvard.edu/2018/04/03/attention.html#training transform训练代码从0构建 https://blog.csdn.net/BXD1…

全注解下的SpringIoc 续1

上篇文章介绍了ioc的基本用法和ComponentScan注解的使用&#xff0c;这篇文章我们来看看依赖注入的部分。 提起依赖注入&#xff0c;想必大家肯定会想到Autowired注解&#xff0c;的确&#xff0c;它是我们用的最多的一个。 还记得容器的顶级接口BeanFactory 吗&#xff0c;它定…

微信开发者工具使用git提交项目至gitee远程仓库(保姆级)

1. 开始 1.1. 点击进入gitee官网 进入主页之后,根据图片右上角点击新建仓库 输入自定义仓库名称, 访问路径点击创建仓库 这里不要点击初始化文件, 复制Git远程仓库路径 打开微信开发者工具,新建项目什么的就不多说了,打开项目,根据图片所示, 点击版本管理弹出窗口, 点击远程…