云服务器搭建Spark集群

news2025/1/23 4:52:53

文章目录

    • 1. Local 模式
      • 1.1 安装local模式
      • 1.2 命令行工具
      • 1.3 提交本地应用
    • 2. Standlone模式
      • 2.1 集群配置
      • 2.2 修改配置文件
      • 2.3 启动集群与停止集群
      • 2.4 提交应用到集群环境
      • 2.5 提交应用的参数详细说明
      • 2.6 配置历史服务
      • 2.7 配置高可用(HA)
    • 3. Yarn模式(常用)
      • 3.1 集群配置
      • 3.2 安装Yarn模式
      • 3.3 配置历史服务器
      • 3.4 关于配置高可用的相关说明|
      • 3.5 停止集群

1. Local 模式

1.1 安装local模式

  • 即解压spark-3.0.0-bin-hadoop3.2.tgz 文件到/opt/moudle/路径下,并改名为spark-local

    [gaochuchu@s1 jvm]$ cd /opt/module/spark-local/
    [gaochuchu@s1 spark-local]$ bin/spark-shell 
    
    • 此时出现如下界面说明local环境启动成功

      image-20231028151907854

    • 启动后,可以通过http://虚拟机地址:4040访问Web UI监控界面

      image-20231028151959161

1.2 命令行工具

  • 命令行工具

    • 在/opt/module/spark-local/data的目录下,添加一个word.txt文件。通过如下的命令执行单词统计程序

      image-20231028152309081

    • 退出local模式

      scala> :quit
      

1.3 提交本地应用

  • 提交本地的示例应用

    bin/spark-submit \
    --class org.apache.spark.examples.SparkPi \
    --master local[2] \
    ./examples/jars/spark-examples_2.12-3.0.0.jar \
    10
    

    image-20231028152610275

    • –class 表示要执行程序的主类,此处可以更换为咱们自己写的应用程序
    • -master local[2] 部署模式,默认为本地模式,数字表示分配的虚拟 CPU 核数量
    • spark-examples_2.12-3.0.0.jar 运行的应用类所在的 jar 包,实际使用时,可以设置为自己打的 jar 包
    • 数字 10 表示程序的入口参数,用于设定当前应用的任务数量

2. Standlone模式

  • Local模式只适合进行练习,真实工作中还是要将应用提交到对应的集群中去执行,StandLione模式,只使用Spark自身节点运行的集群模式
  • 其特点为经典的master-slaver模式
  • 即解压spark-3.0.0-bin-hadoop3.2.tgz 文件到/opt/moudle/路径下,并改名为spark-standlone

2.1 集群配置

s1s2s3s4gracal
SparkWorker MasterWorkerWorkerWorkerWorker

2.2 修改配置文件

  • 修改slaves配置文件

    #进入spark-standline的conf目录
    [gaochuchu@s1 ~]$ cd /opt/module/spark-standalone/conf/
    #重命名
    [gaochuchu@s1 conf]$ mv slaves.template slaves
    #修改slaves文件,添加worker节点
    [gaochuchu@s1 conf]$ vim slaves
    s1
    s2
    s3
    s4
    gracal
    
  • 环境变量配置文件spark-env.sh.tmpate 改名为spark-env.sh,并增加环境变量

    #重命名
    [gaochuchu@s1 conf]$ mv spark-env.sh.template spark-env.sh
    #修改配置文件
    [gaochuchu@s1 conf]$ vim spark-env.sh
    #这里配置的是本服务器的java home的位置
    export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.382.b05-1.el7_9.x86_64
    SPARK_MASTER_HOST=s1
    SPARK_MASTER_PORT=7077
    

    这里的7077端口,相当于hadoop集群中内部通信的8020端口

  • 分发spark-standalone目录

    xsync spark-standalone
    

2.3 启动集群与停止集群

  • 执行脚本启动集群

    gaochuchu@s1 spark-standalone]$ sbin/start-all.sh
    
  • 查看集群运行状态:可以知道s1为master,而其余节点为worker节点

    image-20231028155856561

  • 执行脚本停止集群

    gaochuchu@s1 spark-standalone]$ sbin/stop-all.sh
    

2.4 提交应用到集群环境

  • 提交应用到集群环境

    bin/spark-submit \
    --class org.apache.spark.examples.SparkPi \
    --master spark://s1:7077 \
    ./examples/jars/spark-examples_2.12-3.0.0.jar \
    10
    
    • 出现如下界面,说明应用执行完成,成功得到Pi的值

      image-20231028160403909

      注意:

      • –class 表示要执行程序的主类
      • –master spark://s1:7077 独立部署模式,连接到 Spark 集群
      • spark-examples_2.12-3.0.0.jar 运行类所在的 jar 包
      • 数字 10 表示程序的入口参数,用于设定当前应用的任务数量
  • Standalone模式之下,会产生多个java进程

    • SparkSubmit是提交节点的进程

    • CoarseGrainedExecutorBackend是执行节点的进程

      image-20231028161120335
  • 执行任务时,在master的Web UI界面,可以看到节点的内存,以及服务器集群节点的总核数

    image-20231028162132075

2.5 提交应用的参数详细说明

参数解释可选值举例
–classSpark 程序中包含主函数的类
–masterSpark 程序运行的模式(环境)模式:local[*]、spark://s1:7077、Yarn
–executor-memory 1G指定每个 executor 可用内存为 1G
–total-executor-cores 2指定所有executor使用的cpu核数为2个
–executor-cores指定每个executor使用的cpu核数其值=total-excutor-cores/ num-executors
application-jar打包好的应用 jar,包含依赖。这个URL在集群全局可见。
比如 hdfs:// 共享存储系统,如果是flie://path,那么所有的节点
都包含相同的jar
application-arguments传给main()方法的参数如上述的数字10,说明num-executors为10

2.6 配置历史服务

  • 由于spark-shell停止后,集群监控s1:4040页面都看不到历史任务的运行情况,所以开发的时都配置历史服务器记录任务运行情况

    • 修改spark-default.conf.template 文件为spark-default.conf,并配置日志存储路径
    # 修改文件名
    [gaochuchu@s1 conf]$ mv spark-defaults.conf.template spark-defaults.conf
    #配置日志存储路径
    [gaochuchu@s1 conf]$ vim spark-defaults.conf 
    spark.eventLog.enabled             true
    spark.eventLog.dir                 hdfs://s1:8020/directory
    

    注意:hdfs中必须已经存在directory

    因此启动hadoop集群,并使用hadoop fs -mkdir /directory 创建该目录

  • 修改spark-env.sh文件,添加日志配置并分发配置

    [gaochuchu@s1 conf]$ vim spark-env.sh
    export SPARK_HISTORY_OPTS="
    -Dspark.history.ui.port=18080 
    -Dspark.history.fs.logDirectory=hdfs://s1:8020/directory 
    -Dspark.history.retainedApplications=30"
    
    • 参数 1 含义:WEB UI 访问的端口号为 18080

    • 参数 2 含义:指定历史服务器日志存储路径 注意8020是当前版本的Hadoop集群的内部通信窗口,hadoop2.x也可能是9000

    • 参数 3 含义:指定保存 Application 历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。当 Spark 应用程序运行完成后,其元数据和日志可以被 Spark 历史服务器(Spark History Server)存储和显示,以便于开发者和管理员回顾和分析。需要注意的是,增加保留的应用程序数量将会增加 Spark 历史服务器的磁盘和内存使用量,因为它需要存储更多的元数据和日志信息。因此,在增加这个值时,你需要确保你的系统有足够的资源来支持这么做。

  • 重新启动spark集群和历史服务器

    [gaochuchu@s1 spark-standalone]$ sbin/start-all.sh
    [gaochuchu@s1 spark-standalone]$ sbin/start-history-server.sh 
    
  • 提交任务

    bin/spark-submit \
    --class org.apache.spark.examples.SparkPi 
    \--master spark://s1:7077 \
    ./examples/jars/spark-examples_2.12-3.0.0.jar \
    10
    
  • 查看历史服务器:http://s1:18080

    image-20231028170844247

2.7 配置高可用(HA)

  • 当前集群中只有一个Master节点,会存在单点故障问题。所以为了解决单点故障问题,需要在集群中配置多个Master节点,一旦活动状态的Master发生故障,由备用Master提供服务,保证作业能够继续执行。高可用一般采用Zookeeper设置,因此需要确保集群中安装了Zookeeper

  • 关闭Spark集群,启动Zookeeper集群

    [gaochuchu@s1 spark-standalone]$ sbin/stop-all.sh
    [gaochuchu@s1 spark-standalone]$ zk.sh start
    
  • 修改spark-env.sh文件配置,添加如下内容,并且需要注释原来配置的master的host和port

    [gaochuchu@s1 conf]$ vim spark-env.sh 
    #SPARK_MASTER_HOST=s1
    #SPARK_MASTER_PORT=7077
    
    SPARK_MASTER_WEBUI_PORT=8989
    export SPARK_DAEMON_JAVA_OPTS="
    -Dspark.deploy.recoveryMode=ZOOKEEPER 
    -Dspark.deploy.zookeeper.url=s1,s2,s3,s4,gracal
    -Dspark.deploy.zookeeper.dir=/spark"
    

    注意:Master 监控页面默认访问端口为 8080,但是可能会和 Zookeeper 冲突,所以改成 8989,也可以自定义为其他端口号

  • 分发配置并启动spark集群

    [gaochuchu@s1 spark-standalone]$ xsync conf/
    [gaochuchu@s1 spark-standalone]$ sbin/start-all.sh
    
  • 此时访问master节点的Web UI界面:http://s1:8989

    image-20231028173002764

  • 启动s2的单独master节点,访问其Web UI:http://s2:8989,发现此时s2会处于备用状态

    [gaochuchu@s2 spark-standalone]$ sbin/start-master.sh 
    

    image-20231028173251765

  • 测试高可用

    • 首先我们提交应用

      bin/spark-submit \
      --class org.apache.spark.examples.SparkPi \
      --master spark://s1:7077 \
      ./examples/jars/spark-examples_2.12-3.0.0.jar \
      10
      
    • 停止s1的master进程,然后再查看s2的master资源监控的Web UI,稍等一段时间,s2的Master状态提升为活动状态

      image-20231028173621255

3. Yarn模式(常用)

  • 独立部署(Standalone)模式由Spark自身提供计算资源,无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性,独立性非常强。但是,Spark主要是计算框架,不是资源调度框架,所以Spark其本身提供的资源调度并不是它的强项,所以还是和其他专业的资源调度框架集成更加可靠,如Yarn。

3.1 集群配置

s1s2s3s4gracal
HDFSNameNode DataNameNodeDataNameNodeSecondaryNameNode DataNameNodeDataNameNodeDataNameNode
YARNNodeManagerResourceManager NodeManagerNodeManagerNodeManagerNodeManager
ZookeeperServer1(follower)Server2(follower)Server3(may be learder)Server4(follower)Server5(follower)
SparkWorker MasterWorker 可开启备用MasterWorkerWorkerWorker

3.2 安装Yarn模式

  • 即解压spark-3.0.0-bin-hadoop3.2.tgz 文件到/opt/moudle/路径下,并改名为spark-yarn

  • 修改hadoop的配置文件yarn-site.xml,新增配置并且分发配置

    [gaochuchu@s1 ~]$ cd /opt/module/hadoop-3.1.3/etc/hadoop/
    [gaochuchu@s1 hadoop]$ vim yarn-site.xml
    <!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认
    是 true -->
    <property>
     <name>yarn.nodemanager.pmem-check-enabled</name>
     <value>false</value>
    </property>
    <!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认
    是 true -->
    <property>
     <name>yarn.nodemanager.vmem-check-enabled</name>
     <value>false</value>
    </property>
    
    [gaochuchu@s1 hadoop]$ xsync yarn-site.xml 
    
  • 环境变量配置文件spark-env.sh.tmpate 改名为spark-env.sh,并增加环境变量

    [gaochuchu@s1 conf]$ mv spark-env.sh.template spark-env.sh
    export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.382.b05-1.el7_9.x86_64
    YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop
    
  • 启动HDFS以及Yarn集群

    [gaochuchu@s1 conf]$ myhadoop.sh start
    
  • 提交应用

    特别注意:Yarn模式下已经不需要启动Spark集群了,只需要保证Hadoop集群处于启动状态即可

    否则在启动Spark集群的时候会显示localhost: Authentication failed.

    bin/spark-submit \
    --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    ./examples/jars/spark-examples_2.12-3.0.0.jar \
    10
    

    image-20231028180636252

    • 运行完成,查看http://s2:7666页面,点击History 查看历史页面【因为Yarn的ResouceManager配置在s2节点上】

      image-20231028181039197

3.3 配置历史服务器

  • 由于spark-shell停止后,集群监控s1:4040页面都看不到历史任务的运行情况,所以开发的时都配置历史服务器记录任务运行情况

    • 修改spark-default.conf.template 文件为spark-default.conf,并配置日志存储路径
    # 修改文件名
    [gaochuchu@s1 conf]$ mv spark-defaults.conf.template spark-defaults.conf
    #配置日志存储路径
    [gaochuchu@s1 conf]$ vim spark-defaults.conf 
    spark.eventLog.enabled             true
    spark.eventLog.dir                 hdfs://s1:8020/directory
    

    注意:hdfs中必须已经存在directory

    因此启动hadoop集群,并使用hadoop fs -mkdir /directory 创建该目录

  • 修改spark-env.sh文件,添加日志配置并分发配置

    [gaochuchu@s1 conf]$ vim spark-env.sh
    export SPARK_HISTORY_OPTS="
    -Dspark.history.ui.port=18080 
    -Dspark.history.fs.logDirectory=hdfs://s1:8020/directory 
    -Dspark.history.retainedApplications=30"
    
    • 参数 1 含义:WEB UI 访问的端口号为 18080

    • 参数 2 含义:指定历史服务器日志存储路径 注意8020是当前版本的Hadoop集群的内部通信窗口,hadoop2.x也可能是9000

    • 参数 3 含义:指定保存 Application 历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。当 Spark 应用程序运行完成后,其元数据和日志可以被 Spark 历史服务器(Spark History Server)存储和显示,以便于开发者和管理员回顾和分析。需要注意的是,增加保留的应用程序数量将会增加 Spark 历史服务器的磁盘和内存使用量,因为它需要存储更多的元数据和日志信息。因此,在增加这个值时,你需要确保你的系统有足够的资源来支持这么做。

  • 修改spark-default.conf,添加配置文件

    [gaochuchu@s1 conf]$ vim spark-defaults.conf 
    spark.yarn.historyServer.address=s1:18080
    spark.history.ui.port=18080
    
  • 重新启动历史服务器

    [gaochuchu@s1 spark-standalone]$ sbin/start-history-server.sh 
    
  • 重新提交应用

    bin/spark-submit \
    --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    ./examples/jars/spark-examples_2.12-3.0.0.jar \
    10
    
  • 查看Yarn的WebUI http:s2:1666 ,以及历史服务器http:s1:18080

    image-20231028185117994

    image-20231028185140416

3.4 关于配置高可用的相关说明|

  • Spark on YARN模式的高可用性

    使用YARN ResourceManager的HA机制,通过ResourceManager的自动故障转移实现Spark集群的高可用性。

  • Spark Standalone模式的高可用性:

    使用Spark自带的HA机制,通过Zookeeper实现主节点的选举和故障转移,从而保证Spark集群的高可用性。

3.5 停止集群

# 停止hadoop集群
[gaochuchu@s1 spark-yarn]$ myhadoop.sh stop
# 停止历史服务器
[gaochuchu@s1 spark-yarn]$ sbin/stop-history-server.sh 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1144593.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

“爱知道”,你知道吗?

拥抱时代浪潮&#xff0c;加速科技变革。数字经济时代&#xff0c;杭州重点贯彻市委市政府数字经济创新提质“一号发展工程”&#xff0c;加快发展数字经济&#xff0c;推动全市数字经济往高攀升、向新进军、以融提效。基于政府对数字经济新活力的赋能、优化数字社会环节、构建…

『力扣刷题本』:删除排序链表中的重复元素

一、题目 给定一个已排序的链表的头 head &#xff0c; 删除所有重复的元素&#xff0c;使每个元素只出现一次 。返回 已排序的链表 。 示例 1&#xff1a; 输入&#xff1a;head [1,1,2] 输出&#xff1a;[1,2]示例 2&#xff1a; 输入&#xff1a;head [1,1,2,3,3] 输出&am…

守牢底线——建行驻江门市分行纪检组举办2023年清廉合规大讲堂

为推动廉洁教育打通“最后一公里”&#xff0c;近日&#xff0c;建行驻江门市分行纪检组举办江门市分行2023年清廉合规大讲堂。 本次大讲堂邀请了检察院资深检察官专题讲授《金融从业人员易涉犯罪问题剖析及预防》&#xff0c;检察官结合一线办案经历&#xff0c;从防范化解金…

Spring FactoryBean 源码讲解

Spring FactoryBean 源码讲解 什么是Spring FactoryBean Spring FactoryBean是一个特殊的Bean&#xff0c;它实现了FactoryBean接口并重写了其getObject()方法&#xff0c;用于生产其他Bean的实例。在Spring容器启动时&#xff0c;会自动调用FactoryBean的getObject()方法来获…

设计模式:访问者模式(C#、JAVA、JavaScript、C++、Python、Go、PHP)

上一篇《状态模式》 下一篇《原型模式》 简介&#xff1a; 访问者模式&#xff0c;它是一种将数据操作与数据结构分离的设计模式&#xff0c;它属于行为型模式。访问者模式的基本思想是&#xff0c;针对…

Redis中的数据类型以及适用场景

1.Redis中的数据类型 Redis中的数据类型包括&#xff1a;String(字符串&#xff09;、Hash(字典)、List(列表)、Set(集合)、Sorted Set【Zset】(有序集合&#xff09;。 Redis 所有的数据结构都是一个key对应一个value&#xff0c;不同类型的数据结构之间的差异就在于value的…

电子器件 电阻参数与选型

一、参数 电阻的主要参数有&#xff1a;精度、温度系数和功率三个 1.1 精度 一般有0.1%、1%&#xff0c;5%&#xff0c;10%&#xff0c;15%、25%等&#xff0c;一般精度越高价格也越高。有些场合需要使用高精度的电阻。 其中精度所代表的字母如下&#xff1a; L0.01%P0.02…

建行广东江门分行:科技赋能,数据助力纠“四风”

为进一步深化落实中央八项规定精神&#xff0c;持续加大“四风”问题查处力度&#xff0c;建行驻江门市分行纪检组根据《广东省分行贯彻落实中央八项规定精神持之以恒纠治“四风”实施方案》&#xff08;建粤党发〔2023〕1号&#xff09;安排&#xff0c;对驻在市分行开展“四风…

基于ssm实验室管理系统

功能如图所示 摘要 实验室管理系统&#xff08;Laboratory Management System&#xff0c;简称LMS&#xff09;是一种基于SSM&#xff08;Spring、SpringMVC、MyBatis&#xff09;框架的信息化工具&#xff0c;旨在帮助实验室管理者高效、精确地管理实验室资源、人员和实验数据…

详解Java的八种基本数据类型

目录 Java八种数据类型 注意&#xff1a; 四个大类 整型&#xff08;byte、short、int、long&#xff09; 注意 浮点型&#xff08;float、double&#xff09; 神奇的代码 注意&#xff1a; 字符型&#xff08;char&#xff09; 布尔型&#xff08;boolean&#xff0…

CondaError: Downloaded bytes did not match Content-Length

问题 使用anaconda下载包文件时&#xff0c;出现了CondaError: Downloaded bytes did not match Content-Length的错误 CondaError: Downloaded bytes did not match Content-Lengthurl: https://conda.anaconda.org/pytorch/win-64/pytorch-2.1.0-py3.11_cuda11.8_cudnn8_0.…

Jmeter(十七):利用jmeter插件收集性能测试结果

利用jmeter插件收集性能测试结果 汇总报告&#xff08;Summary Report &#xff09; 用来收集性能测试过程中的请求以及事务各项指标。通过监听器--汇总报告 可以添加该元件。界面如下图所示 汇总报告界面介绍&#xff1a; 所有数据写入一个文件&#xff1a;保存测试结果到本…

软件测试面试:支付功能如何测试?

前言 相信有很多的小伙伴全面武装好在找工作。那么&#xff0c;作为测试&#xff0c;不管是面试还是笔试&#xff0c;必然要被考验到的就是”测试思维“。在面试中就是体现在如下面试题中&#xff1a; “说说你项目中的xx模块你是如何测试的&#xff1f;” “给你一个购物车&a…

直线模组怎么分类?

直线模组是一种广泛应用于自动化设备、机器人、数控机床、电子设备等领域的精密传动系统。根据不同的分类方式&#xff0c;直线模组可分为多种类型。 一、按照轴数分类 1、单轴直线模组&#xff1a;只有一个移动轴的直线模组&#xff0c;通常用于简单的直线运动和定位。 2、双…

9、定义错误页

在layouts目录下新建error.vue&#xff0c;可以通过layout函数使用布局文件&#xff0c;通过props: [“error”]能拿到错误信息对象。 <template><div>{{ error.statusCode }}: {{ error.message }}</div> </template><script> export default {…

33:深入浅出x86中断机制

背景 我们知道使用0x10号中断&#xff0c;可以在屏幕上打印一个字符。 问题 系统中的 中断 究竟是什么&#xff1f; 生活中的例子 来看一个生活中例子&#xff1a; 小狄的工作方式 在处理紧急事务的时候&#xff0c;不回应同事的技术求助。老板的召唤必须回应&#xff0c;…

Golang教程——配置环境,再探GoLand

文章目录 一、Go是什么&#xff1f;二、环境配置验证配置环境变量 三、安装开发者工具GoLand四、HelloGolang 一、Go是什么&#xff1f; Go&#xff08;也称为Golang&#xff09;是一种开源的编程语言&#xff0c;由Google开发并于2009年首次发布。Go语言旨在提供一种简单、高…

剑指JUC原理-5.synchronized底层原理

Java对象头 以32位虚拟机为例&#xff1a; 普通对象 在Java虚拟机中&#xff0c;每个对象都有一个对象头&#xff08;Object Header&#xff09;&#xff0c;其中包含了一些用于管理对象的元数据信息。对象头通常由两部分组成&#xff1a;mark word&#xff08;标记字&#x…

开源3D激光(视觉)SLAM算法汇总(持续更新)

目录 一、Cartographer 二、hdl_graph_slam 三、LOAM 四、LeGO-LOAM 五、LIO-SAM 六、S-LOAM 七、M-LOAM 八、livox-loam 九、Livox-Mapping 十、LIO-Livox 十一、FAST-LIO2 十二、LVI-SAM 十三、FAST-Livo 十四、R3LIVE 十五、ImMesh 十六、Point-LIO 一、Cartographer Cartog…

目标检测类项目数据集汇总

一、玩手机数据集及检测 玩手机数据集下载地址分享: https://download.csdn.net/download/qq_34717531/19870205 二、狗的数据集及检测 狗目标检测数据集下载地址分享:https://download.csdn.net/download/qq_34717531/20813390 三、猫数据集及检测 猫数据集下载地址分享: ht…