spark3.0.2搭建教程

news2024/12/23 13:47:05

spark3.0.2搭建教程

spark3.0.2安装教程

文章目录

  • spark3.0.2安装教程
    • 一、前期准备
    • 二、spark搭建
      • (一)搭建
        • 1、将spark上传到虚拟机上
        • 2、解压安装包
      • (二)、standalone(独立部署)模型
        • 1、修改配置文件
      • (三)、yarn模型
        • 1、修改配置文件
      • (四)、将spark文件分发到hadoop2、hadoop3中
    • 三、开启spark
      • (一)、测试
        • 第一种:standalone模式
        • 第二种:yarn模式
  • spark3.0.2安装教程
    • 一、前期准备
    • 二、spark搭建
      • (一)搭建
        • 1、将spark上传到虚拟机上
        • 2、解压安装包
      • (二)、standalone(独立部署)模型
        • 1、修改配置文件
      • (三)、yarn模型
        • 1、修改配置文件
      • (四)、将spark文件分发到hadoop2、hadoop3中
    • 三、开启spark
      • (一)、测试
        • 第一种:standalone模式
        • 第二种:yarn模式

一、前期准备

需要提前按照好hadoop集群

资源下载:

  • spark-3.0.2-bin-hadoop3.2.tgz

补充:

  • spark各大版本

二、spark搭建

主机名hadoop1hadoop2hadoop3
Master
worker
workerworker

分别有三台主机,主机名为hadoop1、hadoop2、hadoop3

(一)搭建

1、将spark上传到虚拟机上

在CRT中可以输入命令rzspark-3.0.2-bin-hadoop3.2.tgz上传到/opt/software

cd /opt/software
rz

/opt/software我用来存放安装包相关文件的

2、解压安装包

将文件解压到/opt/module/

 tar -zxvf spark-3.0.2-bin-hadoop3.2.gz -C /opt/module/

并将文件名字改为spark

mv  /opt/module/spark-3.0.2-bin-hadoop3.2 spark

(二)、standalone(独立部署)模型

standalone模式是spark的master-salve的模型,安装规划如下:

主机名hadoop1hadoop2hadoop3
Master
worker
workerworker

1、修改配置文件

  • 进入到解压文件路径下conf

    • 修改slaves.templateslaves
    • 修改spark-env.sh.templatespark-env.sh
    • 修改spark-defaults.conf.templatespark-defaults.conf
    mv slaves.template slaves
    mv spark-env.sh.template spark-env.sh
    mv spark-defaults.conf.template spark-defaults.conf
    

    上面都是模板文件,因此需要修改

  • slaves中,中添加worker节点

    hadoop1
    hadoop2
    hadoop3
    

    在这里插入图片描述

  • spark-env.sh中,添加JAVA_HOME的路径,Master节点

    export JAVA_HOME=/opt/module/jdk1.8.0_212
    SPARK_MASTER_HOST=hadoop1
    SPARK_MASTER_PORT=7077                        
    

    注意:JAVA_HOME是自己安装jdk的路径;7077端口相当于hadoop3版本内部通信的8020、9000、9820端口

  • 配置历史服务器来记录任务运行情况

    • spark-defaults.conf中添加或者修改

      spark.eventLog.enabled           true
      spark.eventLog.dir               hdfs://hadoop1:8020/directory
      spark.yarn.historyServer.address=hadoop1:18080
      spark.history.ui.port=18080
      

      spark.eventLog.dir是指存储日志数据的位置 ,将数据存到hadoop2上

      注意:需要在hdfs上创建一个directory文件夹来存储,可以使用下面命令

      hadoop fs -mkdir /directory

    • 还需要在spark-env.sh添加历史服务器相关的配置信息

      export SPARK_HISTORY_OPTS="
      -Dspark.history.ui.port=18080
      -Dspark.history.fs.logDirectory=hdfs://hadoop1:8020/directory
      -Dspark.history.retainedApplications=30"
      

(三)、yarn模型

yarn模型是利用yarn来进行资源调度

1、修改配置文件

和standalone模型的配置有相似的地方

  • 在slaves中添加worker的文件,和上面内容一样

  • spark-env.sh中,添加JAVA_HOME的路径和hadoop集群的配置文件路径

    export JAVA_HOME=/opt/module/jdk1.8.0_212
    YARN_CONF_DIR=/opt/hadoop-3.1.3/etc/hadoop                  
    

    注意:JAVA_HOME是自己安装jdk的路径,YARN_CONF_DIR是hadoop配置文件的路径

  • 配置历史服务器来记录任务运行情况,和standalone模型的配置一样

  • 需要去在hadoop的yarn-site.xml中添加

    <!--是否启动一个线程检查每一个任务正使用物理内存量,如果任务超出分配值,直接将其杀掉,默认是开启true -->
    <property>
        <description>Whether physical memory limits will be enforced for
        containers.</description>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
     </property>
    <!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
    <property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
    </property>
    

    注意:修改后,将修改的文件分发到其他的hadoop中,并重启启动hadoop集群

因此可以得知,yarn模型基于standalone模型下,只需要在spark-env.sh 只需要添加YARN_CONF_DIR即可

(四)、将spark文件分发到hadoop2、hadoop3中

rsync -av /opt/module/spark 用户名@ip地址:/opt/module/

三、开启spark

进入的spark安装目录中,执行下面命令开spark集群hadoop集群

sbin/start-all.sh

需要自己另外开启hadoop集群

可以通过jps命令查看spark是否启动,分别会在hadoop1、hadoop2、hadoop3中显示以下进程

hadoop1hadoop2hadoop3
Master
worker
workerworker

(一)、测试

需要进入到spark的安装目录中,使用spark的官方案例:计算π的值

第一种:standalone模式

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop1:7077 \
./examples/jars/spark-examples_2.12-3.0.2.jar \
10

在这里插入图片描述

第二种:yarn模式

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn
./examples/jars/spark-examples_2.12-3.0.2.jar \
10

在这里插入图片描述

spark3.0.2安装教程

文章目录

  • spark3.0.2安装教程
    • 一、前期准备
    • 二、spark搭建
      • (一)搭建
        • 1、将spark上传到虚拟机上
        • 2、解压安装包
      • (二)、standalone(独立部署)模型
        • 1、修改配置文件
      • (三)、yarn模型
        • 1、修改配置文件
      • (四)、将spark文件分发到hadoop2、hadoop3中
    • 三、开启spark
      • (一)、测试
        • 第一种:standalone模式
        • 第二种:yarn模式
  • spark3.0.2安装教程
    • 一、前期准备
    • 二、spark搭建
      • (一)搭建
        • 1、将spark上传到虚拟机上
        • 2、解压安装包
      • (二)、standalone(独立部署)模型
        • 1、修改配置文件
      • (三)、yarn模型
        • 1、修改配置文件
      • (四)、将spark文件分发到hadoop2、hadoop3中
    • 三、开启spark
      • (一)、测试
        • 第一种:standalone模式
        • 第二种:yarn模式

一、前期准备

需要提前按照好hadoop集群

资源下载:

  • spark-3.0.2-bin-hadoop3.2.tgz

补充:

  • spark各大版本

二、spark搭建

主机名hadoop1hadoop2hadoop3
Master
worker
workerworker

分别有三台主机,主机名为hadoop1、hadoop2、hadoop3

(一)搭建

1、将spark上传到虚拟机上

在CRT中可以输入命令rzspark-3.0.2-bin-hadoop3.2.tgz上传到/opt/software

cd /opt/software
rz

/opt/software我用来存放安装包相关文件的

2、解压安装包

将文件解压到/opt/module/

 tar -zxvf spark-3.0.2-bin-hadoop3.2.gz -C /opt/module/

并将文件名字改为spark

mv  /opt/module/spark-3.0.2-bin-hadoop3.2 spark

(二)、standalone(独立部署)模型

standalone模式是spark的master-salve的模型,安装规划如下:

主机名hadoop1hadoop2hadoop3
Master
worker
workerworker

1、修改配置文件

  • 进入到解压文件路径下conf

    • 修改slaves.templateslaves
    • 修改spark-env.sh.templatespark-env.sh
    • 修改spark-defaults.conf.templatespark-defaults.conf
    mv slaves.template slaves
    mv spark-env.sh.template spark-env.sh
    mv spark-defaults.conf.template spark-defaults.conf
    

    上面都是模板文件,因此需要修改

  • slaves中,中添加worker节点

    hadoop1
    hadoop2
    hadoop3
    

    在这里插入图片描述

  • spark-env.sh中,添加JAVA_HOME的路径,Master节点

    export JAVA_HOME=/opt/module/jdk1.8.0_212
    SPARK_MASTER_HOST=hadoop1
    SPARK_MASTER_PORT=7077                        
    

    注意:JAVA_HOME是自己安装jdk的路径;7077端口相当于hadoop3版本内部通信的8020、9000、9820端口

  • 配置历史服务器来记录任务运行情况

    • spark-defaults.conf中添加或者修改

      spark.eventLog.enabled           true
      spark.eventLog.dir               hdfs://hadoop2:8020/directory
      spark.yarn.historyServer.address=hadoop2:18080
      spark.history.ui.port=18080
      

      spark.eventLog.dir是指存储日志数据的位置 ,将数据存到hadoop2上

      注意:需要在hdfs上创建一个directory文件夹来存储,可以使用下面命令

      hadoop fs -mkdir /directory

    • 还需要在spark-env.sh添加历史服务器相关的配置信息

      export SPARK_HISTORY_OPTS="
      -Dspark.history.ui.port=18080
      -Dspark.history.fs.logDirectory=hdfs://hadoop2:8020/directory
      -Dspark.history.retainedApplications=30"
      

(三)、yarn模型

yarn模型是利用yarn来进行资源调度

1、修改配置文件

和standalone模型的配置有相似的地方

  • 在slaves中添加worker的文件,和上面内容一样

  • spark-env.sh中,添加JAVA_HOME的路径和hadoop集群的配置文件路径

    export JAVA_HOME=/opt/module/jdk1.8.0_212
    YARN_CONF_DIR=/opt/hadoop-3.1.3/etc/hadoop                  
    

    注意:JAVA_HOME是自己安装jdk的路径,YARN_CONF_DIR是hadoop配置文件的路径

  • 配置历史服务器来记录任务运行情况,和standalone模型的配置一样

  • 需要去在hadoop的yarn-site.xml中添加

    <!--是否启动一个线程检查每一个任务正使用物理内存量,如果任务超出分配值,直接将其杀掉,默认是开启true -->
    <property>
        <description>Whether physical memory limits will be enforced for
        containers.</description>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
     </property>
    <!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
    <property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
    </property>
    

    注意:修改后,将修改的文件分发到其他的hadoop中,并重启启动hadoop集群

因此可以得知,yarn模型基于standalone模型下,只需要在spark-env.sh 只需要添加YARN_CONF_DIR即可

(四)、将spark文件分发到hadoop2、hadoop3中

rsync -av /opt/module/spark 用户名@ip地址:/opt/module/

三、开启spark

进入的spark安装目录中,执行下面命令开spark集群hadoop集群

sbin/start-all.sh

需要自己另外开启hadoop集群

可以通过jps命令查看spark是否启动,分别会在hadoop1、hadoop2、hadoop3中显示以下进程

hadoop1hadoop2hadoop3
Master
worker
workerworker

(一)、测试

需要进入到spark的安装目录中,使用spark的官方案例:计算π的值

第一种:standalone模式

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop1:7077 \
./examples/jars/spark-examples_2.12-3.0.2.jar \
10

在这里插入图片描述

第二种:yarn模式

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn
./examples/jars/spark-examples_2.12-3.0.2.jar \
10

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/30759.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

学生HTML静态网页基础水平制作DIV+CSS+JavaScript技术制作美食网页——美食城6页面

&#x1f468;‍&#x1f393;静态网站的编写主要是用HTML DIVCSS JS等来完成页面的排版设计&#x1f469;‍&#x1f393;,常用的网页设计软件有Dreamweaver、EditPlus、HBuilderX、VScode 、Webstorm、Animate等等&#xff0c;用的最多的还是DW&#xff0c;当然不同软件写出的…

高等数学(第七版)同济大学 习题10-2(前10题) 个人解答

高等数学&#xff08;第七版&#xff09;同济大学 习题10-2&#xff08;前10题&#xff09; 函数作图软件&#xff1a;Mathematica 1.计算下列二重积分:\begin{aligned}&1. \ 计算下列二重积分:&\end{aligned}​1. 计算下列二重积分:​​ (1)∬D(x2y2)dσ&#xff0c;…

【构建ML驱动的应用程序】第 7 章 :使用分类器编写推荐

&#x1f50e;大家好&#xff0c;我是Sonhhxg_柒&#xff0c;希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流&#x1f50e; &#x1f4dd;个人主页&#xff0d;Sonhhxg_柒的博客_CSDN博客 &#x1f4c3; &#x1f381;欢迎各位→点赞…

动态内存管理❀C

目录❀动态内存管理的意义❀动态内存管理函数malloc - 申请空间free - 释放空间calloc - 申请空间realloc - 调整空间大小❀常见的动态内存错误对NULL指针的解引用操作 - err对动态开辟空间的越界访问 - err对非动态开辟内存使用free释放 - err使用free释放一块动态开辟内存的一…

Pycharm安装配置Pyside6

PySide6是在Python环境下的一套Qt6 API库。使用PySide6可以轻松创建基于Qt6的GUI程序&#xff1b;PySide6由Qt官方维护。 1. Pyside6的安装&#xff1a; 直接安装在原python上面&#xff0c;在cmd里运行&#xff1a;(网速慢使用阿里源源) pip3 install Pyside6 -i https://p…

网络安全——逻辑漏洞之越权漏洞

作者名&#xff1a;Demo不是emo 主页面链接&#xff1a;主页传送门创作初心&#xff1a;舞台再大&#xff0c;你不上台&#xff0c;永远是观众&#xff0c;没人会关心你努不努力&#xff0c;摔的痛不痛&#xff0c;他们只会看你最后站在什么位置&#xff0c;然后羡慕或鄙夷座右…

高通导航器软件开发包使用指南(8)

高通导航器软件开发包使用指南&#xff08;8&#xff09;7 电子速度控制器7.1 ESC固件更新7.1.1相关参数说明7.1.3在初始化期间启用更新7.1.4固件配置7.1.5固件从版本7.1.6更新程序7 电子速度控制器 7.1 ESC固件更新 高通公司Navigator支持ESC固件更新&#xff0c;无需连接或…

2022亚太C题详细思路

2022年亚太今日已经正式开赛&#xff0c;为了帮助大家更好的选题建模&#xff0c;这里首先对ABC三道题目进行浅要评析&#xff0c;以方便大家更好的择题。同时相关资料也会后续进行补充。预计明日公布各题统计选题人数以及较为完善的资料。今天作为第一天重要的是择好题&#x…

Tableau阈值设置及其使用

阈值又叫临界值&#xff0c;是指一个效应能够产生的最低值或最高值。 ——百度百科 文章目录前言一、案例中阈值的使用背景介绍二、设置阈值参数三、颜色区分四、可筛选设置总结前言 介绍Tableau阈值的设置&#xff0c;供各位小伙伴参考。本文案例来源于Tableau自带示例工作薄…

mysql 数据备份与恢复使用详解

一、前言 对一个运行中的线上系统来说&#xff0c;定期对数据库进行备份是非常重要的&#xff0c;备份不仅可以确保数据的局部完整性&#xff0c;一定程度上也为数据安全性提供了保障&#xff0c;设想如果某种极端的场景下&#xff0c;比如磁盘损坏导致某个时间段数据丢失&…

冒泡排序法

目录 一、问题 二、冒泡排序的思想 三、举例 四、算法分析 五、代码实现 一、问题 现有一个整型数组&#xff08;乱序&#xff09;&#xff0c;并且写一个函数&#xff08;Sort&#xff09;对数组进行排序&#xff0c;顺序要求升序。 二、冒泡排序的思想 两两相邻的元素…

【100个 Unity实用技能】 | Unity自定义脚本的初始模版

Unity 小科普 老规矩&#xff0c;先介绍一下 Unity 的科普小知识&#xff1a; Unity是 实时3D互动内容创作和运营平台 。包括游戏开发、美术、建筑、汽车设计、影视在内的所有创作者&#xff0c;借助 Unity 将创意变成现实。Unity 平台提供一整套完善的软件解决方案&#xff…

java每日一练(2)

java每日一练(2) 单选部分 1.A 派生出子类 B &#xff0c; B 派生出子类 C &#xff0c;并且在 java 源代码有如下声明&#xff1a; A a0new A();A a1new B();A a2new C(); 问以下哪个说法是正确的&#xff08;&#xff09; A 只有第一行能通过编译 B 第1、2行能通过编译&…

【Servlet】6:一篇文章搞懂Servlet对象的相互调用、数据共享

目录 | 请求对象和响应对象 生命周期 | Servlet之间的相互调用 Servlet调用 基本概述 重定向Servlet调用 请求转发Servlet调用 | Servlet之间的数据共享 Servlet数据共享 基本概述 ServletContext接口 数据共享 Cookie类 数据共享 HttpSession接口 数据共享 HttpServletRequest…

2022亚太A题赛题分享

序列图像特征提取及模具熔融结晶建模分析 连铸过程中的模具通量对钢半月板进行热绝缘&#xff0c;防止液态钢连铸过程中液态钢再氧化&#xff0c;控制传热&#xff0c;提供链润滑&#xff0c;吸收非金属夹杂物。模具通量的冶金功能主要由温度控制曲线下的熔化速率和结晶速率决定…

【论文简述及翻译】MVSNet:Depth Inference for Unstructured Multi-view Stereo(ECCV 2018)

一、论文简述 1. 第一作者&#xff1a;Yao Yao 2. 发表年份&#xff1a;2018 Oral 3. 发表期刊&#xff1a;ECCV 4. 关键词&#xff1a;MVS、端到端网络、代价体、深度图、可微分单应变换 5. 探索动机&#xff1a;传统方法存在一些常见的局限性&#xff0c;很难处理场景的…

1100亩烟台深耕水稻 国稻种芯·中国水稻节:山东盐碱地水稻

1100亩烟台深耕水稻 国稻种芯中国水稻节&#xff1a;山东盐碱地水稻 &#xff08;YMG全媒体记者 庞磊 通讯员 包刚先 李敏 摄影报道&#xff09;新闻中国采编网 中国新闻采编网 谋定研究中国智库网 中国农民丰收节国际贸易促进会 国稻种芯中国水稻节 中国三农智库网-功能性农业…

LinuxHadoop环境

Hadoop环境Hadoop集群拓扑1、集群拓扑2、角色分配一、虚拟机安装二、虚拟机克隆1、克隆类型&#xff08;1&#xff09;完整克隆&#xff08;2&#xff09;链接克隆2、克隆步骤&#xff08;1&#xff09;克隆出master虚拟机&#xff08;2&#xff09;克隆出slave1虚拟机&#xf…

线性回归实战---Abalone鲍鱼年龄预测

线性回归实现Abalone鲍鱼年龄预测 文章目录线性回归实现Abalone鲍鱼年龄预测一、环境准备数据集简介二、线性回归基础知识什么是线性回归?“最小二乘法” 求解线性回归问题三、Python代码四、结果分析前面我们使用手动编写,后面通过sklearn第三方库来与我们手写的模型进行对比…