分布式安装配置spark-3.2.3

news2024/11/17 2:48:25

Spark是一个基于内存的大数据计算框架,可以与Hadoop集成,提供更快速的数据处理能力。本文将介绍如何在三个Ubuntu系统上搭建一个Spark集群。

主要步骤包括:

  • 准备工作:下载安装包,设置环境变量,解压安装包。
  • 安装配置Spark:编辑配置文件,指定Master节点,Worker节点,CPU核数,内存大小等。
  • 启动Spark集群:启动服务,查看状态,使用客户端连接。

一、准备工作

  • 首先确保已经安装配置好Hadoop和Java。本文假设已经搭建一个三节点的Hadoop集群,它们的IP地址和主机名分别如下:
IP地址主机名
192.168.1.100hadoop100
192.168.1.200hadoop200
192.168.1.201hadoop201
  • 然后下载spark-3.2.3-bin-hadoop3.2的安装包,可以从官网下载。
  • 接着在hadoop100上将下载的安装包放到桌面,然后解压到/usr/local/spark目录下,例如:
tar -zxvf spark-3.2.3-bin-hadoop3.2.tgz -C /usr/local
mv /usr/local/spark-3.2.3-bin-hadoop3.2 /usr/local/spark
  • 最后在hadoop100上设置SPARK_HOME环境变量,可以在/etc/profile文件中添加如下内容:
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin

然后执行source /etc/profile命令使配置生效。

二、安装配置Spark

  • 编辑$SPARK_HOME/conf/spark-env.sh文件,取消以下几行的注释,并修改其中的值:

包含 Spark History Server配置,查看任务执行历史信息,通过spark-submit或者Intellij IDEA提交任务,应用程序运行期间都可以通过管理页面查看具体运行细节,但是运行结束Web界面也失效。

export JAVA_HOME=/usr/local/java/jdk1.8.0_341 # 配置java环境变量 根据实际的JAVA_HOME路径修改
export SPARK_MASTER_HOST=hadoop100 # 设置Spark Master节点的主机名
export SPARK_MASTER_PORT=7077 # 指定主节点端口
export SPARK_WORKER_CORES=2 # 设置每个Worker节点可用的CPU核数
export SPARK_WORKER_MEMORY=4G # 指定内存大小

export SPARK_MASTER_WEBUI_PORT=8080#指定web访问端口
export SPARK_CONF_DIR=/usr/local/spark/conf

export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-3.2.4/etc/hadoop # 添加Hadoop的配置文件路径
export HADOOP_HOME=/usr/local/hadoop/hadoop-3.2.4/etc/hadoop
export YARN_CONF_DIR=/usr/local/hadoop/hadoop-3.2.4/etc/hadoop
export SPARK_HOME=/usr/local/spark
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/hadoop-3.2.4/bin/hadoop classpath)

export  SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://hadoop100:9000/log/spark/spark_directory"
  • 编辑$SPARK_HOME/conf/workers文件,添加以下内容:
# A Spark Worker will be started on each of the machines listed below.
hadoop100
hadoop200
hadoop201

这里指定了三个节点都作为Spark的Worker节点,负责执行任务。

  • 将配置好的Spark安装包分发到其他两个节点上,例如:
scp -r /usr/local/spark c914@hadoop200:/usr/local/
scp -r /usr/local/spark c914@hadoop200:/usr/local/

这里假设已经在三个节点上配置了免密登录,否则需要输入密码。

三、启动Spark集群

  • 在hadoop上执行如下命令启动Spark集群:
start-all.sh
  • 在任意一个节点上执行如下命令查看Spark集群的状态:
jps

如果输出中显示了Master和Worker进程,说明该节点已经加入到集群中。

  • 在任意一个节点上执行如下命令使用命令行客户端连接到Spark集群:
spark-shell --master spark://master:7077

如果连接成功,会进入一个交互式的shell环境,可以输入一些命令来操作Spark,例如:

scala> val rdd = sc.parallelize(1 to 10)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

scala> val sum = rdd.reduce(_ + _)
sum: Int = 55

scala> :quit
Quitting...

 四、管理界面

可以到浏览器中查看管理网页:

http://192.168.1.100:8080/

IP地址:8080/ 

历史任务网页:

http://192.168.1.100:18080/

IP地址:18080/ 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/655218.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Elasticsearch与Hbase组合框架的大数据搜索引擎

本项目为学校大数据工程实训项目&#xff0c;共开发4周&#xff0c;答辩成绩不错。代码仓库放文章尾&#xff0c;写的不好&#xff0c;代码仅供参考。 搜索 对于结构化数据&#xff0c;因为它们具有特定的结构&#xff0c;所以我们一般都是可以通过关系型数据库&#xff08;M…

【读书笔记】《房思琪的初恋乐园》- 林奕含

文章目录 第一章 乐园第二章 失乐园 第一章 乐园 钱爷爷说&#xff1a;“两个小美女有心事啊&#xff1f;”怡婷最恨人家叫她们两个小美女&#xff0c;她很这种算术上的好心。 在外人看来&#xff0c;女生无论长得漂亮还是长得不怎么样都是一种原罪。或者正如上野千鹤子所说那样…

pocketgl

pocketgl支持在自己的web页面集成类似 Shadertoy、 Threejs 等基于webGL 的渲染图形窗口&#xff0c; 并且拥有shader代码高亮编辑器支持实时修改和预览。 其自带的mesh包含两个Sphere 和 Teaport, 同时支持上床自定义的网格 和 背景天空盒。其既支持像Shadertoy 这种只包含fra…

[元带你学: eMMC协议详解 13] 数据读(Read) 写(Write) 详解

依JEDEC eMMC 5.1及经验辛苦整理&#xff0c;付费内容&#xff0c;禁止转载。 所在专栏 《元带你学: eMMC协议详解》 内容摘要 全文 4700字&#xff0c; 主要内容 1. 数据读取 2. 块读取操作 3. 数据写 4.块写操作 参考 1. 数据读取 当没有数据传输时&#xff0c;DATO-D…

Python使用happybase写入HBase

HBase是一个分布式的、面向列的NoSQL数据库&#xff0c;可以存储大量的非结构化或半结构化的数据。tif是一种常见的影像文件格式&#xff0c;可以存储多波段的栅格数据。本文将介绍如何使用Python的happybase模块和gdal模块&#xff0c;从tif格式的影像文件中读取数据&#xff…

排序算法的奇妙冒险

排序算法的奇妙冒险 一.排序的概念1.1 排序的定义1.2 排序的稳定性1.3 排序的内排序和外排序 二.插入排序2.1 直接插入排序2.2 希尔排序 三.选择排序3.1直接选择排序3.2 堆排序 四.交换排序4.1 冒泡排序4.2 快速排序**选取基准值的方法**快速排序的优化非递归实现快速排序 五.归…

Web3简述MetaMask并演示谷歌安装MetaMask扩展程序方式

Web3到现在理论这段是说的有点太多了 那么 我们先来看个东西 叫 MetaMask 这个在我们项目开发过程中需要使用 其实 你如果去找MetaMask 可能会被一些关键字下到 可能会看到 虚假 诈骗等关键字 因为 这个东西本事就是一个开源的以太坊的一个钱包 那么 钱包肯定就是用来管理资产…

LoadDef python工具包学习一:计算love数

首先在github下载这个工具箱&#xff1a;https://github.com/hrmartens/LoadDef 下载完毕&#xff0c;解压缩进入如下的界面&#xff0c;点击进入working工作文件夹。在doc文件夹里面有帮助文档和教程&#xff0c;有需要的可以仔细阅读。 loaddef主要的功能模块包括&#xff1…

力扣日记1494

1. 题目 [LeetCode 1494. 并行课程 II]https://leetcode.cn/problems/parallel-courses-ii/) 1.1 题意 严格按照选课先修顺序选课&#xff0c;每个学期选课数有上限&#xff0c;求选完所有课程的最短学期数 1.2 分析 这道题的数据量很小&#xff0c;而且作为困难题&#xff…

一起学 WebGL:纹理对象学习

大家好&#xff0c;我是前端西瓜哥&#xff0c;今天我们来了解 WebGL 的纹理对象&#xff08;Texture&#xff09; 纹理对象&#xff0c;是将像素&#xff08;texels&#xff09;以数组方式传给 GPU 的对象&#xff0c;常见场景是贴图&#xff0c;就是将图片的数据应用到 3D 物…

vue 根据word摸板导出word文档,并压缩为zip

yarn add jszip3.10.1 yarn add jszip-utils0.1.0 yarn add pizzip3.1.4 yarn add docxtemplater3.29.5 yarn add docxtemplater-image-module-free1.1.1 yarn add file-saver2.0.5 注意&#xff1a;这里的fileUrl必须是绝对路径&#xff0c;否则可能会报 is not zip的错误&…

当pytest遇上poium会擦出什么火花

当pytest遇上poium会擦出什么火花 首先&#xff0c;创建一个test_sample/test_demo.py 文件&#xff0c;写入下面三行代码。 def test_bing(page):page.get("https://www.bing.com")assert page.get_title "必应"不要问题 page 从哪里来&#xff0c;打开…

(LLM) 的所有知识;10分钟了解向量数据库;微软 Bing 可以识别图片了;

&#x1f989; AI新闻 &#x1f680; 微软 Bing 可以识图」了&#xff0c;吊打 GPT-4&#xff1f; 摘要&#xff1a;微软 Bing 最新识图功能让用户可以上传图片并进行编程、做题、看病等操作&#xff0c;还能分析梗图笑点。然而在某些情况下表现不佳&#xff0c;例如无法数清…

技术分享 | i.MX8M Plus开发板 固定IP地址以及单网口多IP设置

以启扬IMX8MP开发板为例&#xff0c;给大家分享固定IP地址以及单网口多IP设置的步骤流程。 固定IP地址设置 20-wired.network 重启Network生效 网口多ip设置 对于一些网络管理的命令 connman设置&#xff08;参考&#xff09; imx8 yocto系统的init system使用systemd&#xff…

精选Java SSM 框架基础面试题

一、Spring面试题 1、Spring 在ssm中起什么作用&#xff1f; Spring&#xff1a;轻量级框架作用&#xff1a;Bean工厂&#xff0c;用来管理Bean的生命周期和框架集成。两大核心&#xff1a;1、IOC/DI(控制反转/依赖注入) &#xff1a;把dao依赖注入到service层&#xff0c;se…

STM32 GPIO 详解

0. 实验平台 基于STM32F407ZG 1. GPIO 简介 1.1 简介 GPIO全称&#xff1a;General Purpose Input Output&#xff0c;即通用输入输出端口&#xff0c;一般用来采集外部器件的信息或者控制外部器件工作&#xff0c;即输入输出 1.2 STM32 的 GPIO 特点 不同型号&#xff0…

SpringBatch从入门到实战(五):执行上下文和单步骤重启

一&#xff1a;执行上下文 1.1 Job Context 作业上下文 JobContext 绑定 JobExecution 执行对象&#xff0c;为Job作业执行提供执行环境(上下文)。 1.2 Step Context 步骤上下文 StepContext 绑定 StepExecution 执行对象&#xff0c;为Step步骤执行提供执行环境(上下文)。 …

【剑指offer专项突破版】栈篇——“C“

文章目录 前言一、后缀表达式题目分析思路分析代码 二、小行星碰撞题目分析思路分析代码 三、每日温度题目分析思路分析代码 四、直方图最大矩形面积题目分析思路分析代码 五、矩阵中最大的矩形题目分析思路分析代码 总结 前言 剑指offer专项突破版&#xff08;力扣官网&#x…

IBM不藏私:深刻解析量子计算机的突破和机遇

​ 巴伐利亚科学部长Markus Blume在莱布尼茨超级计算中心与Dieter Kranzlmlle&#xff08;左&#xff09;一起观看量子计算机的部分构件。&#xff08;图片来源&#xff1a;网络&#xff09; 关于量子计算机的研究已进行了数十年&#xff0c;目前还尚未生产一台能够掀起计算革命…

Vue全家桶(一):Vue基础+Vue-Cli+Vue组件化+过渡动画

目录 1.Vue概述1.1 认识Vue1.2 Vue的两核心1.3 Vue的初体验1.4 Vue的生命周期 2. Vue-CLI (Command Line Interface)3. Vue基本使用3.1 传统开发模式对比3.2 Vue.js引入3.3 Vue.js 案例分析3.3.1 实例参数el、data、methods的写法 4. Vue模板语法4.1 插值语法 {{xxx}}4.2 指令语…