Spark入门(二)

news2024/12/24 7:12:05

2.3 Standalone模式

Standalone模式是Spark自带的资源调度引擎,构建一个由Master + Worker构成的Spark集群,Spark运行在集群中。
这个Standalone区别于Hadoop的。这里的Standalone是指只用Spark来搭建一个集群,不需要借助其他框架。

2.3.1集群角色之资源管理

Master和Worker集群资源管理
在这里插入图片描述
Master和Worker是Spark的守护进程(常驻后台进程)、集群资源管理者,即Spark在特定模式(Standalone)下正常运行必须要有的后台常驻进程。
在这里插入图片描述
Driver和Executor是临时程序,当有具体任务提交到Spark集群才会开启的程序。
Standalone是Spark自带的资源调度引擎,构建一个由Master + Worker构成的Spark集群,Spark运行在集群中。

2.3.2 安装使用

1)集群规划
在这里插入图片描述
2)再解压一份Spark安装包,并修改解压后的文件夹名称为spark-standalone

[aa@hadoop102 sorfware]$ tar -zxvf spark-3.1.3-bin-hadoop3.2.tgz -C /opt/module/
[aa@hadoop102 module]$ mv spark-3.1.3-bin-hadoop3.2 spark-standalone

3)进入Spark的配置目录/opt/module/spark-standalone/conf

[aa@hadoop102 spark-standalone]$ cd conf

4)重命名conf/workers.template文件为conf/workers,并修改works文件内容,添加work节点:

[aa@hadoop102 conf]$ mv workers.template workers
[aa@hadoop102 conf]$ vim workers

```dart
hadoop102
hadoop103
hadoop104

5)修改重命名文件conf/spark-env.sh.template为conf/spark-env.sh文件,添加master节点

```dart
[aa@hadoop102 conf]$ mv spark-env.sh.template spark-env.sh
[aa@hadoop102 conf]$ vim spark-env.sh
SPARK_MASTER_HOST=hadoop102
SPARK_MASTER_PORT=7077

6)分发spark-standalone包

[aa module]$ xsync spark-standalone/

7)启动spark集群

[aa spark-standalone]$ sbin/start-all.sh

查看三台服务器运行进程(xcall.sh是以前采集项目里面讲的脚本)。

[aa spark-standalone]$ xcall.sh
=============== hadoop102 ===============
10341 Worker
11061 Jps
10231 Master
=============== hadoop103 ===============
7800 Worker
8266 Jps
=============== hadoop104 ===============
13601 Jps
13293 Worker

注意:如果遇到 “JAVA_HOME not set” 异常,可以在sbin目录下的spark-config.sh 文件中加入如下配置。

export JAVA_HOME=XXXX

8)网页查看:hadoop102:8080(master web的端口,相当于yarn的8088端口)
目前还看不到任何任务的执行信息。
9)官方求PI案例

[aa spark-standalone]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
./examples/jars/spark-examples_2.12-3.1.3.jar \
10

参数:–master spark://hadoop102:7077指定要连接的集群的master(配置文件中所配置的信息一致)。
10)页面查看http://hadoop102:8080/
默认采用三台服务器节点的总核数24核,每个节点内存1024M
·8080:master的webUI
·4040:application的webUI的端口号
在这里插入图片描述

2.3.3 参数说明

我们当然也可以根据实际任务需求指定使用资源
1)配置Executor可用内存为2G,使用CPU核数为2个

[aa spark-standalone]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
--executor-memory 2G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.12-3.1.3.jar \
10

2)页面查看http://hadoop102:8080/
在这里插入图片描述
3)基本语法
bin/spark-submit
–class
–master
… # other options

[application-arguments]
4)参数说明
在这里插入图片描述

2.3.4 配置历史服务

由于spark-shell停止掉后,hadoop102:4040页面就看不到历史任务的运行情况,所以我们需要历史服务器任务日志。
1)修改spark-default.conf.template名称

[aa conf]$ mv spark-defaults.conf.template spark-defaults.conf

2)修改spark-default.conf文件,配置日志存储路径(写)

[aa conf]$ vim spark-defaults.conf
spark.eventLog.enabled          true
spark.eventLog.dir              hdfs://hadoop102:8020/directory

注意:需要启动Hadoop集群,HDFS上的目录需要提前存在(因为历史任务日志数据存储在HDFS上)。

[aa hadoop-3.1.3]$ hadoop.sh start
[aa hadoop-3.1.3]$ hadoop fs -mkdir /directory

3)修改spark-env.sh文件,添加如下配置:

[aa conf]$ vim spark-env.sh

export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory 
-Dspark.history.retainedApplications=30"

参数1含义:WEBUI访问的端口号为18080
参数2含义:指定历史服务器日志存储路径(读)
参数3含义:指定保存Application历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。
4)分发配置文件

[aa conf]$ xsync spark-defaults.conf 
[aa conf]$ xsync spark-env.sh 

5)启动历史服务

[aa spark-standalone]$ sbin/start-history-server.sh

6)再次执行任务

[aa spark-standalone]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.12-3.1.3.jar \
10

7)查看Spark历史服务地址:hadoop102:18080

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/652609.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

充能书单|618,买什么都不如买知识!

前言 “IT有得聊”是机械工业出版社旗下IT专业资讯和服务平台,致力于帮助读者在广义的IT领域里,掌握更专业、更实用的知识与技能,快速提升职场竞争力。 点击蓝色微信名可快速关注我们。 一年一度的618又到啦!今年的618就不要乱买…

【Linux】MySQL数据库 (二)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 MySQL数据库 数据表高级操作克隆表,将数据表的数据记录生成到新的表中清空表,删除表内的所有数据创建临时表创建外键约束,保证数据的完整性…

【计算机网络】第一章 概述(下)

文章目录 第一章 概述1.5 计算机网络的性能指标1.5.1 速率1.5.2 带宽1.5.3 吞吐量1.5.4 时延 1.6 计算机网络体系结构1.6.1 常见的体系结构1.6.2 分层的必要性1.6.4 体系结构中的专用术语 1.8 习题 第一章 概述 1.5 计算机网络的性能指标 常用的 计算机网络 的性能指标有以下 …

ECC算法学习(一)算法公式

ECC 一、ECC简介优缺点运用 二、算法理论基础1. 椭圆曲线的加法2. 椭圆曲线的二倍运算3. 同余运算4. 有限域5. 乘法逆元 三、算法公式1、有限域的负元2、有限域的加法, P Q P Q PQ3. 斜率计算(PQ即要计算P点切线,需要求导)4. 椭…

chatgpt赋能python:PYTHON如何进行累乘操作?

PYTHON如何进行累乘操作? 在PYTHON编程中,累乘操作是指不断地将一个给定数字序列中的数字相乘的过程。这个操作在数学中也被称为阶乘,通常用符号“!”来表示。 在PYTHON中,进行累乘操作的方法主要有两种:使用循环实现…

Java实现TestNg+ExtentReport实现接口测试,并生成测试报告

一 在pom.xml文件中引入TestNg以及ExtentReport包 <dependencies> <!--testNg引入--> <dependency> <groupId>org.testng</groupId> <artifactId>testng</artifactId> <version>6.9.10</version> </de…

学习css样式的第二章

1.CSS 布局 - display 属性 display 属性是用于控制布局的最重要的 CSS 属性。 display 属性 display 属性规定是否/如何显示元素。 每个 HTML 元素都有一个默认的 display 值&#xff0c;具体取决于它的元素类型。大多数元素的默认 display 值为 block 或 inline 块级元素…

chatgpt赋能python:Python编程:如何粘贴代码

Python编程&#xff1a;如何粘贴代码 在Python编程过程中&#xff0c;粘贴代码是一个非常普遍的操作。不幸的是&#xff0c;许多初学者并不知道如何正确地粘贴代码&#xff0c;这可能会导致一些常见的错误和问题。本文将介绍如何正确地粘贴代码以及一些常见的问题和解决方案。…

Wise 的平台工程 KPI 探索之旅

作者&#xff5c;Lambros Charissis 翻译&#xff5c;Seal软件 链接&#xff5c;https://medium.com/wise-engineering/platform-engineering-kpis-6a3215f0ee14 平台即产品&#xff08;PaaP&#xff09;已经成为软件企业构建内部平台的一种流行方式。在众多软件公司争夺市场份…

地球物理专业毕业生毕业后能干高性能计算工程师吗?

很多高校都开设有地球物理专业&#xff0c;但是很多身为地球物理专业的毕业生&#xff0c;很多同学却不清楚以后能做什么工作&#xff0c;做什么工作有前景&#xff0c;十分迷茫。在这里&#xff0c;我们有很多从事高性能计算领域的前地球物理专业学长现身说法——地球物理专业…

Qt弱加密漏洞分析

0x00 漏洞背景 Qt是一个跨平台的C应用程序开发框架&#xff0c;用于创建图形用户界面&#xff08;GUI&#xff09;应用程序、命令行工具、嵌入式系统和网络应用等各种类型的应用。 Qt框架包含的Qt Network&#xff08;网络模块&#xff09;&#xff0c;提供了QNetworkAccessM…

Vue中如何进行游戏开发与游戏引擎集成?

Vue中如何进行游戏开发与游戏引擎集成&#xff1f; Vue.js是一款流行的JavaScript框架&#xff0c;它的MVVM模式和组件化开发思想非常适合构建Web应用程序。但是&#xff0c;如果我们想要开发Web游戏&#xff0c;Vue.js并不是最合适的选择。在本文中&#xff0c;我们将介绍如何…

mycat分库分表中间件介绍,有案例

目录 MyCat分库分表概述水平拆分和垂直拆分安装JDK安装MyCat安装 MyCat案例1、创建数据库2、分片配置&#xff08;schema.xml&#xff09;3、分片配置&#xff08;server.xml&#xff09;4、启动服务5、查看日志&#xff0c;看是否启动成功6、登录MyCat7、查看数据库和表8、创建…

SpringBoot自动配置原理简单分析

说明&#xff1a;在SpringBoot项目中&#xff0c;我们添加了许许多多的注解&#xff0c;这些注解提高了开发效率。这是因为SpringBoot在项目启动时&#xff0c;帮我们自动装配了大量的Bean对象&#xff0c;可以通过分析源码查看自动装配的大致原理。 第一步&#xff1a;Spring…

python:并发编程(十)

前言 本文将和大家一起探讨python的多协程并发编程&#xff08;上篇&#xff09;&#xff0c;使用内置基本库asyncio来实现并发&#xff0c;先通过官方来简单使用这个模块。先打好基础&#xff0c;能够有个基本的用法与认知&#xff0c;后续文章&#xff0c;我们再进行详细使用…

【程序人生-Hello‘s P2P】哈尔滨工业大学深入理解计算机系统大作业

计算机系统 大作业 题 目 程序人生-Hello’s P2P 专 业 xxxx 学 号 2021xxxx 班 级 210xxxx 学 生 xx 指 导 教 师 xxx 计算机科学与技术学院 2023年5月 摘 要 HelloWorld是每个程序员接触的第一个程序&#xff0c;表面上平平无奇的它背后却是由操作系统许多设计精巧的机制支撑…

直击面试!阿里技术官手码12W字面试小册在Github上爆火

Java面试 临近金三银四&#xff0c;想必有不少老哥已经在为面试做准备了。大家想必也知道现在面试就是看项目经验基本技术个人潜力(也就是值不值得培养)。总之就是每一次面试都是对我们能力的检验&#xff08;无论是软实力还是硬实力&#xff09;。软实力其实就是简历包装&…

高性能计算专业发展及就业前景

高性能计算专业是指一种针对计算领域最高端、最具挑战性且最具应用价值的领域专业。本文从专业背景、就业前景、发展趋势、技能需求和职业发展路径等5个角度进行较为详细的论证&#xff0c;旨在为高性能计算专业的学生提供一个全面的了解&#xff0c;以及为需要参考的人员提供参…

Java中常用的工具类

有时间就该多学&#xff0c;我还年轻&#xff0c;吃苦趁现在&#xff01; 文章目录 ❗前言1️⃣Object类①、使用步骤equals方法hashCode方法toString方法❗equals方法和运算符的区别 ②、重要方法总结 2️⃣包装类基本类型和包装类相互转换字符串类型转换成基本类型 3️⃣Date…

【Java入门】-- Java基础详解之 [变量]

目录 1.变量 1.1 变量的概念 1.2 变量的使用基本步骤 1.3 变量使用注意事项 1.4 程序中 号的使用 1.5 数据类型 1.6 整数的类型 1.7 整型的使用细节 1.8 浮点类型 1.9 浮点型的使用细节 2.0 Java API文档 2.1 字符类型(char) 2.2 字符的使用细节 2.3 字符编码 …