配置spark

news2025/2/3 22:09:22

配置spark

  • Yarn 模式
  • Standalone 模式
  • Local 模式

在这里插入图片描述

Yarn 模式

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module
cd /opt/module 
mv spark-3.0.0-bin-hadoop3.2 spark-yarn

修改 hadoop 配置文件/opt/module/hadoop/etc/hadoop/yarn-site.xml, 并分发

<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认
是 true -->
    <property>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
    </property>
    <!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认
是 true -->
    <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
    </property>

cd /opt/module/
xsync hadoop-3.1.3

修改 conf/spark-env.sh,添加 JAVA_HOME 和 YARN_CONF_DIR 配置

export JAVA_HOME=/opt/module/jdk1.8.0_212
YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

在这里插入图片描述
http://hadoop103:8088/cluster

配置历史服务器
mv spark-defaults.conf.template spark-defaults.conf
修改 spark-default.conf 文件,配置日志存储路径

spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop102:8020/directory

[root@linux1 hadoop]# sbin/start-dfs.sh
[root@linux1 hadoop]# hadoop fs -mkdir /directory
修改 spark-env.sh 文件, 添加日志配置

export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory 
-Dspark.history.retainedApplications=30"

修改 spark-defaults.conf

spark.yarn.historyServer.address=hadoop102:18080
spark.history.ui.port=18080

启动历史服务

sbin/start-history-server.sh 

重新提交应用

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

http://hadoop103:8088/cluster
在这里插入图片描述
在这里插入图片描述

Standalone 模式

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module
cd /opt/module 
mv spark-3.0.0-bin-hadoop3.2 spark-standalone
mv slaves.template slaves

linux1
linux2
linux3

mv spark-env.sh.template spark-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_212
SPARK_MASTER_HOST=hadoop102
SPARK_MASTER_PORT=7077

xsync spark-standalone

sbin/start-all.sh

在这里插入图片描述

配置历史服务

mv spark-defaults.conf.template spark-defaults.conf

//修改 spark-default.conf 文件,配置日志存储路径
spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop102:8020/directory

sbin/start-dfs.sh
hadoop fs -mkdir /directory

//修改 spark-env.sh 文件, 添加日志配置
export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory 
-Dspark.history.retainedApplications=30"

xsync conf

sbin/start-all.sh
sbin/start-history-server.sh

配置高可用
?先配置zookeeper

sbin/stop-all.sh


Local 模式

上传安装包在这里插入图片描述

sudo mv spark-3.0.0-bin-hadoop3.2.tgz /opt/software/
tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module
cd /opt/module 
mv spark-3.0.0-bin-hadoop3.2 spark-local

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/762082.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【板栗糖GIS】——如何安装ffmpeg

【板栗糖GIS】——如何安装ffmpeg 目录 1. 解压安装包 2. 把bin路径放在环境变量中 3. 检测是否安装成功 下载软件包&#xff0c;我已经准备好资源&#xff0c;只是审核还未通过&#xff0c;过两天会加上安装包链接 1. 解压安装包 2. 把bin路径放在环境变量中 3. 检测是否…

Anaconda安装和激活

一、Anaconda下载地址 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?CM&OD 说明&#xff1a;使用paddlepaddle需要先安装python环境&#xff0c;这里我们选择python集成环境Anaconda工具包 Anaconda是1个常用的python包管理程序安装完Anaconda后&#xff0c…

面试经验分享 | 如何打造优秀的个人简历

月説小飞象交流会 一个人自身拥有越丰富&#xff0c;他对身外之物的需求也就越少&#xff0c;别人对他来说就越不重要。 内部交流│27期 面试经验分享| 打造优秀的个人简历 data analysis ●●●● 分享人&#xff1a;夏宇 暑假将至&#xff0c;毕业季来临&#xff0c;有准备实…

timing报告中的半周期现象

遇到phase shift是半个周期的问题多数是endpoint寄存器是下降沿触发的原因,举例来说,一个正向时钟周期的开始是0-1的跳变,下一个周期的开始也是如此,所以计算上升沿触发的寄存器的周期就是完整的周期值,而下降沿触发的寄存器就要在半周期也就是1-0的时候触发跳变,phase s…

评分高达92.6%!谷歌AI医疗大模型重磅论文登上《自然》:水平媲美临床医生

“AI医生”&#xff0c;离我们越来越近了。 7月12日&#xff0c;谷歌和DeepMind的科研人员在《自然》杂志上发表了一项研究&#xff0c;不仅提出了MultiMedQA&#xff08;美国医师执照试题&#xff09;评估基准&#xff0c;用于评估大语言模型在编码临床知识方面的表现&#x…

【技能实训】DMS数据挖掘项目-Day12

文章目录 任务14【任务14.1】类ClientFrame【任务14.1.1】在构造函数中定义组件属性【任务14.1.2】补充initConfig()方法的代码&#xff0c;获取客户端配置信息【任务14.1.4】菜单界面的初始化方法【任务14.2】在14.1的基础上&#xff0c;实现日志数据与物流数据的采集功能 任务…

安全开发-PHP应用文件管理模块显示上传黑白名单类型过滤访问控制文件管理模块包含上传遍历写入删除下载安全

文章目录 文件管理模块-上传-过滤机制文件管理模块-显示-过滤机制PHP文件操作安全文件包含文件上传文件删除文件下载文件编辑 文件管理模块-上传-过滤机制 $_FILES&#xff1a;PHP中一个预定义的超全局变量&#xff0c;用于在上传文件时从客户端接收文件&#xff0c;并将其保存…

基于 OpenVINO 的目标识别

基于 OpenVINO 的目标识别 YOLOV5原理 YOLOv5是一种快速高效的目标检测算法&#xff0c;具有优秀的实时性能和较高的准确度。该算法利用深度学习技术实现了端到端的目标检测&#xff0c;在计算资源有限的情况下也能够获得出色的表现 YOLOv5采用了一种基于Anchor的检测方式&…

广西电网:筑牢数字化安全根基,推动新型能源体系建设

广西电网是南方电网的全资子公司&#xff0c;是广西地区内资产规模数一数二的特大型企业。一直以来&#xff0c;广西电网都积极探索深化数字化绿色化协同&#xff0c;深入推进数字电网建设&#xff0c;构建新型电力系统和新型能源体系。 国家政策提出要求 以安全保障数字纽带 …

postman常用操作说明

环境变量 环境变量就是我们存放一组公共数据的地方&#xff0c;比如我有100个接口&#xff0c;三套环境(开发环境、测试环境、生产环境)&#xff0c;我们没有必要把这100个接口根据三个环境分别写一套用例。只需要维护一套用例脚本&#xff0c;然后设置对应三个环境的变量就行…

抗性宏基因组揭秘人和动物共享ARG以及ARG的转移能力

抗生素耐药性&#xff08;Antibiotic Resistance&#xff09;是全球日益严重的公共卫生问题&#xff0c;随着“同一健康”概念的提出&#xff0c;人们更追求人、动物和环境的最佳健康。动物服用抗生素后会在其内脏中产生抗药细菌&#xff0c;并留在动物体内&#xff0c;最终可能…

MIT 6.829 -- Lecture 1: Packet Switching

MIT 6.829 -- Lecture 1: Packet Switching 引言InterconnectionsCircuit SwitchingPacket SwitchingDatagram routingSource routingVirtual circuits An example&#xff1a;LAN SwitchingLearning bridgesThe Solution&#xff1a;Spanning TreesVirtual LANs Summary 本课程…

PS图层混合模式超详细解答-图层混合模式的原理(Part1)

PS图层混合模式超详细解答-图层混合模式的原理 ☕ 前言 本教程非常详细&#xff0c;请用心看完 本教程如果有如何问题&#xff0c;欢迎评论区留言讨论 本教程为了避免冗余&#xff0c;一些不必要的截图就省略了 本教程只讨论8bit的情形下的混合 未经许可&#xff0c;不可转…

3.7 Bootstrap 导航栏

文章目录 Bootstrap 导航栏响应式的导航栏导航栏中的表单导航栏中的按钮导航栏中的文本结合图标的导航链接组件对齐方式固定到顶部固定到底部静态的顶部反色的导航栏 Bootstrap 导航栏 导航栏是一个很好的功能&#xff0c;是 Bootstrap 网站的一个突出特点。导航栏在您的应用或…

详解GPT技术发展脉络

文章目录 前言关于本篇的分享内容大语言模型大模型语言模型 百花齐放TransformerAuto-RegressiveResnetLayer-NormMaskScaled Dot-Product AttentionMulti-Head AttenionSelf-AttentionPositional Encoding关于并行计算关于长程依赖Transformer演化 GPT SeriesGPT-1GPT-2GPT-3 …

STM32存储左右互搏 I2C总线读写EEPROM AD24C02

STM32存储左右互搏 I2C总线读写EEPROM AD24C02 在较低容量存储领域&#xff0c;EEPROM是常用的存储介质&#xff0c;不同容量的EEPROM的地址对应位数不同&#xff0c;在发送字节的格式上有所区别。EEPROM是非快速访问存储&#xff0c;因为EEPROM按页进行组织&#xff0c;在连续…

数据库查询速度上不去的查询和分析

主要原因 数据库查询速度上不去、阻塞是指在并发访问 MySQL 数据库时,某个事务占用了资源并且长时间不释放,导致其他事务无法执行或执行缓慢的情况。MySQL 阻塞可能会导致数据库性能下降,甚至出现死锁等问题,需要马上进行处理。在 MySQL中,线程阻塞可能是由于以下原因导致…

vite 启动项目 报错 spawnargs: [ ‘--service=0.12.15‘, ‘--ping‘ ]

当前项目使用的是 vue3-antd-admin 框架 vue3-antd-admin 框架 详细地址 我们运行项目的时候发现报以下错误&#xff0c;npm i 了也不行, node:events:504throw er; // Unhandled error event^Error: spawn C:\Users\DELL\Desktop\vue3-antd-admin-master\node_modules\esbu…

阿里国际、敦煌、速卖通、沃尔玛、TEMU做测评补单核心关键点,看完你就会了

现在不管是做国内电商还是跨境电商&#xff0c;测评补单一直都有人在做&#xff0c;也确确实实的给卖家们带来了突破&#xff0c;不管是订单&#xff0c;留评&#xff0c;权重等等都有很大的提升&#xff0c;可以说有电商的地方就有测评补单&#xff0c;这是刚需。但是就像前人…

【C语言】深入理解C语言数据类型:从结构体到共用体和枚举的全面解析

目录 一、结构体概述及定义 1、概念 2、定义方式 方式1&#xff1a;先定义结构体类型&#xff0c;再定义结构体变量 方式2&#xff1a;定义结构体类型的同时定义结构体变量 方式3&#xff1a;定义一次性结构体 二、结构体变量的初始化 1、一般初始化 2、清空结构体变量…