spark安装部署

news2024/11/23 11:38:29

spark安装部署

在这里插入图片描述
在这里插入图片描述

需要指导私信
所有节点安装scala,安装scala需要安装openjdk-8-jre(当前用户如果没有sudo权限可将其加入sudo组里),以ubuntu2204-LTS为例:
$ sudo apt update
$ sudo apt-get install openjdk-8-jre-headless -y (红帽系列Linux包名可能为java-1.8.0-openjdk-headless)
$ 安装scala,其实也不用安装,现在的spark自带
https://www.scala-lang.org/download/

$ sudo dpkg -i scala-2.13.10.deb

$ wget http://XXX/spark-3.4.0-bin-hadoop3-scala2.13.tgz
$ tar -zxvf spark-3.4.0-bin-hadoop3-scala2.13.tgz
设置环境变量
$ vi .bashrc

export SPARK_HOME=~/spark-3.4.0-bin-hadoop3-scala2.13
export PATH= P A T H : PATH: PATH:SPARK_HOME/bin

$ source .bashrc
配置spark
$ cd $SPARK_HOME/conf
$ cp workers.template workers
worker中为spark集群中所有节点
$ vi workers

node01
node02
node03

$ cp spark-env.sh.template spark-env.sh
查看当前环境变量
$ echo $JAVA_HOME
$ echo $HADOOP_HOME
配置spark环境变量
$ vi spark-env.sh

export JAVA_HOME=/home/hadoop/jdk1.8.0_361
export HADOOP_HOME=/home/hadoop/hadoop-3.3.5
export HADOOP_CONF_DIR=/home/hadoop/hadoop-3.3.5/etc/hadoop/
export SCALA_HOME=/usr/share/scala
export SPARK_MASTER_HOST=node01
export SPARK_PID_DIR=/home/hadoop/spark-3.4.0-bin-hadoop3-scala2.13/data
export SPARK_LOCAL_DIR=/home/hadoop/spark-3.4.0-bin-hadoop3-scala2.13
export SPARK_EXECUTOR_MEMORY=512M
export SPARK_WORKER_MEMORY=2G

配置spark默认配置文件
$ cp spark-defaults.conf.template spark-defaults.conf
$ vi spark-defaults.conf

spark.master spark://node01:7077

将配置好的spark文件拷贝到其他节点(单节点可忽略)

$ cd
$ scp -r spark-3.4.0-bin-hadoop3-scala2.13 node02:~/
$ scp -r spark-3.4.0-bin-hadoop3-scala2.13 node03:~/

将环境变量文件也scp到其他节点

$ scp .bashrc node02:~/
$ scp .bashrc node03:~/

启动spark服务
$ $SPARK_HOME/sbin/start-all.sh
查看服务
$ jps
Master节点有Master和Worker两个进程,Worker节点只有Worker进程
访问http://node01:8080/
运行例子程序:
$ $SPARK_HOME/bin/run-example SparkPi 10
运行spark-shell(Scala交互界面)

$ spark-shell
scala> val textFile=sc.textFile(“file:///home/hadoop/spark-3.4.0-bin-hadoop3-scala2.13/README.md”)
scala> textFile.count()
scala> :quit

上传一个文件到hdfs
$ hdfs dfs -put /home/hadoop/spark-3.4.0-bin-hadoop3-scala2.13/README.md
$ hdfs dfs -ls
运行pyspark(python交互界面)

$ pyspark
>>> lines=sc.textFile("file:///home/hadoop/spark-3.4.0-bin-hadoop3-scala2.13/README.md")
>>> lines.count()
>>> lines=sc.textFile("README.md")
>>> lines.count()
>>> quit()

jupter安装运行(调试python程序用的一个工具,上课老师要用)
$ sudo apt install python3-pip
$ sudo apt install jupyter-core
$ pip3 install jupyter
$ jupyter notebook --ip=node01

spark on yarn 配置及异常解决
$ hdfs dfs -mkdir /hadoop
$ hdfs dfs -mkdir /hadoop/spark_jars
$ hdfs dfs -put $SPARK_HOME/jars/ /hadoop/spark_jars
$ cd $SPARK_HOME/conf/
$ vi spark-defaults.conf
spark.yarn.jars hdfs://node01:9000/hadoop/spark_jars/
$ cd $HADOOP_HOME/etc/hadoop
$ vi yarn-site.xml

<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

修改后重启服务即可

关闭集群服务
$ $SPARK_HOME/sbin/stop-all.sh
$ stop-yarn.sh
$ stop-dfs.sh

启动集群服务
$ start-dfs.sh
$ start-yarn.sh
$ $SPARK_HOME/sbin/start-all.sh

$ pyspark --master=yarn
>>> lines=sc.textFile("file:///home/hadoop/spark-3.4.0-bin-hadoop3-scala2.13/README.md")
>>> lines.count()
125
>>> quit()

启动spark后,spark-shell或pyspark会出现一个警告
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
环境变量里设置
$ vi ~/.bashrc

export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native/

并在spark配置文件中设置
$ vi $SPARK_HOME/conf/spark-env.sh

export LD_LIBRARY_PATH=$JAVA_LIBRARY_PATH

如果没有生效,则在环境变量里添加如下:

export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native/:$LD_LIBRARY_PATH

如果安装了hive还可以使用spark-sql。

对ModuleNotFoundError: No module named 'py4j’错误:
在环境变量中添加

export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9.7-src.zip:$PYTHONPATH

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/624777.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【03Eclipse 窗口说明】对每个窗口和视图的功能和用途的详细说明导航栏编辑器窗口项目资源管理器

Eclipse 窗口说明 简介 Eclipse 是一款功能强大的集成开发环境&#xff08;IDE&#xff09;&#xff0c;提供了丰富的窗口和视图来支持开发工作。本教程将详细介绍 Eclipse 主要窗口和常见视图的功能和用途。 主要窗口 1. 导航栏 导航栏位于 Eclipse 窗口的顶部&#xff0…

Java学习路线(22)——测试框架Junit

一、单元测试概念 单元测试就是针对最小的功能单元编写测试代码&#xff0c;Java程序最小的功能单元是方法&#xff0c;因此&#xff0c;单元测试就是针对Java方法的测试&#xff0c;进而检查方法正确性。 二、Junit测试框架 &#xff08;一&#xff09;概念&#xff1a; Jun…

认识、使用 yarn

概念 npm 是前端开发过程中常常使用的命令&#xff0c;比如构建 Vue 项目&#xff0c;亦或下载 Vue 项目依赖但是该命令效率低下&#xff0c;且容易出错&#xff0c;有没有更好的解决方案呢?有&#xff0c;Yarn ta是一个快速、可靠且安全的 JS 包管理工具: 快速:Yamn 本地缓…

黑客松指南|如何快速注册参与Sui x KuCoin Labs Hackathon

由Sui和KuCoin Labs联合主办的夏季黑客松&#xff0c;将为开发者、设计师、创业者和区块链爱好者提供一个交流和合作的平台。参与者将有机会利用Sui的先进技术和KuCoin Labs的资源&#xff0c;开发创新的区块链应用和解决方案。 我们鼓励参与者围绕「基础设施和工具」、「NFT、…

如何使用Jemeter对HTTP进行接口压测?没有比这个更详细的教程

目录 前言 1、首先添加一线程组 2、因为是对HTTP接口进行压力测试&#xff0c;所以需要在线程组下添加一HTTP请求&#xff08;通过鼠标右键->添加->Sampler->HTTP请求 完成&#xff09; 3、紧接着就是对HTTP请求进行设置了&#xff0c;主要设置服务器名称或IP&#…

10年心路历程:一个女测试工程师功能测试转向自动化测试/开发

十年测试心路历程&#xff1a; 由于历史原因&#xff0c;大部分测试人员&#xff0c;最开始接触都是纯功能界面测试&#xff0c;随着工作年限&#xff0c;会接触到一些常用测试工具&#xff0c;比如抓包&#xff0c;数据库&#xff0c;linux等。 我大学学的计算机专业&#xff…

【力扣刷题 | 第四天】 1.两数之和 454.四数之和

1. 两数之和 - 力扣&#xff08;LeetCode&#xff09; 给定一个整数数组 nums 和一个整数目标值 target&#xff0c;请你在该数组中找出 和为目标值 target 的那 两个 整数&#xff0c;并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是&#xff0c;数组中同…

【QT】解决继承QThread的子线程导致程序无法关闭主线程关闭太快导致子线程中的槽方法未执行

背景 使用串口进行通信 一共有三个线程 主线程负责界面的显示子线程1负责检测当前系统可用的串口子线程2负责差串口通信 子线程实现 在发生问题的最初&#xff0c;因为要一直检测当前系统的可用线程&#xff0c;所以线程1我使用继承自QThread实现的线程&#xff0c;其中重写ru…

github下载的项目如何上传到gitee

1、安装git 省略 2、github下载项目 如何注册、登录省略 3、上传到gitee 注册账号 省略 新建仓库 iot-plat创建过了&#xff0c;用iot-plat1演示 创建完的仓库 此处的https地址要记住&#xff0c;等会要用到 到本地项目目录 项目里面 Git命令操作 空白处右键&#xff…

CSP-S 第一轮笔试重点题

CSP-S提高组笔试题重点题汇总&#xff1a; 今天我给大家分享一些 CSP-S 第一轮笔试中的一些重点题&#xff0c;包含讲解。 第一题&#xff1a; 1.十进制小数13.375对应的二进制数是&#xff08;&#xff09;。 A.1101.011 B.1011.011 C.1101.101 D.1010.01 解析&#x…

一起学SF框架系列5.3-模块Beans-bean与Spring容器的交互方式

正常情况下&#xff0c;应用中的bean同spring容器关系如下图&#xff1a; 尽管应用bean是Spring容器创建并建立依赖关系&#xff0c;应用只需使用bean即可&#xff0c;因此对bean来说Spring容器就是无感知的&#xff08;无侵入编程&#xff09;。但是还是存在需求需要应用bea…

OkHttp 框架设计剖析(含面试题)

作者&#xff1a;Calculus_小王 概述 OKHttp是一个基于HTTP协议的网络请求框架&#xff0c;它支持HTTP/2协议&#xff0c;连接复用和连接池&#xff0c;缓存策略等功能。它的核心设计是拦截器&#xff08;Interceptor&#xff09;&#xff0c;它将请求的复杂逻辑切分成多个独立…

详解Java内部类、匿名内部类

内部类 内部类&#xff1a;类的第五个成员 1.定义&#xff1a;Java中允许将一个类A声明在另一个类B中&#xff0c;则类A就是内部类&#xff0c;类B称为外部类. 2.内部类的分类&#xff1a; 成员内部类&#xff08;静态、非静态 &#xff09; vs 局部内部类(方法内、代码块内、…

全网最强总结,Selenium自动化测试异常+处理总结,吐血整理...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 当测试工程师执行…

LVS负载均衡群集部署——DR模式

LVS负载均衡群集部署——DR模式 一、LVS-DR集群概述1、LVS-DR 工作原理2、LVS-DR数据包流量分析&#xff08;同一局域网&#xff09;3、LVS-DR中的ARP问题4、LVS-DR处理问题后的流量分析5、LVS-DR 特性 二、构建LVS-DR集群1、构建LVS-DR集群的步骤&#xff08;理论&#xff09;…

网工内推 | 网安专场,CISP认证优先,带薪年假,六险一金

01 MATRIX TECH &#x1f537;招聘岗位&#xff1a;安全工程师 &#x1f537;职责描述&#xff1a; 1、负责信息安全防护系统的日常管理 、监测和优化提升等安全运营工作&#xff0c;包括终端安全、防护、漏洞检测、补丁、入侵检测、拒绝服务攻击防护、源代码安全检查等&#…

cool-admin框架后端使用-node版本,线上宝塔部署

版本6.x 宝塔新建一个文件夹和创建好数据库&#xff0c;记录账号和密码&#xff0c;自行创建&#xff0c;不做说明 特别注意&#xff0c;如果用宝塔node管理那里运行&#xff0c;如果按照到有pm2的&#xff0c;要先卸载&#xff0c;不可以共存&#xff0c;会有冲突 cool-vue前端…

.gitignore忽略文件不生效

前言 .gitignore忽略文件时git仓库很重要的一个配置&#xff0c;在创建仓库时就会有模板选择和忽略文件。 .gitignore忽略文件意思是在上传到代码仓库时&#xff0c;控制把哪些代码文件不上传到代码仓库。 在实际开发中其实写的代码是没有多大的&#xff0c;主要的是插件本地…

凸优化系列——最优化问题

1. 凸优化问题介绍 凸优化问题如下&#xff1a; 为什么要求不等式约束是线性函数呢&#xff1f;我们知道凸函数的下水平集是凸集。 为什么要求等式约束是线性的呢&#xff1f;线性函数表示一个超平面&#xff0c;他也是凸集 也就是说&#xff0c;对于凸优化问题&#xff0c;…

《Lua程序设计》--学习4

闭包 在Lua语言中&#xff0c;函数是严格遵循词法定界&#xff08;lexicalscoping&#xff09;的第一类值&#xff08;first-classvalue&#xff09;。 “第一类值”意味着Lua语言中的函数与其他常见类型的值&#xff08;例如数值和字符串&#xff09;具有同等权限&#xff1…