【大数据工具】Spark 伪分布式、分布式集群搭建

news2024/7/4 5:41:04

Spark 集群搭建

Spark 安装包下载地址:https://archive.apache.org/dist/spark/

1. Spark 伪分布式安装

安装前提:安装 Spark 前需要先安装好 JDK

1. 上传并解压 Spark 安装包

  1. 使用 fileZilla 或其他文件传输工具上传 Spark 安装包:spark-2.1.0-bin-hadoop2.7.tgz
  2. 解压安装包
[root@bigdata software]# tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz -C .

2. 编辑配置文件

  1. 编辑 Spark 环境文件
[root@bigdata software]# cd spark-2.1.0-bin-hadoop2.7/conf/
[root@bigdata conf]# cp spark-env.sh.template spark-env.sh
[root@bigdata conf]# vi spark-env.sh
# 将下边三行配置添加到文件最后
export JAVA_HOME=/software/jdk		# 提前安装好jdk并将JDK安装包更名为jdk
export SPARK_MASTER_HOST=bigdata	# 本机hostname
export SPARK_MASTER_PORT=7077
  1. 编辑 Spark Slaves 文件
[root@bigdata conf]# cp slaves.template slaves
# 把文件最后一行的localhost改为本机hostname或ip
bigdata

3. 验证

  • 由于没有设置环境变量,因此启停服务需要去 ${SPARK_HOME}/sbin 下执行
[root@bigdata conf]# ../sbin/start-all.sh
  • 启动后发现该机器上启动了一个 master 节点和一个 worker 节点
[root@bigdata conf]# jps
1937 Master
2013 Worker
9869 Jps
  • 在 Web Console 页面查看(端口:8080)

172.16.15.111:8080

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qiXVPUnd-1686100487975)(/Users/jason93/Library/Application Support/typora-user-images/image-20230216084302024.png)]

2. Spark 分布式集群安装

1. 将 spark-2.1.0-bin-hadoop2.7.tgz 上传至 hadoop0:/software/

2. 解压(在当前目录下)

tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz -C .

3. 改名并配置Spark环境变量文件 spark-env.sh

[root@hadoop0 software]# cd spark-2.1.0-bin-hadoop2.7/conf/
[root@hadoop0 conf]# cp spark-env.sh.template spark-env.sh
[root@hadoop0 conf]# vi spark-env.sh
# 将下边三行添加到spark-env.sh的末尾
export JAVA_HOME=/software/jdk
export SPARK_MASTER_HOST=hadoop0
export SPARK_MASTER_PORT=7077

4. 改名并配置从节点信息文件 slaves

[root@hadoop0 conf]# cp slaves.template slaves
[root@hadoop0 conf]# vi slaves
# 将最后的localhost,添加下边两行
hadoop1
hadoop2

5. 把安装配置好的主节点的Spark目录文件复制到两个从节点

[root@hadoop0 software]# scp -r spark-2.1.0-bin-hadoop2.7 root@hadoop1:/software/
[root@hadoop0 software]# scp -r spark-2.1.0-bin-hadoop2.7 root@hadoop2:/software/

6. 配置完成,在主节点上启动

  • 启动前确保集群的ZooKeeper集群已经启动
[root@hadoop0 spark-2.1.0-bin-hadoop2.7]# sbin/start-all.sh 
org.apache.spark.deploy.master.Master running as process 1348.  Stop it first.
hadoop2: org.apache.spark.deploy.worker.Worker running as process 1278.  Stop it first.
hadoop1: org.apache.spark.deploy.worker.Worker running as process 1295.  Stop it first.

7. 网页上观察:172.16.15.100:8080

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/618449.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

简单易懂的 nvm 和 Node.js 版本控制指南

NVM是Node.js的版本管理工具,可以方便地在不同版本的Node.js之间切换。它可以通过命令行或者脚本来管理Node.js的版本,支持在同一台机器上安装多个版本的Node.js,并能够方便地切换它们。 NVM的主要功能包括: 安装和卸载Node.js的不…

2022年国赛高教杯数学建模A题波浪能最大输出功率设计解题全过程文档及程序

2022年国赛高教杯数学建模 A题 波浪能最大输出功率设计 原题再现 随着经济和社会的发展,人类面临能源需求和环境污染的双重挑战,发展可再生能源产业已成为世界各国的共识。波浪能作为一种重要的海洋可再生能源,分布广泛,储量丰富…

DevExpress WinForms v23.1新功能抢先看——支持系统强调色更改

DevExpress WinForm 下一个主要版本(v23.1)将在6月份左右发布,本文将为大家介绍在早期访问预览版(EAP)中包含的新功能。 PS:DevExpress WinForm拥有180组件和UI库,能为Windows Forms平台创建具…

5月琐碎但值得的事情

转眼间时间就来到了6月份,又该写5月的思考总结了,依然记录一些5月份发生的小事或者收获, 这些内容本意给我记录生活的,如果对你有一些帮助就更好了。 往期: 1月的碎碎念,但是很有必要 二月的一些琐事&#…

chatgpt赋能python:Python如何阻止弹窗

Python如何阻止弹窗 Python是一种高级编程语言,它具有广泛的应用和丰富的库。它还可以被用于开发自动化程序,包括阻止弹窗。在本文中,我们将介绍如何使用Python阻止弹出窗口,并探讨防止弹窗的原因。 为什么要防止弹窗&#xff1…

Librosa库——语音识别,语音音色识别训练及应用

很多同学以为语音识别是非常难的,其实并不然,起初我也是这么认为,但后来发现语音识别是最简单的,因为同学们可能不知道Python有一个音频处理库Librosa,这个库非常的强大,可以进行音频处理、频谱表示、幅度转…

精彩回顾 | 来看 QTF 量化科技嘉年华上的 DolphinDB

6月2日至6月3日,2023“量变质变”量化科技嘉年华在上海世博中心圆满举办。 DolphinDB 作为联合主办方,在6月3日上午的“因子挖掘与机器学习”分论坛中,为广大量化粉丝们奉上了一场干货满满的主题分享与圆桌讨论,现场座无虚席&…

直击CACLP:新冠红利退潮,谁在裸泳,谁在冲刺?

5月可谓是很多医疗人马不停蹄的一个月,上海的第87届CMEF刚结束,28至30日,体外诊断(IVD)旗帜性行业盛会——第20届CACLP也在南昌绿地国际博览中心顺利落幕了。 纷享销客已经连续五年参与这两大行业盛会了,…

助力工业物联网,工业大数据之其他维度:组织机构【十五】

文章目录 01:其他维度:组织机构02:其他维度:仓库、物流附录一:常见问题1.错误:没有开启Cross Join2.错误:Unable to move source 01:其他维度:组织机构 目标:…

ChatGPT使用进阶,你一定要知道的应用技巧

鉴于ChatGPT的巨大能力,深入学习ChatGPT使用技巧势在必行。作为伴随着ChatGPT等大语言模型(LLM)出现的还有一个新的工程领域:提示工程(Prompt Engineering)。 提示工程(Prompt Engineering&…

前端053_单点登录SSO_刷新令牌获取新令牌

刷新令牌获取新令牌 1、创建刷新令牌组件2、添加刷新组件路由配置3、EasyMock 添加刷新令牌接口4、定义 Api 调用刷新令牌接口5、Vuex 发送请求与重置状态6、重构刷新令牌组件7、测试当应用系统请求后台资源接口时,要在请求头带上 accessToken 去请求接口,如果 accessToken 有…

【Python】Python系列教程-- Python3 OS 文件/目录方法(二十七)

文章目录 前言语法错误异常异常处理try/excepttry/except...elsetry-finally 语句 抛出异常用户自定义异常定义清理行为预定义的清理行为 前言 往期回顾: Python系列教程–Python3介绍(一)Python系列教程–Python3 环境搭建(二&…

前端数据传输失败

1 问题 通过postman可用传输数据到java但页面数据传输不成功 postman结果: 页面传输结果: 2 方法 在使用页面传输数据时不能直接使用send(username,password),我们需要使用FromData属性,将username和password添加到FromData里&…

小程序框架Mpx的下一代脚手架升级之路|滴滴开源

导读 Mpx开源之路已经走过五个年头,目前支持了滴滴内部全量的小程序业务开发,是滴滴开源委员会孵化的精品项目。 2022年至今,我们对 Mpx 框架进行了多项重要功能升级,包括组合式API开发规范、分包异步构建支持、单元测试能力建设和…

C++知识第四篇之多态

目录 一.认识多态1. 多态分类2. 虚函数a. 介绍b. 虚函数的重写c. 协变d. 析构函数 3. 多态构成条件a. 虚函数调用多态b. 析构函数多态 4. C11新特性a. overrideb. final 5. 重载、重写(覆盖)、重定义(隐藏) 二. 抽象类1.介绍2. 接口继承 三. 多态原理1. 虚函数表2. 打印虚函数表…

力扣高频SQL50题(基础版)——第八天

力扣高频SQL50题(基础版)——第八天 1 游戏玩法分析 IV 1.1 题目内容 1.1.1 基本题目信息 1.1.2 示例输入输出 1.2 示例sql语句 SELECT ROUND(count(a2.f_date)/(SELECT count(distinct player_id) FROM Activity),2) fraction FROM Activity a1 INNER JOIN (SELECT player…

电容为什么可以通交流隔直流?

电容 电容是指容纳电荷的能力,在给定电位差下自由电荷的储藏量,记为C,国际单位是法拉(F)。 如上图所示,以平行板电容器为例,简单介绍下电容的基本原理。 在两块距离较近、相互平行的金属平板上…

hashMap 源码详解

1、 HashMap 底层源码解读(源码分析知识问答) 2、 什么是哈希碰撞?或者什么是哈希冲突?为什么会发生哈希冲突? 不同的关键字通过相同的哈希函数算出了一个相同的 哈希地址,这就叫做哈希冲突。 哈希冲突主要因为 哈希表底层的数组容…

App Store搜索广告如何筛词

苹果应用市场投放搜索广告,想要达到预期目标,需要长期的并且不断的优化。除了选词和出价思路需要进行决策之外,后期如何做好筛词和调价的优化也是非常重要的。 CPA是衡量关键词获取用户成本的指标,当应用的转换率较小并且CPA大于…

旗开得胜,高考:人生的一次逆袭之旅

亲爱的读者们,大家好! 明天就是一年一度的高考,这个注定会改变莘莘学子一生的重要时刻即将到来。在这个充满期待和紧张的日子里,我想与你们分享一个关于我自己高考的故事,希望能给你们带来鼓励和启示。 那是一个阳光…