Hadoop集群部署和启动与关闭

news2025/2/12 13:02:05

  Hadoop集群的部署方式分为三种,分别是独立模式(Standalone mode)、伪分布式模式(Pseudo-Distributed mode)和完全分布式模式(Cluster mode),独立模式和伪分布式模式主要用于学习和调试,完全分布式通常在实际生产环境使用。
为了提高Hadoop集群的高可用性,通常使用ZooKeeper为Hadoop集群提供自动故障转移和数据一致性服务。

首先我们先规划三台虚拟机的Hadoop高可用集群:
  为了提高Hadoop集群的高可用性,集群中至少需要两个NameNode节点(一个主节点,一个备用节点)和两个ResourceManager节点 (一个主节点,一个备用节点)以满足HDFS和YARN的高可用性,同时为了满足“过半写入则成功”的原则,集群中至少需要三个 JournalNode节点。如下图所示:
在这里插入图片描述
高可用相关服务介绍作用如下:

  1. ZKFC(ZKFailoverController)
    ZooKeeper的客户端,用于监视和管理NameNode的状态,运行NameNode的每台机器都需要运行ZKFC。

  2. ZooKeeper
    表示ZooKeeper服务。

  3. JournalNode
    负责两个NameNode之间通信,JournalNode通常在DataNode节点启动。

  4. NodeManager
    执行应用程序的容器,监控应用程序的资源使用情况并且向调度器ResourceManager汇报。

  5. ResourceManager
    负责集群中所有资源的统一管理和分配,它接收来自NodeManager的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序。

  6. DataNode
    存储真实的数据文件,周期性向NameNode汇报心跳和数据块信息。

  7. NameNode
    存储元数据信息以及数据文件与数据块的对应信息。

一、安装Hadoop

  1. 访问Apache资源网站下载Linux操作系统的Hadoop安装包hadoop-2.7.4.tar.gz。

  2. 使用SecureCRT远程连接工具连接虚拟机Spark01,在存放应用安装包的目录/export/software/下执行“rz”命令上传Hadoop安装包。
    在虚拟机Spark01中,通过解压缩的方式安装Hadoop,将Hadoop安装到存放应用的目录/export/servers/。命令如下:
    tar -zxvf /export/software/hadoop-2.7.4.tar.gz -C /export/servers/

  3. 配置环境变量
    执行“vi /etc/profile”命令编辑系统环境变量文件profile,配置Hadoop环境变量,如下:

# Hadoop系统环境变量
export HADOOP_HOME=/export/servers/hadoop-2.7.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

  完成系统环境变量文件profile配置后保存退出,不过此时配置内容尚未生效,还需要执行“source /etc/profile”命令初始化系统环境变量使配置内容生效。

  1. 测试
    执行“hadoop version”命令查看Hadoop版本

二、Hadoop高可用集群配置
  安装好Hadoop后,只读默认配置文件,包括core-default.xml、hdfs-default.xml、mapred-default.xml和yarn-default.xml,这些文件包含了Hadoop系统各种默认配置参数,位于jar文件中。

  自定义配置文件,这些文件基本没有任何配置内容,存在于Hadoop安装目录下的etc/hadoop/目录中,包括core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml等,开发人员可以根据实际需求进行修改,Hadoop会优先选择自定义配置文件中的参数。

  1. 修改hadoop-env.sh文件
      在虚拟机Spark01中,进入Hadoop安装包的/etc/hadoop/目录,执行“vi hadoop-env.sh”命令编辑hadoop-env.sh文件,将文件内默认的JAVA_HOME参数修改为本地安装JDK的路径。如下图所示:
    在这里插入图片描述
  2. 修改yarn-env.sh文件
      在虚拟机Spark01中,进入Hadoop安装包的/etc/hadoop/目录,执行“vi yarn-env.sh”命令编辑yarn-env.sh文件,将文件内默认的JAVA_HOME参数修改为本地安装JDK的路径。如下图所示:
    在这里插入图片描述
  3. 修改core-site.xml文件
      在虚拟机Spark01中,进入Hadoop安装包的/etc/hadoop/目录,执行“vi core-site.xml”命令编辑Hadoop的核心配置文件core-site.xml。如下:
<property>
    <name>fs.defaultFS</name> #配置命名空间管理服务制定通信地址
    <value>hdfs://master</value>
</property>
<property>
    <name>hadoop.tmp.dir</name> #存储临时文件的目录
    <value>/export/servers/hadoop-2.7.4/tmp</value>
</property>
<property>
    <name>ha.zookeeper.quorum</name> #ZooKeeper集群地址
    <value>spark01:2181,spark02:2181,spark03:2181</value>
</property>
  1. 修改hdfs-site.xml文件
      在虚拟机Spark01中,进入Hadoop安装包的/etc/hadoop/目录,执行“vi hdfs-site.xml”命令编辑HDFS的核心配置文件hdfs-site.xml。
<property>
    <name>dfs.replication</name> #HDFS副本数
    <value>3</value>
</property>
<property>
    <name>dfs.namenode.name.dir</name> #NameNode 节点数据(即元数据)的存放位置
    <value>/export/data/hadoop/namenode</value>
</property>
<property>    
    <name>dfs.datanode.data.dir</name>    #DataNode 节点数据(即数据块)的存放位置
    <value>/export/data/hadoop/datanode</value>    
</property>
<property>
    <name>dfs.nameservices</name> #处理外部访问HDFS的请求
    <value>master</value>
</property>
<property>
    <name>dfs.ha.namenodes.master</name> #定义每个NameNode节点的唯一标识符
    <value>nn1,nn2</value>
</property>
<property>
    <name>dfs.namenode.rpc-address.master.nn1</name> #标识符nn1的RPC服务地址
    <value>spark01:9000</value>
</property>
<property>
    <name>dfs.namenode.rpc-address.master.nn2</name> #标识符nn2的RPC服务地址
    <value>spark02:9000</value>
</property>
<property>
    <name>dfs.namenode.http-address.master.nn1</name>#标识符nn1的HTTP服务地址
    <value>spark01:50070</value>
</property>
<property>
    <name>dfs.namenode.http-address.master.nn2</name>#标识符nn2的HTTP服务地址
    <value>spark02:50070</value>
</property>
<property>
  <name>dfs.namenode.shared.edits.dir</name>#NameNode元数据在JournalNode上的共享存储目录
  <value>qjournal://spark01:8485;spark02:8485;spark03:8485/master</value>
</property>
<property>
    <name>dfs.journalnode.edits.dir</name>#JournalNode存放数据地址
    <value>/export/data/hadoop/journaldata</value>
</property>
<property>
  <name>dfs.client.failover.proxy.provider.master</name>#访问代理类,用于确定当前处于 Active 状态的 NameNode节点
  <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<property>
    <name>dfs.ha.fencing.methods</name>#配置隔离机制,确保集群中只有一个NameNode处于活动状态
    <value>
        sshfence
        shell(/bin/true)
    </value>
</property>
<property>
    <name>dfs.ha.fencing.ssh.private-key-files</name>#sshfence隔离机制需要配置本机密钥地址
    <value>/root/.ssh/id_rsa</value>
</property>
<property>
    <name>dfs.ha.automatic-failover.enabled</name>#开启自动故障状态切换
    <value>true</value>
 </property>
<property>
	<name>dfs.ha.fencing.ssh.connect-timeout</name>#sshfence隔离机制超时时间
	<value>30000</value>
</property>
<property> 
	<name>dfs.webhdfs.enabled</name> #开启webhdfs服务
	<value>true</value> 
</property>
  1. 修改mapred-site.xml文件
      在虚拟机Spark01中,进入Hadoop安装包的/etc/hadoop/目录,执行“cp mapred-site.xml.template mapred-site.xml”命令,通过复制模板文件方式创建MapReduce
    的核心配置文件mapred-site.xml,执行“vi mapred-site.xml”命令编辑配置文件
    mapred-site.xml ,指定MapReduce运行时框架。如下:
<property>
      <name>mapreduce.framework.name</name>#指定MapReduce 作业运行在 YARN框架之上
      <value>yarn</value>
</property>
  1. 修改yarn-site.xml文件
      在虚拟机Spark01中,进入Hadoop安装包的/etc/hadoop/目录,执行“cp yarn-site.xml”命令,编辑YARN的核心配置文件yarn-site.xml。如下:
<property>
    <name>yarn.nodemanager.aux-services</name>#配置NodeManager上运行的附属服务,需要配置为mapreduce_shuffle
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.resourcemanager.ha.enabled</name>#开启ResourceManager的HA机制
    <value>true</value>
</property>
<property>
    <name>yarn.resourcemanager.cluster-id</name>#自定义ResourceManager集群的标识符
    <value>yarncluster</value>
</property>
<property>
    <name>yarn.resourcemanager.ha.rm-ids</name>#自定义集群中每个ResourceManager节点的唯一标识符
    <value>rm1,rm2</value>
</property>
<property>
    <name>yarn.resourcemanager.hostname.rm1</name>#指定标识符rm1的ResourceManager节点
    <value>spark01</value>
</property>
<property>
    <name>yarn.resourcemanager.hostname.rm2</name>#指定标识符rm2的ResourceManager节点
    <value>spark02</value>
</property>
<property>
    <name>yarn.resourcemanager.zk-address</name>#ZooKeeper集群地址
    <value>spark01:2181,spark02:2181,spark03:2181</value>
</property>
<property>
    <name>yarn.resourcemanager.recovery.enabled</name>#开启自动恢复功能
    <value>true</value>
</property>
<property>
      <name>yarn.resourcemanager.ha.automatic-failover.enabled</name>#开启故障自动转移
      <value>true</value>
</property>
<property>
    <name>yarn.resourcemanager.store.class</name>#ResourceManager存储信息的方式,在HA机制下用ZooKeeper(ZKRMStateStore)作为存储介质
    <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>
<property>
    <name>yarn.log-aggregation-enable</name>#开启YARN日志
    <value>true</value>
  </property>
  1. 修改slaves文件
      在虚拟机Spark01中,进入Hadoop安装包的/etc/hadoop/目录,执行“vi slaves”命令,编辑记录Hadoop集群所有DataNode节点和NodeManager节点主机名的文件slaves。如下:
spark01
spark02
spark03
  1. 配置Hadoop环境变量
      在虚拟机Spark01中,执行“vi /etc/profile”命令编辑系统环境变量文件profile,
    配置Hadoop系统环境变量。如下:
export HADOOP_HOME=/export/servers/hadoop-2.7.4
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

系统环境变量文件profile配置完成后保存并退出即可,随后执行“source /etc/profile”命令初始化系统环境变量使配置内容生效。

  1. 分发文件
      为了便于快速配置Hadoop集群中其他服务器,将虚拟机Spark01中的Hadoop安装目录和系统环境变量文件分发到虚拟机Spark02和Spark03。如下:
#将Hadoop安装目录分发到虚拟机Spark02和Spark03
$ scp -r /export/servers/hadoop-2.7.4/ root@spark02:/export/servers/
$ scp -r /export/servers/hadoop-2.7.4/ root@spark03:/export/servers/
#将系统环境变量文件分发到虚拟机Spark02和Spark03
$ scp /etc/profile root@spark02:/etc/
$ scp /etc/profile root@spark03:/etc/

完成分发操作,分别在虚拟机Spark02和Spark03中执行“source /etc/profile”命令初始化系统环境变量。

  1. 验证Hadoop环境
      在虚拟机Spark01中,执行“hadoop version”命令查看当前系统环境的Hadoop版本。如下图所示:
    在这里插入图片描述

三、启动Hadoop高可用集群配置

  1. 启动ZooKeeper
      分别在虚拟机Spark01、Spark02和Spark03中执行“zkServer.sh start”命令启动每台虚拟机的ZooKeeper服务。

  2. 启动JournalNode
      分别在虚拟机Spark01、Spark02和Spark03中执行“hadoop-daemon.sh start journalnode”命令启动每台虚拟机的JournalNode服务。如下图所示:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  3. 初始化NameNode(仅初次启动执行)
      在Hadoop集群主节点虚拟机Spark01执行“hdfs namenode -format”命令初始化NameNode操作。如下图所示:
    在这里插入图片描述

  4. 初始化ZooKeeper(仅初次启动执行)
      在NameNode主节点虚拟机Spark01,执行“hdfs zkfc -formatZK”命令初始化ZooKeeper 中的 HA 状态。
    在这里插入图片描述

  5. NameNode同步(仅初次启动执行)
      在虚拟机Spark01中的NameNode主节点执行初始化命令后,需要将元数据目录的内容复制到其他未格式化的 NameNode备用节点(虚拟机Spark02)上,确保主节点和备用节点的NameNode数据一致。命令如下:
    scp -r /export/data/hadoop/namenode/ root@spark02:/export/data/hadoop/

  6. 启动HDFS
      在虚拟机Spark01中通过执行一键启动脚本命令“start-dfs.sh”,启动Hadoop集群的HDFS,此时虚拟机Spark01和Spark02上的NameNode和ZKFC以及虚拟机Spark01、Spark02和Spark03上的DataNode都会被启动。

  7. 启动YARN
      在虚拟机Spark01中通过执行一键启动脚本命令“start-yarn.sh”,启动Hadoop集群的YARN,此时虚拟机Spark01上的ResourceManager以及虚拟机Spark01、Spark02和Spark03上的NodeManager都会被启动,不过虚拟机Spark02上的ResourceManager备用节点需要在虚拟机Spark02上执行“yarn-daemon.sh start resourcemanager”命令单独启动。

  8. 查看集群
      分别在三台虚拟机Spark01、Spark02和Spark03上执行“jps”命令查看Hadoop高可用集群相关进程是否成功启动。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

四、关闭Hadoop高可用集群

  1. 在虚拟机Spark02执行“yarn-daemon.sh stop resourcemanager”命令,关闭ResourceManager备用节点。
  2. 在虚拟机Spark02执行“stop-yarn.sh”命令,关闭YARN。
  3. 在虚拟机Spark02执行“stop-dfs.sh”命令,关闭HDFS。
  4. 分别在虚拟机Spark01、Spark02和Spark03执行“hadoop-daemon.sh stop journalnode”命令,关闭JournalNode。

好了,Hadoop的集群部署我们就讲到这里了,下一篇我们将讲解Spark集群部署

转载自:https://blog.csdn.net/u014727709/article/details/130915938
欢迎start,欢迎评论,欢迎指正

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/639854.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Day974.授权码和访问令牌的颁发流程 -OAuth 2.0

授权码和访问令牌的颁发流程 Hi&#xff0c;我是阿昌&#xff0c;今天学习记录的是关于授权码和访问令牌的颁发流程的内容。 授权服务就是负责颁发访问令牌的服务。更进一步地讲&#xff0c;OAuth 2.0 的核心是授权服务&#xff0c;而授权服务的核心就是令牌。 为什么这么说…

被冻结的层在训练过程中参与正向反向传递,只是这一层的梯度不再更新。||底层逻辑

被冻结的层可以前向传播,也可以反向传播,只是自己这一层的参数不更新,其他未冻结层的参数正常更新。 在微调期间&#xff0c;只有被激活的层的梯度会被计算和更新&#xff0c;而被冻结的层的梯度则会保持不变。 其实从数学上去理解也不难&#xff0c;但自己手推还是需要花点时…

《自然》:DeepMind推出AlphaDev或将加速全球计算

数字世界对计算和能源的需求正在不断增加。在过去的五十年中&#xff0c;人类主要依靠硬件层面的改进来满足这一点。然而&#xff0c;随着微芯片接近其物理极限&#xff0c;改进计算机运行代码&#xff0c;以使计算算力更强大和可持续&#xff0c;变得至关重要。对于每天运行数…

线程的生命周期

我是一个线程 第一回 初生牛犊 我是一个线程&#xff0c;我一出生就被编了个号: 0x3704&#xff0c;然后被领到一个昏暗的屋子里&#xff0c;在这里我发现了很多和我一模一样的同伴。 我身边…

一文教你如何在数据库中安全地存储密码

前言 作者&#xff1a;神的孩子在歌唱 大家好&#xff0c;我叫智 让我们先谈谈什么不该做。 不要以明文形式存储密码。任何具有数据库内部访问权限的人都可以看到它们。如果数据库受损&#xff0c;攻击者可以轻松获取所有密码。那么&#xff0c;我们应该如何在数据库中安全地存…

10个ai算法常用库java版

今年ChatGPT 火了半年多,热度丝毫没有降下来。深度学习和 NLP 也重新回到了大家的视线中。有一些小伙伴问我,作为一名 Java 开发人员,如何入门人工智能,是时候拿出压箱底的私藏的学习AI的 Java 库来介绍给大家。 这些库和框架为机器学习、深度学习、自然语言处理等提供了广…

OceanBase 安全审计之身份鉴别

本文主要以 MySQL 和 OceanBase 对比的方式&#xff0c;来介绍 OceanBase&#xff08;MySQL 模式&#xff09;安全体系中关于身份鉴别的相关内容&#xff0c;包括身份鉴别机制、用户名组成、密码复杂度、密码过期策略等。 作者&#xff1a;金长龙 爱可生测试工程师&#xff0c;…

快速掌握SQL语言——数据查询语言DQL

0️⃣前言 数据查询语言DQL是一种用于查询数据库中数据的语言&#xff0c;它是SQL的一部分&#xff0c;也是SQL中最常用的语言之一。 文章目录 0️⃣前言1️⃣介绍2️⃣使用3️⃣重要性4️⃣总结 1️⃣介绍 DQL&#xff08;Data Query Language&#xff09; 主要用于从数据库中…

为PyCharm IDE 配置三剑客:QtDesigner[可视化设计器]、PyUIC[可视化设计器ui文件转py代码]、PyRcc[资源文件转py代码]

过去一直在使用Eric6 PyQt5&#xff0c;然而最近它[已然是古董级的了]似乎有些不太正常&#xff0c; 像我这样有强迫症的人怎么可以容忍呢? 于是有了换IDE的想法&#xff0c;听说PyCharm是个高富帅&#xff0c;大家都很喜欢用它呢&#xff01;于是乎才有了这篇文章。 前提条…

【C++ 笔记五】STL 标准模板库 —— 容器基础进阶

【C 笔记五】STL 标准模板库 —— 容器基础进阶 文接上文 【C 笔记四】STL 标准模板库 —— 容器基础 文章目录 【C 笔记五】STL 标准模板库 —— 容器基础进阶I - 简单回顾1.1 - 序列式容器&#xff08;顺序容器&#xff09;1.2 - 关联式容器 (关联容器)1.3 - 访问方法/对外接…

面试-java常见问题

JVM 配置 程序计数器&#xff1a;当前线程所执行的字节码的行号指示器java虚拟机栈:临时变量元空间&#xff1a;类常量池&#xff0c;运行时常量池方法区&#xff1a;类信息&#xff0c;静态变量堆&#xff1a;对象实例&#xff0c;Sting常量池等 类加载过程 加载->链接&am…

使用javacv中的ffmpeg实现录屏

今天突发奇想&#xff0c;想自己写一个录屏的软件&#xff0c;上次写了一个专门录音的Demo&#xff0c;但是要把声音和视频放到一起合成一个mp4文件&#xff0c;着实有一点艰难&#xff0c;所以就打算使用ffmpeg来写一个&#xff0c;而这篇博客中会顺便谈一谈我碰到的各种坑。 …

JVM面试题50道

1.JDK、JRE、JVM关系&#xff1f; Jdk (Java Development Kit) : java语言的软件开发包。包括Java运行时环境Jre。 Jre &#xff08;Java Runtime Environment) :Java运行时环境&#xff0c;包括Jvm。 Jvm (Java Virtual Machine) :一种用于计算机设备的规范。 Java语言在不同…

JavaWeb小记——Tomcat

目录 Tomcat简介 Tomcat下载安装 Tomcat启动 Tomcat关闭 常见问题 项目发布 发布方式一 发布方式二 发布方式三 IDEA打war包 Tomcat和IDEA整合 IDEA发布动态项目 Tomcat简介 Tomcat是Apache基金组织下的一款免费的开源的且支持Servelet和JSP规范的服务器 Tomcat下…

Spark大数据处理学习笔记1.3 使用Scala集成开发环境

文章目录 一、学习目标二、搭建Scala的IntelliJ IDEA开发环境&#xff08;一&#xff09;启动IDEA&#xff08;二&#xff09;安装Scala插件&#xff08;三&#xff09;配置IDEA使用的默认JDK&#xff08;四&#xff09;创建Scala项目1、创建Scala项目 - ScalaDemo2、创建Scala…

跨平台潜能解锁:将Ionic框架与小程序容器相结合

Ionic是一个用于构建跨平台移动应用程序的开源框架。它结合了HTML、CSS和JavaScript等技术&#xff0c;帮助开发者创建具有原生应用体验的移动应用程序。Ionic提供了一套用户界面组件和工具&#xff0c;可用于构建高度交互和美观的移动应用界面。 Ionic基于Angular框架&#x…

为什么 Twitter 和 Facebook 的网站页面变得越来越像?

Twitter和Facebook这两个社交媒体平台在不同的领域取得了巨大的成功。Twitter以其独特的推文形式而闻名&#xff0c;而Facebook则以其广泛的社交网络和内容分享功能而著称。 然而&#xff0c;近年来&#xff0c;这两个平台在设计和布局上的相似之处越来越明显。为什么会出现这…

奖金高达534万!2023第四届全国人工智能大赛

2023第四届全国人工智能大赛 报名链接&#xff1a; https://www.datafountain.cn/special/NAIC2023?target13250069&specialNAIC2023 叮咚&#xff0c;已向您发送组队邀请&#xff01;今年最值得参与的第四届全国人工智能大赛开放报名了&#xff0c;3道赛题奖金534万&…

又一重点项目,石岩新能源产业园建面61.6万平,配27班学校

近日&#xff0c;宝安区城市更新和土地整备局发布&#xff0c;关于石岩街道总部经济园区城市更新单元(一期南及二期)“工业上楼”单元规划&#xff08;草案&#xff09;已通过专班会议审议的公告。 公告显示&#xff0c;项目申报主体为深圳市开宝安区投资管理集团有限公司&…

信息系统项目管理师(软考高项)备考总结

简介 信息系统项目管理师&#xff0c;计算机技术与软件&#xff08;高级&#xff09;专业技术资格。 相关考试简称软考&#xff0c;该资质业内简称高项。 证书价值 自行百度吧&#xff0c;决定考的肯定知道他能带来什么价值了。 笔者是因为从事软件开发&#xff0c;服务政…