【大数据入门核心技术-Hadoop】Hadoop高可用集群搭建

news2025/4/5 1:47:57

目录

一、Hadoop部署的三种方式

1、Standalone mode（独立模式）

2、Pseudo-Distributed mode（伪分布式模式）

3、Cluster mode（集群模式）

二、准备工作

1、先完成zk高可用搭建

2、/etc/hosts增加内容

3、各台服务器分别创建目录

4、关闭防火墙和禁用swap交换分区

5、三台机器间免密

6、安装jdk

7、下载好hadoop安装包

三、高可用配置

1、配置core-site.xml

2、配置hdfs-site.xml

3、配置yarn-site.xml文件

4、配置mapred-site.xml

5、配置workers

6、修改配置hadoop-env.sh

四、分发文件

五、启动服务

六、查看服务

一、Hadoop部署的三种方式

1、Standalone mode（独立模式）

独立模式又称为单机模式，仅1个机器运行1个java进程，主要用于调试。

2、Pseudo-Distributed mode（伪分布式模式）

伪分布模式也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager，但分别启动单独的java进程，主要用于调试。

3、Cluster mode（集群模式）

单Namenode节点模式-高可用HA模式

集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下，主节点和从节点会分开部署在不同的机器上。

本教程主要安装多Namenode 节点高可用集群模式

二、准备工作

1、先完成zk高可用搭建

【大数据入门核心技术-Zookeeper】（五）ZooKeeper集群搭建

2、/etc/hosts增加内容

172.30.1.56 hadoop001

172.30.1.57 hadoop001

172.30.1.58 hadoop001

3、各台服务器分别创建目录

mkdir -p /data/bigdata/hadoop/tmp

mkdir -p /data/bigdata/hadoop/var

mkdir -p /data/bigdata/hadoop/dfs/name

mkdir -p /data/bigdata/hadoop/dfs/data

mkdir -p /data/bigdata/hadoop/jn

4、关闭防火墙和禁用swap交换分区

1)关闭防火墙和SeLinux

systemctl stop firewalld && systemctl disable firewalld
setenforce 0
sed -i 's/SELINUX=.*/SELINUX=disabled/g' /etc/sysconfig/selinux

2)禁用swap交换分区

swapoff -a && sed -i 's/SELINUX=.*/SELINUX=disabled/g' /etc/sysconfig/selinux

5、三台机器间免密

生成密钥

ssh-keygen -t rsa

将密钥复制到其他机器

ssh-copy-id slave1
ssh-copy-id slave2

6、安装jdk

将jdk目录复制到/usr/local

vim /etc/profile

export JAVA_HOME=/usr/local/jdk1.8.0_131
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

source /etc/profile

java -version

查看结果

java version "1.8.0_131"
Java(TM) SE Runtime Environment (build 1.8.0_131-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.131-b11, mixed mode)

7、下载好hadoop安装包

下载地址

Apache Hadoop

本次以hadoop3.2.1下载为例

解压
tar zxvf hadoop-3.2.1.tar.gz -C /usr/local

vim /etc/profile

export HADOOP_HOME=/usr/local/hadoop-3.2.1
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

source /etc/profile

三、高可用配置

1、配置core-site.xml

<configuration>
    <!-- 把多个 NameNode 的地址组装成一个集群 mycluster -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://mycluster</value>
    </property>
    <!-- 指定 hadoop 运行时产生文件的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/data/bigdata/hadoop/tmp</value>
    </property>
    <!-- 指定 zkfc 要连接的 zkServer 地址 -->
    <property>
        <name>ha.zookeeper.quorum</name>
        <value>hadoop101:2181,hadoop102:2181,hadoop103:2181</value>
    </property>
    <!-- NN 连接 JN 重试次数，默认是 10 次 -->
    <property>
        <name>ipc.client.connect.max.retries</name>
        <value>20</value>
    </property>
    <!-- 重试时间间隔，默认 1s -->
    <property>
        <name>ipc.client.connect.retry.interval</name>
        <value>5000</value>
    </property>
</configuration>

2、配置hdfs-site.xml

<configuration>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/data/bigdata/hadoop/dfs/name</value>
        <description>datanode 上存储 hdfs 名字空间元数据</description>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/data/bigdata/hadoop/dfs/data</value>
        <description>datanode 上数据块的物理存储位置</description>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
        <description>副本个数，默认配置是 3，应小于 datanode 机器数量</description>
    </property>
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
    </property>
	
	
    <!-- JournalNode 数据存储目录 -->
    <property>
        <name>dfs.journalnode.edits.dir</name>
        <value>/data/bigdata/hadoop/jn</value>
    </property>
    <!-- 完全分布式集群名称 -->
    <property>
        <name>dfs.nameservices</name>
        <value>mycluster</value>
    </property>
    <!-- 集群中 NameNode 节点都有哪些 -->
    <property>
        <name>dfs.ha.namenodes.mycluster</name>
        <value>nn1,nn2,nn3</value>
    </property>
    <!-- NameNode 的 RPC 通信地址 -->
    <property>
        <name>dfs.namenode.rpc-address.mycluster.nn1</name>
        <value>hadoop101:8020</value>
    </property>
    <property>
        <name>dfs.namenode.rpc-address.mycluster.nn2</name>
        <value>hadoop102:8020</value>
    </property>
	<property>
        <name>dfs.namenode.rpc-address.mycluster.nn3</name>
        <value>hadoop103:8020</value>
    </property>
	
    <!-- NameNode 的 http 通信地址 -->
    <property>
        <name>dfs.namenode.http-address.mycluster.nn1</name>
        <value>hadoop101:9870</value>
    </property>
    <property>
        <name>dfs.namenode.http-address.mycluster.nn2</name>
        <value>hadoop102:9870</value>
    </property>
	<property>
        <name>dfs.namenode.http-address.mycluster.nn3</name>
        <value>hadoop103:9870</value>
    </property>
	
    <!-- 指定 NameNode 元数据在 JournalNode 上的存放位置 -->
    <property>
        <name>dfs.namenode.shared.edits.dir</name>
        <value>qjournal://hadoop101:8485;hadoop102:8485;hadoop103:8485/mycluster</value>
    </property>
    <!-- 访问代理类：client 用于确定哪个 NameNode 为 Active -->
    <property>
        <name>dfs.client.failover.proxy.provider.mycluster</name>
        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    </property>
    <!-- 配置隔离机制，即同一时刻只能有一台服务器对外响应 -->
    <property>
        <name>dfs.ha.fencing.methods</name>
        <value>sshfence</value>
    </property>
    <!-- 使用隔离机制时需要 ssh 秘钥登录-->
    <property>
        <name>dfs.ha.fencing.ssh.private-key-files</name>
        <value>/root/.ssh/id_rsa</value>
    </property>
    <!-- 启用 nn 故障自动转移 -->
    <property>
        <name>dfs.ha.automatic-failover.enabled</name>
        <value>true</value>
    </property>
</configuration>

3、配置yarn-site.xml文件

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
	
    <!-- 启用 resourcemanager ha -->
    <property>
        <name>yarn.resourcemanager.ha.enabled</name>
        <value>true</value>
    </property>
	
    <!-- 声明两台 resourcemanager 的地址 -->
    <property>
        <name>yarn.resourcemanager.cluster-id</name>
        <value>cluster-yarn1</value>
    </property>
	
    <!--指定 resourcemanager 的逻辑列表-->
    <property>
        <name>yarn.resourcemanager.ha.rm-ids</name>
        <value>rm1,rm2,rm3</value>
    </property>
	
    <!-- ========== rm1 的配置 ========== -->
    <!-- 指定 rm1 的主机名 -->
    <property>
        <name>yarn.resourcemanager.hostname.rm1</name>
        <value>hadoop101</value>
    </property>
    <!-- 指定 rm1 的 web 端地址 -->
    <property>
        <name>yarn.resourcemanager.webapp.address.rm1</name>
        <value>hadoop101:8088</value>
    </property>
    <!-- 指定 rm1 的内部通信地址 -->
    <property>
        <name>yarn.resourcemanager.address.rm1</name>
        <value>hadoop101:8032</value>
    </property>
    <!-- 指定 AM 向 rm1 申请资源的地址 -->
    <property>
        <name>yarn.resourcemanager.scheduler.address.rm1</name>
        <value>hadoop101:8030</value>
    </property>
    <!-- 指定供 NM 连接的地址 -->
    <property>
        <name>yarn.resourcemanager.resource-tracker.address.rm1</name>
        <value>hadoop101:8031</value>
    </property>
	
    <!-- ========== rm2 的配置 ========== -->
    <!-- 指定 rm2 的主机名 -->
    <property>
        <name>yarn.resourcemanager.hostname.rm2</name>
        <value>hadoop102</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address.rm2</name>
        <value>hadoop102:8088</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address.rm2</name>
        <value>hadoop102:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address.rm2</name>
        <value>hadoop102:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address.rm2</name>
        <value>hadoop102:8031</value>
    </property>
	
    <!-- ========== rm3 的配置 ========== -->
    <!-- 指定 rm3 的主机名 -->
    <property>
        <name>yarn.resourcemanager.hostname.rm3</name>
        <value>hadoop103</value>
    </property>
    <!-- 指定 rm3 的 web 端地址 -->
    <property>
        <name>yarn.resourcemanager.webapp.address.rm3</name>
        <value>hadoop103:8088</value>
    </property>
    <!-- 指定 rm3 的内部通信地址 -->
    <property>
        <name>yarn.resourcemanager.address.rm3</name>
        <value>hadoop103:8032</value>
    </property>
    <!-- 指定 AM 向 rm3 申请资源的地址 -->
    <property>
        <name>yarn.resourcemanager.scheduler.address.rm3</name>
        <value>hadoop103:8030</value>
    </property>
    <!-- 指定供 NM 连接的地址 -->
    <property>
        <name>yarn.resourcemanager.resource-tracker.address.rm3</name>
        <value>hadoop103:8031</value>
    </property>
	
    <!-- 指定 zookeeper 集群的地址 -->
    <property>
        <name>yarn.resourcemanager.zk-address</name>
        <value>hadoop101:2181,hadoop102:2181,hadoop103:2181</value>
    </property>
	
    <!-- 启用自动恢复 -->
    <property>
        <name>yarn.resourcemanager.recovery.enabled</name>
        <value>true</value>
    </property>
	
    <!-- 指定 resourcemanager 的状态信息存储在 zookeeper 集群 -->
    <property>
        <name>yarn.resourcemanager.store.class</name>
        <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateSt ore</value>
    </property>
	
    <!-- 环境变量的继承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLAS
SPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>

    <!-- ZK中ZNode节点能存储的最大数据量，以字节为单位，默认是 1048576 字节，也就是1MB，现在扩大100倍 -->
    <property>
        <name>yarn.resourcemanager.zk-max-znode-size.bytes</name>
        <value>104857600</value>
    </property>
 
    <!--用于状态存储的类,可以设置为-->
    <property>
        <name>yarn.resourcemanager.store.class</name>
   <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
    </property>
</configuration>

4、配置mapred-site.xml

<configuration>
    <!--  指定 MapReduce 程序运行在 Yarn 上  -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <!--  历史服务器端地址  -->
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>hadoop101:10020</value>
    </property>
    <!--  历史服务器 web 端地址  -->
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>hadoop101:19888</value>
    </property>
</configuration>

5、配置workers

hadoop101
hadoop102
hadoop103

6、修改配置hadoop-env.sh

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_JOURNALNODE_USER=root
export HDFS_ZKFC_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

四、分发文件

scp -r /usr/local/hadoop-3.2.1 hadoop102:/usr/local

scp -r /usr/local/hadoop-3.2.1 hadoop103:/usr/local

五、启动服务

在各个 JournalNode 节点上（每台虚拟机），输入以下命令启动 journalnode 服务

hdfs --daemon start journalnode

node1上格式化namenode
hdfs namenode -format

node1上启动namenode
hdfs --daemon start namenode

在 [nn2,nn3] 上，同步 nn1 的元数据信息
hdfs namenode -bootstrapStandby

在node1节点上格式化ZKFC
hdfs zkfc -formatZK

node1节点上启动HDFS和Yarn
start-dfs.sh
start-yarn.sh

到此hadoop高可用集群搭建就完成了。

六、查看服务

jps

查看yarn服务状态

yarn rmadmin -getAllServiceState

yarn rmadmin -getServiceState rm1

zkCli.sh 客户端查看 ResourceManager 选举锁节点内容：

get -s /yarn-leader-election/cluster-yarn1/ActiveStandbyElectorLock

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/60222.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

数据科学家赚多少？数据全分析与可视化 ⛵

数据科学家赚多少？数据全分析与可视化 ⛵

💡 作者：韩信子ShowMeAI 📘 数据分析实战系列：https://www.showmeai.tech/tutorials/40 📘 AI 岗位&攻略系列：https://www.showmeai.tech/tutorials/47 📘 本文地址：https://www…

阅读更多...

[附源码]计算机毕业设计JAVA一点到家小区微帮服务系统

[附源码]计算机毕业设计JAVA一点到家小区微帮服务系统

[附源码]计算机毕业设计JAVA一点到家小区微帮服务系统项目运行环境配置： Jdk1.8 Tomcat7.0 Mysql HBuilderX（Webstorm也行） Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术： SSM…

阅读更多...

Linux简单命令

Linux简单命令

Linux简单命令现在写几个使用Linux时最常使用的简单命令 1.将一个文件复制到另一个文件夹内，比如将backboneA复制到backboneB路径下： cp -r /文件夹路径backboneA/* /文件夹路径backboneB/2.查看当前目录下有多少个文件及文件夹，需在终端输…

阅读更多...

C++闲谈04——设计模式

C++闲谈04——设计模式

C闲谈04——设计模式单例模式饿汉式单例模式 #include<iostream> #include<mutex>using namespace std; mutex mtx;class SingleTon{ public:static SingleTon* GetInstance() {if (instance nullptr) {lock_guard<mutex> lk(mtx); // 不是尖括号inst…

阅读更多...

修复爱普生 EPSON L4156 打印机无法打印，开关 WIFI 墨水三个灯同时闪烁的问题

修复爱普生 EPSON L4156 打印机无法打印，开关 WIFI 墨水三个灯同时闪烁的问题

L4151 L4153 L4156 L4158 L4163 L4165 L4166 L4168 L4169 喷墨一体机清零图解清零前请取消打印任务，打印机用 USB 线接电脑并开启工具下载地址 EPSON打印机清零软件1.双击[Resetter.exe]启动软件,点击[Select],选择 Port 打印机型号，然后点[OK]&#…

阅读更多...

第8章注意力机制与外部记忆

第8章注意力机制与外部记忆

系列文章目录第1章绪论第2章机器学习概述第3章线性模型第4章前馈神经网络第5章卷积神经网络第6章循环神经网络第7章网络优化与正则化第8章注意力机制与外部记忆第9章无监督学习第10章模型独立的学习方式第11章概率图模型第12章深度信念网络第13章深…

阅读更多...

Linux UART编程驱动蓝牙芯片

Linux UART编程驱动蓝牙芯片

在熟悉了UART概念后，我们要学以致用，在Linux用起来来驱动起来蓝牙芯片！ 我们直接借用man来看下，命令如下： man termios 1.头文件引用 #include <termios.h> #include <unistd.h> 2.串口打开关闭 open…

阅读更多...

Python预测2022世界杯1/8决赛胜负

Python预测2022世界杯1/8决赛胜负

目录: why to do?how to do?why to do? 简单介绍一下为什么要做这个吧? 首先呢, 最近一直在看基于tensorflow框架实现facenet等一些人脸识别的网络. 再加上昨天(2022年12月3日)是2022年世界杯1/8决赛第一个比赛日. 就在不同平台搜了一下, 看看有没有其他大牛也做了这方面的…

阅读更多...

设计模式——策略模式

设计模式——策略模式

设计模式中的复用性指的是编译单位（二进制层面）的复用性（编译、测试、部署后是原封不动的） 动机（Motivation） 在软件构建过程中，某些对象使用的算法可能多种多样，经常改变&#xf…

阅读更多...

Netty系列（五）：源码解读ServerBootstrapAcceptor类职能，探究Netty启动流程

Netty系列（五）：源码解读ServerBootstrapAcceptor类职能，探究Netty启动流程

ServerBootstrapAcceptor是Netty服务端用来接收客户端连接的核心类，本文将介绍ServerBootstrapAcceptor的职能。 init方法在上一篇文章源码解读 backlog 参数作用中我们知道，在Netty服务端启动时，会调用ServerBootstrap.bind()绑定本地端口…

阅读更多...

玩转GDAL一文带你深入Windows下FileGDB驱动支持

玩转GDAL一文带你深入Windows下FileGDB驱动支持

前言了解GDAL的朋友一定知道，GDAL3.5以下（含）默认配置下是只支持gdb文件的读的，是不支持写的。更要命的是，默认的OpenFileGDB在读取时，如果我们在矢量文件中设置了属性表字段的别名，默认驱动是…

阅读更多...

Git项目演练

Git项目演练

Git项目演练首先，进入到项目路径然后，初始化，产生.git库创建gitignore文件将不需要的文件放入到,gitignore 将所有的文件添加到追踪的状态对文件进行一次提交使用git log查看变动使用编译器修改代码中的内容对修改进…

阅读更多...

基于javaweb的学籍管理系统计算机毕业论文java毕业设计选题源代码

基于javaweb的学籍管理系统计算机毕业论文java毕业设计选题源代码

💖💖更多项目资源，最下方联系我们✨✨✨✨✨✨ 目录 Java项目介绍资料获取 Java项目介绍计算机毕业设计java毕设之基于javaweb的学籍管理系统-IT实战营_哔哩哔哩_bilibili项目资料网址: http://itzygogogo.com软件下载地址:http://itzy…

阅读更多...

【能效管理】安科瑞新能源充电桩收费运维管理云平台应用分析

【能效管理】安科瑞新能源充电桩收费运维管理云平台应用分析

概述 AcrelCloud-9000安科瑞充电桩收费运营云平台系统通过物联网技术对接入系统的汽车充电站、电动自行车充电站以及各个充电桩进行不间断地数据采集和监控，实时监控充电桩运行状态，进行充电服务、支付管理，交易结算，资源管理、电…

阅读更多...

ADSP-21569/ADSP-21593的开发入门（上）

ADSP-21569/ADSP-21593的开发入门（上）

作者的话 ADI的SHARC系列DSP，目前已经出到5系列了，最新的一颗叫2159x，按照ADI的说法，这颗DSP的性能是21569的两倍，但又能和21569做P2P的替换，所以下面我们就以21593为例，写一点资料&#xff0c…

阅读更多...

头歌计算机组成原理MIPS RAM设计

头歌计算机组成原理MIPS RAM设计

完整答案点击底部 <?xml version"1.0" encoding"UTF-8" standalone"no"?> <project source"2.15.0.2.exe" version"1.0"> This file is intended to be loaded by Logisim http://logisim.altervista.org &l…

阅读更多...

数字化门店| 旧衣回收店系统 | 智慧门店小程序开发教程

数字化门店| 旧衣回收店系统 | 智慧门店小程序开发教程

随着人们生活质量的提升，无论男女，衣柜鞋柜里摆满了各种衣物，覆盖了多个场景下的衣物非常多，同时如今大多数人已经不再穿补丁衣服，旧或破就会扔掉买新的。为了节省资源及合理二次利用，旧衣回收行业逐渐出现…

阅读更多...

用译码器来设计组合逻辑电路

用译码器来设计组合逻辑电路

三线到八线：输入端只有三个所以只能是三变量我们先来看书上的一个例子设计的过程第一步将函数表达式整理成最小项和的形式我们用来举例，不是最小项的形式三变量函数可以用三变量的最小项来表示为了看的更清楚，我们写成最小项的编号&…

阅读更多...

四、Git本地仓库基本操作——查看提交历史和版本回退前进

四、Git本地仓库基本操作——查看提交历史和版本回退前进

1. 查看提交历史查看git提交历史一般常用两个命令： # 查看历史提交记录 git log # 以列表形式查看指定文件的历史记录 git blame <文件名>git log 该命令会按照我们提交的时间线，然后列出所有的历史提交。示例： git log 显示的…

阅读更多...

[附源码]计算机毕业设计JAVA医疗预约系统

[附源码]计算机毕业设计JAVA医疗预约系统

[附源码]计算机毕业设计JAVA医疗预约系统项目运行环境配置： Jdk1.8 Tomcat7.0 Mysql HBuilderX（Webstorm也行） Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术： SSM mybatis M…

阅读更多...

推荐文章

最新文章