Hadoop集群运维管理

news2025/1/20 5:50:38

Hadoop集群运维管理

  • 一、Hadoop 集群进程管理
    • 1.1 NameNode 守护进程管理
    • 1.2 DataNode 守护进程管理
    • 1.3 ResourceManager 守护进程管理
    • 1.4 NodeManager 守护进程管理
  • 二、Hadoop 集群运维技巧
    • 2.1 查看日志
    • 2.2 清理临时文件
    • 2.3 定期执行负载均衡
    • 2.4 文件系统检查
    • 2.5 元数据备份
  • 三、Hadoop 集群动态扩缩容
    • 3.1 使用背景
    • 3.2 原 Hadoop 集群配置
    • 3.2.1 配置 include 和 exclude 文件路径
      • 3.2.2 添加 include 和 exclude文件
      • 3.2.3 同步修改配置文件
    • 3.3 Hadoop 集群启动
      • 3.1.1 启动 Zookeeper
      • 3.1.2 启动 HDFS 集群
      • 3.1.3 启动 YARN 集群
    • 3.4 Hadoop 集群动态扩容
      • 3.4.1 克隆一台 Centos 7 服务器,并配置集成环境
      • 3.4.2 修改 include 文件并同步
      • 3.4.3 刷新 NameNode
      • 3.4.4 刷新 resourceManager
      • 3.4.5 修改 配置文件 slaves
      • 3.4.6 启动新增节点进程
      • 3.4.6 检查新增节点
      • 3.4.7 启动负载均衡
    • 3.5 Hadoop 集群动态收缩
      • 3.5.1 修改 exclude 文件
      • 3.5.2 刷新 NameNode
      • 3.5.3 刷新 resourceManager
      • 3.5.4 开始解除节点
      • 3.5.4 停止退役节点进程
      • 3.5.5 修改include文件
      • 3.5.6 刷新NameNode和ResourceManager
      • 3.5.7 修改slaves文件
      • 3.5.8 启动负载均衡

文本使用工具脚本 deploy.sh 和 runRemoteCmd.sh ,可以到 《ZooKeeper 集群的详细部署》 的 4.1 章节查看如何使用

一、Hadoop 集群进程管理

1.1 NameNode 守护进程管理

  • 下线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop namenode

在这里插入图片描述
在这里插入图片描述
从上图可以看出当 hadoop1 停用 namenode 后,hadoop2 的 namenode 节点由 standby 转换为 active

  • 上线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start namenode

1.2 DataNode 守护进程管理

  • 下线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop datanode
  • 上线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start datanode

1.3 ResourceManager 守护进程管理

  • 下线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop resourcemanager

在这里插入图片描述
在这里插入图片描述
从上图可以看出当 hadoop1 停用 resourcemanager 后,hadoop2 的 resourcemanager 节点由 standby 转换为 active

  • 上线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start resourcemanager

1.4 NodeManager 守护进程管理

  • 下线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop nodemanager
  • 上线操作
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start nodemanager

二、Hadoop 集群运维技巧

2.1 查看日志

$ HAD00P HOME/logs/hadoop-hadoop-namenode-hadoop1.log
$ HAD00P H0ME/logs/yarn-hadoop-resourcemanager-hadoop1.log
$ HAD00P H0ME/logs/hadoop-hadoop-datanode-hadoop1.log
$ HAD00P HOME/logs/yarn-hadoop-nodemanager-hadoop1.log

2.2 清理临时文件

HDFS的临时文件路径: h a d o o p . t m p . d i r / m a p r e d / s t a g i n g 本地临时文件路径 : {hadoop.tmp.dir}/mapred/staging 本地临时文件路径: hadoop.tmp.dir/mapred/staging本地临时文件路径:{mapred.local.dir}/mapred/local

2.3 定期执行负载均衡

脚本:/usr/local/hadoop/sbin/start-balancer.sh -t 10%
-t:HDFS达到平衡状态的磁盘使用率偏差值。如果机器与机器之间磁盘使用率偏差小于10%,那么我们就认为HDFS集群已经达到了平衡的状态。

2.4 文件系统检查

命令:/usr/local/hadoop/bin/hdfs fsck /
在这里插入图片描述

2.5 元数据备份

命令:/usr/loacl/hadoop/bin/hdfs ‘dfsadmin’ -fetchImage fsimage.backup
在这里插入图片描述

三、Hadoop 集群动态扩缩容

3.1 使用背景

随着公司业务的增长,数据量越来越大,原有 DataNode,节点的容量已经不能满足数据存储的需求,需要在原有集群基础上动态添加新的数据节点,也就是俗称的动态扩容。如果在 Hadoop 集群运行过程中,某些节点变得反常,例如故障率过高或者性能过低,可能就需要停止这些节点上的 Hadoop 服务,并从 Hadoop 集群中移除,也就是俗称的动态缩容。通常情况下,节点需要同时运行 DataNode 和 NodeManager守护进程,所以两者一般同时新增或者移除。

3.2 原 Hadoop 集群配置

在 Hadoop 集群进行动态扩缩容之前,首先需要修改原有集群的配置文件,具体操作步骤如下所示。
配置之前,先停止 hdfs 集群 和 yarn 集群

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/stop-dfs.sh 
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/stop-yarn.sh 

3.2.1 配置 include 和 exclude 文件路径

在 NameNode 节点(hadoop1)上,修改 hdfs-sitexml配置文件添加 dfs.hosts 和 dfs.hosts.exclude 属性,具体操作如下所示。

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml 

添加如下内容:

<property>
	<name>dfs.hosts</name>
	<value>/usr/local/hadoop/etc/hadoop/include</value>
</property>
<property>
	<name>dfs.hosts.exclude</name>
	<value>/usr/local/hadoop/etc/hadoop/exclude</value>
</property>

在 ResourceManager 节点(hadoop1)上,修改 yarn-site.xml 配置文件,添加 yarn.resourcemanager.nodes.include-path 和 yarn.resourcemanager.nodes.exclude-path 属性,具体操作如下所示:

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/yarn-site.xml

添加如下内容:

<property>
	<name>dfs.hosts.exclude</name>
	<value>/usr/local/hadoop/etc/hadoop/exclude</value>
</property>
<property>
	<name>yarn.resourcemanager.nodes.exclude-path</name>
	<value>/usr/local/hadoop/etc/hadoop/exclude</value>
</property>

3.2.2 添加 include 和 exclude文件

在 NameNode 和 ResourceManager,节点(hadoop1)上,创建 include 文件,并将集群节点的 hostname,信息添加到 include 文件中,具体操作如下所示。

添加 include 文件

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/include

添加如下内容,不要换行和空格。

hadoop1
hadoop2
hadoop3

添加 exclude 文件

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/exclude

暂时不添加内容,大家可以根据实际需要添加排查的服务器

3.2.3 同步修改配置文件

将 hadoop1 节点上中修改的配置文件远程拷贝到集群其他节点,具体操作如下。

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/hdfs-site.xml /usr/local/hadoop/etc/hadoop/ slave
hdfs-site.xml                                                              100% 4207     2.7MB/s   00:00    
hdfs-site.xml                                                              100% 4207     2.2MB/s   00:00    
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/yarn-site.xml /usr/local/hadoop/etc/hadoop/ slave
yarn-site.xml                                                              100% 3401     2.9MB/s   00:00    
yarn-site.xml                                                              100% 3401     2.6MB/s   00:00    
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/include /usr/local/hadoop/etc/hadoop/ slave
include                                                                    100%   24    16.2KB/s   00:00    
include                                                                    100%   24    30.9KB/s   00:00    
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/exclude /usr/local/hadoop/etc/hadoop/ slave
exclude                                                                    100%    0     0.0KB/s   00:00    
exclude                                                                    100%    0     0.0KB/s   00:00 

在这里插入图片描述

3.3 Hadoop 集群启动

3.1.1 启动 Zookeeper

[root@hadoop1 hadoop]# runRemoteCmd.sh "/usr/local/zookeeper/bin/zkServer.sh start" all

3.1.2 启动 HDFS 集群

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-dfs.sh 

3.1.3 启动 YARN 集群

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-yarn.sh 

3.4 Hadoop 集群动态扩容

3.4.1 克隆一台 Centos 7 服务器,并配置集成环境

配置内容:修改固定IP、/etc/hostname、/etc/hosts、关闭防火墙、免密、时钟同步,具体可以参考 《ZooKeeper 集群的详细部署》

在此处我新增了一台 hadoop4 IP地址:192.168.220.154

完成以上继续配置

3.4.2 修改 include 文件并同步

在 NameNode 和 ResouceMamager节点(hadoop1)上,修改 include 文件,并将新增节点的 hostname,信息添加到 include 文件中,具体操作如下所示。

[root@hadoop1 hadoop]# vim ./etc/hadoop/include 

修改为如下内容(不要添加空格和换行):

hadoop1
hadoop2
hadoop3
hadoop4

在这里插入图片描述
将 hadoop1 的 include 文件同步到其他服务器

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/include /usr/local/hadoop/etc/hadoop/ slave

3.4.3 刷新 NameNode

将一系列审核过的 DataNode 来更新 NameNode 设置,具体操作如下所示:

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/hdfs dfsadmin -refreshNodes

在这里插入图片描述

3.4.4 刷新 resourceManager

将一系列审核过的 NodeManager 来更新 ResourceManger 设置,具体操作如下所示:

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/yarn rmadmin -refreshNodes

在这里插入图片描述

3.4.5 修改 配置文件 slaves

[root@hadoop1 hadoop]# cat /usr/local/etc/hadoop/slaves 

新增 hadoop4 主机名称节点,配置如下:

hadoop1
hadoop2
hadoop3
hadoop4

将 hadoop1 中配置好的 slaves 推送到其他hadoop 节点

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/slaves /usr/local/hadoop/etc/hadoop/ slave

在这里插入图片描述

3.4.6 启动新增节点进程

在新增的 hadoop4 节点中,使用如下命令启动 DataNode 和 NodeManager 守护进程

[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start datanode
[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/yarn-daemon.sh start nodemanager

在这里插入图片描述

3.4.6 检查新增节点

分别通过 HDFS(地址:http://hadoop1:50070/)和 YARN(地址:http:/hadoop1:8088/)的 Web界面,查看新增节点 hadoop4 是否添加成功。如果能检査到新的 DataNode 和 NodeManager,则说明 Hadoop 集群扩容成功了。

在这里插入图片描述

3.4.7 启动负载均衡

当 Hadoop 集群扩容成功之后,HDFS 集群不会自动将数据块从旧的 DataNode 迁移到新的 DataNode,以保持集群数据负载均衡,而是需要用户手动执行脚本来实现负载均衡,具体操作如下所示。

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-balancer.sh 

3.5 Hadoop 集群动态收缩

从 Hadoop 集群移除节点的操作步骤如下所示:

3.5.1 修改 exclude 文件

在NameNode和ResourceManager节点(hadoop1)上,修改exclude文件,并将需要移除节点的hostname信息添加到exclude文件中,具体操作如下所示。

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/exclude 

输入想要移除的节点,比如我想要把 hadoop4 移除,新增如下内容:

hadoop4

然后将修改后的exclude文件同步集群其他节点(包括新增节点),这里以hadoop2节点为例,具体操作如下所示。

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/exclude /usr/local/hadoop/etc/hadoop/ slave

在这里插入图片描述

3.5.2 刷新 NameNode

在NameNode(hadoop1)节点上,使用一组新的审核过的DataNode来更新NameNode设置,具体操作如下所示。

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/hdfs dfsadmin -refreshNodes

3.5.3 刷新 resourceManager

在ResourceManager(hadoop1)节点上,使用一组新的审核过的NodeManager来更新ResourceManager设置,具体操作如下所示。

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/yarn rmadmin -refreshNodes

3.5.4 开始解除节点

通过Web界面(地址:http://hadoop1:50070/)查看待解除DataNode的管理状态是否已经变为正在解除(Decommission In Progress),因为此时相关的DataNode正在被解除过程中,这些DataNode会把它们的数据块复制到其他DataNode中。当所有DataNode的状态变为解除完毕(Decommissioned)时,表明所有数据块已经复制完毕,此时会关闭已经解除的节点。

在这里插入图片描述

3.5.4 停止退役节点进程

等待退役节点hadoop4的状态为decommissioned时,说明所有块已经复制成功,然后使用如下命令关闭DataNode和NodeManager进程。

[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop datanode
stopping datanode
[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/yarn-daemon.sh stop nodemanager
no nodemanager to stop

3.5.5 修改include文件

在NameNode和ResourceManager节点(hadoop1)中,从include文件中删除退役节点hadoop4的hostname信息,具体操作如下所示。

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/include 

删除 hadoop4,结果如下:

hadoop1
hadoop2
hadoop3

然后将修改后的include文件同步集群其他节点(包括退役节点),这里以hadoop2节点为例,具体操作如下所示。

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/include /usr/local/hadoop/etc/hadoop/ slave

在这里插入图片描述

3.5.6 刷新NameNode和ResourceManager

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/hdfs dfsadmin -refreshNodes
[root@hadoop1 hadoop]# /usr/local/hadoop/bin/yarn rmadmin -refreshNodes

3.5.7 修改slaves文件

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/slaves 

删除 hadoop4,结果如下:

hadoop1
hadoop2
hadoop3

然后将修改后的slaves文件同步集群其他节点(包括退役节点),这里以hadoop2节点为例,具体操作如下所示。

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/slaves /usr/local/hadoop/etc/hadoop/ slave

3.5.8 启动负载均衡

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-balancer.sh 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2074207.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis的持久化介绍及其Linux配置介绍

1. Redis的持久化 Redis的数据都是存储在内存中,为了数据的永久保存,需要把数据同步到硬盘上,这个过程就叫做持久化. Redis的持久化存在有两种方式: rdb方式,aof方式,这两种方式可以单独使用,也可以综合使用. rdb持久化方式: 是在指定的时间间隔写入硬盘aof持久化方式:是以日…

【Python使用】嘿马python基础入门全体系教程第5篇:容器:字符串、列表、元组、字典,<1>添加元素(“增“append

本教程的知识点为&#xff1a;计算机组成 计算机是由什么组成的&#xff1f; 1. 硬件系统&#xff1a; 2. 软件系统&#xff1a; 目标 运算符的分类 1. 算数运算符 2. 赋值运算符 3. 复合赋值运算符 判断语句和循环语句 if嵌套 1. if嵌套的格式 2. if嵌套的应用 if嵌套执行流程…

链家web安全面试经验分享

吉祥知识星球http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247485367&idx1&sn837891059c360ad60db7e9ac980a3321&chksmc0e47eebf793f7fdb8fcd7eed8ce29160cf79ba303b59858ba3a6660c6dac536774afb2a6330#rd 《网安面试指南》http://mp.weixin.qq.com/s…

MyBatis使用:动态SQL

1、目标 本文的主要目标是使用MyBatis的动态SQL 2、最好使用Param注解 Data public class BaseEntity {protected String id;protected Integer createUserId;protected String createDateTime;}Data public class News extends BaseEntity {private String title;}RestCont…

【C++ Primer Plus习题】5.8

问题: 解答: #include <iostream> #include <cstring> using namespace std;#define SIZE 20int main() {char words[20];char done[] "done";int count 0;while (true){cout << "请输入单词:" << endl;cin >> words;if …

Open3D 最近点约束的体素滤波(35)

Open3D 最近点约束的体素滤波(35) 一、算法介绍二、算法步骤三、具体代码四、实现效果一、算法介绍 最近点约束的体素滤波,是指在每个体素中,选择距离体素中心最近的原始点作为滤波结果,这样保留的是原始点位置。相比于体素滤波的重心点重新计算,或者八叉树体素中心,更加…

进阶岛 茴香豆:企业级知识库问答工具

一、任务介绍 在 InternStudio 中利用 Internlm2-7b 搭建标准版茴香豆知识助手&#xff0c;并使用 Gradio 界面完成 2 轮问答&#xff08;问题不可与教程重复&#xff0c;作业截图需包括 gradio 界面问题和茴香豆回答&#xff09;。知识库可根据根据自己工作、学习或感兴趣的内…

【复旦微FM33 MCU 外设开发指南】外设篇1——GPIO

前言 本系列基于复旦微FM33系列单片机的DataSheet编写&#xff0c;旨在提供一些开发指南。 本文章及本系列其他文章将持续更新&#xff0c;本系列其它文章请跳转【复旦微FM33 MCU 外设开发指南】总集篇 本文章最后更新日期&#xff1a;2024/08/25 文章目录 前言GPIO工作时钟…

PowerShell 一键配置IP

前言 实现一键更改Windows 网卡IP,子网,网关,dns,重命名网卡,获取的接口索引名称,获取接口名称,刷新组策略,刷新系统,脚本可重复配置,,以下环境我是两个网卡配置IP 前提条件 开启wmi,配置网卡,参考 创建更改网卡脚本 实验环境,两个网卡,清除默认,重命名(配置)…

程序员的双重挑战:高效编码与持续学习

在快速变化的编程世界中&#xff0c;程序员们面临着双重挑战&#xff1a;一方面要高效完成日常编码任务&#xff0c;另一方面需要不断学习新技术和深化专业知识&#xff0c;以适应日益复杂的项目需求。如何在这两者之间找到平衡&#xff0c;是许多程序员都感到困惑的问题。本文…

韩国云主机玩游戏性能怎么样

韩国云主机玩游戏性能怎么样&#xff1f;韩国云主机作为高性能的计算服务&#xff0c;为全球游戏玩家提供了一种新的游戏体验方式。用户所关注的韩国云主机在游戏性能方面的表现&#xff0c;可以从多个维度进行详细评估。下面将具体分析韩国云主机用于玩游戏的性能特点&#xf…

卸载通过pip安装的所有Python包的详细指南

卸载所有通过pip安装的Python包的方法总结&#xff08;Windows系统&#xff09; 方法 1: 使用 pip freeze 和 requirements.txt 步骤: 导出依赖到requirements.txt文件: pip freeze > requirements.txt这个命令会将当前环境中所有已安装的Python包及其版本号输出到requirem…

DeepKE-LLM框架介绍及简单使用

简介 DeepKE 作为一个全面的知识提取工具包&#xff0c;不仅在构建知识图谱方面展现出卓越性能&#xff0c;还针对多种场景&#xff08;如cnSchema、低资源环境、文档级处理和多模态分析&#xff09;提供了强大支持。它能高效提取实体、关系和属性&#xff0c;并为初学者提供了…

论文降重,Kimi如何助你一臂之力?

在学术研究的浪潮中&#xff0c;原创性和学术诚信是每位研究者必须坚守的灯塔。然而&#xff0c;随着研究领域的不断扩展和深化&#xff0c;论文写作过程中难免会遇到内容重复的问题&#xff0c;这不仅影响论文的独创性&#xff0c;也对学术声誉构成挑战。本文将介绍Kimi的核心…

幂等方案分析

幂等性介绍 幂等是一个数学上的概念 f(n) 1^ n 无论n为多少 f(n)的值永远为1 在我们的编程中定义为: 无论对某一个资源操作了多少次&#xff0c;其影响都应是相同的。 以SQL为例&#xff1a; select * from table where id1。此SQL无论执行多少次&#xff0c;虽然结果有可…

prometheus入门(简单使用)

架构与组成 先上一张官网的架构图&#xff1a; Prometheus的构成&#xff1a; The Prometheus ecosystem consists of multiple components, many of which are optional: the main Prometheus server which scrapes and stores time series data&#xff08;Prometheus serv…

基本数据类型及命令

String String 是Redis最基本的类型&#xff0c;Redis所有的数据结构都是以唯一的key字符串作为名称&#xff0c;然后通过这个唯一的key值获取相应的value数据。不同的类型的数据结构差异就在于value的结构不同。 String类型是二进制安全的。意思是string可以包含任何数据&…

三大低速总线之SPI

三大低速总线之SPI 文章目录 三大低速总线之SPI前言一、基本概念1.1 物理层1.2 协议1.3 传输过程 二、实战FLASH芯片2.1 SPI-Flash 全擦除实验2.1.1 程序设计 2.2 SPI-Flash 扇区擦除实验2.2.1 整体设计 2.3 SPI-Flash 页写实验2.3.1 操作时序 2.4 SPI_Flash 读数据实验2.4.1 时…

rasterization

在cityfm中有说道 Raster is a rasterization function that maps a closed polygon, represented as an ordered list of nodes, to a binary image 要在Python中实现一个将多边形映射到二值图像的光栅化函数&#xff0c;你可以按照以下步骤进行&#xff1a; 创建一个函数&…

网络安全 day3 --- WAFCDNOSS反向代理正向代理负载均衡

WAF&#xff08;网页防火墙&#xff09; 原理&#xff1a;Web应用防火墙&#xff0c;旨在提供保护 影响&#xff1a;常规Web安全测试手段会受到拦截 实验&#xff1a;Windows2022 IIS D盾 作用是防范网络安全入侵。 如下图&#xff0c;我们在网站目录下放一个简单的一句话木马…