【Hadoop】DataNode 数据盘进行磁盘DiskBalancer

news2024/11/14 15:00:49

目录

​一、问题原因

二、DiskBalancer介绍

三、DiskBalancer实战

3.1 生成plan json文件

3.2 执行plan json文件


一、问题原因


阿里云事件磁盘损坏后,使用新磁盘进行了替换,或者当发现HDFS容量不够需要扩展空间时,由运维管理人员陆陆续续为 datanode 节点增加了多块磁盘,并将这些磁盘挂载到了不同目录比如 /mnt/disk1, /mnt/disk2;此后由大数据系统管理人员配置 HDFS 使用了这些新的磁盘上的目录 (比如配置 dfs.datanode.data.dir=/mnt/disk1/dfs/data,/mnt/disk2/dfs/data,/mnt/disk3/dfs/data),并重启了 hdfs 服务使配置生效。

但是hdfs经过上述配置更改并重启生效之后,只有新增加的HDFS文件才会存储在新增加的目录下,已经存在的HDFS历史文件,其对应的底层数据是不会从原有目录移动到新增目录的。

即使使用了命令 hdfs balancer 来在集群内重新分布 HDFS 文件,由于该命令只会在不同host之间移动数据,也就是主要做的是 host 节点级别的负载均衡,上述单节点中多磁盘之间的负载不均衡问题,也不会由太大缓解。


二、DiskBalancer介绍


DiskBalancer是一个命令行工具,可在DataNode的所有磁盘上均匀分发数据。 此工具对给定的DataNode进行操作,并将块从一个磁盘移动到当前DataNode的另一个磁盘。DiskBalancer通过创建计划并继续在DataNode上执行该计划。 计划是一组陈述,描述了两个磁盘之间应该移动的数据。 计划由多个移动步骤组成。 移动步骤具有源磁盘,目标磁盘和移动的字节数。 可以针对运行数据节点执行计划。DiskBalancer是一个相对独立的线程,它可以对数据的复制进行限流。 集群默认是启用DiskBalancer的, 不启用DiskBalancer 需要在hdfs-site.xml中将dfs.disk.balancer.enabled设置为false。


三、DiskBalancer实战


需求:磁盘 /disk2是新挂的 ,需要将一台服务器的 4块磁盘 做数据平衡。

3.1 生成plan json文件


首先要确保DataNode的配置dfs.disk.balancer.enabled为true

hdfs-site.xml配置

<property>
   <name>dfs.disk.balancer.enabled</name>
   <value>true</value>
</property>

通过-plan生成plan:

hdfs diskbalancer -plan winner-reid-datanode07 -maxerror 5  -bandwidth 50 -thresholdPercentage 5

参数介绍:

  • -bandwidth 平衡带宽,单位MB/s,默认10
  • -maxerror 错误重试次数,默认5
  • -thresholdPercentage 平衡阈值,默认10,即磁盘占用率大小相差<=10%则认为是平衡的
  • -out 执行计划json输出路径,注意为hdfs路径,且路径需要为空

生成文件位于 HDFS

查看生成的winner-reid-datanode07.plan.json 文件内容

{
	"volumeSetPlans": [{
		"@class": "org.apache.hadoop.hdfs.server.diskbalancer.planner.MoveStep",
		"sourceVolume": {
			"path": "/disk4/",
			"capacity": 5853616278016,
			"storageType": "DISK",
			"used": 1886035164776,
			"reserved": 0,
			"uuid": "DS-4073f74c-51fb-4aa1-8088-e5fce28913d4",
			"failed": false,
			"volumeDataDensity": 9.999999999998899E-5,
			"skip": false,
			"transient": false,
			"readOnly": false
		},
		"destinationVolume": {
			"path": "/disk2/",
			"capacity": 5853616278016,
			"storageType": "DISK",
			"used": 1366782103125,
			"reserved": 0,
			"uuid": "DS-afbaacc6-adfd-4248-ab65-d83ae998ef0b",
			"failed": false,
			"volumeDataDensity": 0.08879999999999999,
			"skip": false,
			"transient": false,
			"readOnly": false
		},
		"idealStorage": 0.3222,
		"bytesToMove": 537372946394,
		"volumeSetID": "234e991a-d7b1-4398-b84d-f665984fc40c",
		"maxDiskErrors": 5,
		"bandwidth": 5
	}, {
		"@class": "org.apache.hadoop.hdfs.server.diskbalancer.planner.MoveStep",
		"sourceVolume": {
			"path": "/disk1/",
			"capacity": 5853616278016,
			"storageType": "DISK",
			"used": 1886035164776,
			"reserved": 0,
			"uuid": "DS-aaa27e2a-27bd-4d2f-9465-0760826404e1",
			"failed": false,
			"volumeDataDensity": 9.999999999998899E-5,
			"skip": false,
			"transient": false,
			"readOnly": false
		},
		"destinationVolume": {
			"path": "/disk2/",
			"capacity": 5853616278016,
			"storageType": "DISK",
			"used": 1366782103125,
			"reserved": 0,
			"uuid": "DS-afbaacc6-adfd-4248-ab65-d83ae998ef0b",
			"failed": false,
			"volumeDataDensity": 0.08879999999999999,
			"skip": false,
			"transient": false,
			"readOnly": false
		},
		"idealStorage": 0.3222,
		"bytesToMove": 524120732056,
		"volumeSetID": "234e991a-d7b1-4398-b84d-f665984fc40c",
		"maxDiskErrors": 5,
		"bandwidth": 5
	}],
	"nodeName": "winner-reid-datanode07",
	"nodeUUID": "e6f30cb6-2bf5-4eb9-a5ab-4eb2b39ab3d7",
	"port": 8010,
	"timeStamp": 1715934031482
}

3.2 执行plan json文件


通过-execute执行plan阶段生成的plan文件:

hdfs diskbalancer -execute  /system/diskbalancer/2024-May-17-16-00-04/winner-reid-datanode07.plan.json

查询指定DataNode磁盘balance的状况

  hdfs diskbalancer -query winner-reid-datanode07

看到PLAN_UNDER_PROGRESS 表示正在平衡,PLAN_DONE 表示完成

如下开始disk banlance

如下已完成disk banlance

取消指定DataNode的磁盘均衡

hdfs diskbalancer -cancel  xx.json

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1702493.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CSS 【实战】 “四合院”布局

效果预览 页面要求&#xff1a; 上下固定高度左右固定宽度中间区域自适应宽高整个页面内容撑满全屏&#xff0c;没有滚动条 技术要点 使用 html5 语义化标签 header 网页内的标题区域nav 导航区域aside 侧边栏footer 页脚区域section 内容分区article 文章区域 清除浏览器默…

数据结构算法-堆(Heap)和优先队列

堆的概念 堆&#xff08;heap)是计算机科学中一类特殊的数据结构的统称。堆通常是一个可以被看做一棵树的数组对象。堆总是满足下列性质&#xff1a; always greater than its child node/s and the key of the root node is the largest among all other nodes. This property…

XSKY CTO 在英特尔存储技术峰会的演讲:LLM 存储,架构至关重要

5 月 17 日&#xff0c;英特尔存储技术峰会在北京顺利举办。作为英特尔长期的合作伙伴&#xff0c;星辰天合受邀参加了此次峰会。星辰天合 CTO 王豪迈作为特邀嘉宾之一&#xff0c;作了主题为《LLM 存储&#xff1a;架构至关重要》的演讲&#xff0c;分享了大语言模型&#xff…

设计模式15——享元模式

写文章的初心主要是用来帮助自己快速的回忆这个模式该怎么用&#xff0c;主要是下面的UML图可以起到大作用&#xff0c;在你学习过一遍以后可能会遗忘&#xff0c;忘记了不要紧&#xff0c;只要看一眼UML图就能想起来了。同时也请大家多多指教。 享元模式&#xff08;Flyweigh…

开源金融AI代理平台FinRobot;支持多翻译引擎和模式的高效浏览器翻译开源插件;使用自然语言控制生成视频的通用世界模型

✨ 1: finrobot FinRobot 是一个基于大语言模型的开源金融AI代理平台&#xff0c;适用于多种金融应用。 FinRobot是一个综合性的AI代理平台&#xff0c;超越了原有的FinGPT&#xff0c;旨在满足金融行业的多元化需求。它集成了各种AI技术&#xff0c;不仅仅局限于语言模型&am…

VSCode中snippets(代码模板)的使用

首先安装Vue VSCode Snippets&#xff0c;在组件库中搜索并安装。 然后打开插件文件夹 文件夹名是 "作者名.vscode-插件名-版本号"组成的. C:\Users\Administrator\.vscode\extensions\sdras.vue-vscode-snippets-3.1.1\snippets 打开vue.json "prefix"…

C++系列-定位new表达式(placement-new)

&#x1f308;个人主页&#xff1a;羽晨同学 &#x1f4ab;个人格言:“成为自己未来的主人~” 我们先来强调一个很关键的问题&#xff0c;那就是在new和delete中的一一对应的问题&#xff0c; 我们先来看一段代码&#xff1a; #include<iostream> using namespace …

K8s的CRI机制是什么?

1. 概述 进入 K8s 的世界&#xff0c;会发现有很多方便扩展的 Interface&#xff0c;包括 CRI, CSI, CNI 等&#xff0c;将这些接口抽象出来&#xff0c;是为了更好的提供开放、扩展、规范等能力。 K8s CRI(Container Runtime Interface) 是 K8s 定义的一组与容器运行时进行交…

Web3 游戏周报(5.19 - 5.25)

【5.19 - 5.25】Web3 游戏行业动态&#xff1a; Arbitrum 已开启 “2 亿枚 ARB 游戏催化剂计划”的提案投票。 STEPN 在官方 X 宣布将推出全新社交健身应用 STEPN GO。 Oasys 正式推出《足球小将》漫改 Web3 游戏《Captain Tsubasa-RIVALS-》。 Gala Games &#xff1a;已销…

8.Redis之hash类型

1.hash类型的基本介绍 哈希表[之前学过的所有数据结构中,最最重要的] 1.日常开发中,出场频率非常高. 2.面试中,非常重要的考点, Redis 自身已经是键值对结构了Redis 自身的键值对就是通过 哈希 的方式来组织的 把 key 这一层组织完成之后, 到了 value 这一层~~ value 的其中…

C++容器之向量(std::vector)

目录 1 概述2 使用实例3 接口使用3.1 construct3.2 assigns3.3 iterators3.4 capacity3.5 rezize3.6 reserve3.7 shrink_to_fit3.8 access3.9 assign3.10 push_back3.11 pop_back3.12 insert3.13 erase3.14 swap3.15 clear3.16 emplace3.17 emplace_back3.18 get_allocator1 概…

智慧树下做游戏

游戏开发工程师致力于游戏总体设计 &#xff0c;负责游戏开发工具和运营维护工具的设计与开发 &#xff0c;并配合主程序完成游戏架构及各大功能的设计、开发、调试和其他技术支持 就业方向&#xff1a; 一般有客户端游戏开发和服务器游戏开发 客户端开发&#xff1a; 主要负…

【漏洞复现】Gradio component_server 任意文件读取漏洞(CVE-2024-1561)

0x01 产品简介 Gradi0是一个开源的 Python库&#xff0c;用于创建机器学习模型的交互式界面。它使得展示和测试模型变得简单快捷&#xff0c;无需深入了解复杂的前端技术。广泛应用于数据科学、教育、研究和软件开发领域&#xff0c;尤其适合于快速原型设计、模型验证、演示和…

在没有足够测试数据的请情况下,如何验证前端页面的分页展示和渲染情况

问题描述&#xff1a;测试过程中&#xff0c;为了验证前端页面的展示效果及分页组件的展示情况&#xff0c;测试人员一般都会选择在数据库造数据&#xff0c;但遇到表格管理逻辑特别复杂的情况&#xff0c;可能会耗费大量的时间&#xff0c;此时我们可以选择使用工具模拟返回值…

关于kube-prometheus拉取镜像的问题

由于国内网络环境的问题想通过kube-prometheus配置监控但是拉取镜像会报错 包已经打好下载好镜像就可以使用&#xff1a; https://download.csdn.net/download/m0_59744084/89349768 kubectl get pod -n monitoring 问题&#xff1a;"Failed to pull image "regist…

IC解析之SN74HCS595QPWRQ1

目录 1.主要参数2. 接口定义3. 工作原理分析移位寄存器器的作用SN74HCS595QPWRQ1工作原理 4.总结 1.主要参数 2. 接口定义 其中QH‘为串行输出接口&#xff0c;QA~QH为并行输出接口&#xff0c;SER为串行输入接口&#xff0c;其他未移位以及储存控制引脚 3. 工作原理分析 移位…

26计算机操作系统408考研--操作系统设备管理篇章(五)

文章目录 一、设备是什么&#xff1f;设备管理目标和任务I/O设备分类 二、I/O系统控制方式程序直接控制方式中断控制方式DMA控制方式通道控制方式 I/O软件的组成I/O软件设计目标和原则I/O软件结构设备驱动程序设备无关软件用户层软件用户层的I/O软件 具有通道的设备管理通 道通…

R绘图学习笔记

1、R语言绘制海岸线边界 参考&#xff1a; Drawing beautiful maps programmatically with R, sf and ggplot2 — Part 1: Basics 使用R绘制世界地图及纬度统计图 Drawing maps with R. A basic tutorial&#xff1a;https://dr2blog.hcommons.org/2020/03/23/drawing-maps-wit…

第 52 期:MySQL 半同步复制频繁报错

社区王牌专栏《一问一实验&#xff1a;AI 版》全新改版归来&#xff0c;得到了新老读者们的关注。其中不乏对 ChatDBA 感兴趣的读者前来咨询&#xff0c;表达了想试用体验 ChatDBA 的意愿&#xff0c;对此我们表示感谢 &#x1f91f;。 目前&#xff0c;ChatDBA 还在最后的准备…

keepalived交叉编译

前言 Keepalived可以实现对服务器的健康检查&#xff0c;当主服务器出现故障时&#xff0c;自动将服务切换到备份服务器上&#xff0c;确保服务的连续性&#xff0c;避免单点故障。它还可以管理一个虚拟 IP 地址&#xff0c;在主备服务器之间进行灵活切换&#xff0c;对外提供…