HBase入门:运行机制

news2025/1/11 10:14:02

文章目录

  • HBase 系统架构
    • 客户端
    • ZooKeeper 服务器
    • Master 主服务器
    • Region 服务器
  • Region 服务器工作原理
    • 用户读写数据的过程
    • 缓存的刷新
    • StoreFile合并
  • Store 的工作原理
  • HLog 的工作原理

HBase 系统架构

  • HBase 的系统架构包括客户端、ZooKeeper 服务器、Master 主服务器、Region服务器
  • HBase 一般采用 HDFS 作为底层数据存储系统
    在这里插入图片描述

客户端

  • 客户端包含访问 HBase 的接口,同时在缓存中维护着已经访问过的 Region 位置信息,用来加快后续数据访问过程。HBase 客户端使用 HBase 的 RPC 机制与 Master 和 Region 服务器进行通信。
  • 对于管理类操作,客户端与 Master 进行 RPC;而对于数据读写类操作,客户端会与Region 服务器进行 RPC。

ZooKeeper 服务器

  • HBase 服务器集群包含一个 Master 主服务器和多个 Region 服务器。Master是HBase 集群的“总管”,它必须知道 Region 服务器的状态。ZooKeeper 服务器就可以轻松做到这一点,每个 Region 服务器都需要到 ZooKeeper 服务器中进行注册,ZooKeeper 服务器会实时监控每个 Region 服务器的状态并通知 Master 主服务器,这样,Master 主服务器就可以通过 ZooKeeper服务器随时感知到各个 Region 服务器的工作状态。
  • ZooKeeper 服务器并非一台单一的机器,可能是由多台机器构成的集群来提供稳定可靠的协同服务。ZooKeeper 服务器能够很容易地实现集群管理的功能,如果有多台服务器组成一个服务器集群,那么必须有一个Master知道当前集群中每台机器的服务状态,一旦某台机器不能提供服务,集群中其他机器必须知道,从而做出调整、重新分配服务策略。同样,当增加一台或多台服务器,也必须让Master知道。
  • ZooKeeper 服务器不仅能够帮助维护当前的集群中机器的服务状态,而且能够帮助选出一个“总管”,让总管来管理集群。HBase 中可以启动多个 Master,但是 ZooKeeper 服务器可以帮助选举出一个 Master 主服务器作为集群的总管,并保证在任何时刻总有唯一一个 Master 主服务器在运行,避免 Master 主服务器的“单点失效”问题。
  • ZooKeeper 服务器中保存-ROOT-表的地址和 Master 主服务器的地址,客户端可以通过访问ZooKeeper 服务器获得-ROOT-表的地址,并最终通过“三级寻址”找到所需的数据。ZooKeeper服务器中还存储 HBase的模式,包括 Hbase的表,每个表的列族。

Master 主服务器

Master 主服务器主要负责表和 Region 的管理工作。

  • 管理用户对表的增加、删除、修改、查询
  • 实现不同 Region 服务器之间的负载均衡
  • 在 Region 分裂或合并后,负责重新调整 Region 的分布
  • 对发生故障失效的 Region服务器上的Region 进行迁移

  • 客户端访问 HBase 上数据的过程不需要 Master 主服务器的参与,客户端访问ZooKeeper 服务器获取-ROOT-表的地址,并最终到相应的 Region 服务器进行数据读写,Master主服务器仅维护着表和 Region 的元数据信息,因此负载很低。

  • 一个 Region 只能分配给一个 Region 服务器。Master 主服务器维护当前可用的Region 服务器列表,以及Reginon的分布情况。当存在未被分配的 Region,并且有一个 Region 服务器上有可用空间时,Master 主服务器就给这个 Region 服务器发送一个请求,把该 Region 分配给它。Region 服务器接收请求并完成数据加载后,就开始负责管理该 Region 对象,并对外提供服务。

Region 服务器

  • Region 服务器是 HBase 中最核心的模块,负责维护分配给自己的 Region,并响应用户的读写请求。
  • HBase一般采用 HDFS 作为底层存储的文件系统,因此 Region 服务器需要向HDFS 中读写数据。采用 HDFS 作为底层存储系统,可以为 HBase 提供可靠稳定的数据存储,HBase自身并不具备数据复制和维护数据副本的功能,HDFS可以为HBase提供这些支持。

Region 服务器工作原理

  • Region 服务器内部管理一系列 Region 对象和一个 HLog 文件。HLog是磁盘上面的记录文件,它记录着所有的更新操作。每个 Region 对象由多个 Store 组成,每个 Store 对应表中的一个列族的存储。每个 Store 又包含一个 MemStore 和若干个 StoreFile。其中,MemStore 是在内存中的缓存,保存最近更新的数据;StoreFile 是磁盘中的文件,文件是 B 树结构的,方便快速读取。
    在这里插入图片描述

用户读写数据的过程

  • 当用户写入数据时,会被分配到相应的 Region 服务器去执行操作。用户数据首先被写入MemStore 和 HLog 中,当操作写入 HLog 之后,commit()调用才会将其返回给客户端。当用户读取数据时,Region 服务器会首先访问 MemStore 缓存,如果数据不在缓存中,才会到磁盘上面的 StoreFile 中去寻找。

缓存的刷新

  • MemStore 缓存的容量有限,系统会周期性地调用 Region.flushcache()把 MemStore 缓存里面的内容写到磁盘的 StoreFile 文件中,清空缓存,并在 HLog 文件中写入一个标记,用来表示缓存中的内容已经被写入 StoreFile 文件中。每次缓存刷新操作都会在磁盘上生成一个新的 StoreFile 文件,因此每个 Store 会包含多个 StoreFile 文件
  • 每个Region服务器都有一个自己的 HLog 文件。在启动的时候,每个Region服务器会检查自己的 HLog 文件,确认最近一次执行缓存刷新操作之后是否发生新的写入操作。如果没有更新,说明所有数据已经被永久保存到磁盘的 StoreFile 文件中;如果发现更新,就先把这些更新写入 MemStore,然后刷新缓存,写入磁盘的StoreFile文件中。最后删除旧的 HLog 文件,并开始为用户提供数据访问服务。

StoreFile合并

  • 每次 MemStore 缓存的刷新操作都会在磁盘上生成一个新的 StoreFile 文件,系统中的每个 Store 可能存在多个 StoreFile 文件。当需要访问某个 Store 中的某个值时,必须查找所有StoreFile文件,非常耗费时间。因此,为了减少查找时间,系统一般会调用 Store.compact()把多个StoreFile文件合并成一个大文件。由于合并操作比较耗费资源,因此只会在StoreFile文件的数量达到一个阈值的时候才会触发合并操作。

Store 的工作原理

  • Region 服务器是 HBase 的核心模块,而 Store 是 Region 服务器的核心。每个 Store 对应了表中的一个列族的存储。每个 Store 包含一个 MemStore 缓存和若干个 StoreFile 文件。

  • MemStore 是排序的内存缓冲区,当用户写入数据,系统首先把数据放入 MemStore 缓存,当 MemStore 缓存满时,就会刷新到磁盘中的一个 StoreFile 文件中。随着 StoreFile 文件数量的不断增加,当达到事先设定的数量时,就会触发文件合并操作,多个 StoreFile 文件会被合并成一个大的 StoreFile 文件。当多个 StoreFile 文件合并后,会逐步形成越来越大的 StoreFile 文件,当单个StoreFile 文件大小超过一定阈值时,就会触发文件分裂操作。同时,当前的一个父 Region 会被分裂成两个子 Region,父 Region 会下线,新分裂出的两个子 Region 会被 Master 主服务器分配到相应的 Region 服务器上
    在这里插入图片描述

HLog 的工作原理

  • HBase 系统为每个 Region 服务器配置了一个 HLog 文件,它是一种预写式日志(Write Ahead Log),也就是说,用户更新数据必须首先被记入日志才能写入 MemStore 缓存,并且直到 MemStore缓存内容对应的日志已经被写入磁盘之后,该缓存内容才会被刷新写入磁盘。

  • ZooKeeper 服务器会实时监测每个 Region 服务器的状态,当某个 Region 服务器发生故障时,ZooKeeper 服务器会通知 Master 主服务器。Master 主服务器首先会处理该故障 Region 服务器上面遗留的 HLog 文件,由于一个 Region 服务器上面可能会维护多个 Region 对象,这些 Region 对象共用一个 HLog 文件,因此遗留的 HLog 文件中包含来自多个 Region 对象的日志记录。

  • 系统根据每条日志记录所属的 Region 对象对 HLog 数据进行拆分,分别放到相应 Region 对象的目录下,然后将失效的 Region 重新分配到可用的 Region 服务器中,并把与该 Region 对象相关的HLog 日志记录也发送给相应的 Region 服务器。Region 服务器领取分配给自己的 Region 对象以及与之相关的 HLog 日志记录以后,会重新做一遍日志记录中的各种操作,把日志记录中的数据写入 MemStore 缓存,然后刷新到磁盘的 StoreFile 文件中,完成数据恢复。

  • HBase 系统中,每个 Region 服务器只需维护一个 HLog 文件,所有Region 对象共用一个 HLog,而不是每个 Region 对象使用一个 HLog。在这种 Region 对象共用一个 HLog 的方式中,多个 Region 对象的更新操作所发生的日志修改,只需要不断把日志记录追加到单个日志文件中,而不需要同时打开、写入多个日志文件中,可以减少磁盘寻址次数,提高对表的写操作性能。这种方式的缺点:如果一个 Region 服务器发生故障,为恢复其上的Region 对象,需要将 Region 服务器上的 HLog 按照其所属的 Region 对象进行拆分,然后分发到其他 Region 服务器上执行恢复操作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1414814.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue深入学习4—指令和生命周期

1.Vue是怎么识别 v- 指令的? 首先将HTML结构解析成属性列表,存入到数组中,接着遍历数组中的每一个节点,获取到不同指令对应的方法。 // 将HTML看作真正的属性列表 var ndoeAttrs node.attributes; var self this; // 类数组对象…

C++核心编程:C++ 中的引用 笔记

2.引用 2.1 引用的基本使用 - 作用&#xff1a;给变量起别名 - 语法&#xff1a;数据类型 &别名 原名 #include<iostream> using namespace std; int main() {// 引用基本语法// 数据类型 &别名 原名int a 10;// 创建引用int &ref_a a;cout<<&qu…

RTP工具改进(五)--使用qt

前篇 第四篇 RTP工具改进(四) - rtmp协议推送 前面使用的工具一直为mfc&#xff0c;今天将使用qt 来做界面&#xff0c;使用qt 来进行程序和协议的编写&#xff0c;qt部分目前还不包括rtp ps流和rtmp&#xff0c;暂时只有rtp 直接传输&#xff0c;关于rtmp协议和ps流协议&…

josef约瑟 电流继电器JL8-12 0.02~9.99A DC220V 板内安装

JL-8B电流继电器 系列型号 JL-8B/11电流继电器&#xff1b;JL-8B/12电流继电器&#xff1b; JL-8B/13电流继电器&#xff1b;JL-8B/14电流继电器&#xff1b; JL-8B/21电流继电器&#xff1b;JL-8B/22电流继电器&#xff1b; JL-8B/23电流继电器&#xff1b;JL-8B/24电流继电…

力扣面试题 16.06. 最小差

Problem: 面试题 16.06. 最小差 文章目录 题目描述思路即解法复杂度Code 题目描述 思路即解法 注意本题目的数据范围!!! 1.对数组a与数组b进行排序;获取a与b的数组长度aLen,bLen&#xff0c;定义一个long类型的变量min&#xff1b; 2.分别让两个指针i&#xff0c;j指向数组的开…

【STM32】STM32学习笔记-SPI通信协议(36)

00. 目录 文章目录 00. 目录01. SPI简介02. SPI特征03. SPI通信04. 硬件电路05. 移位示意图06. SPI时序基本单元07. SPI时序08. 附录 01. SPI简介 在大容量产品和互联型产品上&#xff0c;SPI接口可以配置为支持SPI协议或者支持I 2 S音频协议。SPI接口默认工作在SPI方式&#…

【STM32】STM32学习笔记-Unix时间戳(41)

00. 目录 文章目录 00. 目录01. Unix时间戳02. UTC/GMT03. 时间戳转换04. C 标准库 <time.h>05. 时间相关函数示例5.1 time函数5.2 gmtime函数5.3 localtime函数5.4 mktime函数5.5 ctime函数5.6 asctime函数5.7 strftime函数 06. 预留07. 附录 01. Unix时间戳 •Unix 时…

SU-03T语音控制模块详解

当我们谈到智能家居时&#xff0c;经常会通过语音来控制我们的家电&#xff0c;将「懒」发挥到极致。语音模块结合了语音识别和控制技术&#xff0c;使得我们可以通过简单的口令来轻松操控灯光等设备&#xff0c;实现更智能化的生活体验。 在本文中&#xff0c;我们将探讨如何…

2024年最新版快手直播推流码获取工具

快手平台的直播推流码在2023年9月份之前可以通过快手云直播平台获取&#xff0c;但是在此之后快手平台关闭了个人用户的直播推流码功能&#xff0c;导致很多主播都不能再使用OBS或者第三方直播编码器与直播软件进行推流直播。 目前&#xff0c;我们经过多年研发&#xff0c;开…

hive面试题

0. 思维导图 1. 简述Hive♥♥ 我理解的&#xff0c;hive就是一款构建数据仓库的工具&#xff0c;它可以就结构化的数据映射为一张表&#xff0c;并且可以通过SQL语句进行查询分析。本质上是将SQL转换为MapReduce或者spark来进行计算&#xff0c;数据是存储在hdfs上&#xff0c;…

【常用工具】7-Zip 解/压缩软件——基本使用方法

在实际日常工作或项目中&#xff0c;经常会遇到需要在window操作系统上压缩文件&#xff0c;在Linux操作系统上解压缩的场景&#xff0c;一款实用的压缩软件迫在眉睫&#xff0c;经过实际使用总结&#xff0c;7-Zip可以很好的解决很多压缩和解压缩问题&#xff0c;其基本使用方…

FreeRtos Queue (二)

本篇主要讲Queue的prvLockQueue和prvUnlockQueue 一、前言 1、prvLockQueue和prvUnlockQueue是FreeRtos内核函数&#xff0c;只能供内核调用&#xff0c;应用层无法call。 2、cTxLock和cRxLock为中断上锁计数器&#xff0c;cTxLock记录了队列上锁期间在中断里入队的数量&#…

CodeGPT--(Visual )

GitCode - 开发者的代码家园 gitcode.com/ inscode.csdn.net/liujiaping/java_1706242128563/edit?openFileMain.java&editTypelite marketplace.visualstudio.com/items?itemNameCSDN.csdn-codegpt&spm1018.2226.3001.9836&extra%5Butm_source%5Dvip_chatgpt_c…

利用aiohttp异步爬虫实现网站数据高效抓取

前言 大数据时代&#xff0c;网站数据的高效抓取对于众多应用程序和服务来说至关重要。传统的同步爬虫技术在面对大规模数据抓取时往往效率低下&#xff0c;而异步爬虫技术的出现为解决这一问题提供了新的思路。本文将介绍如何利用aiohttp异步爬虫技术实现网站数据抓取&#x…

燃烧的指针(三)

&#x1f308;个人主页&#xff1a;小田爱学编程 &#x1f525; 系列专栏&#xff1a;c语言从基础到进阶 &#x1f3c6;&#x1f3c6;关注博主&#xff0c;随时获取更多关于c语言的优质内容&#xff01;&#x1f3c6;&#x1f3c6; &#x1f600;欢迎来到小田代码世界~ &#x…

DMA 和 零拷贝技术 到 网络大文件传输优化

文章目录 DMA 控制器的发展无 DMA 控制器 IO 过程DMA 控制器 传统文件传输性能有多糟糕&#xff1f;如何优化文件传输性能零拷贝技术mmap writesendfileSG-DMA&#xff08;The Scatter-Gather Direct Memory Access&#xff09; 零拷贝技术的应用 大文件传输应该用什么方式Pag…

C# 使用 SapNwRfc 调用SAP RFC

好久没写过相关代码&#xff0c;今天又来贡献一篇 C# 使用 SapNwRfc 调用SAP RFC。用VS2022的WINFORM应用程序&#xff0c;使用NuGet中的SapNwRfc类库&#xff0c;call SAP系统中的RFC&#xff0c;传入7个参数&#xff0c;得到RFC返回的2张表的数据。 一、VS2022中新建WINFORM…

三数之和----双指针

https://leetcode.cn/problems/3sum/description/?envType=study-plan-v2&envId=top-100-liked “三数之和”在某些人的口中被叫做“程序员之梦破碎的地方”。既然如此,这个题肯定是有难度的,尤其是其中的细节,很多,很细。 其中nums代表给定的数组,numsSize代表给定数…

短视频矩阵系统软件(源头独立开发)技术php7.40版本开发

短视频矩阵功能构建&#xff1a; 1. 关键词批量比距生成&#xff08;区域词行业词产品词&#xff09; 2. 多平台多账号一站式运营管理 3. 视频内容批量复制生成 4. 视频内容批量多平台投放 5. 视频数据分析及粉丝画像分布统计 6. 智能客服响应 7. 智能私域化线索收集 功…

第七篇【传奇开心果】beeware的toga开发移动应用示例:gui工具包介绍和常用组件使用方法示例

传奇开心果博文系列 系列博文目录beeware的toga开发移动应用示例系列博文目录一、beeware和toga介绍二、Toga常用组件使用方法示例三、归纳总结系列博文目录 beeware的toga开发移动应用示例系列 博文目录 一、beeware和toga介绍 1.BeeWare介绍 BeeWare是一个可以让Python开…