HBase的数据模型和存储原理

news2025/1/16 6:43:39

HBase的数据模型

HBase中表的逻辑结构

Name Space(命名空间)

 类似于关系型数据库的 DatabBase 概念,每个命名空间下有多个表。HBase有两个自带的命名空间,分别是 hbase 和 default,hbase 中存放的是 HBase 内置的表default 表是用户默认使用的命名空间

Region(子表)

类似于一个表的子表,表中的一部分。HBase中的一个表被拆分成多个region。HBase 定义表时只需要声明列族即不需要声明具体的列。这意味着,往 HBase 写入数据时,字段可以动态、按需指定。因此,和关系型数据库相比,HBase 能够轻松应对字段变更的场景。

RowKey(主键)

Rowkey的概念和mysql中的主键是完全一样的,HBase使用Rowkey来唯一的区分某一行的数据。在 HBase 内部,rowkey 保存为字节数组。HBase 会对表中的数据按照 rowkey 排序 (字典顺序)。三原则:散列、长度短、唯一

HBase只支持3中查询方式:

  • 基于Rowkey的单行查询
  • 基于Rowkey的范围扫描
  • 全表扫描

ColumnFamily(列族)

Hbase通过列族划分数据的存储,列族下面可以包含任意多的列,实现灵活的数据存取。就像是家族的概念,我们知道一个家族是由于很多个的家庭组成的。列族也类似,列族是由一个一个的列组成(任意多)。Hbase表的创建的时候就必须指定列族。就像关系型数据库创建的时候必须指定具体的列是一样的。
注意:Hbase的列族不是越多越好,官方推荐的是列族最好小于或者等于3。我们使用的场景一般是1个列族。

Column(列)

列就是列族下的部分,类似于家族中的每个成员

TimeStamp(时间戳)

用于标识数据的不同版本(version),每条数据写入时,如果不指定时间戳,系统会自动为其加上该字段,其值为写入 HBase 的时间。

为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担,hbase 提供了两种数据版本回收方式:

1、保存数据的最后 n 个版本

2、保存最近一段时间内的版本(设置数据的生命周期 TTL)

Cell(单元)

由{rowkey, column Family:column Qualifier, time Stamp} 唯一确定的单元。cell 中的数
据是没有类型的,全部是字节码形式存贮。 

HBase的物理结构

Hbase的存储原理

LSM的原理

        就是将一个大的B(B+)树拆分成N棵小树数据首先写入内存中(有序),随着数据写入越来越多,内存中的数据会被flush到磁盘中形成一个文件;在读取数据时,则需要合并磁盘中历史数据和内存中最近修改的操作后返回

  • 1、数据是顺序写入:因此LSM的写入性能非常高
  • 2、定时将磁盘中的多个文件(小树)进行合并:优化读性能

Hbase的存储介绍

        HBase在存储上是基于LSM树实现的。在HBase的实现中,内存中的数据则是对应于MemStore,而磁盘中的数据则对应于StoreFile(HFile实现)。当MemStore写满后会Flush到一个HFile中。随着HFile文件的不断增多,Region的读性能就会受到影响(IOPS增加)。因此HBase的Region Server会定期进行Compaction操作,将多个HFile合并为一个大的有序的HFile

HBase的架构

 Client

        客户端,访问用户数据前需要首先访问 ZooKeeper,找到-ROOT-表的 Region 所在的位置,然后访问-ROOT-表,接着访问.META.表,最后才能找到用户数据的位置去访问,中间需要多次网络操作,不过 client 端会做 cache 缓存。

.META.表:记录了用户所有表拆分出来的的 Region 映射信息,.META.可以有多个 Regoin。

-ROOT-表:记录了.META.表的 Region 信息,-ROOT-只有一个 Region,无论如何不会分裂。

ZooKeeper

  •  ZooKeeper 为 HBase 提供 Failover 机制,选举 HMaster,避免单点HMaster 单点故障问题。
  •  存储所有 Region 的寻址入口:-ROOT-表在哪台服务器上。-ROOT-这张表的位置信息。
  •  实时监控 RegionServer 的状态,将 RegionServer 的上线和下线信息实时通知给 Master。
  •  存储 HBase 的 Schema,包括有哪些 Table,每个 Table 有哪些 Column Family。

HMaster

  • 为 RegionServer 分配 Region。
  • 负责 RegionServer 的负载均衡。
  • 发现失效的 RegionServer 并重新分配其上的 Region。
  • HDFS 上的垃圾文件(HBase)回收。
  • 处理 Schema 更新请求(表的创建,删除,修改,列簇的增加等等)。

RegionServer

  • RegionServer 维护 Master 分配给它的 Region,处理对这些 Region 的 IO 请求。
  • RegionServer 负责 Split 在运行过程中变得过大的 Region,负责 Compact 操作。

HRegion(Hbase中分布式存储和负载均衡的最小单元

         Hbase里的一个Table 在行的方向上分割为多个HRegion。即HBase中一个表的数据会被划分成很多的HRegion,HRegion可以动态扩展并且HBase保证HRegion的负载均衡。HRegion实际上是行键排序后的按规则分割的连续的存储空间

        一张Hbase表,可能有多个HRegion,每个HRegion达到一定大小时,进行分裂(这个大小由hbase.hregion.max.filesize指定,默认为10GB)。HRegion的拆分和转移是由HBase(HMaster)自动完成的,用户感知不到

store

        每一个region由一个或多个store组成,hbase会把一起访问的数据放在一个store里面,即为每个 ColumnFamily建一个store,如果有几个ColumnFamily,也就有几个Store一个Store由一个memStore和0或者多个StoreFile组成HBase以store的大小来判断是否需要切分region

MemStore

        memStore 是放在内存里的。保存修改的数据即keyValues。当memStore的大小达到一个阀值(默认128MB)时,memStore会被flush到文 件,即生成一个快照。目前hbase 会有一个线程来负责memStore的flush操作。

StoreFile

        memStore内存中的数据写到文件后就是StoreFile,StoreFile底层是以HFile的格式保存

HFile

        HBase中KeyValue数据的存储格式,HFile是Hadoop的二进制格式文件,实际上StoreFile就是对Hfile做了轻量级包装,即StoreFile底层就是HFile。

HLog

        WAL意为write ahead log,用来做灾难恢复使用,HLog记录数据的所有变更,一旦region server 宕机,就可以从log中进行恢复。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/72233.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

向 Excel 和 PowerPoint 添加可编辑地图的指南

本指南规定: 如何将 shapefile 转换为 svg 文件(如果后者不存在) 如何使用 Excel 重命名 svg 文件中的对象以使对象具有正确的地理名称,以及如何将这些添加为 PowerPoint 中的可编辑地图 这样做的目的是为那些没有或不知道该软件的人提供 QGIS 制图的替代方案。通过提供某个…

如何在 Linux 的 shell 里针对特定用户/组来限制某些命令的使用

0-前言 最近,业务侧有个需求,需要禁止特定用户访问linux特定的命令,如禁止用户A使用rm命令。 我们知道,在linux系统中,一切皆文件。 那么,这个问题也可以泛化为: 如何在linux里限制特定用户…

视频理解论文串讲(上)【论文精读】

文章目录1. DeepVedio【CNN 首次 for 视频理解】2. Two-Stream【双流网络】针对上面不同方向,有不同的代表工作LSTM late fusion 方向【Beyond-short-snippets】Early fusion方向【Convolutional fusion】长视频 【TSN temporal segment 分段的思想,good…

5分钟搞定Linux top命令的基本用法

在linux终端中,输入top, 按下Enter,立即进入top界面 如果你操作正确,应该会看到了下面这样的界面。 此情此景,怎么样是不是看懵逼了 不要慌,坐下来耐心听我逼逼赖赖你就会明白这一堆内容是干嘛的 下面介绍每一项分别是…

2022.12.8 半导体器件物理

作业 用迁移电流来推导出公式 电流是I,J是电流密度,W就是横截面 T是这个薄膜的厚度(我们最后可以消除掉) X就是空间位置,0就是在电极的一端 为什么要减去 因为只有大于阈值电压,才会有水流通过&#xff…

如此简单的时间复杂度计算方法:大O渐进法,你确定不进来康康

对于时间复杂度,空间复杂度,想必这个是大家在学习数据结构的初级阶段就会第一步认识的吧!!但是,对于复杂度的计算,涉及到了大O渐进法,这个方法是一个笼统的概念,所求得的结果&#x…

大一作业HTML个人网页作业(宠物狗)

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业: 【📚毕设项目精品实战案例 (10…

超算对我们的生活有着什么样的影响?

为什么各国都去抢超算的世界第一?因为它对人们的生活有着很大的影响。 一、核武器的成功研发离不开超算 对美国而言,超算的作用首先在研制核武器领域。加利福尼亚的利弗莫尔国家实验室、新墨西哥州的洛斯阿拉莫斯国家实验室、圣地亚国家实验室、橡树岭…

【分立元件】案例:一小批量生产就发现蜂鸣器一致性差?

在文章: 【分立元件】有源蜂鸣器和无源蜂鸣器有什么区别?_阳光宅男李光熠的博客-CSDN博客_有源和无源蜂鸣器 我们讲到有源蜂鸣器内部带震荡源,发声频率固定。无源内部不带震荡源,通过方波去驱动,发音频率可改变。一般…

(Java)SpringMVC学习笔记(一)

前言 今天开始学习SpringMVC,还是跟着尚硅谷视频自学,从两方面把握学习效果,一是知识点理解程度,一是实践程度,而我会将实践具体实现写以成文,用以回顾与分享 JavaWeb知识点简单回顾 JavaBean技术 为了…

订单服务------技术点及亮点

大技术 线程池来实现异步任务(亮点1) /*** 去结算确认页时封装订单确认页返回需要用的数据* return* throws ExecutionException* throws InterruptedException*/Overridepublic OrderConfirmVo confirmOrder() throws ExecutionException, Interrupted…

小红书推广笔记怎么合作?这里都给大家梳理好啦

截止 2021 年 11 月,小红书月活已达到 2 亿。其中72% 是 90 后群体,50% 的用户在一二线城市。 这些用户流量有着高消费、爱时尚、爱分享、追求品质生活的特点,所以小红书逐渐成为众多品牌方种草推广的必争之地。 小红书推广笔记怎么合作的呢…

FPGA学习笔记(十)IP核之PLL锁相环的学习总结

系列文章目录 一、FPGA学习笔记(一)入门背景、软件及时钟约束 二、FPGA学习笔记(二)Verilog语法初步学习(语法篇1) 三、FPGA学习笔记(三) 流水灯入门FPGA设计流程 四、FPGA学习笔记(四&…

pytest自动化测试框架详解+mark标记+fixture夹具

介绍 pytest是python的一种单元测试框架,同自带unittest框架类似,功能,效率更强大 特点: 1. 非常容易上手,入门简单,丰富的文档 2. 支持参数化 3. 执行测试用例的过程中,跳过某些用例&#x…

Python环境搭建

将向大家介绍如何在本地搭建Python开发环境。 Python可应用于多平台包括 Linux 和 Mac OS X。 你可以通过终端窗口输入 "python" 命令来查看本地是否已经安装Python以及Python的安装版本。 Unix (Solaris, Linux, FreeBSD, AIX, HP/UX, SunOS, IRIX, 等等。) W…

Dev-C++ 的下载、安装和配置

Dev-C 的下载、安装和配置 Dev-C 下载 我们直接打开 https://sourceforge.net/projects/orwelldevcpp/ 点击 Download 进行下载即可,如下图所示: 下载速度也不错,很快就可以下载完成了。 不像某些博主,为了引流量,…

Cadence Allegro PCB设计88问解析(二十二) 之 Allegro中放入元器件

一个学习信号完整性仿真的layout工程师 在之前的文章和大家介绍过Allegro中导入网表,那么导入网表成功之后,还在Allegro在进行一步就是放入导入成功的器件。下面和大家简单介绍具体的操作过程: 第一步:添加版外形outline 我们在…

DAX:SUMMARIZE的秘密

作为一个查询函数,SUMMARIZE 执行三个操作: 它可以按表本身或相关表的任何列对表进行分组;它可以创建新列,在行上下文和过滤上下文中计算表达式;它可以产生不同级别的小计(subtotal)。 在 SUMMARIZE 的三个主要操作中&…

PHP代码审计系列(三)

PHP代码审计系列&#xff08;三&#xff09; 本系列将收集多个PHP代码安全审计项目从易到难&#xff0c;并加入个人详细的源码解读。此系列将进行持续更新。 sql闭合绕过 源码如下 <?phpif($_POST[user] && $_POST[pass]) {$conn mysql_connect("*******…

关于操作PPL进程引发的一些问题

背景 之前发布过一篇关于procexp的利用&#xff0c;但是最近有brother说&#xff0c;最新的版本不能利用了&#xff0c;然后就去下载了最新版本的。 发现判断了是不是受保护进程&#xff0c;不是就拒绝。 这里简单看一下这个函数&#xff0c;发现对比的是_PS_PROTECTION,其实就…