4. HBase必知必会理论基础篇

news2025/1/1 23:19:34

HBase必知必会理论基础篇

    • 1.1 HBase简介
    • 1.2 HBase 数据模型
    • 1.3 HBase整体架构
    • 1.4 HBase 读写流程
      • 1.4.1 客户端读取流程
      • 1.4.2 客户端写入流程
    • 1.5 HBase 客户端常用的方法
      • 1.5.1 scan查询
      • 1.5.2 get查询
      • 1.5.3 put查询
      • 1.5.4 delete 查询
      • 1.5.5 append 查询
      • 1.5.6 increment查询
    • 1.6 HBase 过滤器以及协处理器
      • 1.6.1 过滤器
      • 1.6.2 协处理器
    • 1.7 表设计原则

1.1 HBase简介

  • HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java。
  • 它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务,可以存储海量稀疏的数据,并具备一定的容错性、高可靠性及伸缩性。

主要应用场景是实时随机读写超大规模的数据

hbase特点

  • 面向列存储,表结构比较灵活,支持多版本。
  • 数据强一致
  • 可扩展性高。
  • 实时的读/写操作
  • 支持单行事务(单row的事务,默认会加行锁)
  • 只支持rowkey、rowkey范围查询
  • 故障转移

与传统关系数据库相比优点:

1.多版本数据:可以查询存储变动的历史数据
2.数据灵活度:mysql有多少列是固定的,增加null的列会浪费存储空间,hbase为null的column不会被存储,节省空间提 高性能
3.超大数据量
4.自动分区:数据自动切分数据,使得数据存储自动具有水平可扩展性
5.良好扩容

与传统关系数据库相比缺点:

1.不能灵活根据条件查询
2.没有强大关系,事务等

1.2 HBase 数据模型

专业术语解释
Table有多行组成的hbase表
RawHBase中的行里面包含一个key和一个或者多个包含值的列。行按照行的key字母顺序存储在表格中。因为 这个原因,行的key的设计就显得非常重要。数据的存储目标是相近的数据存储到一起。
ColumnHBase中的列包含用:分隔开的列族和列的限定符。
Column Family因为性能的原因,列族物理上包含一组列和它们的值。每一个列族拥有一系列的存储属性,例如值是否缓存在内存中,数据是否要压缩或者他的行key是否要加密等等。表格中的每一行拥有相同的列族,尽管一个给定的行可能没有存储任何数据在一个给定的列族中
Column Qualifier列的限定符是列族中数据的索引。例如给定了一个列族content,那么限定符可能是content:html,也可以是content:pdf。列族在创建表格时是确定的了,但是列的限定符是动态地并且行与行之间的差别也可能是非常大的。
Cell单元是由行、列族、列限定符、值和代表值版本的时间戳组成的。
Timestamp时间戳是写在值旁边的一个用于区分值的版本的数据。默认情况下,时间戳表示的是当数据写入时RegionSever的时间点,但你也可以在写入数据时指定一个不同的时间戳
结果排序针对查询结果排序:Row->ColumnFamily->Column qualifier-> timestamp(时间倒序,时间最新最先返回)

1.3 HBase整体架构

在这里插入图片描述

1.4 HBase 读写流程

1.4.1 客户端读取流程

  1. 客户端首先根据配置信息连接zookeeper集群,读取zookeeper节点上的meta表的位置信息
  2. client向meta表的region所在的regionserver发起访问,读取meta表的数据,获取hbase集群 上所有表的元数据(当meta信息变化,客户端根据缓存meta信息请求发生异常,会重新加载一份 新的元数据到本地)
  3. 根据meta表元数据(查询region数,region分布以及region的startkey,stopkey),找到要查 询rowkey数据所在的region分布
  4. client向regionserver发起读请求访问
  5. regionserver接到读请求访问,会先扫描memstore写缓存数据,再扫描blockcache读缓存, 若果没有找到数据再去读取storefile中的数据(优先查询本地副本文件)
  6. regionserver将查询到的结果返回给client

1.4.2 客户端写入流程

  1. put/delete操作,客户端根据meta信息找到对应的regionserver,然后提交请求。
  2. 服务器接受到请求,反序列为对应对象,执行操作检查:region是否只读,memstore大小是否
    超过blockingMemstoreSize,检查完成执行如下操作
    在这里插入图片描述

HBase - 数据写入流程解析

1.5 HBase 客户端常用的方法

1.5.1 scan查询

Scan scan= new Scan();
scan.setStartRow(Bytes.toBytes("4"));
scan.setStopRow(Bytes.toBytes("4~"));
scan.setTimeRange(1510735857892L, 1511403550619L);
scan.setCaching(1);//设置一次rpc请求批量读取的Results数量
scan.setBatch(5);//设置返回数据的最大行数
scan.setMaxVersions();//查询列的全部版本
scan.setReversed(true);//默认false,正向查找,若为true则逆向扫描
scan.setCacheBlocks(true);//默认true,查询结果可以缓存到服务器内存
scan.setSmall(false); //64kb以内小范围scan设置为true效果更好,默认false
scan.setFilter(new RowFilter(CompareOp.EQUAL,new BinaryPrefixComparator("4".getBytes())));//设置过滤器
ResultScanner resultScan=table.getScanner(scan);
  • hbase scan客户端服务端流程

1.5.2 get查询

Get get=new Get(Bytes.toBytes("1fb7fe0047771222975dfb94fdede2fc"));
get.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("20171115#5000491#100081"));
get.setMaxVersions();
get.setFilter(new ColumnPrefixFilter(Bytes.toBytes("20171115")));
get.setMaxResultsPerColumnFamily(1);//设置每行每个列簇返回的最大条数
get.setTimeRange(1510735857899L,1511403550618L);
Result result=table.get(get);
// 支持Get的批量list执行
List<Get> gets=new ArrayList<Get>();
gets.add(new Get(Bytes.toBytes("1fb7fe0047771222975dfb94fdede2fc")));
gets.add(new Get(Bytes.toBytes("44e29606bcc7332abc8b4ffe3a7c70a6")));
Result[] results=table.get(gets);

1.5.3 put查询

Put put=new Put(Bytes.toBytes("4cdf47795d51dae263b2dd3bca9381b8"));
put.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("20181208#5000491#100084"),System.currentTimeMillis(), Bytes.toBytes("1"));
put.setTTL(10000L);//设置result的过期时间
put.setWriteToWAL(true);//控制写入是否写hlog日志
table.put(put);

// 支持批量put
table.puts(puts)

1.5.4 delete 查询

Delete delete=new Delete(Bytes.toBytes("1fb7fe0047771222975dfb94fdede2fc"));
delete.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("20171116#5000491#100081"), 1511403550618L);
delete.addColumns(Bytes.toBytes("cf"), Bytes.toBytes("20171123#5000491#100084"), 1511403550618L);
delete.setWriteToWAL(true);
table.delete(delete);

支持批量delete
table.delete(deletes);

1.5.5 append 查询

table=HbaseClient.getInstance().getHtable("ApplyLoan_Detail");
Append append=new Append(Bytes.toBytes("1fb7fe0047771222975dfb94fdede2fc"));//value值中追加内容
append.add(Bytes.toBytes("cf"), Bytes.toBytes("20171115#5000491#100081"), Bytes.toBytes("9"));
append.setTTL(10000L);//针对当前result设置失效时间
append.setWriteToWAL(true);
table.append(append);

1.5.6 increment查询

Increment increment=new Increment(Bytes.toBytes("4cdf47795d51dae263b2dd3bca9381b5"));
increment.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("incr"), 10);
increment.setTTL(10000L);
increment.setTimeRange(1510735857892L, 1546070521593L);
increment.setWriteToWAL(true);

1.6 HBase 过滤器以及协处理器

1.6.1 过滤器

  • RowFilter,FamliyFilter,QualifierFilter,ValueFilter :行键过滤器,列簇过滤器,列过滤器,值过滤器
  • TimestampsFilter:时间过滤器
  • SingleColumnValueFilter:单列值过滤器,用一列的值决定这一行的数据是否被过滤,支持一些正则,比

较之类的比较器操作,可与下面四个比较器一起使用:

  • RegexStringComparator:支持正则表达式的值比较

  • SubstringComparator : 用于监测一个子串是否存在于值中,并且不区分大小写

  • BinaryPrefixComparator : 前缀二进制比较器。与二进制比较器不同的是,只比较前缀是否相同。

  • BinaryComparator : 二进制比较器,用于按字典顺序比较 Byte 数据值

  • SingleColumnValueExcludeFilter :单列值排除器

  • PrefixFilter:前缀过滤器,针对行键,筛选出具有特定前缀的行键的数据

  • ColumnPrefixFilter:列前缀过滤器

  • PageFilter:分页过滤器,用在region上,只能保证当前region返回相应的数量,也可以理解为每次数据量=region数量
    *pageNum

  • KeyOnlyFilter:这个过滤器唯一的功能就是只返回每行的行键,值全部为空,这对于只关注于行键的应用场景来说非常合
    适,这样忽略掉其值就可以减少传递到客户端的数据量,能起到一定的优化作用

  • FilterList:多个filter过滤器可以通过进行控制,FilterList.Operator.MUST_PASS_ALL 或者

  • FilterList.Operator.MUST_PASS_ONE控制满足条件

具体处理器详见官网:https://hbase.apache.org/1.2/book.html#thrift.filter_language

1.6.2 协处理器

  • 协处理器

HBase作为列式数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。
协处理器是HBase让用户的部分逻辑在数据存放端即HBase服务端进行计算的机制,它允许用户在HBase服务端运行自己
的代码。通过协处理器可以比较容易的实现能够轻易建立二次索引、复杂过滤器以及访问控制等。

协处理器分成两种类型:一个是观察者(Observer),类似于关系数据库的触发器。另一个是终端(Endpoint),动态的
终端有点像存储过程。

  • observer

    • 实现自定义observer,根据要监听事件的不同,实现以下不同的observer。
    • RegionObserver:观察客户端更新数据操作:Get、Put、Delete等。一般通过继承BaseRegionObserver实现。
    • RegionServerObserver:监听regionserver的启动、停止、region合并、split。一般通过继承
    • BaseMasterAndRegionObserver实现。
    • MasterOvserver:监听表创建、修改、分配region操作。一般通过继承BaseMasterAndRegionObserver实现。
    • WalObserver: 监听WAL日志的写入。一般通过继承BaseWALObserver实现。
  • Endpoint

Endpoint是动态RPC插件的接口,它的实现代码被安装在服务器端,从而能够通过HBase RPC唤醒。客户端类库提供
了非常方便的方法来调用这些动态接口,它们可以在任意时候调用一个终端。一般可用于计数、求和等聚合方法。

  • 自定义Endpoint
    1.编写接口定义proto文件
    2.编译proto文件,生成java代码
    3.继承CoprocessorService 、自定义service,实现自定义逻辑
  • 官方文档:https://hbase.apache.org/1.2/book.html#_coprocessor_overview
  • 中文样例:https://www.cnblogs.com/frankdeng/p/9310340.html
  • 使用示例:http://blog.csdn.net/carl810224/article/details/52224441

1.7 表设计原则

表模式经验原则:

  • region 大小在10-50G之间

  • cell 不大于10MB,如果是mob不让大小超过50MB,否则就考虑将单元数据放到hdfs,将数据的存储指针存到hbase中

  • 每个表的列簇最好在1-3之间,尽可能保持1个最好(原因:数据不均,major造成不必要的io,scan数据量较小的 columnFamily效率会低)

  • 对于一个有1个或2个列族的表来说,region数在50到100左右是一个很好的数字。记住一个region是一个列族的一个连 续分段

  • 列簇尽可能短(每个value都会存储对应的列簇)

  • 如果仅有1个列族忙着写,则只有那个列族在占用越来越多的内存。在分配资源时要注意写模式

  • 保证对写和查询不引起热点数据问题,对rowkey进行hash

  • 尽量减少rowkey和column的大小,rowkey最大长度64kb

  • 倒序时间戳:数据处理找最近时间版本,可设计key如下:key+(Long.MAX_VALUE-timestamp)

  • 预分区:建表提前创建预分区,避免自动split,提升性能

  • 版本:对列簇可单独设置版本,默认1个版本,不建议最大版本设置很大(成百或者更多),除非历史数据特别重要 最小版本数缺省值是0,表示该特性禁用

  • TTL:针对无用版本进行删除操作,作用在列簇上,客户端也可以设置单元格TTL,但是一个单元TTLs不能延长一个单元 的有效生命周期到超出了一个列的级别TTL设置。禁用:设置hbase.store.delete.expired.storefile为false可以禁用这个功
    能,设置最小版本数为0以外的值也可以禁用此功能

  • 压缩算法:对于对查询速度要求比较高的,可使用snappy。对应离线数据,追求高压缩率的可使用lzo。

  • bloomfilter:用于提高随机读(Get)的性能,对于顺序读(Scan)而言,bloomfilter没有什么作用.bloomfilter主要用
    于过滤要查询storefile文件。

  • blocksize:请求以Get请求为主,可以考虑将块大小设置较小;如果以Scan请求为主,可以将块大小调大;

  • 每个regionserver上面最好20-200个5-20Gb的region,100个region效果最好

  • 英文版:https://hbase.apache.org/1.2/book.html#table_schema_rules_of_thumb
  • 中文对应:https://www.cnblogs.com/sunspeedzy/p/7501825.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/999774.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从零开始在树莓派上搭建WordPress博客网站并实现公网访问

文章目录 序幕概述1. 安装 PHP2. 安装MySQL数据库3. 安装 Wordpress4. 设置您的 WordPress 数据库设置 MySQL/MariaDB创建 WordPress 数据库 5. WordPress configuration6. 将WordPress站点发布到公网安装相对URL插件修改config.php配置 7. 支持好友链接样式8. 定制主题 序幕 …

今天给大家分享一个绘图的 RGB COLOR TABLE

如果大家觉得有用&#xff0c;就点个赞让更多的人看到吧~

微信支付上新的“分分捐”很暖心,一起吗?

今天在买东西付款后发现&#xff0c;在付款页面发现下方出现了一个公益项目&#xff0c;名为“为乡村儿童送鸡蛋 去捐 0.01元”的提示。去查了一下才知道该功能名叫“分分捐”。 微信分分捐是什么&#xff1f; 当微信支付金额超过 5 元且为非整数的订单&#xff08;红包、转账…

如何激励员工?

如何激励员工&#xff1f;激励就是发现员工的需求&#xff0c;并满足它。 今天想给大家介绍下“马斯洛需求理论”&#xff0c;毕竟想要更好的激励下属创造价值&#xff0c;你首先需要了解他想要什么。对吧。 马斯洛需求理论是美国心理学家马斯洛在上世纪四十年代年提出的。他…

钢建筑模板和木建筑模板的优缺点?

当涉及到建筑模板材料时&#xff0c;钢模板和木模板都是常见的选择。它们各自具有一些优点和缺点&#xff0c;下面是钢模板和木模板的介绍&#xff1a; 钢模板的优点&#xff1a; 强度和稳定性&#xff1a;钢模板具有高强度和稳定性&#xff0c;能够承受较大的荷载和压力&…

人大女王金融硕士——不要成为群羊中盲从的羊,别人疯狂你要冷静

随着社会经济的迅速发展&#xff0c;经济全球化不断扩大&#xff0c;教育体系的完善。越来越多的人追求高学历&#xff0c;通过系统的学习来提升自己的知识储备&#xff0c;增长见识。这也导致每年考研成人逐年增加&#xff0c;录取率也逐年下降。很多选择考研的人&#xff0c;…

做游戏开发需要读研吗?

主观建议版 【是否要读研再工作——不建议】 游戏行业不太看重研究生上学就是为了更好的进入工作&#xff0c;许多人考研就是为了拿到工作的敲门砖。而你现在已经一脚迈入门里面了。对于游戏开发从业者而言&#xff0c;走企业路线的&#xff0c;工作中的经验远比课堂上的知识…

适合小企业的CRM客户管理系统

对于小企业而言&#xff0c;选择一款适合自己的CRM系统可以帮助他们更好地管理客户关系&#xff0c;提高销售业绩&#xff0c;加强市场营销和客户服务等方面的能力。但是&#xff0c;由于市面上CRM系统品牌众多&#xff0c;功能各异&#xff0c;价格不一&#xff0c;小企业适合…

vulnhub靶机Brainpan

主机发现 arp-scan -l 端口扫描 nmap --min-rate 10000 -p- 192.168.21.156 服务扫描 nmap -sV -sT -O -p9999,10000 192.168.21.156 这个地方感到了有点不对劲&#xff0c;python起来的一个web端口 漏洞扫描 nmap --scriptvuln -p9999,10000 192.168.21.156 意料之中&…

java接入apiv3微信小程序支付(以java的eladmin框架为例)

一、需要准备的资料 1.小程序AppID 如&#xff1a;wx2e56f5****** 2.商户号 如&#xff1a;1641****** 3.商户API私钥路径&#xff1a;什么是商户API证书&#xff1f;如何获取商户API证书&#xff1f; 获取文件如下图&#xff1a; 如&#xff1a; 本地路径&#xff1a;E:\Env\e…

计算机提示d3dcompiler43.dll缺失怎么修复,多个解决方法分享

在游戏玩家中&#xff0c;遇到游戏提示找不到 d3dcompiler43.dll 文件的情况并不罕见。这使得许多玩家在启动游戏时感到困扰&#xff0c;因为这意味着他们可能无法正常运行游戏。那么&#xff0c;d3dcompiler43.dll 文件到底是什么呢&#xff1f;为什么游戏会提示找不到它呢&am…

注塑车间是否需要导入MES系统?

判定注塑车间是否需要导入MES系统时&#xff0c;需要谨慎考虑下述几个重要因素&#xff1a; 1.生产加工复杂性和多样化&#xff1a; 倘若注塑车间生产出来的产品品种繁多&#xff0c;涉及到多个工艺过程、不同类型的生产过程和参数设置&#xff0c;那么MES系统能够带去更加精准…

为什么当下MES如此火热,各大制造业工厂都在推行?

MES系统的特点&#xff1a; 1&#xff09;数据采集引擎、整合数据采集渠道&#xff08;RFID、条码设备、PLC、Sensor、IPC、PC等&#xff09;覆盖整个工厂制造现场&#xff0c;保证现场数据的实时、准确、全面的采集&#xff1b; 2&#xff09;打造工厂生产管理系统数据采集基础…

文心一言 VS 讯飞星火 VS chatgpt (90)-- 算法导论8.3 3题

三、用go语言&#xff0c;利用归纳法来证明基数排序是正确的。在你所给出的证明中&#xff0c;在哪里需要假设所用的底层排序算法是稳定的? 文心一言&#xff1a; 基数排序是一种非比较型整数排序算法&#xff0c;其通过在每一位上进行比较来排序。基数排序的一个主要特点是…

不会用手机做二维码?文本、链接码用手机生成的方法

现在很多功能都可以通过手机来实现&#xff0c;用手机制作二维码就是很多小伙伴经常会使用的一个功能&#xff0c;那么在手机上制作文本或者网址二维码是最常见的两种类型。下面就给还会在线制作二维码的小伙伴分享一个工具&#xff0c;通过简单的操作方法就可以快速做出文本码…

华为回击:制裁无法阻挡中国科技创新 | 百能云芯

华为最新推出的Mate 60 Pro手机引发了中国市场的抢购热潮&#xff0c;这一成功的举措为华为带来了信心。华为在这个背景下再度推出两款新机&#xff0c;其中包括高阶版的Mate 60 Pro和折叠式手机Mate X5。这两款手机在首批预购开始后迅速售罄&#xff0c;不仅取得了市场的热烈欢…

【软件测试】Postman中变量的使用

Postman中可设置的变量类型有全局变量&#xff0c;环境变量&#xff0c;集合变量&#xff0c;数据变量及局部变量。区别则是各变量作用域不同&#xff0c;全局变量适用于所有集合&#xff0c;环境变量适用于当前所选环境&#xff08;所有集合中均可使用不同环境变量&#xff09…

3D人脸扫描设备助推元宇宙虚拟人打造

近几年&#xff0c;数字人被广泛应用到文娱、教育、政务、经济、科技等各大领域&#xff0c;如梅兰芳孪生数字人&#xff0c;通过照片采集梅兰芳先生的三维数据&#xff0c;然后依据照片制作1&#xff1a;1无表情头部雕塑&#xff0c;再用扫描设备扫描雕塑&#xff0c;获得梅兰…

SAP MM学习笔记 - 错误 ME092 - Material mainly procured internally(原则上该物料只能内部调达)

购买依赖&#xff0c;购买发注的时候&#xff0c;会出一些错误或警告&#xff0c;碰到的时候&#xff0c;能解决的话&#xff0c;咱们就记录一下。 比如 Msg 番号 ME092 该品目原则上是内部调达。 如下图&#xff0c;本次出这个错误的原因是&#xff0c;ME51N做购买依赖&…

期权权利金计算方法大揭秘!详解期权权利金的计算公式

期权的权利金就是指期权合约市场当时的价格&#xff0c;权利金是会浮动的&#xff0c;跟股票的价格一样&#xff0c;随着市场的波动而波动。权利金是期权费&#xff0c;不是保证金。那么期权权利金计算方法大揭秘&#xff01;详解期权权利金的计算公式。 一、什么是期权的权利金…